WO2020138479A1 - 個体の形質情報を予測するためのシステムまたは方法 - Google Patents

個体の形質情報を予測するためのシステムまたは方法 Download PDF

Info

Publication number
WO2020138479A1
WO2020138479A1 PCT/JP2019/051564 JP2019051564W WO2020138479A1 WO 2020138479 A1 WO2020138479 A1 WO 2020138479A1 JP 2019051564 W JP2019051564 W JP 2019051564W WO 2020138479 A1 WO2020138479 A1 WO 2020138479A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
genetic
data
trait
learning
Prior art date
Application number
PCT/JP2019/051564
Other languages
English (en)
French (fr)
Inventor
雅允 今野
秀始 石井
森 正樹
歩 浅井
準 小関
Original Assignee
国立大学法人大阪大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人大阪大学 filed Critical 国立大学法人大阪大学
Priority to JP2020562540A priority Critical patent/JPWO2020138479A1/ja
Priority to US17/418,168 priority patent/US20220101147A1/en
Publication of WO2020138479A1 publication Critical patent/WO2020138479A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Definitions

  • the present disclosure relates to the field of data analysis. More specifically, the present invention relates to a technique for predicting individual trait information from individual genetic information data.
  • nucleic acid sequences including genomic sequences, gene expression information, non-coding nucleic acid expression information, nucleic acid epigenetic modifications, and the like.
  • information such as nucleic acid sequences including genomic sequences, gene expression information, non-coding nucleic acid expression information, nucleic acid epigenetic modifications, and the like.
  • a system for predicting trait information of an individual or a method, a program and a recording medium using the system are provided.
  • This aspect of the present disclosure contemplates that by learning from the information of a plurality of individuals, it is possible to predict the trait information of the individual from the genetic information of the individual and display the prediction result. ..
  • the association between genetic information and trait information can be learned from the genetic information of a plurality of individuals and the trait information of the plurality of individuals.
  • genetic information a plurality of genetic information (for example, genetic factors) It is possible to learn using the sequence information (for example, mutation information), expression information, and modification information (for example, methylation information), predict based on the learning, and display the result.
  • learning may include imaging and learning genetic information of multiple individuals. Such imaging can be performed, for example, as detailed elsewhere in this specification. Also, the imaged data may have a data format as detailed elsewhere in this specification. This can maximize the performance of artificial intelligence when simultaneously learning large amounts of data regarding multiple types of genetic information by artificial intelligence.
  • the learning is performed by dividing genetic information and learning a relation between partial genetic information and trait information, and then integrating a plurality of partial genetic information and trait information. Can be performed so as to learn the relationship between and trait information. As a result, the restriction on the amount of data in the genetic information can be eliminated.
  • a system for predicting individual trait information A storage unit for storing genetic information of a plurality of individuals and trait information of the plurality of individuals, the genetic information including at least two types of information; A learning unit configured to learn the relationship between the genetic information and the trait information from the genetic information of the plurality of individuals and the trait information of the plurality of individuals; A system for predicting trait information of an individual from genetic information of the individual based on the relationship between the genetic information and the trait information.
  • the learning unit is configured to image and learn genetic information of the plurality of individuals.
  • the learning unit divides the genetic information of the plurality of individuals to learn the relationship between the partial genetic information and the trait information, integrates the relationship between the plurality of partial genetic information and the trait information, and combines the genetic information and the trait.
  • the system according to any of the preceding items configured to learn associations with information.
  • the genetic information is selected from the group consisting of sequence information (for example, mutation information) of genetic factors, expression information, and modification information (for example, methylation information).
  • the imaging of the genetic information of the plurality of individuals is configured to be performed by the imaging method according to any of the listed items.
  • [Item A6] The system according to any of the preceding items, wherein the learning unit is configured to use data having the data structure according to the item C for learning.
  • the learning unit is configured to learn the association between the genetic information and the trait information by the method according to any of the item D.
  • an analysis unit that analyzes the diagnosis of the individual and/or the treatment or prevention of the individual from the trait information predicted by the calculation unit.
  • a display unit that displays the trait information predicted by the calculation unit.
  • a method for predicting individual trait information comprising: An information providing step of providing genetic information of a plurality of individuals and trait information of the plurality of individuals, the genetic information including at least two types of information; A learning step of learning the relationship between the genetic information and the trait information from the genetic information of the plurality of individuals and the trait information of the plurality of individuals; A prediction step of predicting the trait information of the individual from the genetic information of the individual based on the relation between the genetic information and the trait information.
  • a method for predicting individual trait information comprising: An information providing step of providing genetic information of a plurality of individuals and trait information of the plurality of individuals, the genetic information including at least two types of information; A learning step of learning the relationship between the genetic information and the trait information from the genetic information of the plurality of individuals and the trait information of the plurality of individuals; A prediction step of predicting the trait information of the individual from the genetic information of the individual based on the relationship between the genetic information and the trait information; A step of displaying the predicted trait information. [Item A3-1] The method of any of the preceding items, further comprising the features of any or more of the items.
  • a method for causing a computer to execute a method for predicting individual trait information comprising: An information providing step of providing genetic information of a plurality of individuals and trait information of the plurality of individuals, the genetic information including at least two types of information; A learning step of learning the relationship between the genetic information and the trait information from the genetic information of the plurality of individuals and the trait information of the plurality of individuals; A predicting step of predicting trait information of an individual from genetic information of the individual based on the relation between the genetic information and the trait information.
  • the program according to the item, wherein the method further includes a display step of displaying the predicted trait information.
  • a recording medium storing a program for causing a computer to execute a method for predicting trait information of an individual, the method comprising: An information providing step of providing genetic information of a plurality of individuals and trait information of the plurality of individuals, the genetic information including at least two types of information; A learning step of learning the relationship between the genetic information and the trait information from the genetic information of the plurality of individuals and the trait information of the plurality of individuals; A recording medium including a prediction step of predicting trait information of an individual from genetic information of the individual based on a relationship between the genetic information and the trait information.
  • a method for imaging sequence data of a genetic factor population including a plurality of genetic factors and expression data of a genetic factor population including a plurality of genetic factors comprising: Generating image data storing sequence data of the genetic factor population and expression data of the genetic factor population, the image data having a plurality of pixels, each pixel including position information and color information. Including a method.
  • Each of the plurality of genetic factors is associated with a region in the image data, the step of generating the image data, A step of converting the expression amount of the genetic factor into color information in a certain region within a region corresponding to the genetic factor and/or information about an area of a region having a certain color in the region.
  • [Item B2-1] A program for causing a computer to execute a method of imaging sequence data of a genetic factor population containing a plurality of genetic factors and expression data of a genetic factor population containing a plurality of genetic factors, the method comprising the sequence data of the genetic factor population.
  • a method of imaging genetic information, the genetic information comprising sequence data and/or expression data of a genetic factor population comprising a plurality of genetic factors comprising: Generating image data storing sequence data and/or expression data of the genetic factor population, the image data having a plurality of pixels, each pixel including position information and color information,
  • the step includes associating each of the plurality of genetic factors with a region in the image data, and the regions corresponding to the respective genetic factors are arranged such that the genetic factors having strong correlation weights are close to each other.
  • a method comprising the steps of: [Item B4] The method according to the preceding item, wherein the step of generating the image data further includes calculating an area of a region in the image data required for the genetic factor.
  • [Item B4-1] A program for causing a computer to execute a method of imaging genetic information, the genetic information including sequence data and/or expression data of a genetic factor population including a plurality of genetic factors, the method comprising: Generating image data storing sequence data and/or expression data of the genetic factor population, the image data having a plurality of pixels, each pixel including position information and color information, The step includes associating each of the plurality of genetic factors with a region in the image data, and the regions corresponding to the respective genetic factors are arranged such that the genetic factors having strong correlation weights are close to each other.
  • the correlation weight is The combination of genetic factors having a strong correlation is extracted from the correlation analysis between the genetic factors, Extract the strongly correlated genetic factors for each genetic factor, Performs variable selection multiple regression using the extracted genetic factors, The method according to any of the preceding items, which is calculated by calculating a correlation weight from the result of the variable selection multiple regression.
  • the sequence data of the genetic factor population includes sequence data of factors involved in an event of transmitting a genetic trait from a parent cell to a daughter cell.
  • the expression data of the genetic factor population includes expression data of a factor involved in information transmission only in the current generation.
  • the method according to any of the preceding items wherein the sequence data and expression data are for a genetic element of the same individual.
  • Each of the plurality of genetic factors is associated with a region in the image data, the step of generating the image data, The method according to any one of the preceding items, comprising a step of converting information on the position and type of mutation in the sequence of a certain genetic factor into position and color information in the region corresponding to the genetic factor.
  • the step of generating the image data comprises The method according to any of the preceding items, further comprising the step of converting information on the modification in the sequence of a certain genetic factor into position and color information within the region corresponding to the genetic factor.
  • the expression data of the genetic factor population includes miRNA, snoRNA, siRNA, tRNA, rRNA, mitRNA, and/or long non-coding RNA expression level, splicing, transcription start point, and/or epigenetic modification data. , The method according to any of the preceding items.
  • [Item B16] A method for creating a model for predicting trait information of an individual from sequence information and expression information of genetic factors of the individual, A step of imaging the sequence information and expression information of the genetic factors of a plurality of individuals by the method according to any one of the above items, and providing image data; Providing trait information of the plurality of individuals, Extracting from the image data and the trait information, by deep learning, a feature expression in the image that correlates with the trait.
  • a program that causes a computer to execute a method of imaging sequence data of a genetic factor population containing a plurality of genetic factors and expression data of a genetic factor population containing a plurality of genetic factors, the method comprising: Generating image data storing sequence data of the genetic factor population and expression data of the genetic factor population, the image data having a plurality of pixels, each pixel including position information and color information. Including, the program.
  • a recording medium storing a program for causing a computer to execute a method for imaging sequence data of a genetic factor population including a plurality of genetic factors and expression data of a genetic factor population including a plurality of genetic factors, the method comprising: Generating image data storing sequence data of the genetic factor population and expression data of the genetic factor population, the image data having a plurality of pixels, each pixel including position information and color information. Recording media including.
  • a system for performing a method of imaging sequence data of a genetic factor population containing a plurality of genetic factors and expression data of a genetic factor population containing a plurality of genetic factors comprising: An image generation unit that generates image data that stores sequence data of the genetic factor population and expression data of the genetic factor population, the image data having a plurality of pixels each including position information and color information,
  • a system comprising: an image generation unit, sequence data of the genetic factor population, expression data of the genetic factor population, and a data storage unit that stores the image data.
  • a program that causes a computer to execute a method for creating a model for predicting trait information of an individual from sequence information and expression information of a genetic factor of the individual, the method comprising: A step of imaging the sequence information and expression information of genetic factors of a plurality of individuals by the method according to any one of items B1 to B15, and providing image data; Providing trait information of the plurality of individuals, A step of extracting a feature expression in an image that is correlated with a trait by deep learning from the image data and the trait information.
  • a recording medium storing a program for causing a computer to execute a method for creating a model for predicting trait information of an individual from the sequence information and expression information of genetic factors of the individual, the method comprising: A step of imaging the sequence information and expression information of genetic factors of a plurality of individuals by the method according to any one of the above items, and providing image data; Providing trait information of the plurality of individuals, A step of extracting a feature expression in an image that is correlated with a trait by deep learning from the image data and the trait information.
  • a system for executing a method for creating a model for predicting trait information of an individual from sequence information and expression information of genetic factors of the individual comprising: An image generation unit that images sequence information and expression information of genetic factors of a plurality of individuals by the method according to any one of the items, and provides image data, Trait information of the plurality of individuals, and a data storage unit that stores the image data, A learning unit that extracts a feature expression in an image that is correlated with a trait by deep learning from the image data and the trait information.
  • the image data has a plurality of regions associated with the plurality of genetic factors, Each position in the sequence of the genetic factor is associated with a position in the region associated with the genetic factor, Information of substitution, deletion and/or insertion at each position in the sequence of the genetic element is stored as color information at a position corresponding to the position,
  • a data structure in which expression data of the genetic factor is stored as color information in a certain area in the area and/or as information about an area of a certain area in the area having a certain color.
  • a data structure of image data representing sequence information and expression information wherein the image data is a matrix having rows and columns, and each position in the image data is stored as a combination of rows and columns,
  • the sequence information includes a DNA sequence of a region on the genome, and the region on the genome includes a region encoding a gene, exon, intron, non-expression region, and/or non-coding RNA
  • the expression information includes the expression level of a transcription unit selected from the group consisting of mRNA, miRNA, snoRNA, siRNA, tRNA, rRNA, mitRNA, and/or long non-coding RNA, splicing, transcription initiation point, and/or Contains information on epigenetic modifications,
  • the image data has a region on each genome and/or a plurality of regions associated with a transcription unit,
  • the region associated with the region on the genome consists of a number of columns and a fixed number of rows depending on the length of the region on the genome, Each position in the sequence of the region on the genome
  • the color information Indicates that the color information indicates that it is replaced by A, the color information indicates that it is replaced by T, the color information that indicates that it is replaced by G, and that it is replaced by C.
  • Color information color information indicating that there is a deletion, or color information indicating that there is an insertion adjacent to the position
  • the information of the array to be inserted, the color information indicating the array to be inserted is stored, starting from the position in the even column adjacent to the position having the color information indicating that the insertion exists,
  • Information on the epigenetic modification at each position in the sequence of the region on the genome is stored as color information at the position in the odd-numbered column corresponding to the position, and the color information is a color indicating that there is no epigenetic modification.
  • the expression level of the transcription unit has a shade of color in a region in the image corresponding to the region on the genome and/or has a certain color in the region.
  • the expression level of mRNA corresponding to the gene is stored as the shade of color in a certain region in the region and/or as information on the area of the region having a certain color in the region. Is a data structure.
  • [Item D1] A method for creating a model for predicting a relationship between an image and information corresponding to the image, Providing a plurality of images and a plurality of sets of information corresponding to the plurality of images; Dividing the plurality of images, learning a relation between a portion of the plurality of images and information corresponding to the images, and obtaining a plurality of divided learning data, Integrating the plurality of split learning data to generate a model that predicts an association between the image and information corresponding to the image.
  • the step of integrating includes detecting a GPU specification and a CPU specification including a memory mounting amount using a CPU machine equipped with a GPU.
  • the integrating step includes using a Read-Write file on an HDD and optimizing a non-linear optimization processing algorithm that maximizes use of CPU memory.
  • the non-linear optimization processing algorithm according to any one of the above items, which is an algorithm capable of performing a calculation independently of a data size by moving necessary data to a memory at any time for calculation and returning the calculation result to an HDD. the method of.
  • the non-linear optimization process comprises optimizing all discriminant parameters.
  • Method. In the step of obtaining the plurality of divided learning data, verifying the discriminative ability of each divided learning data, select the divided learning data having discriminative power, and provide for integration, Method.
  • Method. [Item D1-1] A program for causing a computer to execute a method for creating a model for predicting a relationship between an image and information corresponding to the image, the method comprising: Providing a plurality of images and a plurality of sets of information corresponding to the plurality of images; Dividing the plurality of images, learning a relation between a portion of the plurality of images and information corresponding to the images, and obtaining a plurality of divided learning data, A program including a step of integrating the plurality of pieces of divided learning data to generate a model that predicts a relationship between the image and information corresponding to the image.
  • a recording medium storing a program that causes a computer to execute a method for creating a model for predicting a relationship between an image and information corresponding to the image, the method comprising: Providing a plurality of images and a plurality of sets of information corresponding to the plurality of images; Dividing the plurality of images, learning a relation between a portion of the plurality of images and information corresponding to the images, and obtaining a plurality of divided learning data, A recording medium, comprising: integrating the plurality of pieces of divided learning data to generate a model that predicts a relationship between the image and information corresponding to the image.
  • a system for creating a model for predicting a relationship between an image and information corresponding to the image comprising: A data store providing a plurality of images and a plurality of sets of information corresponding to the plurality of images; A data learning unit that divides the plurality of images, learns a relation between portions of the plurality of images and information corresponding to the images, and obtains a plurality of divided learning data; A system comprising: a model generation unit that integrates the plurality of pieces of divided learning data and generates a model that predicts a relationship between the image and information corresponding to the image.
  • a system for predicting individual trait information A storage unit for storing genetic information of a plurality of individuals and trait information of the plurality of individuals, the genetic information including sequence information and expression information of genetic factors; Learning is configured to learn the relationship between the genetic information and the trait information from the genetic information of the plurality of individuals and the trait information of the plurality of individuals by imaging the genetic information of the plurality of individuals.
  • Department A calculation unit for predicting the trait information of the individual from the genetic information of the individual based on the relation between the genetic information and the trait information,
  • the learning unit divides the image generated by imaging the genetic information of the plurality of individuals, learns the relation between each region of the image and the trait information, and determines the discriminating ability of the trait information from each region.
  • a system configured to select a region capable of generating a model having and generate a model predicting trait information from each region of the image.
  • tem E2 A method for creating a model for predicting a relationship between genetic information including sequence information and expression information of a genetic factor of an individual, and trait information of the individual, Providing a plurality of images that image sequence information and expression information of genetic factors of a plurality of individuals and a set of a plurality of trait information corresponding to the plurality of images, Dividing the plurality of images, learning a relation between a portion of the plurality of images and information corresponding to the images, and obtaining a plurality of divided learning data, Selecting from the plurality of pieces of divided learning data, pieces of divided learning data having the ability to discriminate trait information, and generating a model for predicting trait information from each region of the image.
  • a program for causing a computer to execute a method for creating a model for predicting a relationship between genetic information including sequence information and expression information of a genetic factor of an individual, and trait information of the individual comprising: Providing a plurality of images that image sequence information and expression information of genetic factors of a plurality of individuals and a set of a plurality of trait information corresponding to the plurality of images, Dividing the plurality of images, learning a relation between a portion of the plurality of images and information corresponding to the images, and obtaining a plurality of divided learning data, A step of selecting, from the plurality of pieces of divided learning data, pieces of divided learning data having discriminating ability for trait information, and generating a model for predicting trait information from each region of an image.
  • a system for predicting individual trait information A storage unit for storing genetic information of a plurality of individuals and trait information of the plurality of individuals, the genetic information including sequence information and expression information of genetic factors; Learning is configured to learn the relationship between the genetic information and the trait information from the genetic information of the plurality of individuals and the trait information of the plurality of individuals by imaging the genetic information of the plurality of individuals.
  • Department A calculation unit that predicts the trait information of the individual from the genetic information of the individual based on the relationship between the genetic information and the trait information,
  • the learning unit divides the image generated by imaging the genetic information of the plurality of individuals, learns the relation between each region of the image and the trait information, and determines the discriminating ability of the trait information from each region.
  • Select a region that can generate a model that has, determine whether trait information is predictable based on expression information in each region, and correlate with trait information from genes in regions where trait information is not predictable based on expression information Is configured to identify a gene having a mutation that The calculation unit is configured to predict trait information of the individual based on information of a gene having a mutation that correlates with the trait information.
  • the trait information can be predicted based on the expression information, Performing a clustering analysis for the plurality of individuals based on the expression level of each gene included in each region of the image, Dividing the plurality of individuals into groups according to trait information, Calculating the identity of the group and the clusters divided by the clustering analysis; The system according to the above item, which is performed by determining that the trait information is predictable based on the expression information when the identity exceeds a predetermined threshold value (for example, 80 to 90%).
  • the learning unit after determining whether the trait information is predictable based on the expression information, further divides the region in which the trait information is predictable based on the expression information, and for each divided region, the trait based on the expression information.
  • One of the above items which is configured to further determine whether the information is predictable, and is configured to identify a gene having a mutation that correlates with trait information, from a region that can be determined only by gene expression level information.
  • the system described. [Item F1-3] Identification of genes having mutations that correlate with trait information from genes in regions where trait information is not predictable based on the expression information is further divided into regions where trait information is unpredictable based on expression information. The system of any of the preceding items further comprising squeezing.
  • a method for identifying a mutation in a gene involved in a trait comprising: Providing a plurality of images that image sequence information and expression information of genetic factors of a plurality of individuals and a set of a plurality of trait information corresponding to the plurality of images, Dividing the plurality of images, learning a relation between a portion of the plurality of images and information corresponding to the images, and obtaining a plurality of divided learning data, Selecting a portion of the image for which divided learning data having discriminating ability of trait information can be obtained, A step of determining whether or not the trait information is predictable based on the expression information, and selecting a portion where the trait information is not predictable based on the expression information, from the portion of the image from which the divided learning data having the ability to discriminate the trait information is obtained.
  • a program for causing a computer to execute a method for identifying a mutation in a gene involved in a trait comprising: Providing a plurality of images that image sequence information and expression information of genetic factors of a plurality of individuals and a set of a plurality of trait information corresponding to the plurality of images, Dividing the plurality of images, learning a relation between a portion of the plurality of images and information corresponding to the images, and obtaining a plurality of divided learning data, Selecting a portion of the image for which divided learning data having discriminating ability of trait information can be obtained, A step of determining whether or not the trait information is predictable based on the expression information, and selecting a portion where the trait information is not predictable based on the expression information, from the portion of the image from which the divided learning data having the ability to discriminate the trait information is obtained.
  • the present disclosure provides means for predicting trait information of an individual from data of genetic information of the individual, for example, in the fields of medicine, agriculture, livestock, food, environment, pharmacy (drug discovery, drug development field), organisms, etc. Are useful in any related technical field. Especially in the medical field, it becomes possible to provide information on the possibility of disease occurrence, appropriate treatment, or predicted response.
  • the machine learning method according to the present disclosure may enable to handle huge data in arbitrary machine learning using images.
  • FIG. 1 is an exemplary schematic diagram of a system of the present disclosure.
  • FIG. 2 shows that the system of the present disclosure is physically separated, such as using a cloud/server.
  • FIG. 3 is an exemplary schematic diagram of a process of performing machine learning of DNA/RNA data.
  • FIG. 4 is an exemplary schematic diagram of a process of imaging DNA/RNA data.
  • FIG. 5 is an exemplary schematic diagram of arrangement optimization at the time of imaging DNA/RNA data.
  • FIG. 6 is an exemplary schematic diagram of correlation analysis between genes for layout optimization.
  • FIG. 7 is an exemplary schematic diagram of the Deep Learning process in learning of the divided images.
  • FIG. 8 is an exemplary schematic diagram of GPU division learning and nonlinear optimization of CPU.
  • FIG. 9 is a graph showing the percentage of correct answers at each Epoch number of the generated model.
  • FIG. 7 is a graph showing the identifiability of an image used at the time of learning at each Epoch number and the identifiability of an image not used at the time of learning for each of the models generated by the above method.
  • FIG. 11 is a schematic diagram showing image division learning.
  • FIG. 12 is a diagram showing a difference in region convergence when learning 5FU sensitivity.
  • all discriminant parameters refers to parameters in a discriminant for discriminating the entire image integrated after the split learning.
  • the discriminant analysis formula in the individual learning the partial data on the divided images are weighted to make a discrimination, so a completely independent discriminant formula is adopted between the divided images, and the correlation of each There is no. Therefore, in the final non-linear optimization, based on the discriminants by the parameters obtained in each partial learning, a new discriminant that integrates them (for the whole image before division) is created. For that purpose, the process of optimizing the whole is executed by using the CPU with the parameters of each partial learning as initial values.
  • On the fly processing refers to processing in which necessary data is moved to a memory at any time for calculation, the calculation result is returned to the HDD, and then repeated.
  • "On the fly” you can compare memory to a bookshelf beside a desk and HDD to a library. When processing at a desk, it is faster if the data books are on the side bookshelf. Generally, you bring the books you need to the bookshelf all at once.
  • the necessary data (books) are moved to the memory (bookshelf) whenever necessary and calculated and returned to the HDD (library), and moved and calculated and returned. You can handle a large number of books by repeating.
  • memory communication time is required during the optimization processing, but no matter how large the learning data is (at the expense of calculation time) It is possible to adopt a computable algorithm.
  • image refers to any data stored in a high-dimensional space in a broad sense, and particularly refers to data stored in a plane (two-dimensional space) in a narrow sense.
  • An image in a narrow sense includes a combination of position information and color (color tone, lightness and saturation) information of each position.
  • Imaging refers to converting one-dimensionally stored data (eg, a sequence of 0s and 1s) into high-dimensionally stored data.
  • “learning” refers to using some data to form a model that produces useful output for input. Further, when the input and the output that should correspond to the input are used as learning data, it is referred to as “supervised learning”. For example, as a model, when a certain genetic information is input, a trait (eg, drug resistance) estimated from the genetic information is output.
  • supervised learning For example, as a model, when a certain genetic information is input, a trait (eg, drug resistance) estimated from the genetic information is output.
  • trait information refers to information about an arbitrary characteristic of an organism or a part of an organism (for example, an organ (organ), tissue or cell).
  • the trait information includes identification of disease (specification of cancer type, malignancy of cancer, etc. in case of cancer) and drug sensitivity (anticancer drug resistance, eg, in case of cancer). Can be mentioned.
  • genetic factor refers to any factor that exerts some function based on information in the activity of a living organism.
  • a gene on genomic DNA is a genetic factor in that it is transcribed into a corresponding mRNA based on its sequence information.
  • mRNA is a genetic factor in that it is translated into a corresponding protein or the like based on the information of its sequence.
  • the genetic factor comprehensively includes, in addition to a gene encoding a protein, a gene encoding miRNA, a regulatory region, a non-expression region, and the like.
  • “genetic factor” includes genes, mRNA, exons, introns, non-expression regions, non-coding RNAs, miRNAs, snoRNAs, siRNAs, tRNAs, rRNAs, mitRNAs, long-chain non- It is understood that coding RNA is included.
  • genetic information refers to sequence information and/or expression information of an arbitrary genetic factor possessed by an organism or a part of an organism (for example, a tissue or a cell).
  • RNA ribonucleic acid
  • RNA means a molecule containing at least one ribonucleotide residue.
  • ribonucleotide is meant a nucleotide having a hydroxyl group at the 2'position of the ⁇ -D-ribo-furanose moiety.
  • RNA includes, for example, messenger RNA (mRNA), transfer RNA (tRNA), ribosomal RNA (rRNA), long non-coding RNA (lncRNA), and micro RNA (miRNA).
  • mRNA messenger RNA
  • tRNA transfer RNA
  • rRNA ribosomal RNA
  • lncRNA long non-coding RNA
  • miRNA micro RNA
  • deoxyribonucleic acid means a molecule containing at least one deoxyribonucleotide residue.
  • Deoxyribonucleotide means a nucleotide in which the 2′-hydroxyl group of a ribonucleotide is replaced with hydrogen.
  • mRNA messenger RNA
  • mRNA refers to RNA that is produced by using a DNA template and is associated with a transcript that encodes a peptide or polypeptide.
  • the mRNA comprises a 5'-UTR, a protein coding region, and a 3'-UTR.
  • Specific information (sequence etc.) of mRNA can be used by referring to NCBI (https://www.ncbi.nlm.nih.gov/), for example.
  • microRNA refers to a functional nucleic acid that is encoded on the genome and finally becomes a minute RNA having a length of 20 to 25 bases through a multistep generation process.
  • Specific information (sequence etc.) of miRNA can be used by referring to, for example, mirbase (http://mirbase.org).
  • long non-coding RNA refers to RNA of 200 nt or more that functions without being translated into a protein. Specific information (sequences, etc.) of lncRNA can be used by referring to, for example, RNAcentral (http://rnacentral.org/).
  • ribosomal RNA refers to RNA that constitutes ribosome. Specific information (sequence, etc.) of rRNA can be used by referring to NCBI (https://www.ncbi.nlm.nih.gov/), for example.
  • transfer RNA refers to a tRNA that is known to be aminoacylated by an aminoacyl tRNA synthetase. Specific information (sequence etc.) of tRNA can be used by referring to NCBI (https://www.ncbi.nlm.nih.gov/), for example.
  • RNA Modification used in the context of nucleic acids refers to a state in which a part or all of the constituent units of the nucleic acid or its terminals are replaced with other atomic groups, or functional groups are added. Refers to.
  • the set of RNA modifications is sometimes called “RNA Modics”, “RNA Mod”, etc. These are also called epitranscriptomes because RNA is a transcript, and are used interchangeably in this specification. To be done.
  • methylation refers to methylation at any position of any type of nucleotide, but typically methylation of adenine (eg, position 6; m6A, 1-position; m1A), methylation of cytosine (eg 5-position; m5C, 3-position; m3C).
  • the detected modification site can be specified using a method known in the art.
  • m1A and m6A and m3C and m5C can be determined by chemical modification.
  • the “subject” refers to a subject (for example, an organism such as a human or cells extracted from the organism, blood, serum, etc.) that is a subject of the analysis, diagnosis, or detection of the present disclosure.
  • biomarker is an index for evaluating the condition or action of a certain subject. Unless otherwise specified herein, a “biomarker” may be referred to as a “marker”.
  • diagnosis means identifying various parameters related to a condition (eg, disease, disorder) in a subject, and determining the present or future of such condition.
  • conditions within the body can be investigated, and such information can be used to determine the metastasis/primary cancer-related condition in a subject (eg, subject metastases).
  • Various parameters can be selected, such as whether or not the patient has a sex cancer, whether the cancer is primary), the formulation or method for treatment or prophylaxis to be administered.
  • diagnosis in a narrow sense refers to diagnosis of the current state, but broadly includes “early diagnosis”, “predictive diagnosis”, “pre-diagnosis” and the like.
  • the diagnostic method of the present disclosure is industrially useful because, in principle, the diagnostic method that comes out of the body can be used and the diagnostic method can be performed without the hands of a medical staff such as a doctor.
  • a medical staff such as a doctor
  • "predictive diagnosis, pre-diagnosis or diagnosis” may be referred to as "support”.
  • the technique of the present disclosure can be applied to such a diagnostic technique.
  • treatment refers to a certain condition (for example, a disease or disorder), when such a condition is caused, prevention of deterioration of such condition, preferably maintenance of the current state, more preferably, Reducing, more preferably abolishing, and including being able to exert a symptom-improving effect or preventive effect on the patient's condition or one or more symptoms associated with the condition.
  • Preliminary diagnosis and appropriate treatment are called “companion treatments”, and diagnostic agents therefor are sometimes called “companion diagnostic agents”.
  • prevention refers to treatment to prevent an abnormal condition (for example, a disease or disorder).
  • prognosis means predicting the possibility of death or progression due to a disease or disorder such as cancer.
  • Prognostic factors are variables relating to the natural course of a disease or disorder, and these affect the recurrence rate of patients who once developed the disease or disorder.
  • Clinical indicators associated with worse prognosis include, for example, any of the cellular indicators used in the present disclosure.
  • Prognostic factors are often used to classify patients into subgroups with different pathologies. By associating genetic information with diagnostically useful trait information using the techniques of this disclosure, it may be possible to provide prognostic factors based on control genetic information.
  • program is used in the ordinary meaning used in the field, describes the processing to be performed by a computer in order, and is legally treated as "a thing”. All computers work according to the program. In modern computers, programs are represented as data and stored in recording media or storage devices.
  • a “recording medium” is a recording medium that stores a program for executing the method of the present disclosure, and the recording medium may be any medium as long as the program can be recorded.
  • the recording medium may be an external storage device such as a ROM, an HDD, a magnetic disk, a flash memory such as a USB memory, which can be stored inside, but is not limited thereto.
  • system refers to a configuration for executing the method or program of the present disclosure, and originally means a system or organization for performing the purpose, and a plurality of elements are systematically configured. In the field of computers, they mean the overall configuration of hardware, software, OS, network, etc.
  • the system learns the relationship between genetic information and trait information from a storage unit that stores genetic information of multiple individuals and trait information of multiple individuals, and from genetic information of multiple individuals and trait information of multiple individuals.
  • a learning unit configured to do so and a calculation unit that predicts the trait information of the individual from the genetic information of the individual based on the association between the genetic information and the trait information.
  • the genetic information contained in the storage may include at least two types of information.
  • the system may further include an analysis unit that analyzes the diagnosis of the individual and/or the treatment or prevention of the individual from the trait information predicted by the calculation unit. Further, if necessary, the system may further include a display unit that displays the trait information predicted by the calculation unit.
  • the present disclosure can also be provided as a program, a method for realizing the above system, or a recording medium storing these.
  • the learning unit may be configured to image and learn genetic information of multiple individuals. At the same time, in the storage unit, genetic information of a plurality of individuals may be imaged and stored. In another embodiment, it is also possible to image each time when learning. Further, the calculation unit may image the genetic information of the individual and predict the individual trait information based on the image. Imaging can be performed by a method or system having the features described elsewhere in this specification. Also, the image data may have a data format described elsewhere in this specification.
  • the system may include other components as needed. For example, the system may include a display that displays the output of the calculator.
  • AI artificial intelligence
  • morphology information of cells is very important, as has been clarified by conventional cell biology studies.
  • conventional methods are used.
  • sequencing or single cell analysis it was necessary to make a statistical correlation between the numerical data of the genome and the image with human eyes by a method such as sequencing or single cell analysis.
  • the present invention by "imaging" the genome information, it is possible to compare the images by raising the genome information to the level of the images, and to maximize the AI performance. Can be expected.
  • the genetic information dealt with in the present disclosure includes sequence information (eg, mutation information) of genetic factors, expression information, and/or modification information (eg, methylation information).
  • sequence information eg, mutation information
  • modification information eg, methylation information
  • the genetic information is, as the sequence information of an individual, a factor involved in an event of transmitting a genetic trait from a parent cell to a daughter cell, which is present in the nucleus or mitochondria, is under the control of RNA polymerase, and is Not only the coding RNA or mRNA that codes, but also a relatively short-chain miRNA or snoRNA or siRNA or tRNA or rRNA or mitRNA of up to several tens of bases as a non-coding RNA, or even a longer-chain non -Coding
  • a DNA sequence encoding RNA can be targeted.
  • the DNA sequence of the non-expression region distant from the complementary portion of the above-mentioned expression product can be targeted, and further, epigenetic modification on DNA can be targeted.
  • RNA polymerase it encodes a protein under the control of RNA polymerase, including individual genetic factors (expression amount of transcription unit (RNA and miRNA), splicing, transcription initiation point, epigenetic modification, etc.) as individual expression information.
  • individual genetic factors expression amount of transcription unit (RNA and miRNA), splicing, transcription initiation point, epigenetic modification, etc.
  • the trait information dealt with in the present disclosure is not particularly limited, and for example, whether the individual may develop a certain disease, or whether the individual responds to a certain drug, etc. Can be mentioned.
  • the storage unit may be a recording medium stored in the system or separated from the system, such as a CD-R, a DVD, a Blueray, a USB, an SSD, or a hard disk, or may be stored in a server or a cloud. It may be in a format that is appropriately recorded above.
  • the learning unit can be configured to learn the association between genetic information and trait information using artificial intelligence or machine learning.
  • machine learning refers to a technology that gives a computer the ability to learn without explicit programming. This is a process in which a functional unit improves its performance by acquiring new knowledge/skills or reconstructing existing knowledge/skills. By programming a computer to learn from experience, you can reduce much of the effort required to program the details, and in the field of machine learning, discuss how to build computer programs that can automatically improve from experience. doing.
  • the role of data analysis/machine learning is the elemental technology that is the basis of intellectual processing along with the algorithm field, and is usually used in cooperation with other technologies, and knowledge of the field of cooperation (domain specific (domain specific)) Knowledge; eg medical field) is required. Its application areas are prediction (collecting data and predicting what will happen), searching (finding some prominent feature from the collected data), testing/description (relationship between various elements in the data). There is a role such as examining. Machine learning is based on an index indicating the degree of achievement of the goal in the real world, and the user of the machine learning must know the goal in the real world. Then, it is necessary to formulate an index that improves when the purpose is achieved.
  • Machine learning is an inverse problem, and it is an ill-posed problem in which it is unclear whether or not the solution can be solved.
  • the behavior of learned rules is probabilistic rather than deterministic. It is necessary to devise the operation on the assumption that some uncontrollable part remains, and the machine learning user can adjust the data and information to the real world goal while looking at the performance index during training and operation. It is also useful to select one after another.
  • cross-validation also called cross-validation or cross-validation.
  • Cross Validation; CV is performed to calculate the discrimination accuracy of each model. be able to.
  • machine learning linear regression, logistic regression, support vector machine, etc.
  • cross-validation are performed by increasing the feature amount one by one, and the discrimination accuracy of each model can be calculated. Thereby, the model with the highest accuracy can be selected.
  • any machine learning can be used, and linear, logistic, support vector machine (SVM), etc. can be used as supervised machine learning.
  • Machine learning uses logical inference. There are roughly three types of logical inference, and there are deduction, induction, abduction, and analogy. The deduction is a special conclusion because it draws the conclusion that Socrates will die when there is a hypothesis that Socrates is human and all humans die. Induction leads to the general rule of conclusion that Socrates dies and Socrates all humans die when there is a hypothesis of humans. Abduction is a hypothesis/explanation to derive Socrates as a human being when there is an assumption that Socrates will die and all humans will die. However, it should be noted that it may not be objective because it depends on the premise that it will be generalized even after induction.
  • targets A and B By analogy, if there are targets A and B, and target A has four features, and target B has three of the features in common, then target B has the remaining one feature and It is a probable logical way of thinking that A and subject B are inferred to have similar or similar relatives.
  • Impossible has three basic principles: impossible, extremely difficult, and unsolved. Moreover, it is necessary to pay attention to the improper setting problem that it cannot be verified because the observation of the true model is impossible because there are generalization error, no-free lunch theorem, and ugly duck's theorem.
  • the feature vector/attribute vector is a collection of features (attributes) describing a prediction target in a vector format.
  • model or “hypothesis” is used synonymously, and is a mapping that describes the target correspondence from the input prediction target to the prediction result, or a candidate set thereof.
  • model Express using mathematical functions or logical expressions. In learning by machine learning, a model that seems to best approximate a true model is selected from a set of models by referring to training data.
  • the models include generative model, identification model, and functional model.
  • the difference between the policies for expressing the classification model of the mapping relationship between the input (prediction target) x and the output (prediction result) y is shown.
  • the generative model expresses the conditional distribution of the output y given the input x.
  • the discriminant model represents the joint distribution of input x and output y.
  • the mapping relationship between the discriminant model and the generative model is probabilistic.
  • the functional model has a deterministic mapping relationship and expresses a deterministic functional relationship between the input x and the output y.
  • Model complexity The degree of whether the mapping relationship between the prediction target and the prediction result can be described in more detail and in a complicated manner. The more complex the model set, the more training data is generally needed.
  • mapping relation When the mapping relation is expressed by a polynomial, a higher-order polynomial can express a more complicated mapping relation. It can be said that a higher-order polynomial is a more complicated model than a linear equation.
  • mapping relation When the mapping relation is represented by a decision tree, a deeper decision tree with a large number of stages can express a more complex mapping relation. Therefore, it can be said that a fixed tree with a large number of stages is a more complicated model than a decision tree with a small number of steps.
  • the shape of the distribution or function is completely determined by the parameters.
  • the shape is basically determined from the data, and the parameters are Is limited to smoothness.
  • Parameter An input for designating one of a model distribution and a set of functions, which is also expressed as Pr[y
  • x; ⁇ ] or y f(x; ⁇ ), etc., in distinction from other inputs. ..
  • the shape of the Gaussian distribution is determined by the mean/variance parameter regardless of the number of training data, and in the nonparametric, the histogram determines only the smoothness by the bin number parameter, which is said to be more complex than the parametric.
  • machine learning refers to the training data and select the model that most closely approximates the true model from the model set.
  • learning methods depending on what kind of "approximation" is performed.
  • maximum likelihood estimation which is a learning criterion for selecting a model having the highest probability of generating training data from a probabilistic model set.
  • the model that most closely approximates the true model can be selected by the maximum likelihood estimation.
  • the KL divergence decreases toward the true distribution as the likelihood increases.
  • estimation There are various types of estimation, and it depends on the types of formats for obtaining estimated predicted values and parameters. The point estimation is to obtain only one value with the highest certainty, and to use the most frequent value of the distribution or function, such as maximum likelihood estimation or MAP estimation, and is most often used.
  • interval estimation the range in which the estimated value exists is often used in the statistical field in the form that the probability that the estimated value exists in this range is 95%.
  • distribution estimation it is used in Bayesian estimation in combination with a generative model that introduces a prior distribution for obtaining a distribution with estimated values.
  • over-learning over-fitting, over-fitting
  • the model that fits the training data too much was selected, so the empirical error (prediction error for the training data) is small, but the generalization error (prediction error for the data from the true model) is large, and the original learning It is in a state where it has not achieved the purpose of.
  • Generalization error is caused by bias (error caused by the fact that the true model is not included in the candidate model set; larger by simple model set), variance (different training data selects different prediction models) It can be divided into three parts: error; the larger the complex model set becomes, and noise (the true model variation that does not depend on the selection of the model set and cannot be essentially reduced). Since the bias and the variance cannot be reduced at the same time, the bias and the variance are balanced to reduce the overall error.
  • ensemble also referred to as ensemble learning, ensemble method, etc.
  • group learning uses a relatively simple learning model and a learning rule in which the amount of calculation is appropriate, and gives the weight of the given example and the initial value.
  • Various hypotheses are selected according to differences in values, and the final hypotheses are constructed by combining these hypotheses, and an attempt is made to do the same as learning a complicated learning model.
  • Ensemble learning may be performed in the learning of the present disclosure.
  • “reduction” refers to reducing or summarizing the variable of feature quantity.
  • factor analysis is the assumption that when there are multiple variables, there are constructs that influence them, and a small number of potential variables explain the relationship between multiple variables. It is a form of contraction, that is, conversion to a decimal variable. Potential variables that explain this construct are called factors. Factor analysis reduces variables that can be assumed by common factors behind them and creates new quantitative variables.
  • the “discriminant function” is a sequence, that is, a function created by assigning continuous numerical values to the number of levels to be discriminated and arranging samples for discrimination.
  • the sequence that is, the discrimination function
  • the sequence is generated by taking a sigmoid function type, for example.
  • a process (step) function can be used.
  • the model approximation index is a numerical representation of the discriminant function and the discriminant level of the discriminant sample.
  • the “weighting coefficient” is a coefficient for setting an important element to be more important in the calculation of the present disclosure, and includes an approximation coefficient.
  • a function can be approximated to data to obtain a coefficient, but the coefficient itself is only a description quantity indicating the degree of approximation, and when ranking it by criteria such as size, or selecting it, It can be said to be a weighting coefficient because the feature amount is provided with a difference in contribution within the model.
  • the weighting coefficient is used in the same meaning as the approximation index of the discriminant function, and examples thereof include R 2 value, correlation coefficient, regression coefficient, and residual sum of squares (difference between discriminant function and feature amount).
  • the “discriminant function model” refers to a model of a function used when discriminating a trait or the like.
  • a discriminant model by machine learning using a neural network system such as a multi-layer perceptron or CNN can be cited, but the present invention is not limited thereto.
  • the learning unit divides the genetic information of a plurality of individuals, learns the relationship between the partial genetic information and the trait information, integrates the relationship between the partial genetic information and the trait information, and combines the genetic information and the trait information. It can be configured to learn associations. Such division learning of genetic information can be effective in dealing with the amount of information of individual genetic information.
  • the analysis unit analyzes the diagnosis of the individual and/or the treatment or prevention of the individual from the trait information predicted by the calculation unit. Since the trait information is the information of the target individual, other information (for example, a disease information database etc.) is referenced to diagnose or diagnose a disease or symptom or the like that is affected or may be affected by the individual. Can help. Depending on the diagnosis result, other information (for example, a disease information database, a drug information database, etc.) can be taken into consideration to calculate or suggest appropriate treatment methods and medication information.
  • a disease information database for example, a drug information database, etc.
  • the display unit displays the trait information predicted by the calculation unit.
  • the display unit may be any unit as long as the user can recognize the trait prediction result, and a television, a screen of a smartphone or a tablet, a monitor, a sound generating device (for example, a speaker), or the like may be used. ..
  • Such a display can display an appropriately selected item among the calculation results predicted by the calculation unit. Examples of such display items include, but are not limited to, presentation of an optimal anticancer drug for the patient's cancer and presentation of the optimal treatment policy for treating the disease of the patient.
  • the system 101 includes an acquisition unit 107, acquires data to be used for learning by the acquisition unit 107, and stores the data in the storage unit 102.
  • data existing in the existing database 108 may be acquired (downloaded), or may be acquired from the measurement unit 109 equipped with a device that measures individual information.
  • the system 101 may include an imaging unit 105 that images the genetic information of an individual, if necessary.
  • the acquired information may be stored in the storage unit 102 as it is, and then the genetic information may be transmitted to the imaging unit 105 to be imaged and stored again.
  • the information acquired by the acquisition unit 107 may be transmitted to the imaging unit, imaged, and then stored in the storage unit.
  • the system 101 can combine these operations as needed. That is, the information derived from each of the plurality of individuals is not always stored by the same process.
  • the learning unit 103 Based on the genetic information and trait information of a plurality of individuals stored in the storage unit, the learning unit 103 performs learning and generates a discriminant model. Using the generated discriminant model, the calculation unit 104 predicts the target trait information based on the target information (eg, genetic information). The predicted result may be displayed on the display unit 106 as needed. Data storage may occur at any time during the operation of system 101.
  • target information eg, genetic information
  • the trait prediction technique of the present disclosure can be provided in a comprehensive manner as one system 101 or device (see FIG. 1 ).
  • the trait predicting device it is possible to assume a form in which the input of genetic information of an individual is mainly received and the result is displayed, and the calculation and the calculation of the discriminant model are performed by a server or a cloud (see FIG. 2 ).
  • IoT Internet of Things
  • AI artificial intelligence
  • the trait prediction device stores a discriminant model and makes a discrimination on the spot, but a semi-standalone type form in which main calculation such as calculation of the discriminant model is performed by a server or a cloud can be assumed ( (Fig. 2). Since transmission and reception are not always possible at some implementation sites such as hospitals, a model that can be used even when shielded is assumed.
  • a discriminant model generation system including up to a learning unit, or a prediction system that stores the obtained discriminant model and uses it in a calculation unit is also cited as an embodiment of the present disclosure (FIG. 2).
  • a cloud service "Software as service (SaaS)" generally corresponds.
  • SaaS Software as service
  • the display unit may be any unit as long as the user can recognize the trait prediction result, and may use an input/output device, a display device, a television, a monitor, a sound generating device (for example, a speaker), or the like. ..
  • a function for improving the discriminant model may be provided.
  • This function may be in the learning unit or may be provided as a separate module.
  • This discriminant model improvement function is, for example, option 1 (period 1 year, once or twice a year), option 2 (period 1 year, once every 1 or 2 months), option 3 (extension period, once or twice a year). ), option 4 (extension of period+1, once every two months) and the like.
  • Data storage can also be done as needed.
  • Data storage is usually provided on the server side (FIG. 2), but it may be provided on the terminal side as well as on the cloud type as well as in the case of all-equipment type (not shown in the figure because it is optional).
  • data storage is standard (for example, up to 10 Gbytes in the cloud), option 1 (for example, 1 Tbyte increase in the cloud), option 2 (parameterized storage in the cloud and divided storage), option 3
  • An option stored in cloud for each discriminant model
  • Saves data sucks up data from all sold devices, creates big data in the storage unit, updates the discriminant model continuously, and builds a new model to provide new discriminant model software can do.
  • the storage unit may be, for example, a recording medium such as a CD-R, a DVD, a Blueray, a USB, an SSD, a hard disk, may be stored in the server, or may be in a format that is appropriately recorded on the cloud.
  • a recording medium such as a CD-R, a DVD, a Blueray, a USB, an SSD, a hard disk
  • patient pattern classification searching for a patient cluster based on discrimination accuracy and pattern change of feature amount. That is, it can be assumed as an option of the calculation method of the calculation unit 104.
  • the imaging method may employ the imaging method described in detail elsewhere in this specification with reference to FIG.
  • Detects DPU machine specifications (number of installed GPUs, cache, etc.) during learning.
  • the learning image is divided into regions based on the detection result.
  • the divided images are learned at each node.
  • the split learning method described in detail with reference to FIG. 6 can be adopted elsewhere in this specification.
  • the divided learning data are integrated.
  • the CPU machine specifications (the number of mounted CPUs, memory, etc.) are detected.
  • all discriminant parameters are optimized by a non-linear optimization process to construct a discriminant model. If there is no memory that can store the integrated data, the virtual memory area is secured and the integrated data is temporarily saved.
  • Imaging method One aspect of the present disclosure is a method of imaging genetic information.
  • imaging can be viewed as including producing image data having a plurality of pixels, each pixel including position information and color information.
  • This image data may store genetic information data.
  • the imaging method of the present disclosure can be characterized by imaging sequence data of a genetic factor group including a plurality of genetic factors and expression data of a genetic factor group including a plurality of genetic factors.
  • imaging can be advantageous in that it allows learning of sequence information and expression information simultaneously.
  • it is a well-known fact that the image recognition performance in recent deep learning is significantly improved compared to the conventional machine learning method, and since it is applied to various fields, It is considered that the current deep learning method can be efficiently used for the collected data.
  • One aspect of the present disclosure is a method for imaging sequence data of a genetic factor population containing a plurality of genetic factors and expression data of a genetic factor population containing a plurality of genetic factors, the sequence data of the genetic factor population and the genetic data.
  • a method of generating image data storing expression data of a population of factors, the image data having a plurality of pixels, each pixel including position information and color information.
  • each of the plurality of genetic factors is associated with a region in the image data, and the step of generating the image data includes the expression amount of the genetic factor in the region corresponding to the genetic factor. It may include a step of converting into color information of a certain area in the inside and/or information of an area of an area having a certain color in the area.
  • the data regarding the expression level when the data regarding the expression level is imaged, the data can be grouped into a specific number of stages. There is a large difference in the actual gene expression amount for each gene, and the standard deviation of the expression distribution also greatly differs. Therefore, if the expression level data is learned as it is, the number of colors required for imaging will increase, and the change in the expression level of the same value between genes will also have a different meaning.
  • the expression level can be scaled so that is constant (for example, 1). Furthermore, the expression level values thus changed may be coarse-grained by grouping, which may be useful for capacity reduction and learning efficiency during machine learning.
  • the gene with the smallest standard deviation in the read data (actually the standard deviation is
  • the final unit scale can be determined within a range where the normal distribution approximation is judged to be effective.
  • Expression levels may be scaled into groups of about 120 to about 180 steps, about 130 to about 160 steps, or about 150 steps.
  • a monochrome image may be used as the image.
  • the color information at each position is only the value of lightness, and the stage thereof is not particularly limited. For example, a monochrome image having 256 lightness can be used. Thereby, efficient capacity compression can be achieved.
  • the information of Mutation, Deletion, and Insertion which is very small information as a pixel area, is expressed by a color having a lightness lower than that of the differentiation used in the expression level (for example, differentiation in 150 brightness levels).
  • the bases of A, T, G, and C may be made to stand upright and may be expressed with 10 different brightness levels so that they can be differentiated more clearly.
  • This required brightness level setting is an optimum setting in terms of both data compression and learning efficiency in the imaging method of the present disclosure, and is considered to be significantly different from the prior art.
  • imaging is intended to express the expression level of genes and mutation information by using the difference in lightness of the position and color of a two-dimensional image region, and thereby, in the case of numerical data.
  • a compressed image format such as JPG or PNG
  • the capacity is compressed to about 1/24 (about 400 [MB]) without reducing the amount of information. I think I can do things.
  • this imaging not only the compression of the data capacity but also the fact that it can be applied to the conventional method by converting the numerical data into two-dimensional position information or color information is considered to be a strength.
  • Sequence data of a genetic factor population may include sequence data of factors involved in an event of transmitting a genetic trait from a parent cell to a daughter cell.
  • a factor is, for example, a DNA sequence, and includes a gene encoding a protein, an exon sequence, an intron sequence, a regulatory region sequence and the like.
  • the expression data of the genetic factor population may include the expression data of factors involved in signal transduction only for the current generation.
  • factors are, for example, RNA expression data, and examples thereof include the expression levels of mRNA, miRNA, siRNA, and lnRNA.
  • Sequence data and expression data to be imaged can be of genetic factors of the same individual.
  • Sequence data of a genetic factor population may include a sequence of a certain region on genomic DNA.
  • the sequence data of the genetic factor population may include a DNA sequence encoding a gene on genomic DNA, an exon sequence of a gene on genomic DNA, and/or a non-coding RNA on genomic DNA.
  • the position and type information of the mutation in the sequence of a certain genetic factor may be converted into the position and color information in the region corresponding to the genetic factor. That is, instead of reflecting all the sequence information on the image one by one, only the information on the portion having the mutation may be reflected on the image. This makes it possible to reduce the amount of information.
  • modification information on the array in the image may be performed by converting the modification information in the sequence of a certain genetic factor into position and color information in the region corresponding to the genetic factor.
  • the expression data may include transcription unit expression data, for example, mRNA expression data, mRNA expression level, splicing, transcription initiation point, and/or epigenetic modification data.
  • the expression data of the genetic factor population may include expression data of miRNA, snoRNA, siRNA, tRNA, rRNA, mitRNA, and/or long non-coding RNA.
  • Expression data of a genetic factor population may include data on miRNA, snoRNA, siRNA, tRNA, rRNA, mitRNA, and/or long non-coding RNA expression levels, splicing, transcription start points, and/or epigenetic modification data. ..
  • Each of the plurality of genetic factors is associated with a region in the image data, and the expression amount of the genetic factor is color information in a certain region in the region corresponding to the genetic factor and/or a region having a certain color in the region. It is possible to convert the information into the area information.
  • the expression amount of a transcript or a part thereof corresponding to the exon has color information in a certain region within the region corresponding to the exon and/or a certain color in the region.
  • the splicing and/or transcription start point of the genetic element can be stored in the image data.
  • each of the one or more genes is associated with a region in the image data, and information on the position and type of mutation in the genomic sequence of a gene is associated with the gene.
  • each of the one or more DNA sequences is associated with a region in the image data, and a DNA sequence encoding a certain non-coding RNA
  • the process of converting the position and type information of the mutation and/or epigenetic modification in the genomic sequence into the position and color information in the region corresponding to the gene, and the expression level of the non-coding RNA transcribed from the DNA sequence It is possible to store the sequence and expression information of non-coding RNA in image data by the process of converting information on splicing, transcription start point, and epigenetic modification into position and color information in the region corresponding to the gene. it can.
  • each of the one or more DNA sequences and transcription units is associated with a region in the image data
  • the sequence of the non-expressing region and the expression information related thereto can be stored in the image data by the step of converting the position and the color information in a certain region in the inside.
  • each of the one or more DNA regions and transcription units is associated with a region in the image data, and epigenetic in the genomic sequence of a certain DNA region
  • the sequence and associated expression information can be stored in the image data through the conversion into information.
  • RNA polymerase a factor involved in an event of transmitting a genetic trait from a parent cell to a daughter cell, which is present in the nucleus or mitochondria, is under the control of RNA polymerase, and is a protein.
  • RNA polymerase a protein that is under the control of RNA polymerase.
  • DNA sequences can be of interest.
  • the DNA sequence of the non-expression region distant from the complementary portion of the above-mentioned expression product can be targeted, and further, epigenetic modifications on DNA can be targeted.
  • Coding RNA or mRNA that encodes a protein under the control of RNA polymerase, including genetic factors (expression amount of transcription unit (RNA and miRNA), splicing, transcription start point, epigenetic modification, etc.) as expression information.
  • genetic factors expression amount of transcription unit (RNA and miRNA), splicing, transcription start point, epigenetic modification, etc.
  • DNA sequences encoding relatively short-chain miRNAs or snoRNAs or siRNAs or tRNAs or rRNAs or mitRNAs of up to several tens of bases, and longer-chain non-coding RNAs should be targeted. You can
  • RNA expression levels as expression information together with a genomic gene sequence
  • sequence information of a certain gene and the expression level of that gene are combined into one region, and the sequence information of a certain gene and the like of that gene
  • the expression level and the like can be treated simultaneously.
  • mRNA As a target, other gene substitutions include somatic mutations, germ cell mutations, polymorphisms, and changes to minor bases other than A, T, G, and C (for example, nanopore sequencer). Measurement) can be reflected in the image.
  • the expression of a gene not only the average expression amount of the entire gene as an expression unit, but also splicing (there are alternatives, splice-outs, etc.), the change of transcription initiation point by tissue/cell (for example, RIKEN (FANTOM can be used to obtain such sequence information), and methylation C5, A1, A5, phosphorylation and the like can also be reflected as epigenome, epitranscriptome modification.
  • a method for creating a model for predicting trait information of an individual from the sequence information and expression information of the genetic factor of the individual comprises the steps of imaging sequence information and expression information of genetic factors of a plurality of individuals by a method described elsewhere in the present specification to provide image data, and providing trait information of a plurality of individuals. And a step of extracting a feature expression in the image that correlates with the trait by deep learning from the image data and the trait information.
  • Some aspects of the disclosure relate to optimizing the placement of genetic elements in imaging.
  • the arrangement of the genetic factors on the image is not particularly limited, and they may be arranged in the order described in the database or in any number.
  • the optimization of the arrangement of genetic elements according to some aspects of the present disclosure can be applied for such improvement.
  • the efficiency of machine learning using images can be improved by arranging genetic factors with a large external correlation contribution in the center and arranging the genetic factors in the periphery in descending order of correlation weight.
  • a method of imaging genetic information comprising sequence data and/or expression data of a genetic factor population comprising a plurality of genetic factors
  • the method comprising: A step of generating image data for storing population sequence data and/or expression data, the image data having a plurality of pixels each including position information and color information, the step comprising Correlating each of the genetic factors with a region in the image data, characterized in that the regions corresponding to each genetic factor are arranged such that the ones with strong correlation weights of each genetic factor are close to each other.
  • the step of generating image data may include calculating the area of the region in the image data required for the genetic factor.
  • the area of the necessary region may be calculated according to the size (sequence length) of the sequence information of the genetic factor, for example.
  • the correlation weights of the genetic factors include extracting the combination of the genetic factors having strong correlation from the correlation analysis between the genetic factors, extracting the strongly correlated genetic factors for each genetic factor, and the variables using the extracted genetic factors. It can be calculated by performing multiple selection regression and/or calculating correlation weights from the results of variable multiple regression.
  • the placement optimization is not intended to be limiting but will be described in more detail with reference to FIG.
  • gene correlation analysis is performed (see FIG. 6). Then, a combination of genes having a strong correlation is extracted. The extracted gene combinations are ranked in descending order of correlation with other genes. For each gene, a gene that has a strong correlation with its own gene is extracted. Multiple regression (selection of necessary variables) using the genes extracted for each pretreated gene is performed. The correlation coefficient ⁇ ji from the target gene and the coefficient ⁇ ij viewed from the target gene are extracted, and the root mean square is calculated. The top of the ranked genes is the central gene. Then, the required region of the central gene is calculated.
  • the gene correlation analysis is illustrated in more detail with reference to FIG.
  • Expression data of a plurality of individuals for example, 1018 cell lines
  • gene correlation analysis is performed. Pearson correlation coefficient: Or Spearman correlation coefficient: Using.
  • a combination of strongly correlated genes is extracted.
  • the correlated gene viewed from each gene is extracted.
  • Variable selection multiple regression is performed using the genes extracted in this process.
  • the correlation weights ⁇ ji and p-value are extracted from the results of the multiple regression.
  • the correlation weight ⁇ ji is Can be calculated as a value that satisfies Genes with the highest correlation are extracted from the extraction results of combinations of strongly correlated genes.
  • the correlation weight is extracted centered on the gene obtained by this processing.
  • the central gene and the strongly correlated gene are extracted, and the required region is calculated. After that, the next strongest gene and the above-mentioned gene are placed in consideration of their weights. It is determined whether or not all genes have been arranged, and if not completed, the above processing is repeated. When the placement of all genes is completed, the placement optimization process ends.
  • the genetic element placement can be optimized as a MinSum type problem (minimization problem of placement distance). Although some problems have been formulated as urban facility placement problems, the optimization of the placement of genetic factors according to the present disclosure is as follows: (1) Place the end of the effective range region (in this case, the area of the genetic factor) in contact with each other. And (2) the distance between facilities (center distance in this case) is not necessarily proportional to the user/importance (weight and significance in this case). Are different.
  • a data structure of image data representing sequence information of a genetic factor group including a plurality of genetic factors and expression information of a genetic factor group including a plurality of genetic factors, wherein the image data is a plurality of Of the genetic factor, each position in the sequence of the genetic factor is associated with a position in the region associated with the genetic factor, Information of substitution, deletion and/or insertion at each position is stored as color information at a position corresponding to the position, and expression data of a genetic factor is stored as color information in a certain area in the area and/or in the area.
  • a data structure is provided, which is stored as information about the area of a region having a color therein.
  • Information on epigenetics modification at each position in the sequence of genetic factors can also be stored as color information at the position corresponding to the position.
  • methylation at each position in the sequence of miRNA in a plurality of genetic factors can be stored as color information at the position corresponding to the position.
  • the image data may be a matrix with rows and columns. Each position can then be stored as a combination of rows and columns.
  • Sequence information may include the DNA sequence of a region on the genome.
  • the region on the genome include a region encoding a gene, exon, intron, non-expression region, and/or non-coding RNA.
  • the expression information includes mRNA, miRNA, snoRNA, siRNA, tRNA, rRNA, mitRNA, and/or expression level of a transcription unit selected from the group consisting of long non-coding RNA, splicing, transcription start point, and/or Information on epigenetic modifications may be included.
  • Image data may have regions on each genome and/or multiple regions associated with transcription units.
  • the region associated with the region on the genome may consist of a number of columns and a fixed number of rows depending on the length of the region on the genome.
  • Each position in the sequence of regions on the genome can be associated with a position in an odd column within the region associated with the region on the genome.
  • the information of substitution, deletion and/or insertion at each position in the sequence of the region on the genome can be stored as color information at the position in the odd-numbered column corresponding to the position.
  • the color information is color information indicating that there is no mutation, color information indicating that it is replaced by A, color information indicating that it is replaced by T, color information indicating that it is replaced by G, It may be color information indicating that it is replaced with C, color information indicating that it is deleted, or color information indicating that an insertion exists adjacent to the position.
  • the information on the array to be inserted may be stored as the color information indicating the array to be inserted, starting from the position in the even-numbered column adjacent to the position having the color information indicating that the insertion exists.
  • Information on the epigenetic modification at each position in the sequence of the region on the genome can be stored as color information at the position in the odd column corresponding to the position.
  • the color information indicates that there is no epigenetic modification, color information indicating that DNA is methylated, color information indicating that it is histone methylated, and that it is histone acetylated. It may include color information, color information indicating that histone is ubiquitinated, or color information indicating that histone is phosphorylated.
  • the expression level of the transcription unit For a transcription unit transcribed from a region on a genome, the expression level of the transcription unit has a shade of color in a region in the image corresponding to the region on the genome and/or has a certain color in the region. It can be stored as information on the area of the region.
  • the expression amount of mRNA corresponding to the gene is information on the area of the region having a certain color in the region, as the shade of the color in the certain region in the region. Can be stored as
  • the above-mentioned imaging method and image data are useful for comprehensively handling individual genetic information, and include, for example, the fields of medicine, agriculture, livestock, food, environment, pharmacy (fields of drug discovery and drug development), etc. , Useful in any technical field related to organisms.
  • a method for creating a model that predicts an association between an image and information corresponding to the image may feature dividing and learning the image.
  • the method comprises the steps of providing a plurality of images and a plurality of sets of information corresponding to the plurality of images, dividing the plurality of images, and learning the association between portions of the plurality of images and the information corresponding to the images. Then, a step of obtaining a plurality of pieces of divided learning data and a step of integrating the plurality of pieces of divided learning data to generate a model that predicts an association between an image and information corresponding to the image may be included.
  • the step of integrating may include detecting a GPU spec and a CPU spec including a memory mounting amount using a CPU machine equipped with a GPU.
  • the step of integrating may include the use of Read-Write files on the HDD, optimizing a non-linear optimization processing algorithm that maximizes use of CPU memory.
  • the non-linear optimization processing algorithm may be an algorithm that can perform calculation independently of the data size by moving necessary data to the memory and performing calculation, and returning the calculation result to the HDD (On the Fly memory processing) .
  • the non-linear optimization process may include optimizing all discriminant parameters.
  • Machine learning can be performed by the Deep Learning process.
  • learning data learning data, teacher data, and verification data are divided.
  • Determination of discrimination pattern coefficients by random number processing and calculation of all discrimination patterns. Calculate the output error.
  • the discrimination pattern coefficient (weight) is optimized so that the overall error is minimized. Determine whether there is additional learning. If additional learning is necessary, the above processing is repeated. Machine learning ends if additional learning is not required.
  • the learning flow including the integration of the divided learning data is not intended to be limited, but will be described in more detail with reference to FIG. 8.
  • Read the image data for learning The number of mounted GPUs is detected and the number of divisions is determined. Divide the image of learning data. In the GPU processing unit, the image part is separately learned for each GPU. Each node in learning may be physically separated or integrated. Integrate divided learning data. The number of mounted CPUs and the memory storable area are detected. If sufficient memory is installed, nonlinear optimization is performed and the process ends. If sufficient memory is not installed, the data required for calculation is temporarily stored in the HDD and only the amount that can be installed in the memory is read. Performs non-linear optimization of memory storage. It is determined whether it is optimal, and if it is not optimal, the process is repeated. If it is determined to be optimum, the process ends.
  • the above-mentioned method of division learning improves the efficiency in machine learning using data with a relatively large capacity (for example, image data). For example, it is useful in learning in what visualizes biological information as well as in learning in a field with a large amount of data such as physics and astronomy, learning in object recognition, and character recognition.
  • the discriminative ability of each divided learning data may be verified.
  • the correlation with the objective variable such as trait information may be verified for each of the divided regions of the image.
  • the discriminative ability and/or the correlation can be verified by subjecting the relationship between each region and the objective variable to machine learning, and determining whether or not the predictive ability converges when the Epoch number is increased. It is possible to improve the efficiency of the entire learning by selecting the divided learning data having discriminative power from the divided learning data and then integrating them. Alternatively, the divided learning data having discriminative power may be selected from the respective divided learning data and used as a prediction model itself.
  • the degree of division can be adjusted in consideration of the overall size.
  • an image obtained by imaging the gene mutation information and the expression information for example, it can be divided into sizes such that about 100 to about 200 gene information is stored per region.
  • the system is a system for predicting individual trait information
  • a storage unit for storing genetic information of a plurality of individuals and trait information of the plurality of individuals, the genetic information including sequence information and expression information of genetic factors; Learning is configured to learn the relationship between the genetic information and the trait information from the genetic information of the plurality of individuals and the trait information of the plurality of individuals by imaging the genetic information of the plurality of individuals.
  • Department A calculation unit for predicting the trait information of the individual from the genetic information of the individual based on the relation between the genetic information and the trait information,
  • the learning unit divides the image generated by imaging the genetic information of the plurality of individuals, learns the relation between each region of the image and the trait information, and determines the discriminating ability of the trait information from each region. It can be provided as a system configured to select a region capable of generating a model having, and generate a model that predicts trait information from each region of the image.
  • a method for creating a model for predicting a relationship between genetic information including sequence information and expression information of genetic factors of an individual, and trait information of the individual, Providing a plurality of images that image sequence information and expression information of genetic factors of a plurality of individuals and a set of a plurality of trait information corresponding to the plurality of images, Dividing the plurality of images, learning a relation between a portion of the plurality of images and information corresponding to the images, and obtaining a plurality of divided learning data, Selecting the divided learning data having the ability to discriminate the trait information from the plurality of divided learning data, and generating a model for predicting the trait information from each region of the image.
  • the present disclosure is also a program that causes a computer to execute a method for creating a model for predicting a relationship between genetic information including sequence information and expression information of a genetic factor of an individual and trait information of the individual,
  • the method is Providing a plurality of images that image sequence information and expression information of genetic factors of a plurality of individuals and a set of a plurality of trait information corresponding to the plurality of images, Dividing the plurality of images, learning a relation between a portion of the plurality of images and information corresponding to the images, and obtaining a plurality of divided learning data, And a step of generating a model for predicting trait information from each region of an image by selecting the divided learning data having the ability to discriminate trait information from the plurality of split learning data.
  • the image When the image is generated from the genetic information including the sequence information and expression information of the genetic factor, it has the ability to discriminate the trait information by selecting the part of the image that can obtain the divided learning data having the ability to discriminate the trait information. It may be possible to determine whether the trait information is predictable based on the expression information from the portion of the image from which the divided learning data is obtained, and select the portion where the trait information is not predictable based on the expression information.
  • This can be used as a method for identifying a gene or a mutation thereof that correlates with a trait. Genes having a mutation that correlates with the trait information may be identified in the genes included in the portion where the trait information is not predictable based on the expression information, and such a gene or a mutation thereof is functionally correlated with the trait. There is a possibility. It is considered that the identified gene can be used to predict individual trait information.
  • the identified gene can itself be a model for predicting individual trait information, and can be used by incorporating it into a model for predicting individual trait information, if
  • whether or not the trait information can be predicted based on the expression information can be determined by, for example, performing a clustering analysis of the expression amount of the gene included in the certain region in each individual. In addition to the clustering analysis, an arbitrary regression analysis or machine learning method may be used for the determination.
  • the system is a system for predicting individual trait information
  • a storage unit for storing genetic information of a plurality of individuals and trait information of the plurality of individuals, the genetic information including sequence information and expression information of genetic factors; Learning is configured to learn the relationship between the genetic information and the trait information from the genetic information of the plurality of individuals and the trait information of the plurality of individuals by imaging the genetic information of the plurality of individuals.
  • Department A calculation unit that predicts the trait information of the individual from the genetic information of the individual based on the relationship between the genetic information and the trait information,
  • the learning unit divides the image generated by imaging the genetic information of the plurality of individuals, learns the relation between each region of the image and the trait information, and determines the discriminating ability of the trait information from each region.
  • the calculation unit may be provided as a system configured to predict trait information of the individual based on information of a gene having a mutation that correlates with the trait information.
  • a method for identifying a mutation in a gene involved in a trait Providing a plurality of images that image sequence information and expression information of genetic factors of a plurality of individuals and a set of a plurality of trait information corresponding to the plurality of images, Dividing the plurality of images, learning a relation between a portion of the plurality of images and information corresponding to the images, and obtaining a plurality of divided learning data, Selecting a portion of the image for which divided learning data having discriminating ability of trait information can be obtained, A step of determining whether or not the trait information is predictable based on the expression information, and selecting a portion where the trait information is not predictable based on the expression information, from the portion of the image from which the divided learning data having the ability to discriminate the trait information is obtained.
  • a gene having a mutation that correlates with the trait information is identified from genes included in a portion where the trait information is not predictable based on the expression information.
  • the present disclosure is also a program that causes a computer to execute a method for identifying a mutation in a gene involved in a trait, the method comprising: Providing a plurality of images that image sequence information and expression information of genetic factors of a plurality of individuals and a set of a plurality of trait information corresponding to the plurality of images, Dividing the plurality of images, learning a relation between a portion of the plurality of images and information corresponding to the images, and obtaining a plurality of divided learning data, Selecting a portion of the image for which divided learning data having discriminating ability of trait information can be obtained, A step of determining whether or not the trait information is predictable based on the expression information, and selecting a portion where the trait information is not predictable based on the expression information, from the portion of the image from which the divided learning data having the ability to determine the trait information is obtained When, Also provided is a program including a step of identifying a gene having a mutation correlated with trait information from genes included in a portion where trait information is not predictable
  • the trait prediction method can be executed by a program. That is, a program for causing a computer to execute a method for predicting trait information of an individual, the method being an information providing step of providing genetic information of a plurality of individuals and trait information of the plurality of individuals. Then, the genetic information includes a step including at least two types of information, a learning step of learning the relationship between the genetic information and the trait information from the genetic information of the plurality of individuals and the trait information of the plurality of individuals. And a prediction step of predicting the trait information of the individual from the genetic information of the individual based on the association between the genetic information and the trait information.
  • the program may further include a displaying step of displaying the predicted trait information.
  • a recording medium storing such a program can also be provided.
  • the system may include a program for causing a computer to execute the method described herein, and may include, for example, a recording medium storing such a program. Further, it may include a computing device (for example, a computer) for executing the instructions instructed by the program.
  • the computing device may be physically integrated or may be composed of multiple physically separate components. The functions corresponding to the imaging unit 105, the learning unit 103, the calculation unit 104, the acquisition unit 107, and the like according to the present disclosure may be provided inside these calculation devices as needed.
  • the system of the present disclosure can be realized as an ultra-multifunctional LSI manufactured by integrating a plurality of constituent parts on a single chip, and specifically, a microprocessor, a ROM (Read Only Memory), a RAM.
  • the computer system may include (Random Access Memory) and the like.
  • a computer program is stored in the ROM.
  • the system LSI achieves its function by the microprocessor operating in accordance with the computer program.
  • the system LSI is used here, but it may also be called IC, LSI, super LSI, or ultra LSI depending on the degree of integration. Further, the method of circuit integration is not limited to LSI, and it may be realized by a dedicated circuit or a general-purpose processor. A programmable programmable gate array (FPGA) after the LSI is manufactured, or a reconfigurable processor capable of reconfiguring the connection and setting of circuit cells inside the LSI may be used.
  • FPGA programmable programmable gate array
  • one aspect of the present disclosure is not limited to such imaging analysis, diagnosis, treatment, and prevention prediction apparatus, but also includes inspection analysis/diagnosis/treatment prediction apparatus that includes, as a step, a characteristic component included in the analysis/diagnosis/treatment prediction apparatus. It may be a diagnosis/treatment prediction method. Further, one aspect of the present disclosure may be a computer program that causes a computer to execute the characteristic steps included in the method of test analysis/diagnosis/treatment prediction. Further, one aspect of the present disclosure may be a computer-readable non-transitory recording medium in which such a computer program is recorded.
  • each component may be configured by dedicated hardware, or may be realized by executing a software program suitable for each component.
  • Each component may be realized by a program execution unit such as a CPU or a processor reading and executing a software program recorded in a recording medium such as a hard disk or a semiconductor memory.
  • the software that realizes the pain estimation device of each of the above-described embodiments may be the program described above in this specification.
  • Example 1 Analysis by AI using DNA and RNA
  • Example 1 Analysis by AI using DNA and RNA
  • Data acquisition transcription
  • genome sequence data genome sequence data
  • mutation data genome epigenetics data
  • miRNA expression data miRNA expression data
  • RNA methylation data (2) Imaging
  • Learning images on a machine equipped with both GPU and CPU (4) Using another image, the AI analysis by the step of predicting the sensitivity to an anticancer drug is verified.
  • the learning process detects the number of GPUs, the number of GPU-equipped memories, the number of CPUs, and the memory for CPUs on the program so that the learning process can be performed for image division learning and predictive integration.
  • the comprehensive analysis data is managed by Genomics of Drug Sensitivity in Cancer (GDSC; https://www.cancerrxgene.org/) and acquired from this site.
  • GDSC Genomics of Drug Sensitivity in Cancer
  • transcriptome data As data, transcriptome data, genome sequence data, mutation data, genome epigenetics data, miRNA expression data, and RNA methylation data in each cell line were acquired.
  • Expression data from the EMBL-EBI ArrayExpress, E-MTAB-3610 Transcriptional Profiling of 1,000 human cancer cell lines (https://www.ebi.ac.uk/arrayexpress/experiments/E-MTAB-3610/), Mutation and susceptibility data were downloaded directly from GDSC (https://www.cancerrxgene.org/downloads). Information on resistance to 5-FU was obtained for each cell line.
  • the devices used were Windows (registered trademark) 7, Core i7-4810MQ 2.80GHz, macOS X10.13.6 3.5GHz 6-Core Intel Xeon E5, and CentOS 6.4 Intel Xeon E5-2697 v2@2. .70 GHz was used together.
  • Windows registered trademark
  • the computer for imaging is not particularly limited, and any one core has a sufficient calculation amount. Parallelization only affects time savings.
  • processing was performed using a self-made program by R and Fortran.
  • Expression units were assigned to a two-dimensional numerical matrix arranged vertically and horizontally for imaging. Specifically, all genes and miRNAs registered in Ensemble were used as expression units. One pixel is assigned to one element of the numerical matrix. A rectangular region (250 pixel unit) of 125 pixels (rows) vertically and 2 pixels (columns) horizontally is used as one unit, and a plurality of horizontally adjacent unit regions are allocated according to the length of the expression unit. It was One of 256 levels of color [brightness in the case of monochrome] (0 to 255) is set for each pixel.
  • the expression level was calculated from the data obtained above. For each gene or exon, the frequency of occurrence in the transcriptome was counted, and standardized by the total read length of the transcriptome to obtain the expression level of each exon. Further, the expression amount of each miRNA was standardized by the total read length, and the number of reads mapped to each miRNA in the miRNA sequencing data was standardized to be the expression amount of each miRNA. The expression level is normalized and grouped into 150 steps. The left column of 250 pixel units in each expression unit was set to any of the colors with a density of 1 to 150 corresponding to the expression level.
  • Sequence data was obtained for each expression unit from the data obtained above. From the reference sequences for the partial sequences encoding each exon and miRNA and the genomic data obtained above, information on the location of the mutation in the genome in each cell line and the content of the mutation was acquired. Information on each mutation was reflected in the region assigned to each expression unit. Each pixel in the row in each region corresponds to the position of the array in the expression unit.
  • the pixel on the left side of the row of 250 pixels corresponding to each substitution position was set to 250 (deletion) color.
  • each exon and each miRNA if there is a base insertion compared to the reference sequence, it is located in the pixel on the left side of the row of 250 pixels corresponding to the start position of each insertion. , 180 (start of insertion), starting from the pixel on the right side of the pixel of 180 color, one pixel at a time, depending on the inserted nucleotide sequence, adenine (200), thymine (210 ), guanine (220), or cytosine (230).
  • start of insertion starting from the pixel on the right side of the pixel of 180 color, one pixel at a time, depending on the inserted nucleotide sequence, adenine (200), thymine (210 ), guanine (220), or cytosine (230).
  • DNA methylation 186, histone acetylation: 188, histone methylation: 190, histone ubiquitination: 192, histone phosphorylation: 194, histone SUMOylation: 196.
  • the methylation color was set to the left pixel of the 250 pixel unit row corresponding to each modification position as follows: For mRNA methylation, m6A:235. , Am:236, M6Am:237, m62Am:238, I:240, m5C:242, Cm:243, m7G:245, Gm:246, m27G:248, m227G:249, Um:251, M3Um:252.
  • a color for example, changing to 256 colors, 16 Bit colors, etc.
  • Example 1-2 Analysis (Feature extraction)
  • the discrimination parameter is optimized by machine learning using a neural network for image analysis. At that time, a characteristic portion is extracted from the continuous image of continuous lightness and color. After that, the discrimination parameter coefficient is optimized. A discriminant model using it is constructed.
  • Example 2 Arrangement on array (correlation analysis)
  • the normalized gene expression information is used to analyze the degree of the tendency to change in conjunction with all the gene sets.
  • both Pearson's correlation coefficient and Spearman's correlation coefficient are calculated, and the averaged value is calculated.
  • the gene names extracted in the highest combination (100 this time) having a strong correlation are counted.
  • the most counted genes extracted by correlation analysis are placed in the center of the array. After that, a correlation set with the target gene is extracted, and the average value of the Pearson and Spearman correlation coefficients is used as the interaction coefficient between the gene regions (125 rows x XX columns) to be arranged.
  • the initial arrangement from the central gene is set so as to be inversely proportional to the interaction coefficient, and the arrangement is repeated similarly for the next arranged gene to set the initial arrangement.
  • the interaction between the intergenic regions considers the averaged interaction coefficient as a spring constant, and optimizes the position only in the lateral direction of the initial configuration.
  • each partial line 125 lines unit
  • the displacement between genes is not allowed, but the upper and lower contact positions of the partial region of the gene are allowed to be laterally displaced by the force according to the spring constant.
  • Example 3 Improvement of calculation efficiency (machine spec detection)
  • the machine used for the machine learning this time assumes Linux (registered trademark) OS and creates a program. In that case, cat/proc/cpuinfo By using the command, you can know the specifications of the CPU.
  • the memory is cat/proc/meminfo GPU is lspci
  • the most stable parameter is searched for by observing the rate of change that occurs in the prediction efficiency when the partial parameters of the prediction model that are integrated initial parameters are changed, and performing nonlinear optimization.
  • the HDD is used as a virtual memory and the memory is exchanged on-the-fly, and the CPU is used to perform optimization.
  • Example 4 Analysis example Exhaustive transcriptome data, genomic sequence data, and mutation data were obtained for the target tumor cell line. The model obtained by the above learning is applied to predict the 5-FU resistance of the tumor cell line. Acquire 5-FU resistance information of the tumor cell line to validate the model.
  • Example 4-1 Example of analysis of anticancer drug sensitivity As described in (Data acquisition) of Example 1, comprehensive transcriptome data, genome sequence data, and mutation data were acquired for tumor cell lines. did. 10 cell lines with particularly high sensitivity to 5-FU (MV-4-11, NOMO-1, OCI-AML2, PSN1, RPMI-6666, SIG-M5, SLVL, SR, SUP and YT), and 5-FU Tumors including 10 cell lines (CAS-1, FU-OV-1, HCC1143, NCI-H1693, NCI-H2291, OVKATE, Saos-2, SKG-IIIa, SW684 and SW111) that are particularly sensitive to Cell lines were used as training data.
  • 5-FU MV-4-11, NOMO-1, OCI-AML2, PSN1, RPMI-6666, SIG-M5, SLVL, SR, SUP and YT
  • 5-FU Tumors including 10 cell lines (CAS-1, FU-OV-1, HCC1143, NCI-H1693, NCI-H2291
  • Example 3 According to the procedure of (feature extraction) and (classification) described in Example 1, and according to (data division) described in Example 3, the image and the anticancer drug sensitivity are separated. Machine learning of correlation was performed. That is, the generated image was divided into 16 ⁇ 16, the discrimination parameter was optimized for each region by machine learning using a neural network for image analysis, and a model was generated for each region.
  • Example 4-2 Change in learning efficiency depending on data type used for imaging
  • training data of tumor cell lines was obtained.
  • a similar image of the information of only the DNA mutation data and the information of only the RNA expression amount data was similarly imaged.
  • Embodiment 4-3 Difference in Convergence for Each Divided Area
  • the generated image is divided into 16 ⁇ 16 and a neural network for image analysis is provided for each area.
  • the discriminant parameter was optimized and a model was generated for each region.
  • information on about 100 to 200 genes is stored for each region.
  • the convergence of verification accuracy for each Epoch was verified for the model for each region (FIG. 11 ).
  • each of the regions that tend to converge can be distinguished by the expression level information. Specifically, a clustering analysis was performed on the expression level of the gene contained in the region having a tendency to converge in each cell line, and it was investigated whether or not the expression level was correlated with anticancer drug sensitivity.
  • Clustering analysis was performed based on the expression levels of genes contained in the divided regions. Since there are two target discrimination groups, and each group has the same number, each individual sorted according to similarity was separated at the center, and the percentage of identity within each separated group was calculated. If the respective percentages of identity are 100%, it indicates that they can be completely separated only by the expression information, and if 50%, they are randomly divided and cannot be divided only by the expression information. .. In the present example, it was determined that when the difference was 1 to 2 out of 10 or less, that is, 80 to 90% or more, it was possible to determine only by the expression level.
  • the gene describing the region may have a gene mutation involved in 5FU sensitivity. It is considered that this makes it possible to generate a model for predicting anticancer drug sensitivity from gene mutations. Moreover, it is considered that the method can be applied to a method for identifying a mutation of a gene involved in a certain trait by utilizing the difference in convergence of each region.
  • the gene region that influences the efficacy of the anticancer drug can be identified.
  • identifying the gene region involved in anticancer drug resistance using whole genome information a new correlation between anticancer drug resistance and gene, which has not been confirmed so far, may be revealed. Will lead to the development of a new companion diagnostic method for anticancer drugs.
  • the prediction model for anticancer drug susceptibility was verified, but if other traits are used as learning data, a prediction model for traits other than anticancer drug susceptibility can be similarly generated. It is thought to be possible.
  • Example 5 Example including methylation other than DNA/RNA expression
  • Comprehensive transcriptome data, genomic sequence data, mutation data, epigenetic modification data on DNA, and RNA on multiple tumor cell lines Acquired epigenetic modification data of. These pieces of information are collected and imaged as described above. Using this image, the relationship between the drug resistance information of the tumor cell line and the gene information is learned as described above. The model generated by learning is applied to predict drug resistance of the target cell line. Obtain all or part of comprehensive transcriptome data, genomic sequence data, mutation data, epigenetic modification data on DNA, epigenetic modification data on RNA from target cell lines and apply the model can do.
  • Example 6 Providing services to healthcare services A new drug is administered to cancer cells, and the DNA/RNA information obtained therefrom is learned by the above system and analyzed to predict the mechanism of action of the drug. To do. This predicted mechanism of action may be provided to pharmaceutical companies, for example.
  • This prediction result can be provided to, for example, a hospital.
  • the genetic information of the subject of interest can provide information about diseases that the subject may develop.
  • an application for transmitting the genetic information, receiving the application result of the above model, and displaying the desired result can also be provided.
  • the application may be capable of imaging genetic information.
  • the present disclosure can be used in a field where prediction of individual traits is useful, particularly in the field of medicine. In addition to predicting the onset tendency of a disease in advance, it is useful, for example, in determining an appropriate treatment.

Abstract

本開示は、個体の遺伝情報から形質情報を予測すること、およびそのためのモデルを生成することに関する。複数の個体の複数種の遺伝情報を用いて学習を行い、形質情報を予測するモデルを生成する。学習に際して、遺伝情報を画像化して学習に供することができる。本開示における画像は、配列情報および発現情報の両方を格納し得る。また、画像中の遺伝因子の配置を最適化し得る。学習は、分割学習として行うことができ、分割学習後にデータを統合し得る。

Description

個体の形質情報を予測するためのシステムまたは方法
 本開示は、データ解析の分野に関する。より詳細には、個体の遺伝子情報のデータから、個体の形質情報を予測する技術に関する。
 近年の測定技術の発展により、個体の遺伝子情報について、より多岐にわたる情報を大量に収集することが可能となっている。例えば、ゲノム配列を含めた核酸配列、遺伝子の発現情報、非コーディング核酸の発現情報、核酸のエピジェネティック修飾などの情報を収集することが可能である。個体の形質は、遺伝子情報に基づいて画定されているということを前提とすれば、原理上は、遺伝子情報を網羅的に取得することができれば、個体の形質について予め予測することができるはずである。しかしながら、個体の遺伝子情報は非常に膨大な情報量を有し、また、形質への寄与はさまざまな因子の複合的な影響を受けるものであるため、このような予測は未だ困難である。
 本開示の1つの態様において、個体の形質情報を予測するためのシステムまたはそれを用いる方法、プログラムおよび記録媒体が提供される。本開示のこの態様は、複数の個体の情報から学習することによって、ある個体の遺伝子情報から、当該個体の形質情報を予測し、予測結果を表示することを可能とすることを企図している。例えば、複数の個体の遺伝情報と、当該複数の個体の形質情報とから、遺伝情報と形質情報との関連を学習することができ、とりわけ、遺伝情報として、複数の遺伝情報(例えば、遺伝因子の配列情報(例えば、変異情報)、発現情報、および修飾情報(例えば、メチル化情報)など)を用いて学習し、その学習に基づいて予測し、その結果を表示することが可能である。
 本開示の1つの実施形態において、学習は、複数の個体の遺伝情報を画像化して学習することを含み得る。そのような画像化は、例えば、本明細書の他の部分に詳述されるようにして行うことができる。また、画像化されたデータは、本明細書の他の部分に詳述されるようなデータ形式を有するものであり得る。これは、複数種の遺伝情報に関する大量のデータを同時に人工知能によって学習する際の人工知能のパフォーマンスを最大化させ得る。
 本開示の1つの実施形態において、学習は、遺伝情報を分割して、部分遺伝情報と形質情報との関連を学習した後に、複数の部分遺伝情報と形質情報との関連を統合し、遺伝情報と形質情報との関連を学習するように行われ得る。これにより、遺伝情報におけるデータの量における制約を解消し得る。
 例えば、本開示の例として、以下の項目が挙げられる。
[項目A1]
 個体の形質情報を予測するためのシステムであって、
 複数の個体の遺伝情報と、該複数の個体の形質情報とを格納する格納部であって、該遺伝情報は、少なくとも2種類の情報を含む、格納部と、
 該複数の個体の遺伝情報と、該複数の個体の形質情報とから、遺伝情報と形質情報との関連を学習するように構成されている学習部と、
 該遺伝情報と形質情報との関連に基づき、個体の遺伝子情報から、該個体の形質情報を予測する、計算部と
を備える、システム。
[項目A2]
 前記学習部が、前記複数の個体の遺伝情報を画像化して学習するように構成されている、前記項目に記載のシステム。
[項目A3]
 前記学習部が、前記複数の個体の遺伝情報を分割して、部分遺伝情報と形質情報との関連を学習し、複数の部分遺伝情報と形質情報との関連を統合し、前記遺伝情報と形質情報との関連を学習するように構成されている、前記項目のいずれかに記載のシステム。
[項目A4]
 前記遺伝情報が、遺伝因子の配列情報(例えば、変異情報)、発現情報、および修飾情報(例えば、メチル化情報)からなる群から選択される、前記項目のいずれかに記載のシステム。
[項目A5]
 前記複数の個体の遺伝情報の画像化が、項目Bのいずれかに記載の画像化方法によって行われるように構成されている、前記項目のいずれかに記載のシステム。
[項目A6]
 前記学習部が、項目Cのいずれかに記載のデータ構造を有するデータを学習に用いるように構成されている、前記項目のいずれかに記載のシステム。
[項目A7]
 学習部が、項目Dのいずれかに記載の方法によって、前記遺伝情報と形質情報との関連を学習するように構成されている、前記項目のいずれかに記載のシステム。
[項目A8]
 前記計算部において予測された形質情報から、前記個体の診断および/または個体に対する治療または予防を分析する、分析部と
を備える、前記項目のいずれかに記載のシステム。
[項目A9]
 前記計算部において予測された形質情報を表示する、表示部をさらに備える、前記項目のいずれかに記載のシステム。
[項目A1-1]
 個体の形質情報を予測するための方法であって、
 複数の個体の遺伝情報と、該複数の個体の形質情報とを提供する情報提供工程であって、該遺伝情報は、少なくとも2種類の情報を含む、工程と、
 該複数の個体の遺伝情報と、該複数の個体の形質情報とから、遺伝情報と形質情報との関連を学習させる学習工程と、
 該遺伝情報と形質情報との関連に基づき、個体の遺伝子情報から、該個体の形質情報を予測する予測工程と
を含む、方法。
[項目A2-1]
 個体の形質情報を予測するための方法であって、
 複数の個体の遺伝情報と、該複数の個体の形質情報とを提供する情報提供工程であって、該遺伝情報は、少なくとも2種類の情報を含む、工程と、
 該複数の個体の遺伝情報と、該複数の個体の形質情報とから、遺伝情報と形質情報との関連を学習させる学習工程と、
 該遺伝情報と形質情報との関連に基づき、個体の遺伝子情報から、該個体の形質情報を予測する予測工程と、
 該予測された形質情報を表示する表示工程と
を含む、方法。
[項目A3-1]
 前記項目のいずれかまたは複数に記載の特徴をさらに備える、前記項目のいずれかに記載の方法。
[項目A1-2]
 個体の形質情報を予測するための方法をコンピュータに実行させるプログラムであって、該方法は、
 複数の個体の遺伝情報と、該複数の個体の形質情報とを提供する情報提供工程であって、該遺伝情報は、少なくとも2種類の情報を含む、工程と、
 該複数の個体の遺伝情報と、該複数の個体の形質情報とから、遺伝情報と形質情報との関連を学習させる学習工程と、
 該遺伝情報と形質情報との関連に基づき、個体の遺伝子情報から、該個体の形質情報を予測する予測工程と
を含む、プログラム。
[項目A2-2]
 前記方法は、前記予測された形質情報を表示する表示工程をさらに含む、前記項目に記載のプログラム。
[項目A3-2]
 前記項目のいずれかまたは複数に記載の特徴をさらに備える前記項目のいずれかに記載のプログラム。
[項目A1-3]
 個体の形質情報を予測するための方法をコンピュータに実行させるプログラムを格納した記録媒体であって、該方法は、
 複数の個体の遺伝情報と、該複数の個体の形質情報とを提供する情報提供工程であって、該遺伝情報は、少なくとも2種類の情報を含む、工程と、
 該複数の個体の遺伝情報と、該複数の個体の形質情報とから、遺伝情報と形質情報との関連を学習させる学習工程と、
 該遺伝情報と形質情報との関連に基づき、個体の遺伝子情報から、該個体の形質情報を予測する予測工程と
を含む、記録媒体。
[項目A2-3]
 前記方法は、前記予測された形質情報を表示する表示工程をさらに含む、前記項目のいずれかに記載の記録媒体。
[項目A3-3]
 前記項目のいずれかまたは複数に記載の特徴をさらに備える、前記項目のいずれかに記載の記録媒体。
[項目B1]
 複数の遺伝因子を含む遺伝因子集団の配列データおよび複数の遺伝因子を含む遺伝因子集団の発現データを画像化する方法であって、
 該遺伝因子集団の配列データおよび該遺伝因子集団の発現データを格納する画像データを生成する工程であって、該画像データは、それぞれが位置情報および色情報を含む複数のピクセルを有する、工程
を含む、方法。
[項目B2]
 前記複数の遺伝因子のそれぞれが、前記画像データ中の領域に対応付けられており、前記画像データを生成する工程が、
 前記遺伝因子の発現量を、該遺伝因子に対応する領域内の一定領域における色情報および/または該領域中のある色を有する領域の面積の情報に変換する工程を含む、
前記項目に記載の方法。
[項目B2-1]
 複数の遺伝因子を含む遺伝因子集団の配列データおよび複数の遺伝因子を含む遺伝因子集団の発現データを画像化する方法をコンピュータに実行させるプログラムであって、該方法は
 該遺伝因子集団の配列データおよび該遺伝因子集団の発現データを格納する画像データを生成する工程であって、該画像データは、それぞれが位置情報および色情報を含む複数のピクセルを有する、工程
を含む、プログラム。
[項目B3]
 遺伝情報を画像化する方法であって、該遺伝情報は、複数の遺伝因子を含む遺伝因子集団の配列データおよび/または発現データを含み、該方法は、
 該遺伝因子集団の配列データおよび/または発現データを格納する画像データを生成する工程であって、該画像データは、それぞれが位置情報および色情報を含む複数のピクセルを有し、
  該工程は、該複数の遺伝因子のそれぞれを、前記画像データ中の領域に対応付けることを含み、各遺伝因子に対応する領域は、各遺伝因子の相関重みが強いものが近接するように配置されることを特徴とする、工程
を含む、方法。
[項目B4]
 前記画像データを生成する工程が、前記遺伝因子について必要な画像データ中の領域の面積を算出することをさらに含む、前記項目に記載の方法。
[項目B4-1]
 遺伝情報を画像化する方法をコンピュータに実行させるプログラムであって、該遺伝情報は、複数の遺伝因子を含む遺伝因子集団の配列データおよび/または発現データを含み、該方法は、
 該遺伝因子集団の配列データおよび/または発現データを格納する画像データを生成する工程であって、該画像データは、それぞれが位置情報および色情報を含む複数のピクセルを有し、
 該工程は、該複数の遺伝因子のそれぞれを、前記画像データ中の領域に対応付けることを含み、各遺伝因子に対応する領域は、各遺伝因子の相関重みが強いものが近接するように配置されることを特徴とする、工程
を含む、プログラム。
[項目B5]
 前記相関重みが、
 遺伝因子間の相関解析から強い相関を有する遺伝因子の組み合わせを抽出し、
 各遺伝因子についての強い相関遺伝因子を抽出し、
 抽出された該遺伝因子を用いた変数選択重回帰を行い、
 該変数選択重回帰の結果から相関重みを算出すること
によって算出される、前記項目のいずれかに記載の方法。
[項目B6]
 前記遺伝因子集団の配列データが、親細胞から娘細胞に遺伝形質を伝搬するイベントに関わる因子の配列データを含む、前記項目のいずれかに記載の方法。
[項目B7]
 前記遺伝因子集団の発現データが、当世代のみの情報伝達に関わる因子の発現データを含む、前記項目のいずれかに記載の方法。
[項目B8]
 前記配列データおよび発現データが、同一の個体の遺伝因子のものである、前記項目のいずれかに記載の方法。
[項目B9]
 前記複数の遺伝因子のそれぞれが、前記画像データ中の領域に対応付けられており、前記画像データを生成する工程が、
 ある遺伝因子の配列における変異の位置および型の情報を、該遺伝因子に対応する領域内の位置および色情報に変換する工程
を含む、前記項目のいずれかに記載の方法。
[項目B10]
 前記画像データを生成する工程が、
 ある遺伝因子の配列における修飾の情報を、該遺伝因子に対応する領域内の位置および色情報に変換する工程
をさらに含む、前記項目のいずれかに記載の方法。
[項目B11]
 前記遺伝因子集団の発現データが、転写ユニットの発現データを含む、前記項目のいずれかに記載の方法。
[項目B12]
 前記遺伝因子集団の発現データが、mRNAの発現データを含む、前記項目のいずれかに記載の方法。
[項目B13]
 前記mRNAの発現データが、mRNAの発現量、スプライシング、転写開始点、および/またはエピジェネティック修飾のデータを含む、前記項目のいずれかに記載の方法。
[項目B14]
 前記遺伝因子集団の発現データが、miRNA、snoRNA、siRNA、tRNA、rRNA、mitRNA、および/または長鎖non-coding RNAの発現データを含む、前記項目のいずれかに記載の方法。
[項目B15]
 前記遺伝因子集団の発現データが、miRNA、snoRNA、siRNA、tRNA、rRNA、mitRNA、および/または長鎖non-coding RNAの発現量、スプライシング、転写開始点、および/またはエピジェネティック修飾のデータを含む、前記項目のいずれかに記載の方法。
[項目B16]
 個体の遺伝因子の配列情報および発現情報から該個体の形質情報を予測するモデルを作成するための方法であって、
 複数の個体の遺伝因子の配列情報および発現情報を前記項目のいずれかのいずれか1項に記載の方法によって画像化し、画像データを提供する工程と、
 該複数の個体の形質情報を提供する工程と、
 該画像データおよび該形質情報から、深層学習により、形質と相関する画像中の特徴表現を抽出する工程と
を含む、方法。
[項目B1-1]
 複数の遺伝因子を含む遺伝因子集団の配列データおよび複数の遺伝因子を含む遺伝因子集団の発現データを画像化する方法をコンピュータに実行させるプログラムであって、該方法は、
 該遺伝因子集団の配列データおよび該遺伝因子集団の発現データを格納する画像データを生成する工程であって、該画像データは、それぞれが位置情報および色情報を含む複数のピクセルを有する、工程
を含む、プログラム。
[項目B1-2]
 複数の遺伝因子を含む遺伝因子集団の配列データおよび複数の遺伝因子を含む遺伝因子集団の発現データを画像化する方法をコンピュータに実行させるプログラムを格納した記録媒体であって、該方法は、
 該遺伝因子集団の配列データおよび該遺伝因子集団の発現データを格納する画像データを生成する工程であって、該画像データは、それぞれが位置情報および色情報を含む複数のピクセルを有する、工程
を含む、記録媒体。
[項目B1-3]
 複数の遺伝因子を含む遺伝因子集団の配列データおよび複数の遺伝因子を含む遺伝因子集団の発現データを画像化する方法を実行するシステムであって、該システムは、
 該遺伝因子集団の配列データおよび該遺伝因子集団の発現データを格納する画像データを生成する画像生成部であって、該画像データは、それぞれが位置情報および色情報を含む複数のピクセルを有する、画像生成部と
 該遺伝因子集団の配列データと、該遺伝因子集団の発現データと、該画像データを格納するデータ格納部と
を備える、システム。
[項目B16-1]
 個体の遺伝因子の配列情報および発現情報から該個体の形質情報を予測するモデルを作成するための方法をコンピュータに実行させるプログラムであって、該方法は、
 複数の個体の遺伝因子の配列情報および発現情報を項目B1~B15のいずれか1項に記載の方法によって画像化し、画像データを提供する工程と、
 該複数の個体の形質情報を提供する工程と、
 該画像データおよび該形質情報から、深層学習により、形質と相関する画像中の特徴表現を抽出する工程と
を含む、プログラム。
[項目B16-2]
 個体の遺伝因子の配列情報および発現情報から該個体の形質情報を予測するモデルを作成するための方法をコンピュータに実行させるプログラムを格納した記録媒体であって、該方法は、
 複数の個体の遺伝因子の配列情報および発現情報を前記項目のいずれかに記載の方法によって画像化し、画像データを提供する工程と、
 該複数の個体の形質情報を提供する工程と、
 該画像データおよび該形質情報から、深層学習により、形質と相関する画像中の特徴表現を抽出する工程と
を含む、記録媒体。
[項目B16-3]
 個体の遺伝因子の配列情報および発現情報から該個体の形質情報を予測するモデルを作成するための方法を実行するシステムであって、該システムは、
 複数の個体の遺伝因子の配列情報および発現情報を前記項目のいずれかに記載の方法によって画像化し、画像データを提供する画像生成部と、
 該複数の個体の形質情報と、該画像データを格納するデータ格納部と、
 該画像データおよび該形質情報から、深層学習により、形質と相関する画像中の特徴表現を抽出する学習部と
を備える、システム。
[項目C1]
 複数の遺伝因子を含む遺伝因子集団の配列情報および複数の遺伝因子を含む遺伝因子集団の発現情報を表す画像データのデータ構造であって、
 該画像データは、該複数の遺伝因子に対応付けられた複数の領域を有し、
 遺伝因子の配列中の各位置が、該遺伝因子に対応付けられた該領域内の位置に対応付けられており、
 該遺伝因子の配列中の各位置における置換、欠失および/または挿入の情報が、該位置に対応する位置における色情報として格納され、
 該遺伝因子の発現データが、該領域中のある領域における色情報として、および/または該領域中のある色を有する領域の面積の情報として格納されている、データ構造。
[項目C2]
 前記遺伝因子の配列中の各位置におけるエピジェネティクス修飾の情報が、該位置に対応する位置における色情報としてさらに格納される、前記項目に記載のデータ構造。
[項目C3]
 前記複数の遺伝因子におけるmiRNAの配列中の各位置におけるメチル化が、該位置に対応する位置における色情報として格納される、前記項目のいずれかに記載のデータ構造。
[項目C4]
 前記画像データが、行および列を有するマトリックスであり、前記各位置が、行および列の組み合わせとして格納される、前記項目のいずれかに記載のデータ構造。
[項目C5]
 配列情報および発現情報を表す画像データのデータ構造であって、該画像データは、行および列を有するマトリックスであり、該画像データ中の各位置が、行および列の組み合わせとして格納され、
 該配列情報は、ゲノム上の領域のDNA配列を含み、該ゲノム上の領域は、遺伝子、エクソン、イントロン、非発現領域、および/またはnon-coding RNAをコードする領域を含み、
 該発現情報は、mRNA、miRNA、snoRNA、siRNA、tRNA、rRNA、mitRNA、および/または長鎖non-coding RNAからなる群から選択される転写ユニットの発現量、スプライシング、転写開始点、および/またはエピジェネティック修飾の情報を含み、
 該画像データは、各ゲノム上の領域および/または転写ユニットに対応付けられた複数の領域を有し、
 該ゲノム上の領域に対応付けられた領域は、該ゲノム上の領域の長さに依存した数の列および一定数の行からなり、
 該ゲノム上の領域の配列中の各位置が、該ゲノム上の領域に対応付けられた該領域内の奇数列における位置に対応付けられており、
 該ゲノム上の領域の配列中の各位置における置換、欠失および/または挿入の情報が、該位置に対応する奇数列における位置における色情報として格納され、該色情報は、変異が存在しないことを示す色情報、Aに置換されていることを示す色情報、Tに置換されていることを示す色情報、Gに置換されていることを示す色情報、Cに置換されていることを示す色情報、欠失していることを示す色情報、または該位置に隣接して挿入が存在することを示す色情報であり、
 挿入される配列の情報が、挿入が存在することを示す色情報を有する位置に隣接する偶数列における位置を始点として、挿入される配列を示す色情報が格納され、
 該ゲノム上の領域の配列中の各位置におけるエピジェネティック修飾の情報が、該位置に対応する奇数列における位置における色情報として格納され、該色情報は、エピジェネティック修飾が存在しないことを示す色情報、DNAメチル化されていることを示す色情報、ヒストンメチル化されていることを示す色情報、ヒストンアセチル化されていることを示す色情報、ヒストンユビキチン化されていることを示す色情報、またはヒストンリン酸化されていることを示す色情報を含み、
 あるゲノム上の領域から転写される転写ユニットについて、該転写ユニットの発現量が、該ゲノム上の領域に対応する画像中の領域における色の濃淡として、および/または該領域中のある色を有する領域の面積の情報として格納され、
 遺伝子であるゲノム上の領域について、該遺伝子に対応するmRNAの発現量が、該領域中のある領域における色の濃淡として、および/または該領域中のある色を有する領域の面積の情報として格納されている、データ構造。
[項目D1]
 画像と、該画像に対応する情報との関連を予測するモデルを作成するための方法であって、
 複数の画像および該複数の画像に対応する複数の情報のセットを提供する工程と、
 該複数の画像を分割し、該複数の画像の部分と、該画像に対応する情報との関連を学習し、複数の分割学習データを得る工程と、
 該複数の分割学習データを統合し、該画像と、該画像に対応する情報との関連を予測するモデルを生成する工程と
を含む、方法。
[項目D2]
 前記統合する工程が、GPUを搭載したCPUマシンを用い、メモリ搭載量を含めたGPUスペックおよびCPUスペックを検出することを含む、前記項目に記載の方法。
[項目D3]
 前記統合する工程が、HDD上でのRead-Writeファイルの利用、CPUメモリを最大限利用できるような非線形最適化処理アルゴリズムを最適化することを含む、前記項目のいずれかに記載の方法。
[項目D4]
 前記非線形最適化処理アルゴリズムが、必要なデータを随時メモリに移して計算し、計算結果をHDDに戻すことによって、データサイズに非依存的に計算可能なアルゴリズムである、前記項目のいずれかに記載の方法。
[項目D5]
 前記非線形最適化処理が、全判別パラメータを最適化することを含む、前記項目のいずれかに記載の方法。
[項目D6]
 前記複数の分割学習データを得る工程において、各分割学習データの判別能力を検証し、判別力のある分割学習データを選択して統合に供することを特徴とする、前記項目のいずれかに記載の方法。
[項目D1-1]
 画像と、該画像に対応する情報との関連を予測するモデルを作成するための方法をコンピュータに実行させるプログラムであって、該方法は、
 複数の画像および該複数の画像に対応する複数の情報のセットを提供する工程と、
 該複数の画像を分割し、該複数の画像の部分と、該画像に対応する情報との関連を学習し、複数の分割学習データを得る工程と、
 該複数の分割学習データを統合し、該画像と、該画像に対応する情報との関連を予測するモデルを生成する工程と
を含む、プログラム。
[項目D1-2]
 画像と、該画像に対応する情報との関連を予測するモデルを作成するための方法をコンピュータに実行させるプログラムを格納した記録媒体であって、該方法は、
 複数の画像および該複数の画像に対応する複数の情報のセットを提供する工程と、
 該複数の画像を分割し、該複数の画像の部分と、該画像に対応する情報との関連を学習し、複数の分割学習データを得る工程と、
 該複数の分割学習データを統合し、該画像と、該画像に対応する情報との関連を予測するモデルを生成する工程と
を含む、記録媒体。
[項目D1-2]
 画像と、該画像に対応する情報との関連を予測するモデルを作成するシステムであって、該システムは、
 複数の画像および該複数の画像に対応する複数の情報のセットを提供するデータ格納部と、
 該複数の画像を分割し、該複数の画像の部分と、該画像に対応する情報との関連を学習し、複数の分割学習データを得るデータ学習部と、
 該複数の分割学習データを統合し、該画像と、該画像に対応する情報との関連を予測するモデルを生成するモデル生成部と
を備える、システム。
[項目E1]
 個体の形質情報を予測するためのシステムであって、
 複数の個体の遺伝情報と、該複数の個体の形質情報とを格納する格納部であって、該遺伝情報は、遺伝因子の配列情報および発現情報を含む、格納部と、
 該複数の個体の遺伝情報と、該複数の個体の形質情報とから、遺伝情報と形質情報との関連を、該複数の個体の遺伝情報を画像化して学習するように構成されている、学習部と、
 該遺伝情報と形質情報との関連に基づき、個体の遺伝子情報から、該個体の形質情報を予測する、計算部と
を備え、
 ここで、該学習部が、該複数の個体の遺伝情報を画像化して生成した画像を分割して、画像の各領域と形質情報との関連を学習し、各領域から形質情報の判別能力を有するモデルを生成可能な領域を選択して、画像の各領域から形質情報を予測するモデルを生成するように構成されている、システム。
[項目E2]
 個体の遺伝因子の配列情報および発現情報を含む遺伝情報と、該個体の形質情報との関連を予測するモデルを作成するための方法であって、
 複数の個体の遺伝因子の配列情報および発現情報を画像化した複数の画像および該複数の画像に対応する複数の形質情報のセットを提供する工程と、
 該複数の画像を分割し、該複数の画像の部分と、該画像に対応する情報との関連を学習し、複数の分割学習データを得る工程と、
 該複数の分割学習データから、形質情報の判別能力を有する分割学習データを選択し、画像の各領域から形質情報を予測するモデルを生成する工程と
を含む、方法。
[項目E3]
 個体の遺伝因子の配列情報および発現情報を含む遺伝情報と、該個体の形質情報との関連を予測するモデルを作成するための方法をコンピュータに実行させるプログラムであって、該方法は、
 複数の個体の遺伝因子の配列情報および発現情報を画像化した複数の画像および該複数の画像に対応する複数の形質情報のセットを提供する工程と、
 該複数の画像を分割し、該複数の画像の部分と、該画像に対応する情報との関連を学習し、複数の分割学習データを得る工程と、
 該複数の分割学習データから、形質情報の判別能力を有する分割学習データを選択し、画像の各領域から形質情報を予測するモデルを生成する工程と
を含む、プログラム。
[項目F1]
 個体の形質情報を予測するためのシステムであって、
 複数の個体の遺伝情報と、該複数の個体の形質情報とを格納する格納部であって、該遺伝情報は、遺伝因子の配列情報および発現情報を含む、格納部と、
 該複数の個体の遺伝情報と、該複数の個体の形質情報とから、遺伝情報と形質情報との関連を、該複数の個体の遺伝情報を画像化して学習するように構成されている、学習部と、
 該遺伝情報と形質情報との関連に基づき、個体の遺伝情報から、該個体の形質情報を予測する、計算部と
を備え、
 ここで、該学習部が、該複数の個体の遺伝情報を画像化して生成した画像を分割して、画像の各領域と形質情報との関連を学習し、各領域から形質情報の判別能力を有するモデルを生成可能な領域を選択し、各領域において、発現情報に基づいて形質情報が予測可能かを判定し、発現情報に基づいて形質情報が予測可能でない領域における遺伝子から、形質情報と相関する変異を有する遺伝子を特定するように構成され、
 該計算部は、該形質情報と相関する変異を有する遺伝子の情報に基づいて該個体の形質情報を予測するように構成されている、システム。
[項目F1-1]
 前記発現情報に基づいて形質情報が予測可能かの判定が、
 前記画像の各領域に含まれる遺伝子の各発現量を基に前記複数の個体についてクラスタリング分析を行うことと、
 前記複数の個体を形質情報に従って群に分割することと、
 該群と、クラスタリング分析によって分割されたクラスターとの同一性を算出することと、
 該同一性が所定の閾値(例えば、80~90%)を超える場合に、発現情報に基づいて形質情報が予測可能であると判定することと
によって行われる、前記項目に記載のシステム。
[項目F1-2]
 前記学習部が、発現情報に基づいて形質情報が予測可能かを判定した後に、発現情報に基づいて形質情報が予測可能である領域をさらに分割し、各分割領域について、発現情報に基づいて形質情報が予測可能かをさらに判定するように構成され、遺伝子発現量情報のみで判別できる領域から、形質情報と相関する変異を有する遺伝子を特定するように構成されている、前記項目のいずれかに記載のシステム。
[項目F1-3]
 前記発現情報に基づいて形質情報が予測可能でない領域における遺伝子からの形質情報と相関する変異を有する遺伝子の特定が、該領域をさらに分割し、発現情報に基づいて形質情報が予測可能でない領域を絞りこむことをさらに含む、前記項目のいずれかに記載のシステム。
[項目F2]
 形質に関与する遺伝子の変異を同定するための方法であって、
 複数の個体の遺伝因子の配列情報および発現情報を画像化した複数の画像および該複数の画像に対応する複数の形質情報のセットを提供する工程と、
 該複数の画像を分割し、該複数の画像の部分と、該画像に対応する情報との関連を学習し、複数の分割学習データを得る工程と、
 形質情報の判別能力を有する分割学習データを得られる画像の部分を選択する工程と、
 該形質情報の判別能力を有する分割学習データを得られる画像の部分から、発現情報に基づいて形質情報が予測可能かを判定し、発現情報に基づいて形質情報が予測可能でない部分を選択する工程と、
 該発現情報に基づいて形質情報が予測可能でない部分に含まれる遺伝子から、形質情報と相関する変異を有する遺伝子を特定する工程と
を含む、方法。
[項目F2-1]
 前記発現情報に基づいて形質情報が予測可能かの判定が、
 前記画像の各領域に含まれる遺伝子の各発現量を基に前記複数の個体についてクラスタリング分析を行うことと、
 前記複数の個体を形質情報に従って群に分割することと、
 該群と、クラスタリング分析によって分割されたクラスターとの同一性を算出することと、
 該同一性が所定の閾値(例えば、80~90%)を超える場合に、発現情報に基づいて形質情報が予測可能であると判定することと
によって行われる、前記項目に記載の方法。
[項目F2-2]
 発現情報に基づいて形質情報が予測可能かを判定した後に、発現情報に基づいて形質情報が予測可能である領域をさらに分割し、各分割領域について、発現情報に基づいて形質情報が予測可能かをさらに判定し、遺伝子発現量情報のみで判別できる領域から、形質情報と相関する変異を有する遺伝子を特定することをさらに含む、前記項目のいずれかに記載の方法。
[項目F2-3]
 前記発現情報に基づいて形質情報が予測可能でない領域における遺伝子からの形質情報と相関する変異を有する遺伝子の特定が、該領域をさらに分割し、発現情報に基づいて形質情報が予測可能でない領域を絞りこむことをさらに含む、前記項目のいずれかに記載の方法。
[項目F3]
 形質に関与する遺伝子の変異を同定するための方法をコンピュータに実行させるプログラムであって、該方法は、
 複数の個体の遺伝因子の配列情報および発現情報を画像化した複数の画像および該複数の画像に対応する複数の形質情報のセットを提供する工程と、
 該複数の画像を分割し、該複数の画像の部分と、該画像に対応する情報との関連を学習し、複数の分割学習データを得る工程と、
 形質情報の判別能力を有する分割学習データを得られる画像の部分を選択する工程と、
 該形質情報の判別能力を有する分割学習データを得られる画像の部分から、発現情報に基づいて形質情報が予測可能かを判定し、発現情報に基づいて形質情報が予測可能でない部分を選択する工程と、
 該発現情報に基づいて形質情報が予測可能でない部分に含まれる遺伝子から、形質情報と相関する変異を有する遺伝子を特定する工程と
を含む、プログラム。
[項目F3-1]
 前記発現情報に基づいて形質情報が予測可能かの判定が、
 前記画像の各領域に含まれる遺伝子の各発現量を基に前記複数の個体についてクラスタリング分析を行うことと、
 前記複数の個体を形質情報に従って群に分割することと、
 該群と、クラスタリング分析によって分割されたクラスターとの同一性を算出することと、
 該同一性が所定の閾値(例えば、80~90%)を超える場合に、発現情報に基づいて形質情報が予測可能であると判定することと
によって行われる、前記項目に記載のプログラム。
[項目F3-2]
 前記方法が、発現情報に基づいて形質情報が予測可能かを判定した後に、発現情報に基づいて形質情報が予測可能である領域をさらに分割し、各分割領域について、発現情報に基づいて形質情報が予測可能かをさらに判定し、遺伝子発現量情報のみで判別できる領域から、形質情報と相関する変異を有する遺伝子を特定することをさらに含む、前記項目のいずれかに記載のプログラム。
[項目F3-3]
 前記発現情報に基づいて形質情報が予測可能でない領域における遺伝子からの形質情報と相関する変異を有する遺伝子の特定が、該領域をさらに分割し、発現情報に基づいて形質情報が予測可能でない領域を絞りこむことをさらに含む、前記項目のいずれかに記載のプログラム。
 本開示により、個体の遺伝子情報のデータから、個体の形質情報を予測する手段が提供され、例えば、医療、農業、畜産、食品、環境、薬学(創薬、育薬分野)の分野など、生物が関連する任意の技術分野において有用である。特に医療の分野において、疾患の生じる可能性や、適切な治療、または予測される応答などについての情報を提供することが可能となる。加えて、本開示に係る機械学習方法は、画像を用いる任意の機械学習において、巨大なデータを扱うことを可能にし得る。
図1は、本開示のシステムの例示的な模式図である。 図2は、本開示のシステムがクラウド/サーバを用いるなど、物理的に分離した 図3は、DNA/RNAデータの機械学習を行う工程の例示的な模式図である。 図4は、DNA/RNAデータの画像化を行う工程の例示的な模式図である。 図5は、DNA/RNAデータの画像化の際の配置最適化の例示的な模式図である。 図6は、配置最適化のための遺伝子間の相関解析の例示的な模式図である。 図7は、分割した画像の学習における、Deep Learning処理の例示的な模式図である。 図8は、GPU分割学習とCPUの非線形最適化の例示的な模式図である。 図9は、生成したモデルの各Epoch数における正答率を示すグラフである。構築した判別モデルでは、非学習画像を用いた細胞株に対しても100%の精度で判別することが可能であった。 DNA変異データとRNA発現量データの両方を画像化したもの、DNA変異データのみの情報を同様に画像化したもの、およびRNA発現量データのみの情報を同様に画像化したもののそれぞれを機械学習して生成したモデルのそれぞれについての、各Epoch数での学習時に用いた画像での判別可能性と、学習時に未使用の画像での判別可能性とを示すグラフである。 図11は、画像の分割学習を示す模式図である。 図12は、5FU感受性を学習させた際の領域収束性の違いを示す図である。
 以下、本開示を最良の形態を示しながら説明する。本明細書の全体にわたり、単数形の表現は、特に言及しない限り、その複数形の概念をも含むことが理解されるべきである。従って、単数形の冠詞(例えば、英語の場合は「a」、「an」、「the」など)は、特に言及しない限り、その複数形の概念をも含むことが理解されるべきである。また、本明細書において使用される用語は、特に言及しない限り、当該分野で通常用いられる意味で用いられることが理解されるべきである。したがって、他に定義されない限り、本明細書中で使用される全ての専門用語および科学技術用語は、本開示の属する分野の当業者によって一般的に理解されるのと同じ意味を有する。矛盾する場合、本明細書(定義を含めて)が優先する。
 以下に本明細書において特に使用される用語の定義および/または基本的技術内容を適宜説明する。
 (定義等)
 本明細書において、「全判別パラメータ」とは、分割学習後に統合した画像全体を判別するための判別式におけるパラメータを指す。個別学習での判別分析式では、分割された画像上の部分データに重みを加えて判別しているため、それぞれ分割した画像間同士では、全く独立した判別式を採用しており、それぞれの相関はない。したがって、最終的な非線形最適化では、各部分学習において求められたパラメータによる判別式を元に、それらを統合した(分割前の画像全体に対する)新しい判別式を作成する。そのために、各部分学習のパラメータを初期値として、CPUを用いて全体を最適化する処理を実施する。
 本明細書において、「On the fly」な処理とは、必要なデータを随時メモリに移して計算し、計算結果をHDDに戻し、それを繰り返す処理を指す。「On the fly」のイメージとしては、メモリを机横の本棚に、HDDを図書館に例えることができる。机で処理をする際には、データである本が横の本棚にあると処理が早い。一般的には必要な本を一気に本棚に持ってくる。しかしながら、本棚の大きさには限界があるため、必要なデータ(本)を必要なときに随時メモリ(本棚)に移しては計算してHDD(図書館)に戻し、移しては計算して戻しを繰り返すことによって、大量の本を扱うことができる。本開示の最適化処理において「On the fly」な処理を採用する例としては、最適化処理の最中に、メモリ通信時間はかかるが、(計算時間を犠牲にしても)どんなに大きな学習データでも計算可能なアルゴリズムを採用するということが挙げられる。
 本明細書において、「画像」とは、広義には、高次元空間に格納された任意のデータを指し、特に、狭義には平面(二次元空間)に格納されたデータを指す。狭義の画像としては、位置情報と、各位置の色(色調、明度および彩度)情報との組み合わせが挙げられる。「画像化」とは、一次元的に格納されたデータ(例えば、0および1の列)を、高次元に格納されたデータに変換することを指す。
 本明細書において、「学習」とは、何らかのデータを用いて、入力に対する有用な出力を行うモデルを形成することを指す。また、入力とそれに対応すべき出力を学習データとして用いる場合、「教師あり学習」と称される。例えば、モデルは、ある遺伝情報を入力とした際に、その遺伝情報から推定される形質(例えば、薬剤耐性)を出力するものなどが挙げられる。
 本明細書において、「形質情報」とは、生物または生物の一部(例えば、臓器(器官)、組織または細胞)の有する任意の特徴についての情報を指す。形質情報としては、疾患の特定(がんを例に挙げれば、がん種の特定、がんの悪性度等)や薬剤感受性(がんを例に挙げれば、抗がん剤耐性)等を挙げることができる。
 本明細書において、「遺伝因子」とは、生物の活動において情報に基づいて何らかの機能を発揮する任意の因子を指す。例えば、ゲノムDNA上の遺伝子は、その配列の情報に基づいて、対応するmRNAに転写される点で、遺伝因子である。また、mRNAは、その配列の情報に基づいて、対応するタンパク質等に翻訳される点で遺伝因子である。遺伝因子としては、タンパク質をコードしている遺伝子に加えて、miRNAをコードするものや、調節領域や非発現領域などが包括的に包含される。したがって、本明細書では、「遺伝因子」としては、遺伝子、mRNA、の他、エクソン、イントロン、非発現領域、non-coding RNA、miRNA、snoRNA、siRNA、tRNA、rRNA、mitRNA、長鎖non-coding RNAが含まれることが理解される。
 本明細書において、「遺伝情報」とは、生物または生物の一部(例えば、組織または細胞)の有する任意の遺伝因子の配列情報および/または発現情報を指す。
 本明細書において、「リボ核酸(RNA)」は、少なくとも1つのリボヌクレオチド残基を含む分子を意味する。「リボヌクレオチド」とは、β-D-リボ-フラノース部分の2’位においてヒドロキシル基を有するヌクレオチドを意味する。RNAには、例えば、メッセンジャーRNA(mRNA)、トランスファーRNA(tRNA)、リボゾームRNA(rRNA)、ロングノンコーディングRNA(lncRNA)、マイクロRNA(miRNA)が含まれる。
 本明細書において、「デオキシリボ核酸(DNA)」は、少なくとも1つのデオキシリボヌクレオチド残基を含む分子を意味する。「デオキシリボヌクレオチド」とは、リボヌクレオチドの2’位のヒドロキシル基が水素に置換されているヌクレオチドを意味する。
 本明細書において、「メッセンジャーRNA(mRNA)」とは、DNA鋳型を使用することによって作製され、ペプチドまたはポリペプチドをコードしている転写物に関連するRNAを指す。典型的には、mRNAは、5’-UTR、タンパク質コード領域、および3’-UTRを含む。mRNAの具体的な情報(配列など)は、例えば、NCBI(https://www.ncbi.nlm.nih.gov/)を参照することで利用可能である。
 本明細書において、「マイクロRNA(miRNA)」とは、ゲノム上にコードされ、多段階的な生成過程を経て最終的に20から25塩基長の微小RNAとなる機能性核酸を指す。miRNAの具体的な情報(配列など)は、例えば、mirbase(http://mirbase.org)を参照することで利用可能である。
 本明細書において、「ロングノンコーディングRNA(lncRNA)」とは、タンパク質へ翻訳されずに機能する200nt以上のRNAを指す。lncRNAの具体的な情報(配列など)は、例えば、RNAcentral(http://rnacentral.org/)を参照することで利用可能である。
 本明細書において、「リボソームRNA(rRNA)」とは、リボソームを構成するRNAを指す。rRNAの具体的な情報(配列など)は、例えば、NCBI(https://www.ncbi.nlm.nih.gov/)を参照することで利用可能である。
 本明細書において、「トランスファーRNA(tRNA)」とは、アミノアシルtRNA合成酵素によりアミノアシル化されることが公知であるtRNAを指す。tRNAの具体的な情報(配列など)は、例えば、NCBI(https://www.ncbi.nlm.nih.gov/)を参照することで利用可能である。
 本明細書において、核酸の文脈において使用される「修飾」とは、核酸の構成単位またはその末端の一部または全部が他の原子団と置換されること、または官能基が付加されている状態を指す。RNAの修飾の集合は「RNA Modomics」「RNA Mod」などとよぶことがあり、これらは、RNAがトランスクリプトであることから、エピトランスクリプトームと呼ばれることもあり、本明細書では同義で使用される。
 本明細書において、核酸の文脈において使用される「メチル化」とは、任意の種類のヌクレオチドの任意の位置のメチル化を指すが、代表的には、アデニンのメチル化(例えば、6位;m6A、1位;m1A)、シトシンのメチル化(例えば、5位;m5C、3位;m3C)である。検出された修飾部位は、当該分野で公知の手法を用いて特定することができる。例えばm1Aとm6A、m3Cとm5Cについては、それぞれ化学修飾により確定は可能である。例えば、スタンダードとなる合成RNAを利用して、化学修飾及びMALDIでの測定による挙動が正しいのかを確定することができる。
 本明細書において「対象」とは、本開示の分析、診断または検出等の対象となる対象(例えば、ヒト等の生物または生物から取り出した細胞、血液、血清等)をいう。
 本明細書において「バイオマーカー」は、ある対象の状態または作用の評価の指標となるものである。本明細書において特に断らない限り、「バイオマーカー」は「マーカー」と称することがある。
 本明細書において「診断」とは、被験体における状態(例えば、疾患、障害)などに関連する種々のパラメータを同定し、そのような状態の現状または未来を判定することをいう。本開示の方法、装置、システムを用いることによって、体内の状態を調べることができ、そのような情報を用いて、被験体におけるがんの転移/原発性に関連する状態(例えば、対象が転移性のがんを有するかどうか、がんが原発性であるかどうか)、投与すべき処置または予防のための処方物または方法などの種々のパラメータを選定することができる。本明細書において、狭義には、「診断」は、現状を診断することをいうが、広義には「早期診断」、「予測診断」、「事前診断」等を含む。本開示の診断方法は、原則として、身体から出たものを利用することができ、医師などの医療従事者の手を離れて実施することができることから、産業上有用である。本明細書において、医師などの医療従事者の手を離れて実施することができることを明確にするために、特に「予測診断、事前診断もしくは診断」を「支援」すると称することがある。本開示の技術は、このような診断技術に応用可能である。
 本明細書において「治療」とは、ある状態(例えば、疾患または障害)について、そのような状態になった場合に、そのような状態の悪化を防止、好ましくは、現状維持、より好ましくは、軽減、さらに好ましくは消退させることをいい、患者の状態、もしくは状態に伴う1つ以上の症状の、症状改善効果あるいは予防効果を発揮しうることを含む。事前に診断を行って適切な治療を行うことは「コンパニオン治療」といい、そのための診断薬を「コンパニオン診断薬」ということがある。本開示の技術を用いて、遺伝情報を、診断上有用な形質情報と関連付けることによって、このようなコンパニオン治療またはコンパニオン診断において有用であり得る。
 本明細書において「予防」とは、正常でない状態(例えば、疾患または障害)とならないように処置することをいう。
 本明細書において「予後」という用語は、がん等の疾患または障害などに起因する死亡または進行が起こる可能性を予測することを意味する。予後因子とは疾患または障害の自然経過に関する変数のことであり、これらは、いったん疾患または障害を発症した患者の再発率等に影響を及ぼす。予後の悪化に関連した臨床的指標には、例えば、本開示で使用される任意の細胞指標が含まれる。予後因子は、しばしば、患者を異なった病態をもつサブグループに分類するために用いられる。本開示の技術を用いて遺伝情報を、診断上有用な形質情報と関連付けることによって、対照の遺伝情報に基づいて予後因子を提供することを可能とし得る。
 本明細書において「プログラム」は、当該分野で使用される通常の意味で用いられ、コンピュータが行うべき処理を順序立てて記述したものであり、法律上「物」として扱われるものである。すべてのコンピュータはプログラムに従って動作している。現代のコンピュータではプログラムはデータとして表現され、記録媒体または記憶装置に格納される。
 本明細書において「記録媒体」は、本開示の方法を実行させるプログラムを格納した記録媒体であり、記録媒体は、プログラムを記録できる限り、どのようなものであってもよい。例えば、内部に格納され得るROMやHDD、磁気ディスク、USBメモリ等のフラッシュメモリなどの外部記憶装置でありうるがこれらに限定されない。
 本明細書において「システム」とは、本開示の方法またはプログラムを実行する構成をいい、本来的には、目的を遂行するための体系や組織を意味し、複数の要素が体系的に構成され、相互に影響するものであり、コンピュータの分野では、ハードウェア、ソフトウェア、OS、ネットワークなどの、全体の構成をいう。
 (予測システム)
 本開示の1つの局面は、個体の形質情報を予測するためのシステムである。システムは、複数の個体の遺伝情報と複数の個体の形質情報とを格納する格納部と、複数の個体の遺伝情報と複数の個体の形質情報とから、遺伝情報と形質情報との関連を学習するように構成されている学習部と、遺伝情報と形質情報との関連に基づき、個体の遺伝情報から個体の形質情報を予測する、計算部とを備え得る。1つの実施形態では、格納部に含まれる遺伝情報は、少なくとも2種類の情報を含み得る。必要に応じて、このシステムは計算部において予測された形質情報から、前記個体の診断および/または個体に対する治療または予防を分析する、分析部をさらに備えることができる。また、必要に応じて、このシステムは計算部において予測された形質情報を表示する、表示部をさらに備えることができる。
 本開示はまた、上記システムを実現するプログラム、方法またはこれらを格納した記録媒体として提供されることもできる。
 学習部は、複数の個体の遺伝情報を画像化して学習するように構成され得る。同時に、格納部においては、複数の個体の遺伝情報を画像化して格納しておいてもよい。別の実施形態では、学習に際してその都度画像化することも可能である。また、計算部において、個体の遺伝情報を、画像化し、その情報に基づいて個体の形質情報を予測してもよい。画像化は、本明細書の他の箇所に記載される特徴を有する方法またはシステムにより行うことができる。また、画像データは、本明細書の他の箇所に記載されるデータ形式を有するものであってよい。システムは、この他の構成要素を必要に応じて備え得る。例えば、システムは、計算部の出力を表示する表示部を備えてもよい。
 1つの実施形態では、学習として、人工知能(AI)を用いた学習を行う。AI技術は、「画像」や音声などのデータの処理では特徴表現の抽出などを通じて高い性能を発揮できることが知られていますが、その他のデータでは未だ課題を有しているとされている。1つのポイントは、従来の細胞生物学的な検討で明らかにされてきたように、細胞の「形態」情報は大変重要であるが、この形態情報をゲノム情報に直結させるためには、従来法では、シークエンスする、またはシングル細胞解析などをするなどの方法で、ゲノムの数値データと画像とを人間の目で見て統計的な相関を取ることが必要となっていた。しかし今回の発明では、ゲノム情報を「画像化」することにより、ゲノム情報を画像どうしの土俵に上げることにより、画像間で比較することを可能にして、AIの性能を最大限発揮されることが期待できる。
 また、ヒトを対象とする場合、遺伝情報について、個人情報の観点をクリアすることは社会的に大変重要である。この点からも、ゲノム情報の画像化は、「個人情報のシールド」において、基本的な技術の1つになる可能性を秘めている。画像化において、変異情報を取り上げてデータベース化し、この場合にSNPsを許すように設定すれば、個人の識別に対するシールドになり得る。すなわち、変異情報のみでは、個人識別符号にならないのではないかと考えられる。
 本開示で扱われる遺伝情報としては、遺伝因子の配列情報(例えば、変異情報)、発現情報、および/または修飾情報(例えば、メチル化情報)が挙げられる。学習に用いられるデータは、複数の個体のものが一般的に必要であるが、各個体について、全ての種類の遺伝情報が得られる必要はない。
 遺伝情報としては、個体の配列情報として、親細胞から娘細胞に遺伝形質を伝搬するイベントに関わる因子であって、核内またはミトコンドリア内に存在し、RNAポリメラーゼの支配下にあって、タンパク質をコードするコーディング(coding)RNAまたはmRNAだけでなく、ノンコーディング(non-coding)RNAとして数十塩基までの比較的短鎖のmiRNAまたはsnoRNAまたはsiRNAまたはtRNAまたはrRNAまたはmitRNA、さらにはより長鎖non-coding RNAをコードするDNA配列を対象とすることができる。さらに、上記の発現産物の相補部分から離れた非発現領域のDNA配列を対象として、さらには、DNA上のエピジェネティック修飾等も含めて対象とすることができる。個体の発現情報として、個体の遺伝因子(転写ユニット(RNAおよびmiRNA)の発現量、スプライシング、転写開始点、エピジェネティック修飾等)を含めて、RNAポリメラーゼの支配下にあって、タンパク質をコードするcoding RNAまたはmRNAだけでなく、non-coding RNAとして数十塩基までの比較的短鎖のmiRNAまたはsnoRNAまたはsiRNAまたはtRNAまたはrRNAまたはmitRNA、さらにはより長鎖non-coding RNAをコードするDNA配列を対象とすることができる。
 本開示で扱われる形質情報としては、特に限定されるものではないが、例えば、個体がある疾患を発症する可能性があるかどうか、または個体がある薬剤に対して応答するかどうか、等が挙げられる。
 格納部は、例えば、CD-R、DVD、Blueray、USB、SSD、ハードディスクなどの、システムに格納されるかあるいは離脱した記録媒体であってもよく、あるいは、サーバに格納されてもよく、クラウド上に適宜記録される形式でもよい。
 学習部は、人工知能または機械学習を用いて、遺伝情報と形質情報との関連を学習するように構成され得る。本明細書において「機械学習」とは、明示的にプログラミングすることなく、コンピュータに学ぶ能力を与える技術をいう。機能単位が新しい知識・技能を獲得すること、又は既存の知識・技能を再構成することによって、自身の性能を向上させる過程である。経験から学ぶように計算機をプログラミングすることで、細部をプログラミングするのに必要になる手間の多くは減らせ、機械学習分野では、経験から自動的に改善を図れるようなコンピュータプログラムを構築する方法について議論している。データ分析・機械学習の役割としては、アルゴリズム分野と並んで知的処理の基盤になる要素技術であり、通常他の技術と連携して利用され、連携する分野の知識(ドメインスペシフィック(領域特有)知識;例えば、医学分野)が必要である。その応用範囲としては、予測(データを集め、これから起こることを予測する)、探索(集めたデータの中から、何か目立つ特徴を見つける)、検定・記述(データの中のいろいろな要素の関係を調べる)などの役割がある。機械学習は、実世界の目標の達成度を示す指標に基づくものであり、機械学習の利用者が、実世界での目標を把握していなければならない。そして、目的が達成されたときに、良くなるような指標を定式化する必要がある。機械学習は逆問題で、解が解けたかどうかが不明確な不良設定問題である。学習したルールの挙動は確定的ではなく確率(蓋然)的である。何らかの制御できない部分が残ることを前提とした運用上の工夫が必要であり、訓練時と運用時の性能指標をみながら、機械学習の利用者が、データや情報を実世界の目標に合わせて逐次的に取捨選択することも有用である。
 機械学習としては、線形回帰、ロジスティック回帰、サポートベクターマシンなどが用いられ得、および交差検証(交差検定、交差確認ともいう。Cross Validation;CV)を行うことで、各モデルの判別精度を算出することができる。ランキングした後、1つずつ特徴量を増やして機械学習(線形回帰、ロジスティック回帰、サポートベクターマシンなど)と交差検証を行い、各モデルの判別精度を算出することができる。それにより、最も高い精度のモデルを選択することができる。本開示において、機械学習は、任意のものを使用することができ、教師付き機械学習として、線形、ロジスティック、サポートベクターマシン(SVM)などを利用することができる。
 機械学習では論理的推論を行う。論理的推論にはおおまかに3種類あり、演繹(deduction)、帰納(induction)、アブダクション(abduction)、類推(アナロジー)がある。演繹は、ソクラテスは人間、すべての人間は死ぬとの仮説があったときにソクラテスは死ぬとの結論を導き出すもので特殊な結論といえる。帰納は、ソクラテスは死ぬ、ソクラテスは人間との仮説があったときにすべての人間は死ぬとの結論を導き出すもので一般的な規則を導くものである。アブダクションは、ソクラテスは死ぬ、すべての人間は死ぬとの仮定があった時にソクラテスは人間であると導き出すものであり、仮説・説明にあたる。とはいえ、帰納にしてもどう一般化するかは前提によるため、客観的であるとは言えない可能性があることに留意する。類推は、対象Aと対象Bがあり、対象Aが4つの特徴を持ち、かつ対象Bがその特徴のうち共通して3つ持つ場合、対象Bは、残り一つの特徴を同様にもち、対象Aと対象Bは同種か類似した近親性を持つと推論するような蓋然的な論理的思考法である。
 不可能性には、不可能、非常に困難、未解決の3種類の基本原理がある。また、不可能性には、汎化誤差、ノーフリーランチ定理、醜いアヒルの子定理があり、真のモデルの観測は不可能なので検証できないという不良設定問題に留意する必要がある。
 機械学習において、特徴(feature)・属性(attribute)とは、予測対象をある側面で見たときに、どのような状態にあるのかを表すものである。特徴ベクトル・属性ベクトルとは、予測対象を記述する特徴(属性)をベクトルの形式にまとめたものである。
 本明細書において、「モデル(model)」または「仮説(hypothesis)」とは、同義に用いられ、入力される予測対象から、予測結果への対象対応を記述する写像、もしくはそれらの候補集合で、数学的な関数か論理式を用いて表現する。機械学習での学習では、訓練データを参照して、モデル集合から真のモデルを最もよく近似すると思われるモデルが選択される。
 モデルとしては、生成モデル、識別モデル、関数モデルなどが挙げられる。入力(予測対象)xと出力(予測結果)yとの写像関係の分類モデルを表現する方針の違いを示すものである。生成モデルは、入力xが与えられたときの出力yの条件付分布を表現する。識別モデルは、入力xと出力yの同時分布を表現する。識別モデルと生成モデルは写像関係が確率的である。関数モデルは、写像関係が確定的なもので、入力xと出力yの確定的な関数関係を表現する。識別モデルと生成モデルでは識別の方がやや高精度といわれることもあるが、ノーフリーランチ定理により基本的には優劣はない。
 モデルの複雑さ:予測対象と予測結果の写像関係をより詳細で複雑に記述できるかどうかの度合い。モデル集合が複雑であるほど、一般により多くの訓練データが必要とされる。
 写像関係を多項式で表した場合は、高次の多項式の方がより複雑な写像関係を表現できる。高次の多項式の方が、1次式より複雑なモデルといえる。
 写像関係を決定木で表した場合、段数の大きな深い決定木の方がより複雑な写像関係を表現できる。したがって、段数の多い定木の方が、少ない決定木より複雑なモデルといえる。
 入力と出力の対応関係を表現する方針による分類も可能であり、パラメトリックモデルでは、パラメータによって完全に分布や関数の形状が決定される、ノンパラメトリックモデルでは基本的にデータからその形状が決まり、パラメータが決めるのは滑らかさに限定される。
 パラメータ:モデルの分布や関数の集合のうちの一つを指定するための入力で、他の入力と区別してPr[y|x;θ]やy=f(x;θ)などとも表記される。
 パラメトリックでは、訓練データ数と無関係に、ガウス分布の形状は平均・分散パラメータで決定され、ノンパラメトリックでは、ヒストグラムではビン数パラメータで滑らかさのみが決まり、パラメトリックより複雑であるとされる。
 機械学習での学習では、訓練データを参照して、モデル集合から真のモデルを最もよく近似すると思われるモデルを選択する。どのような「近似」をするかで、いろいろな学習方法がある。代表的には、最尤推定があり、確率的なモデル集合の中から、訓練データが発生する確率が最も高いモデルを選択する学習の基準である。最尤推定で、真のモデルを最も近似するモデルが選択できる。KLダイバージェンスは、尤度が大きくなると真の分布へのKLダイバージェンスは小さくなる。推定の種類は種々あり、推定した予測値やパラメータを求める形式の種類によって異なる。点推定は、最も確実性の高い値を一つだけ求めるもので、最尤推定やMAP推定など、分布や関数の最頻値を使うもので、最もよく利用される。他方、区間推定では、推定値が存在する範囲を求めるこの範囲に推定値が存在する確率が95%といった形で統計分野でよく利用される。分布推定では、推定値が存在する分布を求める事前分布を導入した生成モデルと組み合わせてベイズ推定などで利用される。
 機械学習では、過学習(過剰適合、over-fitting)が生じ得る。過学習では、訓練データに合わせ過ぎたモデルを選択したために、経験誤差(訓練データに対する予測誤差)は小さいが、汎化誤差(真のモデルからのデータに対する予測誤差)は大きくなり、本来の学習の目的を達成できていない状態になっている。汎化誤差は、バイアス(候補モデル集合に真のモデルは含まれないことで生じる誤差;単純なモデル集合ほど大きくなる)、バリアンス(訓練データが異なると、異なる予測モデルが選択されることで生じる誤差;複雑なモデル集合ほど大きくなる)、およびノイズ(モデル集合の選択に依存せず、本質的に減らせない真のモデルのばらつき)の三つに分割できる。バイアスとバリアンスは同時には小さくできないから、バイアスとバリアンスのバランスをとって全体の誤差を小さくする。
 本明細書において「アンサンブル(アンサンブル学習、アンサンブル法などともいう)」とは、集団学習ともいい、比較的単純な学習モデルと計算量が妥当な学習則とを用い、与えられる例題の重みや初期値の違いなどによって多様な仮説を選び出しこれを組み合わせることによって最終的な仮説を構成し、複雑な学習モデルを学習するのと同等なことを行おうとするものである。本開示の学習において、アンサンブル学習を行ってもよい。
 本明細書において「縮約」とは、特徴量という変数を少なくしたり、まとめることをいう。例えば、因子分析とは、複数の変数があったとき、その背後にそれらに影響する構成概念があるものと仮定し、少数の潜在的変数で複数の変数間の関係を説明することであり、小数の変数への変換、すなわち縮約の一形態をいう。この構成概念を説明する潜在的変数を因子という。因子分析は背後に共通した因子が想定できる変数を縮約し、新しい量的な変数を作り出す。
 本明細書において、「判別関数」とは、判別するレベル数に連続する数値を割当て、判別するサンプルの並びに対応して作成された数列、すなわち関数である。例えば、判別レベルが2段階で、判別するサンプルをレベルに応じて並べた場合、その数列、すなわち、判別関数は、例えば、シグモイド関数型を取ることで生成される。また、3段階以上の場合は、工程(階段)関数を用いることができる。モデル近似指数は、判別関数と判別するサンプルの判別レベルの対応を数値で表したものである。両者の差を使う場合は、変動幅を統制し、差分値の絶対値が小さいほど、近似性が高い。また、相関分析を行う場合は、相関係数(r)が高いほど近似性が高い。また、回帰分析を行う場合は、R値が高いほど近似性が高いと判断される。
 本明細書において「重みづけ係数」とは、本開示の計算において、重要である要素をより重要であると計算するように設定するための係数であり、近似係数を含む。例えば、関数をデータに近似させて係数を得られるが、それ自体は、近似の程度を示す記述量でしかなく、それを大小の基準などでランキングしたり、取捨選択したりする場合、特定の特徴量にモデル内における寄与の差を設けるので、重みづけ係数といえる。重みづけ係数は、判別関数の近似指数と同等の意味で用いられ、R値、相関係数、回帰係数、および残差平方和(判別関数と特徴量の差)等を挙げることができる。
 本明細書において、「判別関数モデル」とは、形質などの判別の際に用いられる関数のモデルを言う。例えば、例えば、多層パーセプトロンやCNNといったニューラルネットワークシステムを用いた機械学習による判別モデルを挙げることができるがこれらに限定されない。
 学習部は、複数の個体の遺伝情報を分割して、部分遺伝情報と形質情報との関連を学習し、複数の部分遺伝情報と形質情報との関連を統合し、遺伝情報と形質情報との関連を学習するように構成され得る。このような遺伝情報の分割学習は、個体の遺伝情報の情報量の大きさに対処する上で有効であり得る。
 本開示において、分析部は、計算部において予測された形質情報から、前記個体の診断および/または個体に対する治療または予防を分析する。形質情報は対象となる個体の情報であるから、他の情報(例えば、疾患情報データベースなど)を参照して、その個体について罹患しているまたはその可能性のある疾患や症状などを診断または診断の補助を行うことができる。診断結果に応じて、他の情報(例えば、疾患情報データベース、医薬品情報データベースなど)を参酌して、適切な治療方法や投薬情報を算出または示唆することができる。
 本開示において、表示部は、計算部において予測された形質情報を表示する。表示部としては、ユーザーが形質予測結果を認知できるものであれば、どのようなものでもよく、テレビジョン、スマホやタブレットの画面、モニタ、音発生装置(例えば、スピーカ)等を用いてもよい。そのような表示は、計算部で予測された計算結果のうち、適宜選択した項目を表示することができる。そのような表示項目としては、患者のがんに最適な抗がん剤の提示、患者の疾患治療における最適な治療方針の提示が挙げられるがこれに限ったものではない。
 本開示のシステム101の動作の内容について、例示のみを目的とし、図1を参照して説明する。システム101は、取得部107を有し、当該取得部107によって学習に用いるためのデータを取得し、格納部102に格納する。学習用データは、既存のデータベース108に存在するものを取得(ダウンロード)してもよく、個体の情報を測定する機器を備える測定部109から取得してもよい。
 システム101は、必要に応じて、個体の遺伝情報を画像化する画像化部105を備え得る。画像化部が存在する実施形態において、取得した情報をそのまま格納部102に格納し、その後に、遺伝情報を画像化部105に送信して画像化し、それを再び格納してもよい。あるいは、取得部107で取得された情報を画像化部に送信し、画像化した後に格納部に格納してもよい。システム101は必要に応じてこれらの動作を組み合わせて行い得る。すなわち、複数の個体のうちのそれぞれの個体に由来する情報について、必ずしも同一のプロセスによって格納するわけではない。
 格納部に格納された複数の個体の遺伝情報および形質情報に基づき、学習部103において学習を行い、判別モデルを生成する。生成された判別モデルを用いて、対象の情報(例えば、遺伝情報)に基づいて、計算部104において対象の形質情報の予測を行う。予測された結果は、必要に応じて、表示部106に表示され得る。システム101の動作の間に、任意の時点でデータの保存が行われ得る。
 (クラウド、IoTおよびAIを用いた実施形態)
 本開示の形質予測技術は、1つのシステム101または装置として、すべてを含む形で提供され得る(図1を参照)。あるいは、形質予測装置として、個体の遺伝情報の入力の受け取りおよび結果の表示を主に行い、計算や判別モデルの計算は、サーバやクラウドで行う形態も想定され得る(図2を参照)。これらの一部または全部は、IoT(Internet of Things)および/または人工知能(AI)を用いて実施され得る。あるいは、形質予測装置が判別モデルを格納し、その場で判別を行うが、判別モデルの計算などの主要な計算は、サーバやクラウドで行う形態である半スタンドアローン型の形態も想定され得る(図2)。病院等の一部の実施場所では、送受信が常にできると限らないことから、遮蔽した場合でも使えるモデルを想定したものである。学習部までを備える判別モデル生成用システムも、あるいは得られた判別モデルを保存し計算部において利用する予測システムも、本開示の実施形態として挙げられる(図2)。このようなクラウドサービスとしては、おおむね、「Software as service (SaaS)」が該当する。また、患者データを画像化するプログラムを配布する事で、病院等の実施場所において画像化したデータのみを転送してもらい、それを受信して解析する受託サービス等を提供することも可能である。
 表示部は、ユーザーが形質予測結果を認知できるものであれば、どのようなものでもよく、入出力装置、表示装置、テレビジョン、モニタ、音発生装置(例えば、スピーカ)等を用いてもよい。
 好ましい実施形態では、判別モデル改善を行う機能が備わっていてもよい。この機能は学習部にあってもよく、別個のモジュールとして備えられてもよい。この判別モデル改善機能は、例えば、オプション1(期間1年、年1~2回)、オプション2(期間1年、1、2ヶ月に1回)、オプション3(期間延長、年1~2回)、オプション4(期間延長+1、2ヶ月に1回)などのオプションを備えていてもよい。
 データ保存も必要に応じてなされ得る。データ保存は通常サーバ側に備えられるが(図2)、全装備型の場合はもとより、クラウド型の場合でも端末側にあってもよい(任意であるため、図では示していない)。クラウドでサービスを提供する場合、データ保存は、標準(例えば、クラウドに10Gバイトまで)、オプション1(例えば、クラウドに1Tバイト増量)、オプション2(クラウドにパラメータ設定して分割保存)、オプション3(クラウドに判別モデル別に保存)のオプションを提供し得る。データを保存して、販売されたすべての装置からデータを吸い上げて格納部においてビッグデータを作り、判別モデルを継時的に更新したり、新たなモデルを構築して新たな判別モデルソフトウェアを提供することができる。保存部は、例えば、CD-R、DVD、Blueray、USB、SSD、ハードディスクなどの記録媒体であってもよく、サーバに格納されてもよく、クラウド上に適宜記録される形式でもよい。
 また、データ解析オプションを有していてもよい。ここでは、患者のパターン分類(判別精度や特徴量のパターン変化に基づき、患者クラスターを探索する)などを提供することができる。すなわち、計算部104の計算方法のオプションとして想定され得る。
 図3を参照し、遺伝情報としてDNAデータおよびRNAデータを用いる場合の本開示の判別モデル構築の例をさらに詳細に説明する。この説明は、例示を目的とするものであり、限定の意図を有するものではない。
 まず、DNAのシークエンスデータを読み込む。そして、RNA転写量およびエピジェネティック情報を読み込む。これは、システム101における取得部107を用いて行うことができる。次いで、これらのDNAおよびRNAデータの学習用画像化処理を行う。画像化方法は、本明細書の他の箇所において、図4を参照して詳述される画像化方法を採用することができる。
 学習に際して、DPUマシンスペック(搭載GPU数、キャッシュ等)を検出する。当該検出結果に基づいて、学習用画像を領域分割する。分割した画像を、各ノードにおいて学習する。分割学習の詳細は、本明細書の他の箇所において、図6を参照して詳述される分割学習方法を採用することができる。その後、分割学習データを統合する。データの統合にあたって、CPUマシンスペック(搭載CPU数、メモリ等)の検出を行う。統合データを格納できるメモリが存在する場合、非線形最適化処理によって全判別パラメータを最適化し、判別モデルを構築する。統合データを格納できるメモリが存在しない場合、仮想メモリ領域の確保を行い、統合データを一時保存する。その後、On the Fly処理による非線形最適化処理により、全判別パラメータを最適化する。その後分割最適化処理で最適化されたかを判別し、最適化されていない場合には、On the Fly処理による非線形最適化処理を再度行い、再び判別を行う。最適化されたと判別された場合には、判別モデルの構築を終了する。
 (画像化方法)
 本開示の1つの局面は、遺伝情報を画像化する方法である。1つの態様では、画像化は、それぞれが位置情報および色情報を含む複数のピクセルを有する画像データを生成する工程を含むものとして捉えることができる。この画像データは、遺伝情報のデータを格納しているものであり得る。本開示の画像化方法は、複数の遺伝因子を含む遺伝因子集団の配列データと、複数の遺伝因子を含む遺伝因子集団の発現データとを画像化することを1つの特徴とし得る。このような画像化は、配列情報と、発現情報とを同時に学習することを可能にする点で有利であり得る。加えて、近年の深層学習では従来の機械学習法と比較して、画像の認識性能が格段に向上している事は周知の事実であり、様々な分野に応用されていることから、画像化されたデータであれば、現行の深層学習法を効率的に使用する事が可能となると考えられる。
 本開示の1つの態様は、複数の遺伝因子を含む遺伝因子集団の配列データおよび複数の遺伝因子を含む遺伝因子集団の発現データを画像化する方法であって、遺伝因子集団の配列データおよび遺伝因子集団の発現データを格納する画像データを生成する工程であって、該画像データは、それぞれが位置情報および色情報を含む複数のピクセルを有する、工程を含む、方法である。本開示のさらなる実施形態では、複数の遺伝因子のそれぞれが、画像データ中の領域に対応付けられており、画像データを生成する工程が、遺伝因子の発現量を、当該遺伝因子に対応する領域内の一定領域における色情報および/または当該領域中のある色を有する領域の面積の情報に変換する工程を含み得る。
 1つの実施形態においては、発現量に関するデータを画像化する際には、特定数の段階にグルーピングすることができる。実際の遺伝子発現量には遺伝子毎に大きな差が生じており、その発現分布の標準偏差も大きく異なる。従って、発現量データのまま学習させると画像化の必要色が多くなり、遺伝子間での同一値の発現量変化も意味が異なる為、多数(例えば、1000超)のサンプルのデータから、標準偏差が一定(例えば、1)になるように発現量のスケーリングを行うことができる。さらに、このように変化させた発現量値をグループ化によって粗視化してもよく、これは、機械学習の際に容量削減と学習効率化に有益であり得る。
 また、粗視化の際には、グループ化の粗視化単位スケールが細かすぎても粗視化の意味が失われるため、読み込み時のデータで最も標準偏差が小さかった遺伝子(実際に標準偏差が1以下)に対して、単位スケールを徐々に小さく変化させていき、正規分布近似が有効的と判断される範囲で最終的な単位スケールを決定することができる。発現量は、約120~約180段階、約130~約160段階、または約150段階のグループへとスケーリングしてよい。更に画像としてモノクロ画像を用いてもよい。モノクロ画像の場合、各位置での色情報は、明度の値のみとなり、その段階は特に限定されないが、例えば、明度256段階のモノクロ画像を用いることができる。これにより、効率的な容量圧縮を図ることができる。また、ピクセル領域として非常に小さな情報となるMutation、Deletion、Insertionの情報を、発現量で用いた差別化(例えば、明度150段階での差別化)よりも明度の低い色で表現することによって目立たせ、A、T、G、Cの塩基もより鮮明に差別化できるよう明度が10段階異なるもので表現してもよい。この必要明度の段階設定は、本開示の画像化方法に関して、データの圧縮と学習効率化の両面で最適な設定であり、従来技術とは大きく異なる点と考えられる。
 また、本開示の1つの実施形態において、画像化は、遺伝子の発現量や変異情報を二次元画像領域の位置と色の明度差を用いて表現する事を目的とし、これにより数値データの場合(約9.6[GB])に比べて、JPGやPNG等の圧縮画像形式に変換する事によって、情報量を減らすことなく24分の1(約400[MB])程度まで容量を圧縮する事ができると考えられる。この画像化では、データ容量の圧縮だけではなく、数値データを二次元の位置情報、もしくは色彩情報に変換することで従来法への応用を可能にしたことがも強みと考えられる。
 遺伝因子集団の配列データは、親細胞から娘細胞に遺伝形質を伝搬するイベントに関わる因子の配列データを含み得る。このような因子は、例えば、DNAの配列であり、タンパク質をコードする遺伝子、エキソンの配列、イントロン配列、調節領域配列などが挙げられる。遺伝因子集団の発現データは、当世代のみの情報伝達に関わる因子の発現データを含み得る。このような因子は、例えば、RNAの発現データであり、mRNA、miRNA、siRNA、lnRNAの発現量などが挙げられる。
 画像化される配列データと発現データは、同一の個体の遺伝因子のものであり得る。
 遺伝因子集団の配列データは、ゲノムDNA上の一定領域の配列を含んでよい。例えば、遺伝因子集団の配列データは、ゲノムDNA上の遺伝子の配列、ゲノムDNA上の遺伝子のエクソン配列、および/またはゲノムDNA上のnon-coding RNAをコードするDNA配列を含み得る。
 配列情報を画像化する場合には、ある遺伝因子の配列における変異の位置および型の情報を、当該遺伝因子に対応する領域内の位置および色情報に変換することによって行ってよい。すなわち、配列情報の全てを逐一画像に反映させるのではなく、変異を有する部分の情報のみを画像に反映させてよい。これにより、情報量の削減を図ることが可能である。
 また、配列上の修飾情報を画像に反映させることが可能である。これは、ある遺伝因子の配列における修飾の情報を、当該遺伝因子に対応する領域内の位置および色情報に変換する工程によって行ってよい。
 発現データは、転写ユニットの発現データを含んでよく、例えば、mRNAの発現データ、mRNAの発現量、スプライシング、転写開始点、および/またはエピジェネティック修飾のデータを含み得る。遺伝因子集団の発現データは、miRNA、snoRNA、siRNA、tRNA、rRNA、mitRNA、および/または長鎖non-coding RNAの発現データを含み得る。遺伝因子集団の発現データは、miRNA、snoRNA、siRNA、tRNA、rRNA、mitRNA、および/または長鎖non-coding RNAの発現量、スプライシング、転写開始点、および/またはエピジェネティック修飾のデータを含み得る。
 複数の遺伝因子のそれぞれを、画像データ中の領域に対応付け、遺伝因子の発現量を、当該遺伝因子に対応する領域内の一定領域における色情報および/または該領域中のある色を有する領域の面積の情報に変換することが可能である。
 また、遺伝因子がエクソンを含む場合、当該エクソンに対応する転写物またはその一部の発現量を、当該エクソンに対応する領域内の一定領域における色情報および/または当該領域中のある色を有する領域の面積の情報に変換することにより、遺伝因子のスプライシングおよび/または転写開始点を、画像データに格納することができる。
 遺伝因子が1または複数の遺伝子を含む場合、1または複数の遺伝子のそれぞれを、画像データ中の領域に対応付け、ある遺伝子のゲノム配列における変異の位置および型の情報を、当該遺伝子に対応する領域内の位置および色情報に変換する工程と、当該遺伝子から転写されるmRNAの発現量を、当該遺伝子に対応する領域内の一定領域における色情報および/または当該領域中のある色を有する領域の面積の情報に変換する工程とによって、遺伝子の配列および発現情報を画像データに格納することができる。
 遺伝因子が1または複数のnon-coding RNAをコードするDNA配列を含む場合、1または複数のDNA配列のそれぞれを、画像データ中の領域に対応付け、あるnon-coding RNAをコードするDNA配列のゲノム配列における変異および/またはエピジェネティック修飾の位置および型の情報を、当該遺伝子に対応する領域内の位置および色情報に変換する工程と、当該DNA配列から転写されるnon-coding RNAの発現量、スプライシング、転写開始点、エピジェネティック修飾の情報を、当該遺伝子に対応する領域内の位置および色情報に変換する工程とによって、non-coding RNAの配列および発現情報を画像データに格納することができる。
 遺伝因子が1または複数の非発現領域のDNA配列および1または複数の転写ユニットを含む場合、1または複数のDNA配列および転写ユニットのそれぞれを、画像データ中の領域に対応付け、あるDNA配列のゲノム配列における変異および/またはエピジェネティック修飾の位置および型の情報を、当該遺伝子に対応する領域内の位置および色情報に変換する工程と、転写ユニットの発現情報を、当該転写ユニットに対応する領域内の一定領域における位置および色情報に変換する工程とによって、非発現領域の配列およびそれに関連する発現情報を画像データに格納することができる。
 遺伝因子が1または複数のゲノム上のDNA領域および転写ユニットを含む場合、1または複数のDNA領域および転写ユニットのそれぞれを、画像データ中の領域に対応付け、あるDNA領域のゲノム配列におけるエピジェネティック修飾の位置および型の情報を、当該DNA領域に対応する領域内の位置および色情報に変換する工程と、転写ユニットの発現情報を、当該転写ユニットに対応する領域内の一定領域における位置および色情報に変換する工程とによって、配列およびそれに関連する発現情報を画像データに格納することができる。
 本開示の画像化においては、配列情報として、親細胞から娘細胞に遺伝形質を伝搬するイベントに関わる因子であって、核内またはミトコンドリア内に存在し、RNAポリメラーゼの支配下にあって、タンパク質をコードするcoding RNAまたはmRNAだけでなく、non-coding RNAとして数十塩基までの比較的短鎖のmiRNAまたはsnoRNAまたはsiRNAまたはtRNAまたはrRNAまたはmitRNA、さらにはより長鎖non-coding RNAをコードするDNA配列を対象とすることができる。さらに、上記の発現産物の相補部分から離れた非発現領域のDNA配列を対象として、さらには、DNA上のエピジェネティック修飾等も含めて対象とすることができる。
 発現情報として、遺伝因子(転写ユニット(RNAおよびmiRNA)の発現量、スプライシング、転写開始点、エピジェネティック修飾等)を含めて、RNAポリメラーゼの支配下にあって、タンパク質をコードするcoding RNAまたはmRNAだけでなく、non-coding RNAとして数十塩基までの比較的短鎖のmiRNAまたはsnoRNAまたはsiRNAまたはtRNAまたはrRNAまたはmitRNA、さらにはより長鎖non-coding RNAをコードするDNA配列を対象とすることができる。
 これにより、配列に関する包括的な情報と、発現に関する包括的な情報が一枚の画像にまとめられ、機能が同定されていないような領域の変異についても、抗がん剤感受性のような形質と関連付けられる可能性がある。
 例えば、ゲノム遺伝子配列とともに、様々なRNA発現量を発現情報として画像化することで、ある遺伝子の配列情報とその遺伝子の発現量を1つの領域にまとめ、ある遺伝子の配列情報等とその遺伝子の発現量等を同時に処理することができる。
 mRNAを対象としてみると、他にも、遺伝子の塩基置換として、体細胞変異、胚細胞変異、遺伝子多系、さらにはA、T、G、C以外のマイナー塩基への変化(例えば、ナノポアシークエンサーによって測定)を画像に反映させ得る。遺伝子の発現として、発現ユニットとしての遺伝子全体の平均的な発現量だけでなく、スプライシング(この中に、alternative、splice-outなどがある)、転写開始点の組織・細胞による変化(例えば、RIKEN FANTOMを用いてこのようなシークエンス情報を得ることができる)を反映させてもよく、エピゲノム、エピトランスクリプトーム修飾として、メチル化C5、A1、A5、リン酸化なども反映させることができる。
 非発現領域については、RNAへの転写イベントには、ほぼ例外なくクロマチンの開閉が関わるため、免疫沈降-シークエンス法などで、ゲノム全体をプロファイルする、または免疫沈降-PCR法で、ターゲットを絞って解析することができる。例えば、ヒストンH3第四リジン(H3K4)のトリメチルme3(メチル基が3つ)やジメチルme2(メチル基が2つ)の修飾は、この付近のクロマチンを開き、その付近への転写因子のリクルートを促進し、転写を活性化する方向に働く。また、H3K9のメチル化(me3、me2)は、クロマチンを閉じて転写を抑制する方向に働く。これらを、免疫沈降-シークエンス法、または免疫沈降-PCR法で解析することにより、転写をマップすることができる。このような情報を含めることで、遺伝子と遺伝子との間の領域の転写活性をみることができると考えられる。
 本開示の他の形態では、個体の遺伝因子の配列情報および発現情報から当該個体の形質情報を予測するモデルを作成するための方法が提供され得る。方法は、複数の個体の遺伝因子の配列情報および発現情報を本明細書の他の箇所に記載される方法によって画像化し、画像データを提供する工程と、複数の個体の形質情報を提供する工程と、画像データおよび形質情報から、深層学習により、形質と相関する画像中の特徴表現を抽出する工程とを含み得る。
 画像化のプロセスは、図4を参照してさらに詳細に説明され得るが、この説明は限定を目的としない。画像化処理に際して、遺伝子発現量のスケーリング処理を行う。次いで、各遺伝子領域に応じたメモリを確保する。そして、各遺伝子のデータマトリックスを作成する。そして、スケーリング値に応じてグループ化し、グループ番号をマトリックスの奇数列に代入する。
 Mutation(配列置換)の有無を判別し、存在する場合には、変異情報を奇数列の対応位置に代入する。Deletionの有無を判別し、存在する場合には、欠損情報を奇数列の対応位置に代入する。Insertionの有無を判別し、存在する場合には、挿入情報を偶数列の対応位置に代入する。そして、未処理が無ければ、各マトリックスの配置の最適化を行い、画像化処理を行う。配置の最適化については、後述の手順にしたがって行うことができる。画像を書き出し、処理を終了する。
 (配置最適化)
 本開示の一部の局面は、画像化において、遺伝因子の配置の最適化を行うことに関する。画像上での遺伝因子の配置は、特に限定されず、例えば、データベースの記載順や、何らかの番号に従って並べてもよい。しかしながら、遺伝子配置を最適化することによって、画像を用いた機械学習効率のさらなる改善が期待できる。したがって、本開示の一部の局面に係る遺伝因子の配置の最適化は、このような改善を目的として応用され得る。とりわけ、外部相関寄与の多い遺伝因子を中心に配置し、相関の重みの大きい順に遺伝因子を周囲に配置していけば、画像を用いた機械学習効率を改善できると考えられる。
 したがって、本開示のこの局面において、遺伝情報を画像化する方法であって、遺伝情報は、複数の遺伝因子を含む遺伝因子集団の配列データおよび/または発現データを含み、当該方法は、遺伝因子集団の配列データおよび/または発現データを格納する画像データを生成する工程であって、該画像データは、それぞれが位置情報および色情報を含む複数のピクセルを有し、当該工程は、当該複数の遺伝因子のそれぞれを、画像データ中の領域に対応付けることを含み、各遺伝因子に対応する領域は、各遺伝因子の相関重みが強いものが近接するように配置されることを特徴とする、工程を含む、方法が提供される。
 画像データを生成する工程は、遺伝因子について必要な画像データ中の領域の面積を算出することを含み得る。必要な領域の面積は、一例として、遺伝因子の配列情報の大きさ(配列長)にしたがって算出してもよい。
 遺伝因子の相関重みは、遺伝因子間の相関解析から強い相関を有する遺伝因子の組み合わせを抽出すること、各遺伝因子についての強い相関遺伝因子を抽出すること、抽出された遺伝因子を用いた変数選択重回帰を行うこと、および/または変数選択重回帰の結果から相関重みを算出することによって算出され得る。
 配置の最適化に関しては、限定を意図するものではないが、図5を参照してさらに詳細に説明する。配置の最適化に際して、遺伝子相関解析を行う(図6参照)。そして、強い相関を持つ遺伝子の組み合わせを抽出する。抽出された遺伝子組み合わせで他の遺伝子との相関が多い順にランキングする。各遺伝子毎に自身の遺伝子と強い相関のある遺伝子を抽出する。前処理した各遺伝子毎に抽出された遺伝子を用いた重回帰(必要変数の選択)を行う。注目遺伝子からの相関係数βjiと対象遺伝子から見た係数βijを抽出し、二乗平均を算出する。ランキングされた遺伝子のトップを中心遺伝子とする。そして、中心遺伝子の必要領域を計算する。中心遺伝子と高相関な遺伝子の必要領域を計算する。次に高相関な遺伝子の必要領域を計算する。遺伝子間相関の二乗平均値を領域間引力係数とし、必要領域に重なりが生じないように最適化する。全遺伝子の配置が完了したかを判別し、完了していない場合には、上記処理を繰り返す。全遺伝子の配置が完了したところで配置最適化処理を終了する。
 遺伝子の相関解析は、図6を参照して、より詳細に例示する。複数の個体(例えば、1018の細胞株)の発現データを読み込む。そして、遺伝子相関解析を行う。1対1の相関解析を、ピアソン相関係数:
Figure JPOXMLDOC01-appb-M000001

またはスピアマン相関係数:
Figure JPOXMLDOC01-appb-M000002

を用いて行う。その後、強い相関遺伝子の組み合わせを抽出する。そして、各遺伝子から見た相関遺伝子を抽出する。この処理で抽出した遺伝子を用いた変数選択重回帰を行う。そして、重回帰の結果から、相関の重みβjiとp-valueを抽出する。相関の重みβjiは、
Figure JPOXMLDOC01-appb-M000003

を満たす値として算出され得る。強い相関遺伝子の組み合わせの抽出結果から、最も相関の多い遺伝子を抽出する。そして、この処理で得られた遺伝子を中心に相関重みを抽出する。そして、中心遺伝子と強い相関遺伝子を抽出し、必要領域を計算する。その後、次に強い遺伝子と前出遺伝子との重みを考慮し配置する。全遺伝子を配置したかを判別し、完了していない場合には、上記処理を繰り返す。全遺伝子の配置が完了したところで配置最適化処理を終了する。
 遺伝因子配置は、MinSum型問題(配置間距離の最小化問題)として最適化することができる。都市内施設配置問題として定式化されているものもあるが、本開示の遺伝因子の配置の最適化は、(1)有効範囲領域(今回の場合は遺伝因子の面積)の末端は接して配置されること、および(2)施設間距離(今回の場合は中心間距離)は必ずしも利用者・重要度(今回の場合は重みと有意性)に比例させるわけではないことによって、施設配置問題とは異なっている。
 (データ構造)
 本開示の別の局面において、画像データの、特定のデータ構造に関する。本開示の実施形態において、例えば、複数の遺伝因子を含む遺伝因子集団の配列情報および複数の遺伝因子を含む遺伝因子集団の発現情報を表す画像データのデータ構造であって、画像データは、複数の遺伝因子に対応付けられた複数の領域を有し、遺伝因子の配列中の各位置が、遺伝因子に対応付けられた該領域内の位置に対応付けられており、遺伝因子の配列中の各位置における置換、欠失および/または挿入の情報が、位置に対応する位置における色情報として格納され、遺伝因子の発現データが、該領域中のある領域における色情報として、および/または該領域中のある色を有する領域の面積の情報として格納されている、データ構造が提供される。
 遺伝因子の配列中の各位置におけるエピジェネティクス修飾の情報も、当該位置に対応する位置における色情報としてさらに格納され得る。例えば、複数の遺伝因子におけるmiRNAの配列中の各位置におけるメチル化が、当該位置に対応する位置における色情報として格納され得る。画像データは、行および列を有するマトリックスであってよい。そして、各位置は、行および列の組み合わせとして格納され得る。
 配列情報は、ゲノム上の領域のDNA配列を含み得る。ゲノム上の領域としては、例えば、遺伝子、エクソン、イントロン、非発現領域、および/またはnon-coding RNAをコードする領域が挙げられる。
 発現情報としては、mRNA、miRNA、snoRNA、siRNA、tRNA、rRNA、mitRNA、および/または長鎖non-coding RNAからなる群から選択される転写ユニットの発現量、スプライシング、転写開始点、および/またはエピジェネティック修飾の情報を含み得る。
 画像データは、各ゲノム上の領域および/または転写ユニットに対応付けられた複数の領域を有し得る。ゲノム上の領域に対応付けられた領域は、当該ゲノム上の領域の長さに依存した数の列および一定数の行からなるものであり得る。ゲノム上の領域の配列中の各位置は、ゲノム上の領域に対応付けられた領域内の奇数列における位置に対応付けられ得る。ゲノム上の領域の配列中の各位置における置換、欠失および/または挿入の情報は、当該位置に対応する奇数列における位置における色情報として格納され得る。色情報は、変異が存在しないことを示す色情報、Aに置換されていることを示す色情報、Tに置換されていることを示す色情報、Gに置換されていることを示す色情報、Cに置換されていることを示す色情報、欠失していることを示す色情報、または当該位置に隣接して挿入が存在することを示す色情報であり得る。挿入される配列の情報は、挿入が存在することを示す色情報を有する位置に隣接する偶数列における位置を始点として、挿入される配列を示す色情報として格納されてよい。
 ゲノム上の領域の配列中の各位置におけるエピジェネティック修飾の情報は、当該位置に対応する奇数列における位置における色情報として格納され得る。当該色情報は、エピジェネティック修飾が存在しないことを示す色情報、DNAメチル化されていることを示す色情報、ヒストンメチル化されていることを示す色情報、ヒストンアセチル化されていることを示す色情報、ヒストンユビキチン化されていることを示す色情報、またはヒストンリン酸化されていることを示す色情報などを含み得る。
 あるゲノム上の領域から転写される転写ユニットについて、当該転写ユニットの発現量が、当該ゲノム上の領域に対応する画像中の領域における色の濃淡として、および/または当該領域中のある色を有する領域の面積の情報として格納され得る。
 また、遺伝子であるゲノム上の領域について、当該遺伝子に対応するmRNAの発現量が、当該領域中のある領域における色の濃淡として、および/または当該領域中のある色を有する領域の面積の情報として格納され得る。
 上述の画像化方法および画像データは、個体の遺伝情報を包括的に扱う上で有用であり、例えば、医療、農業、畜産、食品、環境、薬学(創薬、育薬の分野)の分野など、生物が関係する任意の技術分野において有用である。
 (分割学習)
 本開示の別の局面において、画像と、当該画像に対応する情報との関連を予測するモデルを作成するための方法が提供される。方法は、画像を分割して学習することを1つの特徴とし得る。方法は、複数の画像および該複数の画像に対応する複数の情報のセットを提供する工程と、複数の画像を分割し、複数の画像の部分と、当該画像に対応する情報との関連を学習し、複数の分割学習データを得る工程と、複数の分割学習データを統合し、画像と、画像に対応する情報との関連を予測するモデルを生成する工程とを含み得る。
 統合する工程は、GPUを搭載したCPUマシンを用い、メモリ搭載量を含めたGPUスペックおよびCPUスペックを検出することを含み得る。統合する工程は、HDD上でのRead-Writeファイルの利用、CPUメモリを最大限利用できるような非線形最適化処理アルゴリズムを最適化することを含み得る。
 非線形最適化処理アルゴリズムは、必要なデータを随時メモリに移して計算し、計算結果をHDDに戻すことによって、データサイズに非依存的に計算可能なアルゴリズムであり得る(On the Flyなメモリ処理)。非線形最適化処理は、全判別パラメータを最適化することを含み得る。
 分割画像の学習について、限定を意図するものではないが、図7を参照してさらに例示的に詳述する。機械学習は、Deep Learning処理によって行うことができる。機械学習に際して、学習データ、教師データ、検証データを分割する。乱数処理による判別パターン係数の決定と、全判別パターンの計算を行う。出力される誤差を計算する。全体の誤差が最小になるように判別パターン係数(重み)を最適化する。追加学習の有無を判別する。追加学習が必要である場合は、上記の処理を繰り返す。追加学習が必要ない場合は機械学習を終了する。
 分割学習データの統合を含めた学習の流れについて、限定を意図するものではないが、図8を参照してさらに例示的に詳述する。学習用の画像データを読み込む。搭載GPU数を検出し、分割数を決定する。学習データの画像を分割する。GPU処理部において、GPU単位で画像部位を別に学習する。学習におけるそれぞれのノードは、物理的に分離されていてもよく、一体となっていてもよい。分割学習データの統合を行う。搭載CPU数とメモリ確保可能領域を検出する。十分なメモリが搭載されている場合、非線形最適化を行い処理を終了する。十分なメモリが搭載されていない場合、計算に必要なデータをHDDに一時保存し、メモリ搭載可能な分だけを読み込む。メモリ格納部分の非線形最適化を行う。最適かを判別し、最適でない場合は処理を繰り返す。最適であると判別された場合には処理を終了する。
 上述の分割学習の方法は、比較的容量の大きいデータ(例えば、画像データ)を用いた機械学習における効率を向上させる。例えば、生物の情報を画像化したものの学習のほか、物理学・天文学のようなデータ量が多い分野での学習、物体認識、および文字認識等における学習において有用である。
 分割学習において、各分割学習データの判別能力を検証してもよい。画像について言えば、画像を分割した各領域ごとに、形質情報などの目的変数との相関を検証してよい。判別能力および/または相関の検証は、各領域と目的変数との関係を機械学習に供し、Epoch数を増加させていく際に、予測能力が収束するかを判定することによって行い得る。各分割学習データの中から、判別力のある分割学習データを選択してその後統合し、全体の学習の効率化を図り得る。あるいは、各分割学習データの中から、判別力のある分割学習データを選択し、それ自体を予測モデルとして使用し得る。
 分割の程度について、全体のサイズに鑑みて調整することができる。遺伝子変異情報および発現情報を画像化した画像を用いる場合には、例えば、1領域あたりに約100~約200程度の遺伝子の情報が格納されるようなサイズに分割することができる。
 システムとしては、個体の形質情報を予測するためのシステムであって、
 複数の個体の遺伝情報と、該複数の個体の形質情報とを格納する格納部であって、該遺伝情報は、遺伝因子の配列情報および発現情報を含む、格納部と、
 該複数の個体の遺伝情報と、該複数の個体の形質情報とから、遺伝情報と形質情報との関連を、該複数の個体の遺伝情報を画像化して学習するように構成されている、学習部と、
 該遺伝情報と形質情報との関連に基づき、個体の遺伝子情報から、該個体の形質情報を予測する、計算部と
を備え、
 ここで、該学習部が、該複数の個体の遺伝情報を画像化して生成した画像を分割して、画像の各領域と形質情報との関連を学習し、各領域から形質情報の判別能力を有するモデルを生成可能な領域を選択して、画像の各領域から形質情報を予測するモデルを生成するように構成されている、システムとして提供され得る。
 方法としては、個体の遺伝因子の配列情報および発現情報を含む遺伝情報と、該個体の形質情報との関連を予測するモデルを作成するための方法であって、
 複数の個体の遺伝因子の配列情報および発現情報を画像化した複数の画像および該複数の画像に対応する複数の形質情報のセットを提供する工程と、
 該複数の画像を分割し、該複数の画像の部分と、該画像に対応する情報との関連を学習し、複数の分割学習データを得る工程と、
 該複数の分割学習データから、形質情報の判別能力を有する分割学習データを選択し、画像の各領域から形質情報を予測するモデルを生成する工程と
を含む、方法として提供され得る。
 本開示はまた、個体の遺伝因子の配列情報および発現情報を含む遺伝情報と、該個体の形質情報との関連を予測するモデルを作成するための方法をコンピュータに実行させるプログラムであって、該方法は、
 複数の個体の遺伝因子の配列情報および発現情報を画像化した複数の画像および該複数の画像に対応する複数の形質情報のセットを提供する工程と、
 該複数の画像を分割し、該複数の画像の部分と、該画像に対応する情報との関連を学習し、複数の分割学習データを得る工程と、
 該複数の分割学習データから、形質情報の判別能力を有する分割学習データを選択し、画像の各領域から形質情報を予測するモデルを生成する工程と
を含む、プログラムを提供する。
 画像を遺伝因子の配列情報および発現情報を含む遺伝情報から生成している場合には、形質情報の判別能力を有する分割学習データを得られる画像の部分を選択し、形質情報の判別能力を有する分割学習データを得られる画像の部分から、発現情報に基づいて形質情報が予測可能かを判定し、発現情報に基づいて形質情報が予測可能でない部分を選択してもよい。これにより、形質と相関する遺伝子またはその変異を同定する方法として使用し得る。発現情報に基づいて形質情報が予測可能でない部分に含まれる遺伝子には、形質情報と相関する変異を有する遺伝子が特定され得、このような遺伝子またはその変異は、機能的に形質と相関している可能性がある。特定された遺伝子は、個体の形質情報の予測に使用可能であると考えられる。特定された遺伝子は、それ自体が個体の形質情報を予測するモデルとなり得、また、必要に応じて、個体の形質情報を予測するモデルに組み込んで使用され得る。
 ある領域について、発現情報に基づいて形質情報が予測可能かの判定は、例えば、ある領域に含まれる遺伝子の各個体での発現量をクラスタリング分析することによって行い得る。クラスタリング分析の他、任意の回帰分析または機械学習の手法を用いて判定してもよい。
 システムとしては、個体の形質情報を予測するためのシステムであって、
 複数の個体の遺伝情報と、該複数の個体の形質情報とを格納する格納部であって、該遺伝情報は、遺伝因子の配列情報および発現情報を含む、格納部と、
 該複数の個体の遺伝情報と、該複数の個体の形質情報とから、遺伝情報と形質情報との関連を、該複数の個体の遺伝情報を画像化して学習するように構成されている、学習部と、
 該遺伝情報と形質情報との関連に基づき、個体の遺伝情報から、該個体の形質情報を予測する、計算部と
を備え、
 ここで、該学習部が、該複数の個体の遺伝情報を画像化して生成した画像を分割して、画像の各領域と形質情報との関連を学習し、各領域から形質情報の判別能力を有するモデルを生成可能な領域を選択し、各領域において、発現情報に基づいて形質情報が予測可能かを判定し、発現情報に基づいて形質情報が予測可能でない領域における遺伝子から、形質情報と相関する変異を有する遺伝子を特定するように構成され、
 該計算部は、該形質情報と相関する変異を有する遺伝子の情報に基づいて該個体の形質情報を予測するように構成されている、システムとして提供され得る。
 方法としては、形質に関与する遺伝子の変異を同定するための方法であって、
 複数の個体の遺伝因子の配列情報および発現情報を画像化した複数の画像および該複数の画像に対応する複数の形質情報のセットを提供する工程と、
 該複数の画像を分割し、該複数の画像の部分と、該画像に対応する情報との関連を学習し、複数の分割学習データを得る工程と、
 形質情報の判別能力を有する分割学習データを得られる画像の部分を選択する工程と、
 該形質情報の判別能力を有する分割学習データを得られる画像の部分から、発現情報に基づいて形質情報が予測可能かを判定し、発現情報に基づいて形質情報が予測可能でない部分を選択する工程と、
 該発現情報に基づいて形質情報が予測可能でない部分に含まれる遺伝子から、形質情報と相関する変異を有する遺伝子を特定する工程と
を含む、方法として提供され得る。
 収束性があり、遺伝子発現量のみで分離できる場合でも、その特定領域の画像をさらに細かく分割することで、判別に重要となる遺伝子を抽出できる。分割画像領域においても収束性があり、遺伝子発現量情報のみで判別できる領域が、判別に重要な遺伝子情報である。従って、分割を繰り返すことで遺伝子情報を抽出することができる。
 収束性があるにもかかわらず、遺伝子発現量のみでは分離できない場合でも、
その特定領域の画像をさらに細かく分割することで判別に重要となる遺伝子変異情報を抽出することが可能である。そこでも収束性があるにもかかわらず、遺伝子発現量情報のみでは分割できない領域を絞り込み、絞り込んだ領域に含まれる遺伝子変異情報を抽出する。
 本開示はまた、形質に関与する遺伝子の変異を同定するための方法をコンピュータに実行させるプログラムであって、該方法は、
 複数の個体の遺伝因子の配列情報および発現情報を画像化した複数の画像および該複数の画像に対応する複数の形質情報のセットを提供する工程と、
 該複数の画像を分割し、該複数の画像の部分と、該画像に対応する情報との関連を学習し、複数の分割学習データを得る工程と、
 形質情報の判別能力を有する分割学習データを得られる画像の部分を選択する工程と、
 該形質情報の判別能力を有する分割学習データを得られる画像の部分から、発現情報に基づいて形質情報が予測可能かを判定し、発現情報に基づいて形質情報が予測可能でない部分を選択する工程と、
 該発現情報に基づいて形質情報が予測可能でない部分に含まれる遺伝子から、形質情報と相関する変異を有する遺伝子を特定する工程と
を含む、プログラムも提供する。
 (他の実施の形態)
 以上、本開示の1つまたは複数の態様に係る形質予測方法について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の1つまたは複数の態様の範囲内に含まれてもよい。
 形質予測方法は、プログラムによって実行され得る。すなわち、個体の形質情報を予測するための方法をコンピュータに実行させるプログラムであって、当該方法は、複数の個体の遺伝情報と、当該複数の個体の形質情報とを提供する情報提供工程であって、当該遺伝情報は、少なくとも2種類の情報を含む、工程と、当該複数の個体の遺伝情報と、当該複数の個体の形質情報とから、遺伝情報と形質情報との関連を学習させる学習工程と、当該遺伝情報と形質情報との関連に基づき、個体の遺伝子情報から、当該個体の形質情報を予測する予測工程とを含む、プログラムが提供され得る。プログラムにおいて、前記予測された形質情報を表示する表示工程がさらに含まれ得る。このようなプログラムを格納した記録媒体もまた提供され得る。
 システムは、本明細書に記載される方法をコンピュータに実行させるためのプログラムを備えていてよく、例えば、そのようなプログラムを格納した記録媒体を備え得る。また、プログラムによって指示される命令を実行するための計算装置(例えば、コンピュータ)を備えていてよい。計算装置は、物理的に一体としていても、あるいは、物理的に分離した複数の構成要素からなっていてもよい。これらの計算装置の内部において、本開示における画像化部105、学習部103、計算部104および取得部107等に対応する機能が必要に応じて備えられ得る。
 本開示のシステムは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIとして実現することができ、具体的には、マイクロプロセッサ、ROM(Read Only Memory)、RAM(Random Access Memory)などを含んで構成されるコンピュータシステムであり得る。ROMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。
 なお、ここでは、システムLSIとしたが、集積度の違いにより、IC、LSI、スーパーLSI、ウルトラLSIと呼称されることもある。また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)、あるいはLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
 さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
 また、本開示の一態様は、このような画像化分析、診断、治療、予防予測装置だけではなく、検査分析・診断・治療予測装置に含まれる特徴的な構成部をステップとする検査分析・診断・治療予測方法であってもよい。また、本開示の一態様は、検査分析・診断・治療予測方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムであってもよい。また、本開示の一態様は、そのようなコンピュータプログラムが記録された、コンピュータ読み取り可能な非一時的な記録媒体であってもよい。
 なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記各実施の形態の痛み推定装置などを実現するソフトウェアは、本明細書において上述したプログラムであり得る。
 本明細書において「または」は、文章中に列挙されている事項の「少なくとも1つ以上」を採用できるときに使用される。「もしくは」も同様である。本明細書において「2つの値の範囲内」と明記した場合、その範囲には2つの値自体も含む。
 本明細書において引用された、科学文献、特許、特許出願などの参考文献は、その全体が、各々具体的に記載されたのと同じ程度に本明細書において参考として援用される。
 以上、本開示を、理解の容易のために好ましい実施形態を示して説明してきた。以下に、実施例に基づいて本開示を説明するが、上述の説明および以下の実施例は、例示の目的のみに提供され、本開示を限定する目的で提供したのではない。従って、本開示の範囲は、本明細書に具体的に記載された実施形態にも実施例にも限定されず、特許請求の範囲によってのみ限定される。
 以下に実施例を示す。
 (実施例1)DNAとRNAとを用いたAIによる解析
 本実施例においては、以下:
(1)データ取得(トランスクリプトームデータ、ゲノム配列データ、変異データ、ゲノムエピジェネティクスデータ、miRNA発現データ、RNAメチル化データ);
(2)画像化;
(3)画像をGPUとCPUの両方を搭載したマシンで学習;
(4)別画像を用いて抗がん剤への感受性予測
の工程によるAI解析を実証する。
 (3)の学習工程は、プログラム上では、GPU数、GPU搭載メモリおよび、CPU数、CPU用メモリを検出し、画像の分割学習と予測統合に関して実施できるようにする。
 (実施例1-1)前処理について
 (データ取得)
 以下に示す細胞株についての網羅的解析データを取得した:
Figure JPOXMLDOC01-appb-T000004

Figure JPOXMLDOC01-appb-T000005

Figure JPOXMLDOC01-appb-T000006

Figure JPOXMLDOC01-appb-T000007
 網羅的解析データは、Genomics of Drug Sensitivity in Cancer(GDSC; https://www.cancerrxgene.org/)で統括されており、このサイトから取得した。データとしては、各細胞株における、トランスクリプトームデータ、ゲノム配列データ、変異データ、ゲノムエピジェネティクスデータ、miRNA発現データ、RNAメチル化データを取得した。発現データは、EMBL-EBI ArrayExpress、E-MTAB-3610  Transcriptional Profiling of 1,000 human cancer cell lines(https://www.ebi.ac.uk/arrayexpress/experiments/E-MTAB-3610/)から、変異データと感受性データは、GDSCから直接ダウンロードした(https://www.cancerrxgene.org/downloads)。各細胞株について、5-FUに対する耐性情報を取得した。
 (画像化に使用した機器)
 画像化には、以下の機器を使用した。当業者には明らかなことであるが、これと同等の機器であれば、同様に利用することができることが理解される。
 使用した機器としては、Windows(登録商標) 7, Core i7-4810MQ 2.80GHz、macOS X10.13.6 3.5GHz 6-Core Intel Xeon E5、およびCentOS 6.4 Intel Xeon E5-2697 v2@2.70GHzを併用した。但し、最新版のR、ifortを利用できる環境にすれば、画像化のコンピュータは特段限定されず、いずれか1coreで十分に計算可能な計算量である。並列化は時間短縮にのみ影響する。ソフトウェアとしては、R、Fortranによる自作プログラムを用いて処理を行った。
 (画像化の方法)
 画像化を行うため、縦および横方向に配列した2次元数値マトリックスに対して発現ユニットを割り当てた。具体的には、Ensembleに登録されている全遺伝子およびmiRNAをそれぞれ発現ユニットとした。数値マトリックスの1つの要素に対し1ピクセルを割り当てる。縦に125ピクセル(行)、横に2ピクセル(列)の長方形の領域(250ピクセル単位)を1つの単位として、発現ユニットの長さに応じて、横に隣接する複数の当該単位領域を割り当てた。各ピクセルには、256段階の色[モノクロの場合は明度](0~255)のいずれかが設定される。
 各発現ユニットについて、上記で取得したデータから、発現量を求めた。各遺伝子もしくはエクソンについて、トランスクリプトーム内に出現する頻度をカウントし、トランスクリプトームの総リード長によって標準化し、各エクソンの発現量とした。また、各miRNAの発現量を、miRNAシーケンシングデータ中での各miRNAにマッピングされたリード数を、総リード長によって標準化し、各miRNAの発現量とした。当該発現量を正規化し150段階にグループ化する。各発現ユニット中の250ピクセル単位の左側の列を、発現量に対応する1~150の濃度の色のいずれかに設定した。
 各発現ユニットについて、上記で取得したデータから、配列データを求めた。各エクソンおよびmiRNAをコードしている部分配列についての参照配列と、上記で取得したゲノムデータから、各細胞株におけるゲノム中に変異が存在する箇所および変異の内容の情報を取得した。各変異の情報を、各発現ユニットに割り当てられた領域に反映させた。各領域における行のそれぞれのピクセルは、発現ユニット中の配列の位置に対応する。
 各遺伝子もしくはエクソンおよび各miRNAをコードしているゲノム中の部分配列において、参照配列と比較した塩基の置換が存在する場合には、各置換位置に対応する250ピクセル単位の行の左側のピクセルを、変異後の塩基に応じて、アデニン(200)、チミン(210)、グアニン(220)、またはシトシン(230)の色に設定した。
 各遺伝子もしくはエクソンおよび各miRNAをコードしているゲノム中の部分配列において、参照配列と比較した塩基の欠失が存在する場合には、各置換位置に対応する250ピクセル単位の行の左側のピクセルに、250(欠失)の色を設定した。
 各エクソンおよび各miRNAをコードしているゲノム中の部分配列において、参照配列と比較した塩基の挿入が存在する場合には、各挿入の開始位置に対応する250ピクセル単位の行の左側のピクセルに、180(挿入開始)の色を設定し、180の色のピクセルの右側のピクセルから開始して、ピクセルを1つずつ、挿入されている塩基配列に応じて、アデニン(200)、チミン(210)、グアニン(220)、またはシトシン(230)の色に順次設定した。
 各遺伝子またはエクソンおよび各miRNAをコードしているゲノム中の部分配列において、エピジェネティック修飾が検出されている場合には、各修飾位置に対応する250ピクセル単位の行の右側のピクセルに以下のとおり修飾の種類に応じて色を設定した。
 DNAメチル化:186、ヒストンアセチル化:188、ヒストンメチル化:190、ヒストンユビキチン化:192、ヒストンリン酸化:194、ヒストンSUMO化:196。
 各RNAにおいてメチル化が検出されている場合には、各修飾位置に対応する250ピクセル単位の行の左側のピクセルにメチル化の色を以下の通り設定した:mRNAのメチル化について、m6A:235、Am:236、M6Am:237、m62Am:238、I:240、m5C:242、Cm:243、m7G:245、Gm:246、m27G:248、m227G:249、Um:251、M3Um:252。なお、色の追加(例えば、256カラー、16Bitカラー等への変更)によってtRNA、mrRNA等のメチル化も対応可能と考えられる。
 各細胞の各発現ユニットについて上記工程を行い、各細胞について、発現データおよび配列データをまとめた画像を生成した。
 (実施例1-2)分析について
 (特徴抽出)
 画像解析用のニューラルネットワークを用いた機械学習によって、判別パラメータを最適化する。その際に、部分画像から連続的な明度色彩のつながりから、特徴となる部分を抽出する事を行う。その後、判別パラメータ係数の最適化を実施する。それを用いた判別モデルを構築する。
 (分類)
 実施した判別パラメータを用いた判別モデルに基づき、グループ分類を行う。
 (実施例2)アレイ上の配置の工夫
 (相関解析)
 登録されている全ての細胞株において、正規化した遺伝子発現情報を用いて、全ての遺伝子組について連動して変化する傾向の度合いの解析を実施する。その際に、ピアソンの相関係数とスピアマンの相関係数を共に算出し、その平均化数値を算出する。また、相関の強い組み合わせ上位(今回は100個)で抽出される遺伝子名をカウントする。
 (重回帰)
 相関解析でカウントされた遺伝子の多い順で、その遺伝子が他の遺伝子発現量(正規化された値)を用いて、どのような係数を付与する事で記述できるか(線形結合で記述できるか)の決定を行う。
 (最適化)
 相関解析で抽出し、最もカウントされた遺伝子をアレイの中心に配置する。その後、対象とした遺伝子との相関組を抜き出し、ピアソンとスピアマンの相関係数の平均値を、配置すべき遺伝子領域(125行×○○列)間の相互作用係数とする。中心遺伝子からの初期配置を相互作用係数に反比例するように設定し、次に配置した遺伝子からも同様に配置を繰り返して初期配置を設置する。その後の最適化の時点では、遺伝子間領域間の相互作用は、平均化相互作用係数をばね定数的に考え、初期配置の横方向にのみ位置を最適化する。そのため、各部分行(125行単位)では遺伝子間でのズレは許していないが遺伝子の部分領域の上下の接する場所は、先のばね定数に応じた力によって左右にずれる事を許容する。その結果、最適な配置を探索するというアルゴリズムを採用する。
 (実施例3)計算の効率化
 (マシンスペック検出)
 今回の機械学習に用いるマシンは、Linux(登録商標)OSを想定してプログラムを作成する。その場合、
cat/proc/cpuinfo
と言うコマンドを用いると、CPUのスペックを知る事が出来る。
 同様にメモリは、
cat/proc/meminfo
GPUは、
lspci|grepVGA
NVIDIAドライバがインストールされている場合は、
nvidia-smi
にてマシンスペックを検出することができる。
 (データの分割)
 画像の機械学習はGPUによる学習を想定しているため、GPU搭載メモリを考えて、学習データ数と検証データ数がメモリに乗る容量を考慮して、データ分割を実行する。
 (データの統合)
 分割学習によって生成される各モデルの係数パラメータをニューラルネットワークの次元に応じた行列に格納する。分割分のパラメータ行列を一つの行列に格納する。そこで、この前パラメータを初期値とした新規の予測モデルを構築する。
 (最適化)
 統合した初期パラメータとした予測モデルの部分パラメータを変化させたときに予測効率に生じる変化率を観測し、非線形最適化を実施する事によって、最安定パラメータを探索する。このときの計算は、HDDを仮想メモリとしOn the flyでメモリとのやり取りを行い、CPUを使って最適化を実施する。
 (実施例4)解析例
 対象とする腫瘍細胞株について、網羅的なトランスクリプトームデータ、ゲノム配列データ、変異データを取得した。上記学習によって得られたモデルを適用し、当該腫瘍細胞株の5-FU耐性について予測する。当該腫瘍細胞株の5-FU耐性情報を取得し、モデルの妥当性を検証する。
 (実施例4-1)抗がん剤感受性の解析例
 実施例1の(データ取得)に記載されるように腫瘍細胞株について、網羅的なトランスクリプトームデータ、ゲノム配列データ、変異データを取得した。5-FUに対する感受性が特に高い10の細胞株(MV-4-11、NOMO-1、OCI-AML2、PSN1、RPMI-6666、SIG-M5、SLVL、SR、SUPおよびYT)と、5-FUに対する感受性が特に低い10の細胞株(CAS-1、FU-OV-1、HCC1143、NCI-H1693、NCI-H2291、OVKATE、Saos-2、SKG-IIIa、SW684およびSW111)とを含む20の腫瘍細胞株を訓練データとして用いた。
 上記データについて、実施例1の(画像化の方法)に記載される手順に実施例2に記載される改変を加えて、画像化を行った。
 画像について、実施例1に記載される(特徴抽出)および(分類)の手順にしたがい、また、実施例3に記載される(データの分割)にしたがって、画像と、抗がん剤感受性との相関の機械学習を行った。すなわち、生成した画像を16×16に分割し、各領域ごとに、画像解析用のニューラルネットワークを用いた機械学習によって、判別パラメータを最適化し、各領域ごとにモデルを生成した。
 各領域での学習において求められたパラメータによる判別式を元に、それらを統合した(分割前の画像全体に対する)新しい判別式を作成する。そのために、各部分学習のパラメータを初期値として、CPUを用いて全体を最適化する処理を実施し、画像全体から抗がん剤感受性を予測するモデルを生成した。
 20種全ての細胞株データを一通り学習するのを1Epochとカウントし、学習を繰り返す度に、生成されたモデルによる予測の精度を検証した。学習に用いたのとは異なる細胞株から同様に生成した画像をもとに、当該細胞株の5-FU感受性の予測における正答率を調べた。Epoch数と正答率との関係は、図9に示される。構築した判別モデルでは、非学習画像を用いた細胞株に対しても100%の精度で判別することが可能であった(図9)。
 同様の検証を、CDDP(シスプラチン)感受性について実施したところ、こちらも100%の精度での判別が可能であった。
 (実施例4-2)画像化に使用するデータ種による学習効率の変化
 実施例4-1に記載される手法にしたがい、腫瘍細胞株の訓練データを取得した。実施例4-1に記載されるDNA変異データとRNA発現量データの両方を画像化したものに加えて、DNA変異データのみの情報を同様に画像化したものと、RNA発現量データのみの情報を同様に画像化したものを生成した。
 それぞれの画像を実施例4-1と同様に学習に供し、Epoch毎に生成されたモデルの精度を検証した。モデルの精度は、学習時に用いた画像での判別可能性と、学習時に未使用の画像での判別可能性とを調べた。結果を図10に示す。
 DNA変異データのみでは、抗がん剤感受性を判別することができるモデルの生成は困難であると考えられる。発現量データのみを用いる場合には、学習を繰り返すことによって、判別可能なモデルが生成できると考えられる。しかしながら、両方のデータを用いた場合には、およそ100Epoch程度で精度が100%(図10のグラフ中の1.0)に収束していると考えられ、より効率的に学習できることが理解される。また、発現量データのみを使用した場合と、両方のデータを使用した場合とで、正答率の標準偏差を比較すると、発現量データのみの場合に100Epochで到達した標準偏差の値に、両方のデータを用いた場合には58Epochで到達した。このことから、両方のデータを用いる場合には、平均約4割ほど同一精度に到達する学習回数を削減することができる。
 (実施例4-3)分割領域ごとの収束性の相違
 実施例4-1に記載されるように、生成した画像を16×16に分割し、各領域ごとに、画像解析用のニューラルネットワークを用いた機械学習によって、判別パラメータを最適化し、各領域ごとにモデルを生成した。上記分割では、1領域ごとにおよそ100~200遺伝子の情報が格納されることとなる。領域ごとのモデルについて、Epochごとの検証精度の収束性を検証した(図11)。
 5FU感受性を学習させた際の領域収束性を検証したところ、大抵の領域が収束性がない(Epoch数を増やしても正答率が1に収束しない)領域に該当するが、一部の領域について、収束性があるモデルが生成されることが観察された(図12)。これらの領域にて生成されたモデルは、それ自体が抗がん剤感受性の予測に利用可能であると考えられる。また、これらの収束性のある領域に着目してデータを統合して学習し、画像全体から抗がん剤感受性を予測するモデルを生成することができると考えられる。
 さらに、収束傾向がある領域のそれぞれについて、発現量情報によって判別が可能かどうかを検証した。具体的には、収束傾向がある領域に含まれる遺伝子の各細胞株における発現量について、クラスタリング分析を行い、抗がん剤感受性と相関するかどうかを調べた。
 分割領域に含まれる遺伝子の各発現量を基にクラスタリング分析を実施した。
対象判別グループが2つであり、各グループがそれぞれ同数を有するため、類似性に従って並び替えた各個体を中央で分離し、それぞれ分離したグループ内での同一性の割合を算出した。其々の同一性の割合が100%であれば、発現情報のみで完全に分離可能であることを示し、50%であれば、ランダムに分割されており発現情報のみでは分割できないことを意味する。本実施例では10個中1個~2個の異なり以下、つまり、80~90%以上の場合、発現量のみで判別可能と判定した。
 収束傾向がある領域の大部分は、発現量の情報のみで抗がん剤感受性を判別可能であったが、収束性がある領域のうちのわずかな領域については、発現量のみでは抗がん剤感受性の判別ができなかった。当該領域を記述する遺伝子は5FU感受性に関与する遺伝子変異を有している可能性がある。これにより、遺伝子変異から抗がん剤感受性を予測するモデルを生成し得ると考えられる。また、領域ごとの収束性の相違を利用することで、ある形質に関与する遺伝子の変異を同定する方法に応用可能であると考えられる。
 抗がん剤の有効性判定モデルの分割学習により、抗がん剤の有効性を左右する遺伝子領域を同定し得る。全ゲノム情報を用いて抗がん剤耐性に関与する遺伝子領域の同定を行うことより、これまで確認されなかった抗がん剤耐性と遺伝子の新たな相関関係が判明する可能性があり、これは、抗がん剤に対する新規コンパニオン診断法の開発へとつながるものである。
 なお、本実施例では、抗がん剤感受性についての予測モデルを検証したが、学習データとして他の形質を用いれば、抗がん剤感受性以外の形質についても同様に予測モデルを生成することができると考えられる。
 (実施例5)DNA・RNA発現以外のメチル化を含めた実施例
 複数の腫瘍細胞株について、網羅的なトランスクリプトームデータ、ゲノム配列データ、変異データ、DNA上のエピジェネティック修飾データ、RNA上のエピジェネティック修飾データを取得した。これらの情報をまとめ、上述のとおりの画像化を行う。この画像を用いて、当該腫瘍細胞株の薬剤耐性情報と、遺伝子情報との関係を上記のとおり学習する。学習によって生成したモデルを適用し、対象とする細胞株の薬剤耐性を予測する。対象とする細胞株からは、網羅的なトランスクリプトームデータ、ゲノム配列データ、変異データ、DNA上のエピジェネティック修飾データ、RNA上のエピジェネティック修飾データの全てまたは一部を取得し、モデルを適用することができる。
 (実施例6)ヘルスケアサービスへのサービス提供
 新薬をがん細胞に投与し、そこから得られたDNA/RNA情報を、上記のシステムで学習し、解析することで薬剤の作用機序を予測する。この予測された作用機序を、例えば、製薬企業に提供し得る。
 上記のシステムで、抗がん剤の応答結果を予測し、抗がん剤治療の薬剤選択を支援する。この予測結果を、例えば、病院を対象として提供し得る。
 上記のシステムで、複数の被験体の遺伝情報と、発症した疾患との関係を学習する。これによって得られたモデルに基づいて、対象とする被験体の遺伝情報から、当該被験体が発症する可能性がある疾患についての情報を提供することができる。
 上記のシステムで、ある疾患を有する被験体の遺伝情報と、ある薬剤に対する当該被験体の応答との関係を学習する。これによって得られたモデルに基づいて、対象とする被験体に対して、有効と考えられる薬剤についての情報を提供することができる。
 遺伝情報を入力すると、当該遺伝情報を送信し、上記モデルの適用結果を受信し、所望の結果を表示するアプリケーションもまた提供され得る。アプリケーションは、遺伝情報を画像化することが可能であり得る。
 がん患者のシークエンスの画像化データから、その人に最適な抗がん剤を予測する医療支援システムを開発及び提供する。かかるシステムは、真の個別化医療の実現に貢献するものと考える。最適な抗がん剤の選択システムを構築し、医療機関や検査機関からの依頼により、検査受託および/またはクラウド上での診断補助サービスなどの提供を行う。データを蓄積することも想定される。抗がん剤以外の他の疾患の治療への応用や、製薬企業の新薬開発の際の効果または副作用などの予測、基礎研究におけるシークエンスデータの解析サービスなどを提供する。ゲノム情報の機械学習におけるプラットフォームを提供する。
 (注釈)
 以上のように、本開示の好ましい実施形態を用いて本開示を例示してきたが、本開示は、請求の範囲によってのみその範囲が解釈されるべきであることが理解される。本明細書において引用した特許、特許出願および文献は、その内容自体が具体的に本明細書に記載されているのと同様にその内容が本明細書に対する参考として援用されるべきであることが理解される。
 本出願は、日本国特許出願第2018-247959号(2018年12月28日出願)の優先権を主張し、当該出願の内容は、その全体が全ての目的について本明細書において参考として援用される。
 本開示は、個体の形質の予測が有用である分野、とりわけ医療の分野において利用可能である。予め疾患の発症の傾向を予測する他、例えば、適切な処置の決定などに有用である。
101:システム
102:格納部
103:学習部
104:計算部
105:画像化部
106:表示部
107:取得部
108:データベース
109:測定部

Claims (15)

  1.  個体の形質情報を予測するためのシステムであって、
     複数の個体の遺伝情報と、該複数の個体の形質情報とを格納する格納部であって、該遺伝情報は、少なくとも2種類の情報を含む、格納部と、
     該複数の個体の遺伝情報と、該複数の個体の形質情報とから、遺伝情報と形質情報との関連を学習するように構成されている学習部と、
     該遺伝情報と形質情報との関連に基づき、個体の遺伝子情報から、該個体の形質情報を予測する、計算部と
    を備える、システム。
  2.  前記学習部が、前記複数の個体の遺伝情報を画像化して学習するように構成されている、請求項1に記載のシステム。
  3.  前記学習部が、前記複数の個体の遺伝情報を分割して、部分遺伝情報と形質情報との関連を学習し、複数の部分遺伝情報と形質情報との関連を統合し、前記遺伝情報と形質情報との関連を学習するように構成されている、請求項1または2に記載のシステム。
  4.  前記遺伝情報が、遺伝因子の配列情報、発現情報、および修飾情報からなる群から選択される、請求項1~3のいずれか1項に記載のシステム。
  5.  複数の遺伝因子を含む遺伝因子集団の配列データおよび複数の遺伝因子を含む遺伝因子集団の発現データを画像化する方法であって、
     該遺伝因子集団の配列データおよび該遺伝因子集団の発現データを格納する画像データを生成する工程であって、該画像データは、それぞれが位置情報および色情報を含む複数のピクセルを有する、工程
    を含む、方法。
  6.  前記複数の遺伝因子のそれぞれが、前記画像データ中の領域に対応付けられており、前記画像データを生成する工程が、
     前記遺伝因子の発現量を、該遺伝因子に対応する領域内の一定領域における色情報および/または該領域中のある色を有する領域の面積の情報に変換する工程を含む、
    請求項5に記載の方法。
  7.  遺伝情報を画像化する方法であって、該遺伝情報は、複数の遺伝因子を含む遺伝因子集団の配列データおよび/または発現データを含み、該方法は、
     該遺伝因子集団の配列データおよび/または発現データを格納する画像データを生成する工程であって、該画像データは、それぞれが位置情報および色情報を含む複数のピクセルを有し、
      該工程は、該複数の遺伝因子のそれぞれを、前記画像データ中の領域に対応付けることを含み、各遺伝因子に対応する領域は、各遺伝因子の相関重みが強いものが近接するように配置されることを特徴とする、工程
    を含む、方法。
  8.  前記複数の個体の遺伝情報の画像化が、請求項5~7のいずれかに記載の画像化方法によって行われるように構成されている、請求項2に記載のシステム。
  9.  複数の遺伝因子を含む遺伝因子集団の配列情報および複数の遺伝因子を含む遺伝因子集団の発現情報を表す画像データのデータ構造であって、
     該画像データは、該複数の遺伝因子に対応付けられた複数の領域を有し、
     遺伝因子の配列中の各位置が、該遺伝因子に対応付けられた該領域内の位置に対応付けられており、
     該遺伝因子の配列中の各位置における置換、欠失および/または挿入の情報が、該位置に対応する位置における色情報として格納され、
     該遺伝因子の発現データが、該領域中のある領域における色情報として、および/または該領域中のある色を有する領域の面積の情報として格納されている、データ構造。
  10.  前記学習部が、請求項9に記載のデータ構造を有するデータを学習に用いるように構成されている、請求項2に記載のシステム。
  11.  画像と、該画像に対応する情報との関連を予測するモデルを作成するための方法であって、
     複数の画像および該複数の画像に対応する複数の情報のセットを提供する工程と、
     該複数の画像を分割し、該複数の画像の部分と、該画像に対応する情報との関連を学習し、複数の分割学習データを得る工程と、
     該複数の分割学習データを統合し、該画像と、該画像に対応する情報との関連を予測するモデルを生成する工程と
    を含む、方法。
  12.  前記複数の分割学習データを得る工程において、各分割学習データの判別能力を検証し、判別力のある分割学習データを選択して統合に供することを特徴とする、請求項11に記載の方法。
  13.  学習部が、請求項11または12に記載の方法によって、前記遺伝情報と形質情報との関連を学習するように構成されている、請求項3に記載のシステム。
  14.  個体の形質情報を予測するためのシステムであって、
     複数の個体の遺伝情報と、該複数の個体の形質情報とを格納する格納部であって、該遺伝情報は、遺伝因子の配列情報および発現情報を含む、格納部と、
     該複数の個体の遺伝情報と、該複数の個体の形質情報とから、遺伝情報と形質情報との関連を、該複数の個体の遺伝情報を画像化して学習するように構成されている、学習部と、
     該遺伝情報と形質情報との関連に基づき、個体の遺伝子情報から、該個体の形質情報を予測する、計算部と
    を備え、
     ここで、該学習部が、該複数の個体の遺伝情報を画像化して生成した画像を分割して、画像の各領域と形質情報との関連を学習し、各領域から形質情報の判別能力を有するモデルを生成可能な領域を選択して、画像の各領域から形質情報を予測するモデルを生成するように構成されている、システム。
  15.  個体の形質情報を予測するためのシステムであって、
     複数の個体の遺伝情報と、該複数の個体の形質情報とを格納する格納部であって、該遺伝情報は、遺伝因子の配列情報および発現情報を含む、格納部と、
     該複数の個体の遺伝情報と、該複数の個体の形質情報とから、遺伝情報と形質情報との関連を、該複数の個体の遺伝情報を画像化して学習するように構成されている、学習部と、
     該遺伝情報と形質情報との関連に基づき、個体の遺伝情報から、該個体の形質情報を予測する、計算部と
    を備え、
     ここで、該学習部が、該複数の個体の遺伝情報を画像化して生成した画像を分割して、画像の各領域と形質情報との関連を学習し、各領域から形質情報の判別能力を有するモデルを生成可能な領域を選択し、各領域において、発現情報に基づいて形質情報が予測可能かを判定し、発現情報に基づいて形質情報が予測可能でない領域における遺伝子から、形質情報と相関する変異を有する遺伝子を特定するように構成され、
     該計算部は、該形質情報と相関する変異を有する遺伝子の情報に基づいて該個体の形質情報を予測するように構成されている、システム。
PCT/JP2019/051564 2018-12-28 2019-12-27 個体の形質情報を予測するためのシステムまたは方法 WO2020138479A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020562540A JPWO2020138479A1 (ja) 2018-12-28 2019-12-27
US17/418,168 US20220101147A1 (en) 2018-12-28 2019-12-27 System and method for predicting trait information of individuals

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018247959 2018-12-28
JP2018-247959 2018-12-28

Publications (1)

Publication Number Publication Date
WO2020138479A1 true WO2020138479A1 (ja) 2020-07-02

Family

ID=71128016

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/051564 WO2020138479A1 (ja) 2018-12-28 2019-12-27 個体の形質情報を予測するためのシステムまたは方法

Country Status (3)

Country Link
US (1) US20220101147A1 (ja)
JP (1) JPWO2020138479A1 (ja)
WO (1) WO2020138479A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114219049B (zh) * 2022-02-22 2022-05-10 天津大学 一种基于层级约束的细粒度笔石图像分类方法和装置
CN115457361A (zh) * 2022-09-19 2022-12-09 京东方科技集团股份有限公司 分类模型获取方法、表达类别确定方法、装置、设备及介质
CN117274005B (zh) * 2023-11-21 2024-02-09 西昌学院 基于数字教育的大数据推送方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016099901A (ja) * 2014-11-25 2016-05-30 学校法人 岩手医科大学 形質予測モデル作成方法および形質予測方法
JP2018092453A (ja) * 2016-12-06 2018-06-14 日本電気通信システム株式会社 学習装置、学習方法およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016099901A (ja) * 2014-11-25 2016-05-30 学校法人 岩手医科大学 形質予測モデル作成方法および形質予測方法
JP2018092453A (ja) * 2016-12-06 2018-06-14 日本電気通信システム株式会社 学習装置、学習方法およびプログラム

Also Published As

Publication number Publication date
US20220101147A1 (en) 2022-03-31
JPWO2020138479A1 (ja) 2020-07-02

Similar Documents

Publication Publication Date Title
Gao et al. DeepCC: a novel deep learning-based framework for cancer molecular subtype classification
Mobadersany et al. Predicting cancer outcomes from histology and genomics using convolutional networks
Hart et al. Inferring biological tasks using Pareto analysis of high-dimensional data
WO2020077232A1 (en) Methods and systems for nucleic acid variant detection and analysis
CN111933212B (zh) 一种基于机器学习的临床组学数据处理方法及装置
WO2020138479A1 (ja) 個体の形質情報を予測するためのシステムまたは方法
JP7350002B2 (ja) クロマチン相互作用データの分析用の方法および装置
US20230222311A1 (en) Generating machine learning models using genetic data
Mignone et al. Multi-task learning for the simultaneous reconstruction of the human and mouse gene regulatory networks
CN115151974A (zh) 使用补丁卷积神经网络的癌症分类
JP7041614B6 (ja) 生体データにおけるパターン認識のマルチレベルアーキテクチャ
CN113597645A (zh) 用于重建药物应答和疾病网络的方法和系统以及其用途
US10665347B2 (en) Methods for predicting prognosis
US20230056839A1 (en) Cancer prognosis
Zhao et al. Object-oriented regression for building predictive models with high dimensional omics data from translational studies
Ahmed et al. Review of personalized cancer treatment with machine learning
Qiu et al. Genomic processing for cancer classification and prediction-Abroad review of the recent advances in model-based genomoric and proteomic signal processing for cancer detection
Guazzo et al. Baseline machine learning approaches to predict multiple sclerosis disease progression
Lin et al. Atlas-scale single-cell multi-sample multi-condition data integration using scMerge2
Cao et al. Opportunities and challenges of machine learning approaches for biomarker signature identification in psychiatry
Gupta et al. Genome Sequence Identification using Deep Learning for Lung Cancer Diagnosis
US20230253115A1 (en) Methods and systems for predicting in-vivo response to drug therapies
Madahian et al. A Bayesian approach for inducing sparsity in generalized linear models with multi-category response
Arulanandham et al. Role of Data Science in Healthcare
Steyaert et al. Variational autoencoders to predict DNA-methylation age and provide biological insights in age-related health and disease

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19906142

Country of ref document: EP

Kind code of ref document: A1

DPE2 Request for preliminary examination filed before expiration of 19th month from priority date (pct application filed from 20040101)
ENP Entry into the national phase

Ref document number: 2020562540

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19906142

Country of ref document: EP

Kind code of ref document: A1