WO2019181022A1 - 遺伝子変異の評価装置、評価方法、プログラム、および記録媒体 - Google Patents

遺伝子変異の評価装置、評価方法、プログラム、および記録媒体 Download PDF

Info

Publication number
WO2019181022A1
WO2019181022A1 PCT/JP2018/036376 JP2018036376W WO2019181022A1 WO 2019181022 A1 WO2019181022 A1 WO 2019181022A1 JP 2018036376 W JP2018036376 W JP 2018036376W WO 2019181022 A1 WO2019181022 A1 WO 2019181022A1
Authority
WO
WIPO (PCT)
Prior art keywords
mutation
score
evaluated
evaluation
information
Prior art date
Application number
PCT/JP2018/036376
Other languages
English (en)
French (fr)
Inventor
正隆 菊地
明弘 中谷
Original Assignee
日本電気株式会社
国立大学法人大阪大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社, 国立大学法人大阪大学 filed Critical 日本電気株式会社
Priority to JP2020507315A priority Critical patent/JP6941309B2/ja
Priority to US16/976,808 priority patent/US20210005281A1/en
Publication of WO2019181022A1 publication Critical patent/WO2019181022A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12MAPPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
    • C12M1/00Apparatus for enzymology or microbiology
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12MAPPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
    • C12M1/00Apparatus for enzymology or microbiology
    • C12M1/36Apparatus for enzymology or microbiology including condition or time responsive control, e.g. automatically controlled fermentors
    • C12M1/38Temperature-responsive control
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/20ICT specially adapted for the handling or processing of medical references relating to practices or guidelines

Definitions

  • the present invention relates to a genetic mutation evaluation apparatus, evaluation method, program, and recording medium.
  • gene mutations affect various traits, it is important to extract gene mutations and analyze what traits the gene mutations are associated with. As the traits, for example, responsiveness to diseases and drugs is common, but in recent years, not only these but also traits related to the environment including lifestyle habits have attracted attention.
  • Patent Document 1 For the identification of the relationship between gene mutation and trait, exhaustive gene mutation analysis using a next-generation sequencer, microarray or the like is usually used (Patent Document 1). However, since many gene mutations are found as candidates by analysis, it is clarified what kind of trait each gene mutation is related to, and the priority of the relation is relatively high for a certain trait It is necessary to sort things.
  • the present invention for example, from the mutation information at a single position, even if it is considered that there is no apparent relationship with the trait, it is picked up as a gene mutation candidate showing the relationship with the trait.
  • the purpose is to provide a new genetic mutation evaluation system.
  • the genetic mutation evaluation apparatus of the present invention comprises: Including a communication unit, an evaluated mutation information acquisition unit, a score assignment unit, a score determination unit, a region mutation information acquisition unit, a score reassignment unit, and an evaluation score determination unit,
  • the communication unit is It is possible to communicate with a database that stores information on gene mutations for traits,
  • the evaluated mutation information acquisition unit Obtain mutation information of common gene mutations in sample groups showing common traits as mutation information of the mutation to be evaluated,
  • the mutation information includes mutation position information and mutation base information
  • the score assigning unit Based on the database information, a first score indicating the relevance to the character of the database information is given to the mutation to be evaluated, The score determination unit
  • the first score of the mutation to be evaluated is compared with a relevance threshold, and when the first score is less than the relevance threshold, the mutation to be evaluated is determined to be re-scored,
  • the region mutation information acquisition unit Based on the database information, to obtain a gene mutation in the related region for the mutation to be re-sco
  • the method for evaluating gene mutation comprises: An evaluation mutation information acquisition step, a score assignment step, a score determination step, a region mutation information acquisition step, a score reassignment step, and an evaluation score determination step, It is possible to communicate with a database that stores information on gene mutations for traits,
  • the evaluated mutation information acquisition step includes: Obtain mutation information of common gene mutations in sample groups showing common traits as mutation information of the mutation to be evaluated, The mutation information includes mutation position information and mutation base information,
  • the scoring step includes Based on the database information, a first score indicating the relevance to the character of the database information is given to the mutation to be evaluated,
  • the score determination step includes The first score of the mutation to be evaluated is compared with a relevance threshold, and when the first score is less than the relevance threshold, the mutation to be evaluated is determined to be re-scored,
  • the region mutation information acquisition step includes Based on the database information, to obtain a gene mutation in the related region for the mutation to be re-scored as region mutation information,
  • the program of the present invention causes a computer to execute the gene mutation evaluation method of the present invention.
  • the recording medium of the present invention can be read by a computer in which the program of the present invention is recorded.
  • the present invention for example, even if it is not possible to determine that a genetic mutation at a single position is apparently related to a trait, by referring to the information on the related region of the genetic mutation. Genetic mutations that may be related to the traits can be picked up. For this reason, more efficient evaluation can be performed about the relationship between a gene variation and a character.
  • FIG. 1 is a block diagram illustrating an example of an evaluation apparatus according to the first embodiment.
  • FIG. 2 is a block diagram illustrating an example of a hardware configuration of the evaluation apparatus according to the first embodiment.
  • FIG. 3 is a flowchart illustrating an example of the evaluation method according to the first embodiment.
  • FIG. 4 is a simulation graph showing the relationship between the degree of association with a trait and the chromosome position.
  • FIG. 5 is a graph visualizing the relationship between the mutation to be evaluated and the evaluation score indicating the relationship between the characters in the second embodiment.
  • FIG. 1 is a block diagram showing the configuration of an example of a genetic mutation evaluation device 10 according to this embodiment.
  • the evaluation device 10 includes an evaluated mutation information acquisition unit 11, a score assignment unit 12, a score determination unit 13, a region mutation information acquisition unit 14, a score reassignment unit 15, and an evaluation score determination unit 16.
  • a communication unit 19 is included.
  • the evaluation apparatus 10 may further include a storage unit 17 and an output unit 18.
  • the evaluation device 10 is also referred to as an evaluation system, for example.
  • the evaluation device 10 may be, for example, one evaluation device including the above-described units, or may be an evaluation device that can be connected to each unit via a communication network.
  • the evaluation apparatus 10 has a communication unit 19 and can communicate with the database 30 (301, 302, 303, 304).
  • the evaluation device 10 and the database 30 can be connected by a communication unit 19 via a communication network 20.
  • the communication line network 20 is not particularly limited, and a known network can be used.
  • the communication line network 20 may be wired or wireless.
  • Examples of the communication line network 20 include an Internet line, a telephone line, a LAN (Local Area Network), and a WiFi (Wireless Fidelity).
  • Embodiment 1 showed the form which the evaluation apparatus 10 and the database 30 connect as an example via the communication network 20 by the communication part 19, it is not restrict
  • the evaluation apparatus 10 And the database 30 may be communicable, for example, by being electrically connected by a wire by the communication unit 19.
  • the wired connection may be, for example, a connection using a cord or a connection using a cable for using a communication network.
  • the type and the number of the database 30 communicating with the evaluation apparatus 10 are not limited.
  • the database 30 may be any database that stores information on gene mutations for traits.
  • a public database can be used, and examples thereof include PolyPhen, ExAC, Clinvar, Japanese genome data (iJGVD), SIFT, CADD and the like.
  • the database is not limited to a database existing at the time of filing of the present application, and a new database after filing can be used.
  • the type of the trait is not particularly limited.
  • traits such as diseases, responsiveness to drugs, traits related to lifestyle, traits of physical characteristics, traits such as exercise ability or academic ability
  • the disease for example, classification of an international disease classification table can be used.
  • the gene mutation for the trait is a gene mutation that has a significant difference between a patient group and a normal group of the disease.
  • the gene mutation for the trait is a group of patients with the specific disease and a group of patients who are not the specific disease (for example, a group of normal persons or a group of healthy persons with respect to the specific disease).
  • the evaluated mutation information acquisition unit 11 acquires the mutation information of the genetic mutation that is common in the sample group showing the common character as the mutation information of the evaluated mutation.
  • the method for obtaining the mutation information is not particularly limited.
  • the evaluated mutation information acquisition unit 11 may acquire the mutation information, for example, by a user input using an input device described later, or by reception from a database or the like via the communication line network.
  • the mutation information may be acquired.
  • the mutation information includes mutation position information and mutation base information.
  • the position information is, for example, information on the position of the mutation to be evaluated in the gene
  • the base information is information on the type of base at the position in the gene, for example.
  • the format of the mutation information is not particularly limited, and examples thereof include file formats such as text data and VCF files.
  • the sample group is a sample group showing a common character.
  • the type of the trait is not limited at all as described above, and an arbitrary trait can be set. Examples of the types of traits include various traits such as diseases, responsiveness to drugs, traits related to lifestyle habits, traits of physical characteristics, traits such as exercise ability or academic ability.
  • the mutation to be evaluated is, for example, a genetic mutation having a significant difference between a patient group and a normal group of the disease.
  • the common gene mutation may be obtained from information such as a database or a paper, or may be obtained from the mutation information of the sample group X + showing the trait X and the mutation information of the sample group X ⁇ not showing the trait X. You may extract and acquire.
  • the type of sample group is not particularly limited, and examples include sample groups classified according to various factors such as the presence or absence of disease, severity of disease, cohort, race, sex, and age.
  • the number of gene mutations common in the sample group is not particularly limited, and may be, for example, one or a plurality of two or more.
  • the evaluated mutation information acquisition unit 11 may acquire mutation information of a plurality of gene mutations common in the sample group.
  • the score assigning unit 12 assigns a first score indicating the relevance to the character of the database information to the mutation to be evaluated based on the database information.
  • the score indicating the relevance to the trait is preferably a relative value that allows the relevance to be determined by comparing the magnitude.
  • the relative value is, for example, a score of 0 (zero) when no relevance is shown, and a score of 1 when the highest relevance is shown. The higher the relevance, the closer the score can be to 1.
  • the score assigning unit 12 calculates the score of the evaluated mutation for each of the plurality of databases based on the database information, for example,
  • the scores for each database may be integrated, and the integrated score may be used as the first score of the evaluated mutation.
  • the method for calculating the integrated score is not particularly limited, and can be calculated, for example, by a weighted linear sum using a score for each database.
  • the databases generally have different value scales. For this reason, for example, by performing scoring using relative values and integrating them as described above, it is possible to avoid the influence due to the difference in scale of each database.
  • the score for each database may be weighted based on the accuracy of the database, for example.
  • the accuracy of the database can be arbitrarily set, for example.
  • the score determination unit 13 collates the first score of the evaluated mutation with the relevance threshold value, and when the first score is less than the relevance threshold value, the scored mutation is determined as a re-scoring target. judge.
  • the threshold value is not particularly limited and can be set arbitrarily.
  • the score determination unit 13 collates, for example, the first score of the evaluated mutation with a relevance threshold, and if the first score satisfies the relevance threshold, the score determination section 13 determines the evaluated mutation as the database information. You may determine with the variation
  • the region mutation information acquisition unit 14 acquires, as region mutation information, a gene mutation in a related region for the mutation to be re-scored based on the database information.
  • the related area is not particularly limited and can be arbitrarily set. Information on the related region for the mutation to be evaluated may be stored in the storage unit 17 in advance, for example.
  • the length of the related region is not particularly limited and can be arbitrarily set. Specific examples include ⁇ 10,000 base length, ⁇ 100,000 base length, and the like. Examples of the related region include a continuous sequence including the position of the evaluated mutation. The related region may be, for example, a chain position with respect to the evaluated mutation position, a combination of a plurality of chain positions, or an area including the chain position. Examples of the related region include a coding region and a structural domain related to the gene having the mutation to be evaluated.
  • the score re-assignment unit 15 assigns a second score weighted to the first score based on the region mutation information for the re-scoring target mutation.
  • the evaluation score determining unit 16 determines the first score as the evaluation score of the evaluated mutation, and the first score of the evaluated mutation is When the threshold value is not satisfied, the second score is determined as an evaluation score of the mutation to be evaluated that is to be re-scored.
  • the score determination unit 13 may also serve as a related gene mutation determination unit, for example.
  • the related gene mutation determination unit collates the evaluation score with the relevance threshold, and determines an evaluated mutation that satisfies the relevance threshold as the evaluation score is a mutation related to the character of the database information May be.
  • the storage unit 17 stores, for example, information from the database 30, information used for processing in each unit of the evaluation device 10, and information obtained by processing in each unit of the evaluation device 10. , You may remember.
  • the storage unit 17 may be the database 30.
  • the output unit 18 may output information obtained by processing in each unit of the evaluation device 10, for example.
  • the output destination by the output unit 18 may be a display, or may be an output to an external device described later. In the latter case, the evaluation apparatus 10 and the external device can be connected via, for example, a communication network.
  • FIG. 2 illustrates a block diagram of the hardware configuration of the evaluation apparatus 10.
  • the evaluation apparatus 10 includes, for example, a CPU (Central Processing Unit) 101, a memory 102, a bus 103, an input device 104, a display 105, a communication device 110, a storage device 107, and the like. Each part of the evaluation apparatus 10 is mutually connected via the bus
  • I / F interface
  • the CPU 101 is responsible for overall control of the evaluation apparatus 10.
  • the program of the present invention and other programs are executed by the CPU 101, and various information is read and written.
  • the CPU 101 includes an evaluated mutation information acquisition unit 11, a score assignment unit 12, a score determination unit 13, a region mutation information acquisition unit 14, a score reassignment unit 15, and an evaluation score determination unit. 16 functions.
  • the bus 103 connects the respective functional units such as the CPU 101 and the memory 102, for example.
  • the bus 103 can be connected to an external device.
  • Examples of the external device include the database 30 and the display terminal described above.
  • the evaluation apparatus 10 can be connected to the communication line network 20 by the communication device 110 connected to the bus 103, and can also be connected to the external device via the communication line network 20.
  • the communication device 110 is, for example, the communication unit 19.
  • the memory 102 includes, for example, a main memory, and the main memory is also referred to as a main storage device.
  • the main memory is, for example, a RAM (Random Access Memory).
  • the memory 102 further includes, for example, a ROM (read only memory).
  • the storage device 107 is also referred to as a so-called auxiliary storage device for the main memory (main storage device), for example.
  • the storage device 107 includes, for example, a storage medium and a drive that reads from and writes to the storage medium.
  • the storage medium is not particularly limited, and may be, for example, a built-in type or an external type, such as HD (hard disk), FD (floppy (registered trademark) disk), CD-ROM, CD-R, CD-RW, MO, Examples of the drive include a DVD, a flash memory, and a memory card, and the drive is not particularly limited.
  • Examples of the storage device 107 include a hard disk drive (HDD) in which a storage medium and a drive are integrated.
  • the operation program 108 is stored in the storage device 107.
  • the storage device 107 is, for example, the storage unit of the evaluation device 10 and may store information input to the evaluation device 10, information generated by the evaluation device 10, and the like.
  • the evaluation device 10 further includes, for example, an input device 104, a display 105, and the like.
  • the input device 104 is, for example, a touch panel, a keyboard, a mouse, or the like.
  • Examples of the display 105 include an LED display, a liquid crystal display, and the like.
  • evaluation method of the present embodiment can be implemented using, for example, the evaluation apparatus 10 shown in FIGS.
  • the evaluation method of this embodiment is not limited to use of the evaluation apparatus 10 shown in these drawings. The description in the evaluation method of this embodiment can be applied to the evaluation apparatus 10 mentioned above.
  • FIG. 3 is a flowchart showing an example of the evaluation method.
  • there are a plurality of gene mutations that are common in the sample group and a description will be given of an example in which these mutations to be evaluated are evaluated based on one database information.
  • the plurality of mutations to be evaluated may be processed in parallel or sequentially.
  • mutation information on a common gene mutation in a sample group showing a common character is obtained as mutation information on the evaluated mutation (S100). This step can be executed by, for example, the evaluated mutation information acquisition unit 11 of the evaluation device 10.
  • the number (n) of gene mutations common in the sample group is not particularly limited, and may be one or may be two or more.
  • the following four types of gene mutations (mutations M1, M2, M3, and M4) are exemplified as common gene mutations in the sample group.
  • a first score indicating relevance to the character of the database information is assigned to the evaluated mutation (S101). This process can be performed by the score provision part 12 of the evaluation apparatus 10, for example.
  • DB1 database 1 in which information on gene mutations for trait A is accumulated
  • DB1 is considered to include information on the relationship between trait A and each of the mutations M1 to M4. Therefore, when a first score indicating the relevance of the mutations M1 to M4 to the trait A is given based on the information of the DB1, for example, as shown in Table 1, each of the mutations M1 to M4 has a value of 0. First scores of 9, 0.1, 0.3, and 0.1 can be given. From this first score, it can be seen that the degree of association with the trait A is in the order of mutation M1, mutation M3, mutation M2, and mutation M4.
  • the first score of the mutation to be evaluated is compared with the relevance threshold value to determine whether or not the first score satisfies the threshold value (S102). If the first score is less than the relevance threshold value (NO), the mutation to be evaluated is determined as a rescoring target (S103).
  • the threshold value can be arbitrarily set as described above.
  • the score is set to be larger as the relevance is higher and smaller as the relevance is lower, for example, if the first score is less than the threshold (or less than or equal to the threshold), the mutation to be evaluated can be determined as a re-scoring target.
  • the score is set to be smaller as the relevance is higher and larger as the relevance is lower, for example, if the first score exceeds a threshold (or more than the threshold), the evaluated mutation is determined to be a re-scoring target. it can.
  • the evaluation mutation shall be unrelated to the character Excluded. However, in some cases, such evaluated mutations actually include those showing a relationship with the trait. On the other hand, in the present invention, as shown below, by assigning a further score for the first scored mutation that is less than the threshold, there is a possibility that it is actually related to the trait. It becomes possible to pick up the mutation to be evaluated.
  • threshold value 0.5
  • the first score of mutation M2, mutation M3, and mutation M4 is less than the threshold value. It is determined that the mutation is evaluated.
  • region mutation information acquisition step based on the database information, a gene variation in a related region with respect to the evaluated mutation to be re-scored is acquired as region variation information (S104).
  • This step can be executed by, for example, the region variation information acquisition unit 14 of the evaluation device 10.
  • score re-assignment step a second score weighted to the first score is assigned to the evaluated mutation to be re-scored based on the region mutation information (S105).
  • This step can be executed by, for example, the score reassignment unit 15 of the evaluation device 10.
  • FIG. 4 is a simulation graph for explaining the present embodiment, and the chromosome position, the numerical value of the relative value, etc. are merely examples.
  • the present invention is not limited to the following description.
  • FIG. 4 (A) is a simulation graph showing the relative values for the trait A for a plurality of mutations detected from the sequence of the sample group, the X axis is the chromosome position, and the Y axis is shown by the database. It is a relative value (white circle) with respect to the character A. As described above, the relative value means a degree of influence (also referred to as a degree of harm or a degree of association) of the mutation on the trait. In FIG. 4, the relative value is shown in a range where the lower limit is 0 and the upper limit is 1. However, the relative value is not limited to this, and may be a value shown in each database, for example.
  • the mutation M to be evaluated at the chromosome position specified by the arrow shows only a very low relative value for the trait A. For this reason, when only a single position is considered, this mutation M is repelled as having no relation to the trait A.
  • FIG. 4B shows, for the same simulation graph as FIG. 4A, the mutations that could not be detected or not detected in the sequence of the sample group, and are registered in the database. It is the graph which plotted the relative value with respect to a character (black circle).
  • a genetic mutation may directly affect the trait in some cases, or the mutation itself does not directly affect the trait, but is linked to or around the mutation. In some cases, mutations in the position may affect the trait. For this reason, even if it is determined that the relative value is low by the first score, the mutation M may actually show the relevance to the trait A by referring to the mutation information in the related region of the mutation M. It is thought that there is sex.
  • a mutation density curve (W) is generated from a plot of mutation information around the mutation M (black circle).
  • the density curve (W) can be performed, for example, by interpolation using a kernel function.
  • the second score can be given by weighting according to the distance on the chromosome. That is, in this way, by using the region mutation information of the related region of the mutation M to be evaluated, even if the mutation is considered to be unrelated in the first score, the weighted second score is given to further increase the Evaluation can also be performed.
  • the related area can be set arbitrarily.
  • the related area setting condition may be stored in the storage unit 17 in advance, for example.
  • the related region is a continuous sequence including the evaluated mutation as described above, for example, the position of the evaluated mutation in the continuous sequence, the length of the continuous sequence, and the like are set as the setting conditions. Can do.
  • region is the position of the chain
  • the region variation information in the related region can be obtained from the database information.
  • the mutation M2 for each of the mutation M2, the mutation M3, and the mutation M4 to be re-scored, respective related regions are set, and gene mutations in each related region are acquired as region variation information.
  • the gene mutation in the related region may be, for example, a gene mutation for the trait A or a gene mutation for other traits. That is, for example, in FIG. 4 (A), relative values for the trait A (breast cancer) are plotted with white circles for the gene mutations in the sample group, and in FIG. 4 (B), various values registered in the database are plotted. You may plot the relative value with respect to the breast cancer of the gene variation in a chromosome position with a black circle. Further, for example, in FIG.
  • relative values for the trait A are plotted with white circles for the gene mutations in the sample group.
  • various values registered in the database are plotted.
  • the relative value of the gene mutation at the chromosomal location with respect to other trait B may be plotted with a black circle.
  • mutation M2 is weighted and set as a 2nd score (0.8), and the 1st of the variation
  • the first score (0.3) is weighted to be the second score (0.9)
  • the first score (0.1) of the mutation M4 is weighted to be the second score (0.6).
  • the second score is determined as an evaluation score of the evaluated mutation to be re-scored (S106).
  • step (S102) when it is determined that the first score satisfies the relevance threshold (YES), the first score is determined as an evaluation score of the evaluated mutation (S107).
  • These steps can be executed by, for example, the evaluation score determination unit 16 of the evaluation device 10.
  • FIG. 4B relative values for the traits were plotted for the mutations that could not be detected in the sequence of the sample group (black circles), and a density curve (W) was generated.
  • the present invention is not limited to this.
  • the relative value for the trait registered in the database is further plotted to generate a density curve (W), and the second score of mutation M is obtained. It may be given.
  • FIG. 4A is a relative value with respect to the trait A
  • FIG. 4B for example, relative values with respect to the other trait B are plotted against the same mutation, and a density curve is plotted.
  • (W) is generated and a second score of mutation M is assigned.
  • Modification 1 As shown in FIG. 1, when the evaluation device 10 can communicate with a plurality of databases by the communication unit 19, the score assigning unit 12 determines the evaluation target for each of the plurality of databases based on the database information. Mutation scores may be calculated, the scores for each database may be integrated, and the integrated score may be used as the first score for the evaluated mutation.
  • the integrated score is not particularly limited, and can be calculated by, for example, a weighted linear sum using a score for each database.
  • a weighted linear sum for example, a statistical means such as a generalized linear model or a neural network can be used.
  • the score provision part 12 may weight the score for every said database based on the precision of the said database.
  • mutants M1, M2, M3, M4 there are four types of gene mutations (mutations M1, M2, M3, M4) as shown in Table 2 below as common gene mutations in the sample group, and four types of databases (DB1, DB2, DB3). , DB4) is exemplified.
  • a score is calculated based on each database information, and further, an integrated score is obtained by the following model formula using the scores of four types of databases. Can do.
  • machine learning such as unsupervised learning or supervised learning can be used.
  • the unsupervised learning includes, for example, principal component analysis
  • the supervised learning includes, for example, a support vector machine and naive Bayes classification.
  • the evaluation apparatus of the present embodiment can further output the evaluation score.
  • Examples of the output of the evaluation score include visualization data based on the evaluation score.
  • FIG. 5 shows a graph of a numerical matrix indicating the relationship between a plurality of mutations to be evaluated and an evaluation score for each trait.
  • the evaluated mutations are arranged in the row direction, and the disease traits are shown in the column direction. The higher the evaluation score, the darker the color, and the lower the color, the lighter the color.
  • evaluation scores for neurodegenerative diseases and evaluation scores for heart diseases are clustered.
  • the evaluated mutant group on the left shows a high evaluation score for the neurodegenerative disease, suggesting an association with the neurodegenerative disease.
  • the to-be-evaluated mutation group on the right side shows a high evaluation score for heart disease, suggesting an association with heart disease.
  • the notation in FIG. 5 is not limited.
  • the left group has a relatively high evaluation score indicating the relationship with the neurodegenerative disease
  • the right group has a relationship with the heart disease.
  • the evaluation score indicating sex is relatively high.
  • the upper group is a heart disease
  • the upper group is a neurodegenerative disease.
  • the relevance can be visualized by using the relative evaluation score. For example, comparison of a large number of numerical values or the influence of a different scale for each database is possible. It is possible to visually determine the relationship between a certain gene mutation and a certain trait, the relationship between a certain trait and multiple gene mutations, the relationship between a certain gene mutation and multiple traits, etc. Become.
  • hierarchical clustering for example, hierarchical clustering, k-means method, or the like can be used as the profile of the mutation to be evaluated and the disease profile.
  • the format of the visualization data is not particularly limited, and may be a numeric matrix format as described above, a bar graph, a plot graph, or the like.
  • the program of the present embodiment is a program that can execute the evaluation method of the present invention on a computer. Or the program of this embodiment may be recorded on a computer-readable recording medium, for example.
  • the recording medium is not particularly limited, and examples thereof include the storage medium as described above.
  • the communication unit is It is possible to communicate with a database that stores information on gene mutations for traits, The evaluated mutation information acquisition unit, Obtain mutation information of common gene mutations in sample groups showing common traits as mutation information of the mutation to be evaluated, The mutation information includes mutation position information and mutation base information, The score assigning unit Based on the database information, a first score indicating the relevance to the character of the database information is given to the mutation to be evaluated, The score determination unit The first score of the mutation to be evaluated is compared with a relevance threshold, and when the first score is less than the relevance threshold, the mutation to be evaluated is determined to be re-scored, The region mutation information acquisition unit, Based on the database information, to obtain a gene mutation in the
  • the evaluation score determination unit If the first score of the mutation to be evaluated satisfies the threshold, the first score is determined as the evaluation score of the mutation to be evaluated; The evaluation apparatus according to appendix 1, wherein when the first score of the evaluated mutation does not satisfy the threshold value, the second score is determined as an evaluation score of the evaluated mutation to be re-scored.
  • Appendix 3 In the evaluated mutation information acquisition unit, the common trait of the sample group is a disease, and the evaluated mutation is a genetic mutation having a significant difference between a patient group and a normal group of the disease. The evaluation apparatus according to appendix 1 or 2.
  • (Appendix 4) The evaluation apparatus according to any one of appendices 1 to 3, wherein the evaluated mutation information acquisition unit acquires mutation information of a plurality of gene mutations common in the sample group.
  • (Appendix 5) The appendix 1 to 4, wherein the database information trait is a disease, and the gene mutation for the trait is a gene mutation having a significant difference between a patient group and a normal group of the disease. Evaluation device.
  • (Appendix 6) Any one of appendices 1 to 5, wherein the trait of the database information is a specific disease, and the gene mutation for the trait is a gene mutation having a significant difference between a patient group and a normal group of the specific disease The evaluation apparatus as described in.
  • the evaluation apparatus according to any one of appendices 1 to 6, wherein, in the region mutation information acquisition unit, the related region is a continuous sequence including a position of the evaluated mutation.
  • the evaluation apparatus according to any one of appendices 1 to 6, wherein in the region mutation information acquisition unit, the related region includes a position of a chain with respect to a position of the mutation to be evaluated.
  • the communication unit can communicate with a plurality of databases, The score assigning unit calculates a score of the evaluated mutation for each of the plurality of databases based on the database information, integrates the scores of the databases, and calculates an integrated score as the first of the evaluated mutations.
  • the evaluation apparatus according to any one of appendices 1 to 8, which is a score.
  • Appendix 10 The evaluation device according to appendix 9, wherein the score assigning unit calculates the integrated score by a weighted linear sum using a score for each database.
  • Appendix 11 The evaluation apparatus according to appendix 9 or 10, wherein the score assigning unit weights the score for each database based on the accuracy of the database.
  • Appendix 12 The score assigning unit gives a relatively large score as the relevance to the trait is relatively high, and gives a relatively small score as the relevance to the trait is relatively low.
  • the evaluation apparatus according to any one of appendices 1 to 11.
  • the score determination unit Any one of appendices 1 to 12, wherein the evaluation score is compared with the relevance threshold, and the mutation to be evaluated that satisfies the evaluation score satisfying the relevance threshold is determined as a mutation related to the character of the database information
  • the evaluation apparatus of crab (Appendix 14) Furthermore, it has a storage unit, The evaluation device according to any one of appendices 1 to 13, wherein the storage unit associates and stores the evaluation score for each of the evaluated mutations. (Appendix 15) Furthermore, it has an output part, The evaluation device according to any one of appendices 1 to 14, wherein the output unit outputs an evaluation score indicating the relevance to the character for each of the mutations to be evaluated.
  • (Appendix 16) Furthermore, it has a storage unit, The evaluation apparatus according to any one of appendices 1 to 15, wherein the storage unit stores an evaluation score of the evaluated mutation for each character of the database information. (Appendix 17) Furthermore, it has an output part, The evaluation device according to any one of appendices 1 to 16, wherein the output unit associates and outputs an evaluation score of the evaluated mutation for each character of the database information. (Appendix 18) The evaluation device according to attachment 15 or 17, wherein the output unit outputs the evaluation score as visualization data.
  • the evaluated mutation information acquisition step includes: Obtain mutation information of common gene mutations in sample groups showing common traits as mutation information of the mutation to be evaluated, The mutation information includes mutation position information and mutation base information, The scoring step includes Based on the database information, a first score indicating the relevance to the character of the database information is given to the mutation to be evaluated, The score determination step includes The first score of the mutation to be evaluated is compared with a relevance threshold, and when the first score is less than the relevance threshold, the mutation to be evaluated is determined to be re-scored, The region mutation information acquisition step includes Based on the database information, to obtain a gene mutation in the related region for the mutation to be re-scored as region mutation information, The score re-assignment step includes For the mutation to be re-
  • the evaluation score determination step includes If the first score of the mutation to be evaluated satisfies the threshold, the first score is determined as the evaluation score of the mutation to be evaluated; When the first score of the mutation to be evaluated does not satisfy the threshold, the second score is determined as the evaluation score of the mutation to be evaluated that is to be re-scored.
  • the evaluation method according to appendix 19. (Appendix 21) In the evaluated mutation information acquisition step, the common trait of the sample group is a disease, and the evaluated mutation is a genetic mutation having a significant difference between a patient group and a normal group of the disease. The evaluation method according to appendix 19 or 20.
  • Appendix 22 The evaluation method according to any one of appendices 19 to 21, wherein the evaluation mutation information acquisition step acquires mutation information of a plurality of gene mutations common in the sample group.
  • Appendix 23 The appendix 19 to 22, wherein the trait of the database information is a disease, and the gene mutation for the trait is a gene mutation having a significant difference between a patient group and a normal group of the disease. Evaluation method.
  • Appendix 24 Any one of appendices 19 to 23, wherein the trait of the database information is a specific disease, and the gene mutation for the trait is a gene mutation having a significant difference between a patient group and a normal group of the specific disease Evaluation method described in 1.
  • Appendix 25 The evaluation method according to any one of appendices 19 to 24, wherein, in the region mutation information acquisition step, the related region is a continuous sequence including a position of the mutation to be evaluated.
  • Appendix 26 The evaluation method according to any one of appendices 19 to 25, wherein in the region mutation information acquisition step, the related region includes a position of a chain with respect to a position of the evaluated mutation.
  • Appendix 27 Can communicate with multiple databases, The scoring step calculates a score of the evaluated mutation for each of the plurality of databases based on the database information, integrates the scores of the databases, and calculates an integrated score as the first of the evaluated mutations. 27.
  • (Appendix 28) 28 The evaluation method according to appendix 27, wherein the score assigning step calculates the integrated score by a weighted linear sum using a score for each database. (Appendix 29) 29. The evaluation method according to appendix 27 or 28, wherein the scoring step weights the score for each database based on the accuracy of the database. (Appendix 30) In the scoring step, a relatively high score is given as the relevance to the trait is relatively high, and a relatively small score is given as the relevance to the trait is relatively low. The evaluation method according to any one of appendices 19 to 29.
  • the score determination step includes Any one of appendices 19 to 30, wherein the evaluation score is compared with the relevance threshold, and the mutation to be evaluated that satisfies the evaluation score satisfies the relevance threshold is determined as a mutation associated with the character of the database information.
  • the evaluation method of crab (Appendix 32) Furthermore, it has a memory step, The evaluation method according to any one of appendices 19 to 31, wherein the storage step stores the evaluation score in association with each of the mutations to be evaluated. (Appendix 33) Furthermore, it has an output process, The evaluation method according to any one of appendices 19 to 32, wherein in the output step, an evaluation score indicating the relevance to the character is linked and output for each mutation to be evaluated.
  • (Appendix 34) Furthermore, it has a memory step, The evaluation method according to any one of appendices 19 to 33, wherein the storing step stores the evaluation score of the mutation to be evaluated in association with each character of the database information. (Appendix 35) Furthermore, it has an output process, 35. The evaluation method according to any one of appendices 19 to 34, wherein the output step associates and outputs an evaluation score of the evaluated mutation for each character of the database information. (Appendix 36) 36. The evaluation method according to appendix 33 or 35, wherein the output step outputs the evaluation score as visualization data. (Appendix 37) A program causing a computer to execute the evaluation method according to any one of appendices 19 to 36. (Appendix 38) A computer-readable recording medium on which the program according to attachment 37 is recorded.
  • the present invention for example, even if it is not possible to determine that a genetic mutation at a single position is apparently related to a trait, by referring to the information on the related region of the genetic mutation. Genetic mutations that may be related to the traits can be picked up. For this reason, more efficient evaluation can be performed about the relationship between a gene variation and a character.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biotechnology (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Medical Informatics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Genetics & Genomics (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Analytical Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Medicinal Chemistry (AREA)
  • Sustainable Development (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Immunology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

単一位置の変異情報から見かけ上、形質との関連性無しと考えられる場合でも、関連性を示す遺伝子変異候補としての拾い上げを可能とする、新たな遺伝子変異評価システムを提供する。 本発明の遺伝子変異評価装置(10)は、データベースDBとの通信部(19)、共通形質を示すサンプル群において共通する遺伝子変異の変異情報を被評価変異の変異情報として取得する被評価変異情報取得部(11)、前記DB情報に基づき前記被評価変異に対し前記DB情報の形質への関連性を示す第1スコアを付与するスコア付与部(12)、前記第1スコアと関連性閾値とを照合し、前記閾値に満たない場合、前記被評価変異を再スコア化対象と判定するスコア判定部(13)、前記DB情報に基き前記再スコア化対象の被評価変異に対する関連領域の遺伝子変異を、領域変異情報として取得する領域変異情報取得部(14)、前記再スコア化対象の被評価変異について、前記領域変異情報に基づき前記第1スコアに重み付けした第2スコアを付与するスコア再付与部(15)、前記第2スコアを前記再スコア化対象の被評価変異の評価スコアとして決定する評価スコア決定部(16)を含む。

Description

遺伝子変異の評価装置、評価方法、プログラム、および記録媒体
 本発明は、遺伝子変異の評価装置、評価方法、プログラム、および記録媒体に関する。
 遺伝子変異は、様々な形質に影響を及ぼすことから、遺伝子変異を抽出し、その遺伝子変異が、どのような形質と関連するのかを解析することが重要となっている。前記形質としては、例えば、疾患、薬剤への応答性が一般的であるが、近年では、これらにはとどまらず、さらに、生活習慣を含む環境に関連する形質にも着目されている。
 遺伝子変異と形質との関連性の同定は、通常、次世代シーケンサー、マイクロアレイ等を用いた、網羅的な遺伝子変異の解析が利用されている(特許文献1)。しかしながら、解析によって多数の遺伝子変異が候補として見つかるため、各遺伝子変異について、それぞれが、どのような形質と関連するのかを明らかにし、ある形質に対して、関連性の優先度が相対的に高いものを選別することが必要になっている。
特開2018-191716号公報
 このように、多数の遺伝子変異が候補として見つかるものの、これらの遺伝子変異群は、遺伝子変異間の関連性が明らかではない。このため、解析においては、単一位置の変異に関して、一つ一つ、形質との関連性を推測していくしかないのが現状である。しかし、1座位変異のみに着目して形質との関連性を分析した場合、例えば、変異の検出エラー、形質の測定誤差等が原因となり、実際には形質に影響がある変異にもかかわらず、関連性があると判定できず(偽陰性)、関連性のある遺伝子変異候補として取りこぼす可能性があった。
 そこで、本発明は、例えば、単一位置の変異情報からは、見かけ上、形質との関連性が無いと考えられる場合であっても、形質との関連性を示す遺伝子変異候補としての拾い上げを可能とする、新たな遺伝子変異の評価システムの提供を目的とする。
 前記目的を達成するために、本発明の遺伝子変異の評価装置は、
通信部、被評価変異情報取得部、スコア付与部、スコア判定部、領域変異情報取得部、スコア再付与部、および評価スコア決定部を含み、
前記通信部は、
  形質に対する遺伝子変異の情報が記憶されたデータベースと通信可能であり、
前記被評価変異情報取得部は、
  共通の形質を示すサンプル群において共通する遺伝子変異の変異情報を、被評価変異の変異情報として取得し、
  前記変異情報は、変異の位置情報と変異の塩基情報とを含み、
前記スコア付与部は、
  前記データベース情報に基づいて、前記被評価変異に対して、前記データベース情報の形質への関連性を示す第1スコアを付与し、
前記スコア判定部は、
  前記被評価変異の第1スコアと、関連性の閾値とを照合し、前記第1スコアが前記関連性の閾値に満たない場合、前記被評価変異を再スコア化対象と判定し、
前記領域変異情報取得部は、
  前記データベース情報に基づいて、前記再スコア化対象の被評価変異に対する関連領域における遺伝子変異を、領域変異情報として取得し、
前記スコア再付与部は、
  前記再スコア化対象の被評価変異について、前記領域変異情報に基づいて、前記第1スコアに重み付けした第2スコアを付与し、
前記評価スコア決定部は、
  前記第2スコアを、前記再スコア化対象の被評価変異の評価スコアとして決定する、
ことを特徴とする。
 本発明の遺伝子変異の評価方法は、
被評価変異情報取得工程、スコア付与工程、スコア判定工程、領域変異情報取得工程、スコア再付与工程、および評価スコア決定工程を含み、
形質に対する遺伝子変異の情報が記憶されたデータベースと通信可能であり、
前記被評価変異情報取得工程は、
  共通の形質を示すサンプル群において共通する遺伝子変異の変異情報を、被評価変異の変異情報として取得し、
  前記変異情報は、変異の位置情報と変異の塩基情報とを含み、
前記スコア付与工程は、
  前記データベース情報に基づいて、前記被評価変異に対して、前記データベース情報の形質への関連性を示す第1スコアを付与し、
前記スコア判定工程は、
  前記被評価変異の第1スコアと、関連性の閾値とを照合し、前記第1スコアが前記関連性の閾値に満たない場合、前記被評価変異を再スコア化対象と判定し、
前記領域変異情報取得工程は、
  前記データベース情報に基づいて、前記再スコア化対象の被評価変異に対する関連領域における遺伝子変異を、領域変異情報として取得し、
前記スコア再付与工程は、
  前記再スコア化対象の被評価変異について、前記領域変異情報に基づいて、前記第1スコアに重み付けした第2スコアを付与し、
前記評価スコア決定工程は、
  前記第2スコアを、前記再スコア化対象の被評価変異の評価スコアとして決定する、
ことを特徴とする。
 本発明のプログラムは、前記本発明の遺伝子変異の評価方法をコンピュータに実行させることを特徴とする。
 本発明の記録媒体は、前記本発明のプログラムを記録したコンピュータ読み取り可能である。
 本発明によれば、例えば、単一位置の遺伝子変異について、見かけ上、形質との関連性があると判定できない場合であっても、さらに、前記遺伝子変異の関連領域の情報を参照することによって、前記形質と関連性を示す可能性がある遺伝子変異を拾い上げることができる。このため、遺伝子変異と形質との関連性について、より効率の良い評価を行うことができる。
図1は、実施形態1の評価装置の一例を示すブロック図である。 図2は、実施形態1の評価装置のハードウエア構成の一例を示すブロック図である。 図3は、実施形態1の評価方法の一例を示すフローチャートである。 図4は、形質に対する関連度と染色体位置との関係を示すシミュレーショングラフである。 図5は、実施形態2において、被評価変異と、形質との関連性を示す評価スコアとの関係を視覚化したグラフである。
 本発明の実施形態について説明する。なお、本発明は、以下の実施形態には限定されない。なお、以下の各図において、同一部分には、同一符号を付している。また、各実施形態の説明は、特に言及がない限り、互いの説明を援用できる。さらに、各実施形態の構成は、特に言及がない限り、組合せ可能である。
[実施形態1]
(1)評価装置
 図1は、本実施形態の遺伝子変異の評価装置10の一例の構成を示すブロック図である。図1に示すように、評価装置10は、被評価変異情報取得部11、スコア付与部12、スコア判定部13、領域変異情報取得部14、スコア再付与部15、および評価スコア決定部16、通信部19を含む。評価装置10は、例えば、さらに、記憶部17、および出力部18を備えてもよい。評価装置10は、例えば、評価システムともいう。
 評価装置10は、例えば、前記各部を含む1つの評価装置でもよいし、前記各部が、通信回線網を介して接続可能な評価装置であってもよい。
 評価装置10は、通信部19を有し、データベース30(301、302、303、304)と通信可能である。評価装置10とデータベース30とは、例えば、図1に示すように、通信部19により、通信回線網20を介して接続可能である。通信回線網20は、特に制限されず、公知のネットワークを使用でき、例えば、有線でも無線でもよい。通信回線網20は、例えば、インターネット回線、電話回線、LAN(Local Area Network)、WiFi(Wireless Fidelity)等があげられる。なお、本実施形態1は、一例として、評価装置10とデータベース30とが、通信部19により、通信回線網20を介して接続する形態を示したが、これには制限されず、評価装置10とデータベース30とが、例えば、通信部19により、有線によって電気的に接続されることによって、通信可能であってもよい。前記有線による接続は、例えば、コードによる接続でもよいし、通信回線網を利用するためのケーブル等による接続でもよい。
 評価装置10と通信するデータベース30は、例えば、その種類およびその数は制限されない。データベース30は、形質に対する遺伝子変異の情報が記憶されたデータベースであればよい。データベース30は、例えば、公共のデータベースが使用でき、PolyPhen、ExAC、Clinvar、日本人ゲノムデータ(iJGVD)、SIFT、CADD等などのデータベースがあげられる。また、本発明において、前記データベースは、例えば、本願の出願時において存在するデータベースには限られず、出願後の新たなデータベースも利用できる。
 データベース30の情報において、前記形質の種類は、特に制限されず、例えば、疾患、薬剤への応答性、生活習慣に関連する形質、身体的特徴の形質、運動能力または学力等の形質等、様々なものがあげられる。前記疾患は、例えば、国際疾病分類表の分類が利用できる。前記形質が疾患の場合、例えば、前記形質に対する遺伝子変異は、前記疾患の患者群と正常者群との間で、有意差のある遺伝子変異である。前記形質が特定疾患の場合、例えば、前記形質に対する遺伝子変異は、前記特定疾患の患者群と、前記特定疾患ではない患者群(例えば、前記特定疾患についての正常者群、または、健常者群)との間で有意差のある遺伝子変異である。
 被評価変異情報取得部11は、共通の形質を示すサンプル群において共通する遺伝子変異の変異情報を、被評価変異の変異情報として取得する。前記変異情報の取得方法は、特に制限されない。被評価変異情報取得部11は、例えば、後述する入力装置等を用いたユーザの入力によって、前記変異情報を取得してもよいし、前記通信回線網を介して、データベース等からの受信によって、前記変異情報を取得してもよい。
 前記変異情報は、変異の位置情報と変異の塩基情報とを含む。前記位置情報とは、例えば、遺伝子における被評価変異の位置に関する情報であり、前記塩基情報とは、例えば、前記遺伝子における前記位置の塩基の種類に関する情報である。前記変異情報の形式は、特に制限されず、例えば、テキストデータ、VCFファイル等のファイル形式があげられる。
 前記サンプル群とは、共通の形質を示すサンプル群である。前記形質の種類は、前述と同様に、何ら制限されず、任意の形質が設定できる。前記形質の種類は、例えば、疾患、薬剤への応答性、生活習慣に関連する形質、身体的特徴の形質、運動能力または学力等の形質等、様々なものがあげられる。前記サンプル群の共通形質が疾患の場合、前記被評価変異は、例えば、前記疾患の患者群と正常者群との間で、有意差のある遺伝子変異である。前記共通する遺伝子変異は、例えば、データベース、論文等の情報から取得してもよいし、形質Xを示すサンプル群Xの変異情報と、形質Xを示さないサンプル群Xの変異情報とから、抽出して取得してもよい。サンプル群の種類は、特に制限されず、例えば、疾患の有無、疾患の重度、コホート、人種、性別、年代等、様々なファクターにより分類されたサンプル群があげられる。
 サンプル群において共通する遺伝子変異の数は、特に制限されず、例えば、1つでもよいし、2つ以上の複数でもよい。被評価変異情報取得部11は、例えば、前記サンプル群において共通する複数の遺伝子変異の変異情報を取得してもよい。
 スコア付与部12は、前記データベース情報に基づいて、前記被評価変異に対して、前記データベース情報の形質への関連性を示す第1スコアを付与する。形質との関連性を示すスコアは、例えば、関連性を大小の比較により行うことができる相対値が好ましい。前記相対値は、例えば、関連性を示さない場合を、スコア0(ゼロ)とし、最も高い関連性を示す場合を、スコア1と設定することによって、関連性が小さい程、0に近いスコアを付与し、関連性が大きい程、1に近いスコアを付与できる。
 評価装置10が、通信部19により複数のデータベースと通信可能な場合、スコア付与部12は、例えば、前記複数のデータベースごとに、前記データベース情報に基づいて、前記被評価変異のスコアを算出し、前記データベースごとのスコアを統合し、統合スコアを、前記被評価変異の第1スコアとしてもよい。前記統合スコアの算出方法は、特に制限されず、例えば、前記データベースごとのスコアを用いた加重線形和により算出できる。前記データベースは、一般に、それぞれで値のスケールが異なっている。このため、例えば、上述のように相対値によるスコア化を行い、統合することで、各データベースのスケールの違いによる影響を回避できる。
 また、前記データベースごとのスコアは、例えば、前記データベースの精度に基づいて、重みづけしてもよい。前記データベースの精度は、例えば、任意で設定できる。
 スコア判定部13は、前記被評価変異の第1スコアと、関連性の閾値とを照合し、前記第1スコアが前記関連性の閾値に満たない場合、前記被評価変異を再スコア化対象と判定する。閾値は、特に制限されず、任意に設定できる。スコア判定部13は、例えば、前記被評価変異の第1スコアと、関連性の閾値とを照合し、前記第1スコアが前記関連性の閾値を満たす場合、前記被評価変異を、前記データベース情報の形質に関連する変異と判定してもよい。
 領域変異情報取得部14は、前記データベース情報に基づいて、前記再スコア化対象の被評価変異に対する関連領域における遺伝子変異を、領域変異情報として取得する。前記関連領域は、特に制限されず、任意に設定できる。前記被評価変異に対する関連領域の情報は、例えば、あらかじめ、記憶部17に記憶してもよい。
 前記関連領域の長さは、特に制限されず、任意に設定でき、具体例として、例えば、±1万塩基長、±10万塩基長等があげられる。前記関連領域は、例えば、前記被評価変異の位置を含む連続配列があげられる。また、前記関連領域は、例えば、前記被評価変異の位置に対する連鎖の位置でもよいし、複数の連鎖の位置の組合せでもよいし、前記連鎖の位置を含む領域でもよい。また、前記関連領域は、例えば、前記被評価変異を有する遺伝子に関するコーディング領域、構造ドメイン等があげられる。
 スコア再付与部15は、前記再スコア化対象の被評価変異について、前記領域変異情報に基づいて、前記第1スコアに重み付けした第2スコアを付与する。
 評価スコア決定部16は、例えば、前記被評価変異の第1スコアが前記閾値を満たす場合、前記第1スコアを、前記被評価変異の評価スコアとして決定し、前記被評価変異の第1スコアが前記閾値を満たさない場合、前記第2スコアを、前記再スコア化対象の被評価変異の評価スコアとして決定する。
 評価装置10において、スコア判定部13は、例えば、さらに、関連遺伝子変異判定部を兼ねてもよい。前記関連遺伝子変異判定部は、前記評価スコアと、前記関連性の閾値とを照合し、前記評価スコアが前記関連性の閾値を満たす被評価変異を、前記データベース情報の形質に関連する変異と判定してもよい。
 評価装置10が記憶部17を有する場合、記憶部17は、例えば、データベース30からの情報、評価装置10の各部での処理に使用する情報、評価装置10の各部での処理によって得られる情報を、記憶してもよい。また、評価装置10において、記憶部17が、データベース30であってもよい。
 評価装置10が出力部18を有する場合、出力部18は、例えば、評価装置10の各部での処理によって得られる情報を出力してもよい。出力部18による出力先は、例えば、評価装置10がディスプレイを有する場合は、ディスプレイでもよいし、また、後述する外部機器への出力でもよい。後者の場合、評価装置10と前記外部機器とは、例えば、通信回線網を介して、接続可能である。
(2)ハードウエア構成
 図2に、評価装置10のハードウエア構成のブロック図を例示する。評価装置10は、例えば、CPU(中央処理装置)101、メモリ102、バス103、入力装置104、ディスプレイ105、通信デバイス110、記憶装置107等を有する。評価装置10の各部は、例えば、それぞれのインターフェイス(I/F)により、バス103を介して、相互に接続されている。
 CPU101は、評価装置10の全体の制御を担う。評価装置10において、CPU101により、例えば、本発明のプログラムやその他のプログラムが実行され、また、各種情報の読み込みや書き込みが行われる。具体的に、評価装置10は、例えば、CPU101が、被評価変異情報取得部11、スコア付与部12、スコア判定部13、領域変異情報取得部14、スコア再付与部15、および評価スコア決定部16として機能する。
 バス103は、例えば、CPU101、メモリ102等のそれぞれの機能部間を接続する。バス103は、例えば、外部機器とも接続できる。前記外部機器は、例えば、前述のデータベース30、ディスプレイ端末等があげられる。評価装置10は、バス103に接続された通信デバイス110により、通信回線網20に接続でき、通信回線網20を介して、前記外部機器と接続することもできる。通信デバイス110は、例えば、通信部19である。
 メモリ102は、例えば、メインメモリを含み、前記メインメモリは、主記憶装置ともいう。CPU101が処理を行う際には、例えば、後述する補助記憶装置に記憶されている、本発明のプログラム等の種々の動作プログラム108を、メモリ102が読み込み、CPU101は、メモリ102からデータを受け取って、プログラム108を実行する。前記メインメモリは、例えば、RAM(ランダムアクセスメモリ)である。メモリ102は、例えば、さらに、ROM(読み出し専用メモリ)を含む。
 記憶装置107は、例えば、前記メインメモリ(主記憶装置)に対して、いわゆる補助記憶装置ともいう。記憶装置107は、例えば、記憶媒体と、前記記憶媒体に読み書きするドライブとを含む。前記記憶媒体は、特に制限されず、例えば、内蔵型でも外付け型でもよく、HD(ハードディスク)、FD(フロッピー(登録商標)ディスク)、CD-ROM、CD-R、CD-RW、MO、DVD、フラッシュメモリー、メモリーカード等があげられ、前記ドライブは、特に制限されない。記憶装置107は、例えば、記憶媒体とドライブとが一体化されたハードディスクドライブ(HDD)も例示できる。記憶装置107には、例えば、前述のように、動作プログラム108が格納される。また、記憶装置107は、例えば、評価装置10の前記記憶部であり、評価装置10に入力された情報、評価装置10で生成された情報等が格納されてもよい。
 評価装置10は、例えば、さらに、入力装置104、ディスプレイ105等を有する。入力装置104は、例えば、タッチパネル、キーボード、マウス等である。ディスプレイ105は、例えば、LEDディスプレイ、液晶ディスプレイ等があげられ、例えば、出力部18となる。
(3)遺伝子変異の評価方法
 本実施形態の評価方法は、例えば、図1および図2に示す評価装置10を用いて実施できる。なお、本実施形態の評価方法は、これらの図面に示す評価装置10の使用には限定されない。本実施形態の評価方法における記載は、前述した評価装置10に援用できる。
 本実施形態の評価方法について、図3を用いて説明する。図3は、前記評価方法の一例を示すフローチャートである。以下の説明においては、一例として、サンプル群において共通する遺伝子変異が複数あり、これらの被評価変異について、1つのデータベース情報に基づいて評価を行う形態を例にあげて説明する。なお、複数の被評価変異は、例えば、それぞれについて、並行して処理を行ってもよいし、順次、処理を行ってもよい。
 まず、前記被評価変異情報取得工程として、共通の形質を示すサンプル群において共通する遺伝子変異の変異情報を、被評価変異の変異情報として取得する(S100)。この工程は、例えば、評価装置10の被評価変異情報取得部11により実行できる。
 前記サンプル群において共通する遺伝子変異の数(n)は、特に制限されず、1つでもよいし、2つ以上の複数でもよい。本実施形態においては、具体例として、前記サンプル群において共通する遺伝子変異として、下記4種類の遺伝子変異(変異M1、M2、M3、M4)を例示する。
Figure JPOXMLDOC01-appb-T000001
 つぎに、前記スコア付与工程として、前記データベース情報に基づいて、前記被評価変異に対して、前記データベース情報の形質への関連性を示す第1スコアを付与する(S101)。この工程は、例えば、評価装置10のスコア付与部12により実行できる。
 具体例において、例えば、形質Aに対する遺伝子変異の情報が蓄積されたデータベース1(DB1)を参照したとする。DB1には、形質Aと、各変異M1~M4との関連性の情報も含まれると考えられる。そこで、前記DB1の情報に基づいて、形質Aに対する変異M1~M4の関連性を示す第1スコアを付与すると、前記表1に示すように、例えば、変異M1~M4には、それぞれ、0.9、0.1、0.3、0.1という第1スコアが付与できる。この第1スコアから、形質Aに対する関連性の高さは、変異M1、変異M3、変異M2および変異M4の順であることがわかる。
 そして、前記スコア判定工程として、前記被評価変異の第1スコアと、関連性の閾値とを照合し、第1スコアが閾値を満たすか否かを判断する(S102)。そして、前記第1スコアが前記関連性の閾値に満たない場合(NO)、前記被評価変異を再スコア化対象と判定する(S103)。これらの工程は、例えば、評価装置10のスコア判定部13により実行できる。
 前記閾値は、前述のように、任意に設定できる。スコアを、関連性が高い程大きく、関連性が低い程小さく設定した場合、例えば、第1スコアが閾値未満(または閾値以下)であれば、前記被評価変異を再スコア化対象と判定できる。一方、スコアを、関連性が高い程小さく、関連性が低い程大きく設定した場合、例えば、第1スコアが閾値を超える(または閾値以上)ならば、前記被評価変異を再スコア化対象と判定できる。
 通常の方法であれば、被評価変異について、形質との関連性を示す第1スコアが、判定基準である閾値に満たない場合、前記被評価変異は、前記形質とは関連性がないものとして除外される。しかし、そのような被評価変異の中に、実際には前記形質と関連性を示すものが含まれる場合がある。これに対して、本発明は、閾値に満たない第1スコアの被評価変異について、以下に示すように、さらなるスコアの付与を行うことによって、実際には前記形質と関連性のある可能性の被評価変異を拾い上げることが可能になる。
 具体例において、例えば、閾値=0.5とした場合、前記表1に示すように、変異M2、変異M3、および変異M4の第1スコアは、閾値未満であることから、再スコア化対象の被評価変異と判定される。
 つぎに、前記領域変異情報取得工程として、前記データベース情報に基づいて、前記再スコア化対象の被評価変異に対する関連領域における遺伝子変異を、領域変異情報として取得する(S104)。この工程は、例えば、評価装置10の領域変異情報取得部14により実行できる。そして、前記スコア再付与工程として、前記再スコア化対象の被評価変異について、前記領域変異情報に基づいて、前記第1スコアに重み付けした第2スコアを付与する(S105)。この工程は、例えば、評価装置10のスコア再付与部15により実行できる。
 これらの工程は、本発明者らが得た知見に基づくものである。そこで、本発明者らが得た知見について、図4のシミュレーショングラフを用いて説明する。図4は、本実施形態を説明するためのシミュレーショングラフであり、染色体位置、相対値の数値等は、単なる例示にすぎない。また、本発明は、以下の記載には制限されない。
 図4(A)は、サンプル群の配列から検出された複数の被評価変異について、形質Aに対する相対値を示すシミュレーショングラフであり、X軸は、染色体位置であり、Y軸は、データベースにより示される形質Aに対する相対値(白丸)である。前記相対値は、前述のように、変異が形質に与える影響の度合い(有害度または関連度ともいう)を意味する。図4において、前記相対値は、下限を0、上限を1とする範囲で示したが、これには制限されず、例えば、各データベースにおいて示される値であってもよい。具体的には、例えば、関連解析では-log10 p値により表わすこともできる。図4(A)において、矢印で特定した染色体位置の被評価変異Mは、形質Aに対しては、非常に低い相対値しか示していない。このため、単一位置のみを考慮した場合、この変異Mは、形質Aに対しては関連性のないものとしてはじかれる。
 つぎに、図4(B)は、図4(A)と同じシミュレーショングラフに対して、サンプル群の配列において検出できなかった、または、検出しなかった変異について、さらに、データベースに登録されている形質に対する相対値をプロットしたグラフである(黒丸)。図4(B)に示すように、変異Mの周辺には、形質に対して極めて高い相対値を示す変異が密集している。そして、遺伝子変異は、一般的に、その変異自体が直接的に形質に影響を与える場合もあれば、その変異自体は直接的に形質に影響しないが、前記変異の周囲または前記変異と連鎖関係にある位置の変異が、形質に影響を与える場合もある。このため、第1スコアにより相対値が低いと判定された場合であっても、変異Mの関連領域における変異情報を参照することによって、変異Mが、実際には形質Aに対する関連性を示す可能性があると考えられる。
 そこで、図4(C)に示すように、変異Mの周辺の変異情報のプロット(黒丸)から、例えば、変異の密度曲線(W)を生成する。この密度曲線に基づいて、変異Mの相対値に重み付けを行うことにより、矢印で示すように、変異Mの相対値を、密度曲線上の相対値にまで引き上げることができる。密度曲線(W)は、例えば、カーネル関数を用いた補間等によって行うことができる。また、前記カーネル関数を用いた方法の他に、例えば、染色体上の距離に応じた重み付けにより、第2スコアを付与することもできる。つまり、このように、被評価変異Mの関連領域の領域変異情報を利用することで、第1スコアでは関連性がないと考えられる変異についても、重み付けした第2スコアを付与することで、さらなる評価を行うことも可能となる。
 前記関連領域は、任意に設定できる。前記関連領域の設定条件は、例えば、予め、記憶部17に記憶してもよい。この場合、前記関連領域が、前述のように前記被評価変異を含む連続配列の場合、例えば、前記連続配列における前記被評価変異の位置、前記連続配列の長さ等を、設定条件とすることができる。また、前記関連領域が、前述のように前記被評価変異の位置に対する連鎖の位置の場合、例えば、変異ごとに、その位置に対する連鎖の位置を、設定条件とすることができる。前記関連領域における前記領域変異情報は、前記データベース情報から得ることができる。
 具体例において、前記再スコア化対象の変異M2、変異M3、および変異M4について、それぞれの関連領域を設定し、各関連領域における遺伝子変異を、領域変異情報として取得する。前記関連領域における遺伝子変異とは、例えば、形質Aに対する遺伝子変異でもよいし、それ以外の形質に対する遺伝子変異でもよい。つまり、例えば、図4(A)において、前記サンプル群の遺伝子変異について、形質A(乳がん)に対する相対値を、白丸でプロットし、さらに、図4(B)において、データベースに登録された様々な染色体位置における遺伝子変異の乳がんに対する相対値を、黒丸でプロットしてもよい。また、例えば、図4(A)において、前記サンプル群の遺伝子変異について、形質A(乳がん)に対する相対値を、白丸でプロットし、さらに、図4(B)において、データベースに登録された様々な染色体位置における遺伝子変異の他の形質B(例えば、胃がん)に対する相対値を、黒丸でプロットしてもよい。そして、前記表1に示すように、それぞれの前記領域変異情報に基づいて、変異M2の第1スコア(0.1)に重み付けして、第2スコア(0.8)とし、変異M3の第1スコア(0.3)に重み付けして、第2スコア(0.9)とし、変異M4の第1スコア(0.1)に重み付けして、第2スコア(0.6)とする。
 そして、前記評価スコア決定工程は、前記第2スコアを、前記再スコア化対象の被評価変異の評価スコアとして決定する(S106)。これらの工程は、例えば、評価装置10の評価スコア決定部16により実行できる。
 また、前述の工程(S102)において、前記第1スコアが前記関連性の閾値を満たすと判断した場合(YES)、前記第1スコアを、前記被評価変異の評価スコアとして決定する(S107)。これらの工程は、例えば、評価装置10の評価スコア決定部16により実行できる。
 また、図4(B)においては、サンプル群の配列において検出できなかった変異について、形質に対する相対値をプロットし(黒丸)、密度曲線(W)を生成したが、これには制限されない。図4(A)に示す、サンプル群配列において検出した変異について、さらに、データベースに登録されている形質に対する相対値をプロットして、密度曲線(W)を生成し、変異Mの第2スコアを付与してもよい。この場合、図4(A)は、形質Aに対する相対値であることから、図4(B)においては、例えば、同じ変異に対して、他の形質Bに対する相対値をプロットして、密度曲線(W)を生成し、変異Mの第2スコアを付与する。
(変形例1)
 評価装置10が、図1に示すように、通信部19により、複数のデータベースと通信可能である場合、スコア付与部12は、前記複数のデータベースごとに、前記データベース情報に基づいて、前記被評価変異のスコアを算出し、前記データベースごとのスコアを統合し、統合スコアを、前記被評価変異の第1スコアとしてもよい。
 前記統合スコアは、特に制限されず、例えば、前記データベースごとのスコアを用いた加重線形和により、算出できる。前記加重線形和は、例えば、一般化線形モデル、ニューラルネットワーク等の統計手段を利用することもできる。また、スコア付与部12は、前記データベースの精度に基づいて、前記データベースごとのスコアに重み付けしてもよい。
 具体例として、前記サンプル群において共通する遺伝子変異として、下記表2に示すように、4種類の遺伝子変異(変異M1、M2、M3、M4)があり、4種類のデータベース(DB1、DB2、DB3、DB4)を使用する形態を例示する。
Figure JPOXMLDOC01-appb-T000002
 それぞれの被評価変異(M1、M2、M3、M4)について、各データベース情報に基づいて、スコアを算出し、さらに、4種類のデータベースのスコアを用いて、下記のモデル式により統合スコアを得ることができる。前記統合スコアの算出には、例えば、教師なし学習、教師あり学習等の機械学習が利用できる。前記教師なし学習は、例えば、主成分分析、前記教師あり学習は、例えば、サポートベクターマシン、ナイーブベイズ分類等があげられる。
Figure JPOXMLDOC01-appb-M000003
 i:i番目の遺伝子変異
 j:j番目のデータベース
 n:データベース数
 β:切片を表す定数項
 Si,j:データベースjの遺伝子変異iのスコア
 βi,j:データベースjの遺伝子変異iのスコアの重み
[実施形態2]
 本実施形態の評価装置は、例えば、さらに、前記評価スコアを出力することができる。前記評価スコアの出力は、例えば、前記評価スコアに基づく可視化データがあげられる。
 図5に、複数の被評価変異と、各形質に対する評価スコアとの関係を示す数値行列のグラフを示す。図5において、行方向には、被評価変異を並べ、列方向には、疾患の形質を示す。そして、評価スコアが高い程、濃い色、低い程、薄い色で色分けされている。図5においては、具体的に、神経変性疾患に対する評価スコアと、心疾患に対する評価スコアが、それぞれクラスタリングしている。
 図5に示すように、左側の被評価変異群は、神経変性疾患に対して高い評価スコアを示していることから、神経変性疾患との関連性が示唆される。一方、右側の被評価変異群は、心疾患に対して高い評価スコアを示していることから、心疾患との関連性が示唆される。なお、図5の表記には、制限されず、例えば、左側の一群が、神経変性疾患との関連性を示す評価スコアが相対的に高いものであり、右側の一群が、心疾患との関連性を示す評価スコアが相対的に高いものである。一方、縦軸の疾患は、上側の一群が、心疾患であり、上側の一群が、神経変性疾患である。
 図5のグラフからわかるように、本発明によれば、相対的な評価スコアの利用によって、関連性の可視化が可能であるため、例えば、膨大な数値の見比べや、データベースごとに異なるスケールの影響を受けることなく、ある遺伝子変異とある形質との関係性、ある形質と複数の遺伝子変異との関係性、ある遺伝子変異と複数の形質との関係性等を、目視でも判断することが可能になる。
 本実施形態において、被評価変異および疾患のプロファイルは、例えば、階層的クラスタリング、k-means法等も使用できる。
 前記可視化データの形式は、特に制限されず、前述のような数値行列の形式でもよいし、棒グラフ、プロットグラフ等でもよい。
[実施形態3]
 本実施形態のプログラムは、前記本発明の評価方法を、コンピュータ上で実行可能なプログラムである。または、本実施形態のプログラムは、例えば、コンピュータ読み取り可能な記録媒体に記録されてもよい。前記記録媒体としては、特に限定されず、例えば、前述のような記憶媒体等があげられる。
 以上、実施形態を参照して本願発明を説明したが、本願発明は、上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2018年3月19日に出願された日本出願特願2018―051268を基礎とする優先権を主張し、その開示のすべてをここに取り込む。
 上記の実施形態および実施例の一部または全部は、以下の付記のように記載されうるが、以下には限られない。
(付記1)
通信部、被評価変異情報取得部、スコア付与部、スコア判定部、領域変異情報取得部、スコア再付与部、および評価スコア決定部を含み、
前記通信部は、
  形質に対する遺伝子変異の情報が記憶されたデータベースと通信可能であり、
前記被評価変異情報取得部は、
  共通の形質を示すサンプル群において共通する遺伝子変異の変異情報を、被評価変異の変異情報として取得し、
  前記変異情報は、変異の位置情報と変異の塩基情報とを含み、
前記スコア付与部は、
  前記データベース情報に基づいて、前記被評価変異に対して、前記データベース情報の形質への関連性を示す第1スコアを付与し、
前記スコア判定部は、
  前記被評価変異の第1スコアと、関連性の閾値とを照合し、前記第1スコアが前記関連性の閾値に満たない場合、前記被評価変異を再スコア化対象と判定し、
前記領域変異情報取得部は、
  前記データベース情報に基づいて、前記再スコア化対象の被評価変異に対する関連領域における遺伝子変異を、領域変異情報として取得し、
前記スコア再付与部は、
  前記再スコア化対象の被評価変異について、前記領域変異情報に基づいて、前記第1スコアに重み付けした第2スコアを付与し、
前記評価スコア決定部は、
  前記第2スコアを、前記再スコア化対象の被評価変異の評価スコアとして決定する、
ことを特徴とする遺伝子変異の評価装置。
(付記2)
前記評価スコア決定部は、
  前記被評価変異の第1スコアが前記閾値を満たす場合、前記第1スコアを、前記被評価変異の評価スコアとして決定し、
  前記被評価変異の第1スコアが前記閾値を満たさない場合、前記第2スコアを、前記再スコア化対象の被評価変異の評価スコアとして決定する、付記1記載の評価装置。
(付記3)
前記被評価変異情報取得部において、前記サンプル群の共通形質が、疾患であり、前記被評価変異が、前記疾患の患者群と正常者群との間で、有意差のある遺伝子変異である、付記1または2記載の評価装置。
(付記4)
前記被評価変異情報取得部は、前記サンプル群において共通する複数の遺伝子変異の変異情報を取得する、付記1から3のいずれかに記載の評価装置。
(付記5)
前記データベース情報の形質が、疾患であり、前記形質に対する遺伝子変異が、前記疾患の患者群と正常者群との間で、有意差のある遺伝子変異である、付記1から4のいずれかに記載の評価装置。
(付記6)
前記データベース情報の形質が、特定疾患であり、前記形質に対する遺伝子変異が、前記特定疾患の患者群と正常者群との間で、有意差のある遺伝子変異である、付記1から5のいずれかに記載の評価装置。
(付記7)
前記領域変異情報取得部において、前記関連領域が、前記被評価変異の位置を含む連続配列である、付記1から6のいずれかに記載の評価装置。
(付記8)
前記領域変異情報取得部において、前記関連領域が、前記被評価変異の位置に対する連鎖の位置を含む、付記1から6のいずれかに記載の評価装置。
(付記9)
前記通信部は、複数のデータベースと通信可能であり、
前記スコア付与部は、前記複数のデータベースごとに、前記データベース情報に基づいて、前記被評価変異のスコアを算出し、前記データベースごとのスコアを統合し、統合スコアを、前記被評価変異の第1スコアとする、付記1から8のいずれかに記載の評価装置。
(付記10)
前記スコア付与部は、前記データベースごとのスコアを用いた加重線形和により、前記統合スコアを算出する、付記9記載の評価装置。
(付記11)
前記スコア付与部は、前記データベースの精度に基づいて、前記データベースごとのスコアに重み付けする、付記9または10記載の評価装置。
(付記12)
前記スコア付与部は、前記形質への関連性が相対的に高い程、相対的に大きいスコアを付与し、前記形質への関連性が相対的に低い程、相対的に小さいスコアを付与する、付記1から11のいずれかに記載の評価装置。
(付記13)
前記スコア判定部は、
  前記評価スコアと、前記関連性の閾値とを照合し、前記評価スコアが前記関連性の閾値を満たす被評価変異を、前記データベース情報の形質に関連する変異と判定する、付記1から12のいずれかに記載の評価装置。
(付記14)
さらに、記憶部を有し、
前記記憶部は、前記被評価変異ごとに、前記評価スコアを紐付けて記憶する、付記1から13のいずれかに記載の評価装置。
(付記15)
さらに、出力部を有し、
前記出力部は、前記被評価変異ごとに、前記形質への関連性を示す評価スコアを紐付けて出力する、付記1から14のいずれかに記載の評価装置。
(付記16)
さらに、記憶部を有し、
前記記憶部は、前記データベース情報の形質ごとに、前記被評価変異の評価スコアを紐付けて記憶する、付記1から15のいずれかに記載の評価装置。
(付記17)
さらに、出力部を有し、
前記出力部は、前記データベース情報の形質ごとに、前記被評価変異の評価スコアを紐付けて出力する、付記1から16のいずれかに記載の評価装置。
(付記18)
前記出力部は、前記評価スコアを、可視化データとして出力する、付記15または17記載の評価装置。
(付記19)
被評価変異情報取得工程、スコア付与工程、スコア判定工程、領域変異情報取得工程、スコア再付与工程、および評価スコア決定工程を含み、
形質に対する遺伝子変異の情報が記憶されたデータベースと通信可能であり、
前記被評価変異情報取得工程は、
  共通の形質を示すサンプル群において共通する遺伝子変異の変異情報を、被評価変異の変異情報として取得し、
  前記変異情報は、変異の位置情報と変異の塩基情報とを含み、
前記スコア付与工程は、
  前記データベース情報に基づいて、前記被評価変異に対して、前記データベース情報の形質への関連性を示す第1スコアを付与し、
前記スコア判定工程は、
  前記被評価変異の第1スコアと、関連性の閾値とを照合し、前記第1スコアが前記関連性の閾値に満たない場合、前記被評価変異を再スコア化対象と判定し、
前記領域変異情報取得工程は、
  前記データベース情報に基づいて、前記再スコア化対象の被評価変異に対する関連領域における遺伝子変異を、領域変異情報として取得し、
前記スコア再付与工程は、
  前記再スコア化対象の被評価変異について、前記領域変異情報に基づいて、前記第1スコアに重み付けした第2スコアを付与し、
前記評価スコア決定工程は、
  前記第2スコアを、前記再スコア化対象の被評価変異の評価スコアとして決定する、
ことを特徴とする遺伝子変異の評価方法。
(付記20)
前記評価スコア決定工程は、
  前記被評価変異の第1スコアが前記閾値を満たす場合、前記第1スコアを、前記被評価変異の評価スコアとして決定し、
  前記被評価変異の第1スコアが前記閾値を満たさない場合、前記第2スコアを、前記再スコア化対象の被評価変異の評価スコアとして決定する、
付記19記載の評価方法。
(付記21)
前記被評価変異情報取得工程において、前記サンプル群の共通形質が、疾患であり、前記被評価変異が、前記疾患の患者群と正常者群との間で、有意差のある遺伝子変異である、付記19または20記載の評価方法。
(付記22)
前記被評価変異情報取得工程は、前記サンプル群において共通する複数の遺伝子変異の変異情報を取得する、付記19から21のいずれかに記載の評価方法。
(付記23)
前記データベース情報の形質が、疾患であり、前記形質に対する遺伝子変異が、前記疾患の患者群と正常者群との間で、有意差のある遺伝子変異である、付記19から22のいずれかに記載の評価方法。
(付記24)
前記データベース情報の形質が、特定疾患であり、前記形質に対する遺伝子変異が、前記特定疾患の患者群と正常者群との間で、有意差のある遺伝子変異である、付記19から23のいずれかに記載の評価方法。
(付記25)
前記領域変異情報取得工程において、前記関連領域が、前記被評価変異の位置を含む連続配列である、付記19から24のいずれかに記載の評価方法。
(付記26)
前記領域変異情報取得工程において、前記関連領域が、前記被評価変異の位置に対する連鎖の位置を含む、付記19から25のいずれかに記載の評価方法。
(付記27)
複数のデータベースと通信可能であり、
前記スコア付与工程は、前記複数のデータベースごとに、前記データベース情報に基づいて、前記被評価変異のスコアを算出し、前記データベースごとのスコアを統合し、統合スコアを、前記被評価変異の第1スコアとする、付記19から26のいずれかに記載の評価方法。
(付記28)
前記スコア付与工程は、前記データベースごとのスコアを用いた加重線形和により、前記統合スコアを算出する、付記27記載の評価方法。
(付記29)
前記スコア付与工程は、前記データベースの精度に基づいて、前記データベースごとのスコアに重み付けする、付記27または28記載の評価方法。
(付記30)
前記スコア付与工程は、前記形質への関連性が相対的に高い程、相対的に大きいスコアを付与し、前記形質への関連性が相対的に低い程、相対的に小さいスコアを付与する、付記19から29のいずれかに記載の評価方法。
(付記31)
前記スコア判定工程は、
  前記評価スコアと、前記関連性の閾値とを照合し、前記評価スコアが前記関連性の閾値を満たす被評価変異を、前記データベース情報の形質に関連する変異と判定する、付記19から30のいずれかに記載の評価方法。
(付記32)
さらに、記憶工程を有し、
前記記憶工程は、前記被評価変異ごとに、前記評価スコアを紐付けて記憶する、付記19から31のいずれかに記載の評価方法。
(付記33)
さらに、出力工程を有し、
前記出力工程は、前記被評価変異ごとに、前記形質への関連性を示す評価スコアを紐付けて出力する、付記19から32のいずれかに記載の評価方法。
(付記34)
さらに、記憶工程を有し、
前記記憶工程は、前記データベース情報の形質ごとに、前記被評価変異の評価スコアを紐付けて記憶する、付記19から33のいずれかに記載の評価方法。
(付記35)
さらに、出力工程を有し、
前記出力工程は、前記データベース情報の形質ごとに、前記被評価変異の評価スコアを紐付けて出力する、付記19から34のいずれかに記載の評価方法。
(付記36)
前記出力工程は、前記評価スコアを、可視化データとして出力する、付記33または35記載の評価方法。
(付記37)
付記19から36のいずれかに記載の評価方法をコンピュータに実行させることを特徴とするプログラム。
(付記38)
付記37記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
 本発明によれば、例えば、単一位置の遺伝子変異について、見かけ上、形質との関連性があると判定できない場合であっても、さらに、前記遺伝子変異の関連領域の情報を参照することによって、前記形質と関連性を示す可能性がある遺伝子変異を拾い上げることができる。このため、遺伝子変異と形質との関連性について、より効率の良い評価を行うことができる。
10  評価装置
11  被評価変異情報取得部
12  スコア付与部
13  スコア判定部
14  領域変異情報取得部
15  スコア再付与部
16  評価スコア決定部
17  記憶部
18  出力部
19  通信部
101 CPU
102 メモリ
103 バス
104 入力装置
105 ディスプレイ
107 記憶装置
108 プログラム
110 通信デバイス
20  通信回線網
30  データベース

Claims (38)

  1. 通信部、被評価変異情報取得部、スコア付与部、スコア判定部、領域変異情報取得部、スコア再付与部、および評価スコア決定部を含み、
    前記通信部は、
      形質に対する遺伝子変異の情報が記憶されたデータベースと通信可能であり、
    前記被評価変異情報取得部は、
      共通の形質を示すサンプル群において共通する遺伝子変異の変異情報を、被評価変異の変異情報として取得し、
      前記変異情報は、変異の位置情報と変異の塩基情報とを含み、
    前記スコア付与部は、
      前記データベース情報に基づいて、前記被評価変異に対して、前記データベース情報の形質への関連性を示す第1スコアを付与し、
    前記スコア判定部は、
      前記被評価変異の第1スコアと、関連性の閾値とを照合し、前記第1スコアが前記関連性の閾値に満たない場合、前記被評価変異を再スコア化対象と判定し、
    前記領域変異情報取得部は、
      前記データベース情報に基づいて、前記再スコア化対象の被評価変異に対する関連領域における遺伝子変異を、領域変異情報として取得し、
    前記スコア再付与部は、
      前記再スコア化対象の被評価変異について、前記領域変異情報に基づいて、前記第1スコアに重み付けした第2スコアを付与し、
    前記評価スコア決定部は、
      前記第2スコアを、前記再スコア化対象の被評価変異の評価スコアとして決定する、
    ことを特徴とする遺伝子変異の評価装置。
  2. 前記評価スコア決定部は、
      前記被評価変異の第1スコアが前記閾値を満たす場合、前記第1スコアを、前記被評価変異の評価スコアとして決定し、
      前記被評価変異の第1スコアが前記閾値を満たさない場合、前記第2スコアを、前記再スコア化対象の被評価変異の評価スコアとして決定する、請求項1記載の評価装置。
  3. 前記被評価変異情報取得部において、前記サンプル群の共通形質が、疾患であり、前記被評価変異が、前記疾患の患者群と正常者群との間で、有意差のある遺伝子変異である、請求項1または2記載の評価装置。
  4. 前記被評価変異情報取得部は、前記サンプル群において共通する複数の遺伝子変異の変異情報を取得する、請求項1から3のいずれか一項に記載の評価装置。
  5. 前記データベース情報の形質が、疾患であり、前記形質に対する遺伝子変異が、前記疾患の患者群と正常者群との間で、有意差のある遺伝子変異である、請求項1から4のいずれか一項に記載の評価装置。
  6. 前記データベース情報の形質が、特定疾患であり、前記形質に対する遺伝子変異が、前記特定疾患の患者群と正常者群との間で、有意差のある遺伝子変異である、請求項1から5のいずれか一項に記載の評価装置。
  7. 前記領域変異情報取得部において、前記関連領域が、前記被評価変異の位置を含む連続配列である、請求項1から6のいずれか一項に記載の評価装置。
  8. 前記領域変異情報取得部において、前記関連領域が、前記被評価変異の位置に対する連鎖の位置を含む、請求項1から6のいずれか一項に記載の評価装置。
  9. 前記通信部は、複数のデータベースと通信可能であり、
    前記スコア付与部は、前記複数のデータベースごとに、前記データベース情報に基づいて、前記被評価変異のスコアを算出し、前記データベースごとのスコアを統合し、統合スコアを、前記被評価変異の第1スコアとする、請求項1から8のいずれか一項に記載の評価装置。
  10. 前記スコア付与部は、前記データベースごとのスコアを用いた加重線形和により、前記統合スコアを算出する、請求項9記載の評価装置。
  11. 前記スコア付与部は、前記データベースの精度に基づいて、前記データベースごとのスコアに重み付けする、請求項9または10記載の評価装置。
  12. 前記スコア付与部は、前記形質への関連性が相対的に高い程、相対的に大きいスコアを付与し、前記形質への関連性が相対的に低い程、相対的に小さいスコアを付与する、請求項1から11のいずれか一項に記載の評価装置。
  13. 前記スコア判定部は、
      前記評価スコアと、前記関連性の閾値とを照合し、前記評価スコアが前記関連性の閾値を満たす被評価変異を、前記データベース情報の形質に関連する変異と判定する、請求項1から12のいずれか一項に記載の評価装置。
  14. さらに、記憶部を有し、
    前記記憶部は、前記被評価変異ごとに、前記評価スコアを紐付けて記憶する、請求項1から13のいずれか一項に記載の評価装置。
  15. さらに、出力部を有し、
    前記出力部は、前記被評価変異ごとに、前記形質への関連性を示す評価スコアを紐付けて出力する、請求項1から14のいずれか一項に記載の評価装置。
  16. さらに、記憶部を有し、
    前記記憶部は、前記データベース情報の形質ごとに、前記被評価変異の評価スコアを紐付けて記憶する、請求項1から15のいずれか一項に記載の評価装置。
  17. さらに、出力部を有し、
    前記出力部は、前記データベース情報の形質ごとに、前記被評価変異の評価スコアを紐付けて出力する、請求項1から16のいずれか一項に記載の評価装置。
  18. 前記出力部は、前記評価スコアを、可視化データとして出力する、請求項15または17記載の評価装置。
  19. 被評価変異情報取得工程、スコア付与工程、スコア判定工程、領域変異情報取得工程、スコア再付与工程、および評価スコア決定工程を含み、
    形質に対する遺伝子変異の情報が記憶されたデータベースと通信可能であり、
    前記被評価変異情報取得工程は、
      共通の形質を示すサンプル群において共通する遺伝子変異の変異情報を、被評価変異の変異情報として取得し、
      前記変異情報は、変異の位置情報と変異の塩基情報とを含み、
    前記スコア付与工程は、
      前記データベース情報に基づいて、前記被評価変異に対して、前記データベース情報の形質への関連性を示す第1スコアを付与し、
    前記スコア判定工程は、
      前記被評価変異の第1スコアと、関連性の閾値とを照合し、前記第1スコアが前記関連性の閾値に満たない場合、前記被評価変異を再スコア化対象と判定し、
    前記領域変異情報取得工程は、
      前記データベース情報に基づいて、前記再スコア化対象の被評価変異に対する関連領域における遺伝子変異を、領域変異情報として取得し、
    前記スコア再付与工程は、
      前記再スコア化対象の被評価変異について、前記領域変異情報に基づいて、前記第1スコアに重み付けした第2スコアを付与し、
    前記評価スコア決定工程は、
      前記第2スコアを、前記再スコア化対象の被評価変異の評価スコアとして決定する、
    ことを特徴とする遺伝子変異の評価方法。
  20. 前記評価スコア決定工程は、
      前記被評価変異の第1スコアが前記閾値を満たす場合、前記第1スコアを、前記被評価変異の評価スコアとして決定し、
      前記被評価変異の第1スコアが前記閾値を満たさない場合、前記第2スコアを、前記再スコア化対象の被評価変異の評価スコアとして決定する、
    請求項19記載の評価方法。
  21. 前記被評価変異情報取得工程において、前記サンプル群の共通形質が、疾患であり、前記被評価変異が、前記疾患の患者群と正常者群との間で、有意差のある遺伝子変異である、請求項19または20記載の評価方法。
  22. 前記被評価変異情報取得工程は、前記サンプル群において共通する複数の遺伝子変異の変異情報を取得する、請求項19から21のいずれか一項に記載の評価方法。
  23. 前記データベース情報の形質が、疾患であり、前記形質に対する遺伝子変異が、前記疾患の患者群と正常者群との間で、有意差のある遺伝子変異である、請求項19から22のいずれか一項に記載の評価方法。
  24. 前記データベース情報の形質が、特定疾患であり、前記形質に対する遺伝子変異が、前記特定疾患の患者群と正常者群との間で、有意差のある遺伝子変異である、請求項19から23のいずれか一項に記載の評価方法。
  25. 前記領域変異情報取得工程において、前記関連領域が、前記被評価変異の位置を含む連続配列である、請求項19から24のいずれか一項に記載の評価方法。
  26. 前記領域変異情報取得工程において、前記関連領域が、前記被評価変異の位置に対する連鎖の位置を含む、請求項19から25のいずれか一項に記載の評価方法。
  27. 複数のデータベースと通信可能であり、
    前記スコア付与工程は、前記複数のデータベースごとに、前記データベース情報に基づいて、前記被評価変異のスコアを算出し、前記データベースごとのスコアを統合し、統合スコアを、前記被評価変異の第1スコアとする、請求項19から26のいずれか一項に記載の評価方法。
  28. 前記スコア付与工程は、前記データベースごとのスコアを用いた加重線形和により、前記統合スコアを算出する、請求項27記載の評価方法。
  29. 前記スコア付与工程は、前記データベースの精度に基づいて、前記データベースごとのスコアに重み付けする、請求項27または28記載の評価方法。
  30. 前記スコア付与工程は、前記形質への関連性が相対的に高い程、相対的に大きいスコアを付与し、前記形質への関連性が相対的に低い程、相対的に小さいスコアを付与する、請求項19から29のいずれか一項に記載の評価方法。
  31. 前記スコア判定工程は、
      前記評価スコアと、前記関連性の閾値とを照合し、前記評価スコアが前記関連性の閾値を満たす被評価変異を、前記データベース情報の形質に関連する変異と判定する、請求項19から30のいずれか一項に記載の評価方法。
  32. さらに、記憶工程を有し、
    前記記憶工程は、前記被評価変異ごとに、前記評価スコアを紐付けて記憶する、請求項19から31のいずれか一項に記載の評価方法。
  33. さらに、出力工程を有し、
    前記出力工程は、前記被評価変異ごとに、前記形質への関連性を示す評価スコアを紐付けて出力する、請求項19から32のいずれか一項に記載の評価方法。
  34. さらに、記憶工程を有し、
    前記記憶工程は、前記データベース情報の形質ごとに、前記被評価変異の評価スコアを紐付けて記憶する、請求項19から33のいずれか一項に記載の評価方法。
  35. さらに、出力工程を有し、
    前記出力工程は、前記データベース情報の形質ごとに、前記被評価変異の評価スコアを紐付けて出力する、請求項19から34のいずれか一項に記載の評価方法。
  36. 前記出力工程は、前記評価スコアを、可視化データとして出力する、請求項33または35記載の評価方法。
  37. 請求項19から36のいずれか一項に記載の評価方法をコンピュータに実行させることを特徴とするプログラム。
  38. 請求項37記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
PCT/JP2018/036376 2018-03-19 2018-09-28 遺伝子変異の評価装置、評価方法、プログラム、および記録媒体 WO2019181022A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020507315A JP6941309B2 (ja) 2018-03-19 2018-09-28 遺伝子変異の評価装置、評価方法、プログラム、および記録媒体
US16/976,808 US20210005281A1 (en) 2018-03-19 2018-09-28 Gene mutation assessment device, assessment method, program, and storage medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018051268 2018-03-19
JP2018-051268 2018-03-19

Publications (1)

Publication Number Publication Date
WO2019181022A1 true WO2019181022A1 (ja) 2019-09-26

Family

ID=67988362

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/036376 WO2019181022A1 (ja) 2018-03-19 2018-09-28 遺伝子変異の評価装置、評価方法、プログラム、および記録媒体

Country Status (3)

Country Link
US (1) US20210005281A1 (ja)
JP (1) JP6941309B2 (ja)
WO (1) WO2019181022A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022230075A1 (ja) * 2021-04-28 2022-11-03 日本電気株式会社 薬剤推奨装置、制御方法、及びコンピュータ可読媒体
WO2022264189A1 (ja) * 2021-06-14 2022-12-22 日本電気株式会社 遺伝的特徴推定装置、制御方法、及び非一時的なコンピュータ可読媒体

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113643754B (zh) * 2021-08-11 2023-12-29 苏州赛美科基因科技有限公司 一种错义变异基因的评分处理方法、优化评分方法及装置
CN114596968B (zh) * 2022-05-10 2022-07-29 至本医疗科技(上海)有限公司 多重pcr引物设计方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130184161A1 (en) * 2009-10-22 2013-07-18 Stephen F. Kingsmore Methods and Systems for Medical Sequencing Analysis
US20140296733A1 (en) * 2011-11-02 2014-10-02 Bio-Signal Group Corp. Inter-rater and intra-rater reliability of physiological scan interpretation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130184161A1 (en) * 2009-10-22 2013-07-18 Stephen F. Kingsmore Methods and Systems for Medical Sequencing Analysis
US20140296733A1 (en) * 2011-11-02 2014-10-02 Bio-Signal Group Corp. Inter-rater and intra-rater reliability of physiological scan interpretation

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022230075A1 (ja) * 2021-04-28 2022-11-03 日本電気株式会社 薬剤推奨装置、制御方法、及びコンピュータ可読媒体
WO2022264189A1 (ja) * 2021-06-14 2022-12-22 日本電気株式会社 遺伝的特徴推定装置、制御方法、及び非一時的なコンピュータ可読媒体

Also Published As

Publication number Publication date
JPWO2019181022A1 (ja) 2021-03-11
JP6941309B2 (ja) 2021-09-29
US20210005281A1 (en) 2021-01-07

Similar Documents

Publication Publication Date Title
WO2019181022A1 (ja) 遺伝子変異の評価装置、評価方法、プログラム、および記録媒体
López et al. Single Nucleotide Polymorphism relevance learning with Random Forests for Type 2 diabetes risk prediction
US10354747B1 (en) Deep learning analysis pipeline for next generation sequencing
US7096206B2 (en) Heuristic method of classification
CN112635063B (zh) 一种肺癌预后综合预测模型、构建方法及装置
Yin et al. Using the structure of genome data in the design of deep neural networks for predicting amyotrophic lateral sclerosis from genotype
US20060259246A1 (en) Methods for efficiently mining broad data sets for biological markers
US20230222311A1 (en) Generating machine learning models using genetic data
KR102351306B1 (ko) 질환 연관 유전자 변이 분석을 통한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법
CN113555062B (zh) 一种用于基因组碱基变异检测的数据分析系统及分析方法
Moteghaed et al. Biomarker discovery based on hybrid optimization algorithm and artificial neural networks on microarray data for cancer classification
EP3036712A1 (en) Methods for predicting prognosis
CN113823356B (zh) 一种甲基化位点识别方法及装置
CN116312764A (zh) 变异危害性分级装置、方法及其应用
KR102389479B1 (ko) 시간 변동 공변량 기반의 prs 모델을 이용한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법
CN110476215A (zh) 用于多序列文件的签名-散列
CN117425937A (zh) 用于确定双基因或寡基因变异的组合的致病性的预测方法
WO2020209191A1 (ja) 学習装置、学習方法、及び非一時的なコンピュータ可読媒体
JP5852902B2 (ja) 遺伝子間相互作用解析システム、その方法及びプログラム
Chen et al. Gene expression analyses using genetic algorithm based hybrid approaches
CN111383717A (zh) 一种构建生物信息分析参照数据集的方法及系统
Hassan et al. Integrated rules classifier for predicting pathogenic non-synonymous single nucleotide variants in human
Gunturkun et al. SVJAM: Joint Analysis of Structural Variants Using Linked Read Sequencing Data
Schäfer Systems biology of tumour evolution: estimating orders from omics data
US11954859B2 (en) Methods of assessing diseases using image classifiers

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2020507315

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18910961

Country of ref document: EP

Kind code of ref document: A1