WO2017116123A1 - 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템 - Google Patents

개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템 Download PDF

Info

Publication number
WO2017116123A1
WO2017116123A1 PCT/KR2016/015355 KR2016015355W WO2017116123A1 WO 2017116123 A1 WO2017116123 A1 WO 2017116123A1 KR 2016015355 W KR2016015355 W KR 2016015355W WO 2017116123 A1 WO2017116123 A1 WO 2017116123A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
genome
gene
disease
genotype
Prior art date
Application number
PCT/KR2016/015355
Other languages
English (en)
French (fr)
Inventor
정종선
Original Assignee
(주)신테카바이오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)신테카바이오 filed Critical (주)신테카바이오
Publication of WO2017116123A1 publication Critical patent/WO2017116123A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium

Definitions

  • the present invention relates to a system for analyzing and providing genetic information from a personal genome by comparing inputted individual genome information with a plurality of full-length dielectric databases constructed by a genome project.
  • genotyping method for efficient genome information management, mutation detection for disease cause, and patient stratification Patent registration: 10-2015-0187554, 10-2015-0187556, and 10-2015- 0187559
  • a method for calculating human haplo typing from genome information Patent application: 10-2016-0096996
  • middleware specialized in storage operation for big data such as integrated dielectric DB is able to analyze thousands of dielectric bulk data at the same time in parallel distributed environment developed by Korea Electronics and Telecommunications Research Institute (ETRI).
  • ETRI Korea Electronics and Telecommunications Research Institute
  • Applicant received Mach system from Korea Electronics and Telecommunications Research Institute, developed an optimized environment using bio big data for application in clinical environment, and developed Korea's first supercomputing system linked with integrated genome analysis system for precision medicine. .
  • Mach-Fs storage systems for high-speed I / O for buck data such as dielectrics
  • Mach-FsDx has been developed for use in diagnostics.
  • Applicant's preceding tools one (001) to (019) summarizes the technical elements for personal genomic map-based custom medical analysis platform.
  • Patent Document 1 (001) Republic of Korea Registered Patent No. 10-0880531
  • Patent Document 2 (002) Republic of Korea Registered Patent No. 10-0996443
  • Patent Document 3 (003) Republic of Korea Registered Patent No. 10-1035959
  • Patent Document 4 (004) Korean Patent Registration No. 10-1117603
  • Patent Document 5 (005) Republic of Korea Registered Patent No. 10-1400717
  • Patent Document 6 (006) Korean Patent Registration No. 10-1460520
  • Patent Document 7 (007) Republic of Korea Registered Patent No. 10-1542529
  • Patent Document 8 (008) Korean Patent Application No. 10-2015-0187554
  • Patent Document 9 (009) Republic of Korea Patent Application No. 10-2015-0187556
  • Patent Document 10 (010) Korean Patent Application No. 10-2015-0187559
  • Patent Document 11 (011) Republic of Korea Patent Application No. 10-2016-0096996
  • Patent Document 12 (012) Korean Patent Registration No. 10-0834574
  • Patent Document 13 (013) Korea Patent Registration No. 10-1010219
  • Patent Document 14 Korean Registered Patent No. 10-0956637
  • Patent Document 15 (015) Republic of Korea Registered Patent No. 10-0936238
  • Patent Document 16 (016) Republic of Korea Patent Application No. 10-2013-0005685
  • Patent Document 17 (017) Republic of Korea Patent Application No. 10-2012-0146892
  • Patent Document 18 Korean Patent Application No. 10-2013-0004519
  • Patent Document 19 (019) Republic of Korea Patent Application No. 10-2016-0172053
  • the present invention has been made to improve the requirements for realizing personalized genomes of the personal genome based on the commercialized "personal genome map-based custom medical analysis platform" as described above, the individual genome analysis (various genotypes of haplo).
  • the purpose of the present invention is to provide a genetic analysis platform using a database schema that can improve the detection speed and efficiency of a standardized ID set based on hierarchical ID, individual profile) and hospital clinical information (specific or multiple phenotypes).
  • the present invention also provides a genetic analysis platform including a standardized ID set generation system and a reporting module that provide genotype (or personal profile) information of a detected genome in a form for easy user recognition.
  • the disease and drug (or food) reaction cause calculation system calculates multiple rare analysis coefficients using the genetic and clinical information of the group, and the relational index (pi) which is the result of the rare function using the individual genetic and clinical information as variables. , ⁇ ) value.
  • the relationship index (pi, ⁇ ) receives a set of standardized IDs based on an individual's genome analysis (genotype marker ID) and hospital clinical information (specific phenotype, or several phenotypes) and calculates the values as inputs. And if the relational index (pi, ⁇ ) is in the range 0.7-1, then the individual's specific genetic marker ID is the direct (or indirect) cause of the given phenotype.
  • the disease and drug (food) reaction cause calculation system is largely the individual genome analysis platform, integrated genome DB, individual genome-based disease (drug) reaction source output unit and disease (drug) reaction It consists of a cause calculation algorithm.
  • the personal genome analysis platform is configured to include 1 to 5 of FIG. 1.
  • the standardized ID set system uses a generic term called trait calculation. Different researchers may have different opinions, but the trait definitions in this patent are set in a standardized ID set and in a similar manner.
  • the standard ring ID set includes a Haflo layered LD block haflo layer, an Exon haflo layer, a gene marker haplo layer, a multigene marker haflo layer, a GWAS marker haplo layer, and a bioactive single mutation in the present patent.
  • diagnostic phenotype information such as electronic medical records (EMRs), electronic health records (EHRs) and personal health records (PHRs) held by hospitals or examination centers are included here. Include.
  • EMRs electronic medical records
  • EHRs electronic health records
  • PHRs personal health records
  • drug clinical phenotypes such as drug responders / non-responders in drug and health food (or food) clinical trials (IIT), sponsor initiative clinical trials (SIT), and post-market surveys (PMS). Information belongs here.
  • the integrated dielectric DB is a configuration including 6 of FIG. 1, and refers to a database for calculating coefficient values using standard phenotype disease information of the integrated dielectric DB and a hospital medical system.
  • other multi-coefficient values per phenotype are calculated, and if necessary, multi-coefficient values for the multiple phenotype may be calculated.
  • the personal genome-based disease (drug) reaction source calculation unit is configured to include the 8 of Figure 1, serves to calculate the personal genome and hospital phenotype information.
  • the relationship index (pi, pi) is calculated by the calculation algorithm which is the disease (drug) reaction source.
  • the relational index (pi, ⁇ ) is the result of multiple logistic regression, and the relational index (pi) is given as a probability score of 0 to 1, and the probability of having a given phenotype is close to 0.7-1.
  • High, 0-0.3, is the inverse of the given phenotype.
  • 0.4-0.6 means that the phenotype is in the middle stage.
  • the target of haplotyping-based haplo stratification is a linkage disequilibrium (LD) block haplo layer, exon haplo layer, gene marker haplo layer, multigene marker haplo layer, genome wide association study
  • the commonality in the Marker Haplo layer is that it performs half-types on specific units of human genes, among which only important markers (eg, GWAS markers) can be used, or the entire sequence (exon, gene, or LD flocks). Is available.
  • the generated haplo layering ID may be referred to as a generic trait.
  • the Haplotyping-based HaploLayer can also be used as a set of human standardized IDs.
  • the present invention and the analysis data input unit for receiving the analysis data including the personal genome information A search control unit configured to generate a result report through the analysis result by calculating an analysis result including a rare mutation or a disease variation by comparing the genetic information stored in the database with the analysis target genome information; And it includes a discovery system for the cause of the disease using the genetic variation information of the individual genome comprising a storage unit for storing the genetic information of the control to contrast with the analysis data.
  • the storage unit may include an allele depth DB configured to store the full-length genome information of a control group according to a classification criterion including races.
  • the search controller may include all bases included in the analysis data. In contrast to the depth DB, it may be configured to include an ADISCAN engine that calculates the rarity of the control group.
  • the storage unit includes an IDA DB for storing gene mutation information known in relation to each disease for each of a plurality of diseases;
  • the search control unit may be configured to include an IDA search engine for detecting a known gene-related disease variation included in the analysis data compared to the analysis data IDA DB.
  • the storage unit may further include a clinical information DB that stores the environmental predisposition information of the test subject to be considered along with the genetic characteristics in order to derive a clinical information-based disease cause prediction result.
  • a clinical information DB that stores the environmental predisposition information of the test subject to be considered along with the genetic characteristics in order to derive a clinical information-based disease cause prediction result.
  • the search controller may derive a disease cause prediction result by calculating a disease cause relationship ⁇ x through an arithmetic expression calculated by logistic regression.
  • is the relationship index and the coefficient ⁇ is calculated coefficients based on genotype (standardized IT set) in the health records information EMR, EHR and PHR of the group subject stored in the group genome or group clinical information DB;
  • the variable ⁇ may be a parameter according to the genotype (standardized IT set) included in the analysis data calculated by the search controller.
  • the storage unit includes a HaploScan DB that stores genotype information of a control gene in order to contrast with the analysis data;
  • the search controller may include a HaploScan engine that determines the genotype of the analysis data by comparing the analysis data with the HaploScan DB.
  • the HaploScan DB includes a single gene information database that stores genotype information for a single gene; It may be configured to include a multi-gene information database for storing genotype information of multiple genes by phenotype.
  • the single gene information database includes: a single gene Haplo map for storing (dividing) the haploid and trait frequency by race according to the occupancy ratio for a single gene of a control group;
  • the single gene Haplo map may be configured to include the single gene Haplo preconciliation information for storing the mutation information for the mutation that distinguishes the genotype of the single gene stored in the map.
  • the multi-gene information database for storing the variable distribution of genotype-related bases (groups) by race for the multiple genes of the phenotype control group according to the occupancy ratio;
  • the multi-gene Haplo map may be configured to include multi-gene Haplo preconciliation information for storing variation information on the mutations that distinguish the genotypes for the phenotypes.
  • the search controller may generate a result report in which the detected mutated gene characteristics are classified according to the genotype for the full-length gene and displayed on a Manhattan plot in which accumulated values are visualized as points. .
  • a cut-off may be displayed to guide the significance of the mutation gene.
  • the genotyping information and the significance variation detection efficiency of the individual genome are effectively compared with the genetic variation information stored in the control database and the individual genome to be analyzed. This has the effect of providing an improved genetic analysis platform.
  • FIG. 1 is a conceptual diagram showing the conceptual configuration of a disease and drug response cause calculation system according to the present invention.
  • Figure 2 is an exemplary diagram showing a configuration of a gene analysis service to which the present invention is applied.
  • Figure 3 is a block diagram showing the main configuration of the excavation system for the cause of the disease according to a specific embodiment of the present invention.
  • Figure 4 is an exemplary view showing the configuration of the main database constituting the excavation system for the cause of the disease according to the present invention.
  • FIG. 5 is an exemplary view showing a configuration example of a Haplotype DB constituting a specific embodiment of the present invention.
  • FIG. 6 is an exemplary view showing a configuration example of an Allele depth DB constituting a specific embodiment of the present invention.
  • FIG. 7 is an exemplary diagram illustrating a CPL generation example based on Haplotype ID according to a specific embodiment of the present invention.
  • FIG. 8 is an exemplary view showing a configuration example of a BAV / Biomarker DB according to a specific embodiment of the present invention.
  • FIG. 9 is a flowchart illustrating a method for analyzing genetic information according to a specific embodiment of the present invention.
  • FIG. 10 is an exemplary view showing a Haplotype DB generation example according to a specific embodiment of the present invention.
  • FIG. 11 is an exemplary diagram showing a functional configuration of an IDA system according to the present invention.
  • FIG. 12 is an exemplary view showing an example of a result report generated by a specific embodiment of the present invention.
  • FIG. 13 is an exemplary diagram showing another example of a result report generated by a specific embodiment of the present invention.
  • FIG. 14 is an exemplary view showing an example of verifying bioactive variation according to a specific embodiment of the present invention.
  • 15 is a conceptual diagram illustrating a configuration of a clinical information-based disease and drug (food) reaction cause calculation system according to a specific embodiment of the present invention.
  • the present invention includes an analysis data input unit for receiving analysis data including personal genome information;
  • a search controller configured to generate an analysis result of the rare and disease mutations of each gene by comparing the gene information stored in the database with the genome information of the analysis target and generating a result report through the analysis result;
  • it comprises a storage unit for storing the genetic information of the control to contrast with the analysis data.
  • the storage unit includes an allele depth DB that stores and stores the full-length genome information of the control group according to the classification criteria including races: the search control unit stores each base included in the analysis data in the allele depth.
  • the DB it is preferable to include an ADISCAN engine that calculates the rarity of the group control.
  • the storage unit includes an IDA DB for storing gene mutation information known in relation to each disease for each of a plurality of diseases;
  • the search control unit may be configured to include an IDA search engine for detecting a known gene-related disease variation contained in the analysis data compared to the IDA DB of the analysis data.
  • the storage unit may further include a clinical information DB that stores environmental predisposition information of a subject to be considered along with genetic characteristics in order to derive a clinical information based disease cause prediction result.
  • a clinical information DB that stores environmental predisposition information of a subject to be considered along with genetic characteristics in order to derive a clinical information based disease cause prediction result.
  • Genotype or personal profile (standardized ID set), may be utilized by a variety of ID generation systems, given in, to the genome and their hospital medical records, electronic medical records (EMR), electrical health records (EMR), and personal (PHR).
  • EMR electronic medical records
  • EMR electrical health records
  • PHR personal
  • a health record is used to compute the coefficient variables ⁇ of using the given ID system.
  • the personal information generates a personal profile (standardized ID set) using the standard of the individual genome and the individual's hospital-based phenotype information, and the IDs provide the variable ⁇ to the multiple logistic regression arithmetic equation.
  • the gene analysis service collects a sample of blood or the like from an individual gene collection institution such as a hospital, and requests the sample to a DNA sequencing company for diagnosis.
  • the DNA sequencing company manufactures a DNA custom chip from the collected samples or performs DNA sequencing (NGS, next generration sequencing).
  • NGS DNA sequencing
  • next generration sequencing DNA sequencing
  • DNA sequencing generated as described above is analyzed genetic information contained in the individual genome through the genetic information analysis system as in the present invention.
  • the genetic information analysis system analyzes the genetic information based on the personal genetic map platform.
  • the analyzed information is transmitted to a diagnostic institution such as a hospital or a consumer.
  • the disease cause excavation system according to the present invention is formed from the high-density indexing file to analyze the genome sequence of the big data.
  • the present invention relates to a disease cause discovery system for analyzing the genetic information contained in the individual genome from the DNA sequencing information, and will be described in detail with respect to the disease cause discovery system according to the present invention.
  • Figure 3 is a block diagram showing the main configuration of the cause of the excavation system according to a specific embodiment of the present invention
  • Figure 4 is an exemplary view showing the configuration of the main database constituting the cause of excavation system according to the present invention
  • 5 is an exemplary view showing a configuration example of Haplotype DB constituting a specific embodiment of the present invention
  • Figure 6 is an exemplary view showing a configuration example of an Allele depth DB constituting a specific embodiment of the present invention
  • Figure 7 is an exemplary diagram illustrating a CPL generation example based on Haplotype ID according to a specific embodiment of the present invention
  • FIG. 8 is an exemplary diagram illustrating a configuration example of a BAV / Biomarker DB according to a specific embodiment of the present invention.
  • the disease cause excavation system includes an analysis data input unit 100, a search control unit 200, a result report providing unit 300, a Haplotype DB 400, and an Allele depth DB 500. , IDA DB 600, BAV / Biomarker DB 700, Information DB 800, Harplo ID generator 810, and Marker ID generator 820.
  • the analysis data input unit 100 is a part for receiving personal genomic information and receives DNA sequencing data.
  • the search control unit 200 detects genotypes, genotypes, rare mutations, disease mutations, and physiologically active variants of each gene from the input DNA sequencing.
  • the search control unit 200 includes a HaploScan engine ( 210, an ADISCAN engine 220, an IDA search engine 230, and a bioactive mutation search engine 240 are configured.
  • the HaploScan engine 210 compares the analysis data (input DNA sequency) with the Haplo MAPs 414 and 424 stored in the Haplotype DB 400 to be described later.
  • the structure of the Haplotype DB 400 and the search method of the HaploScan engine 210 will be described in detail later.
  • the ADISCAN engine 220 serves to calculate the rarity of the population control group in contrast to the Allele depth DB 500 and the ADISCAN method for each base included in the input analysis data.
  • the IDA search engine 230 detects a known disease-related disease variation, and detects a disease variation by comparing the analysis data with the IDA DB 600 stored the known disease variation.
  • bioactive mutation search engine 240 detects genetic variation related to protein metabolism, and largely determines whether the genetic variation is related to amino acids involved in protein-drug, protein-DNA, and protein-protein binding.
  • the bioactive mutation search engine 240 compares the analysis data with the BAV / Biomarker DB (700) whether or not the variation of the base corresponding to the amino acid associated with protein binding stored in the BAV / Biomarker DB (700) of the analysis data Will be determined.
  • the result report generation unit 300 can easily determine the genotype and significance (rareness) of each base determined by the HaploScan engine 210 and ADISCAN engine 220 to the diagnostic person (or user) visually.
  • the results report is generated using a Manhattan plot and a radial variation significance chart.
  • the search control unit 200 is based on the Haplotype DB 400, through the Haploid ID generation unit 810 LD block Haflow layer ID, Exon Haflo layer ID, Gene marker Haflo layer ID, multiple Generating Haplo layer IDs such as Gene Marker Haplo Layer ID, GWAS Marker Haplo Layer ID, and the like, via the Marker ID Generator 820, Bav Marker ID, GWAS Marker ID, Clinvar Marker ID, eQTL Marker ID, Protein Create marker IDs such as marker ID, STR marker ID, and Fusion marker ID.
  • the collection of the resulting IDs (which can be expressed in barcode form) is called a 'standardized ID set (personal profile)'.
  • the generated result report is provided to the user through the result report provider 300.
  • the disease cause excavation system according to the present invention is largely composed of Haplotype DB (400), Allele depth DB (500), IDA DB (600), BAV / Biomarker DB (700) and Information DB (800).
  • the integrated genome DB according to the present invention shown in FIG. 4 includes a Haplotype DB, an allele depth DB, and an IDA DB.
  • the Haplotype DB is a DB generated in the IUPAC format of the entire base, and genotype & phenotype.
  • the DB is composed of disease correlation information, various correlations and QC including genotyping and phenotypic information, and the allele depth DB is a DB for calculating rareness and validation of mutations.
  • the Haplotype DB 400 is a database in which genotypes of control genes are arranged to calculate genotypes from personal genomic information to be analyzed.
  • the Haplotype DB 400 is a single gene information database 410 as shown in FIG. 3. And a multi-gene information database 420.
  • the single gene information database 410 is a database storing genotypes for a single gene, and includes a single gene Haplo map 414 and a single gene Haplo preconciliation information 412.
  • the single gene Haplo map 414 is stored by dividing (distributed) the variance distribution by the occupancy ratio for the same gene of the entire control, 26 world using each gene
  • the haplotype calculation of races, the frequency of specific traits, and the frequency of each sub-racial, are summarized.
  • the single gene haplo preconciliation information 412 stores information about each variation.
  • the single gene haplo preconciliation information 412 may be data that directly stores the variation information, or may be configured as an identification factor indicating the location of information stored in the information DB 800 to be described later. That is, the single gene Haplo preconciliation information 412 provides frequency and various disease-related annotation information in 39,000 genes of humans and in each gene in 5,000 global races.
  • the multi-gene information database 420 is a database for providing the distribution and information of mutations for the multi gene, and comprises a multi-gene Haplo map 424 and multi-gene Haplo preconciliation information 422. .
  • the multigene Haplo map 424 is a genetic pattern in which the phenotype is specified by the multigene, and stores the distribution of variation for the relevant bases of the entire control group by the occupancy ratio for each phenotype, and phenotype
  • the haplotype calculations of the 26 races in the world using the causative mutations, the frequency of specific traits, and the frequency of each sub-racial are summarized.
  • the multi-gene haplophoresis information 422 stores information about each variation.
  • the multi-gene haplo preconciliation information 422 may also be data that directly stores mutation information, or may be configured as an identification factor indicating a location of information stored in the information DB 800 to be described later.
  • the multigene haplo preconciliation information 422 provides various disease-related annotation information and the frequency of phenotype-associated gene sets in 39,000 human genes and 5,000 global races.
  • the X-axis of the Haplotype DB 400 is 3 billion nucleotide sequences, and there are 39,000 genes in the nucleotide sequences. If N (varies) mutations were found in a specific gene (i) in its schema, the mutations could be clustered using both haplotype and genotype in Y axis: 5,000, and the clustered form would be HaploMap.
  • each cluster means each genotype.
  • the genotype occupies 47% of the global population, and is 0 bit different from the average of the global population.
  • Genotype GP * 25 * 1 means 25% of the world's population, which means that it is 1 bit different from the world's average.
  • Multigene-based HaploMaps are also classified and classified in the same manner.
  • the allele depth DB 500 is a DB storing genome information of a control group, and specifically, the genome may use genome information known by performing a global genome project.
  • the allele depth DB 500 may store full-length genome information of a control group, and may be divided and stored according to a classification standard for forming a genotype group such as race. .
  • the racial division may be a division of five major classifications or a 26 subclass, which is to determine / detect whether or not the mutant gene is reflected by the genetic characteristics of each race.
  • FIG. 7 illustrates an example of generating CPL based on Haplotype ID.
  • Haplotype ID in Haplotype DB is composed of various diseases, genotyping markers, etc., genotype genotype (LD block, exon unit, gene marker, etc.), Haplo layer ID and multiple gene units (multiple) gene marker, GWAS marker).
  • FIG. 7 illustrates that the Haplo layer ID may be defined as a set of chromosome and positional information lists (CPLs).
  • CPLs chromosome and positional information lists
  • the IDA DB 600 is a place where known diseases and genetic variations related thereto are stored. Genetic variation information related to each disease for various diseases and literature information supporting these variations are organized and stored.
  • the BAV / Biomarker DB 700 stores gene information for determining the amino acid form of binding positions of various proteins.
  • amino acids that affect these bindings are stored.
  • the BAV / Biomarker DB 700 stores the predicted protein binding position, promoter position, and binding protein activity of the protein, including known disease mutations.
  • the BAV / Biomarker DB 700 is a database storing bioactivity-related gene information, and stores information on resistance and sensitivity to genes, drugs, metabolites, and foods.
  • the BAV / Biomarker DB 700 may also be established by linking well-known data secured by the public trust, for example, about 6,000 drug information (interacting protein and binding region information, etc.) known to the drug bank. ), More than 12,000 metabolite information (such as interaction protein and binding region information) known to the Metabolite Bank, and information on the location of drug metabolism-related mutations in over 200 genes in the drug metabolizing enzyme and transporter gene (DMET). It can be utilized.
  • the Information DB (800) is a DB that stores information about the variation of the known genome, can be built in connection with the information database as well as published information database.
  • PheWAS-GWAS Gene wide association study
  • eMERGE Electronic Medical Records and Genomics
  • the search control unit 200 further stores a clinical information DB in which the environmental predisposition information of the test subjects to be considered together with the genetic characteristics in order to derive the prediction result of the disease cause based on the clinical information is stored. It may be configured to include.
  • the clinical information DB stores the individual environmental factor result data, group average, and reference information.
  • the individual environmental factor result data may be clinical information data such as an individual's comprehensive examination data
  • the group average and reference information may utilize a community cohort study result provided by the Center for Disease Control.
  • FIG. 9 is a flowchart illustrating a method of analyzing genetic information according to a specific embodiment of the present invention
  • FIG. 10 is an exemplary view showing an example of generating Haplotype DB according to a specific embodiment of the present invention
  • FIG. 13 is an exemplary view showing an example of a result report generated by an embodiment
  • FIG. 13 is an exemplary view showing another example of a result report generated by a specific embodiment of the present invention
  • FIG. 14 is a specific embodiment of the present invention.
  • An exemplary diagram showing an example of verification of physiological activity variation by an example and Figure 15 is a conceptual diagram showing the configuration of a clinical information-based disease and drug (food) reaction cause calculation system according to a specific embodiment of the present invention.
  • the analysis data input unit starts from receiving the analysis data (DNA Sequencing) to be analyzed (S100).
  • the analysis data may be provided in the form of Dumy consisting of DNA fragments, in which case the present invention generates and stores DNA sequencing in the form of an RVR file through highly integrated indexing on the provided Dumy data, as shown in FIG. 10. do.
  • FIG. 10 illustrates an example of generating a Haplotype DB, which shows an example of extracting group genetic information and parameters from the region positions in the Haplotype DB.
  • a genotype is created from the binary alignment map (BAM) file in the genome information through ADISCAN to create a file in IUPAC format.
  • BAM binary alignment map
  • IUPAC information about the region positions in Haplotype DB using a chromosome position list (CPL), which constitutes a given Haplolayer ID, Extract genetic information and parameters.
  • CPL chromosome position list
  • the genetic information analysis method using the personal genome according to the present invention performs four types of analysis according to the analysis target.
  • the genetic information analysis using the personal genome according to the present invention includes 1) genotyping (S200), 2) base unit marker detection from IDA DB (S300), and 3) base unit marker detection from Allete Depth DB (S400). And 4) performing four analyzes of physiological activity variation calculation (S500), which will be described in detail below.
  • the disease cause excavation system using genetic variation information of the individual genome determines the genotype of a single gene and multiple gene units.
  • the genotyping of the single gene unit calculates the ID of the genotype (LD block, exon unit, gene marker, etc.) of the Haplo layer in the Haplotype DB.
  • the ID of the multi-gene unit (multi gene marker, GWAS marker) Haplo layer is calculated in the Haplotype DB.
  • the HaploScan engine 210 compares the DNA sequency to a single gene and phenotype in comparison with Haplo Frequency 412 and Haplo MAP 414 stored in the Haplotype DB 400. The genotype to which the genotype belongs and information about it is detected.
  • the HaploScan engine 210 compares the i-th gene of the single gene Haplo Frequency 412 with respect to the i-th gene of the single gene Haplo Frequency 412 with respect to the i-th gene of the DNA sequencying (S211). It is determined in which cluster among the single gene classifications classified in the MAP 414 (S213, S215).
  • the HaploScan engine 210 compares the DNA sequencying with the multi-gene Haplo Frequency 422 (S221), multiple genes of the genome to be analyzed for each phenotype It is determined whether the combination of the two groups is included in the classification of the multiple gene combinations classified in the multigene Haplo MAP 424 (S223, S225).
  • the HaploScan engine 210 iterates over all phenotypes stored in the multigene information database 420 to determine genotypes of the analysis data (S227 and S229).
  • Base unit marker detection of IDA DB calculates disease and drug response using genotype and phenotype information and detects significance result information.
  • Base unit marker detection of IDA DB is performed by IDA search engine 230 by IDA DB.
  • the risk of the disease is determined by comparing with the variation information of 600 (S310).
  • the IDA system including the IDA DB and the IDA search engine supports external tool support, SubClone, RelationDB, and medical statistics functions.
  • the external tool support function refers to a support function for generating an input file by an external tool such as plink, phase, haploview, linkage, etc.
  • the subclone function generates a small IDA DB of a region of interest in the entire big data.
  • the relation DB function refers to the function of forming relations of data with each other's functional information such as phenotype, genotype, and pedigree, and the medical statistics function is single vs single, single vs many, many vs single and many vs Ability to provide multiple linear or multiple logistic regression results for multiple genotypes, markers or phenotypic variables.
  • Base unit marker detection of Allete Depth DB is a base mutation caused by a very unusual genetic variation, which is generally related to rare diseases, and detects the presence or difference of a specific base and may result in rare diseases. Can be judged.
  • the present invention first, as shown in Figure 9, the ADISCAN engine 220 selects the control (S410).
  • control group is a control group that will determine the rareness of the variation, and may limit a specific race or a specific country.
  • ADISCAN allelic depth and imbalance scanning
  • allele depth multitangent difference a technique for screening markers that give a difference between normal and abnormal genes
  • allele squared difference a technique for screening markers that give a difference between normal and abnormal genes
  • allele absolute difference value a technique for screening markers that give a difference between normal and abnormal genes
  • the physiologically active mutation detection is to calculate the significance of the various markers compared to the BAV / Biomarker DB and the common markers, the bioactive variance search engine 240 searches for BAV / Biomarker DB (physiologically active variance DB) (S510) In step S520, information on amino acids involved in protein binding is detected.
  • BAV / Biomarker DB physiologically active variance DB
  • the protein binding includes protein-drug, protein-DNA and protein-protein binding
  • the amino acid information includes base information related to the amino acid.
  • the physiologically active mutation search engine 240 detects amino acids and metabolite information related thereto in which mutations are generated in the analysis data in comparison to the base and the analysis data included in the amino acid information (S530 and S540).
  • the physiologically active mutation search engine 240 repeatedly performs mutation detection for all amino acids and integrates the detected information to calculate physiologically active mutation information (S550 and S560).
  • the search controller 200 integrates the determined or calculated genotype, rare mutation, disease variation, and physiological activity variation, and generates a result report to be provided to the user (S600).
  • the search control unit 200 may calculate and provide clinical information-based disease causes based on the clinical information of the examinee.
  • PHR personal health records
  • environmental factors require the average and baseline information of the population (in the present invention, the baseline information utilizes the results of the second community cohort study provided by the Center for Disease Control and Prevention).
  • the PHR-trait is associated with the result and genotype of these environmental factors.
  • the disease cause relationship ( ⁇ x) detection equation is based on a logistic regression analysis method.
  • the disease cause relationship is Gene, Disease or Drug genotype (group or cluster of genotypes) vs.
  • the correlation of EMR, EHR, or PHR can be calculated.
  • the cause of the gene-based disease is calculated by calculating the association between the current clinical condition (normal, disease, or phenotype) and the gene, disease, and drug genotypes calculated from the 39,000 gene.
  • the disease cause excavation system generates the reporting data from the calculated genetic variation information.
  • the resulting report although somewhat different depending on the output, basically uses a Manhattan plot and a radial variation chart to visualize the mutation gene.
  • FIG. 12 is an exemplary view showing an example of a Manhattan plot generated by a specific embodiment of the present invention.
  • the Manhattan plot shows 39,000 genes and classifies standard genes of the genome project according to genotypes based on non-symmetric variations of all known SNPs.
  • the graph visualized by point).
  • the mutation specificity of the gene to be analyzed can be easily recognized compared to the control.
  • This Manhattan plot can easily identify the mutation locus, as well as the degree of variation.
  • the significant variations indicated by the Manhattan plot may be displayed in a radial variation chart as shown in FIG. 13 according to the degree of variation and the genetic characteristics.
  • the degree of genetic variation of the analysis target genome and the control average together by displaying the degree of genetic variation of the analysis target genome and the control average together, the degree of variation of the target genome can be clearly and clearly displayed, as well as additional information on the genetic characteristics to generate a result report. It may be.
  • the result report generated by the above-described method is provided through a result report providing unit.
  • the present invention relates to a system that analyzes and provides genetic information from a personal genome by comparing a plurality of full-length genetic DBs constructed by the Genome Project and input personal genome information. According to the present invention, genetic analysis with improved mutation genome detection efficiency is provided. It has the effect of providing a platform.

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

본 발명은 게놈 프로젝트에 의해 구축된 다수 전장유전체 DB와 입력된 개인 유전체 정보를 비교하여 개인 유전체로부터 유전정보를 분석하여 질병원인을 발굴 제공하는 시스템에 관한 것으로, 본 발명은 개인 유전체 정보를 포함하는 분석데이터를 입력받는 분석데이터 입력부와; 데이터베이스에 저장된 유전자 정보와 상기 분석 대상 유전체 정보를 대비하여 각 유전자의 유전형, 표현형에 대한 유전형, 희귀변이, 질병변이 및 생리활성변이 중 어느 하나 이상을 포함하는 분석 결과를 산출하여 상기 분석결과를 통해 결과리포트를 생성하는 검색제어부; 그리고 상기 분석데이터와 대비하기 위한 대조군의 유전자 정보가 저장되는 저장부를 포함하여 구성된다. 이와 같은 본 발명에 의하면, 대조군 데이터 베이스에 저장된 유전자 변이정보와 분석대상인 개인 유전체를 효과적으로 대비하여, 개인 유전체의 유전형 판별 및 유의성 변이 검출 효율이 향상된 유전자 분석 플랫폼을 제공할 수 있는 효과가 있다.

Description

개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템
본 발명은 게놈 프로젝트에 의해 구축된 다수 전장유전체 DB와 입력된 개인 유전체 정보를 비교하여 개인 유전체로부터 유전정보를 분석하여 제공하는 시스템에 관한 발명이다.
현재 IT 시장의 추세는 구글(Google), 페이스북(fasebook), 아마존(amazon), 클라우드컴퓨팅 및 유비쿼터스(Ubiquitous) 순으로 변화하고 있고, 이와 동시에 바이오 메디컬, 생물정보 및 유전체 영역도 바이오 구글, 시스템 바이오, 개인별 맞춤의학 그리고 정밀의학 (precision medicine) 순으로 새로운 트랜드에 맞춰 바뀌어 가고 있다. 특히 포스트 인간게놈프로젝트는 차세대 시퀀싱 기술이 급격하게 발전하여 개인별 맞춤의학을 현실화하기 위한 노력이 활발히 진행되고 있다.
현재 차세대 시퀀싱 기술은 인간 1명 (x30)의 전장유전체를 시퀀싱(해독)하고 분석하는데 약 1주일 정도 소요가 되는 것으로 알려져 있다. 그리고 현재 전 세계에 차세대 시퀀서가 100,000여 대가 공급된 것으로 보고되었고, 제3세대 시퀀서 (Ion Torrent: 2.5세대, Pacific BioScience의 제3세대)의 주요 개발회사들에게 많은 자금이 투자된 것으로 보고되었다.
그 이외에 전 세계적으로는 해당분야는 모든 사업 중에서도 가장 빠르게 발전 및 개발이 되는 분야이다. 이러한, 추세대로 진행이 되면 향후 2~3년 후에는 1명의 전장 유전체 시퀀싱 및 분석이 약 $1,000이하로 낮아질 것으로 예상된다. 위의 차세대기술기반의 가장 활용성이 높고 바로 실용화되는 기술은 임상유전체(clinical genomics), 약물유전체학(pharmaco - genomics) 및 중개 임상 (translational medicine)있다, 그리고 최근에 이러한 임상유전체가 의학유전체(medical genomics)로 변신이 되고 있고, 이러한 의학유전체는 환자계층화(patient stratification)기술과 더불어 미국 오바마 대통령이 언급한 정밀의학 (precision medicine)이라는 새로운 학문 및 신 조어를 만들어 내게 되었다.
이와 같은, 유전체 변이 관련 정보는 매년 증가하고 있으며, 본 발명은 검증 데이터의 확장에 의해 분석 정확도 영역이 지속적으로 확대될 것이다.
한편, 본 출원인은 언급된 유전자 분석 분야의 기술적 요구사항을 개선하기 위해 지속적인 기술의 개발을 수행하고 있다.
이와 같은 노력의 결과, 정밀의학 (precision medicine)을 위한, 바이오 빅데이터와 관련된, 임상관련 정보, 단백체 및 유전체 정보, 그리고 이들의 분석 속도를 향상시키기 위한 분석 시스템 구축, 등을 위한 방법을 개발하였고, 특히, 분석속도를 위한 GPU(graphic process unit) 기반의 분석시스템을 개발하였고(특허등록: 10-0996443), 데이터의 비교 속도를 향상시키기 위한 기법인 RVR(records virtual rack)분석 툴의 특징은 파일을 기반으로는 정보 검색 방법(특허등록: 10-0880531, 특허등록: 10-1035959, 및 특허등록: 10-1117603)을 개발하였다.
또한, RVR 및 GPU(graphic process unit)에 기반하여 단백체에 적용시킨 (특허등록: 10-1400717), 변이의 정의(variant calling) 및 대조군과 개인 유전체 사이의 희귀변이 정도를 효율적으로 판단하기 위하여 대립유전자깊이기반 ADISCAN 분석 툴을 개발하였다 (특허등록: 10-1460520, 10-1542529, 및 10-2014-0020738).
그리고 유전체정보를 효율적으로 관리를 하기 위한 통합유전체 DB 생성, 질병원인을 위한 변이발굴 및 환자계층화를 위한 유전형 계산 방법 (특허등록: 10-2015-0187554, 10-2015-0187556, 및 10-2015-0187559) 및 유전체정보에서 휴먼하플로 타이핑을 계산하는 방법 (특허출원: 10-2016-0096996)을 개발하였다.
또한, 통합유전체 DB 같은 빅데이터를 위한 스토리지(storage) 운용에 특화된 미들웨어(middleware)는 한국전자통신연구원(ETRI)에서 개발한 병렬분산 환경에서 동시에 수천 개의 유전체 벌크 데이터 분석이 가능하게 만든 마하수퍼컴퓨팅 시스템 (특허등록 10-1460520, 10-1010219, 10-0956637, 10-093623, 10-2013-0005685, 10-2012-0146892 및 10-2013-0004519)이 개발되었다.
본 출원인은 한국전자통신연구원으로부터 마하시스템을 제공받아 임상환경에 적용을 위한 바이오 빅데이터를 활용한 최적화 환경을 갖추고, 정밀의학 구현을 위한 통합유전체분석 시스템과 연동된 국내 첫 수퍼컴퓨팅 시스템을 개발하였다.
특히, 마하-Fs (유전체와 같은 버크데이터용 초고속 I/O를 위한 스토리지 시스템)는 일반 클라우드컴퓨팅 환경에 맞추어 졌지만, 본 출원인은 재현성 및 정밀성 그리고 시스템의 한계를 명확하게 정의하여, 임상환경 즉 병원에서 진단용으로 사용가능한 마하-FsDx를 개발하였다. 그리고 아래 본 출원인의 선행툴원 (001) 내지 (019)는 개인 유전체 맵 기반 맞춤의학 분석 플랫폼을 위한 기술적 요소를 정리한 것이다.
[선행출원 특허 목록]
(특허문헌 1) (001) 대한민국 등록특허 제10-0880531호
(특허문헌 2) (002) 대한민국 등록특허 제10-0996443호
(특허문헌 3) (003) 대한민국 등록특허 제10-1035959호
(특허문헌 4) (004) 대한민국 등록특허 제10-1117603호
(특허문헌 5) (005) 대한민국 등록특허 제10-1400717호
(특허문헌 6) (006) 대한민국 등록특허 제10-1460520호
(특허문헌 7) (007) 대한민국 등록특허 제10-1542529호
(특허문헌 8) (008) 대한민국 특허출원 제10-2015-0187554호
(특허문헌 9) (009) 대한민국 특허출원 제10-2015-0187556호
(특허문헌 10) (010) 대한민국 특허출원 제10-2015-0187559호
(특허문헌 11) (011) 대한민국 특허출원 제10-2016-0096996호
(특허문헌 12) (012) 대한민국 등록특허 제10-0834574호
(특허문헌 13) (013) 대한민국 등록특허 제10-1010219호
(특허문헌 14) (014) 대한민국 등록특허 제10-0956637호
(특허문헌 15) (015) 대한민국 등록특허 제10-0936238호
(특허문헌 16) (016) 대한민국 특허출원 제10-2013-0005685호
(특허문헌 17) (017) 대한민국 특허출원 제10-2012-0146892호
(특허문헌 18) (018) 대한민국 특허출원 제10-2013-0004519호
(특허문헌 19) (019) 대한민국 특허출원 제10-2016-0172053호
본 발명은 상기와 같은 상용화된 “개인 유전체맵 기반 맞춤의학 분석 플랫폼”에 기반 하여 개인 유전체의 맞춤의학을 실현하기 위한 요구사항을 개선하기 위해 안출된 것으로, 개인의 유전체분석(다양한 유전형의 하플로 계층 ID, 개인의 프로파일) 및 병원임상정보(특정 표현형, 혹은 여러 표현형)기반 표준화 ID세트의 검출 속도 및 효율을 향상시킬 수 있는 데이터베이스 스키마가 적용된 유전자 분석 플랫폼을 제공하기 위한 것이다.
또한, 본 발명은 검출된 유전체의 유전형 (혹은, 개인프로파일) 정보를 사용자 인식이 용이하도록 형태로 제공하는 표준화 ID세트 생성 시스템 및 리포팅 모듈이 포함된 유전자 분석 플랫폼을 제공하기 위한 것이다.
질병 및 약물(혹은 음식물)반응 원인 계산 시스템은 집단의 유전정보 및 임상정보를 활용하여 다중 희귀분석 계수를 계산하고, 개인의 유전정보 및 임상정보를 변수로 하여 희귀함수의 결과인 관계지수(파이, π) 값을 계산한다. 여기서 관계지수(파이, π)는 개인의 유전체분석(유전형 마커ID) 및 병원임상정보(특정 표현형, 혹은 여러 표현형)기반 표준화 ID세트를 받게 되고 그 값들을 입력으로 하여 계산한다. 그리고 관계지수(파이, π)가 0.7 - 1 의 영역에 있으면, 그 개인의 특정 유전 마커 ID가 주어진 표현형의 직 (혹은 간접) 원인이 된다.
도 1에 도시된 바와 같이, 본 발명에 의한 질병 및 약물(음식물) 반응 원인 계산 시스템은 크게 개인유전체분석플랫폼, 통합유전체DB, 개인유전체 기반 질병(약물) 반응원인 산출부 및 질병(약물) 반응원인 계산 알고리즘을 포함하여 구성된다.
상기 개인유전체분석플랫폼은 도 1의 ① 내지 ⑤를 포함하는 구성으로, 이에 대하여 설명하면, 표준화 ID set 시스템은 유전형 (trait)계산 이라는 총칭을 사용한다. 학자마다 다른 의견을 가질 수 있지만, 본 특허에서의 유전형(trait) 정의는 표준화 ID 세트 및 유사한 방식으로 정한다.
즉, 상기 표준환 ID set에는 하플로계층화 기반 LD블럭 하플로계층, Exon 하플로계층, Gene마커 하플로계층, 다중gene마커 하플로계층, GWAS마커 하플로계층과, 본 특허에서의 생리활성 단일 변이 혹은 셋트 들의 BAV마커 ID 그리고 공용 독립 (혹은 개별) 바이오마커 DB에서의 마커들에 ID를 말하고 GWAS마커, Clinvar마커, eQTL마커, 단백체마커, STR마커, Fusion마커 등이 여기에 속한다.
또한, 병원 혹은 검진센터에서 보유하고 있는 전자의무기록(EMR: electronic medical record), 전자건강기록(EHR: electronic health record) 및 개인건강기록(PHR: personal health record)등과 같은 진단 표현형정보들이 여기에 포함한다.
그리고 약물 및 건강식품 (혹은 음식) 임상 (IIT: investigator initiative clinical trial, SIT: sponsor initiative clinical trial, PMS: post-market survey)의 약물 반응 결과물 (drug responder/non-responder)들과 같은 약물 임상 표현형정보 여기에 속한다.
그리고 상기 통합유전체DB는 도 1의 ⑥을 포함하는 구성으로, 통합유전체DB와 병원의료체계의 표준 표현형 질병정보를 사용하여 계수 값 계산을 위한 데이터베이스를 말한다. 여기서, 표현형 당 다른 다중 계수 값 들이 계산이 되고, 필요에 따라, 다중 표현형에 대한 다중 계수 값 들이 계산이 될 수 있다.
또한, 상기 개인유전체 기반 질병(약물) 반응원인 산출부는 도 1의 ⑧을 포함하는 구성으로, 개인 유전체 및 병원 표현형정보를 산출하는 역할을 수행한다.
이와 같이, 개인 유전체 및 병원 표현형정보가 주어지면, 상기 질병(약물) 반응원인 계산 알고리즘에 의해 관계지수(파이, π)를 산출한다.
관계지수(파이, π)는 다중 희귀함수(multiple logistic regression)의 결과물로, 상기 관계지수(파이)는 0 ~ 1까지의 확률 점수로 주어지고, 0.7 - 1에 가까우면 주어진 표현형을 가질 확률이 높고, 0 - 0.3 이면 주어진 표현형의 반대이다. 그리고, 0.4 - 0.6은 표현형(phenotype)이 중간 단계에 있다는 의미이다.
특히, 하플로타이핑(haplotyping)기반 하플로계층화의 대상은, LD(linkage disequilibrium)블럭 하플로계층, Exon 하플로계층, Gene마커 하플로계층, 다중gene마커 하플로계층, GWAS(genome wide association study)마커 하플로계층에서의 공통점은, 인간유전자들의 특정단위를 하프로타이핑을 수행하고, 그중에서 중요한 마커(예, GWAS마커)만 사용가능하고, 혹은 전체 서열(exon, gene, 혹은 LD플럭)을 사용 가능하다. 그리고, 이렇게 생성된 하플로 계층화 ID는 총칭인 유전형 (trait)으로 명명될 수 있다. 특히, 하플로타이핑(haplotyping)기반 하플로계층화도인간 표준화 ID세트로 사용될 수 있다.
한편, 본 발명은 개인 유전체 정보를 포함하는 분석데이터를 입력받는 분석데이터 입력부와; 데이터베이스에 저장된 유전자 정보와 상기 분석 대상 유전체 정보를 대비하여 희귀변이 또는 질병변이를 포함하는 분석 결과를 산출하여 상기 분석결과를 통해 결과리포트를 생성하는 검색제어부; 그리고 상기 분석데이터와 대비하기 위한 대조군의 유전자 정보가 저장되는 저장부를 포함하여 구성되는 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템을 포함한다.
이때, 상기 저장부는, 대조군 집단의 전장 유전체 정보를 인종을 포함하는 구분기준에 따라 구분되어 저장되는 Allele depth DB를 포함하여 구성되며: 상기 검색제어부는, 상기 분석데이터에 포함된 각 염기를 상기 Allele depth DB와 대비하여, 집단대조군 대비 희귀성을 산출하는 ADISCAN 엔진을 포함하여 구성될 수 있다.
그리고 상기 저장부는, 복수의 질병 별로 각 질병에 관련하여 공지된 유전자 변이 정보를 저장하는 IDA DB를 포함하여 구성되고; 상기 검색제어부는, 상기 분석데이터를 상기 IDA DB와 대비하여 상기 분석데이터에 포함된 공지된 유전자 관련 질병변이를 검출하는 IDA 검색엔진을 포함하여 구성될 수도 있다.
또한, 상기 저장부는, 임상정보 기반의 질병원인 예측 결과를 도출하기 위해 유전적 특성과 함께 고려되어야할 피검사 대상자의 환경적 소인 정보가 저장되는 임상정보 DB를 더 포함하여 구성될 수도 있다.
그리고 상기 검색제어부는, 로지스틱 회귀분석(logistic regression)에 의해 산출된 산술식을 통해 질병원인 관계도(Πx)를 산출하여 질병원인 예측 결과를 도출할 수도 있다.
이때, 상기 질병원인 관계도 산술식은,
Figure PCTKR2016015355-appb-I000001
이고, 여기서, π는 관계지수이고, 계수 β는 집단유전체 혹은 집단 임상정보 DB에 저장된 집단 대상자의 건강기록정보 EMR, EHR 및 PHR에 유전형 (표준화 IT 세트)기반 계산된 계수 (coefficients)이며; 변수 χ는 상기 검색제어부가 산출한 분석데이터에 포함된 유전형 (표준화 IT 세트)에 따른 매개변수일 수도 있다.
그리고 상기 저장부는, 상기 분석데이터와 대비하기 위하여 대조군 유전자의 유전형 정보를 저장한 하플로스캔(HaploScan) DB를 포함하여 구성되고; 상기 검색제어부는, 상기 분석데이터를 상기 하플로스캔(HaploScan) DB와 대비하여, 상기 분석데이터의 유전형을 판별하는 하플로스캔(HaploScan) 엔진을 포함하여 구성될 수도 있다.
이때, 상기 하플로스캔(HaploScan) DB는, 단일유전자에 대한 유전형 정보를 저장하는 단일유전자정보데이터베이스와; 표현형별 다중 유전자의 유전형 정보를 저장하는 다중유전자정보 데이터베이스를 포함하여 구성될 수도 있다.
그리고 상기 단일유전자정보데이터베이스는, 대조군의 단일 유전자에 대하여, 인종별 반수체 및 형질 빈도를 점유 비율별로 구분(군집)하여 저장한 단일유전자 하플로(Haplo) 맵과; 상기 단일 유전자 하플로(Haplo) 맵에 저장된 단일 유전자의 유전형을 구분하는 변이에 대한 변이정보를 저장하는 단일유전자 하플로 프리컨시 정보를 포함하여 구성될 수도 있다.
또한, 상기 다중유전자정보 데이터베이스는, 표현형별 대조군의 다중 유전자에 대하여 유전형 연관 염기의 변이분포를 인종별로 구분(군집)하여 점유비율에 따라 저장한 다중유전자 하플로(Haplo) 맵과; 상기 다중유전자 하플로(Haplo) 맵에 저장된 상기 표현형에 대한 유전형을 구분하는 변이에 대한 변이정보를 저장하는 다중유전자 하플로 프리컨시 정보를 포함하여 구성될 수도 있다.
그리고 상기 검색제어부는, 검출된 변이 유전자 특성을 전장 유전자에 대하여, 유전형에 따라 분류하여 누적된 값을 점(point)으로 가시화한 맨하탄 플롯(Manhattan plot) 상에 표시한 결과 리포트를 생성할 수도 있다.
한편, 상기 맨하탄 플롯은, 변이 유전자의 유의성 여부를 가이드하는 설정값(cut-off)이 표시될 수도 있다.
위에서 살핀 바와 같은 본 발명에 의한 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템에서는, 대조군 데이터 베이스에 저장된 유전자 변이정보와 분석대상인 개인 유전체를 효과적으로 대비하여, 개인 유전체의 유전형 판별 및 유의성 변이 검출 효율이 향상된 유전자 분석 플랫폼을 제공할 수 있는 효과가 있다.
도 1은 본 발명에 의한 질병 및 약물 반응 원인 계산 시스템의 개념적 구성을 도시한 개념도.
도 2는 본 발명이 적용된 유전자 분석 서비스 구성을 도시한 예시도.
도 3은 본 발명의 구체적인 실시예에 의한 질병원인 발굴 시스템의 주요 구성을 도시한 블록도.
도 4는 본 발명에 의한 질병원인 발굴 시스템을 구성하는 주요 데이터베이스의 구성을 도시한 예시도.
도 5는 본 발명의 구체적인 실시예를 구성하는 Haplotype DB의 구성예를 도시한 예시도.
도 6은 본 발명의 구체적인 실시예를 구성하는 Allele depth DB의 구성예를 도시한 예시도.
도 7은 본 발명의 구체적인 실시예에 의한 Haplotype ID 기반의 CPL 생성예를 도시한 예시도.
도 8은 본 발명의 구체적인 실시예에 의한 BAV/Biomarker DB의 구성 예를 도시한 예시도.
도 9는 본 발명의 구체적인 실시예에 의한 유전정보 분석 방법을 도시한 흐름도.
도 10은 본 발명의 구체적인 실시예에 의한 Haplotype DB 생성예를 도시한 예시도.
도 11은 본 발명에 의한 IDA 시스템의 기능 구성을 도시한 예시도.
도 12은 본 발명의 구체적인 실시예에 의해 생성된 결과 리포트의 일예를 도시한 예시도.
도 13는 본 발명의 구체적인 실시예에 의해 생성된 결과 리포트의 다른 예를 도시한 예시도.
도 14은 본 발명의 구체적인 실시예에 의한 생리활성변이 검증 예를 도시한 예시도.
도 15는 본 발명의 구체적인 실시예에 의한 임상정보기반 질병 및 약물(음식물) 반응 원인 계산 시스템 구성을 도시한 개념도.
이와 같은 본 발명은, 개인 유전체 정보를 포함하는 분석데이터를 입력받는 분석데이터 입력부와; 데이터베이스에 저장된 유전자 정보와 상기 분석 대상 유전체 정보를 대비하여 각 유전자의 희귀변이 및 질병변이에 대한 분석 결과를 산출하여 상기 분석결과를 통해 결과리포트를 생성하는 검색제어부; 그리고 상기 분석데이터와 대비하기 위한 대조군의 유전자 정보가 저장되는 저장부를 포함하여 구성된다.
이때, 상기 저장부는 대조군 집단의 전장 유전체 정보를 인종을 포함하는 구분기준에 따라 구분되어 저장되는 Allele depth DB를 포함하여 구성되며: 상기 검색제어부는, 상기 분석데이터에 포함된 각 염기를 상기 Allele depth DB와 대비하여, 집단대조군 대비 희귀성을 산출하는 ADISCAN 엔진을 포함하여 구성되는 것이 바람직하다.
그리고 상기 저장부는, 복수의 질병 별로 각 질병에 관련하여 공지된 유전자 변이 정보를 저장하는 IDA DB를 포함하여 구성되고; 상기 검색제어부는, 상기 분석데이터를 상기 IDA DB와 대비하여 상기 분석데이터에 포함된 공지된 유전자 관련 질병변이를 검출하는 IDA 검색엔진을 포함하여 구성되는 것이 바람직하다.
또한, 상기 저장부는, 임상정보 기반의 질병원인 예측 결과를 도출하기 위해 유전적 특성과 함께 고려되어야할 피검사 대상자의 환경적 소인 정보가 저장되는 임상정보 DB를 더 포함하여 구성되고: 상기 검색제어부는, 로지스틱 회귀분석(logistic regression)에 의해 산출된 산술식을 통해 질병원인 관계도 관계지수(파이, π)를 산출하여 질병원인 예측 결과를 도출하되:
상기 질병원인 관계도 산술식은,
Figure PCTKR2016015355-appb-I000002
이고, 유전형 혹은, 개인 프로파일 (표준화 ID set)은 내지 에서 주어진 다양한 ID 생성 시스템을 활용하여, 집단유전체 및 그들의 병원의무기록, EMR(electronic medical record), EHR(electrical health record), 및 PHR(personal health record)을 통하여 계산을 하게 되고, 주어진 ID 체계를 사용하여 의 계수 변수 β들을 생성한다.
그리고 개인의 정보는 개인 유전체 및 그 개인의 병원기반 표현형 정보를 표준을 사용하여 개인 프로파일 (표준화 ID set)을 생성하고, 그 ID들은 변수 χ를 다중 로지스틱 회귀분석 산술식에 제공한다.
이하에서는 첨부된 도면을 참조하여 본 발명의 구체적인 실시예에 의한 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템을 상세히 살펴보기로 한다.
먼저 본 발명에 의한 질병원인 발굴 시스템이 적용되는 유전자 분석 서비스의 구성을 간단히 살펴보기로 한다.
도 2에 도시된 바와 같이, 유전자 분석 서비스는 병원 등의 개인 유전자 수집 기관으로부터 혈액 등의 샘플을 수집하여, 해당 샘플을 DNA 시퀀싱회사에 진단을 의뢰하게 된다.
그리고 상기 DNA 시퀀싱회사는 수집된 샘플로부터 DNA custom chip을 제작하거나 DNA sequencing(NGS, next generration sequencing)을 수행한다. 물론, 최근에는 기술적 발전에 따라 다양한 방법에 의해 DNA sequencing을 생성할 수 있으므로, 상기 DNA sequencing 생성 방법은 DNA 시퀀싱회사의 기술 수준에 따라 다양한 방법에 의해 수행될 수 있다.
이와 같이 생성된 DNA sequencing은 본 발명과 같은 유전정보분석시스템을 통해 개인 유전체에 포함된 유전적 정보가 분석된다.
이때, 본 발명에 의한 유전정보 분석 시스템은 개인유전체맵 플랫폼에 기반하여 유전정보를 분석한다.
그리고 분석된 분석정보는 병원 등의 진단기관 또는 수요자에게 전달된다.
물론, 상기 DNA 시퀀싱회사로부터 DNA 더미 데이터가 제공되는 경우, 본 발명에 의한 질병원인 발굴 시스템은 이로부터 고집적 인덱싱 파일로 형성하여 빅데이터인 유전체 염기서열을 분석한다.
이에 대하여는 이후에 도 10을 설명함에 있어 다시 설명하기로 한다.
즉, 본 발명은 DNA sequencing 정보로부터 개인 유전체에 포함된 유전적 정보를 분석하는 질병원인 발굴 시스템에 관한 것으로, 이하에서 본 발명에 의한 질병원인 발굴 시스템에 대하여 상세히 살펴보기로 한다.
도 3은 본 발명의 구체적인 실시예에 의한 질병원인 발굴 시스템의 주요 구성을 도시한 블록도이며, 도 4는 본 발명에 의한 질병원인 발굴 시스템을 구성하는 주요 데이터베이스의 구성을 도시한 예시도이고, 도 5는 본 발명의 구체적인 실시예를 구성하는 Haplotype DB의 구성예를 도시한 예시도이며, 도 6은 본 발명의 구체적인 실시예를 구성하는 Allele depth DB의 구성예를 도시한 예시도이고, 도 7은 본 발명의 구체적인 실시예에 의한 Haplotype ID 기반의 CPL 생성예를 도시한 예시도이며, 도 8은 본 발명의 구체적인 실시예에 의한 BAV/Biomarker DB의 구성 예를 도시한 예시도이다.
도 3에 도시된 바와 같이, 본 발명에 의한 질병원인 발굴 시스템은 분석데이터 입력부(100), 검색제어부(200), 결과 리포트 제공부(300), Haplotype DB(400), Allele depth DB(500), IDA DB(600), BAV/Biomarker DB(700), Information DB(800), 하플로 ID 생성부(810) 및 마커 ID 생성부(820)를 포함하여 구성된다.
상기 분석데이터 입력부(100)는 개인 유전체 정보를 입력받는 부분으로, DNA sequencing 데이터를 입력받는다.
그리고 상기 검색제어부(200)는 입력된 DNA sequencing으로부터 각 유전자의 유전형, 표현형에 대한 유전형, 희귀변이, 질병변이 및 생리활성변이를 검출하는 부분으로, 이를 위해 상기 검색제어부(200)는 HaploScan엔진(210), ADISCAN 엔진(220), IDA 검색엔진(230) 및 생리활성변이 검색엔진(240)을 포함하여 구성된다.
상기 HaploScan 엔진(210)은 상기 분석데이터(입력된 DNA Sequencying)를 후술할 Haplotype DB(400)에 저장된 Haplo MAP(414, 424)과 대비하여 유전형을 판별하는 역할을 수행한다.
상기 Haplotype DB(400)의 구조 및 상기 HaploScan 엔진(210)의 검색 방식은 이후 다시 상세히 설명하기로 한다.
그리고 상기 ADISCAN 엔진(220)은 입력된 분석데이터에 포함된 각 염기에 대하여 Allele depth DB(500)와 ADISCAN 방식으로 대비하여, 집단대조군 대비 희귀성을 산출하는 역할을 수행한다.
또한, 상기 IDA 검색엔진(230)은 이미 알려진 유전자 관련 질병변이를 검출하는 것으로, 알려진 질병변이가 저장된 IDA DB(600)와 분석데이터를 비교하여 질병변이를 검출한다.
그리고 상기 생리활성변이 검색엔진(240)은, 단백질 대사관련 유전 변이를 검출하는 것으로, 크게 단백질-약물, 단백질-DNA 및 단백질-단백질 결합에 관여하는 아미노산에 대한 유전변이 여부를 판별한다.
이때, 상기 생리활성변이 검색엔진(240)은 BAV/Biomarker DB(700)와 분석데이터를 비교하여 상기 분석 데이터 중 상기 BAV/Biomarker DB(700)에 저장된 단백질 결합 관련한 아미노산에 대응하는 염기들의 변이 여부를 판별하게 된다.
한편, 상기 결과리포트생성부(300)는 HaploScan 엔진(210) 및 ADISCAN 엔진(220)에 의해 판별된 유전형과 각 염기의 유의성(희귀성)을 진단자(또는 사용자)가 가시적으로 용이하게 파악할 수 있도록 맨하탄 플롯 및 방사형 변이 유의성 차트를 이용하여 결과리포트를 생성한다.
즉, 상기 검색제어부(200)는 상기 Haplotype DB(400)를 기반으로, 하플로 ID 생성부(810)를 통해 LD 블럭 하플로계층 ID, Exon 하플로계층 ID, Gene 마커 하플로계층 ID, 다중 Gene 마커 하플로계층 ID, GWAS 마커 하플로계층 ID 등의 하플로계층 ID들을 생성하고, 상기 마커 ID 생성부(820)를 통해 Bav 마커 ID, GWAS 마커 ID, Clinvar 마커 ID, eQTL 마커 ID, 단백체 마커 ID, STR 마커 ID, Fusion 마커 ID 등의 마커 ID를 생성한다.
이때, 결과물인 ID(바코드형태로 표현될 수 있음)들의 모음을 ‘표준화 ID 세트(개인 프로파일)’이라 한다.
그리고 최종 결과를 ID들에 대한 다양한 질병/약물반응 원인 및 감수성 결과 정보(관계지수 π)와 함께 제공한다.
그리고 생성된 상기 결과리포트는 결과리포트제공부(300)를 통해 사용자에게 제공된다.
이하에서는 본 발명에 의한 질병원인 발굴 시스템의 데이터베이스 구조를 설명하기로 한다.
본 발명에 의한 질병원인 발굴 시스템은 크게 Haplotype DB(400)와 Allele depth DB(500), IDA DB(600), BAV/Biomarker DB(700) 그리고 Information DB(800)를 포함하여 구성된다.
즉, 도 4에 도시된 본 발명에 의한 통합 유전체 DB는 Haplotype DB, allele depth DB 및 IDA DB를 포함하여 구성되는데, 상기 Haplotype DB는 전체염기의 포맷을 IUPAC포맷으로 생성한 DB이고, genotype & phenotype DB는 유전형질 및 표현형정보를 포함하여 질병연관성정보, 다양한 상관관계 및 QC를 가능하게 구성된 DB이며, allele depth DB는 변이의 희귀성 및 검증 계산을 위한 DB이다.
상기 Haplotype DB(400)는 분석 대상인 개인 유전체 정보로부터 유전형을 산출하기 위해 대조군 유전자의 유전형을 정리한 DB로, 상기 Haplotype DB(400)는 도 3에 도시된 바와 같이, 단일유전자정보데이터베이스(410)와, 다중유전자정보 데이터베이스(420)를 포함하여 구성된다.
그리고 상기 단일유전자정보 데이터베이스(410)는 단일유전자에 대한 유전형들을 저장한 데이터베이스로, 단일유전자 Haplo 맵(414)과 단일유전자 하플로 프리컨시 정보(412)를 포함하여 구성된다.
한편, 도 5에 도시된 바와 같이, 상기 단일유전자 Haplo 맵(414)은 전체 대조군의 동일 유전자에 대하여, 변이 분포를 점유 비율 별로 구분(군집)하여 저장한 것으로, 각 유전자를 활용한 세계 26개 인종의 반수체 (haplotype)계산 및 특정 형질의 빈도 및 각 서브-인종의 빈도를 계산하여 정리한 것이다.
그리고 상기 단일유전자 하플로 프리컨시 정보(412)는 상기 각각의 변이에 대한 정보를 저장한 것이다. 이때, 상기 단일유전자 하플로 프리컨시 정보(412)는 변이정보를 직접 저장한 데이터일 수도 있고, 후술할 Information DB(800)에 저장된 정보의 위치를 표시하는 식별인자로 구성될 수도 있다. 즉, 상기 단일유전자 하플로 프리컨시 정보(412)는 인간의 39,000개 유전자와 5 천명의 세계인종에서의 각 유전자에서 빈도 및 다양한 질병연관 주석정보를 제공한다.
또한, 상기 다중유전자정보 데이터베이스(420)는 다중유전자에 대한 변이 분포 및 정보를 제공하기 위한 데이터베이스로, 다중유전자 Haplo 맵(424)과 다중유전자 하플로 프리컨시 정보(422)를 포함하여 구성된다.
이때, 상기 다중유전자 Haplo 맵(424)은 다중유전자에 의해 표현형이 특정되는 유전 특성에 있어, 각 표현형 별로 전체 대조군의 관련 염기에 대한 변이 분포를 점유 비율 별로 군집화하여 저장한 것으로, 표현형 (phenotype)의 원인 변이를 활용한 세계 26개 인종의 반수체(haplotype)계산 및 특정 형질의 빈도 및 각 서브-인종의 빈도를 계산하여 정리한 것이다.
그리고 상기 다중유전자 하플로프리컨시 정보(422)는 상기 각각의 변이에 대한 정보를 저장한 것이다. 이때, 상기 다중유전자 하플로 프리컨시 정보(422) 역시 변이정보를 직접 저장한 데이터일 수도 있고, 후술할 Information DB(800)에 저장된 정보를 위치를 표시하는 식별인자로 구성될 수도 있다.
즉, 상기 다중유전자 하플로 프리컨시 정보(422)는 인간의 39,000개 유전자와 5천명의 세계인종에서의 표현형(phenotype) 연관 유전자 셋트 들의 빈도 및 다양한 질병연관 주석정보를 제공한다.
이를 도 5에 도시된 예를 통해 설명하면, Haplotype DB(400)의 X축은 30억 염기서열이고, 상기 염기서열에서 유전자는 39,000개가 있다. 이의 스키마에서 특정 유전자(i)에서 변이가 N(개) 발견이 되었다면, 상기 변이를 Y축: 5,000명에서 haplotype 및 genotype 모두를 사용하여 군집화를 할 수 있고, 군집화가 된 형태가 HaploMap이된다.
이때, 각 군집은 각 유전형을 의미하는데 이들의 내용을 살펴보면, 첫 번째 GP*47*0 는 그 유전형이 세계인에서 47%를 차지하고, 세계인의 평균과 비교해서 0 bit 다르고(동일하고), 두 번째 유전형 GP*25*1은 세계인에서 25%를 차지함을 의미하며, 세계인의 평균과 비교해서 1 bit 다르다는 것을 의미한다.
또한, 다중유전기반 HaploMap도 동일한 방식에 의해 분류 및 구분된다.
상기 Allele depth DB(500)는 대조군 집단의 유전체 정보를 저장한 DB로, 구체적으로 집단유전체는 글로벌 게놈프로젝트 수행에 의해 공지된 유전체 정보가 활용될 수 있다.
한편, 상기 Allele depth DB(500)는 도 4 및 도 6에 도시된 바와 같이, 대조군 집단의 전장 유전체 정보를 저장하되, 인종 등의 유전형의 군을 형성하는 구분기준에 따라 구분되어 저장될 수 있다.
이때, 상기 인종별 구분은 5개 대분류의 구분일 수도 있고, 26개 소분류의 구분일 수도 있는데, 이는 인종별 유전특성을 반영하여 변이 유전자 여부를 판별/검출하기 위함이다.
한편, 도 7에는 Haplotype ID 기반의 CPL 생성예가 도시되어 있다. 도 7에 도시된 바와 같이, Haplotype DB에서 Haplotype ID은 다양한 질병, 유전형질 마커 등으로 구성되는데, 유전자 단위의 유전형 (LD 블럭, exon단위, gene마커 등) 하플로계층 ID 및 다중 유전자 단위 (다중 gene마커, GWAS마커)로 구성될 수 있다.
또한, 도 7에서는 하플로계층 ID는 한 세트의 염색체 및 포지션 정보 (Chromosome position list: CPL)들의 묶음으로 정의를 될 수 있음을 도시하고 있다.
그리고 상기 IDA DB(600)는 이미 알려진 질병과 이에 관련된 유전 변이가 저장되는 곳으로, 다양한 질병별로 각 질병에 관련된 유전자 변이 정보 및 이들 변이 정보를 뒷받침하는 문헌 정보가 정리되어 저장된다.
또한, BAV/Biomarker DB(700)에는 다양한 단백질의 바인딩 위치의 아미노산 형태를 결정하는 유전자 정보가 저장된다.
구체적으로는, 단백질-약물, 단백질-DNA 및 단백질-단백질 간의 바인딩에 있어, 이들 결합에 영향을 미치는 아미노산과 해당 아미노산에 영향을 미치는 유전자 정보가 저장된다.
이에 따라, 특정 대사물의 바인딩을 관장하는 아미노산에 대한 염기들에 변이가 다수 발생한 경우, 해당 분석 데이터의 피검사자는 해당 대사물에 대하여 정상적인 체내 처리가 어려워질 가능성이 높아지게 된다.
즉, 도 8에 도시된 바와 같이, 상기 BAV/Biomarker DB(700)에는 알려진 질병변이를 포함하여 단백질의 약물 결합 위치, Promoter 위치 및 결합상태의 단백질 활성이 예측되는 변이들이 저장된다.
상기 BAV/Biomarker DB(700)는 생리활성관련 유전자 정보를 저장하는 데이터 베이스로, 유전자와 약물, 대사물 및 음식물에 대한 저항성 및 감수성 관련정보가 저장된다. 이때, 상기 BAV/Biomarker DB(700) 또한, 공신력이 확보된 공지된 데이터를 연계하여 구축할 수 있고, 예를 들어, 약물은행에 공지된 6,000 여 개의 약물정보(상호작용 단백질과 바인딩 영역 정보 등), 대사물 은행에 공지된 12,000 여 개의 대사물 정보(상호작용 단백질과 바인딩 영역 정보 등) 및 DMET(drug metabolizing enzyme and transporter gene)에 있는 200여 개의 유전자의 약물 대사관련 변이 위치에 대한 정보를 활용할 수 있다.
한편, 상기 Information DB(800)는 알려진 유전체의 변이에 대한 정보를 저장하는 DB로, 문헌정보 뿐만 아니라 공개된 정보 데이터베이스와 연계되어 구축될 수 있다.
예를 들어, PheWAS-GWAS(Genome wide association study) data 및 eMERGE (Electronic Medical Records and Genomics) data가 Information DB에 적용될 수 있다.
한편, 도시되지는 않았으나, 상기 검색제어부(200)가 임상정보 기반의 질병원인 예측 결과를 도출하기 위해 유전적 특성과 함께 고려되어야할 피검사 대상자의 환경적 소인 정보가 저장되는 임상정보 DB를 더 포함하여 구성될 수도 있다.
이때, 상기 임상정보 DB는 개인의 환경적 요인 결과물 데이터와 집단 평균 및 기준정보가 저장된다.
그리고 상기 개인의 환경적 요인 결과물 데이터는 개인의 종합검진 데이터 등의 임상정보 데이터일 수 있고, 상기 집단 평균 및 기준정보는 질병관리본부가 제공하는 지역사회 코호트 연구 결과를 활용할 수 있다.
이하에서는 본 발명에 의한 개인 유전체를 이용한 유전정보 분석 방법을 첨부된 도면과 함께 상세히 살펴보기로 한다.
도 9는 본 발명의 구체적인 실시예에 의한 유전정보 분석 방법을 도시한 흐름도이고, 도 10은 본 발명의 구체적인 실시예에 의한 Haplotype DB 생성예를 도시한 예시도이며, 도 12은 본 발명의 구체적인 실시예에 의해 생성된 결과 리포트의 일예를 도시한 예시도이고, 도 13는 본 발명의 구체적인 실시예에 의해 생성된 결과 리포트의 다른 예를 도시한 예시도이며, 도 14은 본 발명의 구체적인 실시예에 의한 생리활성변이 검증 예를 도시한 예시도이고 도 15는 본 발명의 구체적인 실시예에 의한 임상정보기반 질병 및 약물(음식물) 반응 원인 계산 시스템 구성을 도시한 개념도이다.
먼저, 도 9에 도시된 바와 같이, 본 발명에 의한 개인 유전체를 이용한 유전정보 분석 방법은 먼저, 분석데이터 입력부가 분석 대상이 되는 분석 데이터(DNA Sequencing)을 수신받는 것으로부터 시작된다(S100).
이때, 상기 분석 데이터가 DNA 조각들로 구성된 Dumy 형태로 제공될 수도 있는데, 이 경우 본 발명은 도 10에 도시된 바와 같이, 제공된 Dumy 데이터에 고집적 인덱싱을 통해 RVR 파일 형태로 DNA sequencing 을 생성하여 저장한다.
도 10에는 Haplotype DB 생성예가 도시되어 있는데, 이에는 Haplotype DB에서, 그 영역 포지션들에서 집단유전정보 및 파라미터를 추출하는 예가 도시되어 있다.
구체적으로, 먼저, 유전체정보에서 BAM (binary alignment map)파일로부터 ADISCAN을 통하여 genotype을 IUPAC 포맷으로 만든 파일을 생성한다. 그리고 다중정렬 (indexed multiple nucleotide alignments) 인덱싱 DB를 구성한 후, 주어진 하플로계층화 ID를 구성하는 한 염색체 및 포지션 세트(chromosome position list: CPL)를 사용하여 Haplotype DB에서 그 영역 포지션들에 대한 IUPAC정보, 집단유전정보 및 파라미터를 추출한다.
한편, 본 발명에 의한 개인 유전체를 이용한 유전정보 분석 방법은 분석 대상에 따라 크게 4가지 분석을 수행한다.
즉, 본 발명에 의한 개인 유전체를 이용한 유전정보 분석은 1) 유전형 판별(S200), 2) IDA DB로부터 염기단위의 마커 검출(S300), 3) Allete Depth DB로부터 염기단위의 마커 검출(S400) 및 4) 생리활성변이 산출(S500)의 4가지 분석을 수행하는 바, 이하에서는 각각에 대하여 상세히 살펴보기로 한다.
[유전형 판별]
본 발명에 의한 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템은 단일 유전자 및 다중 유전자 단위의 유전형을 판별한다.
상기 단일 유전자 단위의 유전형을 판별은 Haplotype DB에서 유전자 단위의 유전형(LD 블록, exon 단위, gene 마커 등) 하플로계층의 ID를 계산한다.
그리고 상기 다중 유전자 단위의 유전형을 판별은 Haplotype DB에서 다중 유전자 단위(다중 gene 마커, GWAS마커) 하플로계층의 ID를 계산한다.
먼저, 상기 단일 유전자 단위의 유전형 판별 방법을 살피면, 상기 HaploScan 엔진(210)은 상기 DNA Sequencying을 Haplotype DB(400)에 저장된 Haplo Frequency(412) 및 Haplo MAP(414)과 대비하여 단일 유전자 및 표현형에 대하여 유전형이 속하는 군집 및 이에 대한 정보를 검출한다.
구체적으로 상기 HaploScan 엔진(210)은 상기 DNA sequencying의 i번째 유전자에 대하여 상기 단일유전자 Haplo Frequency(412)의 i번째 유전자 정보와 대비하여(S211), 분석 대상인 개인 유전체의 i번째 유전자가 단일유전자 Haplo MAP(414)에 분류된 단일유전자 분류중 어느 군집에 포함되는지 여부를 판별한다(S213, S215).
이후, 상기 HaploScan 엔진(210)은 i=1 부터 마지막까지(약 i=39,000) 반복하여 분석데이터의 전체 유전자에 대한 유전형을 판별한다(S217, S219).
다음으로, 상기 다중 유전자 단위의 유전형 판별 방법을 살피면, 상기 HaploScan 엔진(210)은 상기 DNA sequencying을 상기 다중유전자 Haplo Frequency(422)와 대비하여(S221), 각 표현형에 대한 분석 대상 유전체의 다수 유전자의 조합이 다중유전자 Haplo MAP(424)에 분류된 다중 유전자 조합의 분류중 어느 군집에 포함되는지 여부를 판별한다(S223, S225).
이에서도 역시, 상기 HaploScan 엔진(210)은 다중유전자정보 데이터베이스(420)에 저장된 모든 표현형에 대하여 반복하여 분석데이터의 유전형을 판별한다(S227, S229).
이와 같은 HaploScaning 과정을 통해 분석 대상 유전체에 포함된 단일 유전자 변이 및 다중 유전자 변이에 따른 유전형을 정의할 수 있다.
[IDA DB의 염기단위 마커 검출]
IDA DB의 염기단위 마커 검출은 genotype 및 phenotype정보를 활용한 질병 및 약물반응을 계산하고 유의성 결과 정보를 검출하는 것으로, IDA DB의 염기단위 마커 검출은 IDA 검색엔진(230)이 분석데이터를 IDA DB(600)의 변이정보와 비교하여, 해당 질병의 위험도를 판단하게 된다(S310).
이와 같은 방법으로, 상기 IDA DB에 포함된 모든 질병에 대하여 상기 분석데이터를 검토한 후(S320), 유의미한 변이관련 질병들을 산출하게 된다(S330).
한편, 도 11에 도시된 와 같이, IDA DB 및 IDA 검색엔진을 포함하여 구성되는 IDA 시스템은 외부툴 지원, SubClone, RelationDB 및 의학통계 기능을 지원한다.
상기 외부툴 지원 기능은 plink, phase, Haploview, linkage 등의 외부 툴에 의한 입력파일을 생성할 수 있도록 하는 지원기능을 말하고, 상기 SubClone 기능은 전체 빅데이터에서 관심이 있는 영역의 작은 IDA DB를 생성하는 기능을 말하며, Relation DB 기능은 전체 빅데이터의 Phenotype, genotype, pedigree 등의 기능정보가 서로 데이터에 대한 Relation 형성 기능을 말하고, 의학통계 기능은 단일 vs 단일, 단일 vs 다수, 다수 vs 단일 및 다수 vs 다수의 유전형, 마커 또는 표현형 변수에 대한 다중 linear, 혹은 다중 logistic regression 결과를 제공하는 기능을 말한다.
[Allete Depth DB의 염기단위 마커 검출]
Allete Depth DB의 염기단위 마커 검출은 극히 이례적인 특정 유전 변이에 의해 유발되는 염기 변이로, 일반적으로 희귀질병과 관련된 경우가 많은 것으로, 특정 염기에 대한 변이 유무 또는 차이를 검출하여, 희귀질병 발병 가능성 등을 판단할 수 있다.
이를 위해 본 발명은 먼저, 도 9에 도시된 바와 같이, ADISCAN 엔진(220)이 대조군을 선별한다(S410).
이때 상기 대조군이란, 해당 변이에 대한 희귀성을 판단하게 될 대조 집단으로, 특정 인종을 한정하거나 특정 국가를 대상으로 한정할 수도 있다.
이후, 상기 ADISCAN 엔진(200)은 특정 로커스의 염기에 대하여 대조군 DB의 염기와 ADISCAN 방식으로 변이지수를 산출하고, 이와 같은 과정을 전체 유전체에 대하여(n=1 부터 n=약 30억) 수행한다(S420, S430).
이에 따라 전체 염기서열에 대하여 염기들의 희귀성을 산출한다(S440).
한편, 상기 희귀변이 산출을 위한 ADISCAN(allelic depth and imbalance scanning)이란 정상과 이상 유전자의 차이를 주는 마커들을 스크리닝하는 기법으로, 대립유전자깊이곱탄젠트차이, 대립유전자제곱승차이, 대립유전자절대값차이, 기하학적대립유전자차이, 통계적대립유전자차이 또는 대립유전자불균형비율에 따라 판단된다.
[생리활성변이 산출]
상기 생리활성변이 검출은 BAV/Biomarker DB 및 공용 마커와 대비한 다양한 마커의 유의성을 계산하는 것으로, 생리활성변이 검색엔진(240)이 BAV/Biomarker DB(생리활성변이 DB)를 검색하여(S510), 단백질의 결합에 관여하는 아미노산에 정보를 검출한다(S520).
이때, 상기 단백질 결합은 단백질-약물, 단백질-DNA 및 단백질-단백질의 결합을 포함하고, 상기 아미노산 정보에는 상기 아미노산에 관련된 염기의 정보가 포함된다.
이후, 상기 생리활성변이 검색엔진(240)은 상기 아미노산 정보에 포함된 염기와 분석데이터를 대비하여 분석 데이터 상에 변이가 발생 된 아미노산 및 이에 관련된 대사물 정보 등을 검출한다(S530, S540).
그리고 상기 생리활성변이 검색엔진(240)은 전체 아미노산에 대하여 변이 검출을 반복수행하고, 검출된 정보를 통합하여 생리활성변이정보를 산출한다(S550, S560).
도 14에는 검출된 단백질의 아미노산 변이가 대사 작용에 미치는 영향을 시뮬레이션을 통해 검증하는 예가 도시되어 있다.
이후 상기 검색제어부(200)는 판별 또는 산출된 유전형, 희귀변이, 질병변이 및 생리활성변이를 통합하여, 사용자에게 제공될 결과리포트를 생성한다(S600).
이때, 상기 검색제어부(200)는 피검사자의 임상정보가 제공된 경우 이를 바탕으로 임상정보 기반 질병원인을 산출하여 제공할 수 있다.
구체적으로, 질병의 원인을 예측하려면 현 상태의 환경적인 요인 결과물(종합검진데이터 및 임상정보)을 포함하는 PHR (personal health records)이 필요하다. 특히, 환경적인 요인에서 집단의 평균 및 기준정보가 필요하게 된다(본 발명에서 상기 기준정보는 질병관리본부에서 제공하는 제2기 지역사회 코호트 연구결과를 활용). 여기서, 이러한 환경적인 요인의 결과물과 유전형과 연계를 지은 것을 PHR-trait 이라고 부른다.
도 15에 도시된 바와 같이, 질병원인 관계도(Πx) 검출식은, logistic regression분석 방법을 활용한 것으로, 상기 질병원인 관계도(Πx)산술식은,
Figure PCTKR2016015355-appb-I000003
이고, 유전형 혹은, 개인 프로파일 (표준화 ID set)에서 주어진 다양한 ID 생성 시스템을 활용하여, 집단유전체 및 그들의 병원의무기록, EMR(electronic medical record), EHR(electrical health record), 및 PHR(personal health record)을 통하여 계산을 하게 되고, 주어진 ID 체계를 사용하여 의 계수 변수 β들을 생성한다. 그리고 개인의 정보는 개인 유전체 및 그 개인의 병원기반 표현형 정보를 표준을 사용하여 개인 프로파일 (표준화 ID set)을 생성하고, 그 ID들은 변수 χ를 다중 로지스틱 회귀분석 산술식에 제공한다.
즉, 상기 질병원인 관계도는 Gene, Disease 혹은 Drug의 유전형 (group or cluster of genotypes) vs. EMR, EHR, 혹은 PHR의 연관성을 계산할 수 있게 된다.
따라서, 현재의 임상상태 (clinical condition: normal, disease, or phenotype)와 39,000유전자에서 계산한 Gene, Disease, Drug유전형과의 연관성을 계산하여 전체유전자기반 질병원인을 계산한다.
한편, 본 발명에 의한 질병원인 발굴 시스템은 산출된 유전자 변이정보로부터 리포팅 데이터를 생성한다.
이때 산출되는 결과 리포트는, 산출물에 따라 각각 다소 차이는 있으나, 기본적으로 변이 유전자에 대한 가시화를 위해 매하탄 플롯 및 방사형 변이 차트를 활용한다.
도 12는 본 발명의 구체적인 실시예에 의해 생성된 맨하탄 플롯의 일 예를 도시한 예시도이다.
도 12에 도시된 바와 같이, 상기 맨하탄 플롯(Manhattan plot)은 39,000 개의 유전자에 대하여, 알려진 모든 SNP의 non-sym 변이들을 기준으로 게놈프로젝트의 표준 유전자를 유전형에 따라 분류하여 누적된 값을 점(point)으로 가시화 한 그래프를 의미한다.
이에 분석 대상 유전체의 유전자를 표시하면, 대조군 대비 분석 대상 유전자의 변이 특이성을 용이하게 인식할 수 있다.
이와 같은 맨하탄 플롯(Manhattan plot)은 변이 로커스를 손쉽게 파악할 수 있을 뿐만 아니라, 변이 정도도 용이하게 파악할 수 있다.
한편, 상기 맨하탄 플롯에 의해 표시된 유의성 변이들은 변이 정도 및 유전적 특성에 따라 도 13에 도시된 바와 같이, 방사형 변이 차트로 표시될 수 있다.
이때, 상기 분석 대상 유전체의 유전적 변이 정도와 대조군 평균을 함께 표시하여, 분석 대상 유전체의 변이정도를 가시적으로 명확하게 표시할 수 있을 뿐만 아니라, 유전적 특성 정보를 추가적으로 포함시켜 결과리포트를 생성할 수도 있다.
전술한 바와 같은 방법으로 생성된 상기 결과리포트는 결과리포트 제공부를 통해 제공된다.
본 발명의 권리는 위에서 설명된 실시예에 한정되지 않고 청구범위에 기재된 바에 의해 정의되며, 본 발명의 분야에서 통상의 지식을 가진 자가 청구범위에 기재된 권리범위 내에서 다양한 변형과 개작을 할 수 있다는 것은 자명하다.
본 발명은 게놈 프로젝트에 의해 구축된 다수 전장유전체 DB와 입력된 개인 유전체 정보를 비교하여 개인 유전체로부터 유전정보를 분석하여 제공하는 시스템에 관한 것으로, 본 발명에 의하면, 변이 유전체 검출 효율이 향상된 유전자 분석 플랫폼을 제공할 수 있는 효과가 있다.

Claims (12)

  1. 개인 유전체 정보를 포함하는 분석데이터를 입력받는 분석데이터 입력부와;
    데이터베이스에 저장된 유전자 정보와 상기 분석 대상 유전체 정보를 대비하여 희귀변이 또는 질병변이를 포함하는 분석 결과를 산출하여 상기 분석결과를 통해 결과리포트를 생성하는 검색제어부; 그리고
    상기 분석데이터와 대비하기 위한 대조군의 유전자 정보가 저장되는 저장부를 포함하여 구성됨을 특징으로 하는 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템.
  2. 제 1 항에 있어서,
    상기 저장부는,
    대조군 집단의 전장 유전체 정보를 인종을 포함하는 구분기준에 따라 구분되어 저장되는 Allele depth DB를 포함하여 구성되며:
    상기 검색제어부는,
    상기 분석데이터에 포함된 각 염기를 상기 Allele depth DB와 대비하여, 집단대조군 대비 희귀성을 산출하는 ADISCAN 엔진을 포함하여 구성됨을 특징으로 하는 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템.
  3. 제 1 항에 있어서,
    상기 저장부는,
    복수의 질병 별로 각 질병에 관련하여 공지된 유전자 변이 정보를 저장하는 IDA DB를 포함하여 구성되고;
    상기 검색제어부는,
    상기 분석데이터를 상기 IDA DB와 대비하여 상기 분석데이터에 포함된 공지된 유전자 관련 질병변이를 검출하는 IDA 검색엔진을 포함하여 구성됨을 특징으로 하는 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 저장부는,
    임상정보 기반의 질병원인 예측 결과를 도출하기 위해 유전적 특성과 함께 고려되어야할 피검사 대상자의 환경적 소인 정보가 저장되는 임상정보 DB를 더 포함하여 구성됨을 특징으로 하는 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템.
  5. 제 4 항에 있어서,
    상기 검색제어부는,
    로지스틱 회귀분석(logistic regression)에 의해 산출된 산술식을 통해 질병원인 관계도(Πx)를 산출하여 질병원인 예측 결과를 도출함을 특징으로 하는 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템.
  6. 제 5 항에 있어서,
    상기 질병원인 관계도 산술식은,
    Figure PCTKR2016015355-appb-I000004
    이고, 여기서,
    π는 관계지수이고,
    계수 β는 집단유전체 혹은 집단 임상정보 DB에 저장된 집단 대상자의 건강기록정보 EMR, EHR 및 PHR에 유전형 (표준화 IT 세트)기반 계산된 계수 (coefficients)이며;
    변수 χ는 상기 검색제어부가 산출한 분석데이터에 포함된 유전형 (표준화 IT 세트)에 따른 매개변수임을 특징으로 하는 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템.
  7. 제 5 항에 있어서,
    상기 저장부는,
    상기 분석데이터와 대비하기 위하여 대조군 유전자의 유전형 정보를 저장한 하플로스캔(HaploScan) DB를 포함하여 구성되고;
    상기 검색제어부는,
    상기 분석데이터를 상기 하플로스캔(HaploScan) DB와 대비하여, 상기 분석데이터의 유전형을 판별하는 하플로스캔(HaploScan) 엔진을 포함하여 구성됨을 특징으로 하는 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템.
  8. 제 7 항에 있어서,
    상기 하플로스캔(HaploScan) DB는,
    단일유전자에 대한 유전형 정보를 저장하는 단일유전자정보데이터베이스와;
    표현형별 다중 유전자의 유전형 정보를 저장하는 다중유전자정보 데이터베이스를 포함하여 구성됨을 특징으로 하는 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템.
  9. 제 8 항에 있어서,
    상기 단일유전자정보데이터베이스는,
    대조군의 단일 유전자에 대하여, 인종별 반수체 및 형질 빈도를 점유 비율별로 구분(군집)하여 저장한 단일유전자 하플로(Haplo) 맵과;
    상기 단일 유전자 하플로(Haplo) 맵에 저장된 단일 유전자의 유전형을 구분하는 변이에 대한 변이정보를 저장하는 단일유전자 하플로 프리컨시 정보를 포함하여 구성됨을 특징으로 하는 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템.
  10. 제 8 항에 있어서,
    상기 다중유전자정보 데이터베이스는,
    표현형별 대조군의 다중 유전자에 대하여 유전형 연관 염기의 변이분포를 인종별로 구분(군집)하여 점유비율에 따라 저장한 다중유전자 하플로(Haplo) 맵과;
    상기 다중유전자 하플로(Haplo) 맵에 저장된 상기 표현형에 대한 유전형을 구분하는 변이에 대한 변이정보를 저장하는 다중유전자 하플로 프리컨시 정보를 포함하여 구성됨을 특징으로 하는 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템.
  11. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 검색제어부는,
    검출된 변이 유전자 특성을 전장 유전자에 대하여, 유전형에 따라 분류하여 누적된 값을 점(point)으로 가시화한 맨하탄 플롯(Manhattan plot) 상에 표시한 결과 리포트를 생성함을 특징으로 하는 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템.
  12. 제 11 항에 있어서,
    상기 맨하탄 플롯은,
    변이 유전자의 유의성 여부를 가이드하는 설정값(cut-off)이 표시됨을 특징으로 하는 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템.
PCT/KR2016/015355 2015-12-28 2016-12-28 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템 WO2017116123A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020150187554A KR101693504B1 (ko) 2015-12-28 2015-12-28 개인 전장 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템
KR10-2015-0187554 2015-12-28

Publications (1)

Publication Number Publication Date
WO2017116123A1 true WO2017116123A1 (ko) 2017-07-06

Family

ID=57990448

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2016/015355 WO2017116123A1 (ko) 2015-12-28 2016-12-28 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템

Country Status (2)

Country Link
KR (1) KR101693504B1 (ko)
WO (1) WO2017116123A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108776748A (zh) * 2018-05-16 2018-11-09 成都奇恩生物科技有限公司 一种基因检测系统及其检测方法
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
WO2020036283A1 (ko) * 2018-08-16 2020-02-20 제노플랜코리아 주식회사 유전자 마커 선별 방법 및 장치, 그리고 이의 시스템

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101815529B1 (ko) 2016-07-29 2018-01-30 (주)신테카바이오 휴먼 하플로타이핑 시스템 및 방법
CN106980763B (zh) * 2017-03-30 2020-04-28 大连理工大学 一种基于基因突变频率的癌症驱动基因的筛选方法
US20190087534A1 (en) * 2017-09-21 2019-03-21 The Penn State Research Foundation Systems, methods, and processor-readable media for detecting disease causal variants
KR102147847B1 (ko) 2018-11-29 2020-08-25 가천대학교 산학협력단 질환 진단 보조를 위한 데이터 분석 방법 및 시스템
KR102087613B1 (ko) * 2019-08-08 2020-03-11 주식회사 클리노믹스 연관 표현형의 유전적 위험도를 결합한 질병의 위험도 예측 장치 및 방법
CN111798926B (zh) * 2020-06-30 2023-09-29 广州金域医学检验中心有限公司 致病基因位点数据库及其建立方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101117603B1 (ko) * 2011-08-16 2012-03-07 (주)신테카바이오 상호 연계 가능한 다중 맵 생성을 통한 바이오메디컬 기능연관정보 제공 시스템 및 방법
KR101295785B1 (ko) * 2011-10-31 2013-08-12 삼성에스디에스 주식회사 유전변이 데이터 베이스 구축 장치 및 방법
KR101332270B1 (ko) * 2012-04-09 2013-11-22 삼성에스디에스 주식회사 유전 정보 관리 장치 및 방법
KR20150024231A (ko) * 2014-02-21 2015-03-06 (주)신테카바이오 대립유전자의 바이오마커 발굴방법

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100996443B1 (ko) 2010-04-13 2010-11-24 (주)신테카바이오 고집적인덱스 데이터베이스 및 쿼리 데이터의 검색과 연산기능 분할에 의한 그래픽 프로세서 기반 병렬분산 처리 시스템 및 방법
KR101035959B1 (ko) 2010-11-18 2011-05-23 (주)신테카바이오 군집 및 백본 데이터베이스 기반 바이오 메디컬 통합 정보 검색 방법 및 시스템
KR20120053623A (ko) 2010-11-18 2012-05-29 (주)신테카바이오 군집 및 백본 데이터베이스 기반 바이오 메디컬 통합 정보 검색 방법 및 시스템
KR101460520B1 (ko) 2012-11-12 2014-11-11 (주)신테카바이오 차세대 시퀀싱 데이터의 질병변이마커 검출 방법
KR101400717B1 (ko) 2012-12-28 2014-05-29 (주)신테카바이오 전체원자기반 고분자 복합체의 시뮬레이션 시스템 및 방법
KR20150024232A (ko) 2014-02-21 2015-03-06 (주)신테카바이오 질병에 대한 약물 내성 유전체로부터 내성 원인 마커의 발굴 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101117603B1 (ko) * 2011-08-16 2012-03-07 (주)신테카바이오 상호 연계 가능한 다중 맵 생성을 통한 바이오메디컬 기능연관정보 제공 시스템 및 방법
KR101295785B1 (ko) * 2011-10-31 2013-08-12 삼성에스디에스 주식회사 유전변이 데이터 베이스 구축 장치 및 방법
KR101332270B1 (ko) * 2012-04-09 2013-11-22 삼성에스디에스 주식회사 유전 정보 관리 장치 및 방법
KR20150024231A (ko) * 2014-02-21 2015-03-06 (주)신테카바이오 대립유전자의 바이오마커 발굴방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PIRINEN: "Estimating Population Haplotype Frequencies from Pooled SNP Data Using Incomplete Database Information", BIOINFORMATICS, vol. 25, no. 24, 2009, pages 3296 - 3302, XP055395773 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
US11568957B2 (en) 2015-05-18 2023-01-31 Regeneron Pharmaceuticals Inc. Methods and systems for copy number variant detection
CN108776748A (zh) * 2018-05-16 2018-11-09 成都奇恩生物科技有限公司 一种基因检测系统及其检测方法
WO2020036283A1 (ko) * 2018-08-16 2020-02-20 제노플랜코리아 주식회사 유전자 마커 선별 방법 및 장치, 그리고 이의 시스템

Also Published As

Publication number Publication date
KR101693504B1 (ko) 2017-01-17

Similar Documents

Publication Publication Date Title
WO2017116123A1 (ko) 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템
WO2017116135A1 (ko) 개인 유전체의 유전변이정보를 이용한 유전형 분석 시스템 및 방법
Ha et al. Large-scale meta-analysis across East Asian and European populations updated genetic architecture and variant-driven biology of rheumatoid arthritis, identifying 11 novel susceptibility loci
Salgado et al. UMD‐predictor: a high‐throughput sequencing compliant system for pathogenicity prediction of any human cDNA substitution
Stevison et al. The time scale of recombination rate evolution in great apes
Capriotti et al. Predicting the insurgence of human genetic diseases associated to single point protein mutations with support vector machines and evolutionary information
DiPetrillo et al. Bioinformatics toolbox for narrowing rodent quantitative trait loci
Wheeler et al. Database resources of the national center for biotechnology information
Goldman et al. Assessing the impact of secondary structure and solvent accessibility on protein evolution
Topper et al. Exome sequencing and the genetics of intellectual disability
US8417459B2 (en) Methods of selection, reporting and analysis of genetic markers using broad-based genetic profiling applications
KR101542529B1 (ko) 대립유전자의 바이오마커 발굴방법
Doelken et al. Phenotypic overlap in the contribution of individual genes to CNV pathogenicity revealed by cross-species computational analysis of single-gene mutations in humans, mice and zebrafish
WO2017116139A1 (ko) 개인 유전체의 유전변이정보를 이용한 생리활성변이 분석 시스템
WO2017014469A1 (ko) 질병 위험도 예측 방법 및 이를 수행하는 장치
Puzyrev Genetic bases of human comorbidity
CN104302781A (zh) 一种检测染色体结构异常的方法及装置
Raimondi et al. Multilevel biological characterization of exomic variants at the protein level significantly improves the identification of their deleterious effects
KR20140061223A (ko) 차세대 시퀀싱 데이터의 질병변이마커 검출 방법
Andrews et al. The clustering of functionally related genes contributes to CNV-mediated disease
Schilder et al. echolocatoR: an automated end-to-end statistical and functional genomic fine-mapping pipeline
WO2017086675A1 (ko) 대사 이상 질환 진단 장치 및 그 방법
KR20150024232A (ko) 질병에 대한 약물 내성 유전체로부터 내성 원인 마커의 발굴 방법
Pfaffelhuber et al. Linkage disequilibrium under genetic hitchhiking in finite populations
US20240029827A1 (en) Method for determining the pathogenicity/benignity of a genomic variant in connection with a given disease

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16882075

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16882075

Country of ref document: EP

Kind code of ref document: A1