WO2018021636A1 - 휴먼 하플로타이핑 시스템 및 방법 - Google Patents

휴먼 하플로타이핑 시스템 및 방법 Download PDF

Info

Publication number
WO2018021636A1
WO2018021636A1 PCT/KR2016/015428 KR2016015428W WO2018021636A1 WO 2018021636 A1 WO2018021636 A1 WO 2018021636A1 KR 2016015428 W KR2016015428 W KR 2016015428W WO 2018021636 A1 WO2018021636 A1 WO 2018021636A1
Authority
WO
WIPO (PCT)
Prior art keywords
allele
alleles
candidate
sequence
human
Prior art date
Application number
PCT/KR2016/015428
Other languages
English (en)
French (fr)
Inventor
이선호
가소정
홍종희
조양래
정종선
Original Assignee
(주)신테카바이오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)신테카바이오 filed Critical (주)신테카바이오
Publication of WO2018021636A1 publication Critical patent/WO2018021636A1/ko
Priority to US16/243,287 priority Critical patent/US10540324B2/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6881Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for tissue or cell typing, e.g. human leukocyte antigen [HLA] probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Definitions

  • the present invention relates to a human haplotyping system and method with improved accuracy and efficiency in detecting a haplotype for understanding genetic characteristics of a human through a computerized system.
  • genotyping method for efficient genome information management, mutation detection for disease cause, and patient stratification Patent registration: 10-2015-0187554, 10-2015-0187556, and 10-2015- 0187559
  • a method for calculating human haplo typing from genome information Patent application: 10-2016-0096996
  • middleware specialized in storage operation for big data such as integrated dielectric DB is able to analyze thousands of dielectric bulk data at the same time in parallel distributed environment developed by Korea Electronics and Telecommunications Research Institute (ETRI).
  • ETRI Korea Electronics and Telecommunications Research Institute
  • Applicant received Mach system from Korea Electronics and Telecommunications Research Institute, developed an optimized environment using bio big data for application in clinical environment, and developed Korea's first supercomputing system linked with integrated genome analysis system for precision medicine. .
  • Mach-Fs storage systems for high-speed I / O for buck data such as dielectrics
  • I / O for buck data such as dielectrics
  • Mach-FsDx has been developed for use in diagnostics.
  • prior art documents (001) to (019) summarizes the technical elements for personal genomic map-based custom medical analysis platform.
  • SNPs which account for more than 0.1% of the human genome sequence, have been the subject of linking human phenotypic variations. Accordingly, various platforms are being studied for accurate and rapid haplotyping.
  • haplotyping may be performed on the full-length dielectric of a human, but at present, most of them are performed on a specific SNP region for rapidity and accuracy of typing.
  • the haplotyping can be performed on various regions of SNPs, but one of the most actively utilized fields is HLA typing for human leukocyte antigen genes.
  • a BAM file is generated from a DNA sample to be tested, and a specific region of the test object is extracted to generate a file of a Fastq type.
  • the allele type of the DNA to be tested is read by comparing the Fastq type file with the allele reference of the Haplotype stored in the database.
  • the haplotyping technique is applied to HLA typing in which a specific region is limited to the HLA gene.
  • haplotyping according to the prior art has a problem that it is difficult to expect accurate test results due to the highly polymorphic, linkage disequilibrium and sequence similarity between genes of human genes.
  • the length of the sequence reads should be lengthened.
  • the analysis time and the process are complicated, and there is a problem that the analysis efficiency is impaired.
  • Patent Document 1 (001) Republic of Korea Registered Patent No. 10-0880531
  • Patent Document 2 (002) Republic of Korea Registered Patent No. 10-0996443
  • Patent Document 3 (003) Republic of Korea Registered Patent No. 10-1035959
  • Patent Document 4 (004) Korean Patent Registration No. 10-1117603
  • Patent Document 5 (005) Republic of Korea Registered Patent No. 10-1400717
  • Patent Document 6 (006) Korean Patent Registration No. 10-1460520
  • Patent Document 7 (007) Republic of Korea Registered Patent No. 10-1542529
  • Patent Document 8 (008) Korean Patent Application No. 10-2015-0187554
  • Patent Document 9 (009) Republic of Korea Patent Application No. 10-2015-0187556
  • Patent Document 10 (010) Korean Patent Application No. 10-2015-0187559
  • Patent Document 11 (011) Republic of Korea Patent Application No. 10-2016-0096996
  • Patent Document 12 (012) Korean Patent Registration No. 10-0834574
  • Patent Document 13 (013) Korea Patent Registration No. 10-1010219
  • Patent Document 14 Korean Registered Patent No. 10-0956637
  • Patent Document 15 (015) Republic of Korea Registered Patent No. 10-0936238
  • Patent Document 16 (016) Republic of Korea Patent Application No. 10-2013-0005685
  • Patent Document 17 (017) Republic of Korea Patent Application No. 10-2012-0146892
  • Patent Document 18 Korean Patent Application No. 10-2013-0004519
  • Patent Document 19 (019) Republic of Korea Patent Application No. 10-2016-0172053
  • the present invention has been made to solve the conventional problems as described above, the present invention is due to the high polymorphic and sequence similarity (human sequence) of the human gene, a short sequence generated from the existing (Illumina) equipment
  • the purpose of the present invention is to solve a problem of deterioration of accuracy of haplotype using short sequence reads.
  • the present invention is to provide a method and system for haplotyping with improved accuracy while performing haplotyping using short sequence reads based on an alignment based approach.
  • the disease and drug (or food) reaction cause calculation system calculates multiple rare analysis coefficients using the genetic and clinical information of the group, and the relational index (pi) which is the result of the rare function using the individual genetic and clinical information as variables. , ⁇ ) value.
  • the relationship index (pi, ⁇ ) receives a set of standardized IDs based on an individual's genome analysis (genotype marker ID) and hospital clinical information (specific phenotype, or several phenotypes) and calculates the values as inputs. And if the relationship index (pi, ⁇ ) is in the range 0.7-1, then the individual's specific genetic marker ID is the direct (or indirect) cause of the given phenotype.
  • the standardized ID set system uses a generic term called trait calculation. Different researchers may have different opinions, but the trait definitions in this patent are set in a standardized ID set and in a similar manner.
  • the standard ring ID set includes a Haflo layered LD block haplo layer, an Exon haflo layer, a gene marker haplo layer, a multiple gene marker haplo layer, a GWAS marker haflo layer, and a bioactive single mutation in the present invention.
  • diagnostic phenotype information such as electronic medical records (EMRs), electronic health records (EHRs) and personal health records (PHRs) held by hospitals or examination centers are included here. Include.
  • EMRs electronic medical records
  • EHRs electronic health records
  • PHRs personal health records
  • drug clinical phenotypes such as drug responders / non-responders in drug and health food (or food) clinical trials (IIT), sponsor initiative clinical trials (SIT), and post-market surveys (PMS). Information belongs here.
  • the relational index (pi) is given as a probability score of 0 to 1, and close to 0.7-1 has a high probability of having a given phenotype, and 0-0.3 is the opposite of a given phenotype. And 0.4-0.6 means that the phenotype is in the middle stage.
  • the target of haplotyping-based haplo stratification is a linkage disequilibrium (LD) block haplo layer, exon haplo layer, gene marker haplo layer, multigene marker haplo layer, genome wide association study
  • the commonality in the Marker Haplo layer is that Haplo typing of specific units of human genes can be performed, and only important markers (eg, GWAS markers) can be used, or the entire sequence (exon, gene, or LD flocks). Is available.
  • the generated haplo layering ID may be referred to as a generic trait.
  • haplotyping-based Haplo layering can also be used as a set of human standardized IDs.
  • the present invention includes a sequence read collection step of collecting a sequence of the gene to be tested; A sequence read sorting step of matching and sorting the collected sequence reads to a reference stored in a database; An allele selection step of selecting candidate alleles from a reference allele; And an allele determination step of setting a final allele among the candidate alleles.
  • the sequence read collection step may be performed including selecting and collecting sequence reads of a specific region.
  • the specific region may be an HLA gene region.
  • the database may be an IMGT / HLA DB.
  • the selection of the allele may be performed by selecting candidate alleles according to the distribution of read alignments.
  • the distribution determination of the aligned sequence reads may be to determine the allele of the reference as a false allele when the distribution of the distribution on the reference of the aligned reads is low.
  • the distribution of the aligned reads may be converted into a score, and when the score is lower than a reference value, the distribution may be determined as a false allele.
  • the score is a formula
  • M is a value set according to the allele length
  • C is a constant
  • noread may be a constant set for a region in which sequence reads are not aligned.
  • the allele determining step is performed by a unique read algorithm;
  • the eigenreading algorithm may include, when there are four or more candidate alleles on a reference, except for alleles in which a perfect match (mapping with 100% match) is made by sequence read among the candidate alleles. The remaining candidate alleles may be excluded from the candidate alleles.
  • the allele determination step is performed by a unique read algorithm;
  • the eigenreading algorithm includes sequence reads aligned to only one of each candidate allele when there are three or fewer candidate alleles on the reference. Counting the number of unique leads; The final two candidate alleles may be selected according to the number of unique leads.
  • the eigenreading algorithm may determine the allele as an allele of a heterozygote when the final two candidate alleles include different eigenreads.
  • the eigenreading algorithm may also determine that the allele is an allele of a homozygote when only one of the last two candidate alleles contains the eigenlead.
  • the present invention in order to perform the human haplotyping method as described above, the sequence reads collected from the gene to be tested is matched with the reference alleles stored in the database and aligned: candidate alleles of the reference alleles are aligned. Screening: selecting two final alleles from the candidate alleles: aligning the sequence reads, aligning the sequence reads with a reference stored in a database, and then placing the aligned sequence reads in an absolute match with the reference allele. And a human haplotyping system performed by filtering accordingly.
  • the present invention performs haplotyping using short sequence reads based on an alignment based approach, and uses the distribution score function of the aligned sequence leads to determine the candidate alleles. There is an effect that can improve the screening efficiency.
  • the present invention by applying a unique lead algorithm, by detecting and removing the false alleles due to the phase issue, there is an effect that can provide a human haplotype result with improved accuracy.
  • FIG. 1 is an exemplary view showing the overall performance of the haplotyping according to the present invention.
  • Figure 2 is an exemplary view showing the overall performance of the HLA typing according to a specific embodiment of the present invention.
  • FIG. 3 is an exemplary diagram illustrating an example of selecting candidate alleles according to a distribution map of sequence reads aligned by a specific embodiment of the present invention.
  • FIG. 4 is an exemplary diagram illustrating an example of selecting a final candidate allele by an eigenread algorithm according to a specific embodiment of the present invention.
  • FIG. 5 is an exemplary diagram showing an example of an error allele for explaining a specific embodiment of the present invention.
  • FIG. 6 is an exemplary diagram showing another example of an error allele for explaining a specific embodiment of the present invention.
  • FIG. 7 is a conceptual diagram showing the conceptual configuration of the disease and drug response cause calculation system according to the present invention.
  • Such a human haplotyping method includes a sequence read collection step of collecting a sequence of a gene to be tested; A sequence read sorting step of matching and sorting the collected sequence reads to a reference stored in a database; An allele selection step of selecting candidate alleles from a reference allele; And an allele determination step of setting a final allele among the candidate alleles.
  • the sequence read collection step is performed, including the step of selecting and collecting the sequence read of the HLA gene region, the database is applied to the IMGT / HLA DB.
  • the selection of the allele is performed by selecting candidate alleles according to the distribution of read alignments, and determining the distribution of the aligned sequence reads.
  • the distribution of the read leads is converted into a score, and the score is lower than the reference value, it is preferable to discriminate the false allele, wherein the score is
  • M is a value set according to the allele length
  • C is a constant
  • noread is a constant set for a region in which sequence reads are not aligned.
  • the allele determination step is performed by a unique read algorithm;
  • the eigenreading algorithm includes sequence reads aligned to only one of each candidate allele when there are three or fewer candidate alleles on the reference. Counting the number of unique leads; It is preferable to select the last two candidate alleles according to the number of unique leads.
  • the haplotyping system and method according to the present invention may be applied to haplotyping for a human full-length genome, or may be applied to a specific region of SNP.
  • the specific region refers to a region of a gene (or combination of genes) related to performing a specific function, and typically, a region of human leukocyte antigen gene (HLA gene), which is responsible for the regulation of human immune system, and drug metabolism. It may be a gene responsible for a function (DMET gene region), a gene region related to immune cell expression (KIR gene), and a gene region related to blood characteristics (ABO gene).
  • HLA gene human leukocyte antigen gene
  • the present invention can be applied to haplotypes for specific regions, such as HLA typing, DMET typing, KIR typing, and ABO typing, as well as haplo typing for human full-length genomes.
  • DMET Drug Metabolizing Enzymes and Transporters
  • transporters protein enzymes and enzymes involved in the absorption (absorption) of the drug (disposition), drug action (drug action) and transport.
  • cytochrome p450 enzyme family (CYPs), uptake transporters, efflux transporters, and the like belong to several genes in a family, and their gene sequences are similar to each other but have polymorphism.
  • DMET gene sequence differences between individuals not only affect drug reactions, side effects, disease sensitivity, etc., but can also be a standard for selection of appropriate drugs, which is a recent research field in pharmacogenetics.
  • KIR Kitiller-cell Immunoglobulin-like Receptors
  • NK natural killer cells
  • T cells T cells
  • KIR regulates the ability of NK and T cells to kill cells by interacting with major histocompatibililty (MHC) class I on the surface of other cells.
  • MHC major histocompatibililty
  • KIR KIR-associated with sensitivity and responsiveness to infections, autoimmune diseases, cancer, and the like.
  • KIR is very polymorphic (polymorphic) gene sequence is largely different from person to person, the amount or type of genes that each person has different.
  • ABO blood type
  • ABO blood type is a gene that plays a major role in distinguishing ABO blood type and transfusion system. It is located in chromosome 9q34 and three alleles (A, B, O types) are used by conventional serum technique. Can be distinguished.
  • HLA typing will be described as a representative embodiment.
  • the major histocompatibility complex regions are one of the most complex regions of the human genome and are responsible for the regulation of the immune system.
  • the human leukocyte antigens (HLAs) gene are present in about 3Mbp stretch of chromosome 6 and play a big role in the adaptive immune response that suppresses and eliminates pathogens. In charge of.
  • HLA-A, B and C genes Alleles of the liver are very similar.
  • Targeted amplicon sequencing (TAS) approach shows relatively high throughput (high-throughput) compared to the PCR method, so that HLA typing with high accuracy is possible by generating long reads of hundreds of bases at low cost.
  • the HLA typing according to the present invention is to provide HLA typing that is secured with accuracy and efficiency using short reads.
  • HLA typing using short sequence reads is largely divided into two categories.
  • Alignment-based methods are difficult to determine the actual alleles because the known alleles are very similar due to the high polymorphicity of the HLA gene region.
  • HLAreporter was introduced as a combination-based method, PHLAT as an alignment-based method, and the recently released HLAreporter and PHLAT are more accurate than the previous HLA typing result. Indicates.
  • HLA typing performs highly accurate HLA typing on genome-wide short sequencing data, hereinafter referred to as HLAscan.
  • the present invention is applied to the algorithm for removing false positive alleles (hereinafter referred to as 'high-glass operation algorithm') is selected as a phase issue.
  • a unique read algorithm is provided to detect false positive alleles generated by a phase issue.
  • the HLAscan according to the present invention is basically based on an alignment-based approach. As shown in FIG. 2, the HLAscan is divided into two steps.
  • Tier1 generates a binary alignment map (BAM) by aligning raw sequence reads generated from the NGS equipment with a whole genome reference. It is a process of selecting sequence reads corresponding to the HLA gene region.
  • BAM binary alignment map
  • the second stage (Tier2) first aligns sequence reads to all alleles present in the IMGT / HLA database, respectively.
  • HLA-A As an example, there are 3182 known alleles of the HLA-A gene in the IMGT / HLA database, and HLAscan uses sequence reads collected with reference to these alleles, respectively. To align.
  • the final alleles are then determined using the aligned information.
  • the present invention provides a score function in consideration of the aligned read distribution in order to select the candidate alleles in determining the final alleles from the aligned information; In selecting the final allele, we provide a unique read algorithm to solve the phase issue.
  • HLAscan considers a score function considering the distribution of aligned to select true alleles among thousands (about 8,000) allele models stored in the IMGT / HLA database. reads) to remove false alleles.
  • the score function considering the distribution of aligned reads determines that the allele of the reference is a false allele when the distribution of the reference on the aligned read is not uniformly distributed.
  • 'read_i is a position (s_i + e_i) of ref. Is aligned to / 2 '. Consecutive positions of the reference where the read is not aligned are called noread_j (1 ⁇ j ⁇ m).
  • the reference whose calculated score is greater than the reference value may be determined as a reference to the false allele, and the allele may be excluded from the candidate.
  • the eigenreading algorithm comprises 1) an algorithm for removing false positive candidate alleles when there are a large number of candidate alleles, and 2) no more than three candidate alleles. ), An algorithm for detecting and eliminating candidate alleles selected as a phase issue is present.
  • the eigenread operation algorithm according to the present invention may determine whether the final allele is an allele of a homozygote or a heterozygote of an allele based on the determination result as described above.
  • the eigenreading algorithm according to the present invention has a sequence read that is aligned only to each candidate allele when there are three or less candidate alleles. The number of reads is counted to select the first candidate allele and the second candidate allele in that order. The same process is repeated for the two candidate alleles selected.
  • both candidate alleles have unique aligned reads, two alleles are produced as final output. In this case, it means that the allele is an allele of a heterozygote.
  • the allele represents the allele of the homozygotes.
  • HLA-A, HLA-B, and HLA-C HLA-A, HLA-B, and HLA-C
  • HLA-DRB1 and HLA-DQB1 regions Additional file: Table R12, R22, R32.
  • HLAreporter [ref] and PHLAT [ref] are compared.
  • HLAscan aligns the sequence reads to the hs37d5 WGS reference using bwa-mem v0.7.10-r789 and collects all sequence reads that are aligned to HLA-gene regions.
  • Sequence similarity is high between HLA genes and low in other regions, so that sequence reads generated outside of HLA genes can be easily removed.
  • the HLAscan according to the present invention does not distinguish sequence reads by specific HLA genes during this process, but in the prior art of assemble-based methods such as HLAreporter and HLAminer, the de novo assembly is used from a given short sequence reads. Determine the final haplotype.
  • HLA-A HLA-A, HLA-B, and HLA-C
  • HLA reporter uses the IMGT / HLA database to sequence specific HLA genes. Collect sequence reads.
  • the HLAscan according to the present invention selects the sequence reads of the HLA gene during the alignment process based on the IMGT / HLA database, there is a low need to select the correct sequence reads during the process.
  • the HLAscan according to the present invention selects sequence reads of the corresponding gene since only 100% of the sequence reads remain in the process of aligning the sequence reads in the IMGT / HLA database. In doing so, accuracy does not matter much.
  • the reason why the HLAscan according to the present invention selects sequence reads of HLA gene regions is efficiency rather than accuracy. This makes it possible to eliminate sequence reads generated from a significant number of HLA genes regions by a very simple method, which can be used to convert thousands of alleles from the IMGT / HLA database. Aligning with s can result in speed improvements of several orders of magnitude.
  • the first step (Tier 1) of FIG. 2 may be omitted.
  • HLAscan defaults the target sequencing sequence reads for the selected HLA genes region using bwa-mem v0.7.10-r789 to all reference alleles in the IMGT / HLA database. Optionally align each.
  • HLAscan Because of the sequence similarity between the HLA genes and the existence of large number of alleles for most HLA genes, HLAscan has a 100% match to the reference alleles. Matching reads only improves the accuracy of read alignment.
  • sequence reads generated from other genes can be mapped to alleles of the gene.
  • the prior art PHLAT and Major (2013 ') are presenting a simple but highly accurate HLA typing method that takes into account the alignment of the leads and their depth coverage.
  • the HLAscan according to the present invention selects candidate alleles in view of the distribution of read alignments for more accurate HLA typing than these prior arts.
  • Alleles 2 and 4 are alleles of the actual sample, and allele 1 is a false allele formed by combining the front of allele 4 and the back of allele 2 (phased allele). Allele 3 is an allele that has many different sequences from actual alleles 2 and 4.
  • the HLAscan according to the present invention clearly considers the degree to which the read function (aligned reads) evenly distributed (allele) and allele (allele) of the allele (allele) It is possible to select (allele) 2.
  • the HLAscan according to the present invention calculates scores using a score function for each allele and removes alleles above a certain value.
  • the constant value used for the score function is 30 and the cutoff score is 200.
  • the score is 0 or more and smaller is better.
  • reducing candidate alleles helps to increase the accuracy of determination of final alleles, which will be described later.
  • Phase issues are a serious problem when using linkage disequilibrium regions and using short sequencing reads data.
  • the present invention proposes an efficient algorithm to solve this problem. It can be seen that the phasing problem is solved within the range of the experiment actually performed by the algorithm.
  • the algorithm using the number information of unique aligned reads for each candidate alleles according to the present invention effectively solves the phase issue.
  • the algorithm according to the present invention finds phased alleles very accurately.
  • x and y are the actual alleles and z is the allele generated by phased from x and y.
  • aligned reads reads aligned to x, y, and z are green, reads aligned to x and z are blue, reads aligned to y and z are purple, and only one allele is unique. Aligned reads are gray.
  • the HLAscan algorithm determines x and y having 3 and 2 unique aligned reads as final candidate alleles, and discards z having 0 unique aligned reads.
  • HLA genes have a large number of alleles and have very similar sequences between alleles, either homozygous or heterozygous haplotypes. It's also not easy to decide whether or not.
  • HLAreporter Predictions for the same 11 samples [HLAreporter] and PHLAT Predictions [PHLAT] for duplicate 10 samples are used as a comparison.
  • HLA-A, B, C, DRB1, and DQB1 Five (HLA-A, B, C, DRB1, and DQB1) genes were selected for 11 samples, and two alleles were selected for each gene, and a total of 110 alleles were detected. Proceed with (predictions).
  • Table 1 shows that HLAscan and HLAreporter show 100% accuracy for 110 alleles predictions, while PHLAT shows relatively low accuracy (2-digits 3 for 100 alleles predictions). Dog mistyped (97%), 4-digits 2 mistyped (95%) Also, the HLAreporter has reported 13 alleles due to the ambiguity of the phase, but this is an error. The result was not judged as (mistyped).
  • HLAreporter was also detected for the same 51 samples and the results were compared.
  • HLA-reporter The number of samples that passed the quality test suggested by HLA-reporter was 18, 18, 11, 45, and 46 in HLA-A, HLA-B, HLA-C, HLA-DRB1, and HLA-DQB1, respectively. Describe the results of HLAscan's predictions on samples.
  • both HLAscan and HLAreporter are 100% accurate for 2-digits for the HLA-A, HLA-B, and HLA-C genes.
  • HLAscan is 100% accurate while HLAreporter is 80.5%, 83.3% and 95.5% accurate for each gene (see Table 2).
  • HLAscan shows 96.6% and 95.6% at the 2-digit and 4-digit levels for the HLA-DRB1 gene and 100 for the HLA-DQB1 gene, respectively. % And 91.3% accuracy.
  • HLAreporter has the accuracy of 97.8% and 95.6% for HLA-DRB1 gene and 98.9% and 89.1% for HLA-DQB1 gene.
  • HLAscna is allele of the specific alleles (15:01 is 3 for 16:01, except that 14:01 is 14: 141 mistyped). 06:05 two at 06:09 and 02:01 six at 02:02). This is similar to the results reported in [PHLAT].
  • the DRB1 * 02: 01: 01: 01 and DRB1 * 02: 02: 01: 01 alleles are only one at 'T' and 'C' at the 162th position of the exome 3 region, respectively. Only the sequence can see the difference. At this time, the exome 2 region is the same.
  • FIG. 6 shows samtools tview in which sequence reads of actual NA11830 samples are mapped to DRB1 * 02: 01: 01: 01 and DRB1 * 02: 02: 01: 01.
  • HLAscan has been shown to have very high accuracy for 11 public 1000 genome samples and 51 HapMap samples.
  • samples from five Koreans were generated using high quality sequences of 1000 genomes and HapMap using Invitrogen SeCore HLA-SBT kit, and predicted using HLAscan.
  • HLA typing was performed by PCR-SBT (sequence based typing) method and the results were compared.
  • the present invention relates to a human haplotyping with improved accuracy and efficiency in detecting a genotype for understanding genetic characteristics of a human through a computerized system.
  • an alignment based approach is employed. Haplotyping is performed using short sequence reads on the basis of not only improving the screening efficiency of candidate alleles, but also applying a unique read algorithm to false alleles caused by phase issues. There is an effect that can be detected.

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Bioethics (AREA)
  • General Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physiology (AREA)
  • Immunology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Microbiology (AREA)
  • Cell Biology (AREA)
  • Biochemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

본 발명은 인간의 유전적 특성을 파악하기 위한 지노타입을 전산화된 시스템을 통해 검출함에 있어, 정확성 및 효율성이 향상된 휴먼 하플로타이핑에 관한 것으로, 본 발명은 검사 대상 유전자의 시퀀스를 수집하는 시퀀스 리드 수집단계와; 수집된 시퀀스 리드를 데이터베이스에 저장된 레퍼런스에 매칭시켜 정렬하는 시퀀스 리드 정렬단계와; 레퍼런스 대립유전자 중 후보 대립유전자를 선별하는 대립유전자 선별단계; 그리고 상기 후보 대립유전자 중 최종 대립유전자를 설정하는 대립유전자 확정단계를 포함하여 수행된다. 이와 같은 본 발명에 의하면, 본 발명은 정렬 접근법(Alignment based approach)을 기반으로 하여 짧은 시퀀스 리드(ort sequence reads)를 이용하여 하플로타이핑을 수행하되, 후보 대립유전자의 선별 효율을 향상시킬 수 있을 뿐만 아니라, 고유리드 연산 알고리즘을 적용하여, phase issue로 인한 허위대립유전자를 검출할 수 있는 효과가 있다.

Description

휴먼 하플로타이핑 시스템 및 방법
본 발명은 인간의 유전적 특성을 파악하기 위한 하플로타입을 전산화된 시스템을 통해 검출함에 있어, 정확성 및 효율성이 향상된 휴먼 하플로타이핑 시스템 및 방법에 관한 것이다.
현재 IT 시장의 추세는 구글(Google), 페이스북(fasebook), 아마존(amazon), 클라우드컴퓨팅 및 유비쿼터스(Ubiquitous) 순으로 변화하고 있고, 이와 동시에 바이오 메디컬, 생물정보 및 유전체 영역도 바이오 구글, 시스템 바이오, 개인별 맞춤의학 그리고 정밀의학 (precision medicine) 순으로 새로운 트랜드에 맞춰 바뀌어 가고 있다. 특히 포스트 인간게놈프로젝트는 차세대 시퀀싱 기술이 급격하게 발전하여 개인별 맞춤의학을 현실화하기 위한 노력이 활발히 진행되고 있다.
현재 차세대 시퀀싱 기술은 인간 1명 (x30)의 전장유전체를 시퀀싱(해독)하고 분석하는데 약 1주일 정도 소요가 되는 것으로 알려져 있다. 그리고 현재 전 세계에 차세대 시퀀서가 100,000여 대가 공급된 것으로 보고되었고, 제3세대 시퀀서 (Ion Torrent: 2.5세대, Pacific BioScience의 제3세대)의 주요 개발회사들에게 많은 자금이 투자된 것으로 보고되었다.
그 이외에 전 세계적으로는 해당분야는 모든 사업 중에서도 가장 빠르게 발전 및 개발이 되는 분야이다. 이러한, 추세대로 진행이 되면 향후 2~3년 후에는 1명의 전장 유전체 시퀀싱 및 분석이 약 $1,000이하로 낮아질 것으로 예상된다. 위의 차세대기술기반의 가장 활용성이 높고 바로 실용화되는 기술은 임상유전체(clinical genomics), 약물유전체학(pharmaco - genomics) 및 중개 임상 (translational medicine)있다, 그리고 최근에 이러한 임상유전체가 의학유전체(medical genomics)로 변신이 되고 있고, 이러한 의학유전체는 환자계층화(patient stratification)기술과 더불어 미국 오바마 대통령이 언급한 정밀의학 (precision medicine)이라는 새로운 학문 및 신 조어를 만들어 내게 되었다.
이와 같은, 유전체 변이 관련 정보는 매년 증가하고 있으며, 본 발명은 검증 데이터의 확장에 의해 분석 정확도 영역이 지속적으로 확대될 것이다.
한편, 본 출원인은 언급된 유전자 분석 분야의 기술적 요구사항을 개선하기 위해 지속적인 기술의 개발을 수행하고 있다.
이와 같은 노력의 결과, 정밀의학 (precision medicine)을 위한, 바이오 빅데이터와 관련된, 임상관련 정보, 단백체 및 유전체 정보, 그리고 이들의 분석 속도를 향상시키기 위한 분석 시스템 구축, 등을 위한 방법을 개발하였고, 특히, 분석속도를 위한 GPU(graphic process unit) 기반의 분석시스템을 개발하였고(특허등록: 10-0996443), 데이터의 비교 속도를 향상시키기 위한 기법인 RVR(records virtual rack)분석 툴의 특징은 파일을 기반으로는 정보 검색 방법(특허등록: 10-0880531, 특허등록: 10-1035959, 및 특허등록: 10-1117603)을 개발하였다.
또한, RVR 및 GPU(graphic process unit)에 기반하여 단백체에 적용시킨 (특허등록: 10-1400717), 변이의 정의(variant calling) 및 대조군과 개인 유전체 사이의 희귀변이 정도를 효율적으로 판단하기 위하여 대립유전자깊이기반 ADISCAN 분석 툴을 개발하였다 (특허등록: 10-1460520, 10-1542529, 및 10-2014-0020738).
그리고 유전체정보를 효율적으로 관리를 하기 위한 통합유전체 DB 생성, 질병원인을 위한 변이발굴 및 환자계층화를 위한 유전형 계산 방법 (특허등록: 10-2015-0187554, 10-2015-0187556, 및 10-2015-0187559) 및 유전체정보에서 휴먼하플로 타이핑을 계산하는 방법 (특허출원: 10-2016-0096996)을 개발하였다.
또한, 통합유전체 DB 같은 빅데이터를 위한 스토리지(storage) 운용에 특화된 미들웨어(middleware)는 한국전자통신연구원(ETRI)에서 개발한 병렬분산 환경에서 동시에 수천 개의 유전체 벌크 데이터 분석이 가능하게 만든 마하수퍼컴퓨팅 시스템 (특허등록 10-1460520, 10-1010219, 10-0956637, 10-093623, 10-2013-0005685, 10-2012-0146892 및 10-2013-0004519)이 개발되었다.
본 출원인은 한국전자통신연구원으로부터 마하시스템을 제공받아 임상환경에 적용을 위한 바이오 빅데이터를 활용한 최적화 환경을 갖추고, 정밀의학 구현을 위한 통합유전체분석 시스템과 연동된 국내 첫 수퍼컴퓨팅 시스템을 개발하였다.
특히, 마하-Fs (유전체와 같은 버크데이터용 초고속 I/O를 위한 스토리지 시스템)는 일반 클라우드컴퓨팅 환경에 맞추어 졌지만, 본 출원인은 재현성 및 정밀성 그리고 시스템의 한계를 명확하게 정의하여, 임상환경 즉 병원에서 진단용으로 사용가능한 마하-FsDx를 개발하였다. 그리고 선행기술문헌 (001) 내지 (019)는 개인 유전체 맵 기반 맞춤의학 분석 플랫폼을 위한 기술적 요소를 정리한 것이다.
인간 게놈 서열의 0.1% 이상을 차지하는 SNP는 인간 표현형 변이들(phenotypic variations)을 연결 짓는 주제가 되어왔다. 이에 따라 정확하면서도 신속한 하플로타이핑(haplotyping)을 하기 위한 다양한 플랫폼(platforms)들이 연구되고 있다.
여기서, 하플로타이핑은 인간의 전장유전체에 대하여 수행될 수도 있으나, 현재는 타이핑의 신속성 및 정확성을 위하여 대부분 특정 SNP 영역에 대하여 수행되고 있는 실정이다.
이는 하플로타이핑 결과의 정확성은 인간게놈 레퍼런스가 많이 확보될수록 증가되는 데, 지금까지는 특정 SNP 영역의 레퍼런스에 대하여만 신뢰성을 확보할 수 있는 정도의 레퍼런스가 확보되었기 때문이다.
상기 하플로타이핑은 다양한 영역의 SNP에 대하여 수행될 수 있으나, 최근 가장 활발히 활용되고 있는 분야는 인간 백혈구 항원 유전자에 대한 HLA 타이핑이다.
한편, 일반적인 하플로타이핑의 과정을 개략적으로 설명하면, 도 1에 도시된 바와 같이, 검사 대상 DNA sample로부터 BAM file을 생성하고, 검사 대상의 특정영역을 추출하여 Fastq 형태의 파일을 생성한다.
이후, 상기 Fastq 형태의 파일을 데이터베이스에 저장된 Haplotype의 대립유전자 레퍼런스와 대비하여, 검사 대상 DNA의 대립유전형을 판독한다.
이와 같은, 하플로타이핑 기술은 특정영역을 HLA 유전자로 한정한 HLA 타이핑에도 그대로 적용된다.
상기 HLA 타이핑의 최근 연구된 방법 및 기술이 아래 개시되어 있다.
그러나 상기한 바와 같은 선행 기술에서는 다음과 같은 문제점이 있다.
즉, 종래기술에 의한 하플로타이핑은 인간 유전자의 높은 다형성(highly polymorphic), 연관불균형(linkage disequilibrium) 및 유전자간 서열 유사성(sequence similarity) 때문에 정확한 검사결과를 기대하기 어려운 문제점이 있다.
이와 같은 문제를 극복하기 위해서 종래 선행기술을 이용하는 경우, 시퀀스 리드의 길이를 길게 하여야 하나, 이와 같은 경우, 분석시간 및 과정이 복잡해져, 분석 효율성이 저해되는 문제점이 있었다.
[선행출원 특허 목록]
(특허문헌 1) (001) 대한민국 등록특허 제10-0880531호
(특허문헌 2) (002) 대한민국 등록특허 제10-0996443호
(특허문헌 3) (003) 대한민국 등록특허 제10-1035959호
(특허문헌 4) (004) 대한민국 등록특허 제10-1117603호
(특허문헌 5) (005) 대한민국 등록특허 제10-1400717호
(특허문헌 6) (006) 대한민국 등록특허 제10-1460520호
(특허문헌 7) (007) 대한민국 등록특허 제10-1542529호
(특허문헌 8) (008) 대한민국 특허출원 제10-2015-0187554호
(특허문헌 9) (009) 대한민국 특허출원 제10-2015-0187556호
(특허문헌 10) (010) 대한민국 특허출원 제10-2015-0187559호
(특허문헌 11) (011) 대한민국 특허출원 제10-2016-0096996호
(특허문헌 12) (012) 대한민국 등록특허 제10-0834574호
(특허문헌 13) (013) 대한민국 등록특허 제10-1010219호
(특허문헌 14) (014) 대한민국 등록특허 제10-0956637호
(특허문헌 15) (015) 대한민국 등록특허 제10-0936238호
(특허문헌 16) (016) 대한민국 특허출원 제10-2013-0005685호
(특허문헌 17) (017) 대한민국 특허출원 제10-2012-0146892호
(특허문헌 18) (018) 대한민국 특허출원 제10-2013-0004519호
(특허문헌 19) (019) 대한민국 특허출원 제10-2016-0172053호
본 발명은 상기와 같은 종래의 문제점을 해결하기 위하여 안출된 것으로, 본 발명은 인간 유전자의 높은 다형성(high polymorphic)과 시퀀스 유사성(sequence similarity)로 인하여, 기존(Illumina)장비로부터 생성된 짧은 사퀀스 리드(short sequence reads)을 이용한 하플로타이핑의 정확성 저하문제를 해결하고자 하기 위한 것이다.
즉, 본 발명은 정렬 접근법(Alignment based approach)을 기반으로 하여 짧은 시퀀스 리드(short sequence reads)을 이용하여 하플로타이핑을 수행하되, 정확성이 향상된 하플로타이핑 방법 및 시스템을 제공하고자 하는 것이다.
질병 및 약물(혹은 음식물)반응 원인 계산 시스템은 집단의 유전정보 및 임상정보를 활용하여 다중 희귀분석 계수를 계산하고, 개인의 유전정보 및 임상정보를 변수로 하여 희귀함수의 결과인 관계지수(파이, π) 값을 계산한다. 여기서 관계지수(파이, π)는 개인의 유전체분석(유전형 마커ID) 및 병원임상정보(특정 표현형, 혹은 여러 표현형)기반 표준화 ID세트를 받게 되고 그 값들을 입력으로 하여 계산한다. 그리고 관계지수(파이, π)가 0.7 - 1의 영역에 있으면, 그 개인의 특정 유전 마커 ID가 주어진 표현형의 직 (혹은 간접) 원인이 된다.
도 7에 도시된 바와 같이, 표준화 ID set 시스템은 유전형 (trait)계산 이라는 총칭을 사용한다. 학자마다 다른 의견을 가질 수 있지만, 본 특허에서의 유전형(trait) 정의는 표준화 ID 세트 및 유사한 방식으로 정한다.
즉, 상기 표준환 ID set에는 하플로계층화 기반 LD블럭 하플로계층, Exon 하플로계층, Gene 마커 하플로계층, 다중 gene마커 하플로계층, GWAS 마커 하플로계층과, 본 발명에서의 생리활성 단일 변이 혹은 셋트 들의 BAV 마커 ID 그리고 공용 독립 (혹은 개별) 바이오마커 DB에서의 마커들에 ID를 말하고 GWAS 마커, Clinvar마커, eQTL 마커, 단백체 마커, STR 마커, Fusion 마커 등이 여기에 속한다.
또한, 병원 혹은 검진센터에서 보유하고 있는 전자의무기록(EMR: electronic medical record), 전자건강기록(EHR: electronic health record) 및 개인건강기록(PHR: personal health record)등과 같은 진단 표현형정보들이 여기에 포함한다.
그리고 약물 및 건강식품 (혹은 음식) 임상 (IIT: investigator initiative clinical trial, SIT: sponsor initiative clinical trial, PMS: post-market survey)의 약물 반응 결과물 (drug responder/non-responder)들과 같은 약물 임상 표현형정보 여기에 속한다.
그리고 통합유전체DB와 병원의료체계의 표준 표현형 질병정보를 사용하여 계수 값 계산을 위한 데이터베이스를 말한다. 여기서, 표현형 당 다른 다중 계수 값 들이 계산이 되고, 필요에 따라, 다중 표현형에 대한 다중 계수 값 들이 계산이 될 수 있다. 마지막으로 개인 유전체 및 병원 표현형정보가 주어지면, 다중 희귀함수(multiple logistic regression)의 결과물인 관계지수(파이, π) 값이 출력이 된다.
여기서, 관계지수(파이)는 0 ~ 1까지의 확률 점수로 주어지고, 0.7 - 1에 가까우면 주어진 표현형을 가질 확률이 높고, 0 - 0.3 이면 주어진 표현형의 반대이다. 그리고, 0.4 - 0.6은 표현형(phenotype)이 중간 단계에 있다는 의미이다.
특히, 하플로타이핑(haplotyping)기반 하플로계층화의 대상은, LD(linkage disequilibrium)블럭 하플로계층, Exon 하플로계층, Gene마커 하플로계층, 다중gene마커 하플로계층, GWAS(genome wide association study)마커 하플로계층에서의 공통점은, 인간유전자들의 특정단위를 하플로 타이핑을 수행하고, 그 중에서 중요한 마커(예, GWAS마커)만 사용가능하고, 혹은 전체 서열(exon, gene, 혹은 LD플럭)을 사용 가능하다. 그리고, 이렇게 생성된 하플로 계층화 ID는 총칭인 유전형 (trait)으로 명명될 수 있다. 특히, 하플로타이핑(haplotyping)기반 하플로 계층화도 인간 표준화 ID세트로 사용될 수 있다.
한편, 본 발명은 검사 대상 유전자의 시퀀스를 수집하는 시퀀스 리드 수집단계와; 수집된 시퀀스 리드를 데이터베이스에 저장된 레퍼런스에 매칭시켜 정렬하는 시퀀스 리드 정렬단계와; 레퍼런스 대립유전자 중 후보 대립유전자를 선별하는 대립유전자 선별단계; 그리고 상기 후보 대립유전자 중 최종 대립유전자를 설정하는 대립유전자 확정단계를 포함하여 수행된다.
이때, 상기 시퀀스 리드 수집 단계는, 특정영역의 시퀀스 리드를 선별하여 수집하는 단계를 포함하여 수행될 수도 있다.
그리고 상기 특정영역은, HLA 유전자 영역일 수도 있다.
또한, 상기 데이터베이스는, IMGT/HLA DB 일 수도 있다.
그리고 상기 시퀀스 리드의 정렬 단계는. 데이터베이스에 저장된 레퍼런스에 시퀀스 리드를 정렬시키는 단계와; 정렬된 시퀀스 리드를 레퍼런스 대립유전자와의 매칭 절대치에 따라 필터링하는 단계를 포함하여 수행될 수도 있다.
또한, 상기 대립유전자의 선별은, 정렬된 시퀀스 리드의 분포도(the distribution of read alignments)에 따라 후보 대립유전자(candidates alleles)를 선별함에 의해 수행될 수도 있다.
한편, 상기 정렬된 시퀀스 리드의 분포도 판정은, 정렬된 리드의 레퍼런스 상의 분포도의 분산이 낮은 경우, 해당 레퍼런스의 대립유전자를 허위 대립유전자로 판정하는 것일 수도 있다.
그리고 상기 정렬된 시퀀스 리드의 분포도 판정은, 상기 정렬된 리드의 분포도를 스코어로 환산하여, 상기 스코어가 기준치보다 낮은 경우, 허위 대립유전자로 판별할 수도 있다.
이때, 상기 스코어는, 수식
Figure PCTKR2016015428-appb-I000001
에 의해 산출되고; 상기 m은 대립유전자 길이에 따라 설정되는 값이고, C는 상수이며, 상기 noread는 시퀀스 리드가 정렬되지 않은 영역에 대하여 설정된 상수일 수도 있다.
그리고 상기 대립유전자 확정 단계는, 고유리드 연산 알고리즘에 의해 수행되고; 상기 고유리드 연산 알고리즘은, 레퍼런스 상에 후보 대립유전자(Candidate alleles)가 4개 이상 존재하는 경우, 상기 후보 대립유전자들 중 시퀀스 리드에 의한 완전 매치(mapping with 100% match)가 이루어진 대립유전자를 제외한 나머지 후보 대립유전자를 상기 후보 대립유전자에서 제외시키는 것일 수도 있다.
또한, 상기 대립유전자 확정 단계는, 고유리드 연산 알고리즘에 의해 수행되고; 상기 고유리드 연산 알고리즘은, 레퍼런스 상에 후보 대립유전자(Candidate alleles)가 3개 이하로 존재하는 경우, 각각의 후보 대립유전자(candidate allele) 중 어느 하나에만 정렬(aligned)된 시퀀스 리드(sequence reads)인 고유리드의 개수를 카운트(count)하고; 상기 고유리드의 개수에 따라 최종 2개의 후보 대립유전자(candidate allele)를 선정할 수도 있다.
그리고 상기 고유리드 연산 알고리즘은, 상기 최종 2개의 후보 대립유전자(candidate allele)가 각각 서로 다른 고유리드를 포함한 경우, 상기 대립유전자를 이형접합체의 대립유전자로 판별할 수도 있다.
또한, 상기 고유리드 연산 알고리즘은, 상기 최종 2개의 후보 대립유전자(candidate allele) 중 어느 하나에만 고유리드가 포함된 경우, 상기 대립유전자는 동형접합체의 대립유전자로 판별할 수도 있다.
한편, 본 발명은, 전술한 바와 같은 휴먼 하플로타이핑 방법을 수행하기 위해, 검사 대상 유전자로부터 수집된 시퀀스 리드를 데이터베이스에 저장된 레퍼런스 대립유전자에 매칭시켜 정렬하고: 상기 레퍼런스 대립유전자 중 후보 대립유전자를 선별하며: 상기 후보 대립유전자들로부터 2개의 최종 대립유전자를 선별하고: 상기 시퀀스 리드의 정렬은, 데이터베이스에 저장된 레퍼런스에 시퀀스 리드를 정렬시킨 후, 정렬된 시퀀스 리드를 레퍼런스 대립유전자와의 매칭 절대치에 따라 필터링함에 의해 수행되는 휴먼 하플로타이핑 시스템을 포함한다.
위에서 살핀 바와 같은 본 발명에 의한 휴먼 하플로타이핑 시스템 및 방법에서는 다음과 같은 효과를 기대할 수 있다.
즉, 본 발명은 정렬 접근법(Alignment based approach)을 기반으로 하여 짧은 시퀀스 리드(short sequence reads)를 이용하여 하플로타이핑을 수행하되, 정렬된 시퀀스리드의 분포도 스코어 기능을 사용하여, 후보 대립유전자의 선별 효율을 향상시킬 수 있는 효과가 있다.
또한, 본 발명은, 고유리드 연산 알고리즘을 적용하여, phase issue로 인한 허위대립유전자를 검출하여 제거함으로써, 정확성이 향상된 휴먼 하플로타이핑 결과를 제공할 수 있는 효과가 있다.
도 1은 본 발명에 의한 하플로타이핑의 전체적인 수행 단계를 도시한 예시도.
도 2는 본 발명의 구체적인 실시예에 의한 HLA타이핑의 전체적인 수행 단계를 도시한 예시도.
도 3은 본 발명의 구체적인 실시예에 의해 정렬된 시퀀스 리드의 분포도에 따라 후보 대립유전자를 선별하는 일 예를 도시한 예시도.
도 4는 본 발명의 구체적인 실시예에 의해 고유리드 연산 알고리즘에 의해 최종 후보 대립유전자를 선별하는 일 예를 도시한 예시도.
도 5는 본 발명의 구체적인 실시예를 설명하기 위한 오류 대립유전자의 일 예를 도시한 예시도.
도 6은 본 발명의 구체적인 실시예를 설명하기 위한 오류 대립유전자의 다른 예를 도시한 예시도.
도 7은 본 발명에 의한 질병 및 약물 반응 원인 계산 시스템의 개념적 구성을 도시한 개념도.
이와 같은 본 발명에 의한 휴먼 하플로타이핑 방법은 검사 대상 유전자의 시퀀스를 수집하는 시퀀스 리드 수집단계와; 수집된 시퀀스 리드를 데이터베이스에 저장된 레퍼런스에 매칭시켜 정렬하는 시퀀스 리드 정렬단계와; 레퍼런스 대립유전자 중 후보 대립유전자를 선별하는 대립유전자 선별단계; 그리고 상기 후보 대립유전자 중 최종 대립유전자를 설정하는 대립유전자 확정단계를 포함하여 수행된다.
이때, 상기 시퀀스 리드 수집 단계는, HLA 유전자 영역의 시퀀스 리드를 선별하여 수집하는 단계를 포함하여 수행되며, 상기 데이터베이스는 IMGT/HLA DB가 적용된다.
그리고 상기 시퀀스 리드의 정렬 단계는. 데이터베이스에 저장된 레퍼런스에 시퀀스 리드를 정렬시키는 단계와; 정렬된 시퀀스 리드를 레퍼런스 대립유전자와의 매칭 절대치에 따라 필터링하는 단계를 포함하여 수행된다.
또한, 상기 대립유전자의 선별은, 정렬된 시퀀스 리드의 분포도(the distribution of read alignments)에 따라 후보 대립유전자(candidates alleles)를 선별함에 의해 수행되고, 상기 정렬된 시퀀스 리드의 분포도 판정은, 상기 정렬된 리드의 분포도를 스코어로 환산하여, 상기 스코어가 기준치보다 낮은 경우, 허위 대립유전자로 판별하는 것이 바람직하며, 이때, 상기 스코어는,
Figure PCTKR2016015428-appb-I000002
에 의해 산출되고, 상기 m은 대립유전자 길이에 따라 설정되는 값이고, C는 상수이며, 상기 noread는 시퀀스 리드가 정렬되지 않은 영역에 대하여 설정된 상수이다.
또한, 상기 대립유전자 확정 단계는, 고유리드 연산 알고리즘에 의해 수행되고; 상기 고유리드 연산 알고리즘은, 레퍼런스 상에 후보 대립유전자(Candidate alleles)가 3개 이하로 존재하는 경우, 각각의 후보 대립유전자(candidate allele) 중 어느 하나에만 정렬(aligned)된 시퀀스 리드(sequence reads)인 고유리드의 개수를 카운트(count)하고; 상기 고유리드의 개수에 따라 최종 2개의 후보 대립유전자(candidate allele)를 선정하는 것이 바람직하다.
이하에서는 첨부된 도면을 참조하여 본 발명의 구체적인 실시예에 의한 휴먼 하플로타이핑 시스템 및 방법을 설명하기로 한다.
본 발명에 의한 하플로타이핑 시스템 및 방법은 인간의 전장 유전체에 대한 하플로타이핑에 적용될 수도 있고, 특정 영역의 SNP에 대하여 적용될 수 있다.
여기서 특정 영역이라 함은 특정 기능 수행에 관련된 유전자(또는 유전자들의 조합) 영역을 의미하는 것으로, 대표적으로는, 인간의 면역체계조절기능을 담당하는 인간 백혈구 항원 유전자(HLA gene) 영역, 약물대사관련 기능을 담당하는 유전자(DMET gene) 영역, 면역세포 발현에 관련된 유전자(KIR gene) 영역 및 혈액 특성에 관련된 유전자(ABO gene) 영역 등이 될 수 있다.
따라서, 본원 발명은 인간 전장 유전체에 대한 하플로타이핑뿐만 아니라, HLA 타이핑, DMET 타이핑, KIR 타이핑 및 ABO 타이핑 등 특정 영역에 대한 하플로타이핑에도 적용될 수 있다.
여기서, DMET (Drug Metabolizing Enzymes and Transporters)은 약물의 흡수(absorption)와 처리(disposition), 약물작용에 관여하는 단백질 효소(enzymes)와 전달자(transporters)들을 일컫는다.
예를 들면, cytochrome p450 enzyme family (CYPs), uptake transporters, efflux transporters 등이 이에 속하고, 한 혈족(family) 안에 여러 개의 유전자가 있으며, 이들의 유전자 서열은 서로 비슷하면서도 다형성(polymorphism)을 갖는다.
개인간 DMET 유전자 서열 차이는 약물반응, 부작용, 질병민감성 등에 영향을 미칠 뿐만아니라 적절한 약물선택의 기준이 될 수 있기 때문에 최근 약물유전학(pharmacogenetics)에서 주목받는 연구분야이다.
그리고 KIR (Killer-cell Immunoglobulin-like Receptors)은 Natural killer (NK) cell이나 T cell 과 같은 특정 면역세포의 표면에 발현되는 단백질이다.
KIR은 다른 세포의 표면에 있는 major histocompatibililty (MHC, 주조직적합성) class I 과 상호작용함으로써 NK cell과 T cell의 세포를 죽이는 능력을 조절한다.
따라서, KIR의 이러한 기능은 감염, 자가면역질환, 암 등에 대한 민감성과 반응성향과 관련이 있다.
그리고 상기 KIR은 매우 다양(polymorphic)하여 유전자 서열이 개인마다 차이가 크며, 개인마다 가지고 있는 유전자 양이나 종류가 다르다.
한편, ABO(blood type)는 ABO 혈액형과 수혈관계를 따지는 데 주요한 역할을 하는 유전자로, 크로모좀 9q34에 위치해 있으며 전통적인 혈청기법으로는 3개의 대립유전자(allele)(A, B, O types)을 구분할 수 있다.
A, B, O 각각의 대립유전자(allele)에도 세부그룹(subgroup)이 존재하며 드물게 같은 혈액형이라 하더라도 세부그룹(subgroup)간에 수혈이 불가능한 문제가 생기기도 한다.
그, 이외에 인간의 모든 유전자 40,000여개의 대하여 같은 로직을 적용하여 계산이 가능하다.
이하에서는, 본 발명 설명의 구체성을 확보하기 위해, HLA 타이핑을 대표적인 실시예로 설명하기로 한다.
주요 조직 적합성 복합체 분야(The major histocompatibility complex regions)는 휴먼게놈(human genome) 중에서 가장 복잡한 영역 중 하나이고 인간의 면역체계 조절 기능(the regulation of the immune system)을 책임지고 있다. 그 중 인간의 백혈구 항원(the Human leukocyte antigens, HLAs) 유전자는 6번 염색체(chromosome)의 약 3Mbp stretch에 존재하고 병원균(pathogen)을 억제하고 제거하는 적응형 면역 반응(adaptive immune response)에 큰 역할을 담당한다.
임상 관점에서는 장기이식을 할 때 기증자(donor)와 수증자(recipient) 간의 HLA 유전자가 유사할 경우 거부반응(rejection)의 위험을 줄일 수 있다. 따라서 정확한 HLA 타이핑(typing)은 매우 중요한 문제이다.
그러나 HLA 유전자(genes)의 높은 다형성(highly polymorphic), 연관불균형(linkage disequilibrium) 및 유전자간 서열 유사성(sequence similarity) 때문에 정확한 HLA 타이핑은 매우 어렵다.
예를 들면 엑손(exons) 2-4 of HLA-A gene in class I에 대해 IMGT/HLA 데이터베이스(database)에 보고된 대립유전자(alleles)는 수 천 개가 존재하고, HLA-A, B 및 C genes 간의 대립유전자(alleles)들은 매우 유사하다.
낮은 해상도(2-digits)에 의해 같은 항원 펩티드(antigen peptide)일지라도 아미노산(amino acid)의 차이로 인해 동종 반응(allogeneic response)을 유발할 수 있기 때문에 아미노산 수준(amino acid level)의 고 해상도(4-digits)까지 HLA 타이핑(ydping)이 필요하다.
고해상도(High resolution) HLA 타이핑(typing)의 기존 방법은 특정 올리고 뉴클레오티드 시퀀스(SSO)에 의한 PCR 법(polymerase chain reaction by sequence specific oligonucleotide)과 SBT(sequence-based typing)법이 있지만 이와 같은 방법은 작업인력의 노동력에 의존하여 처리되어, 낮은 처리량(low-throughput)과 고비용이 문제시된다.
한편, TAS(Targeted amplicon sequencing) 접근법은 PCR법에 비해 상대적으로 높은 처리량(high-throughput)을 나타내므로, 저렴한 비용으로, 수백 bases의 long reads를 생성하여 높은 정확성을 가지는 HLA 타이핑이 가능하다.
그러나 효율성과 비용 때문에 최근 생성되고 있는 대다수의 데이터는 genome-wide sequence, whole genome sequence (WGS) 또는 whole exome sequence (WES)이고, 이와 같은 데이터는 long reads가 아닌 short sequence reads (~101bp)를 가진다. 따라서 이와 같은 short sequence reads 이용하여 TAS 접근법과 같은(또는 그 이상) 정확도와 경제성을 갖춘 HLA 타이핑에 대한 필요성이 대두되고 있다.
즉, 본 발명에 의한 HLA 타이핑은 short read를 이용하여, 정확성 및 효율성이 확보된 HLA 타이핑을 제공하기 위한 것이다.
Short sequence reads를 이용한 HLA typing 방법은 크게 두 분류로 나뉜다.
하나는 short reads들을 조합(assemble)하여 긴 콘티그(contigs)를 생성하여 전체 HLA type을 결정하는 것이고, 다른 하나는 알려진 대립 유전자 시퀀스(allele sequences)를 레퍼런스(reference)로 하여 short sequence reads 들을 정렬(align)한 후 정렬된 정보로 실제 대립 유전자(alleles)를 결정하는 방법이다.
조합(Assembly)에 기반한 방법은 short reads를 사용할 경우 phasing issue로 인한 대립유전자의 부정합(false positive allele) 판정 문제를 해결하기 어렵고, 요구되는 시간도 길어지게 된다.
한편, 얼라인먼트(Alignment)에 기반한 방법은 HLA 유전자 영역의 높은 다형성(high polymorphic)으로 인해 알려진 대립유전자(alleles)들이 매우 유사하기 때문에 실제 대립유전자(alleles)를 결정하는 것이 쉽지 않다.
이러한 문제점에도 불구하고 연구자들의 많은 관심 속에 조합에 기반한 방법으로는 HLAreporter가 소개되었고, 얼라인먼트에 기반한 방법으로는 PHLAT 등이 소개되었으며, 최근에 발표된 HLAreporter과 PHLAT은 이전 HLA 타이핑에 비하여 정확한 HLA 타이핑 결과를 나타낸다.
본 발명에 의한 HLA 타이핑은 genome-wide short sequencing data에 대해 매우 정확한 HLA 타이핑을 수행하는 것으로, 이하에서는 이를 HLAscan이라 칭한다.
PHLAT등의 종래기술에서는 정렬된 리드(aligned read)와 유전자 깊이(depth coverage)로 대립유전자 후보군(candidate alleles)을 선별하였으나, 본 발명에 의한 HLAscan은 대립유전자(alleles)에 정렬(align)된 리드의 분포도(read distribution)를 이용한다.
또한, 본 발명은 phase issue로 선택된 대립유전자의 부정합(false positive alleles)을 제거하기 위한 알고리즘(이하 '고유리드 연산 알고리즘'이라 한다)이 적용된다.
본 발명에 의한 HLAscan을 이용하여, 시험한 결과, 11개의 1000 genome samples, 51개의 HapMap samples, 자체 5개의 samples 에 대하여 종래기술에 비하여 정확성이 매우 향상된 결과를 보였다.
이하에서는 본 발명에 의한 HLAscan의 구체적인 구성을 설명하기로 한다.
본 발명에 의한 HLAscan은,
1) 대립유전자 후보군(Candidate alleles)을 선별함에 있어, 정렬된 리드의 분포도를 고려한 스코어 기능(score function considering the distribution of aligned reads)을 제공하고;
2) phase issue로 생성된 대립유전자의 부정합(false positive alleles)을 검출하기 위한 고유리드 연산 알고리즘을 제공한다.
본 발명에 의한 HLAscan은 기본적으로 정렬기반의 접근법(Alignment-based approach)을 기반으로 한 것으로, 도 2에 도시된 바와 같이, 크게 두 단계로 구분된다.
제1단계(Tier1)는 NGS 장비로부터 생성된 원시 시퀀스 리드(raw sequence reads)를 전장 유전체 레퍼런스(whole genome reference)에 정렬(alignment)하여 이진정렬맵(binary alignment/map, BAM)을 생성한 후 HLA 유전자 영역(genes region)에 해당되는 시퀀스 리드(sequence reads)들을 선별하는 과정이다.
제2단계(Tier2)는 먼저, IMGT/HLA database에 존재하는 모든 대립유전자(alleles)에 각각 그 시퀀스 리드(sequence reads)들을 각각 정렬(alignment)한다.
HLA-A 를 예로 들면 IMGT/HLA database에 HLA-A gene의 알려진 대립유전자(alleles)는 3182개가 존재하고, HLAscan은 이들 대립유전자(alleles)들을 레퍼런스로 하여 수집된 시퀀스 리드(sequence reads)를 각각 정렬(alignment)한다.
그리고 정렬(alignment)된 정보를 이용하여 최종 대립유전자(alleles)를 결정한다.
이때, 본원 발명은 정렬된 정보로부터 최종 대립유전자를 결정함에 있어, 후보군 대립유전자를 선별하기 위하여 정렬된 리드 분포도를 고려한 스코어기능을 제공하고; 최종 대립유전자의 선별함에 있어, phase issue를 해결하기 위해 고유리드 연산 알고리즘을 제공한다.
이하에서는, 본발명에 의한 HLAscan에서 제공하하는 정렬된 리드 분포도를 고려한 스코어기능 및 고유리드 연산 알고리즘의 구체적인 내용을 설명하기로 한다.
정렬된 리드 분포도를 고려한 스코어 기능(score function considering the distribution of aligned reads)
HLAscan은 IMGT/HLA database에 저장된 수천(약 8,000)개의 대립유전자 모델(alleles from) 중에 진정 대립유전자(true alleles)를 선택하기 위해 정렬된 리드의 분포도를 고려한 스코어 기능(score function considering the distribution of aligned reads)을 사용하여 허위 대립유전자(false alleles)를 제거한다.
이 과정에서 제거되지 않고 남은 대립유전자(alleles)는 후보 대립유전자(candidate allele)라고 한다.
이때 상기 정렬된 리드의 분포도를 고려한 스코어 기능(score function considering the distribution of aligned reads)은 정렬된 리드의 레퍼런스 상의 분포도가 균일하게 분산되지 않은 경우, 해당 레퍼런스의 대립유전자를 허위 대립유전자로 판정하는 것을 말한다.
예를 들어, 레퍼런스 시퀀스(Reference sequence, ref)의 position s_i 내지 e_i에 정렬(alignment)된 read_i (1≤i≤n)가 주어졌다고 가정하면, 이때, 'read_i는 ref의 position (s_i+e_i)/2 에 정렬(alignment)되었다' 라고 정의된다. 그리고 리드(Read)가 정렬(align)되어 있지 않은 reference의 연속 포지션(consecutive positions)들을 noread_j (1≤j≤m)라 한다.
이 경우, score function은,
Figure PCTKR2016015428-appb-I000003
(c is a constant)
에 의해 산출될 수 있다.
이때, 산출된 스코어가 기준치보다 크게 산출된 레퍼런스를 허위 대립유전자에 대한 레퍼런스로 판정하여, 해당 대립유전자를 후보에서 제외시킬 수 있다.
고유리드 연산 알고리즘
본 발명에 의한 고유리드 연산 알고리즘은 1) 후보 대립유전자(Candidate alleles)가 다수 존재할 경우 불합치 후보 대립유전자(false positive candidate alleles)를 제거하는 알고리즘과, 2) 3개 이하의 후보 대립유전자(candidate alleles)가 존재할 경우 phase issue로 선택된 후보 대립유전자(candidate alleles)를 검출하여 제거하는 알고리즘을 포함한다.
또한, 본 발명에 의한 고유리드 연산 알고리즘은 전술한 바와 같은 판단결과를 바탕으로 최종 대립유전자가 동형접합체(homozygous)의 대립유전자 인지 이형접합체(heterozygous)의 대립유전자인지 여부를 판별할 수 있다.
예를 들어, 타이핑할 유전자(gene)로부터 시퀀스 리드(sequence reads)를 수집하였고 시퀀싱에 오류(sequencing error)가 없다고 가정한다.
이때, t 개의 candidate allele_i (1≤i≤t) 중 서로 다른 시퀀스를 갖는 두 개의 리드 A, B(two reads A and B which have different sequence)가 서로 다른 allele_p 및 allele_q (1≤p,q≤t)의 position x to y 에 각각 100% 매치 되어 맵핑(mapping with 100% match)되고, 다른 영역에는 맵핑(mapping)되지 않았을 때, 해당 검사체의 실제 유전자는 리드 A의 시퀀스(sequence)를 포함한 한 가닥 그리고 리드B의 시퀀스(sequence)를 포함한 한 가닥을 가진 이형집합체(heterozygous)이다.
따라서 리드 A 및 리드 B 중 어떤 것도 mapping with 100% match 되지 않는 후보 대립유전자(candidate alleles)는 불합치 대립유전자(false positive allele)이므로 제거한다.
또한, 본 발명에 의한 고유리드 연산 알고리즘은 3개 이하의 후보 대립유전자(candidate alleles)가 존재할 때, 각각의 후보 대립유전자(candidate allele)에 대하여 오직 자신에게만 정렬(aligned)되어 있는 시퀀스 리드(sequence reads)의 개수를 카운트(count) 하여 그 순으로 제1후보 대립유전자(the first candidate allele) 및 제2후보 대립유전자(the second candidate allele)를 선정한다. 그리고 선택된 두 개의 후보 대립유전자(candidate alleles)에 대해 같은 과정을 반복한다.
만약 두 후보 대립유전자(candidate alleles) 모두 고유 정렬 리드(unique aligned reads)를 가지고 있을 때 2개의 대립유전자(alleles)를 최종결과물로 산출한다. 이 경우 해당 대립유전자는 이형접합체의 대립유전자임을 의미한다.
그리고 하나의 후보 대립유전자(candidate allele)만 고유 정렬 리드(unique aligned reads)를 가지고 있을 때(하나의 allele에 aligned reads가 다른 allele의 모든 aligned reads를 포함한 경우), 고유 정렬 리드를 가진 대립유전자만을 최종 결과로 출력한다. 이 경우 해당 대립유전자는 동형접합체의 대립유전자임을 나타낸다.
본 발명에 의한 HLAscan 시험 내용
본 발명의 시험에는 전장 엑솜 염기서열(whole exome sequencing, WES)이 분석되어 공지(public)된 1000 게놈 프로젝트의 11명의 샘플(11 samples from the 1000 Genome projects), HapMap 프로젝트로부터 51명의 샘플(51 samples from the HapMap projects) 및 한국인 5명의 샘플(5 internal Korean samples) 가 사용되었다.
본 발명의 실험에서는 HLA class I (HLA-A, HLA-B, and HLA-C)과 class II (HLA-DRB1 and HLA-DQB1) 영역(regions)에 대한 HLAscan의 결과(predictions)를 보인다(Additional file: Table R12, R22, R32). HLAscan의 성능 평가를 위해 HLAreporter[ref]와 PHLAT[ref]의 결과(predictions)를 비교로 사용한다.
HLAscan에 편향된 비교를 피하기 위해 각 methods들이 그들의 논문에 제시한 기준으로 정확성을 평가한다. 11개의 1000 genome samples에 대한 결과는 Table R1, 51개의 HapMap samples에 대한 결과는 Table R2, and 5 Korean samples에 대한 결과는 Table R3에서 보인다.
1) HLA 유전자 영역의 시퀀스 수집
퍼블릭(Public)하게 생성되어 있는 대다수의 데이터는 홀 지놈 시퀀스 whole genome sequence (WGS) 또는 홀 엑솜 시퀀스 whole exome sequence (WES)이므로, HLA 타이핑(typing)을 위해 HLA genes region에서 생성된 시퀀스 리드(sequence reads)를 선별한다.
HLAscan은 sequence reads들을 bwa-mem v0.7.10-r789를 사용하여 hs37d5 WGS reference에 alignment하고 HLA-gene regions에 정렬(align)되어 있는 모든 시퀀스 리드(sequence reads)들을 수집한다.
시퀀스 간 유사성(sequence similarity)은 HLA genes 간에 높게 나타나고, 이외의 영역에서는 낮게 나타나므로, HLA genes 외에서 생성된 시퀀스 리드(sequence reads)들은 간단하게 제거할 수 있다.
단, 본 발명에 의한 HLAscan은 이 과정 중에 sequence reads 들을 특정 HLA 유전자(specific HLA genes)별로 구분하지 않으나, HLAreporter 및 HLAminer 등 assemble-based methods의 종래기술에서는 주어진 short sequence reads로부터 de novo assembly를 사용하여 최종 유전형(haplotype)을 결정한다.
따라서, 타이핑할 HLA gene에 대한 sequence reads 선별의 정확성은 HLA typing의 정확성에 직접적인 영향을 준다.
그러나 HLA 유전자들 간의 시퀀스 유사성(sequence similarity, ex: HLA-A, HLA-B, and HLA-C) 때문에 이 과정은 용이하지 않게 되고, HLA reporter는 IMGT/HLA database를 사용하여 특정 HLA gene의 시퀀스 리드(sequence reads)를 수집한다.
본 발명에 의한 HLAscan은 IMGT/HLA database를 기준으로 얼라인먼트(alignment) 과정 중에 해당 HLA gene의 시퀀스 리드(sequence reads)가 선별되므로, 해당 과정 동안 정확한 시퀀스 리드(sequence reads)를 선별할 필요성이 낮다.
이는 본 발명에 의한 HLAscan이 IMGT/HLA database에 시퀀스 리드(sequence reads)를 alignment하는 과정에서 100% 일치하는 시퀀스 리드(sequence reads)들만 남기기 때문에 해당 유전자(gene)의 시퀀스리드(sequence reads)들을 선별함에 있어, 정확도는 크게 문제되지 않는다.
즉, 본 발명에 의한 HLAscan이 HLA gene regions의 시퀀스리드(sequence reads)를 선별하는 이유는 정확성보다는 효율성이다. 이에 따라 매우 단순한 방법에 의해 상당수의 HLA genes region으로부터 생성된 시퀀스리드(sequence reads)를 제거할 수 있고, 이는 수집된 시퀀스리드 (sequence reads)를 IMGT/HLA database의 수 천 개의 대립유전자(allele)s 에 정렬(align)할 때 수 십 배 이상의 속도 향상을 가져올 수 있다.
이는 HLA-genes region에 대한 target sequencing이 이루어졌을 경우, 도 2의 제1단계(Tier 1)과정이 생략될 수 있기 때문이다.
2) 리드의 정렬(reads alignment)
HLAscan은 선택된 HLA genes region에 대하여 타깃 시퀀싱(Target sequencing)된 시퀀스리드 (sequence reads)들을 IMGT/HLA database에 존재하는 모든 레퍼런스 대립유전자(reference alleles)에 bwa-mem v0.7.10-r789를 사용하여 default 옵션으로 각각 얼라인먼트(alignment) 한다.
그 후, 레퍼런스 대립유전자(reference alleles)와 100% 일치하지 않는 리드들은 제거한다.
HLA 유전자 간의 시퀀스 유사성(sequence similarity)과 대부분의 HLA 유전자에 존재하는 대량의 대립유전자(existence of large number of alleles for most HLA genes) 때문에 HLAscan은 레퍼런스 대립유전자(reference alleles)와 100% 매치되는 리드(reads)만 매칭(mapping)함으로써 리드 정렬(read alignment)의 정확성을 높인다.
그러나 이와 같은 강력한 제한에도 불구하고 다른 유전자(gene)로부터 생성된 시퀀스 리드(sequence reads)가 해당 유전자(gene)의 대립유전자(alleles)에 매핑(mapping)될 수 있다.
3) 후보 대립유전자의 선별(Selection of candidate alleles)
후보 대립유전자(Candidate alleles)를 선별하기 위해 종래기술인 PHLAT 및 Major(2013')은 리드의 정렬과 이의 뎁스 범위(depth coverage)를 고려하여 간단하지만 정확성이 향상된 HLA 타이핑 방법을 선보이고 있다.
그러나 본 발명에 의한 HLAscan은 이들 종래기술보다 더욱 정확한 HLA 타이핑을 위해 정렬된 리드의 분포도(the distribution of read alignments)를 고려하여 후보 대립유전자(candidates alleles)를 선별한다.
도 3에 도시된 바와 같이, 4개의 대립유전자(alleles)에 얼라인먼트(alignment)된 리드(reads)들의 모습을 볼 수 있다. 대립유전자(allele) 2 및 4는 실제 sample의 대립유전자(alleles)이고 대립유전자(allele)1은 대립유전자(allele) 4의 앞 부분과 대립유전자(allele)2의 뒷부분이 결합하여 생긴 허위 대립유전자(phased allele)이다. 대립유전자(allele) 3은 실제 대립유전자(alleles) 2 및 4와 sequence가 다른 부분이 많은 대립유전자(allele)이다.
여기서, 종래기술인 PHLAT와 같이, 'reads'를 고려하면 명백하게 대립유전자(allele)4 및 대립유전자(allele)1이 선택되어 허위 대립유전자(phased allele) 1로 인해 실제 대립유전자(allele) 2가 선택되지 못한다. Depth coverage를 고려한 경우에도 대립유전자(allele)4는 명백하지만 대립유전자(allele)1과 대립유전자(allele)2 중 하나를 선택하는 것을 불가능하다.
한편, 본 발명에 의한 HLAscan 은 스코어 기능(core function)은 정렬된 리드(aligned reads)가 균등하게 분산된 정도를 고려하기 때문에 명확하게 대립유전자(allele)2와 대립유전자(allele)4 중 대립유전자(allele)2를 선별하는 것이 가능하다.
본 발명에 의한 HLAscan은 각각의 대립유전자(allele)에 대해 스코어 기능(score function)을 사용하여 스코어(score)를 계산하고, 특정 값을 넘는 대립유전자(allele)들은 제거하였다. 스코어 기능(Score function)에 사용된 constant value는 30이고, cutoff score 는 200이다.
여기서, score 는 0 이상 이면서 작을 수록 좋다.
즉, 제거되지 않은 대립유전자(alleles) 중 리드 분산도(reads distribution)가 완전히 동일한 대립유전자(alleles)는 하나의 그룹(group)으로 묶는다.
이와 같이, 후보 대립유전자(Candidate alleles)를 줄이는 것은, 후술할 최종 대립유전자(final alleles)의 결정 정확성을 높이는데 도움이 된다.
4) 최종 대립유전자의 결정(Determination of final alleles considering phase issue)
Phase issue는 연관불균형 영역(linkage disequilibrium region)이고 짧은 시퀀스 리드(short sequencing reads) 데이터를 사용하는 경우 심각한 문제이다.
본 발명은 이를 해결하기 위한 효율적인 알고리즘을 제안한다. 이와 같은, 알고리즘에 의해 실제 수행한 실험 범위 내에서는 phasing 문제가 해소되었음을 볼 수 있다.
즉, 본 발명에 의한 후보 대립유전자(candidate alleles) 각각에 대해 고유 정렬 리드(unique aligned reads)의 개수 정보를 이용하는 알고리즘은 phase issue를 효과적으로 해결한다.
특히, 후보 대립유전자(candidate allele)수가 3개 이하인 경우, 본 발명에 의한 알고리즘은 매우 정확하게 phased allele를 찾아낸다.
도 4에 도시된 예에서는, x and y가 실제 대립유전자(alleles)이고 z가 x와 y로부터 phased되어 생성된 대립유전자(allele)이다. Aligned reads중 x, y, and z에 모두 aligned 된 reads는 green, x와 z에 align된 reads는 blue, y와 z에 align 된 reads는 purple, and 하나의 대립유전자(allele)에만 고유하게(unique)하게 align 된 reads는 gray이다.
본 발명에 의한 HLAscan 알고리즘은 unique aligned reads를 각각 3개, 2개를 가지는 x and y를 최종 후보 대립유전자(candidates alleles)로 결정하고, 0개의 unique aligned reads를 가지는 z는 버린다.
HLA genes은 수많은 대립유전자(allele)들을 가지고 있고 그 대립유전자들(alleles)간에 매우 유사한 시퀀스(sequence)를 가지기 때문에 동형접합체의 하플로타입(homozygous haplotype)인지 이형접합체의 하플로타입(heterozygous haplotype)인지 결정하는 문제도 쉽지 않다.
그러나 본 발명에 의하면, 두 개의 최종 후보 대립유전자(final candidate alleles)가 주어져 있을 때, 하나의 대립유전자(allele) A에 정렬된(aligned)된 모든 리드(reads)를 다른 대립유전자(allele) B에 정렬(aligned)된 리드(reads)가 포함할 때 대립유전자(allele) A는 제거한다.
한편, 두 대립유전자(alleles) 모두 고유 정렬 리드(unique aligned reads)들을 가질 때 이형접합체(heterozygous)로 판단한다.
본 발명에 의한 HLAscan 실험 결과
1) 11개의 1000 genome samples에 대한 검사(Predictions of 11 samples from 1000 genome projects)
HLAscan의 정확성을 검증하기 위해 기존의 laboratory HLA-typing [Liu et al.]이 되어있는 11 samples from 1000 genome projects 을 검측(predictions)하였다. 동일한 11 samples 에 대한 HLAreporter의 검측(predictions) [HLAreporter]과 중복된 10 samples에 대한 PHLAT의 검측(predictions) [PHLAT]을 비교로 사용한다.
종래 비교기술로 적용된 PHLAT과 HLAreporter는 기존의 다른 선행기술에 의한 것보다 높은 정확성을 가진다고 보고되어 있다.
11개의 samples에 대해 각각 5개의 (HLA-A, B, C, DRB1, and DQB1) genes, 그리고 각 gene마다 2개의 대립유전자(alleles)를 선별하여, 총 110개 대립유전자(alleles)에 대하여 검측(predictions)을 진행한다.
이때, 동형접합체(homozygous)에 대한 검측의 경우 검측(prediction)된 대립유전자(allele)를 2개로 판단한다.
PHLAT는 100개의 대립유전자(alleles)에 대하여 검측(predictions)하였다. Additional file: Table R2에서 각 방법에 대한 검측결과가 도시되어 있다.
[표 1]을 보면 HLAscan과 HLAreporter는 110개의 대립유전자 검측(alleles predictions)에 대해 100% 정확성을 보여주는 반면, PHLAT은 100개의 대립유전자 검측(alleles predictions)에 대해 상대적으로 낮은 정확성(2-digits 3개 mistyped (97%), 4-digits 2개 mistyped (95%) 을 보여준다. 또한, HLAreporter는 phase에 대한 불명확성(ambiguity)으로 인해 다수의 대립유전자(alleles)가 보고된 경우가 13번 있으나 이를 오류(mistyped)로 판단하지 못하는 결과를 나타냈다.
Methods # of examinated 대립유전자(allele)s Phase Wrong(2-digits) Wrong(4-digits) Accuracy(2-digits wrong) Accuracy(4-digits wrong)
HLAreporter 110 13 0 0 100% 100%
PHLAT 100 - 3 2 97% 95%
HLAscan 110 - 0 0 100% 100%
<표 1. Accuracies (Liu et al. 의 predictions[Liu 2013]을 참으로 간주한 경우)>
2) 51개의 HapMap projects samples에 대한 검사 Predictions of 51 samples from HapMap projects
1000 genome samples에 대한 HLAscan의 높은 정확성이 검증되었고, 이에 더불어 HLAscan의 신뢰성(reliability)을 높이기 위해 추가적으로 public 51 HapMap samples 에 대하여 검측(predictions)을 수행하였다.
본 시험의 samples은 2013년에 Baylor College of Medicine (BCM) and Washington University Genome Sequencing Center (WUGSC) 에 의해 생성되었고 확인된(verified) HLA types를 가지고 있다[Erlich2013, HLAreporter2015 참조]
HLAreporter도 동일한 51 samples에 대하여 검측(predictions)하였고, 이 결과를 비교 대상으로 하였다.
HLA regions의 극단적인 다형성(extreme levels of polymorphism)과 연관불균형(linkage disequilibrium)등의 특성으로 인한 HLA-typing의 어려움으로, 그 정확성을 높이기 위해 high quality samples은 필수적이다.
HLA-reporter에서 제시한 Quality test를 통과한 samples의 개수는 HLA-A, HLA-B, HLA-C, HLA-DRB1, and HLA-DQB1에서 각각 18, 18, 11, 45, and 46개이고, 해당 samples에 대해 HLAscan의 검측(predictions)결과를 설명한다.
(A, B, C 최종 결과 설명)
통상 [de Baker, 2006]의 검측 결과가 HapMap samples의 최고의 표준(gold standard)으로 사용되고 있음에도 불구하고 [Rachel L Erlich 2011]는 class I 영역(regions)에 대해 심도있는 연구를 통해 몇 개의 오류(mistyped)를 찾아내어 더 정확한 HLA type을 제공하였다.
이를 정답으로 간주했을 때 HLA-A, HLA-B, and HLA-C genes 에 대해 HLAscan 및 HLAreporter 모두 2-digits에 대해 100% 정확성을 보인다. 4-digits level에서는 HLAscan은 100% 정확성을 가지는 반면 HLAreporter는 각 유전자에 대하여 80.5%, 83.3% 및95.5% 의 정확성을 가진다(표 2 참조).
(DRB1, DQB1 최종 결과 설명)
Class II 영역은 [de Baker, 2006]의 결과를 정답으로 간주했을 때, HLAscan은 HLA-DRB1 gene에 대해 2-digits 및 4-digits level에서 각각 96.6% 및 95.6%, HLA-DQB1 gene에 대해 100% 및 91.3%의 정확성을 가진다.
HLAreporter는 HLA-DRB1 gene에 대해 97.8% 및 95.6%, HLA-DQB1 gene에 대해 98.9% 및 89.1%의 정확성을 가진다.
Methods Genes # of tested 대립유전자(allele)s Phase Ambiguity(4-digits) Wrong(2-digits) Wrong(4-digits) Accuracy(2-digits) Accuracy(4-digits)
HLAreporter A 36 5 7 0 0 100% 80.5%
B 36 7 3 0 2 100% 83.3%
C 22 4 0 0 1 100% 95.5%
HLAscan A 36 - - 0 0 100% 100%
B 36 - - 0 0 100% 100%
C 22 - - 0 0 100% 100%
<표 2. HLA-A, HLA-B, and HLA-C genes in class I (10x = 100% and 20x ≥ 90%) (hla-typing results[Rachel L Erlich2011])>
Methods HLA Genes # of tested 대립유전자(allele)s Phase Ambiguity(4-digits) Wrong(2-digits) Wrong(4-digits) Accuracy(2-digits) Accuracy(4-digits)
HLAreporter DRB1 90 2 1 2 1 97.8% 95.6%
DQB1 92 0 7 1 2 98.9% 89.1%
HLAscan DRB1 90 - - 3 1 96.6% 95.6%
DQB1 92 - - 0 8 100% 91.3%
< 표 3. HLA-DRB1 and HLA-DQB1 genes in class II (10x ≥ 95%)>
[오류 대립유전자(mistyped allele) 분석]
12개의 오류대립유전자((Mistyped alleles)들을 수집해보면, 특정 대립유전자(alleles)에서 오류(mistyped) 발생되고 있음을 알 수 있다.
[표 4]를 보면 HLAscna은 Gold standard에 비해 14:01을 14:141로 오류(mistyped)된 경우를 제외하면 모두 특정 대립유전자(alleles)에서 (15:01을 16:01의 경우 3개, 06:05를 06:09로 2개, and 02:01을 02:02로 6개) 반복하여 오류(mistyped)가 발생한다. 이는 [PHLAT]에서도 보고된 결과와 유사하다.
Genes Gold standard Predictions of HLA scan # of the case
DRB1 11:04 14:01 11:04 14:141 1
15:01 15:01 15:01 16:01 3
DRB1 xx:yy 06:05 xx:yy 06:09 2
pp:qq 02:01 pp:qq 02:02 6
< 표 4. 오류 대립유전자 (Mistyped alleles) >
도 5를 살피면, DRB1*02:01:01:01과 DRB1*02:02:01:01 대립유전자(alleles)는 exome 3 region 의 162번째 포지션에서 각각 'T' and 'C'로 단지 1개의 sequence만 차이가 남을 볼 수 있다. 이때, exome 2 region은 동일하다.
도 6은 DRB1*02:01:01:01과 DRB1*02:02:01:01에 실제 NA11830 sample의 sequence reads들이 mapping된 모습을 samtools tview로 보인 것이다.
DRB1*02:02:01:01의 exome 3의 162번째 sequence 'C'를 지지하는 sequence reads들은 많이 존재하는 반면, DRB1*02:01:01:01의 상응되는 sequence 'T'를 지지하는 sequence reads는 존재하지 않는다.
12개의 오류(mistyped) 중 DRB1*14:01을 DRB1*14:141로 mistyped한 경우를 제외한 나머지 11개의 경우 모두 위와 유사하다.
5개의 한국인 샘플에 대한 검측(Predictions of 5 Korean samples) 결과
Public한 11개의 1000 genome samples와 51개의 HapMap samples에 대해 HLAscan이 매우 높은 정확성을 가짐을 보였다. 임상적 적용을 위해 한국인 5명에 대한 samples을 Invitrogen SeCore HLA-SBT kit를 이용하여 1000 genome 및 HapMap의 public한 데이터에 비해 high quality sequences를 생성하였고, HLAscan을 사용하여 predictions하였다.
HLAscan의 정확성을 검증하기 위해 PCR-SBT (sequence based typing) 방법을 통해 HLA typing을 진행하였고 그 결과를 비교하였다.
[표 5]를 살피면, 5개의 samples의 HLA-A, HLA-B, HLA-DRB1 영역에 대해 HLAscan의 predictions과 PCR방법의 결과가 100% 일치(concordance)함을 볼 수 있다. HLAreporter는 high quality sequence 데이터를 사용함에도 4개의 오류(mistyping) 결과를 보인다.
Samples   Methods HLA-A HLA-B HLA-DRB1
77072421NS1512240004 PCR-SBT 02:06 02:10 40:02 55:02 04:05 11:01
HLAreporter 02:10 02:10 40:02:01 55:02:01 04:05:01 11:01:01
HLAscan 02:06:01G 02:10 40:02:01 55:02:01G 04:05:01 11:01:01
77072412NS1512240008 PCR-SBT 24:02 31:01 35:01 51:02 09:01 09:01
HLAreporter 24:82 31:01:02 35:42:02 51:02:02 09:01:02 09:01:02
HLAscan 24:02:01G 31:01:13 35:01:01G 51:02:01 09:01:02 09:01:02
77072374NS1512240012 PCR-SBT 02:01 33:03 15:01 44:03 09:01 13:02
HLAreporter 02:01:01 33:03:01 15:01:01 44:03:11 09:01:02 13:02:01
HLAscan 02:01:01G 33:03:23 15:01:01G 44:03:01 09:01:02 13:02:01
77072406NS1512240016 PCR-SBT 11:01 26:01 44:02 46:01 09:01 13:01
HLAreporter 11:01:01 26:01:01 44:02:01 46:01:01 09:01:02 13:01:01
HLAscan 11:01:01:01 26:01:01:01 44:02:01G 46:01:01 09:01:02 13:01:01
77072287NS1512240020 PCR-SBT 02:01 02:06 13:01 40:02 08:02 12:02
HLAreporter 02:01:01 02:01:01 13:01:01 40:02:01 08:02:01 12:02:01
HLAscan 02:01:01G 02:06:01G 13:01:01 40:02:01 08:02:01 12:02:01
<표 5. OUR. Our results>
본 발명의 권리는 위에서 설명된 실시예에 한정되지 않고 청구범위에 기재된 바에 의해 정의되며, 본 발명의 분야에서 통상의 지식을 가진 자가 청구범위에 기재된 권리범위 내에서 다양한 변형과 개작을 할 수 있다는 것은 자명하다.
본 발명은 인간의 유전적 특성을 파악하기 위한 지노타입을 전산화된 시스템을 통해 검출함에 있어, 정확성 및 효율성이 향상된 휴먼 하플로타이핑에 관한 것으로, 본 발명에 의하면, 정렬 접근법(Alignment based approach)을 기반으로 하여 짧은 시퀀스 리드(ort sequence reads)를 이용하여 하플로타이핑을 수행하되, 후보 대립유전자의 선별 효율을 향상시킬 수 있을 뿐만 아니라, 고유리드 연산 알고리즘을 적용하여, phase issue로 인한 허위대립유전자를 검출할 수 있는 효과가 있다.

Claims (26)

  1. 검사 대상 유전자의 시퀀스를 수집하는 시퀀스 리드 수집단계와;
    수집된 시퀀스 리드를 데이터베이스에 저장된 레퍼런스에 매칭시켜 정렬하는 시퀀스 리드 정렬단계와;
    레퍼런스 대립유전자 중 후보 대립유전자를 선별하는 대립유전자 선별단계; 그리고
    상기 후보 대립유전자 중 최종 대립유전자를 설정하는 대립유전자 확정단계를 포함하여 수행됨을 특징으로 하는 휴먼 하플로타이핑 방법.
  2. 제 1 항에 있어서,
    상기 시퀀스 리드 수집 단계는,
    특정영역의 시퀀스 리드를 선별하여 수집하는 단계를 포함하여 수행됨을 특징으로 하는 휴먼 하플로타이핑 방법.
  3. 제 2 항에 있어서,
    상기 특정영역은,
    인간 유전자 영역 중 특정된 영역임을 특징으로 하는 휴먼 하플로타이핑 방법.
  4. 제 3 항에 있어서,
    상기 데이터베이스는,
    인간유전자에 대한 하플로타입 DB임을 특징으로 하는 휴먼 하플로타이핑 방법.
  5. 제 2 항에 있어서,
    상기 특정영역은,
    HLA 유전자 영역임을 특징으로 하는 휴먼 하플로타이핑 방법.
  6. 제 5 항에 있어서,
    상기 데이터베이스는,
    IMGT/HLA DB임을 특징으로 하는 휴먼 하플로타이핑 방법.
  7. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
    상기 시퀀스 리드의 정렬 단계는.
    데이터베이스에 저장된 레퍼런스에 시퀀스 리드를 정렬시키는 단계와;
    정렬된 시퀀스 리드를 레퍼런스 대립유전자와의 매칭 절대치에 따라 필터링하는 단계를 포함하여 수행됨을 특징을 하는 휴먼 하플로타이핑 방법.
  8. 제 7 항에 있어서,
    상기 대립유전자의 선별은,
    정렬된 시퀀스 리드의 분포도(the distribution of read alignments)에 따라 후보 대립유전자(candidates alleles)를 선별함에 의해 수행됨을 특징으로 하는 휴먼 하플로타이핑 방법.
  9. 제 8 항에 있어서,
    상기 정렬된 시퀀스 리드의 분포도 판정은,
    정렬된 리드의 레퍼런스 상의 분포도의 분산이 낮은 경우, 해당 레퍼런스의 대립유전자를 허위 대립유전자로 판정하는 것임을 특징으로 하는 휴먼 하플로타이핑 방법.
  10. 제 9 항에 있어서,
    상기 정렬된 시퀀스 리드의 분포도 판정은,
    상기 정렬된 리드의 분포도를 스코어로 환산하여, 상기 스코어가 기준치보다 낮은 경우, 허위 대립유전자로 판별함을 특징으로 하는 휴먼 하플로타이핑 방법.
  11. 제 10 항에 있어서,
    상기 스코어는,
    Figure PCTKR2016015428-appb-I000004
    에 의해 산출되고;
    이때, 상기 m은 대립유전자 길이에 따라 설정되는 값이고, C는 상수이며, 상기 noread는 시퀀스 리드가 정렬되지 않은 영역에 대하여 설정된 상수임을 특징으로하는 휴먼 하플로타이핑 방법.
  12. 제 7 항에 있어서,
    상기 대립유전자 확정 단계는,
    고유리드 연산 알고리즘에 의해 수행되고;
    상기 고유리드 연산 알고리즘은,
    레퍼런스 상에 후보 대립유전자(Candidate alleles)가 4개 이상 존재하는 경우, 상기 후보 대립유전자들 중 시퀀스 리드에 의한 완전 매치(mapping with 100% match)가 이루어진 대립유전자를 제외한 나머지 후보 대립유전자를 상기 후보 대립유전자에서 제외시키는 것을 특징으로 하는 휴먼 하플로타이핑 방법.
  13. 제 7 항에 있어서,
    상기 대립유전자 확정 단계는,
    고유리드 연산 알고리즘에 의해 수행되고;
    상기 고유리드 연산 알고리즘은,
    레퍼런스 상에 후보 대립유전자(Candidate alleles)가 3개 이하로 존재하는 경우,
    각각의 후보 대립유전자(candidate allele) 중 어느 하나에만 정렬(aligned)된 시퀀스 리드(sequence reads)인 고유리드의 개수를 카운트(count)하고;
    상기 고유리드의 개수에 따라 최종 2개의 후보 대립유전자(candidate allele)를 선정함을 특징으로 하는 휴먼 하플로타이핑 방법.
  14. 제 13 항에 있어서,
    상기 고유리드 연산 알고리즘은,
    상기 최종 2개의 후보 대립유전자(candidate allele)가 각각 서로 다른 고유리드를 포함한 경우, 상기 대립유전자를 이형접합체의 대립유전자로 판별함을 특징으로 하는 휴먼 하플로타이핑 방법.
  15. 제 13 항에 있어서,
    상기 고유리드 연산 알고리즘은,
    상기 최종 2개의 후보 대립유전자(candidate allele) 중 어느 하나에만 고유리드가 포함된 경우, 상기 대립유전자는 동형접합체의 대립유전자로 판별함을 특징으로 하는 휴먼 하플로타이핑 방법.
  16. 검사 대상 유전자로부터 수집된 시퀀스 리드를 데이터베이스에 저장된 레퍼런스 대립유전자에 매칭시켜 정렬하고:
    상기 레퍼런스 대립유전자 중 후보 대립유전자를 선별하며:
    상기 후보 대립유전자들로부터 2개의 최종 대립유전자를 선별하고:
    상기 시퀀스 리드의 정렬은,
    데이터베이스에 저장된 레퍼런스에 시퀀스 리드를 정렬시킨 후, 정렬된 시퀀스 리드를 레퍼런스 대립유전자와의 매칭 절대치에 따라 필터링함에 의해 수행됨을 특징을 하는 휴먼 하플로타이핑 시스템.
  17. 제 16 항에 있어서,
    상기 시퀀스 리드의 수집은,
    특정영역의 시퀀스 리드를 선별하여 수집하는 것임을 특징으로 하는 휴먼 하플로타이핑 시스템.
  18. 제 17 항에 있어서,
    상기 특정영역은, HLA 유전자 영역임을 특징으로 하는 휴먼 하플로타이핑 시스템.
  19. 제 16 항 내지 제 18 항 중 어느 한 항에 있어서,
    상기 후보 대립유전자의 선별은,
    정렬된 시퀀스 리드의 분포도(the distribution of read alignments)에 따라 후보 대립유전자(candidates alleles)를 선별함에 의해 수행됨을 특징으로 하는 휴먼 하플로타이핑 시스템.
  20. 제 19 항에 있어서,
    상기 정렬된 시퀀스 리드의 분포도 판정은,
    정렬된 리드의 레퍼런스 상의 분포도의 분산이 낮은 경우, 해당 레퍼런스의 대립유전자를 허위 대립유전자로 판정하는 것임을 특징으로 하는 휴먼 하플로타이핑 시스템.
  21. 제 20 항에 있어서,
    상기 정렬된 시퀀스 리드의 분포도 판정은,
    상기 정렬된 리드의 분포도를 스코어로 환산하여, 상기 스코어가 기준치보다 낮은 경우, 허위 대립유전자로 판별함을 특징으로 하는 휴먼 하플로타이핑 시스템.
  22. 제 21 항에 있어서,
    상기 스코어는,
    Figure PCTKR2016015428-appb-I000005
    에 의해 산출되고;
    이때, 상기 m은 대립유전자 길이에 따라 설정되는 값이고, C는 상수이며, 상기 noread는 시퀀스 리드가 정렬되지 않은 영역에 대하여 설정된 상수임을 특징으로 하는 휴먼 하플로타이핑 시스템.
  23. 제 16 항 내지 제 18 항 중 어느 한 항에 있어서,
    상기 최종 대립유전자의 선별은,
    고유리드 연산 알고리즘에 의해 수행되고;
    상기 고유리드 연산 알고리즘은,
    레퍼런스 상에 후보 대립유전자(Candidate alleles)가 4개 이상 존재하는 경우, 상기 후보 대립유전자들 중 시퀀스 리드에 의한 완전 매치(mapping with 100% match)가 이루어진 대립유전자를 제외한 나머지 후보 대립유전자를 상기 후보 대립유전자에서 제외시키는 것을 포함함을 특징으로 하는 휴먼 하플로타이핑 시스템.
  24. 제 16 항 내지 제 18 항 중 어느 한 항에 있어서,
    상기 최종 대립유전자의 선별은,
    고유리드 연산 알고리즘에 의해 수행되고;
    상기 고유리드 연산 알고리즘은,
    레퍼런스 상에 후보 대립유전자(Candidate alleles)가 3개 이하로 존재하는 경우,
    각각의 후보 대립유전자(candidate allele) 중 어느 하나에만 정렬(aligned)된 시퀀스 리드(sequence reads)인 고유리드의 개수를 카운트(count)하고;
    상기 고유리드의 개수에 따라 최종 2개의 후보 대립유전자(candidate allele)를 선정하는 것을 포함함을 특징으로 하는 휴먼 하플로타이핑 시스템.
  25. 제 24 항에 있어서,
    상기 고유리드 연산 알고리즘은,
    상기 최종 2개의 후보 대립유전자(candidate allele)가 각각 서로 다른 고유리드를 포함한 경우, 상기 대립유전자를 이형접합체의 대립유전자로 판별하는 것을 포함함을 특징으로 하는 휴먼 하플로타이핑 시스템.
  26. 제 24 항에 있어서,
    상기 고유리드 연산 알고리즘은,
    상기 최종 2개의 후보 대립유전자(candidate allele) 중 어느 하나에만 고유리드가 포함된 경우, 상기 대립유전자는 동형접합체의 대립유전자로 판별하는 것을 포함함을 특징으로 하는 휴먼 하플로타이핑 시스템.
PCT/KR2016/015428 2016-07-29 2016-12-28 휴먼 하플로타이핑 시스템 및 방법 WO2018021636A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/243,287 US10540324B2 (en) 2016-07-29 2019-01-09 Human haplotyping system and method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020160096996A KR101815529B1 (ko) 2016-07-29 2016-07-29 휴먼 하플로타이핑 시스템 및 방법
KR10-2016-0096996 2016-07-29

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/243,287 Continuation US10540324B2 (en) 2016-07-29 2019-01-09 Human haplotyping system and method

Publications (1)

Publication Number Publication Date
WO2018021636A1 true WO2018021636A1 (ko) 2018-02-01

Family

ID=61017285

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2016/015428 WO2018021636A1 (ko) 2016-07-29 2016-12-28 휴먼 하플로타이핑 시스템 및 방법

Country Status (3)

Country Link
US (1) US10540324B2 (ko)
KR (1) KR101815529B1 (ko)
WO (1) WO2018021636A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101815529B1 (ko) 2016-07-29 2018-01-30 (주)신테카바이오 휴먼 하플로타이핑 시스템 및 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090105921A (ko) * 2006-11-30 2009-10-07 네이비제닉스 인크. 유전자 분석 시스템 및 방법
US20140045706A1 (en) * 2011-02-25 2014-02-13 Illumina, Inc. Methods and systems for haplotype determination

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040210400A1 (en) * 2003-01-27 2004-10-21 Perlegen Sciences, Inc. Analysis methods for individual genotyping
US9394565B2 (en) * 2003-09-05 2016-07-19 Agena Bioscience, Inc. Allele-specific sequence variation analysis
EP1536021A1 (en) * 2003-11-27 2005-06-01 Consortium National de Recherche en Genomique (CNRG) Method for HLA typing
KR100834574B1 (ko) 2006-09-29 2008-06-02 한국전자통신연구원 파일 저장 시스템 및 그 시스템에서의 파일 저장 및 검색방법
KR100956637B1 (ko) 2007-12-07 2010-05-11 한국전자통신연구원 분산파일 시스템에서의 비동기식 데이터 복제 방법 및 그에따른 분산파일 시스템
KR100936238B1 (ko) 2007-12-12 2010-01-12 한국전자통신연구원 파일 입출력과 복제의 균형적 수행을 위한 지연복제 시스템및 방법
KR100880531B1 (ko) 2008-07-11 2009-01-28 정종선 단일 데이터 검색을 위한 파일 생성 방법 및 단일 데이터파일의 검색방법 그리고 단일 파일 검색을 위한 rat파일이 저장된 기록매체
KR101010219B1 (ko) 2008-12-16 2011-01-21 한국전자통신연구원 비대칭 분산 파일 시스템과 그의 점진적 일관성 오류 감지 및 복구 방법
KR100996443B1 (ko) 2010-04-13 2010-11-24 (주)신테카바이오 고집적인덱스 데이터베이스 및 쿼리 데이터의 검색과 연산기능 분할에 의한 그래픽 프로세서 기반 병렬분산 처리 시스템 및 방법
KR101035959B1 (ko) 2010-11-18 2011-05-23 (주)신테카바이오 군집 및 백본 데이터베이스 기반 바이오 메디컬 통합 정보 검색 방법 및 시스템
KR101117603B1 (ko) 2011-08-16 2012-03-07 (주)신테카바이오 상호 연계 가능한 다중 맵 생성을 통한 바이오메디컬 기능연관정보 제공 시스템 및 방법
KR101460520B1 (ko) 2012-11-12 2014-11-11 (주)신테카바이오 차세대 시퀀싱 데이터의 질병변이마커 검출 방법
KR101695013B1 (ko) 2012-12-14 2017-01-10 한국전자통신연구원 적응형 자원 할당 및 관리 방법
KR101400717B1 (ko) 2012-12-28 2014-05-29 (주)신테카바이오 전체원자기반 고분자 복합체의 시뮬레이션 시스템 및 방법
KR20140092135A (ko) 2013-01-15 2014-07-23 한국전자통신연구원 빅 데이터를 위한 병렬 정렬 방법 및 장치
KR101816587B1 (ko) 2013-01-18 2018-01-09 한국전자통신연구원 프로비저닝 이미지 리비전 관리 장치, 프로비저닝 이미지 리비전 관리 방법 및 이를 이용한 프로비저닝 시스템
US10176294B2 (en) * 2013-03-15 2019-01-08 The Broad Institute, Inc. Accurate typing of HLA through exome sequencing
US20160132631A1 (en) * 2013-06-10 2016-05-12 Iogenetics, Llc Bioinformatic processes for determination of peptide binding
CN106103736B (zh) * 2013-10-15 2020-03-03 瑞泽恩制药公司 高分辨率等位基因鉴定
KR101542529B1 (ko) 2014-02-21 2015-08-06 (주)신테카바이오 대립유전자의 바이오마커 발굴방법
KR20150024232A (ko) 2014-02-21 2015-03-06 (주)신테카바이오 질병에 대한 약물 내성 유전체로부터 내성 원인 마커의 발굴 방법
KR101693717B1 (ko) 2015-12-28 2017-01-06 (주)신테카바이오 개인 전장 유전체의 유전변이정보를 이용한 생리활성변이 분석 시스템
KR101693510B1 (ko) * 2015-12-28 2017-01-17 (주)신테카바이오 개인 전장 유전체의 유전변이정보를 이용한 유전형 분석 시스템 및 방법
KR101693504B1 (ko) 2015-12-28 2017-01-17 (주)신테카바이오 개인 전장 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템
KR101815529B1 (ko) 2016-07-29 2018-01-30 (주)신테카바이오 휴먼 하플로타이핑 시스템 및 방법
KR102085169B1 (ko) 2016-12-15 2020-03-04 (주)신테카바이오 개인 유전체 맵 기반 맞춤의학 분석 시스템 및 이를 이용한 분석 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090105921A (ko) * 2006-11-30 2009-10-07 네이비제닉스 인크. 유전자 분석 시스템 및 방법
US20140045706A1 (en) * 2011-02-25 2014-02-13 Illumina, Inc. Methods and systems for haplotype determination

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BAI: "Inference of high resolution HLA types using genome-wide RNA or DNA sequencing reads", BMC GENOMICS, vol. 15, 2014, pages 1 - 16, XP021184302 *
HUANG: "HLAreporter: a tool for HLA typing from next generation sequencing data", GENOME MEDICINE, vol. 7, 2015, pages 1 - 12, XP021215655 *
NARIAI TF: "HLA-VBSeq: accurate HLA typing at full resolution from whole-genome sequencing data", BMC GENOMICS, vol. 16, 2015, pages 1 - 6, XP021209052 *

Also Published As

Publication number Publication date
KR101815529B1 (ko) 2018-01-30
US10540324B2 (en) 2020-01-21
US20190130996A1 (en) 2019-05-02

Similar Documents

Publication Publication Date Title
Kennedy et al. What has GWAS done for HLA and disease associations?
WO2012081898A2 (ko) 위암의 예후 예측용 마커 및 이를 이용하는 위암의 예후 예측 방법
WO2017116123A1 (ko) 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템
WO2021107676A1 (ko) 인공지능 기반 염색체 이상 검출 방법
WO2023033329A1 (ko) 질환 연관 유전자 변이 분석을 통한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법
Asselta et al. X chromosome contribution to the genetic architecture of primary biliary cholangitis
WO2017116135A1 (ko) 개인 유전체의 유전변이정보를 이용한 유전형 분석 시스템 및 방법
Weiss et al. Genome‐wide single‐nucleotide polymorphism data reveal cryptic species within cryptic freshwater snail species—The case of the Ancylus fluviatilis species complex
WO2018169145A1 (ko) 진행성 위암 환자의 수술 후 예후 또는 항암제 적합성 예측 시스템
WO2017086675A1 (ko) 대사 이상 질환 진단 장치 및 그 방법
WO2022097844A1 (ko) 유전자 복제수 변이 정보를 이용하여 췌장암 환자의 생존 예후를 예측하는 방법
Rahbari et al. Understanding the genomic structure of copy‐number variation of the low‐affinity Fcγ receptor region allows confirmation of the association of FCGR3B deletion with rheumatoid arthritis
WO2017116139A1 (ko) 개인 유전체의 유전변이정보를 이용한 생리활성변이 분석 시스템
WO2022114631A1 (ko) 인공지능 기반 암 진단 및 암 종 예측방법
WO2022098086A1 (ko) 비기능성 전사체를 이용한 parp 저해제 또는 dna 손상 약물 감수성 판정방법
WO2018021636A1 (ko) 휴먼 하플로타이핑 시스템 및 방법
WO2022131691A1 (ko) 인간 백혈구 항원의 타입을 결정하기 위한 방법
WO2021034034A1 (ko) 핵산 단편간 거리 정보를 이용한 염색체 이상 검출 방법
WO2023080766A1 (ko) 시간 변동 공변량 기반의 prs 모델을 이용한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법
Correa et al. HLA‐DR and DQB1 gene polymorphism in the North‐western Colombian population
WO2020149719A2 (ko) 과민성대장증후군 특이적 미생물 바이오마커와 이를 이용하여 과민성대장증후군의 위험도를 예측하는 방법
WO2020050627A1 (ko) 시료 미생물의 동정 및 분류 방법
WO2023140713A1 (ko) 면역항암제 유도 면역관련 이상반응의 발병 예측을 위한 snp 기반 모델
WO2023140712A1 (ko) Hla 타입 기반 면역항암제 유도 면역관련 이상반응의 발병 예측 방법
WO2023234659A1 (ko) 퇴행성 턱관절염의 진단 또는 예후 예측용 유전자 마커 및 이의 용도

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16910657

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16910657

Country of ref document: EP

Kind code of ref document: A1