WO2017126943A1 - 염색체 이상 판단 방법 - Google Patents

염색체 이상 판단 방법 Download PDF

Info

Publication number
WO2017126943A1
WO2017126943A1 PCT/KR2017/000741 KR2017000741W WO2017126943A1 WO 2017126943 A1 WO2017126943 A1 WO 2017126943A1 KR 2017000741 W KR2017000741 W KR 2017000741W WO 2017126943 A1 WO2017126943 A1 WO 2017126943A1
Authority
WO
WIPO (PCT)
Prior art keywords
chromosome
data
sequence data
sequencing
chromosomal
Prior art date
Application number
PCT/KR2017/000741
Other languages
English (en)
French (fr)
Inventor
권창혁
윤선영
이민섭
Original Assignee
이원다이애그노믹스(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이원다이애그노믹스(주) filed Critical 이원다이애그노믹스(주)
Priority to US16/071,537 priority Critical patent/US20190032125A1/en
Priority to SG11201806164VA priority patent/SG11201806164VA/en
Priority to CN201780007722.1A priority patent/CN108604258B/zh
Publication of WO2017126943A1 publication Critical patent/WO2017126943A1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • G06F17/12Simultaneous equations, e.g. systems of linear equations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Definitions

  • the present invention relates to a method for determining chromosomal abnormalities, and more specifically, to determine a man and a woman by extracting unique reads from sequenced sequence data regardless of a next-generation sequencing platform, and using a linear discriminant analysis (LDA) technique.
  • LDA linear discriminant analysis
  • 'Prenatal diagnosis' refers to the process of determining and diagnosing the disease of a fetus before the fetus is born. According to a recent statistics, congenital malformations account for about 3% of all newborns and about 20% of congenital malformations are due to chromosomal abnormalities. In particular, the well-known malformations of Down's syndrome account for about 26% of congenital malformations.
  • prenatal diagnosis is increasing day by day due to the increase in birth rate and development of various prenatal diagnosis equipment.
  • a pregnant woman aged 35 years or older a pregnant woman with a chromosomal abnormality, a structural abnormality of a chromosome in one of the parents, a family history of genetic disease, or a risk of neural tube defects
  • fetal malformations are suspected in maternal serum screening and ultrasonography.
  • Prenatal diagnosis can be divided into invasive and non-invasive diagnosis.
  • invasive diagnostics include chorionic villi sampling (CVS) performed between 10 and 12 weeks of gestation, and fetal chromosomes by measuring the concentration of AFP in amniotic fluid using immunoassay between 15 and 20 weeks of gestation. Amniocentesis to analyze, cordocentesis to extract fetal blood directly from the umbilical cord under ultrasound guidance between 18 and 20 weeks of gestation.
  • CVS chorionic villi sampling
  • fetal chromosomes by measuring the concentration of AFP in amniotic fluid using immunoassay between 15 and 20 weeks of gestation.
  • Amniocentesis to analyze
  • cordocentesis to extract fetal blood directly from the umbilical cord under ultrasound guidance between 18 and 20 weeks of gestation.
  • invasive diagnostic methods may cause an abortion, disease, or malformation by shocking the fetus during the examination process.
  • Methods based on fetal material acquisition by amniocentesis or chorionic villus sampling may be invasive, and even by skilled clinicians may pose a negligible risk for pregnancy.
  • this invasive diagnostic method is generally used when there is a marker of increased likelihood of Down syndrome fetal pregnancy due to maternal age or through prescreening through biochemical testing or ultrasound.
  • Non-invasive diagnostic methods have been developed to overcome the problems of these invasive diagnostic methods.
  • the pre-implantation genetic diagnosis method is a technique for selecting embryos without pre-implantation genetic defects using molecular genetic or cytogenetic techniques used in in vitro fertilization.
  • QF-PCR quantitative-fluorescent PCR
  • STRs short tandem repeats
  • DNA auto-sequence analyzer is a rapid screening test to measure the amount of fluorescence amplified DNA.
  • a chromosomal microarray (CMA) method and the like are known which accumulate and examine a mapped DNA sequence mapped on a glass slide in order to find a copy number change.
  • next-generation sequencing technologies are also used in the prenatal diagnosis area.
  • cellular free DNA in plasma of pregnant women includes components of fetal origin (Lo et al., 1997, Lancet 350, 485-487), and cell free plasma DNA (hereinafter referred to as 'plasma DNA').
  • 'plasma DNA' cell free plasma DNA
  • Consisting mostly of short DNA molecules (80-200 bp), usually 5% -20% of fetal origin and the rest of the parent (Birch et al., 2005, Clin Chem 51, 312-320; Fan et al., 2010, Clin Chem 56, 1279-1286).
  • prenatal diagnostic methods are known to separate fetal cells from maternal blood and analyze their chromosomes.
  • conditions in which fetal aneuploidies, caused by excess chromosomes or due to chromosomal deficiency create imbalances in the population of fetal DNA molecules in the detectable maternal cell free plasma DNA, and thus methods for analyzing chromosomal abnormalities have been developed. It is becoming.
  • the excess chromosome that characterizes T21 is expected to produce more than 50% of DNA molecules derived from that chromosome compared to normal pregnancy.
  • the resulting imbalance is only 5%, or of 21 chromosome-derived fragments with a value of 1.05 compared to 1.00 for normal pregnancy. It is expected to be a relative increase in numbers.
  • the imbalance in the number of chromosome-derived molecules in the population of molecules in maternal plasma will be correspondingly smaller or larger.
  • nucleotide sequence data for DNA molecules from maternal plasma ('DNA sequencing').
  • 'DNA sequencing' Once partial or complete nucleotide sequence information has been obtained from individual DNA molecules, bioinformatics techniques should be applied to assign individual molecules to the chromosomes from which they are derived, most simply by comparing them with the reference human genome (s).
  • nucleotide sequence data can be obtained for a sufficiently large number of plasma DNA, and that bioinformatics methods can be reliably applied to assign a sufficiently large number to its chromosomal origin, plasma with statistical confidence Statistical methods can be applied to determine the presence or absence of chromosomal imbalances in a population of DNA molecules.
  • sequence data that is substantially worse than that required for conventional genomic sequencing.
  • the sequence data thus generated is characterized by frequent errors. These errors vary in type, but most often are 'indels', which are caused by sequencing devices that deliver inaccurate excess (insert) or deleted bases. In addition, it is difficult to efficiently sequence short homopolymer runs (ie, runs of several identical bases). In addition, sequencing errors may also include 'mismatches', in which bases are incorrectly assigned, indicating various errors.
  • this large scale parallel sequencing is high quality in a full-service genome sequencer-mainly Illumina HiSeq-that generates very large data requiring sequencing to be time-consuming and expensive bioinformatics. Including disadvantages of being made.
  • the method of performing the specific analysis is different, and the execution time and the analysis process may take several weeks as a whole.
  • the present invention can use the sequence information generated without limitation to the sequence sequencing method and the normalization method according to the conventional specific automated sequencing device to solve the problems of the prior art as described above, and to both autosomal and sex chromosome It is an object of the present invention to provide a new method for determining the applicable new chromosome aneuploidies.
  • the present invention to solve the above problems
  • LDA linear discriminant analysis technique
  • a linear discriminant analysis method is performed by labeling normal and aneuploidies of chromosomal data that have been verified for normal and aneuploidy.
  • Initial learning and characterized in that the minimum value of the dimeric chromosome data of the pre-tested chromosome data is set as the boundary value.
  • the linear discriminant analysis technique refers to a linear discriminant analysis method, and analyzes the verified chromosomal data to set an initial boundary value and further analyzes the accumulated sample to further analyze the minimum value of the dimeric chromosomal data. Indicates how to set the border to the border.
  • a range of normal samples is set from the verified chromosomal data. It is characterized by determining the presence or absence of chromosomal abnormalities using the minimum value of the aneuploid data as a boundary.
  • the read in the step of extracting the unique read from the target chromosome, the read is divided into 90 kb bin regions, and the GC content is characterized by extracting a read of 0.55 or less.
  • UR (x)% percentage of reads uniquely matched to chromosome X
  • UR (y)% chromosome Y
  • UR (x)% chromosome X (chrX) lead count / (autosomal) total lead X 100
  • UR (y)% chromosome Y (chrY) lead count / (autosomal) total lead X 100
  • steps 1-3 may be performed by distinguishing the gender from the number of leads of the region mapped to the Y-specific region; It provides a chromosome abnormality determination method further comprising the step of determining the gender from R (x)% and UR (y)% comprising.
  • the step of distinguishing gender from the UR (x)% and UR (y)% in the step of distinguishing gender from the UR (x)% and UR (y)%, only a pure chrY region from which chrX is removed by selecting a pseudoautosomal region by comparing chrX and chrY
  • the gender is distinguished from the number of leads of the region (Table 1) mapped to the selected Y-specific region.
  • the chromosome is one or more selected from the group consisting of chromosome 13, chromosome 18, chromosome 21, chromosome 3, chromosome 7, chromosome 12, or X chromosome Or Y chromosome.
  • the method for determining chromosomal abnormality according to the present invention can be extended to the entire autosomal body when targeting an autosomal, and in the method for determining chromosomal abnormality according to the present invention, examples of detectable chromosomal abnormalities include:
  • detection of abnormalities, copy numbers of genes, chromosomes, or portions of chromosomes may comprise the detection and / or diagnosis of a condition selected from the group comprising: Wolf-Hershhorn Hirschhorn syndrome (4p-), Cri du chat syndrome (5p-), Williams-Beuren syndrome (7-), Jacobsen syndrome (11-), Miller-Decker ( Miller-Dieker syndrome (17-), Smith-Magenis syndrome (17-), 22ql l.2 deletion syndrome (Velocardiofacial syndrome, DiGeorge syndrome, Horn stem malformation Also known as conotruncal anomaly face syndrome, congenital thymic aplasia, and Strong syndrome, Angelman syndrome (15-), and Prader-Willi syndrome (15-).
  • detection of chromosomal copy number abnormalities may include Turner syndrome (Ullrich-Turner syndrome or monosomy X), Klinefelter syndrome, 47, XXY or XXY syndrome, 48, Group including XXYY syndrome, 49, XXXXY syndrome, triple X syndrome, XXXX syndrome (also called tetrasomy X, quadruple X, or 48, XXXX), XXXXX syndrome (also called chromosome X or 49, XXXXX) and XYY syndrome Detection and / or diagnosis of a condition selected from.
  • Turner syndrome Ullrich-Turner syndrome or monosomy X
  • Klinefelter syndrome 47, XXY or XXY syndrome, 48, Group including XYY syndrome, 49, XXXXY syndrome, triple X syndrome, XXXX syndrome (also called tetrasomy X, quadruple X, or 48, XXXX
  • the method for determining chromosomal abnormality sets a boundary line for chromosome aberration determination by linear discriminant analysis (LDA) from existing sequenced data, the accuracy and sensitivity of the judgment increases as the amount of sequencing data used increases. Accordingly, it is possible to continuously improve the sensitivity and accuracy of the judgment in the case of multiple times while accumulating data continuously.
  • LDA linear discriminant analysis
  • the method for determining chromosomal abnormality it is possible to repeatedly perform the first to third steps for determining chromosomal abnormality N times while continuously adding the sequenced data sequence, and determining the N-1 times.
  • Dn chromosome data used at the time of the Nth determination and the chromosome data used at the Nth determination
  • the algebraic determination on the chromosome data Dn used at the Nth determination is used at the time of the N-1 determination. It is characterized in that the boundary value derived from chromosome data Dn-1.
  • Thresholds are influenced by certain algorithms, but it is also possible to flexibly improve judgment by setting a value close to arithmetic to a single value or leaving two thresholds.
  • the sequenced sequence data is obtained by a next generation sequencing platform. It will be understood by those skilled in the art that the method for obtaining sequence data according to the present invention is not limited to any particular technique.
  • the sequencing platform is described in Loman et al. (2012) Nature Biotechnology 30 (5), 434-439; Quile et al. (2012) BMC Genomics 13, 341; Liu et al. (2012) Journal of Biomedicine and Biotechnology 2012, 1-11; And Meldrum et al. (2011) Clin Biochem Rev. 32 (4): 177-195; The sequencing platform reviewed in this document is incorporated herein by reference.
  • the next-generation sequencing platform is a Roche 454 (ie, Roche 454 GS FLX), an Applied Biosystems SOLiD system (ie, SOLiDv4), and Illumina (Illumina). GAIIx, HiSeq 2500 and MiSeq Sequencer, Proton and S5 Sequencer from Life Technologies' Ion Torrent Semiconductor Sequencing Platform, PacBio RS and Sanger from Pacific Biosciences 3730xl).
  • the sequenced sequence data is obtained by a sequencing platform including the use of a polymerase chain reaction.
  • the sequenced sequence data is obtained by a sequencing platform including the use of sequencing by synthesis.
  • the sequenced sequence data is obtained by a sequencing platform including the use of ions such as hydrogen ion release.
  • the sequenced sequence data is obtained from a sequencing platform including the use of a semiconductor-based sequencing method.
  • semiconductor-based sequencing methods are the low manufacturing costs of instruments, chips and reagents, the rapid sequencing process (in spite of off-set by emPCR), and the ability to scale the system, but this is used for emPCR. It may be somewhat limited by the bead size being.
  • the sequenced sequence data is obtained from a sequencing platform including use of a nanopore-based sequencing method.
  • Nanopore-based methods include the use of organic-type nanopores that mimic the situation of cell membranes and protein channels of living cells, such as in the techniques used by Oxford Nanopore Technologies (eg, literature (Branton D, Bayley H, et al. (2008). Nature Biotechnology 26 (10), 1146-1153).
  • the sequenced sequence data may be obtained by using AionTorrent platform of Life Technologies or MiSeq of Illumina.
  • Illumina synthesis sequencing (SBS) technology is now a successful, globally adopted next-generation sequencing platform.
  • TruSeq technology supports large scale parallel sequencing using a proprietary reversible terminator-based method that enables detection of a single base when included into a growing DNA strand.
  • the fluorescently labeled terminator is imaged with each dNTP added and then cleaved to allow introduction of the next base. Since all four reversible terminator-binding dNTPs are present during each sequencing cycle, natural competition minimizes the introduction bias.
  • the sequenced sequence data is obtained by an AionTorrent Personal Genome Machine (IonTorrent PGM) from Life Technologies.
  • IonTorrent PGM AionTorrent Personal Genome Machine
  • the sequenced sequence data is based on the AionTorrent platform of Life Technologies, such as Ion Proton and S5 having a PI or PII chip, and additional derivatives and parts thereof. It is characterized in that it is obtained by multiplex iteration.
  • the next generation sequencing platform is the Personal Genome Machine (PGM), Life Technologies' IonTorrent Personal Genome Machine.
  • PGM Personal Genome Machine
  • AionTorrent devices use a strategy similar to synthetic sequencing (SBS), but detect signals due to the release of hydrogen ions due to the activity of DNA polymerase during nucleotide introduction.
  • SBS synthetic sequencing
  • AionTorrent chips are very sensitive pH meters.
  • Each ion chip contains millions of ion-sensitive field effect transistor (ISFET) sensors that allow simultaneous detection of multiple sequencing reactions.
  • ISFET ion-sensitive field effect transistor
  • the sequenced sequence data may or may not be normalized. That is, the method for determining chromosomal abnormality according to the present invention is not limited to the sequencing method, and the chromosomal abnormality can be determined even if normalization or normalization of the sequenced sequence data is performed or not.
  • the method for determining chromosomal abnormality according to the present invention is not limited to a conventional sequencing method and a normalization method according to a specific automated sequencing device, and may use generated sequence information, and is applicable to both autosomal and sex chromosomes.
  • the accuracy and sensitivity increase, making it a commercial basis for non-invasive methods, which can be useful for prenatal diagnosis that can be used to determine early abnormalities due to abnormal numbers of autosomal and sex chromosomes. .
  • a sophisticated boundary line can be set by a linear discriminant analysis technique (LDA), and thus a much higher sensitivity can be obtained than before.
  • LDA linear discriminant analysis technique
  • 1 is a graph showing an example of determining sex as a Y-specific region with Proton for 100 samples using the diagnostic method of the present invention.
  • Figure 2 is a graph showing an example of determining the gender with the HiSeq platform of the Illumina (Illumina) for 30 samples using the diagnostic method of the present invention.
  • Figure 3 is a graph showing the results of predicting a new sample after training by performing normalization with QDNAseq using the diagnostic method of the present invention.
  • FIG. 4 is a graph showing a result of predicting a new sample after training by performing normalization by HMMcopy using the diagnostic method of the present invention.
  • 5 is a graph showing a result of predicting a new sample after training using only the percentages of X and Y without normalization.
  • FIG. 6 is a graph showing a result of predicting a new sample after training by performing normalization using Deeptools using GCBias using the diagnostic method of the present invention.
  • Figure 7 is a graph of the results of distinguishing between the normal and the diuretic sample of chromosome 21 using the diagnostic method of the present invention.
  • N is a normal sample
  • T is a dimeric sample
  • red T is a borderline sample.
  • Figure 8 is a graph of the results of distinguishing between the normal and the diuretic sample of chromosome 18 using the diagnostic method of the present invention.
  • N is a normal sample
  • R is a dimeric sample
  • red R is a borderline sample.
  • Figure 9 is a graph of the results of distinguishing between the normal and diuretic samples of chromosome 13 using the diagnostic method of the present invention.
  • N is a normal sample
  • M is a dimeric sample
  • red M is a borderline sample.
  • FIG. 10 is a graph showing the determination of chromosomes 21 and 18 simultaneously using the diagnostic method of the present invention.
  • the horizontal axis is chr21
  • the vertical axis is chr18
  • N is normal
  • white is 18th apron
  • pink is 21th.
  • 11 is a graph showing the result of determining whether the chromosome 3 is aneuploid using the diagnostic method of the present invention.
  • the mean of normal samples is 7.551 and the mean of dimeric samples is 7.615.
  • FIG. 12 is a graphical representation of a dimeric sample of chromosome 7 using the diagnostic method of the present invention.
  • Figure 13 graphically shows the aneuploid samples of chromosome 12 using the diagnostic method of the present invention.
  • 14 to 16 are graphs showing normal samples and XXY, XYY, XXX, and XO samples in order to determine sex chromosome aneuploidy using the diagnostic method of the present invention.
  • 15 is a graph that distinguishes between XXY and XYY.
  • 16 is a graph that distinguishes between XXX and XO.
  • Sequenced fastq files were sequenced and PCR duplication was removed to extract unique reads. Only reads that were perfectly matched were sorted, all regions in the sorted sequence were divided into 90 kb bin regions and reads with a GC content of 0.35 up to 0.55 were extracted.
  • -UR (x)% chromosome X (chrX) lead count / (autosomal) total lead X 100
  • -UR (y)% chromosome Y (chrY) lead count / (autosomal) total lead X 100
  • the Y-specific region was set, and the number of leads was calculated based on the Y-specific region to determine that the female was less than 2 and the male was 2 or more.
  • the Y-specific region was defined as a pure chrY region from which chrX region was removed after removing Pseudoautosomal region by comparing chrX and chrY.
  • the present invention is characterized in that men and women can be easily distinguished using a method of counting the number of leads of a region mapped to a Y-specific region.
  • FIG. 1 shows a case where sex was measured by initial learning using the LDA method according to the present invention for 100 samples using Proton, and a case where sex was measured for 30 samples using Illumina.
  • the boundary values determined by the LDA in each case are different, but it can be confirmed that men and women can be distinguished by similar values.
  • the data identified by the standard method is initially trained using a linear discriminant analysis technique (LDA) to extract the minimum value of the aneuploid data as a boundary value, and to predict and determine the normal, aneuploid, and boundary of the target chromosome. Characterized in that it can.
  • LDA linear discriminant analysis technique
  • FIG. 3 shows five red T (Trisomy) samples and distinguishes the normal and the diuretic samples from 1.268. It can be seen that the boundary can be set automatically.
  • FIG. 4 which shows the result of normalizing by HMMcopy and obtaining Z-score
  • five red T Trisomy
  • N Normal
  • the normal and the aneuploid samples are clearly distinguished based on 1.44. It can be seen that the boundary can be automatically set to 1.44 by the LDA method.
  • FIG. 6 which shows only the results of normalizing only GCBias, normal and aneuploid samples are clearly distinguished based on 5, it can be seen that the boundary line can be automatically set to 5 by the LDA method.
  • the chromosomal abnormality determination method according to the linear discriminant analysis method (LDA) according to the present invention provides sufficient normal and aneuploid samples even by simple sequencing. It can be seen that it can be clearly distinguished.
  • the chromosomal abnormality determination method using the LDA method according to the present invention can obtain the same result without using a known normalization algorithm or Z-score.
  • chr21, chr18, and chr13 are distinguished from the data identified by the existing standard method of Example 2, and the minimum value of the aneuploid data is extracted as the boundary value using the LDA method for each of the chr21, chr18, and chr13 data. From this, normal, aneuploid, and boundary were predicted.
  • the method for determining chromosomal abnormality that is, after performing sequence cleanup and normalization using existing data, sets the minimum value of the aneuploid data selected by the LDA method as the boundary value, and based on the boundary value, chr21 , chr18, chr13 chromosome adequacy determination results are shown in Figure 7, 8 and 9, respectively.
  • the chromosomal abnormality determination method of the present invention is applicable to the detection of other autosomal abnormalities as well as chr13, chr18, and chr21, which are well known in the art.
  • FIGS. 11 to 13 if the minimum number of leads is defined by analyzing the algebraic samples and normal samples of chr13, chr18, and chr21, it is confirmed that the same ratios are applied to the randomly selected chr3, chr7, and chr12 chromosomes Judging the chromosomal abnormality by the LDA according to the present invention, as shown in chr3 (Fig. 11), chr7 (Fig. 12), chr12 (Fig. 13) it was confirmed that the normal and aneuploidy is clearly distinguished.
  • the average value of the normal samples of chr7 is 7.29 and the average value of the dimeric samples is 7.36 by applying HMMcopy. Even when the minimum value is applied, it can be seen that all five samples are clearly distinguished from normal, so that the target chromosome of the chromosome abnormality determination method according to the present invention can be extended to all chromosomes.
  • UR (x)% chromosome X (chrX) lead count / (autosomal) total lead X 100
  • UR (y)% chromosome Y (chrY) lead count / (autosomal) total lead X 100
  • the sky blue and pink portions are set as the border line to distinguish between normal and diuretic samples.
  • XXY is determined when the value of UR.X is 5.5 or more, and XYY when the value is less than 5.5.
  • the white part represents XO and data of 5.75 or more (red A) is determined to be XXX.
  • the method for determining chromosomal abnormality according to the present invention is not limited to a conventional sequencing method and a normalization method according to a specific automated sequencing device, and may use generated sequence information, and is applicable to both autosomal and sex chromosomes.
  • the accuracy and sensitivity increase, making it a commercial basis for non-invasive methods, which can be useful for prenatal diagnosis that can be used to determine early abnormalities due to abnormal numbers of autosomal and sex chromosomes. .
  • a sophisticated boundary line can be set by a linear discriminant analysis technique (LDA), and thus a much higher sensitivity can be obtained than before.
  • LDA linear discriminant analysis technique

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Organic Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Wood Science & Technology (AREA)
  • Evolutionary Biology (AREA)
  • Zoology (AREA)
  • Molecular Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)

Abstract

본 발명은 염색체 이상 판단 방법에 관한 것으로서, 더욱 상세하게는 차세대 서열분석 플랫폼에 상관없이 NGS 서열 데이터를 시퀀싱하고, 시퀀싱된 서열 데이터로부터 유일 리드를 추출하여 남녀를 판단하고, 기존 데이터에 대한 선형 판별 분석 기법(LDA, Linear Discriminant Analysis)으로 초기 학습을 통해 경계선을 설정 함으로써, 상염색체와 성염색체 모두에 적용 가능하고, 진단 횟수가 늘어날수록 정확도 및 민감도가 증가할 수 있는 새로운 염색체 이상 판단 방법에 관한 것이다.

Description

염색체 이상 판단 방법
본 발명은 염색체 이상 판단 방법에 관한 것으로서, 더욱 상세하게는 차세대 서열분석 플랫폼에 상관없이 시퀀싱된 서열 데이터로부터 유일 리드를 추출하여 남녀를 판단하고, 선형 판별 분석 기법(LDA, Linear Discriminant Analysis) 으로 기존 데이터에 대한 학습을 통해 경계선을 설정함으로써, 진단 횟수가 늘어날수록 정확도 및 민감도가 증가하고, 상염색체와 성염색체 모두에 적용 가능한 새로운 염색체 이상 판단 방법에 관한 것이다.
'산전 진단'이란 태아가 태어나기 전 태아의 질병 유무를 판단 및 진단하는 과정을 말한다. 최근의 한 통계자료에 따르면, 선천성 기형아가 전체 신생아의 약 3%에 이르며, 선천성 기형아 중 약 20%는 염색체 이상에 의한 것으로 보고되었다. 특히 널리 알려져 있는 다운증후군에 해당하는 기형아는 선천성 기형아의 약 26%에 이른다.
이러한 기형아 출산율의 증가와 여러 산전 진단 장비들의 개발로 인하여 산전 진단에 대한 관심은 날로 증가하고 있다. 특히, 만 35세 이상의 고령의 임산부, 염색체 이상이 있는 아이의 분만 경력이 있는 임산부, 부모 중 한 명에게서 염색체의 구조적 이상이 있는 경우, 유전질환의 가족력이 있는 경우, 신경관결손의 위험이 있는 경우, 모체혈청 선별검사와 초음파검사에서 태아기형이 의심되는 경우 등에는 산전 진단을 받을 필요가 있다.
산전 진단 방법은 크게 침습적 진단 방법과 비침습적 진단 방법으로 나누어 볼 수 있다. 침습적 진단 방법의 예로는, 임신 10 ~ 12주 사이에 시행하는 융모막검사(chorionic villi sampling, CVS), 임신 15 ~ 20주 사이에 면역분석법을 이용하여 양수 내 AFP의 농도를 측정함으로써 태아의 염색체를 분석하는 양수천자(amniocentesis), 임신 18 ~ 20주 사이에 초음파 유도하에 탯줄로부터 직접 태아 혈액을 추출하는 방법으로 시행하는 탯줄천자(cordocentesis) 방법 등이 있다.
그러나, 위와 같은 침습적 진단 방법들은 검사 과정에서 태아에게 충격을 가하여 유산이나, 질병 또는 기형 등을 유발할 수 있다. 양수천자 또는 융모막 융모 샘플 채취에 의한 태아 물질 확보를 기초로 한 방법은 침습적이고, 심지어 숙련된 임상의에 의한 경우에도 임신에 대해 무시할 수 없는 위험을 야기할 수 있다. 현재 실무에서, 이러한 침습적 진단 방법은 대체로 모체 연령 때문에 또는 생화학적 시험 또는 초음파 검사를 통한 사전 스크리닝을 통해 다운 증후군 태아 임신 가능성이 증가한 표지가 있을 경우에 사용된다.
이러한 침습적 진단 방법들의 문제점들을 극복하기 위하여 비침습적 진단 방법들이 개발되고 있다. 예를 들어, 배아 착상 전 유전진단 방법은 체외수정에서 사용되는 분자유전학적 또는 세포유전학적 기술을 이용하여 자궁 내 착상 전 유전적 결함이 없는 배아를 선택하는 기술이다. 또한, 염색체 이수성(aneuploidy)을 신속히 진단하기 위한 QF-PCR(quantitative-fluorescent PCR) 형광 정량법은 염색체마다 특이적으로 존재하는 DNA의 짧은 염기서열 반복 표지자(short tandem repeats, STR)에 형광을 붙여 멀티플렉스(multiplex) PCR 법으로 증폭한 후 DNA 자동염기서열 분석기로 형광이 붙은 증폭된 DNA의 양을 측정하여 분석하는 신속 선별 검사방법이다. 또한, 복제수 변이(copy number change)를 찾아내기 위하여 유리 슬라이드 위에 맵핑한 DNA 서열(mapped DNA sequence)을 집적하여 검사하는 염색체 마이크로어레이(chromosomal microarray, CMA) 방법 등이 알려져 있다.
한편, 시퀀싱 기술의 발달로 대규모의 유전체 정보를 해독하는 것이 가능해짐에 따라, 이러한 차세대 시퀀싱(Next-Generation Sequencing, NGS) 기술을 기반으로 한 유전체 분석 방법들이 산전 진단 영역에도 활용되고 있다. 특히, 임신 여성의 혈장 내의 세포 유리 DNA가 태아 기원의 성분을 포함한다는 사실이 알려져 있으며(Lo et al., 1997, Lancet 350, 485-487), 세포 유리 혈장 DNA (이하에서 '혈장 DNA'로 언급함)는 대개 5%-20%가 태아 기원의 것이고 나머지는 모체의 것인 짧은 DNA 분자(80-200 bp)로 주로 이루어진다 (Birch et al., 2005, ClinChem 51, 312-320; Fan et al., 2010, ClinChem 56, 1279-1286).
이와 같은 사실을 이용하여 태아의 세포를 모체의 혈액에서 분리하여 그 염색체를 분석하려는 산전 진단 방법들이 알려져 있다. 일반적으로, 과잉 염색체에 의해 또는 염색체의 결핍 때문에 초래되는 태아 이수성이 존재하는 병태는 검출가능한 모체의 세포 유리 혈장 DNA 내의 태아 DNA 분자 집단의 불균형을 생성하므로 이를 이용하여 염색체 이상을 분석하는 방법이 개발되고 있다.
원칙적으로, 혈장 내의 세포 유리 태아 DNA가 모체 성분에 의해 희석되지 않으면, T21의 특징을 일으키는 과잉 염색체는 정상 임신에 비해 그 염색체로부터 유래된 50% 초과의 DNA 분자를 생성할 것으로 예상된다. 그러나, 태아 기원의 세포 유리 혈장 DNA의 성분에 대한 10%의 전형적인 값을 고려할 때, 발생하는 불균형은 단지 5%, 또는 정상 임신에 대한 1.00에 비해 1.05의 값으로의 21번 염색체-유래 단편의 수의 상대적인 증가인 것으로 예상된다. 혈장 DNA의 태아 성분이 10% 값보다 더 작거나 더 큰 상황에서, 모체 혈장 내의 분자들의 집단 내의 21번 염색체-유래 분자의 수의 불균형은 그에 상응하여 더 작거나 더 클 것이다.
따라서, 이러한 비침습적 진단 시험의 기초는 모체 혈장으로부터 DNA 분자에 대한 뉴클레오티드 서열 데이터를 얻는 것이다('DNA 서열분석'). 일단 부분적 또는 완전한 뉴클레오티드 서열 정보를 개별 DNA 분자로부터 얻은 후, 가장 간단하게는 참조 인간 게놈(들)과 비교함으로써 개별 분자들을 그들이 기원하는 염색체에 배정하기 위해 생물 정보공학 기술을 적용해야 한다.
충분히 많은 수의 혈장 DNA에 대해서 일부 뉴클레오티드 서열 데이터를 얻을 수 있고, 충분히 많은 수를 그의 염색체 기원에 배정하기 위해 생물 정보공학 방법을 신뢰가능하게 적용할 수 있음을 고려할 때, 통계적 신뢰성을 보유하면서 혈장 DNA 분자의 집단 내의 염색체 불균형의 존재 또는 부재를 결정하기 위해 통계적 방법을 적용할 수 있다.
지금까지 이러한 진단 방법에서는 그의 염색체 기원에 배정하기에 충분한 길이의 서열을 얻기 위해, 비교적 오류가 없는 고품질 서열 데이터를 생성하는 대규모 병렬형 DNA 서열분석 기술(차세대 서열분석 또는 제 2 세대 서열분석으로도 알려짐)을 이용하였다.
이러한 특정 자동화 서열분석 장치는 대개 통상적인 게놈 서열분석을 위해 요구되는 것보다 실질적으로 양호하지 못한 서열 데이터를 생성한다. 이렇게 생성된 서열 데이터는 빈번한 오류를 특징으로 한다. 이들 오류는 종류가 다양하지만, 가장 흔하게는 '삽입-결실(indel)'이고, 이것은 정확하지 않은 과잉 염기 (삽입) 또는 결실된 염기를 전달하는 서열분석 장치에 의해 야기되는 오류이다. 또한, 짧은 단독중합체런(run) (즉, 몇 개의 동일한 염기의 런)을 효과적으로 서열분석하기가 어렵다. 또한, 서열분석 오류는 또한 염기가 부정확하게 배정되는 '미스매치'를 포함할 수 있어서 여러가지 오류를 나타내고 있는 실정이다.
또한, 이러한 대규모 병렬형 서열분석은, 수행되는 서열분석이 시간이 많이 소요되고 비싼 생물 정보공학을 필요로 하는 아주 큰 데이터를 생성하는 풀-서비스 게놈 서열분석기 - 주로 일루미나(Illumina) HiSeq - 에서 고품질로 이루어진다는 단점을 포함한다. 또한, 풀-서비스 게놈 서열분석기의 종류에 따라 구체적인 분석을 수행하는 방법이 다를 뿐만 아니라, 실행 시간 및 분석 과정은 전체적으로 수 주가 소요될 수 있다.
본 발명은 상기와 같은 종래 기술의 문제점을 해결하기 위하여 종래 특정 자동화 서열분석 장치에 의한 서열시퀀싱 방법 및 이에 따른 정규화 방법에 제한되지 않고 생성된 서열 정보를 이용할 수 있으며, 상염색체와 성염색체 모두에 적용 가능한 새로운 염색체 이수성을 판단하는 새로운 방법을 제공하는 것을 목적으로 한다.
본 발명은 상기와 같은 과제를 해결하기 위하여
표적 염색체의 시퀀싱된 서열 데이터로부터 유일 리드를 추출하는 제 1 단계;
정상과 이수성에 대해 기검증된 염색체 데이터의 정상과 이수성을 구분 레이블하여선형 판별 분석 기법(LDA)으로 염색체 이수성 판단을 위한 경계선을 설정하는 제 2 단계;
상기 제 2 단계에서 설정된 경계선에 의하여 상기 제 1 단계에서 추출된 유일 리드표적 염색체 유전자의 이수성 유무를 판단하는 제 3 단계; 를 포함하는 염색체 이상 판단 방법을 제공한다.
본 발명에 의한 염색체 이상 판단 방법에 있어서, 이수성 판단을 위한 경계선을 설정하는 제 2 단계에서는 정상과 이수성에 대해 기검증된 염색체 데이터의 정상과 이수성을 구분하여 레이블하여 선형 판별 분석 기법(LDA)으로 초기 학습시키고, 기검증된 염색체 데이터 중 이수성 염색체 데이터의 최소값을 경계값으로 설정하는 것을 특징으로 한다.
본 발명에 의한 염색체 이상 판단 방법에 있어서, 상기 선형 판별 분석 기법은 Linear Discriminant Analysis 방법을 가리키며, 기검증된 염색체 데이터를 분석하여 초기 경계값을 설정하고 누적되는 샘플을 추가 분석하여 이수성 염색체 데이터의 최소값을 경계선으로 설정하는 방법을 가리킨다.
본 발명에 의한 염색체 이상 판단 방법에 있어서, 상기 선형 판별 분석 기법(LDA)에 의하여 설정된 기준에 의하여 새로운 표적 염색체 유전자의 이수성 유무를 판단하는 단계에서는 기검증된 염색체 데이터로부터 정상 샘플의 범위를 설정하고 이수성 데이터의 최소값을 경계선으로 하여 염색체 이상 유무를 판단하는 것을 특징으로 한다.
본 발명에 의한 염색체 이상 판단 방법에 있어서, 상기 표적 염색체로부터 유일 리드를 추출하는 단계에서는 90kb bin 영역으로 나누고 GC 함량은 0.35 에서 0.55 이하의 리드를 추출하는 것을 특징으로 한다.
본 발명에 의한 염색체 이상 판단 방법은 상기 제 1 단계 후 상기 추출한 유일 리드로부터 아래 식으로 나타내어지는 UR(x)%(염색체 X에 유일하게 매칭되는 리드의 퍼센트) 및 UR(y)%(염색체 Y에 유일하게 매칭되는 리드의 퍼센트)를 계산하는 제 1-1 단계;
UR(x)% = 염색체 X(chrX) 리드 개수/(상염색체) 리드 총 개수 X 100
UR(y)% = 염색체 Y(chrY) 리드 개수/(상염색체) 리드 총 개수 X 100
상기 UR(x)% 및 UR(y)%로부터 성별을 구분하는 제 1-2 단계; 및
상기 UR(x)% 및 UR(y)%로부터 성별을 구분하는 단계에서는 Y-specific 영역에 매핑되는 영역의 리드 개수로부터 성별을 구분하는 제 1-3 단계; 를 포함하는 R(x)% 및 UR(y)%로부터 성별을 판단하는 단계를 더 포함하는 염색체 이상 판단 방법을 제공한다.
본 발명에 의한 염색체 이상 판단 방법에 있어서, 상기 UR(x)% 및 UR(y)%로부터 성별을 구분하는 단계에서는 chrX와 chrY를 비교하여 Pseudoautosomal region을 선정하여 chrX의 영역을 제거한 순수한 chrY 영역만을 선정한 Y-specific 영역에 매핑되는 영역(표 1)의 리드 개수로부터 성별을 구분하는 것을 특징으로 한다.
본 발명에 의한 염색체 이상 판단 방법에 있어서, 상기 염색체가 13번 염색체, 18번 염색체, 21번 염색체, 3번 염색체, 7번 염색체, 12번 염색체로 이루어진 그룹에서 선택되는 1개 이상, 또는 X 염색체 또는 Y 염색체인 것을 특징으로 한다.
본 발명에 의한 염색체 이상 판단 방법은 상염색체를 대상으로 하는 경우 상염색체 전체로 확장 가능하며, 본 발명에 의한 염색체 이상 판단 방법에 있어서, 검출할 수 있는 염색체 이상의 예는 다음을 포함한다:
다운 증후군(21번 삼염색체증), 에드워드(Edward) 증후군(18번 삼염색체증), 파타우(Patau) 증후군(13번 삼염색체증), 9번 삼염색체증, 워카니(Warkany) 증후군(8번 삼염색체증), 묘안(Cat Eye) 증후군 (22번 염색체의 4 카피), 22번 삼염색체증, 및 16번 삼염색체증.
추가로 또는 대안적으로, 유전자, 염색체, 또는 염색체의 일부의 이상, 카피수의 검출은 다음을 포함하는 군으로부터 선택된 병태의 검출 및/또는 진단을 포함할 수 있다: 울프-허쉬호른(Wolf-Hirschhorn) 증후군 (4p-), 묘성(Cri du chat) 증후군 (5p-), 윌리암스-보이렌(Williams-Beuren) 증후군 (7-), 야콥센(Jacobsen) 증후군 (11-), 밀러-디커(Miller-Dieker) 증후군 (17-), 스미쓰-마게니스(Smith-Magenis) 증후군 (17-), 22ql l.2 결실 증후군 (구개심장안면(Velocardiofacial) 증후군, 디조지(DiGeorge) 증후군, 뿔줄기 기형 얼굴(conotruncal anomaly face) 증후군, 선천적 흉선 무형성증, 및 스트롱(Strong) 증후군으로도 알려짐), 안젤만(Angelman) 증후군 (15-), 및 프라더-윌리(Prader-Willi) 증후군 (15-).
추가로 또는 대안적으로, 염색체 카피수 이상의 검출은 터너(Turner) 증후군 (울리히-터너(Ullrich-Turner) 증후군 또는 일염색체 X), 클라인펠터(Klinefelter) 증후군, 47,XXY 또는 XXY 증후군, 48,XXYY 증후군, 49,XXXXY 증후군, 삼중 X 증후군, XXXX 증후군 (사염색체 X, 사중 X, 또는 48,XXXX로도 불림), XXXXX 증후군 (오염색체 X 또는 49,XXXXX로도 불림) 및 XYY 증후군을 포함하는 군으로부터 선택된 병태의 검출 및/또는 진단을 포함할 수 있다.
본 발명에 의한 염색체 이상 판단 방법은 기존 시퀀싱된 데이터로부터 선형 판별 분석 기법(LDA)에 의해 염색체 이수성 판단을 위한 경계선을 설정하기 때문에 사용되는 시퀀싱 데이터의 양이 많아질수록 판단의 정확도와 민감도가 높아지게 되며, 이에 따라 데이터를 계속 누적하면서 복수회 시행시 판단의 민감도와 정확도를 계속하여 개선할 수 있게 된다.
즉, 본 발명에 의한 염색체 이상 판단 방법은 시퀀싱된 데이터 서열을 계속적으로 추가하면서 염색체 이상 판단을 위한 상기 제 1 단계 내지 제 3 단계를 N 회 반복 수행하는 것이 가능하고, 상기 제 N-1 회 판단시 사용된 염색체 데이터 Dn-1, 상기 제 N 회 판단시 사용된 염색체 데이터를 Dn 이라고 할 때, 상기 제 N 회 판단시 사용된 염색체 데이터 Dn 에 대한 이수성 판단은 제 N-1 회 판단시 사용된 염색체 데이터 Dn-1 로부터 도출된 경계값인 것을 특징으로 한다.
경계값은 특정 알고리즘에 영향을 받지만 이수성에 가까운 값이 하나의 값으로 설정하거나 경계값을 두 개로 두어서 판단을 유연성 있게 개선할 수도 있다.
본 발명에 의한 염색체 이상 판단 방법에 있어서, 상기 시퀀싱된 서열 데이터가 차세대 서열분석 플랫폼에 의해 얻어지는 것을 특징으로 한다. 본 발명에 의한 서열 데이터를 얻기 위한 방법이 임의의 특정 기술로 제한되지 않음은 통상의 기술자에 의해 이해될 것이다.
상기 서열분석 플랫폼은 문헌 [Loman et al. (2012) Nature Biotechnology 30(5), 434-439]; [Quail et al. (2012) BMC Genomics 13, 341]; [Liu et al. (2012) Journal of Biomedicine and Biotechnology 2012, 1-11]; 및 [Meldrum et al. (2011) ClinBiochem Rev. 32(4): 177-195]에서 논의 및 검토되었고; 상기 문헌에서 검토된 서열분석 플랫폼은 본원에 참조로 포함된다.
본 발명에 의한 염색체 이상 판단 방법에 있어서, 상기 차세대 서열분석 플랫폼이 로슈(Roche) 454 (즉, 로슈 454 GS FLX), 어플라이드바이오시스템즈(Applied Biosystems)의 SOLiD 시스템 (즉, SOLiDv4), 일루미나(Illumina)의GAIIx, HiSeq 2500 및 MiSeq 서열분석기, 라이프 테크놀로지스(Life Technologies)의 아이온토렌트(Ion Torrent) 반도체 서열분석 플랫폼인 Proton 및 S5 서열분석기, 퍼시픽바이오사이언시스(Pacific Biosciences)의 PacBio RS 및 생어(Sanger)의 3730xl로부터 선택되는 것을 특징으로 한다.
본 발명에 의한 염색체 이상 판단 방법에 있어서, 상기 시퀀싱된 서열 데이터가 폴리머라제 연쇄 반응의 이용을 포함하는 서열분석 플랫폼에 의해 얻어지는 것을 특징으로 한다.
본 발명에 의한 염색체 이상 판단 방법에 있어서, 상기 시퀀싱된 서열 데이터가 합성에 의한 서열분석의 이용을 포함하는 서열분석 플랫폼에 의해 얻어지는 것을 특징으로 한다.
본 발명에 의한 염색체 이상 판단 방법에 있어서, 상기 시퀀싱된 서열 데이터가 이온, 예컨대 수소 이온 방출의 이용을 포함하는 서열분석 플랫폼에 의해 얻어지는 것을 특징으로 한다.
본 발명에 의한 염색체 이상 판단 방법에 있어서, 상기 시퀀싱된 서열 데이터가 반도체-기반 서열분석 방법의 이용을 포함하는 서열분석 플랫폼으로부터 얻어지는 것을 특징으로 한다. 반도체-기반 서열분석 방법의 장점은 기기, 칩 및 시약의 제조 비용이 낮고, 서열분석 과정이 신속하고 (emPCR에 의한 오프-셋에도 불구하고), 시스템을 확대할 수 있다는 것이지만, 이것은 emPCR에 사용되는 비드 크기에 의해 다소 제한될 수 있다.
본 발명에 의한 염색체 이상 판단 방법에 있어서, 상기 시퀀싱된 서열 데이터가 나노포어-기반 서열분석 방법의 이용을 포함하는 서열분석 플랫폼으로부터 얻어지는 것을 특징으로 한다. 나노포어-기반 방법은 예컨대 옥스포드 나노포어테크놀로지스(Oxford Nanopore Technologies)에 의해 사용된 기술에서처럼 살아있는 세포의 세포막 및 단백질 채널의 상황을 모방하는 유기-타입 나노포어의 이용을 포함한다 (예를 들어, 문헌 [Branton D, Bayley H, et al. (2008). Nature Biotechnology 26 (10), 1146-1153]).
본 발명에 의한 염색체 이상 판단 방법에 있어서, 상기 시퀀싱된 서열 데이터가 라이프 테크놀로지스의 아이온토렌트 플랫폼 또는 일루미나의 MiSeq에 의해 얻어지는 것을 특징으로 한다. 일루미나의 합성에 의한 서열분석(SBS) 기술은 현재 성공적이고, 세계적으로 널리 채택된 차세대 서열분석 플랫폼이다. TruSeq 기술은 단일 염기가 성장하는 DNA 가닥 내로 포함될 때 그의 검출을 가능하게 하는 독점적 가역적 종료자-기반 방법을 사용하는 대규모 병렬형 서열분석을 지지한다. 형광 표지된 종료자는 각각의 dNTP가 첨가되면서 영상화된 후, 다음 염기의 도입을 허용하기 위해 절단된다. 4개의 모든 가역적 종료자-결합 dNTP는 각각의 서열분석 사이클 동안 존재하기 때문에, 천연 경쟁이 도입 편향을 최소화한다.
본 발명에 의한 염색체 이상 판단 방법에 있어서, 상기 시퀀싱된 서열 데이터가 라이프 테크놀로지스의 아이온토렌트 퍼스널 게놈 머신(Personal Genome Machine) (아이온토렌트 PGM)에 의해 얻어지는 것을 특징으로 한다.
본 발명에 의한 염색체 이상 판단 방법에 있어서, 상기 시퀀싱된 서열 데이터가 라이프 테크놀로지스의 아이온토렌트 플랫폼, 예컨대 PI 또는 PII 칩을 갖는 아이온프로톤(Ion Proton)과 S5, 및 그의 추가의 파생 장치 및 부품을 기초로 한 다중 반복(multiplex capable iteration)에 의해 얻어지는 것을 특징으로 한다.
추가의 실시예에서, 차세대 서열분석 플랫폼은 라이프 테크놀로지스의 아이온토렌트 퍼스널 게놈 머신(Personal Genome Machine)인 퍼스널 게놈 머신(PGM)이다. 아이온토렌트 장치는 합성에 의한 서열분석(SBS)과 유사한 전략을 사용하지만, 뉴클레오티드 도입 동안 DNA 폴리머라제의 활성에 따른 수소 이온의 방출에 의한 신호를 검출한다. 본질적으로, 아이온토렌트 칩은 매우 민감한 pH 미터이다. 각각의 이온 칩은 다수의 서열분석 반응의 동시 검출을 허용하는, 수백만 개의 이온-감수성 전계 효과 트랜지스터(ISFET) 센서를 포함한다. ISFET 장치의 사용은 관련 기술 분야의 통상의 기술자에게 잘 알려져 있고, 본 발명의 방법에 의해 요구되는 서열 데이터를 얻기 위해 사용될 수 있는 기술의 범위 내에서 수행될 수 있다 (Prodromakis et al. (2010) IEEE Electron Device Letters 31(9), 1053-1055; Purushothaman et al. (2006) Sensors and Actuators B 114, 964-968; Toumazou and Cass (2007) Phil. Trans. R. Soc. B, 362, 1321-1328; WO 2008/107014 (DNA 일렉트로닉스 엘티디(DNA Electronics Ltd)); WO 2003/073088 (토우마조우(Toumazou)); US 2010/0159461 (DNA 일렉트로닉스 엘티디); 각각의 서열분석 방법은 본원에 참조로 포함됨).
본 발명에 의한 염색체 이상 판단 방법에 있어서, 상기 시퀀싱된 서열 데이터가 정규화되거나 또는 정규화되지 않은 것을 특징으로 한다. 즉, 본 발명에 의한 염색체 이상 판단 방법은 시퀀싱 방법에 제한되지 않을 뿐만 아니라, 시퀀싱된 서열 데이터의 표준화, 정규화를 수행하거나, 수행하지 않은 경우에도 염색체 이상을 판단할 수 있다.
본 발명에 의한 염색체 이상 판단 방법은 종래 특정 자동화 서열분석 장치에 의한 서열시퀀싱 방법 및 이에 따른 정규화 방법에 제한되지 않고, 생성된 서열 정보를 이용할 수 있으며, 상염색체와 성염색체 모두에 적용 가능하고, 진단 횟수가 늘어날수록 정확도 및 민감도가 증가하게 되어 비침습적인 방법의 상업적인 기반이 되면서 태아의 상염색체와 성염색체 수 이상으로 인한 기형 여부를 조기에 판단할 수 있는 산전 진단에 유용하게 활용될 수 있다.
본 발명에 의한 방법은 많은 시퀀싱 데이터 및 이에 대한 이상 판단 데이터가 축적되면 선형 판별 분석 기법(LDA)에 의해 정교한 경계선을 설정할 수 있으며 이에 따라 기존보다는 월등히 높은 민감도를 얻을 수 있다.
도 1은 본 발명의 진단 방법을 이용하여 100개의 샘플에 대하여 Proton 으로 Y-specific 영역으로 성별을 판단하는 예를 보여주는 그래프이다.
도 2는 본 발명의 진단 방법을 이용하여 30개의 샘플에 대하여 일루미나(Illumina)사의 HiSeq 플랫폼으로 성별을 판단하는 예를 보여주는 그래프이다.
도3은 본 발명의 진단 방법을 이용하여 QDNAseq으로 정규화를 수행하여 학습을 시킨 이후에 새로운 샘플을 예측한 결과를 나타낸 그래프이다.
도 4는 본 발명의 진단 방법을 이용하여 HMMcopy로 정규화를 수행하여 학습을 시킨 이후에 새로운 샘플을 예측한 결과를 나타낸 그래프이다.
도5은 정규화를 하지 않고 X와 Y의 퍼센트만을 이용하여 학습을 시킨 이후에 새로운 샘플을 예측한 결과를 나타낸 그래프이다.
도 6는 본 발명의 진단 방법을 이용하여 GCBias를 이용하는 Deeptools을 이용하여 정규화를 수행하여 학습을 시킨 이후에 새로운 샘플을 예측한 결과를 나타낸 그래프이다.
도 7은 본 발명의 진단 방법을 이용하여 21번 염색체의 정상과 이수성 샘플을 구분한 결과 그래프이다. N은 정상 샘플이고 T는 이수성 샘플이고 빨간색 T는 경계선에 있는 샘플이다.
도 8은 본 발명의 진단 방법을 이용하여 18번 염색체의 정상과 이수성 샘플을 구분한 결과 그래프이다. N은 정상 샘플이고 R은 이수성 샘플이고 빨간색 R은 경계선에 있는 샘플이다.
도 9는 본 발명의 진단 방법을 이용하여 13번 염색체의 정상과 이수성 샘플을 구분한 결과 그래프이다. N은 정상 샘플이고 M은 이수성 샘플이고 빨간색 M은 경계선에 있는 샘플이다.
도 10은 본 발명의 진단 방법을 이용하여 21번과 18번 염색체의 판단을 동시에 그린 그래프이다. 가로축은 chr21, 세로축은 chr18이고 N은 정상, 흰색은 18번 이수성, 분홍색은 21번 이수성을 나타낸다.
도 11은 본 발명의 진단 방법을 이용하여 3번 염색체의 이수성 여부를 판단한 결과를 그래프로 나타내었다. QDNAseq에서 정상 샘플의 평균은 7.551 이고 이수성 샘플의 평균은 7.615 이다.
도 12는 본 발명의 진단 방법을 이용하여 7번 염색체의 이수성 샘플을 그래프로 나타내었다.
도 13은 본 발명의 진단 방법을 이용하여 12번 염색체의 이수성 샘플을 그래프로 나타내었다.
도 14 내지 도 16은 본 발명의 진단 방법을 이용하여 성염색체 이수성을 판단하기 위해서 정상 샘플과 XXY, XYY, XXX, XO 샘플을 그린 그래프이다.
도 15는 XXY와 XYY를 구분하는 그래프이다.
도 16은 XXX와 XO를 구분하는 그래프이다.
이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다. 이들 실시예는 오로지 본 발명을 예시하기 위한 것으로, 본 발명의 범위가 이들 실시예에 의해 제한되는 것으로 해석되지 않는 것은 당업계에서 통상의 지식을 가진 자에게 있어서 자명할 것이다.
다른 식으로 정의되지 않는 한, 본 명세서에서 사용된 모든 기술적 및 과학적 용어들은 본 발명이 속하는 기술 분야에서 숙련된 전문가에 의해서 통상적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 본 명세서에서 사용된 명명법 및 이하에 기술하는 실험 방법은 본 기술 분야에서 잘 알려져 있고 통상적으로 사용되는 것이다.
< 실시예 1> 유일 리드를 추출하여 남녀를 구분하는 단계
산모로부터 채취된 혈액에서 혈장을 추출하여 30ng 이상의 cfDNA를 추출하여 라이브러리를 제작하고 Life Tech과 일루미나(Illumina) 모두 Adapter를 결합하였다. 이후 Life Tech 장비를 사용하여 E-gel size selection로 pooling을 하고, 일루미나(Illumina)를 사용하여 bead size selection을 수행하고 pooling을 하여 시퀀싱을 수행하였다.
시퀀싱된 fastq 파일을 서열 정리하고, PCR duplication을 제거하여 유일 리드를 추출하였다. 완벽히 정렬(perfect match)된 리드만을 정리하고, 정리된 서열에서 모든 영역을 90kb bin 영역으로 나누고 GC 함량이 0.35 에서 0.55 이하의 리드를 추출하였다.
아래 식으로 나타낸 염색체 X에 유일하게 매칭되는 유리 리드의 퍼센트(UR(x)%) 와 염색체 Y에 유일하게 매칭되는 유일 리드의 퍼센트(UR(y)%) 값을 구하였다.
-UR(x)% = 염색체 X(chrX) 리드 개수/(상염색체) 리드 총 개수 X 100
-UR(y)% = 염색체 Y(chrY) 리드 개수/(상염색체) 리드 총 개수 X 100
하기 표 1에서와 같이 Y-specific 영역을 설정하고, Y-specific 영역을 기준으로 리드 개수를 계산하여 2 미만이면 여자로, 2 이상이면 남자로 결정하였다.
하기 표 1에서 Y-specific 영역은 chrX와 chrY를 비교하여 Pseudoautosomal region을 제거한 이후에 chrX의 영역을 제거한 순수한 chrY 영역으로 정의하고 아래와 같이 선정하였다. 본 발명은 Y-specific 영역에 매핑되는 영역의 리드 수를 세는 방법을 이용하여 쉽게 남녀를 구분할 수 있는 것을 특징으로 한다.
Y-specific 영역 X와 동일한 영역
- chrY:1-10000chrY : 10001-2649520- chrY:2649521-59034049chrY : 59034050-59373566 - chrX:60 ,001-2,699,520 = chrY:10,001-2,649,520 - chrX:154 ,931,044 = chrY:59,034,050-59,363,566
Proton 을 사용하여 100개의 샘플에 대해 본 발명에 의하여 LDA 방법을 이용하여 초기 학습시켜서 성별을 측정한 경우를 나타내는 도 1과, 일루미나(Illumina)를 사용하여 30개의 샘플에 대해 성별을 측정한 경우를 나타내는 도 2 에서, 각각의 경우 LDA 에 의해 결정되는 경계값은 다르지만, 상호 유사한 값으로 남녀를 구분할 수 있음을 확인할 수 있다.
< 실시예 2> 기존 시퀀싱 데이터를 이용한 LDA 학습
본 발명은 표준 방법에 의해서 확인된 데이터를 선형 판별 분석 기법(LDA)을 이용하여 초기 학습시켜서, 이수성 데이터의 최소값을 경계값으로 추출하고, 이로부터 표적 염색체의 정상, 이수성, 경계를 예측 판단할 수 있는 것을 특징으로 한다.
종래 Z-score와 일루미나(Illumina)의 NCV등의 방법이 대표적으로 사용되고 있지만 Low-depth 데이터를 이용하여 전체 데이터를 정규화하는 다양한 정규화 알고리즘(QDNAseq, HMMcopy, Deeptools 등)이 소개되고 있다.
loess를 이용한 QDNAseq 프로그램으로 시퀀싱 데이터를 정규화하고 Z-score를 구한 결과인 도 3을 보면 5개의 붉은 색 T(Trisomy)샘플을 확인할 수 있고 1.268에서 정상과 이수성 샘플이 구분되므로, LDA 법에 의해 1.268을 경계선을 자동으로 설정가능하다는 것을 알 수 있다.
HMMcopy로 정규화하고 Z-score를 구한 결과를 나타내는 도 4에서도 5개의 붉은 색 T(Trisomy)를 확인할 수 있고, 2개의 N(Normal)이 있지만 1.44를 기준으로 정상과 이수성 샘플이 명확하게 구분되므로, LDA 법에 의해 1.44를 경계선을 자동으로 설정가능하다는 것을 알 수 있다.
오직 GCBias만을 정규화한 결과를 나타내는 도 6 에서도 5를 기준으로 정상과 이수성 샘플이 명확하게 구분되므로, LDA 법에 의해 5를 경계선을 자동으로 설정가능하다는 것을 알 수 있다.
또한, 본 발명에 의한 염색체 이상 판단 방법의 경우 구체적인 플랫폼에 무관하게 시퀀싱된 데이터에 대하여 별도의 정규화 과정을 수행하지 않고도 염색체 이상을 판단하는 것이 가능하다.
도 5 에서 기본적인 서열정리를 수행한 이후에 정규화를 수행하지 않고 UR.X와 UR.Y의 퍼센트만으로 데이터를 학습시키고, 이후 새로운 샘플의 값(붉은색의 V)을 삽입하여도 검정색의 정상 샘플인 N과 검정색의 이수성 샘플인 T 가 1.4를 기준으로 명확하게 구분됨을 확인 할 수 있다.
도 5 에서 경계선에 포함된 붉은 색 T가 2개밖에 없기 때문에, 본 발명에 의한 선형 판별 분석 기법(LDA)에 의하여 염색체 이상 판단 방법의 경우 단순 서열정리만을 수행하고도 충분히 정상 샘플과 이수성 샘플을 명확하게 구분할 수 있음을 알 수 있다.
이로부터 본 발명에 의한 LDA방법을 활용한 염색체 이상 판단 방법의 경우 기존의 알려진 정규화 알고리즘이나 Z-score를 이용하지 않고서도 동일한 결과를 얻을수 있음을 알수 있다.
< 실시예 3> 상염색체 이수성 판단
< 실시예 3- 1> 21 , 18, 13번 염색체 이수성 판단
상기 실시예 2 의 기존 표준 방법에 의해서 확인된 데이터에서 chr21, chr18, chr13 의 경우를 구분하고, 상기 chr21, chr18, chr13 데이터 각각에 대해 LDA 방법을 이용하여 이수성 데이터의 최소값을 경계값으로 추출하고, 이로부터 정상, 이수성, 경계를 예측 판단하였다.
본 발명에 의한 염색체 이상 판단 방법, 즉, 기존 데이터를 활용하여서열정리를 수행하고 정규화를 수행한 이후에 LDA 방법으로 선정된 이수성 데이터의 최소값을 경계값으로 설정하고, 상기 경계값을 기준으로 chr21, chr18, chr13번 염색체 이수성 판단 결과를 도 7, 도 8 및 도 9에 각각 나타내었다.
도 7 에서 chr21의 경우 경계값인 4를 기준으로 명확한 이수성을 판단할 수 있고, 빨간색 T(이수성) 샘플을 기준으로 경계선과 정상(N)과 이수성(T) 샘플을 명확하게 구분할 수 있음을 확인할 수 있다.
도 8에서 chr18의 경우 경계값인 2.5를 기준으로 명확한 이수성을 판단할 수 있고, 빨간색 R(이수성)샘플을 기준으로 경계선과 정상(N)과 이수성(T) 샘플을 명확하게 구분할 수 있음을 확인할 수 있다.
도 9 에서 chr13의 경우 경계값인 1.5를 기준으로 명확한 이수성을 판단할 수 있고, 빨간색 M(이수성)샘플을 기준으로 경계선과 정상(N)과 이수성(T) 샘플을 명확하게 구분할 수 있음을 확인할 수 있다.
또한, 도 10에서 보는 바와 같이 본 발명의 염색체 이상 판단 방법에서는 chr21과 chr18이 동시에 이수성을 나타내는 샘플을 쉽게 구분 할 수 있음을 확인할 수 있다.
< 실시예 3-2> 상염색체 범위 확장 가능성
본 발명의 염색체 이상 판단 방법을 종래 가장 잘 알려진 chr13, chr18, chr21 뿐만 아니라 다른 상염색체 이상의 검출에도 적용가능함을 확인하였다.
먼저, chr3, chr7, chr12 3개의 염색체 시퀀싱 데이터로부터 종래 사용되는 방법에 의해 정규화를 수행하고 리드수를 이용하여 z-score를 계산하고, 그 결과를 도 11 내지 도 13 에 나타내었다.
도 11 내지 도 13 에서 chr13, chr18, chr21의 이수성 샘플과 정상 샘플을 분석하여 최소 리드수를 정의하면 동일한 비율임을 확인할 수 있고, 이 최소 리드수를 적용하여 랜덤으로 선정한 chr3, chr7, chr12 염색체에 본 발명에 의한 LDA 에 의해 염색체 이상을 판단하면, chr3(도 11), chr7(도 12), chr12(도 13)에서 보는 바와 같이 정상과 이수성이 명확하게 구분됨을 확인할 수 있었다
도 11 에서 QDNAseq에서 제공하는 loess 알고리즘을 적용하여 chr3의 정상 샘플들의 평균값을 확인했을 때 7.55이고 최대값은 7.58로 이수성 샘플의 최소값인 7.62와는 명확한 경계를 구분함을 확인 할 수 있다.
도 12 에서 HMMcopy를 적용하여 chr7의 정상 샘플들의 평균값은 7.29이고, 이수성 샘플의 평균값은 7.36임을 확인할 수 있다. 최소값을 적용했을 경우에도 5개의 모든 샘플이 정상과는 명확하게 구분됨을 확인할 수 있기 때문에, 본 발명에 의한 염색체 이상 판단 방법의 대상 염색체를 모든 염색체로 확장할 수 있음을 알 수 있다.
도 13 에서 chr12의 경우에도 QDNAseq을 사용했을 경우 정상 샘플의 평균은 4.97이고 이수성 샘플은 4.995로 명확하게 구분되고 정상 샘플의 최대값과도 확실한 거리를 두어서 구분됨을 확인할 수 있다. HMM copy의 경우에도 정상 샘플의 평균값이 4.82이고 이수성 샘플의 평균값은 4.868로 차이가 나고 명확한 경계선이 있음을 확인할 수 있다.
22개의 상염색체 중에서 3개의 염색체(chr13, chr18, chr21)와 chr3, chr7, chr12의 총 6개의 예에서 명확하게 정상과 이수성 샘플을 구분 할 수 있음을 확인할 수 있으며, 이로부터 본 발명에 의한 염색체 이상의 판단 방법을 모든 염색체로 확장할 수 있음을 알 수 있다.
< 실시예 4> 성염색체 이상 판단
246개 샘플에 대해 아래 식에서 표시된 UR.X와 UR.Y를 얻고, 그 결과를 도 14 내지 도 16에 나타내었다.
UR(x)% = 염색체 X(chrX) 리드 개수/(상염색체) 리드 총 개수 X 100
UR(y)% = 염색체 Y(chrY) 리드 개수/(상염색체) 리드 총 개수 X 100
도 14 에서 하늘색과 분홍색 부분을 경계선으로 설정하여 정상과 이수성 샘플을 구분하며, 남자 샘플의 경우에도 15 에서 보는 바와 같이 UR.X의 값이 5.5 이상일 때 XXY, 5.5 미만일 때는 XYY로 판단하며, 여자 샘플의 경우 도 16 에서 보는 바와 같이 흰색 부분은 XO를 나타내고 5.75 이상의 데이터(붉은색 A)는 XXX로 판단한다.
남자 샘플의 경우에 도 15 에서 보는 바와 같이 XO의 경우 UR.X가 5.35 이하이면서 UR.Y가 0.06 이하인 값은 XO로 설정하고, XO의 기준은 하늘색선을 따라서 경계선을 설정하였다.
많은 데이터가 축적되면 학습을 시키기 때문에 보다 정교한 경계선을 잡을 수 있으며 데이터 형태에 맞게 경계선을 잡을 수 있기에 기존보다는 월등히 높은 정확도를 얻을 수 있다.
본 발명의 염색체 이상 판단 방법에 의해 상염색체 및 성염색체 이상 여부를 판단한 결과를 아래 표 2에 나타내었다. 기존 알려진 표준 실험 방법에 의해서 검증된 결과와 본 발명의 본 발명의 염색체 이상 판단 방법에 의해 판단된 결과가 동일한 것을 알 수 있다.
Figure PCTKR2017000741-appb-T000001
본 발명에 의한 염색체 이상 판단 방법은 종래 특정 자동화 서열분석 장치에 의한 서열시퀀싱 방법 및 이에 따른 정규화 방법에 제한되지 않고, 생성된 서열 정보를 이용할 수 있으며, 상염색체와 성염색체 모두에 적용 가능하고, 진단 횟수가 늘어날수록 정확도 및 민감도가 증가하게 되어 비침습적인 방법의 상업적인 기반이 되면서 태아의 상염색체와 성염색체 수 이상으로 인한 기형 여부를 조기에 판단할 수 있는 산전 진단에 유용하게 활용될 수 있다.
본 발명에 의한 방법은 많은 시퀀싱 데이터 및 이에 대한 이상 판단 데이터가 축적되면 선형 판별 분석 기법(LDA)에 의해 정교한 경계선을 설정할 수 있으며 이에 따라 기존보다는 월등히 높은 민감도를 얻을 수 있다.

Claims (20)

  1. 표적 염색체의 시퀀싱된 서열 데이터로부터 유일 리드를 추출하는 제 1 단계;
    정상과 이수성에 대해 기 검증된 염색체 데이터의 정상과 이수성을 구분 레이블하 여선형 판별 분석 기법(LDA)으로 염색체 이수성 판 단을 위한 경계선을 설정하는 제 2 단계; 및
    상기 제 2 단계에서 설정된 경계선에 의하여 상기 제 1 단 계에서 추출된 유일 리드표적 염색체 유전자의 이수성 유무를 판단하는 제 3 단계;
    를 포함하는 염색체 이상 판단 방법.
  2. 제 1 항에 있어서,
    기검증된 염색체 데이터의 정상과 이수성을 구분 레이블하여 LDA 방법으로 초기 학 습시키고, 염색체 이수성 판단을 위한 경계선을 설정하는 제 2 단계에서는 기검증된 염색체 데이터 중 이수 성 염색체 데이터의 최소값을 경계선으로 설정하는 것인 염색체 이상 판단 방법.
  3. 제 1 항에 있어서,
    상기 유일 리드를 추출하는 단계에서는 90kb bin 영역으로 나누고 GC 함량은 0.35 에서 0.55 이하의 리드를 추출하는 것인 염색체 이상 판단 방법.
  4. 제1항에 있어서,
    상기 염색체가 13번 염색체, 18번 염 색체, 21번 염색체, 3번 염색체, 7번 염색체, 및 12번 염색체로 이루어진 그룹에서 선택되는 1개 이상, 또는 X 염색체 또는 Y 염색체인 것인 염색체 이상 판단 방법.
  5. 제 1 항에 있어서,
    상기 제 1 단계 후 상기 추출한 유일 리드로부터 아래 식으로 나타내어지는 UR(x)% (염색체 X에 유일하게 매칭되는 리드의 퍼센트) 및 UR(y)%(염색체 Y에 유일하게 매칭되는 리드의 퍼센트)를 계산하는 제 1-1 단계;
    UR(x)% = 염색체 X(chrX) 리드 개 수/(상염색체) 리드 총 개수 X 100
    UR(y )% = 염색체 Y(chrY) 리드 개수/(상염색체) 리드 총 개수 X 100
    상기 UR(x)% 및 UR(y)%로부터 성별을 구분하는 제 1-2 단계; 및
    상기 UR(x)% 및 UR(y)%로부터 성별을 구분하는 단계에서는 Y-specific 영역 에 매핑되는 영역의 리드 개수로부터 성별을 구분하는 제 1-3 단계; 를 포함하는 유전자 성별을 판단하는 단계;를 더 포함하는 것인 염색체 이상 판단 방법.
  6. 제 4 항에 있어서,
    상기 표적 염색체가 X 염색체인 경우 상기 염색체 이상은 XXX 또는 XO 를 판단하는 것인 염색체 이상 판단 방법.
  7. 제 4 항에 있어서,
    상기 염색체가 Y 염색체인 경우 상기 염색체 이상은 XXY 또는 XYY 를 판단하는 것인 염색체 이상 판단 방법.
  8. 제 1 항에 있어서,
    상기 제 1 단계 내지 제 3 단계를 N 회 반복 수행하는 것인 염색체 이상 판단 방법.
  9. 제 8 항에 있어서,
    제 N 회 판단시 사용된 염색체 데이터 Dn 에 대한 이수성 판단은 제 N-1 회 판단시 사용된 염색체 데이터 Dn-1 로부터 도출된 경계값인 것인 염색체 이상 판단 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서, 상기 시퀀싱된 서열 데이터가 차세대 서열분석 플랫폼에 의해 얻어지는 것인 염색체 이상 판단 방법.
  11. 제1항 내지 제9항 중 어느 한 항에 있어서, 상기 시퀀싱된 서열 데이터가 폴리머라제 연쇄 반응의 이용을 포함하는 서열분석 플랫폼에 의해 얻어지는 것인 염색체 이상 판단 방법.
  12. 제1항 내지 제9항 중 어느 한 항에 있어서, 상기 시퀀싱된 서열 데이터가 합성에 의한 서열분석의 이용을 포함하는 서열분석 플랫폼에 의해 얻어지는 것인 염색체 이상 판단 방법.
  13. 제1항 내지 제9항 중 어느 한 항에 있어서, 상기 시퀀싱된 서열 데이터가 이온, 예컨대 수소 이온 방출의 이용을 포함하는 서열분석 플랫폼에 의해 얻어지는 것인 염색체 이상 판단 방법.
  14. 제1항 내지 제9항 중 어느 한 항에 있어서, 상기 시퀀싱된 서열 데이터가 반도체-기반 서열분석 방법의 이용을 포함하는 서열분석 플랫폼으로부터 얻어지는 것인 염색체 이상 판단 방법.
  15. 제1항 내지 제9항 중 어느 한 항에 있어서, 상기 시퀀싱된 서열 데이터가 나노포어-기반 서열분석 방법의 이용을 포함하는 서열분석 플랫폼으로부터 얻어지는 것인 염색체 이상 판단 방법.
  16. 제 10 항에 있어서,
    상기 차세대 서열분석 플랫폼이 로슈(Roche) 454 (즉 , 로슈 454 GS FLX), 어플라이드바이오시스템즈(Applied Biosystems)의 SOLiD 시스템 (즉, SOLiDv4), 일루미 나(Illumina)의GAIIx, HiSeq 2500 및 MiSeq 서열분석기, 라이프 테크놀로지스 (Life Technologies)의 아이온 토렌트(Ion Torrent) 반도체 서열분석 플랫폼, 퍼시픽바이오사이언시스(Pacific Biosc iences)의 PacBio RS 및 생어(Sanger)의 3730xl로부터 선택되는 것인 염색체 이상 판단 방법.
  17. 제1항 내지 제9항 중 어느 한 항에 있어서, 상기 시퀀싱된 서열 데이터가 라이프 테크놀로지스의 아이온토렌트 플랫폼 또는 일루미나의 MiSeq에 의해 얻어지 는 것인 염색체 이상 판단 방법.
  18. 제1항 내지 제9항 중 어느 한 항에 있어서, 상기 시퀀싱된 서열 데이터가 라이프 테크놀로지스의 아이온토렌트 퍼스널 게놈 머신(Personal Genome Machine) (아 이온토렌트 PGM)에 의해 얻어지는 것인 염색체 이상 판단 방법.
  19. 제1항 내지 제9항 중 어느 한 항에 있어서, 상기 시퀀싱된 서열 데이터가 라이프 테크놀로지스의 아이온토렌트 플랫폼, PI 또는 PII 칩을 갖는 아이온프로톤 (Ion Proton), S5 및 그의 추가의 파생 장치 및 부품을 기초로 한 다중 반복(multiplex capable iteration) 에 의해 얻어지는 것인 염색체 이상 판단 방법.
  20. 제1항 내지 제9항 중 어느 한 항에 있어서, 상기 시퀀싱된 서열 데이터가 정규화되거나 또는 정규화되지 않은 것인 염색체 이상 판단 방법.
PCT/KR2017/000741 2016-01-20 2017-01-20 염색체 이상 판단 방법 WO2017126943A1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US16/071,537 US20190032125A1 (en) 2016-01-20 2017-01-20 Method of detecting chromosomal abnormalities
SG11201806164VA SG11201806164VA (en) 2016-01-20 2017-01-20 Method for determining chromosome abnormalities
CN201780007722.1A CN108604258B (zh) 2016-01-20 2017-01-20 染色体异常判断方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020160007181A KR101817180B1 (ko) 2016-01-20 2016-01-20 염색체 이상 판단 방법
KR10-2016-0007181 2016-01-20

Publications (1)

Publication Number Publication Date
WO2017126943A1 true WO2017126943A1 (ko) 2017-07-27

Family

ID=59361895

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/000741 WO2017126943A1 (ko) 2016-01-20 2017-01-20 염색체 이상 판단 방법

Country Status (5)

Country Link
US (1) US20190032125A1 (ko)
KR (1) KR101817180B1 (ko)
CN (1) CN108604258B (ko)
SG (1) SG11201806164VA (ko)
WO (1) WO2017126943A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107502668A (zh) * 2017-09-23 2017-12-22 上海五色石医学研究股份有限公司 一种人Y染色体标签位点sY1291的检测方法及其应用

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102142904B1 (ko) * 2018-02-27 2020-08-10 이원다이애그노믹스(주) 비침습적 산전진단을 통한 태아의 성별 판별방법
KR102142909B1 (ko) * 2018-03-29 2020-08-10 이원다이애그노믹스(주) 비침습적 산전 검사에 의한 태아 염색체의 미세결실 또는 미세증폭의 확인 방법
CN110033828B (zh) * 2019-04-03 2021-06-18 北京各色科技有限公司 基于芯片检测dna数据的性别判断方法
EP4184514A1 (en) 2021-11-23 2023-05-24 Eone Reference Laboratory Apparatus and method for diagnosing cancer using liquid biopsy data
KR20240078820A (ko) 2022-11-28 2024-06-04 한국수력원자력 주식회사 영상 증강을 이용한 안정형 염색체의 계수 방법 및 이를 위한 계수 장치
KR20240078819A (ko) 2022-11-28 2024-06-04 한국수력원자력 주식회사 영상 증강을 이용한 염색체의 계수 방법 및 이를 위한 계수 장치
KR20240078821A (ko) 2022-11-28 2024-06-04 한국수력원자력 주식회사 영상 증강을 이용한 불안정형 염색체의 계수 방법 및 이를 위한 계수 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100058503A (ko) * 2007-07-23 2010-06-03 더 차이니즈 유니버시티 오브 홍콩 대규모 병렬 게놈 서열분석을 이용한 태아 염색체 이수성의 진단 방법
KR20140023847A (ko) * 2011-06-29 2014-02-27 비지아이 헬스 서비스 코포레이션 리미티드 태아 유전학적 이상의 비침습성 검출
WO2014190286A2 (en) * 2013-05-24 2014-11-27 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
KR20150070111A (ko) * 2012-08-30 2015-06-24 프리마이타 헬스 엘티디 염색체 이상의 검출 방법

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5258907A (en) 1989-01-17 1993-11-02 Macri James N Method and apparatus for detecting down syndrome by non-invasive maternal blood screening
CN101437959A (zh) * 2004-09-20 2009-05-20 普罗特奥格尼克斯公司 诊断胎儿非整倍体
US20100112590A1 (en) * 2007-07-23 2010-05-06 The Chinese University Of Hong Kong Diagnosing Fetal Chromosomal Aneuploidy Using Genomic Sequencing With Enrichment
WO2009094665A1 (en) * 2008-01-25 2009-07-30 Perkinelmer Health Sciences, Inc. Methods for determining the risk of prenatal complications
ES2623156T3 (es) * 2010-01-26 2017-07-10 Nipd Genetics Ltd Métodos y composiciones para el diagnóstico prenatal no invasivo de aneuploidías fetales
CN104156631B (zh) * 2014-07-14 2017-07-18 天津华大基因科技有限公司 染色体三倍体检验方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100058503A (ko) * 2007-07-23 2010-06-03 더 차이니즈 유니버시티 오브 홍콩 대규모 병렬 게놈 서열분석을 이용한 태아 염색체 이수성의 진단 방법
KR20140023847A (ko) * 2011-06-29 2014-02-27 비지아이 헬스 서비스 코포레이션 리미티드 태아 유전학적 이상의 비침습성 검출
KR20150070111A (ko) * 2012-08-30 2015-06-24 프리마이타 헬스 엘티디 염색체 이상의 검출 방법
WO2014190286A2 (en) * 2013-05-24 2014-11-27 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JENSEN: "High-throughput massively parallel sequencing for fetal aneuploidy detection from maternal plasma", PLOS ONE, vol. 8, no. 3, 2013, pages e57381, 1 - 8, XP055089612, DOI: doi:10.1371/journal.pone.0057381 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107502668A (zh) * 2017-09-23 2017-12-22 上海五色石医学研究股份有限公司 一种人Y染色体标签位点sY1291的检测方法及其应用

Also Published As

Publication number Publication date
CN108604258A (zh) 2018-09-28
KR20170087327A (ko) 2017-07-28
CN108604258B (zh) 2022-05-13
KR101817180B1 (ko) 2018-01-10
SG11201806164VA (en) 2018-08-30
US20190032125A1 (en) 2019-01-31

Similar Documents

Publication Publication Date Title
WO2017126943A1 (ko) 염색체 이상 판단 방법
WO2017023148A1 (ko) 다양한 플랫폼에서 태아의 성별과 성염색체 이상을 구분할 수 있는 새로운 방법
US20150267255A1 (en) Method of detecting chromosomal abnormalities
AU2014281635B2 (en) Method for determining copy number variations in sex chromosomes
US20140127688A1 (en) Methods and systems for identifying contamination in samples
CN111052249B (zh) 确定预定染色体保守区域的方法、确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质
EP2649199A2 (en) Non-invasive determination of fetal inheritance of parental haplotypes at the genome-wide scale
KR20140050032A (ko) 샘플 중 상이한 이수성의 존재 또는 부재를 결정하는 방법
WO2019139363A1 (ko) 무세포 dna를 포함하는 샘플에서 순환 종양 dna를 검출하는 방법 및 그 용도
EP4152334A1 (en) Gene sequencing analysis method and apparatus, and storage medium and computer device
EP3271481B1 (en) Methods of quality control using single-nucleotide polymorphisms in pre-implantation genetic screening
WO2017131359A1 (ko) 태아의 염색체이수성을 검출하는 방법
JP2022522565A (ja) 短タンデム反復領域の変動を決定するための配列グラフ系ツール
JP2023552507A (ja) ゲノムの反復領域内のショートリードを可視化するための方法及びシステム
AU2018244815A1 (en) Method of detecting a fetal chromosomal abnormality
CN106795551A (zh) 单细胞染色体的cnv分析方法和检测装置
WO2023096224A1 (ko) 가상 데이터에 기반한 태아의 염색체이수성을 검출하는 방법
WO2023191262A1 (ko) 환자 맞춤형 패널을 이용한 암의 재발을 예측하는 방법
WO2020235721A1 (ko) 다중 오믹스 분석을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법, 우울증 또는 자살 위험 예측용 마커, 및 다중 오믹스 분석을 이용한 우울증 또는 자살 위험 예측 방법
CN111321210B (zh) 一种无创产前检测胎儿是否患有遗传疾病的方法
WO2020141722A1 (ko) 모체 시료 중 태아 분획을 결정하는 방법
RU2799654C2 (ru) Инструмент на основе графов последовательностей для определения вариаций в областях коротких тандемных повторов
RU2777072C1 (ru) Способ определения анеуплоидии плода в образце крови беременной женщины
WO2020050672A1 (ko) 모체 혈액 유래 무세포 dna 단편을 이용한 비침습적 산전 검사 방법
WO2018110940A1 (ko) 차세대 핵산 서열 분석을 위한 라이브러리의 복잡성을 측정하는 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17741709

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17741709

Country of ref document: EP

Kind code of ref document: A1