WO2017131359A1 - 태아의 염색체이수성을 검출하는 방법 - Google Patents

태아의 염색체이수성을 검출하는 방법 Download PDF

Info

Publication number
WO2017131359A1
WO2017131359A1 PCT/KR2017/000266 KR2017000266W WO2017131359A1 WO 2017131359 A1 WO2017131359 A1 WO 2017131359A1 KR 2017000266 W KR2017000266 W KR 2017000266W WO 2017131359 A1 WO2017131359 A1 WO 2017131359A1
Authority
WO
WIPO (PCT)
Prior art keywords
sample
chromosome
score
sequence information
nucleic acid
Prior art date
Application number
PCT/KR2017/000266
Other languages
English (en)
French (fr)
Inventor
김선신
정명준
민경태
안민애
하정수
이소라
배진한
주희재
Original Assignee
지놈케어 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 지놈케어 주식회사 filed Critical 지놈케어 주식회사
Priority to US16/071,883 priority Critical patent/US11710565B2/en
Publication of WO2017131359A1 publication Critical patent/WO2017131359A1/ko
Priority to US18/225,618 priority patent/US20230368918A1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Definitions

  • the present invention relates to a method for detecting fetal chromosomal apoptosis from a biological sample derived from a pregnant woman and a medium related thereto.
  • Prenatal diagnosis is the diagnosis of the fetus's disease before the baby is born. Prenatal diagnosis is largely divided into invasive and non-invasive diagnostic methods. Invasive diagnostic methods include chorionic examination, amniotic fluid, and umbilical cord puncture, for example. Invasive diagnostic methods have the potential to cause abortion, disease or malformation by impacting the fetus during the test, non-invasive diagnostic methods are being developed.
  • a computer readable medium having recorded thereon a program applied for carrying out a method of detecting chromosomal aneuploidies to a target chromosome of a fetus.
  • the method comprises the steps of: obtaining reads of a plurality of nucleic acid fragments obtained from a biological sample of a pregnant woman;
  • the method includes obtaining sequence information of a plurality of nucleic acid fragments obtained from a biological sample of a pregnant woman.
  • the pregnant woman may be a woman who is pregnant with a single or twin.
  • the biological sample may be blood, plasma, serum, urine, saliva, mucosal secretions, sputum, feces, tears, or a combination thereof.
  • the biological sample is, for example, plasma of peripheral blood.
  • the biological sample may comprise a fetal nucleic acid.
  • the fetal nucleic acid may be a cell-free DNA (cf DNA).
  • the nucleic acid of the fetus may be isolated DNA.
  • Obtaining sequence information of the plurality of nucleic acid fragments obtained from the biological sample of the pregnant woman may include separating the nucleic acid from the biological sample.
  • the method of separating nucleic acid from the biological sample may be performed by a method known to those skilled in the art.
  • the isolated nucleic acid fragment has a length of about 10 bp (base pair) to about 2000 bp, about 15 bp to about 1500 bp, about 20 bp to about 1000 bp, about 20 bp to about 500 bp, about 20 bp to about 200 bp Or from about 20 bp to about 100 bp.
  • Obtaining sequence information of a plurality of nucleic acid fragments from a biological sample obtained from the pregnant woman may include performing massively parallel sequencing of the isolated nucleic acid.
  • massive parallel sequencing can be used interchangeably with next-generation sequencing (NGS) or second-generation sequencing.
  • NGS next-generation sequencing
  • Large scale parallel sequencing refers to a technique for sequencing multiple nucleic acids of millions of fragments simultaneously.
  • Large-scale parallel sequencing for example, 454 Platform (Roche), GS FLX Titanium, Illumina MiSeq, Illumina HiSeq, Illumina Genome Analyzer, Solexa platform, SOLiD System (Applied Biosystems), Ion Proton (Life Technologies), Complete Genomics, Helicos Biosciences Heliscope, Pacific Biosciences' Single Molecule Real Time (SMRT TM) technology, or a combination thereof, can be performed in a parallel fashion.
  • the method may further comprise preparing a nucleic acid library to perform massively parallel sequencing.
  • the nucleic acid library can be prepared according to the method of large scale parallel sequencing.
  • Nucleic acid libraries can be constructed according to the manufacturer's instructions for providing massively parallel sequencing.
  • the sequence information of the obtained nucleic acid fragments may also be called reads.
  • the method includes mapping the obtained sequence information to a human reference genome and assigning sequence information of the nucleic acid fragment to a chromosome.
  • the human reference genome may be hg18 or hg19. Sequence information mapped to only one genomic position in the human reference genome may be designated as unique sequence information. The sequence information of the nucleic acid fragment can be assigned to the position of the chromosome based on the designated unique sequence number.
  • the location of the chromosome may be a continuous range on a chromosome having a length of about 5 kb, about 10 kb, about 20 kb, about 50 kb, about 100 kb, about 1000 kb, or 2000 kb or more.
  • the chromosome location may be a single chromosome.
  • the interval may be a period set in about 5 kb to about 50 kb.
  • the interval may be a period set to about 10 kb to about 40 kb, about 15 kb to about 30 kb, or about 20 kb to about 25 kb.
  • By setting the interval can be filtered using the GC content of the nucleotide sequence.
  • the section it is possible to form a population of the depth and the GC content of the sequence information of the nucleic acid fragment assigned to the chromosome, and may be statistically analyzed.
  • the step of excluding the section having low confidence in the sequence information from the analysis target may include removing a mismatch part, removing sequence information assigned to a plurality of sites, removing duplicate sequence information, or Combinations.
  • Quality filtering, trimming, perfect match, removal of sequences specified in multiples, and PCR overlapping sequences to exclude sections of low confidence in sequence information. Removal of PCR duplicated reads, or a combination thereof may be performed.
  • the quality filtering is a process of extracting sequence information having a high quality with respect to the quality of each base sequence obtained in the sequencing process.
  • the trimming is a process of removing a poor quality part because the quality of the rear part of the base sequence is degraded due to the characteristics of the sequencing device.
  • the size of the nucleic acid fragment can be trimmed to at least about 50 bp, greater than about 50 bp, greater than about 100 bp.
  • the quality value of the nucleic acid fragment may be at least 20, at least 30, at least 40, or at least 50.
  • the perfect match selects only sequences that match perfectly when mapped to the human reference genome. Since sequences assigned to multiple sites are likely to be repeating sequence regions, sequences assigned to multiple sites can be removed from the obtained sequence information. Removing PCR duplicate sequence information is to remove the portion of the sequencing process that is more amplified by error. In addition, it is necessary to select a group with a certain degree of deviation for statistical analysis to obtain a significant result.
  • the average value is added at the point of 75% below to remove sequence information having a higher thickness from the analysis target.
  • the part without thickness is usually the N-region of the chromosome and can be removed from the analyte.
  • the method After the step of assigning the sequence information of the nucleic acid fragment to the chromosome, the method performs GC by performing locally weighted average scatterplot smoothing (LOWESS or LOESS) regression analysis on the sequence information of the nucleic acid fragment according to Equation 1 below. Reducing the bias of the content may further comprise:
  • the deflection of the GC content is also referred to as the GC bias.
  • the bias in GC content refers to the difference between the actual GC content of the sequenced sequence information and the predicted GC content based on the standard sequence.
  • Rf ij ' is the ratio of the leads from the chromosome j of the calibration sample i
  • RC ij is a unique number of the lead correction in the chromosome j of the sample i.
  • the method may further comprise normalizing the sequence information of the nucleic acid fragment according to the following formula 2 after assigning the sequence information of the nucleic acid fragment to a chromosome:
  • Rf i'j ' is the read ratio on chromosome j of normalized sample i
  • N is the total number of samples.
  • the method includes calculating a fraction of reads (Rf) and a GC content of the nucleic acid fragment on the target chromosome based on the sequence information of the nucleic acid fragment assigned to the chromosome.
  • the fraction of reads (Rf) of the nucleic acid fragment is also called read ratio.
  • the Rf refers to the ratio of the number of nucleic acid fragments to the test sample and the target chromosome relative to the number of nucleic acid fragments to be analyzed.
  • the GC content represents the percentage (%) of guanine (G) and cytosine (C) in the base constituting the DNA.
  • the method comprises selecting from the reference sample an adaptive reference sample belonging to a common range of Rf unit ranges and GC unit ranges based on the calculated Rf and GC content in the target chromosome.
  • the reference sample may be obtained from a biological sample of a woman pregnant with one or more euploid fetuses.
  • the method may further comprise establishing a linear regression model from the entire reference sample.
  • the adaptive reference sample may be a reference sample selected according to a test target among the reference samples.
  • the adaptive reference sample may be selected from reference samples belonging to the Rf ⁇ unit range of the target chromosome, the GC content ⁇ unit range of the target chromosome, or a common range thereof.
  • the unit range may be an arbitrarily set value, and the unit range of Rf and the unit range of GC content may be the same or different from each other.
  • the unit range (%) of Rf may be about 0.000001 to about 0.002, about 0.000005 to about 0.001, about 0.00001 to about 0.0005, or about 0.00005 to about 0.0001.
  • the unit range (%) of the GC content may be about 0.0001 to about 0.1, about 0.0005 to about 0.05, about 0.002 to about 0.02, or about 0.001 to about 0.01.
  • the method extends the unit range of the Rf of the reference sample according to the Rf of the test sample, extends the GC unit range of the reference sample according to the GC unit of the test sample, or adds a combination thereof. It may include.
  • the unit range of the Rf of the reference sample may be extended, the GC unit range of the reference sample, or a combination thereof may be executed by a computer algorithm.
  • the method includes calculating a z score of the adaptive reference sample and a z score of the test sample.
  • z score is one of the standard scores and refers to a score calculated by dividing the deviation score by the standard deviation of the population.
  • the z score converts scores that differ from the mean into a unit distribution with mean 0 and standard deviation 1, allowing for relative comparison between different scores.
  • the calculating of the z score of the adaptive reference sample and the z score of the test sample may include linear regression analysis according to Equation 3 and calculating a linear prediction value of Rf according to Equation 4 below:
  • Equation 3 Rf i'j ' is the ratio of reads on chromosome j of normalized sample i, ⁇ is a constant, ⁇ is a coefficient between the GC content and Rf, and e is the residual (R). .
  • Rf 'i'j' is a predicted value of the ratio of lead fitting chromosome j in the sample i, and ⁇ is a constant, and ⁇ is a coefficient between the GC content of the Rf.
  • the method may further include calculating a z score according to:
  • Equation 6 R 'is the average value of the residual in the reference sample, R is the residual value of the test sample, and ⁇ ' is the standard deviation of the residual in the reference sample.
  • the method may include comparing the calculated z score of the adaptive reference sample with the z score of the test sample to indicate chromosome aberration of the target chromosome when the z score of the test sample is larger than the z score of the adaptive reference sample. Include.
  • the z score may be the largest z score among the z scores.
  • the method may further include determining that the target chromosome is chromosomal apoptotic when the calculated z score of the adaptive reference sample is greater than 3.
  • the method provides a method for detecting chromosomal apoptosis for a target chromosome of a fetus.
  • the target chromosome may be chromosome 13, chromosome 18, chromosome 21, X chromosome, Y chromosome, or a combination thereof.
  • aneuploidy refers to a cell, individual or lineage in which the number of chromosomes per cell does not become an integer multiple of the base number, but is one or more or less than an integer multiple, i.e. an incompletely constructed genome.
  • diploids two pairs of homologous chromosomes are deficient in zero chromosomes, one side is missing, and the other is present in one chromosome; in addition to a pair of homologous chromosomes, one extra chromosome is present. The case is called trisomy (T).
  • the chromosomal dimerity may be trisomy 13, trisomy 18, trisomy 21, XO, XXX, XXY, XYY, or a combination thereof.
  • Aberration of chromosome 13 is associated with Patau syndrome.
  • the abnormality of chromosome 18 is associated with Edwards syndrome.
  • the abnormality of chromosome 21 is associated with Down syndrome.
  • Monosomy X (XO, ie absence of one X chromosome) is associated with Turner syndrome.
  • XXY is a condition in which a human male has an additional X chromosome and is associated with Klinefelter syndrome.
  • a computer readable medium having recorded thereon a program applied to perform a method according to one aspect.
  • the computer readable medium encompasses a system including a computer readable medium.
  • a computer readable medium recording a method for detecting a chromosome apoptosis on a target chromosome of a fetus according to an embodiment, and a program applied to perform the same, a non-invasive prenatal diagnosis of the fetal chromosome aberration with excellent sensitivity and specificity can be performed. Can be.
  • FIG. 1 is a graph showing z scores of tetraploid samples and z scores of trisomy 21 in all samples.
  • FIG. 2 is a graph showing a step of selecting an adaptive reference sample belonging to a common range of Rf unit ranges and GC unit ranges from a reference sample based on the Rf and GC content in the target chromosome according to one aspect.
  • FIG. 3A shows variation coefficients of six reference sample sets selected according to a common region of GC and Rf regions based on a representative sample having a GC content of 0.416 of chromosome T21
  • FIG. 3B is adaptively selected from FIG. 3A.
  • the z-scores of the T21 verification sample with the GC content of 0.41 and the normal drainage verification sample are calculated using the constant drainage samples of sets A to F as reference samples.
  • FIG. 4A shows the coefficients of variation of six reference sample sets selected according to the common region of the GC and Rf regions based on a representative sample having a GC content of 0.424 in chromosome T21
  • FIG. 4B is adaptively selected in FIG. 4A.
  • the z-scores of the T21 verification sample with the GC content of 0.42 and the normal drainage verification sample are calculated using the constant drainage samples of sets A to F as reference samples.
  • FIG. 5A shows variation coefficients of six reference sample sets selected according to a common region of GC and Rf regions based on a representative sample having a GC content of 0.437 of chromosome T21
  • FIG. 5B is adaptively selected in FIG. 5A.
  • the z-scores of the T21 verification sample with the GC content of 0.43 and the normal drainage verification sample are calculated using the constant drainage samples of sets A to F as reference samples.
  • FIG. 6A shows variation coefficients of four reference sample sets selected according to a common region of GC and Rf regions based on a representative sample having a GC content of 0.446 of chromosome T21
  • FIG. 6B is adaptively selected in FIG. 6A.
  • the z-scores of the T21 verification sample with the GC content of 0.44 and the normal drainage verification sample using the set drainage samples of sets A to D as reference samples are shown.
  • Figure 7a shows the coefficient of variation of the reference sample set selected according to the common region of the GC and Rf region on the basis of the sample having a GC content of 0.45 of chromosome T18
  • Figure 7b is a full reference sample and a T18 sample having a GC content of 0.45
  • Figure 7c shows the z score of
  • Figure 7c shows the result of calculating the z score of the T18 verification sample and GF verification sample with a GC content of 0.45 using the adaptively selected regular drainage sample as a reference sample.
  • Figure 8a shows the coefficient of variation of the reference sample set selected according to the common region of the GC and Rf region on the basis of the sample having a GC content of 0.421 of chromosome T13
  • Figure 8b is a reference sample and the T13 sample with a GC content of 0.421 8 shows the z score of the T13 verification sample having the GC content of 0.421 and the quadratic verification sample using the adaptively selected constant drainage sample as a reference sample.
  • the first trimester screening consists of total or free beta subunit of serum pregnancy-associated plasma protein A (PAPP-A), human chorionic gonadotropin (hCG), and fetal neck zona pellucida. and measurement of nuchal translucency.
  • Second trimester screening includes measurement of maternal serum alpha-fetoprotein (MSAFP), hCG, unconjugated estriol, and inhibin A.
  • peripheral blood was collected from subjects as described in 1. and collected in BCT TM tubes (Streck, Omaha, NE, USA). Collected blood samples were centrifuged at 1,200 ⁇ g for 15 minutes at 4 ° C. Plasma of blood was collected and centrifuged again at 16,000 ⁇ g for 10 minutes at 4 ° C. Centrifuged plasma was obtained using cell-free DNA (cfDNA) QIAamp circulating nucleic acid kit (Qiagen, The Netherlands).
  • cfDNA cell-free DNA
  • QIAamp circulating nucleic acid kit Qiagen, The Netherlands).
  • the cfDNA fragments obtained were terminally repaired using T4 DNA polymerase, Klenow DNA polymerase, and T4 polynucleotide kinase, and again cfDNA fragments were obtained using Agencourt AMPure XP.
  • DNA libraries for ionic proton sequencing systems were prepared from the prepared cfDNA according to the protocol provided by the manufacturer (Life Technologies, SD, USA). Proton PI chip kit version 2.0 was employed to calculate an average 0.3 ⁇ sequencing coverage depth per nucleotide.
  • DNA libraries prepared as described in 2. were subjected to large scale parallel sequencing using the Ion Proton TM system (ThermoFisher Scientific).
  • the filtered reads were aligned to the human genome reference sequence hg19 by the Burrows-Wheeler transform (BWT). Sequence reads that map to only one genomic location at hg19 were designated as unique reads. About 44.6% of the total leads (about 3.3 ⁇ 10 6 ) were unique reads, and the GC content of the total 447 samples ranged from about 30% to 60%.
  • BWT Burrows-Wheeler transform
  • DNA reads were calibrated and normalized to reduce the effects of GC bias and differences between samples in the DNA reads obtained in 3.
  • LOESS Locally weighted scatterplot smoothing
  • Rf ij ' is the ratio of reads on chromosome j of sample i corrected and RC ij is the number of unique reads corrected on chromosome j of sample i.
  • Fetal aneuploidity was detected according to the conventional method of calculating z scores on the entire sample.
  • Equation 4 Equation 4
  • Rf i'j ' is the proportion of reads on chromosome j of normalized sample i
  • Rf' i'j' is the fitted prediction of the proportion of reads on chromosome j of sample i
  • GC i'j' Is the GC content in chromosome j of sample i
  • is the coefficient between the GC content and the read ratio (Rf)
  • is a constant
  • e the residual (R).
  • the residual (R) is It calculated by (Formula 5) and fitted to a normal distribution.
  • R is the residual in the chromosome of the sample
  • R ' is the average value of the residual in the reference sample or test sample
  • ⁇ ' is Standard deviation of the reference sample or test sample residuals.
  • z score> 3 indicates that the read rate is greater than the 99.9 percentile read rate of the set of reference samples.
  • the z score of the euploid sample in all samples and the z score of trisomy 21 (T21) are shown in FIG. 1.
  • the method of detecting fetal aberration using the z score of the entire reference sample indicates low accuracy and specificity.
  • the obscure threshold value was determined to be due to improper reference sample collection. Accordingly, the reference sample adaptive to the test sample was selected from all the reference samples, and then statistical analysis was performed.
  • the GC content of 13 positive samples was examined. Depending on the region of GC content (range -0.005 to +0.005), the positive sample was divided into four groups. Two positive samples in the 0.41 GC content region, five positive samples in the 0.42 GC content region, two positive samples in the 0.43 GC content region, and four positive samples in the 0.44 GC content region were clustered according to the GC content range, respectively. Representative positive samples from each group were selected and the selected positive samples were used to generate a set of adaptive reference samples with increasing GC content of 0.001 and read ratio of 0.00005.
  • a reference sample belonging to the combined range of the GC content range and the Rf range among all the reference samples was extracted.
  • the GC content range was set to -0.001 to +0.001 as a unit range when the GC content of the sample was set to an intermediate value.
  • the Rf range also set -0.00005 to +0.00005 as the unit range when setting the Rf of the sample to an intermediate value, which is expressed from the entire sample. Determined by the fitted prediction of Rf calculated in (4).
  • CV Coefficient of variation
  • the sample with the GC of chromosome T21 of 0.416 was selected as the representative test sample, and the other sample was used to verify the result using the adaptive reference sample.
  • (A) to (f) of FIG. 3b show the results of calculating z scores of the T21 verification sample and the doubling number verification sample, respectively, using the constant drainage samples of sets A to F adaptively selected in FIG. 3A as reference samples.
  • Indicates. Specifically, the z-scores of the positively multiple samples of sets A to F adaptively selected and the T21 verification sample (n 1) in which the GC content is in the 0.41 region (T21 (absolute value of GC content; absolute value of Rf)) are shown. , Constant multiple (absolute value of GC content).
  • a reference sample corresponding to the A set was selected in the common region of the GC content of 0.416 ⁇ 0.009 and the linear predicted value of Rf ⁇ 1e-05. At this time, the other test sample which was not selected as the representative test sample was used as the verification sample.
  • the reference sample was selected by the same method as (a). The z scores of the T21 verification samples were calculated from the selected reference and verification samples. In addition, a constant doubling sample randomly selected within the range of 0.416 ⁇ 0.001 GC content was used as a verification sample, and the z-score of the doubling test verification sample was calculated using these six reference sample sets.
  • the sample having the GC of 0.424 of the chromosome T21 is selected as the representative test sample, and the remaining samples verify the results using the adaptive reference sample. It was used to.
  • the coefficient of variation for each of the six reference sample sets selected in FIG. 4A is shown.
  • (A) to (f) of FIG. 4B show the results of calculating z scores of the T21 verification sample and the HF verification sample, respectively, using the constant drainage samples of sets A to F adaptively selected in FIG. 4A as reference samples.
  • a reference sample corresponding to the A set was selected in the common region of the GC content of 0.424 ⁇ 0.004 and the linear predicted value of Rf ⁇ 1e-05. At this time, the remaining test sample which was not selected as the representative test sample was used as the verification sample.
  • the reference sample was selected by the same method as (a).
  • the z scores of the T21 verification samples were calculated from the selected reference and verification samples.
  • the sample having the GC of chromosome T21 of 0.437 is selected as the representative test sample among the two test samples in which the GC content of the chromosome 21 belongs to the 0.43 region, and the other one is the result of using the adaptive reference sample.
  • the adaptive reference sample was used to verify.
  • the coefficient of variation for each of the six reference sample sets selected in FIG. 5A is shown.
  • (A) to (f) of FIG. 5B show the z-scores of the T21 verification sample and the doubling number verification sample, respectively, using the constant drainage samples of sets A to F adaptively selected in FIG. 5A as reference samples.
  • a reference sample corresponding to the A set was selected in the common region of the GC content of 0.437 ⁇ 0.009 and the linear predicted value of Rf ⁇ 1e-05. At this time, the remaining test sample which was not selected as the representative test sample was used as the verification sample.
  • the reference sample was selected by the same method as (a).
  • the z scores of the T21 verification samples were calculated from the selected reference and verification samples.
  • a constant drainage sample randomly selected within the GC content of 0.437 ⁇ 0.001 was used as a verification sample, and the z score of the full-fold verification sample was calculated using these six reference sample sets.
  • FIG. 5B when the adaptively selected sets A to F were used, normal fetuses (orthoploid) and T21 fetuses were clearly distinguished, and a threshold, a z score for distinguishing T21 fetuses, was clearly identified.
  • a sample having a GC of 0.446 of chromosome T21 was selected as a representative test sample, and the remaining samples were used to verify the results using the adaptive reference sample.
  • (A) to (d) of FIG. 6B show the z-scores of the T21 verification sample and the doubling number verification sample, respectively, using the constant drainage samples of sets A to D adaptively selected in FIG. 6A as reference samples.
  • a reference sample corresponding to the A set was selected in the common region of the GC content of 0.446 ⁇ 0.011 and the linear predicted value of Rf ⁇ 2e-05. At this time, the remaining test sample which was not selected as the representative test sample was used as the verification sample.
  • the reference sample was selected by the same method as (a).
  • the z scores of the T21 verification samples were calculated from the selected reference and verification samples.
  • a constant drainage sample randomly selected within the GC content of 0.446 ⁇ 0.001 was used as a verification sample, and the z score of the full-fold verification sample was calculated using these six reference sample sets.
  • FIG. 6B when adaptively selected sets A to D were used, normal fetuses (teploploids) and T21 fetuses were clearly distinguished, and a threshold, a z score for distinguishing T21 fetuses, was clearly identified.
  • Trisomy 18 (T18) samples were detected using an adaptive sample selection method as described in 5. (2).
  • the representative test sample was used simultaneously as a verification sample.
  • 7A shows the coefficient of variation for set A and the reference value (unselected reference sample).
  • 7B shows the z scores of unselected reference and T18 samples.
  • a reference sample corresponding to the A set was selected in the common region of the GC content of 0.45 ⁇ 0.014 and the linear predicted value of Rf ⁇ 2e-05.
  • a constant drainage sample randomly selected within the GC content of 0.45 ⁇ 0.001 was used as a verification sample, and the z score of the constant drainage verification sample was calculated using a reference sample set.
  • normal fetuses and T18 fetuses are not distinguished when using non-selected reference samples, whereas normal fetuses (orthoploids) are used when adaptively selected set A is used. And T18 fetuses were clearly distinguished.
  • Trisomy 13 (T13) samples were detected using an adaptive sample selection method as described in 5. (2).
  • a reference sample corresponding to the A set was selected in the common region of the GC content of 0.421 ⁇ 0.017 and the linear predicted value of Rf ⁇ 0.0001.
  • a constant drainage sample randomly selected within a GC content of 0.421 ⁇ 0.001 was used as a verification sample, and a z-score of the constant drainage verification sample was calculated using a reference sample set.
  • the read ratio of each chromosome and the GC content are linearly related. Therefore, in order to detect a trisomy sample, a reference sample belonging to a range set based on the read ratio and the GC content of the test chromosome on the target chromosome can be selected.
  • test sample is a trisomy fetus with excellent sensitivity and specificity.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Public Health (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Analytical Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Software Systems (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Bioethics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)

Abstract

태아의 표적 염색체에 대한 염색체이수성을 검출하는 방법, 및 이를 수행하기 위해 적용되는 프로그램을 기록한 컴퓨터 판독 매체를 제공한다. 이에 의하면, 태아의 염색체이수성을 우수한 민감도 및 특이도로 비침습적으로 산전 진단할 수 있다.

Description

태아의 염색체이수성을 검출하는 방법
임산부로부터 유래된 생물학적 시료로부터 태아의 염색체이수성을 검출하는 방법 및 이와 관련된 매체에 관한 것이다.
산전 진단(prenatal diagnosis)은 태아가 태어나기 전에 태아의 질병 유무를 진단하는 것을 말한다. 산전 진단은 크게 침습적 진단 방법과 비침습적 진단 방법으로 나뉜다. 침습적 진단 방법은 예를 들어 융모막 검사, 양수천자, 및 탯줄천자 등이 있다. 침습적 진단 방법은 검사 과정에서 태아에게 충격을 가하여 유산, 질병 또는 기형 등을 유발할 가능성이 있어서, 비침습적 진단 방법들이 개발되고 있다.
최근에는 임산부의 혈장 중 DNA 분자들을 대규모 병렬 시퀀싱함으로써 태아 염색체이수성의 비침습적 진단이 실행가능하다는 것이 입증되었다. 태아 DNA는 모체 혈장 및 혈청에서 임신 7주차부터 검출될 수 있고, 모체 혈액 중 태아 DNA의 양은 임신 기간에 따라 증가한다. 태아 DNA를 대규모 병렬 시퀀싱하는 경우, 정배수성 태아와 염색체이수성 태아를 구별하는 역치가 불분명하여 염색체이수성 검출의 민감도 및 특이도가 낮은 문제가 있다.
따라서, 정배수성 태아와 염색체이수성 태아를 명확하게 구별하여 염색체이수성 검출의 민감도 및 특이도를 높일 수 있는 방법을 개발할 필요가 있다.
태아의 표적 염색체에 대한 염색체이수성을 검출하는 방법을 제공한다.
태아의 표적 염색체에 대한 염색체이수성을 검출하는 방법을 수행하기 위해 적용되는 프로그램을 기록한 컴퓨터 판독 매체를 제공한다.
일 양상에 따르면, 임신한 여성의 생물학적 시료로부터 수득된 복수의 핵산 단편의 서열정보(reads)를 수득하는 단계;
상기 수득된 서열정보를 인간 참조 유전체에 맵핑(mapping)하여 상기 핵산 단편의 서열정보를 염색체에 지정하는 단계;
상기 염색체에 지정된 핵산 단편의 서열정보에 근거하여, 핵산 단편의 갯수에 대한 표적 염색체에서 핵산 단편의 서열정보의 비율(fraction of reads: Rf) 및 GC 함량을 산출하는 단계;
산출된 표적 염색체에서의 Rf 및 GC 함량에 근거하여 참조 시료로부터 Rf 단위 범위 및 GC 단위 범위의 공통 범위에 속하는 적응적 참조 시료를 선별하는 단계;
상기 적응적 참조 시료의 z 점수와 피검 시료의 z 점수를 산출하는 단계; 및
산출된 상기 적응적 참조 시료의 z 점수와 피검 시료의 z 점수를 비교하여 피검 시료의 z 점수가 적응적 참조 시료의 z 점수보다 큰 경우 상기 표적 염색체의 염색체이수성을 나타내는 것인 단계를 포함하는, 태아의 표적 염색체에 대한 염색체이수성을 검출하는 방법을 제공한다.
상기 방법은 임신한 여성의 생물학적 시료로부터 수득된 복수의 핵산 단편의 서열정보를 수득하는 단계를 포함한다.
상기 임신한 여성은 단태아 또는 쌍태아를 임신한 여성일 수 있다.
상기 생물학적 시료는 혈액, 혈장, 혈청, 소변, 타액, 점막 분비물, 객담, 대변, 눈물, 또는 이들의 조합일 수 있다. 상기 생물학적 시료는 예를 들어 말초혈액의 혈장이다. 상기 생물학적 시료는 태아의 핵산을 포함할 수 있다. 상기 태아의 핵산은 세포를 포함하지 않는 핵산(cell-free DNA: cf DNA)일 수 있다. 상기 태아의 핵산은 분리된 DNA일 수 있다.
상기 임신한 여성의 생물학적 시료로부터 수득된 복수의 핵산 단편의 서열정보를 수득하는 단계는 생물학적 시료로부터 핵산을 분리하는 단계를 포함할 수 있다.
상기 생물학적 시료로부터 핵산을 분리하는 방법은 당업자에게 공지된 방법으로 수행될 수 있다. 상기 분리된 핵산 단편의 길이는 약 10 bp(염기쌍) 내지 약 2000 bp, 약 15 bp 내지 약 1500 bp, 약 20 bp 내지 약 1000 bp, 약 20 bp 내지 약 500 bp, 약 20 bp 내지 약 200 bp, 또는 약 20 bp 내지 약 100 bp일 수 있다.
상기 임신한 여성으로부터 수득된 생물학적 시료로부터 복수의 핵산 단편의 서열정보를 수득하는 단계는 분리된 핵산을 대규모 병렬 시퀀싱(massive parallel sequencing)을 수행하는 단계를 포함할 수 있다.
상기 용어 "대규모 병렬 시퀀싱(massive parallel sequencing)"은 차세대 시퀀싱(next-generation sequencing: NGS) 또는 2세대 시퀀싱(second-generation sequencing)과 상호 교환적으로 사용될 수 있다. 대규모 병렬 시퀀싱은 수백만개의 단편의 핵산을 동시다발적으로 시퀀싱하는 기법을 말한다. 대규모 병렬 시퀀싱은 예를 들어, 454 플랫폼(Roche), GS FLX 티타늄, Illumina MiSeq, Illumina HiSeq, Illumina Genome Analyzer, Solexa platform, SOLiD System(Applied Biosystems), Ion Proton(Life Technologies), Complete Genomics, Helicos Biosciences Heliscope, Pacific Biosciences의 단일 분자 실시간(SMRT™) 기술, 또는 이들의 조합에 의해 병렬 방식으로 수행될 수 있다.
상기 방법은 대규모 병렬 시퀀싱을 수행하기 위해 핵산 라이브러리를 제조하는 단계를 더 포함할 수 있다.
상기 핵산 라이브러리는 대규모 병렬 시퀀싱의 방식에 따라 제조될 수 있다. 대규모 병렬 시퀀싱을 제공하는 제조자의 지시에 따라 핵산 라이브러리를 제작할 수 있다.
수득된 핵산 단편의 서열정보는 리드(reads)로도 불릴 수 있다.
상기 방법은 수득된 서열정보를 인간 참조 유전체에 맵핑하여 상기 핵산 단편의 서열정보를 염색체에 지정하는 단계를 포함한다.
인간 참조 유전체는 hg18 또는 hg19일 수 있다. 인간 참조 유전체에서 하나의 게놈 위치에만 맵핑되는 서열정보를 고유한(unique) 서열정보로 지정할 수 있다. 지정된 고유한 서열번호를 기준으로 핵산 단편의 서열정보를 염색체의 위치에 지정할 수 있다. 상기 염색체의 위치는 약 5 kb, 약 10 kb, 약 20 kb, 약 50 kb, 약 100 kb, 약 1000 kb, 또는 2000 kb 이상의 길이를 갖는 염색체 상의 연속적인 범위일 수 있다. 상기 염색체 위치는 단일 염색체일 수 있다.
상기 핵산 단편의 서열정보를 염색체에 지정하는 단계 후에, 염색체에 지정된 상기 핵산 단편의 서열정보의 두께 분포를 구간별로 확인하여 서열정보에 대한 신뢰도가 낮은 구간을 분석대상에서 제외하는 단계를 더 포함할 수 있다. 상기 구간은 약 5 kb 내지 약 50 kb 단위로 설정된 구간일 수 있다. 예를 들어 상기 구간은 약 10 kb 내지 약 40 kb, 약 15 kb 내지 약 30 kb, 또는 약 20 kb 내지 약 25 kb로 설정된 구간일 수 있다. 상기 구간을 설정함으로써 염기서열의 GC 함량을 이용하여 필터링할 수 있다. 또한, 상기 구간을 설정함으로써 염색체에 지정된 핵산 단편의 서열정보의 두께(depth) 및 GC 함량의 집단을 형성할 수 있고, 통계적인 분석이 가능할 수 있다.
상기 서열정보에 대한 신뢰도가 낮은 구간을 분석대상에서 제외하는 단계는 미스매치(mismatch) 부분을 제거하거나, 복수의 부위에 지정되는 서열정보를 제거하거나, 중복적인 서열정보를 제거하거나, 또는 이들의 조합을 포함할 수 있다. 서열정보에 대한 신뢰도가 낮은 구간을 분석대상에서 제외하기 위해, 퀄리티 필터링(quality filtering), 트리밍(trimming), 퍼펙트 매치(perfect match), 여러 군데(multi)에 지정되는 서열들의 제거, PCR 중복 서열정보(PCR duplicated reads)의 제거, 또는 이들의 조합을 수행할 수 있다. 상기 퀄리티 필터링은 시퀀싱 과정에서 수득된 각 염기서열의 퀄리티에 대해 높은 퀄리티를 갖는 서열정보들을 추출하는 과정이다. 상기 트리밍은 시퀀싱 기기의 특성상 염기서열의 뒷부분의 퀄리티가 떨어지기 때문에 퀄리티가 좋지 않은 부분을 제거하는 과정이다. 예를 들어, 핵산 단편의 크기를 약 50 bp 이상, 약 50 bp 초과, 약 100 bp 초과로 트리밍할 수 있다. 예를 들어, 핵산 단편의 퀄리티 값(quality value)이 20 이상, 30 이상, 40 이상, 또는 50 이상일 수 있다. 상기 퍼펙트 매치는 인간 참조 유전체에 맵핑할 경우 완벽히 매치되는 염기서열들만 선택하는 것이다. 여러 군데에 지정되는 서열들은 반복 서열 영역일 가능성이 크기 때문에 수득된 서열정보로부터 여러 군데(multi)에 지정되는 서열을 제거할 수 있다. PCR 중복 서열정보를 제거하는 것은 시퀀싱 과정 중 오류로 증폭이 더 많이 된 부분을 제거하는 것이다. 또한, 통계적으로 분석하기 위해 어느 정도 편차가 고른 집단을 선택해야 유의한 결과를 얻을 수 있다. 이를 위해, 반복이 많은 영역(high repeat region)을 제거하기 위해 두께가 높은 순으로 서열정보를 정렬하였을 때 밑에서 75%가 되는 지점에서 평균값을 더해 그보다 높은 두께를 갖는 서열정보를 분석대상에서 제거할 수 있다. 또한, 두께가 없는 부분은 대개 염색체의 N-영역이므로 분석대상에서 제거할 수 있다.
상기 방법은 상기 핵산 단편의 서열정보를 염색체에 지정하는 단계 후에, 상기 핵산 단편의 서열정보를 하기 식 1에 따라 국소 가중 평균 산점도 평활(locally weighted scatterplot smoothing: LOWESS 또는 LOESS) 회귀분석을 수행하여 GC 함량의 편향을 감소시키는 단계를 더 포함할 수 있다:
Figure PCTKR2017000266-appb-I000001
(식 1).
GC 함량의 편향은 GC 편향(bias)이라고도 한다. GC 함량의 편향은 시퀀싱된 서열정보의 실제 GC 함량과 표준 서열에 기초한 예측된 GC 함량 간의 차이를 말한다.
상기 식 1에서, Rfij'는 보정된 시료 i의 염색체 j에서 리드의 비율이고, RCij는 시료 i의 염색체 j에서 보정된 고유한 리드 갯수이다.
상기 방법은 상기 핵산 단편의 서열정보를 염색체에 지정하는 단계 후에, 상기 핵산 단편의 서열정보를 하기 식 2에 따라 정규화시키는 단계를 더 포함할 수 있다:
Figure PCTKR2017000266-appb-I000002
(식 2).
상기 식 2에서, Rfi'j'는 정규화된 시료 i의 염색체 j에서 리드 비율이고, N은 총 시료의 수이다.
상기 방법은 염색체에 지정된 핵산 단편의 서열정보에 근거하여, 핵산 단편의 갯수에 대한 표적 염색체에서 핵산 단편의 서열정보의 비율(fraction of reads: Rf) 및 GC 함량을 산출하는 단계를 포함한다.
상기 핵산 단편의 서열정보의 비율(fraction of reads: Rf)은 리드 비율(read ratio)로도 불린다. 상기 Rf는 분석 대상인 핵산 단편의 갯수에 대한 피검 시료 및 표적 염색체에 대한 핵산 단편의 개수의 비를 말한다.
상기 GC 함량은 DNA를 이루는 염기 중에서 구아닌(G)과 시토신(C)이 차지하는 비율(%)을 나타낸다. 상기 GC 함량은 GC 함량=(G+C)/(A+T+G+C)의 식으로부터 산출될 수 있다.
상기 방법은 산출된 표적 염색체에서의 Rf 및 GC 함량에 근거하여 참조 시료로부터 Rf 단위 범위 및 GC 단위 범위의 공통 범위에 속하는 적응적 참조 시료를 선별하는 단계를 포함한다.
상기 참조 시료는 하나 이상의 정배수체인 태아를 임신한 여성의 생물학적 시료로부터 수득될 수 있다. 상기 방법은 참조 시료 전체로부터 선형 회귀 모델을 확립하는 단계를 더 포함할 수 있다.
용어 "적응적(adaptive)"는 용어 "선별적(selective)" 또는 용어 "개인맞춤(personalized)"과 상호교환적으로 사용될 수 있다. 상기 적응적 참조 시료는 참조 시료들 중 피검 대상에 맞게 선별된 참조 시료일 수 있다. 상기 적응적 참조 시료는 참조 시료들 중에서 표적 염색체의 Rf±단위 범위, 표적 염색체의 GC 함량±단위 범위, 또는 이들의 공통 범위에 속하는 참조 시료를 선별한 것일 수 있다. 상기 단위 범위는 임의로 설정된 값일 수 있고, Rf의 단위 범위와 GC 함량의 단위 범위는 서로 동일 또는 상이할 수 있다. 예를 들어, 상기 Rf의 단위 범위(%)는 약 0.000001 내지 약 0.002, 약 0.000005 내지 약 0.001, 약 0.00001 내지 약 0.0005, 또는 약 0.00005 내지 약 0.0001일 수 있다. 예를 들어, 상기 GC 함량의 단위 범위(%)는 약 0.0001 내지 약 0.1, 약 0.0005 내지 약 0.05, 약 0.002 내지 약 0.02, 또는 약 0.001 내지 약 0.01일 수 있다.
상기 방법은 피검 시료의 Rf에 따라 참조 시료의 Rf의 단위 범위를 확장하거나, 참조 시료의 GC 단위 범위를 피검 시료의 GC 단위에 따라 참조 시료의 GC 단위 범위를 확장하거나, 또는 이들의 조합을 더 포함할 수 있다. 참조 시료의 Rf의 단위 범위를 확장하거나, 참조 시료의 GC 단위 범위를 확장하거나, 또는 이들의 조합은 컴퓨터 알고리즘에 의해 실행될 수 있다.
상기 방법은 적응적 참조 시료의 z 점수와 피검 시료의 z 점수를 산출하는 단계를 포함한다.
상기 용어 "z 점수(z score)"는 표준 점수(standard score)의 하나로서, 편차 점수를 그 집단의 표준 편차로 나누어 산출된 점수를 말한다. z 점수는 평균과 단위가 다른 점수들을 평균이 0 및 표준 편차 1인 단위 분포로 전환시켜, 다른 점수들 간에 상대적인 비교를 가능하게 한다.
상기 적응적 참조 시료의 z 점수와 피검 시료의 z 점수를 산출하는 단계는, 하기 식 3에 따라 선형 회귀 분석 및 하기 식 4에 따라 Rf의 선형 예측값을 산출하는 단계를 포함할 수 있다:
Figure PCTKR2017000266-appb-I000003
(식 3), 및
Figure PCTKR2017000266-appb-I000004
(식 4).
상기 식 3에 있어서, Rfi'j'는 정규화된 시료 i의 염색체 j에서 리드의 비율이고, α는 상수이고, β는 GC 함량과 Rf 간의 계수이고, 및 e는 잔차(residual: R)이다.
상기 식 4에 있어서, Rf'i'j'는 시료 i의 염색체 j에서 리드의 비율의 피팅된 예측값이고, α는 상수이고, 및 β는 GC 함량과 Rf 간의 계수이다.
상기 적응적 참조 시료의 z 점수와 피검 시료의 z 점수를 산출하는 단계는, 산출된 선형 회귀 분석 및 선형 예측값으로부터 하기 식 5에 따라 잔차(R)를 산출하고, 산출된 잔차로부터 하기 식 6에 따라 z 점수를 산출하는 단계를 더 포함하는 것할 수 있다:
Figure PCTKR2017000266-appb-I000005
(식 5); 및
z 점수= ( R - R') / σ' (식 6).
상기 식 6에서, R'는 참조 시료에서 잔차의 평균값이고 R는 피검 시료의 잔차값이고, σ'는 참조 시료에서 잔차의 표준 편차이다.
상기 방법은 산출된 상기 적응적 참조 시료의 z 점수와 피검 시료의 z 점수를 비교하여 피검 시료의 z 점수가 적응적 참조 시료의 z 점수보다 큰 경우 상기 표적 염색체의 염색체이수성을 나타내는 것인 단계를 포함한다. 2 이상의 적응적 참조 시료인 경우, 상기 z 점수는 z 점수들 중 가장 큰 z 점수일 수 있다.
상기 방법은 산출된 상기 적응적 참조 시료의 z 점수가 3 초과인 경우 상기 표적 염색체가 염색체이수성인 것으로 판단하는 단계를 더 포함할 수 있다.
상기 방법은 태아의 표적 염색체에 대한 염색체이수성을 검출하는 방법을 제공한다.
상기 표적 염색체는 13번 염색체, 18번 염색체, 21번 염색체, X 염색체, Y 염색체, 또는 이들의 조합일 수 있다.
용어 "염색체이수성(aneuploidy)"은 세포, 개체 또는 계통에서 하나의 세포당 염색체 수가 기본수의 정수배가 되지 않고, 정수배에 대하여 1 내지 여러 개가 많거나 혹은 적은 상태인 것, 즉 불완전한 구성을 한 유전체를 포함한 상태를 말한다. 2배체의 경우 1쌍의 상동염색체 2개가 결손되어 있는 경우를 0염색체성, 한쪽은 결손되고 다른 한쪽만 존재하는 경우를 1염색체성, 1쌍의 상동염색체 외에 또 다른 1개의 여분 염색체가 존재하는 경우를 3염색체성(trisomy: T)이라 한다.
상기 염색체이수성은 3염색체성 13, 3염색체성 18, 3염색체성 21, XO, XXX, XXY, XYY, 또는 이들의 조합일 수 있다. 13번 염색체의 이상(3염색체성 13)은 파타우 증후군(Patau syndrome)과 관련된다. 18번 염색체의 이상(3염색체성 18)은 에드워드 증후군(Edwards syndrome)과 관련된다. 21번 염색체의 이상(3염색체성 21)은 다운 증후군(Down syndrome)과 관련된다. 1염색체성 X(XO, 즉 하나의 X 염색체의 부재)는 터너 증후군과 관련된다. XXY는 인간 남성이 추가의 X 염색체를 갖는 증상으로, 클라인펠터 증후군(Klinefelter syndrome)과 관련된다.
다른 양상에 따르면, 일 양상에 따른 방법을 수행하기 위해 적용되는 프로그램을 기록한 컴퓨터 판독 매체를 제공한다. 상기 컴퓨터 판독 매체는 컴퓨터 판독 매체를 포함하는 시스템을 포괄한다.
일 구체예에 따른 태아의 표적 염색체에 대한 염색체이수성을 검출하는 방법, 및 이를 수행하기 위해 적용되는 프로그램을 기록한 컴퓨터 판독 매체에 의하면, 태아의 염색체이수성을 우수한 민감도 및 특이도로 비침습적으로 산전 진단할 수 있다.
도 1은 전체 시료에서 정배수성인 시료의 z 점수와 3염색체성 21의 z 점수를 나타내는 그래프이다.
도 2는 일 양상에 따른 표적 염색체에서의 Rf 및 GC 함량에 근거하여 참조 시료로부터 Rf 단위 범위 및 GC 단위 범위의 공통 범위에 속하는 적응적 참조 시료를 선별하는 단계를 나타내는 그래프이다.
도 3a는 T21번 염색체의 GC 함량이 0.416인 대표 시료를 기준으로 GC 및 Rf 영역의 공통영역에 따라 선정된 6개의 참조 시료 세트의 변동계수를 나타내고, 도 3b는 도 3a에서 적응적으로 선별된 세트 A 내지 F의 정배수 시료를 참조시료로 이용하여 GC 함량이 0.41인 T21 검증 시료와 정배수 검증 시료의 z 점수를 계산한 결과를 나타낸다.
도 4a는 T21번 염색체의 GC 함량이 0.424인 대표 시료를 기준으로 GC 및 Rf 영역의 공통영역에 따라 선정된 6개의 참조 시료 세트의 변동계수를 나타내고, 도 4b는 도 4a에서 적응적으로 선별된 세트 A 내지 F의 정배수 시료를 참조시료로 이용하여 GC 함량이 0.42인 T21 검증 시료와 정배수 검증 시료의 z 점수를 계산한 결과를 나타낸다.
도 5a는 T21번 염색체의 GC 함량이 0.437인 대표 시료를 기준으로 GC 및 Rf 영역의 공통영역에 따라 선정된 6개의 참조 시료 세트의 변동계수를 나타내고, 도 5b는 도 5a에서 적응적으로 선별된 세트 A 내지 F의 정배수 시료를 참조시료로 이용하여 GC 함량이 0.43인 T21 검증 시료와 정배수 검증 시료의 z 점수를 계산한 결과를 나타낸다.
도 6a는 T21번 염색체의 GC 함량이 0.446인 대표 시료를 기준으로 GC 및 Rf 영역의 공통영역에 따라 선정된 4개의 참조 시료 세트의 변동계수를 나타내고, 도 6b는 도 6a에서 적응적으로 선별된 세트 A 내지 D의 정배수 시료를 참조시료로 이용하여 GC 함량이 0.44인 T21 검증 시료와 정배수 검증 시료의 z 점수를 계산한 결과를 나타낸다.
도 7a는 T18번 염색체의 GC 함량이 0.45인 시료를 기준으로 GC 및 Rf 영역의 공통영역에 따라 선정된 참조 시료 세트의 변동계수를 나타내고, 도 7b는 전체 참조 시료와 GC 함량이 0.45인 T18 시료의 z 점수를 나타내고, 도 7c는 적응적으로 선별된 정배수 시료를 참조시료로 이용하여 GC 함량이 0.45인 T18 검증 시료와 정배수 검증 시료의 z 점수를 계산한 결과를 나타낸다.
도 8a는 T13번 염색체의 GC 함량이 0.421인 시료를 기준으로 GC 및 Rf 영역의 공통영역에 따라 선정된 참조 시료 세트의 변동계수를 나타내고, 도 8b는 전체 참조 시료와 GC 함량이 0.421인 T13 시료의 z 점수를 나타내고, 도 8c는 적응적으로 선별된 정배수 시료를 참조시료로 이용하여 GC 함량이 0.421인 T13 검증 시료와 정배수 검증 시료의 z 점수를 계산한 결과를 나타낸다.
도 9a 내지 도 9f는 1번 내지 22번 염색체의 리드 비율과 핵형 분석에 의해 확인된 정배수성 참조 시료(n=396)에서의 GC 함량의 관계를 나타낸다.
이하 본 발명을 실시예를 통하여 보다 상세하게 설명한다. 그러나, 이들 실시예는 본 발명을 예시적으로 설명하기 위한 것으로 본 발명의 범위가 이들 실시예에 한정되는 것은 아니다.
실시예 1. 태야 염색체 이수성의 비침습적 검출
1. 시료의 준비
총 447 명의 임신한 여성을 한국의 12개의 병원에서 모집하였다. 피검자의 정보를 하기 표 1에 기재하였다.
특징
임산부의 수(명) 447
임산부의 연령(세) 평균 35
범위 20 내지 46
재태 기간(주) 평균 15
중앙값 16
범위 11 내지 22
임신 삼분기(%) 제1기(재태 1 내지 13주) 137 (30.6)
제2기(재태 14 내지 26주) 310 (69.4)
제3기(재태 27주 내지 40주) 0
태아의 성별(%) 남성 태아 249 (52.5)
여성 태아 225 (47.5)
피검자들 중 29명은 쌍둥이를 임신한 여성이고, 이들의 정보를 하기 표 2에 기재하였다.
특징
쌍둥이를 임신한 임산부의 수(명) 29
임산부의 연령(세) 평균 35
범위 22 내지 43
재태 기간(주) 평균 14
중앙값 13
범위 11 내지 21
임신 삼분기(%) 제1기(재태 1 내지 13주) 16 (55.2)
제2기(재태 14 내지 26주) 13 (44.8)
제3기(재태 27주 내지 40주) 0
태아의 성별(%) 남성 태아 26 (48.1)
여성 태아 28 (51.9)
태아의 성별이 불분명한 2 명의 임산부는 제외하였다.
총 447명의 피검자들에 대해 태아의 핵형분석(karyotyping)을 위한 양수검사를 수행하고, 그 결과는 모르게 하였다(blind). 연구를 위해 각 참여 병원의 임상 시험 심사 위원회의 승인을 받았고, 각 참여자로부터 서면 동의서를 받았다.
모든 피검자들은 공인된 임상 시험 기관에서 표준 산전 염색체이수성 스크리닝을 받았다. 제1 삼분기 스크리닝은 혈청 임신-연관 혈장 단백질 A(pregnancy-associated plasma protein A: PAPP-A), 인간 융모성 생식선 자극 호르몬(human chorionic gonadotropin: hCG)의 총 또는 유리 베타 소단위, 및 태아 목 투명대(nuchal translucency)의 측정을 포함한다. 제2 삼분기 스크리닝은 모계 혈청 알파-태아단백질(maternal serum alpha-fetoprotein: MSAFP), hCG, 비접합된 에스트리올(unconjugated estriol), 및 인히빈(inhibin) A의 측정을 포함한다.
핵형분석 결과, 13명의 태아(3개의 쌍둥이 시료를 포함함)가 3염색체성(trisomy) 21이었고, 쌍둥이 임신 중 1명의 태아가 3염색체성 18이었고, 1명의 태아가 3염색체성 13이었고, 및 2명의 태아가 XXY였다. 총 447개의 시료 중 이수성을 갖는 시료 17개, 쌍둥이의 시료 29개, 및 상위 5 GC 함량을 갖는 시료 5개를 배제하고, 나머지 396 개의 시료를 참조 시료로 사용하였다.
2. 세포 유리 DNA 및 DNA 시퀀싱용 DNA 라이브러리의 준비
1.에 기재된 바와 같은 피검자들로부터 약 10 ㎖의 말초 혈액을 채혈하고 BCT™ 튜브 (Streck, Omaha, NE, USA)에 수집하였다. 수집된 혈액 시료를 4℃에서 15 분 동안 1,200 x g에서 원심분리하였다. 혈액의 혈장을 수집하고 4℃에서 10 분 동안 16,000 x g에서 다시 원심분리하였다. 원심분리된 혈장으로부터 세포 유리 DNA(cell-free DNA: cfDNA) QIAamp 순환 핵산 키트(Qiagen, 네덜란드)을 이용하여 수득하였다.
수득된 cfDNA 단편은 T4 DNA 중합효소, 크레나우(Klenow) DNA 중합효소, 및 T4 폴리뉴클레오티드 키나제를 사용하여 말단 수선하고, 다시 Agencourt AMPure XP를 사용하여 cfDNA 단편을 수득하였다.
준비된 cfDNA로부터 이온 양성자 시퀀싱 시스템용 DNA 라이브러리를 제조자(Life Technologies, SD, USA)가 제공한 프로토콜에 따라 제작하였다. 양성자 PI 칩 키트 버전 2.0을 채용하여 뉴클레오티드 당 평균 0.3x 시퀀싱 커버리지 깊이(coverage depth)를 산출하였다.
3. 대규모 병렬적 시퀀싱
2.에서 기재된 바와 같이 준비된 DNA 라이브러리를 Ion Proton™ 시스템(ThermoFisher Scientific)을 사용하여 대규모 병렬적 시퀀싱하였다.
Ion Torrent Suite™ 소프트웨어(ThermoFisher Scientific)를 이용하여 상이한 미가공 리드(raw reads)를 수득하였다. 수득된 미가공 리드의 개수는 시료 당 평균 약 (7.4±2.1)x106 개였다.
리드에서 시퀀싱에 의한 3' 말단을 트리밍(trimming)하여 신뢰도가 낮은 부분을 분석 대상에서 제외하였다. 또한, 리드를 20의 퀄리티 값(quality value) 및 50 bp의 리드 길이의 역치로 필터링하였다.
필터링된 리드들은 버로우스-휠러 변환(Burrows-Wheeler transform: BWT)에 의해 인간 게놈 참조 서열 hg19에 지정(align)하였다. hg19에서 하나의 게놈 위치에만 맵핑되는 시퀀스 리드를 고유한(unique) 리드로 지정하였다. 총 리드들 중 약 44.6% (약 3.3 x106 개)가 고유한 리드였고, 총 447 시료의 GC 함량은 약 30% 내지 60%의 범위였다.
한편, 중복 DNA 리드들은 Picard (http://picard.sourceforge.net/)를 이용하여 분석대상에서 제거하였다.
4. DNA 리드들의 보정 및 정규화
3.에서 수득된 DNA 리드에서 GC 편향(bias)의 효과와 시료들 간의 차이를 줄이기 위해 DNA 리드들을 보정하고 정규화하였다.
우선, 모든 염색체를 20 kb의 저장소(bin) 크기를 갖는 부분들로 나누었다. 각 저장소에서 고유한 리드의 갯수와 GC 함량(0.1%에서 반올림)을 결정하였다. 확인할 수 없는 염기를 갖는 참조 서열을 포함한 저장소와 리드를 포함하지 않는 저장소를 필터링하였다.
그 후, 국소 가중 평균 산점도 평활(locally weighted scatterplot smoothing: LOESS) 회귀분석을 이용하였다. 구체적으로, 각 저장소의 피팅 예측값(fit predicted value: URloess)을 상응하는 저장소의 GC 함량(GCbin)에 대한 각 저장소의 고유한 리드의 갯수(UR)에 의해 하기 식에 따라 산출하였다: URloess=f(GCbin). LOESS-보정된 리드 갯수(UR보정)는 하기 식에 의해 산출하였다: UR보정= UR-[URloess-e(UR)]. 상기 식에서, e(UR)은 각 저장소의 고유한 리드에 대한 기대값으로, 각 저장소의 고유한 리드의 갯수의 전체 평균으로 설정되었다(Liao C. et al., Proc. Natl. Acad. Sci., 2014, 111(20):7415-7420).
LOESS 보정 후, 시료 i의 염색체 j에서 리드 비율(fraction of reads: Rf)을 하기 식으로 산출하였다:
Figure PCTKR2017000266-appb-I000006
(식 1).
상기 식에서, Rfij'는 보정된 시료 i의 염색체 j에서 리드의 비율이고, RCij는 시료 i의 염색체 j에서 보정된 고유한 리드 갯수이다.
정규화된 리드 비율은 상기에서 산출된 Rfij'를 사용하여 하기 식으로 산출하였다:
Figure PCTKR2017000266-appb-I000007
(식 2). 상기 식에서, Rfi'j'는 정규화된 시료 i의 염색체 j에서 리드 비율이고, N은 총 시료의 수이다.
5. 적응적인 참조 시료의 선별 및 태아 이수성의 검출
(1) 전체 시료에 대한 z 점수의 산출 및 태아 이수성의 검출
전체 시료에서 z 점수(score)를 산출하는 기존 방법에 따라 태아 이수성을 검출하였다.
구체적으로, 전체 시료에 대해 완전 선형 회귀 모델을 식
Figure PCTKR2017000266-appb-I000008
(식 3)을 기반으로 확립하였다. 리드 비율의 피팅된(fitting) 예측값을 하기 식으로 산출하였다:
Figure PCTKR2017000266-appb-I000009
(식 4). 상기 식들에서, Rfi'j'는 정규화된 시료 i의 염색체 j에서 리드의 비율이고, Rf'i'j'는 시료 i의 염색체 j에서 리드의 비율의 피팅된 예측값이고, GCi'j'는 시료 i의 염색체 j에서 GC 함량을 나타내고, β는 GC 함량과 리드 비율(Rf) 간의 계수이고, α는 상수이고, 및 e는 잔차(residual: R)이다. 잔차(R)를 식
Figure PCTKR2017000266-appb-I000010
(식 5)에 의해 산출하고 정규 분포에 피팅하였다. 태아 이수성을 위한 z 점수(score)를 하기 식에 의해 산출하였다: z 점수= ( R - R' ) / σ'. 상기 식에서, R은 시료의 염색체에서의 잔차이고, R'는 참조 시료 또는 피검 시료에서 잔차의 평균값이고, σ'는 참조 시료 또는 피검 시료 잔차의 표준 편차이다. z 점수>3은 리드 비율이 참조 시료의 세트의 99.9 백분위수(percentile)의 리드 비율보다 크다는 것을 나타낸다.
전체 시료에서 정배수성인 시료의 z 점수와 3염색체성 21(trisomy 21: T21)의 z 점수를 도 1에 나타내었다. 도 1에 나타난 바와 같이, 21번 염색체에 대해 약 1 내지 약 3의 z 점수 범위는 정배수성 시료와 T21인 시료에서 중복되어, 양성 결과와 음성 결과가 명확히 구별되지 않고 역치값이 불분명하였다. 따라서, 전체 참조 시료의 z 점수를 이용하여 태아의 이수성을 검출하는 방법은 정확도 및 특이도가 낮다는 것을 나타낸다.
(2) 적응적인 참조 시료를 이용한 T21 시료의 검출
5.(1)에 기재된 바와 같은 기존의 태아 이수성 검출 방법에서, 불분명한 역치값은 부적절한 참조 시료 수집 때문일 것으로 판단되었다. 이에, 전체 참조 시료로부터 피검 시료에 적응적인(adaptive) 참조 시료를 선별한 후 통계 분석을 수행하였다.
우선, 13개의 양성 시료(즉, T21인 시료)의 GC 함량을 조사하였다. GC 함량의 영역(-0.005 내지 +0.005 범위)에 따라 양성 시료가 4개의 군으로 나뉘었다. 0.41 GC 함량 영역에서 2개의 양성 시료, 0.42 GC 함량 영역에서 5개의 양성 시료, 0.43 GC 함량 영역에서 2개의 양성 시료, 및 0.44 GC 함량 영역에서 4개의 양성 시료를 각각 GC 함량 범위에 따라 클러스터링하였다. 각 군에서 대표적인 양성 시료를 선별하고, 선별된 양성 시료는 GC 함량 0.001 및 리드 비율 0.00005 증가에 따른 적응적인 참조 시료의 세트를 생성하는데 이용하였다.
적응적인 참조 시료로서, 전체 참조 시료들 중 GC 함량의 범위와 Rf 범위의 조합된 범위에 속하는 참조 시료를 추출하였다. GC 함량의 범위는 시료의 GC 함량을 중간 값으로 설정할 경우 단위 범위로서 -0.001 내지 +0.001을 설정하였다. Rf 범위는 또한 시료의 Rf를 중간 값으로 설정할 경우 단위 범위로서 -0.00005 내지 +0.00005를 설정하였고, 이것은 전체 시료로부터 식
Figure PCTKR2017000266-appb-I000011
(식 4)에서 산출된 Rf의 피팅된 예측값에 의해 결정하였다.
전체 참조 시료를 이용하는 기존의 방법과 적응적인 참조 시료를 이용하는 방법의 성능을 평가하기 위해 변동 계수(coefficient of variation: CV)를 이용하였다.
(i) GC 함량이 0.41 영역인 T21 피검 시료에 대한 적응적 시료 선별 방법의 적용
21번 염색체의 GC 함량 0.416±X 범위와 Rf의 선형 예측값 ±Y 범위의 공통 영역에서 선정된 참조 시료를 이용하여, 적응적 시료 선별을 한 경우와 아닌 경우의 21번 염색체에 대한 변동 계수를 산출하였다. 도 3a는 적응적 참조 선별의 유무에 따른 변동 계수를 나타낸다.
도 3a에서 기준값은 적응적 참조 선별 없이 참조 시료 (n=396) 중에서 21번 염색체의 게놈의 재현성(genomic representation)을 측정하기 위한 변동계수를 나타낸다. 21번 염색체의 GC 함량이 0.41 영역에 속하는 두 개의 피검 시료 중에서 T21번 염색체의 GC가 0.416인 시료를 대표 피검 시료로 선택하고, 나머지 하나의 시료는 적응적 참조 시료를 이용한 결과를 검증하는데 이용하였다. 대표 피검 시료를 기준으로 각각의 GC 함량 및 Rf 영역의 공통영역에 따라 6개의 참조 시료 세트(A, B, C, D, E, 및 F)를 선정하였다(A: n=27, B: n=110, C: n=157, D: n=195, E: n=246, F: n=276). 도 3a에 선정된 6개의 참조 시료 세트에 대한 각각의 변동 계수를 나타내었다. 선정된 세트 A 내지 F에 대한 변동 계수는 기준값의 변동 계수에 비해 낮았다. 따라서, 적응적 선별에 의해 선별된 참조 시료가 시료의 분포가 고르고, T21에 대해 더 높은 민감도 및 특이도를 나타낼 수 있음을 확인하였다.
도 3b의 (a) 내지 (f)는 각각 도 3a에서 적응적으로 선별된 세트 A 내지 F의 정배수 시료를 참조시료로 이용하여 T21 검증 시료와 정배수 검증 시료의 z 점수를 계산한 결과를 나타낸다. 구체적으로, 적응적으로 선별된 세트 A 내지 F의 정배수 시료와, GC 함량이 0.41 영역에 속하는 T21 검증 시료(n=1)의 z 점수를 나타낸다(T21(GC 함량 절대값; Rf 절대값), 정배수 (GC 함량 절대값)). (a)의 경우, GC 함량 0.416±0.009와 Rf의 선형 예측값±1e-05의 공통 영역에서 A 세트에 해당하는 참조 시료를 선정하였다. 이때 대표 피검 시료로 선택되지 않은 나머지 한 개의 피검 시료는 검증 시료로 사용하였다. (b) 내지 (f)의 경우, (a)와 동일한 방법으로 참조 시료를 선정하였다. 선정된 참조 시료와 검증 시료로부터 T21 검증 시료의 z 점수를 계산하였다. 또한, GC 함량 0.416±0.001 범위 안에서 임의로 선정한 정배수 시료를 검증 시료로 사용하였고, 이 6개의 참조 시료 세트를 이용하여 정배수 검증 시료의 z 점수를 계산하였다.
도 3b에 나타난 바와 같이, 적응적으로 선별된 세트 A 내지 F를 이용한 경우 정배수성 시료(정상 태아)와 T21 시료가 명확하게 구분되었고, T21을 구별하기 위한 z 점수인 역치가 명확하였다.
(ii) GC 함량이 0.42 영역인 T21 피검 시료에 대한 적응적 시료 선별 방법의 적용
상기와 유사하게, 21번 염색체의 GC 함량이 0.42 영역에 속하는 5개의 피검 시료 중에서 T21번 염색체의 GC가 0.424인 시료를 대표 피검 시료로 선택하고, 나머지 시료는 적응적 참조 시료를 이용한 결과를 검증하는데 이용하였다. 대표 피검 시료를 기준으로 각각의 GC 함량 및 Rf 영역의 공통영역에 따라 6개의 참조 시료 세트(A, B, C, D, E, 및 F)를 선정하였다(A: n=37, B: n=210, C: n=120, D: n=166, E: n=226, F: n=278). 도 4a에 선정된 6개의 참조 시료 세트에 대한 각각의 변동 계수를 나타내었다.
도 4b의 (a) 내지 (f)는 각각 도 4a에서 적응적으로 선별된 세트 A 내지 F의 정배수 시료를 참조시료로 이용하여 T21 검증 시료와 정배수 검증 시료의 z 점수를 계산한 결과를 나타낸다. (a)의 경우, GC 함량 0.424±0.004와 Rf의 선형 예측값±1e-05의 공통 영역에서 A 세트에 해당하는 참조 시료를 선정하였다. 이때 대표 피검 시료로 선택되지 않은 나머지 피검 시료는 검증 시료로 사용하였다. (b) 내지 (f)의 경우, (a)와 동일한 방법으로 참조 시료를 선정하였다. 선정된 참조 시료와 검증 시료로부터 T21 검증 시료의 z 점수를 계산하였다. 또한, GC 함량 0.424±0.001 범위 안에서 임의로 선정한 정배수 시료를 검증 시료로 사용하였고, 이 6개의 참조 시료 세트를 이용하여 정배수 검증 시료의 z 점수를 계산하였다. 도 4b에 나타난 바와 같이, 적응적으로 선별된 세트 A 내지 F를 이용한 경우 정상 태아(정배수성)와 T21 태아가 명확하게 구분되었고, T21 태아를 구별하기 위한 z 점수인 역치가 명확하였다.
(iii) GC 함량이 0.43 영역인 T21 시료에 대한 적응적 시료 선별 방법의 적용
상기와 유사하게, 21번 염색체의 GC 함량이 0.43 영역에 속하는 2개의 피검 시료 중에서 T21번 염색체의 GC가 0.437인 시료를 대표 피검 시료로 선택하고, 나머지 하나의 시료는 적응적 참조 시료를 이용한 결과를 검증하는데 이용하였다. 대표 피검 시료를 기준으로 각각의 GC 함량 및 Rf 영역의 공통영역에 따라 6개의 참조 시료 세트(A, B, C, D, E, 및 F)를 선정하였다(A: n=31, B: n=90, C: n=138, D: n=189, E: n=227, F: n=292). 도 5a에 선정된 6개의 참조 시료 세트에 대한 각각의 변동 계수를 나타내었다.
도 5b의 (a) 내지 (f)는 각각 도 5a에서 적응적으로 선별된 세트 A 내지 F의 정배수 시료를 참조시료로 이용하여 T21 검증 시료와 정배수 검증 시료의 z 점수를 계산한 결과를 나타낸다. (a)의 경우, GC 함량 0.437±0.009와 Rf의 선형 예측값±1e-05의 공통 영역에서 A 세트에 해당하는 참조 시료를 선정하였다. 이때 대표 피검 시료로 선택되지 않은 나머지 피검 시료는 검증 시료로 사용하였다. (b) 내지 (f)의 경우, (a)와 동일한 방법으로 참조 시료를 선정하였다. 선정된 참조 시료와 검증 시료로부터 T21 검증 시료의 z 점수를 계산하였다. 또한, GC 함량 0.437±0.001 범위 안에서 임의로 선정한 정배수 시료를 검증 시료로 사용하였고, 이 6개의 참조 시료 세트를 이용하여 정배수 검증 시료의 z 점수를 계산하였다. 도 5b에 나타난 바와 같이, 적응적으로 선별된 세트 A 내지 F를 이용한 경우 정상 태아(정배수성)와 T21 태아가 명확하게 구분되었고, T21 태아를 구별하기 위한 z 점수인 역치가 명확하였다.
(iv) GC 함량이 0.44 영역인 T21 시료에 대한 적응적 시료 선별 방법의 적용
21번 염색체의 GC 함량이 0.44 영역에 속하는 4개의 피검 시료 중에서 T21번 염색체의 GC가 0.446인 시료를 대표 피검 시료로 선택하고, 나머지 시료는 적응적 참조 시료를 이용한 결과를 검증하는데 이용하였다. 대표 피검 시료를 기준으로 각각의 GC 함량 및 Rf 영역의 공통영역에 따라 4개의 참조 시료 세트(A, B, C, 및 D)를 선정하였다(A: n=38, B: n=127, C: n=93, D: n=181). 도 6a에 선정된 4개의 참조 시료 세트에 대한 각각의 변동 계수를 나타내었다.
도 6b의 (a) 내지 (d)는 각각 도 6a에서 적응적으로 선별된 세트 A 내지 D의 정배수 시료를 참조시료로 이용하여 T21 검증 시료와 정배수 검증 시료의 z 점수를 계산한 결과를 나타낸다. (a)의 경우, GC 함량 0.446±0.011과 Rf의 선형 예측값±2e-05의 공통 영역에서 A 세트에 해당하는 참조 시료를 선정하였다. 이때 대표 피검 시료로 선택되지 않은 나머지 피검 시료는 검증 시료로 사용하였다. (b) 내지 (d)의 경우, (a)와 동일한 방법으로 참조 시료를 선정하였다. 선정된 참조 시료와 검증 시료로부터 T21 검증 시료의 z 점수를 계산하였다. 또한, GC 함량 0.446±0.001 범위 안에서 임의로 선정한 정배수 시료를 검증 시료로 사용하였고, 이 6개의 참조 시료 세트를 이용하여 정배수 검증 시료의 z 점수를 계산하였다. 도 6b에 나타난 바와 같이, 적응적으로 선별된 세트 A 내지 D를 이용한 경우 정상 태아(정배수성)와 T21 태아가 명확하게 구분되었고, T21 태아를 구별하기 위한 z 점수인 역치가 명확하였다.
(3) 적응적인 참조 시료를 이용한 T18 시료의 검출
5.(2)에 기재된 바와 같은 적응적 시료 선별 방법을 이용하여, 3염색체성 18 (T18) 시료를 검출하였다.
T18 시료가 1개만 있기 때문에, 대표 피검 시료를 동시에 검증시료로서 이용하였다. 대표 피검 시료를 기준으로 각각의 GC 함량 및 Rf 영역의 공통영역에 따라 1개의 참조 시료 세트(A)를 선정하였다(A: n=8). 도 7a에 세트 A와 기준값(선별하지 않은 참조 시료)에 대한 변동 계수를 나타내었다. 도 7b는 선별하지 않은 참조 시료와 T18 시료의 z 점수를 나타낸다.
도 7c에서 GC 함량 0.45±0.014와 Rf의 선형 예측값±2e-05의 공통 영역에서 A 세트에 해당하는 참조 시료를 선정하였다. 또한, GC 함량 0.45±0.001 범위 안에서 임의로 선정한 정배수 시료를 검증 시료로 사용하였고, 참조 시료 세트를 이용하여 정배수 검증 시료의 z 점수를 계산하였다.
도 7b 및 도 7c에 나타난 바와 같이, 선별하지 않은 참조 시료를 이용한 경우 정상 태아(정배수성)와 T18 태아가 구별되지 않은 반면에, 적응적으로 선별된 세트 A를 이용한 경우 정상 태아(정배수성)와 T18 태아가 명확하게 구분되었다.
(4) 적응적인 참조 시료를 이용한 T13 시료의 검출
5.(2)에 기재된 바와 같은 적응적 시료 선별 방법을 이용하여, 3염색체성 13 (T13) 시료를 검출하였다.
T13 시료가 1개만 있기 때문에, 대표 피검 시료를 동시에 검증 시료로서 이용하였다. 대표 피검 시료를 기준으로 각각의 GC 함량 및 Rf 영역의 공통영역에 따라 1개의 참조 시료 세트(A)를 선정하였다(A: n=177). 도 8a에 세트 A와 기준값(선별하지 않은 참조 시료)에 대한 변동 계수를 나타내었다. 도 8b는 선별하지 않은 참조 시료와 T13 시료의 z 점수를 나타낸다.
도 8c에서 GC 함량 0.421±0.017과 Rf의 선형 예측값±0.0001의 공통 영역에서 A 세트에 해당하는 참조 시료를 선정하였다. 또한, GC 함량 0.421±0.001 범위 안에서 임의로 선정한 정배수 시료를 검증 시료로 사용하였고, 참조 시료 세트를 이용하여 정배수 검증 시료의 z 점수를 계산하였다.
도 8b 및 도 8c에 나타난 바와 같이, 선별하지 않은 참조 시료를 이용한 경우 정상 태아(정배수성)와 T13 태아가 구별되었지만(약 1.5의 z 점수차), 적응적으로 선별된 세트 A를 이용한 경우 정상 태아(정배수성)와 T13 태아가 더 명확하게 구분되었다(약 4의 z 점수차).
(5) 염색체 별 리드 비율과 GC 함량의 관계
염색체 별 리드 비율과 GC 함량의 관련성을 선형 모델에 피팅하여 산출하고, 그 결과를 도 9a 내지 도 9f에 나타내었다. 도 9a 내지 도 9f는 1번 내지 22번 염색체의 리드 비율과 핵형 분석에 의해 확인된 정배수성 대조군(n=396)에서의 GC 함량의 관계를 나타낸다.
도 9a 내지 도 9f에 나타난 바와 같이 각 염색체의 리드 비율과 GC 함량은 선형의 관련성이 있다. 따라서, 3염색체성 시료를 검출하기 위해 표적 염색체에서 피검 염색체의 리드 비율과 GC 함량을 기준으로 설정된 범위에 속하는 참조 시료를 선별할 수 있다.
그러므로, 선별된 참조 시료로부터 산출된 z 점수와 피검 시료로부터 산출된 z 점수를 비교함으로써 피검 시료가 3염색체성 태아인지 여부를 우수한 민감도 및 특이도로 검출할 수 있다.

Claims (20)

  1. 임신한 여성의 생물학적 시료로부터 수득된 복수의 핵산 단편의 서열정보(reads)를 수득하는 단계;
    상기 수득된 서열정보를 인간 참조 유전체에 맵핑(mapping)하여 상기 핵산 단편의 서열정보를 염색체에 지정하는 단계;
    상기 염색체에 지정된 핵산 단편의 서열정보에 근거하여, 핵산 단편의 갯수에 대한 표적 염색체에서 핵산 단편의 서열정보의 비율(fraction of reads: Rf) 및 GC 함량을 산출하는 단계;
    산출된 표적 염색체에서의 Rf 및 GC 함량에 근거하여 참조 시료로부터 Rf 단위 범위 및 GC 단위 범위의 공통 범위에 속하는 적응적 참조 시료를 선별하는 단계;
    상기 적응적 참조 시료의 z 점수와 피검 시료의 z 점수를 산출하는 단계; 및
    산출된 상기 적응적 참조 시료의 z 점수와 피검 시료의 z 점수를 비교하여 피검 시료의 z 점수가 적응적 참조 시료의 z 점수보다 큰 경우 상기 표적 염색체의 염색체이수성을 나타내는 것인 단계를 포함하는, 태아의 표적 염색체에 대한 염색체이수성을 검출하는 방법.
  2. 청구항 1에 있어서, 상기 생물학적 시료는 혈액, 혈장, 혈청, 소변, 타액, 점막 분비물, 객담, 대변, 눈물, 또는 이들의 조합인 것인 방법.
  3. 청구항 1에 있어서, 상기 생물학적 시료는 태아의 핵산을 포함하는 것인 방법.
  4. 청구항 1에 있어서, 상기 임신한 여성의 생물학적 시료로부터 수득된 복수의 핵산 단편의 서열정보를 수득하는 단계는 생물학적 시료로부터 핵산을 분리하는 단계를 포함하는 것인 방법.
  5. 청구항 1에 있어서, 상기 임신한 여성으로부터 수득된 생물학적 시료로부터 복수의 핵산 단편의 서열정보를 수득하는 단계는 분리된 핵산을 대규모 병렬 시퀀싱(massive parallel sequencing)을 수행하는 단계를 포함하는 것인 방법.
  6. 청구항 1에 있어서, 상기 핵산 단편의 서열정보를 염색체에 지정하는 단계 후에, 염색체에 지정된 상기 핵산 단편의 서열정보의 두께 분포를 구간별로 확인하여 서열정보에 대한 신뢰도가 낮은 구간을 분석대상에서 제외하는 단계를 더 포함하는 것인 방법.
  7. 청구항 6에 있어서, 상기 구간은 5 kb 내지 50 kb 단위로 설정된 구간인 것인 방법.
  8. 청구항 6에 있어서, 상기 서열정보에 대한 신뢰도가 낮은 구간을 분석대상에서 제외하는 단계는 미스매치(mismatch) 부분을 제거하거나, 복수의 부위에 지정되는 서열정보를 제거하거나, 중복적인 서열정보를 제거하거나, 또는 이들의 조합을 포함하는 것인 방법.
  9. 청구항 1에 있어서, 상기 핵산 단편의 서열정보를 염색체에 지정하는 단계 후에, 상기 핵산 단편의 서열정보를 하기 식 1에 따라 국소 가중 평균 산점도 평활(locally weighted scatterplot smoothing: LOESS) 회귀분석을 수행하여 GC 함량의 편향을 감소시키는 단계를 더 포함하는 것인 방법:
    Figure PCTKR2017000266-appb-I000012
    (식 1),
    식 1에서, Rfij'는 보정된 시료 i의 염색체 j에서 리드의 비율이고, RCij는 시료 i의 염색체 j에서 보정된 고유한 리드 갯수이다.
  10. 청구항 1에 있어서, 상기 핵산 단편의 서열정보를 염색체에 지정하는 단계 후에, 상기 핵산 단편의 서열정보를 하기 식 2에 따라 정규화시키는 단계를 더 포함하는 것인 방법:
    Figure PCTKR2017000266-appb-I000013
    (식 2),
    식 2에서, Rfi'j'는 정규화된 시료 i의 염색체 j에서 리드 비율이고, N은 총 시료의 수이다.
  11. 청구항 1에 있어서, 상기 참조 시료는 정배수체인 태아를 임신한 여성의 생물학적 시료로부터 수득된 것인 방법.
  12. 청구항 1에 있어서, 참조 시료 전체로부터 선형 회귀 모델을 확립하는 단계를 더 포함하는 것인 방법.
  13. 청구항 1에 있어서, 피검 시료의 Rf에 따라 참조 시료의 Rf의 단위 범위를 확장하거나, 참조 시료의 GC 단위 범위를 피검 시료의 GC 단위에 따라 참조 시료의 GC 단위 범위를 확장하거나, 또는 이들의 조합을 더 포함하는 것인 방법.
  14. 청구항 13에 있어서, 참조 시료의 Rf의 단위 범위를 확장하거나, 참조 시료의 GC 단위 범위를 확장하거나, 또는 이들의 조합은 컴퓨터 알고리즘에 의해 실행되는 것인 방법.
  15. 청구항 1에 있어서, 적응적 참조 시료의 z 점수와 피검 시료의 z 점수를 산출하는 단계는, 하기 식 3에 따라 선형 회귀 분석 및 하기 식 4에 따라 Rf의 선형 예측값을 산출하는 단계를 포함하는 것인 방법:
    Figure PCTKR2017000266-appb-I000014
    (식 3),
    상기 식 3에 있어서, Rfi'j'는 정규화된 시료 i의 염색체 j에서 리드의 비율이고, α는 상수이고, β는 GC 함량과 Rf 간의 계수이고, 및 e는 잔차(residual: R)이고; 및
    Figure PCTKR2017000266-appb-I000015
    (식 4),
    상기 식 4에 있어서, Rf'i'j'는 시료 i의 염색체 j에서 리드의 비율의 피팅된 예측값이고, α는 상수이고, 및 β는 GC 함량과 Rf 간의 계수이다.
  16. 청구항 15에 있어서, 적응적 참조 시료의 z 점수와 피검 시료의 z 점수를 산출하는 단계는, 산출된 선형 회귀 분석 및 선형 예측값으로부터 하기 식 5에 따라 잔차(R)을 산출하고, 산출된 잔차로부터 하기 식 6에 따라 z 점수를 산출하는 단계를 더 포함하는 것인 방법:
    Figure PCTKR2017000266-appb-I000016
    (식 5); 및
    z 점수= ( R - R' ) / σ' (식 6),
    상기 식 6에서, R'는 참조 시료에서 잔차의 평균값이고 R는 피검 시료의 잔차값이고, σ'는 참조 시료에서 잔차의 표준 편차이다.
  17. 청구항 1에 있어서, 산출된 상기 적응적 참조 시료의 z 점수가 3 초과인 경우 상기 표적 염색체가 염색체이수성인 것으로 판단하는 단계를 더 포함하는 것인 방법.
  18. 청구항 1에 있어서, 상기 표적 염색체는 13번 염색체, 18번 염색체, 21번 염색체, X 염색체, Y 염색체, 또는 이들의 조합인 것인 방법.
  19. 청구항 1에 있어서, 상기 염색체 이수성은 3염색체성 13, 3염색체성 18, 3염색체성 21, XO, XXX, XXY, XYY, 또는 이들의 조합인 것인 방법.
  20. 청구항 1 내지 19 중 어느 한 항에 따른 방법을 수행하기 위해 적용되는 프로그램을 기록한 컴퓨터 판독 매체.
PCT/KR2017/000266 2016-01-25 2017-01-09 태아의 염색체이수성을 검출하는 방법 WO2017131359A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US16/071,883 US11710565B2 (en) 2016-01-25 2017-01-09 Method of detecting fetal chromosomal aneuploidy
US18/225,618 US20230368918A1 (en) 2016-01-25 2023-07-24 Method of detecting fetal chromosomal aneuploidy

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2016-0008903 2016-01-25
KR1020160008903A KR101739535B1 (ko) 2016-01-25 2016-01-25 태아의 염색체이수성을 검출하는 방법

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US16/071,883 A-371-Of-International US11710565B2 (en) 2016-01-25 2017-01-09 Method of detecting fetal chromosomal aneuploidy
US18/225,618 Continuation US20230368918A1 (en) 2016-01-25 2023-07-24 Method of detecting fetal chromosomal aneuploidy

Publications (1)

Publication Number Publication Date
WO2017131359A1 true WO2017131359A1 (ko) 2017-08-03

Family

ID=59051233

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/000266 WO2017131359A1 (ko) 2016-01-25 2017-01-09 태아의 염색체이수성을 검출하는 방법

Country Status (3)

Country Link
US (2) US11710565B2 (ko)
KR (1) KR101739535B1 (ko)
WO (1) WO2017131359A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733979A (zh) * 2017-10-30 2018-11-02 成都凡迪医疗器械有限公司 Nipt的gc含量校准方法、装置及计算机可读存储介质
KR102142914B1 (ko) * 2018-09-06 2020-08-11 이원다이애그노믹스(주) 모체 혈액 유래 무세포 dna 단편을 이용한 비침습적 산전 검사 방법
CN110993029B (zh) * 2019-12-26 2023-09-05 北京优迅医学检验实验室有限公司 一种检测染色体异常的方法及系统
KR20230076686A (ko) 2021-11-24 2023-05-31 테라젠지놈케어 주식회사 가상 데이터에 기반한 태아의 염색체이수성을 검출하는 방법
KR20230157204A (ko) 2022-05-09 2023-11-16 테라젠지놈케어 주식회사 가상 양성 데이터 및 가상 음성 데이터에 기반한 태아의 염색체이수성을 검출하는 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140108177A (ko) * 2013-02-28 2014-09-05 주식회사 테라젠이텍스 유전체 서열분석을 이용한 태아 염색체 이수성의 진단 방법 및 장치

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012177792A2 (en) * 2011-06-24 2012-12-27 Sequenom, Inc. Methods and processes for non-invasive assessment of a genetic variation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140108177A (ko) * 2013-02-28 2014-09-05 주식회사 테라젠이텍스 유전체 서열분석을 이용한 태아 염색체 이수성의 진단 방법 및 장치

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
BAYINDIR ET AL.: "Noninvasive Prenatal Testing Using a Novel Analysis Pipeline to Screen for All Autosomal Fetal Aneuploidies Improves Pregnancy Management", EUROPEAN JOURNAL OF HUMAN GENETICS, vol. 23, 2015, pages 1286 - 1293, XP055378014 *
JENSEN ET AL.: "High-throughput massively Parallel Sequencing for Fetal Aneuploidy Detection from Maternal Plasma", PLOS ONE, vol. 8, no. 3, 2013, pages 1 - 8, XP055089612 *
KIM ET AL.: "An Adaptive Detection Method for Fetal Chromosomal Aneuploidy Using Cell -free DNA from 447 Korean Women", BMC MEDICAL GENOMICS, vol. 9, 3 October 2016 (2016-10-03), pages 1 - 8, XP055407874 *
LIAO ET AL.: "Noninvasive Prenatal Diagnosis of Common Aneuploidies by Semiconductor Sequencing", PNAS, vol. 111, no. 20, 2014, pages 7415 - 7420, XP055362638 *
YEANG ET AL.: "Genome-wide Normalized Score: a Novel Algorithm to Detect Fetal Trisomy 21 during Non-invasive Prenatal Testing", ULTRASOUND IN OBSTETRICS AND GYNECOLOGY, vol. 44, 2014, pages 25 - 30, XP055407854 *
ZHANG ET AL.: "Statistical Approach to Decreasing the Error Rate of Noninvasive Prenatal Aneuploid Detection Caused by Maternal Copy Number Variation", SCIENTIFIC REPORTS, vol. 5, 2015, pages 1 - 9, XP055407852 *

Also Published As

Publication number Publication date
US20190103187A1 (en) 2019-04-04
KR101739535B1 (ko) 2017-05-24
US20230368918A1 (en) 2023-11-16
US11710565B2 (en) 2023-07-25

Similar Documents

Publication Publication Date Title
WO2017131359A1 (ko) 태아의 염색체이수성을 검출하는 방법
WO2017023148A1 (ko) 다양한 플랫폼에서 태아의 성별과 성염색체 이상을 구분할 수 있는 새로운 방법
US9353414B2 (en) Noninvasive diagnosis of fetal aneuploidy by sequencing
Vestergaard et al. On the road to replacing invasive testing with cell‐based NIPT: Five clinical cases with aneuploidies, microduplication, unbalanced structural rearrangement, or mosaicism
US20210090687A1 (en) Methods of quality control using single-nucleotide polymorphisms in pre-implantation genetic screening
KR101686146B1 (ko) 핵산의 혼합물을 포함하는 샘플에서 복제수 변이를 결정하는 방법
WO2014133369A1 (ko) 유전체 서열분석을 이용한 태아 염색체 이수성의 진단 방법 및 장치
WO2017126943A1 (ko) 염색체 이상 판단 방법
US20200255896A1 (en) Method for non-invasive prenatal screening for aneuploidy
WO2020022733A1 (ko) 전장유전체 시퀀싱 기반의 염색체 이상 검출 방법 및 그 용도
WO2017094941A1 (ko) 핵산의 혼합물을 포함하는 샘플에서 복제수 변이를 결정하는 방법
WO2023096224A1 (ko) 가상 데이터에 기반한 태아의 염색체이수성을 검출하는 방법
KR101881098B1 (ko) 태아의 염색체이수성을 검출하는 방법
WO2017213470A1 (ko) 다중 z-score에 기반한 비침습적 산전 검사 방법 및 장치
WO2023219263A1 (ko) 가상 양성 데이터 및 가상 음성 데이터에 기반한 태아의 염색체이수성을 검출하는 방법
WO2020141722A1 (ko) 모체 시료 중 태아 분획을 결정하는 방법
JP2014530629A (ja) 染色体の微細欠失及び微細重複を検出する方法
Qian et al. Noninvasive Prenatal Screening for Common Fetal Aneuploidies Using Single-Molecule Sequencing
US20130210002A1 (en) Method of analyzing cellular chromosomes
Dey Introductory Chapter: Down Syndrome and Other Chromosome Abnormalities
RU2777072C1 (ru) Способ определения анеуплоидии плода в образце крови беременной женщины
WO2022119327A1 (ko) 선천적 대사질환 위험도 점수를 이용한 심뇌혈관질환의 위험도 측정 방법
WO2020050672A1 (ko) 모체 혈액 유래 무세포 dna 단편을 이용한 비침습적 산전 검사 방법
WO2019124629A1 (ko) 모체 시료 중 태아 분획을 결정하는 방법
KR102268666B1 (ko) 다운증후군 진단용 바이오마커 조성물 및 이의 용도

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17744481

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17744481

Country of ref document: EP

Kind code of ref document: A1