KR20230157204A - Method for detecting aneuploidy of fetus based on synthetic positive data and synthetic negative data - Google Patents

Method for detecting aneuploidy of fetus based on synthetic positive data and synthetic negative data Download PDF

Info

Publication number
KR20230157204A
KR20230157204A KR1020220069309A KR20220069309A KR20230157204A KR 20230157204 A KR20230157204 A KR 20230157204A KR 1020220069309 A KR1020220069309 A KR 1020220069309A KR 20220069309 A KR20220069309 A KR 20220069309A KR 20230157204 A KR20230157204 A KR 20230157204A
Authority
KR
South Korea
Prior art keywords
chromosome
cyrc
data
reads
normal
Prior art date
Application number
KR1020220069309A
Other languages
Korean (ko)
Inventor
김선신
크리스나
정재환
오경인
Original Assignee
테라젠지놈케어 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 테라젠지놈케어 주식회사 filed Critical 테라젠지놈케어 주식회사
Priority to PCT/KR2023/004091 priority Critical patent/WO2023219263A1/en
Publication of KR20230157204A publication Critical patent/KR20230157204A/en

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B2503/00Evaluating a particular growth phase or type of persons or animals
    • A61B2503/02Foetus

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Organic Chemistry (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Public Health (AREA)
  • Analytical Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Zoology (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Genetics & Genomics (AREA)
  • Microbiology (AREA)
  • Bioethics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

가상의 정상 데이터 및 가상의 양성 데이터에 기반한 태아의 염색체이수성을 검출하는 방법, 및 이를 수행하기 위해 적용되는 프로그램을 기록한 컴퓨터 판독 매체를 제공한다. 이에 의하면, 태아의 염색체이수성을 우수한 민감도 및 특이도로 비침습적으로 산전 진단할 수 있다.Provided is a method for detecting chromosomal aneuploidy in a fetus based on virtual normal data and virtual positive data, and a computer-readable medium recording a program applied to perform the same. According to this, chromosomal aneuploidy in the fetus can be non-invasively diagnosed prenatally with excellent sensitivity and specificity.

Description

가상 양성 데이터 및 가상 음성 데이터에 기반한 태아의 염색체이수성을 검출하는 방법{Method for detecting aneuploidy of fetus based on synthetic positive data and synthetic negative data}Method for detecting aneuploidy of fetus based on synthetic positive data and synthetic negative data}

가상 양성 데이터 및 가상 음성 데이터, 즉 가상의 염색체이수성 데이터 및 가상의 정상 데이터에 기반한 태아의 염색체이수성을 검출하는 방법을 제공한다.A method for detecting chromosomal aneuploidy in a fetus based on virtual positive data and virtual negative data, that is, virtual chromosomal aneuploidy data and virtual normal data, is provided.

산전 진단(prenatal diagnosis)은 태아가 태어나기 전에 태아의 질병 유무를 진단하는 것을 말한다. 산전 진단은 크게 침습적 진단 방법과 비침습적 진단 방법으로 나뉜다. 침습적 진단 방법은 예를 들어 융모막 검사, 양수천자, 및 탯줄천자 등이 있다. 침습적 진단 방법은 검사 과정에서 태아에게 충격을 가하여 유산, 질병 또는 기형 등을 유발할 가능성이 있어서, 비침습적 진단 방법들이 개발되고 있다.Prenatal diagnosis refers to diagnosing the presence or absence of a disease in the fetus before the fetus is born. Prenatal diagnosis is largely divided into invasive and non-invasive diagnostic methods. Invasive diagnostic methods include, for example, chorionic screen, amniocentesis, and umbilical cord puncture. Invasive diagnostic methods have the potential to cause miscarriage, disease, or deformity by causing shock to the fetus during the test process, so non-invasive diagnostic methods are being developed.

최근에는 임산부의 혈장 중 DNA 분자들을 대규모 병렬 시퀀싱함으로써 태아 염색체이수성의 비침습적 진단이 실행가능하다는 것이 입증되었다. 태아 DNA는 모체 혈장 및 혈청에서 임신 7주차부터 검출될 수 있고, 모체 혈액 중 태아 DNA의 양은 임신 기간에 따라 증가한다. 태아 DNA를 대규모 병렬 시퀀싱하는 경우, 정상 태아와 염색체이수성 태아를 구별하는 역치가 불분명하여 염색체이수성 검출의 민감도 및 특이도가 낮은 문제가 있다.Recently, it has been demonstrated that noninvasive diagnosis of fetal chromosomal aneuploidy is feasible by massively parallel sequencing of DNA molecules in the plasma of pregnant women. Fetal DNA can be detected in maternal plasma and serum from the 7th week of pregnancy, and the amount of fetal DNA in maternal blood increases with the period of pregnancy. When performing massively parallel sequencing of fetal DNA, the threshold for distinguishing a normal fetus from a chromosomal aneuploidy fetus is unclear, resulting in low sensitivity and specificity for chromosomal aneuploidy detection.

따라서, 정상 태아와 염색체이수성 태아를 명확하게 구별하여 염색체이수성 검출의 민감도 및 특이도를 높일 수 있는 방법을 개발할 필요가 있다.Therefore, there is a need to develop a method that can clearly distinguish between normal fetuses and chromosomal aneuploidy fetuses and increase the sensitivity and specificity of chromosomal aneuploidy detection.

KRKR 1739535 1739535 BB

태아의 염색체이수성을 검출하는 방법을 제공한다.A method for detecting chromosomal aneuploidy in a fetus is provided.

상기 방법을 수행하기 위해 적용되는 프로그램을 기록한 컴퓨터 판독 매체를 제공한다.A computer-readable medium recording a program applied to perform the method is provided.

일 양상으로서 태아의 염색체이수성을 검출하는 방법으로서,In one aspect, as a method for detecting chromosomal aneuploidy in a fetus,

정상 태아를 임신한 여성의 생물학적 시료로부터 수득된 복수의 핵산 단편의 서열정보(Read)를 수득하는 단계;Obtaining sequence information (Read) of a plurality of nucleic acid fragments obtained from a biological sample of a woman pregnant with a normal fetus;

상기 수득된 서열정보를 인간 참조 유전체에 맵핑(mapping)하여 상기 핵산 단편의 서열정보를 염색체에 지정하는 단계;Mapping the obtained sequence information to a human reference genome and assigning the sequence information of the nucleic acid fragment to a chromosome;

상기 염색체에 지정된 핵산 단편의 서열정보에 근거하여, 정상 태아에서 표적 염색체에서의 핵산 단편의 서열정보의 리드수(Read Count: RC), 태아 DNA 분획(Fetal Fraction: FF), 및 GC 함량을 산출하는 단계;Based on the sequence information of the nucleic acid fragment specified in the chromosome, read count (RC), fetal DNA fraction (FF), and GC content of the sequence information of the nucleic acid fragment in the target chromosome are calculated in a normal fetus. steps;

정상 태아에서 표적 염색체에서의 리드수와 태아 DNA 분획에 근거하여, 정상 데이터로부터 가상의 정상 데이터를 생산하는 단계로서,A step of producing virtual normal data from normal data based on the number of reads in the target chromosome and fetal DNA fraction in the normal fetus,

상기 정상 데이터는 정상 태아의 표적 염색체에서의 리드수인 단계;The normal data is the number of reads in the target chromosome of a normal fetus;

상기 가상의 정상 데이터로부터 가상의 양성 데이터를 생성하는 단계로서,Generating virtual positive data from the virtual normal data,

상기 양성 데이터는 염색체이수성을 갖는 태아의 표적 염색체에서의 리드수인 것인 단계;The positive data is the number of reads in the target chromosome of a fetus with chromosomal aneuploidy;

상기 생산된 가상의 정상 데이터 및 가상의 양성 데이터로부터 염색체이수성 판별 모델을 확립하는 단계; 및Establishing a chromosomal aneuploidy discrimination model from the produced virtual normal data and virtual positive data; and

상기 염색체이수성 판별 모델을 이용하여 피검 시료의 염색체이수성을 검출하는 단계를 포함하는 방법을 제공한다.A method including the step of detecting chromosomal aneuploidy in a test sample using the chromosomal aneuploidy determination model is provided.

용어 "염색체이수성(aneuploidy)"은 세포, 개체 또는 계통에서 하나의 세포당 염색체 수가 기본수의 정수배가 되지 않고, 정수배에 대하여 1 내지 여러 개가 많거나 혹은 적은 상태인 것, 즉 불완전한 구성을 한 유전체를 포함한 상태를 말한다. 2배체의 경우 1쌍의 상동염색체 2개가 결손되어 있는 경우를 0염색체성, 한쪽은 결손되고 다른 한쪽만 존재하는 경우를 1염색체성, 1쌍의 상동염색체 외에 또 다른 1개의 여분 염색체가 존재하는 경우를 3염색체성(trisomy: T)이라 한다.The term “chromosomal aneuploidy” refers to a condition in which the number of chromosomes per cell in a cell, individual, or lineage is not an integer multiple of the base number, and one to several more or fewer chromosomes per integer multiple, that is, a genome with an incomplete structure. refers to a state that includes In the case of diploidy, when two homologous chromosomes of a pair are missing, it is called chromosome 0, when one pair is missing and only the other chromosome is present, it is called chromosome 1, and in addition to the pair of homologous chromosomes, another extra chromosome is present. This case is called trisomy (T).

상기 염색체이수성은 3염색체성 13, 3염색체성 18, 3염색체성 21, XO, XXX, XXY, XYY, 또는 이들의 조합일 수 있다. 13번 염색체의 이상(3염색체성 13)은 파타우 증후군(Patau syndrome)과 관련된다. 18번 염색체의 이상(3염색체성 18)은 에드워드 증후군(Edwards syndrome)과 관련된다. 21번 염색체의 이상(3염색체성 21)은 다운 증후군(Down syndrome)과 관련된다. 1염색체성 X(XO, 즉 하나의 염색체 X의 부재)는 터너 증후군과 관련된다. XXY는 인간 남성이 추가의 염색체 X를 갖는 증상으로, 클라인펠터 증후군(Klinefelter syndrome)과 관련된다.The chromosomal aneuploidy may be trisomy 13, trisomy 18, trisomy 21, XO, XXX, XXY, XYY, or a combination thereof. Abnormalities of chromosome 13 (trisomy 13) are associated with Patau syndrome. Abnormalities of chromosome 18 (trisomy 18) are associated with Edwards syndrome. Abnormalities of chromosome 21 (trisomy 21) are associated with Down syndrome. Monosomy X (XO, i.e. absence of one chromosome X) is associated with Turner syndrome. XXY is a condition in which human males have an extra chromosome X and is associated with Klinefelter syndrome.

상기 방법은 정상 태아를 임신한 여성의 생물학적 시료로부터 수득된 복수의 핵산 단편의 서열정보(Read)를 수득하는 단계를 포함한다.The method includes obtaining sequence information (Read) of a plurality of nucleic acid fragments obtained from a biological sample of a woman carrying a normal fetus.

상기 임신한 여성은 단태아 또는 쌍태아를 임신한 여성일 수 있다.The pregnant woman may be a woman pregnant with a single fetus or twin fetuses.

상기 생물학적 시료는 혈액, 혈장, 혈청, 소변, 타액, 점막 분비물, 객담, 대변, 눈물, 또는 이들의 조합일 수 있다. 상기 생물학적 시료는 예를 들어 말초혈액의 혈장이다. 상기 생물학적 시료는 태아의 핵산을 포함할 수 있다. 상기 태아의 핵산은 세포를 포함하지 않는 핵산(cell-free DNA: cfDNA)일 수 있다. 상기 태아의 핵산은 분리된 DNA일 수 있다.The biological sample may be blood, plasma, serum, urine, saliva, mucosal secretions, sputum, feces, tears, or a combination thereof. The biological sample is, for example, peripheral blood plasma. The biological sample may include fetal nucleic acid. The fetal nucleic acid may be cell-free DNA (cfDNA). The fetal nucleic acid may be isolated DNA.

상기 임신한 여성의 생물학적 시료로부터 수득된 복수의 핵산 단편의 서열정보를 수득하는 단계는 생물학적 시료로부터 핵산을 분리하는 단계를 포함할 수 있다.The step of obtaining sequence information of a plurality of nucleic acid fragments obtained from the biological sample of the pregnant woman may include the step of isolating the nucleic acids from the biological sample.

상기 생물학적 시료로부터 핵산을 분리하는 방법은 당업자에게 공지된 방법으로 수행될 수 있다. 상기 분리된 핵산 단편의 길이는 약 10 bp(염기쌍) 내지 약 2000 bp, 약 15 bp 내지 약 1500 bp, 약 20 bp 내지 약 1000 bp, 약 20 bp 내지 약 500 bp, 약 20 bp 내지 약 200 bp, 또는 약 20 bp 내지 약 100 bp일 수 있다.The method of isolating nucleic acids from the biological sample can be performed by methods known to those skilled in the art. The length of the isolated nucleic acid fragment is about 10 bp (base pairs) to about 2000 bp, about 15 bp to about 1500 bp, about 20 bp to about 1000 bp, about 20 bp to about 500 bp, about 20 bp to about 200 bp. , or may be from about 20 bp to about 100 bp.

상기 임신한 여성으로부터 수득된 생물학적 시료로부터 복수의 핵산 단편의 서열정보를 수득하는 단계는 분리된 핵산을 대규모 병렬 시퀀싱(massive parallel sequencing)을 수행하는 단계를 포함할 수 있다.The step of obtaining sequence information of a plurality of nucleic acid fragments from the biological sample obtained from the pregnant woman may include performing massive parallel sequencing on the isolated nucleic acids.

용어 "대규모 병렬 시퀀싱(massive parallel sequencing)"은 차세대 시퀀싱(next-generation sequencing: NGS) 또는 2세대 시퀀싱(second-generation sequencing)과 상호 교환적으로 사용될 수 있다. 대규모 병렬 시퀀싱은 수백만개의 단편의 핵산을 동시다발적으로 시퀀싱하는 기법을 말한다. 대규모 병렬 시퀀싱은 예를 들어, 454 플랫폼(Roche), GS FLX 티타늄, Illumina MiSeq, Illumina HiSeq, Illumina Genome Analyzer, Solexa platform, SOLiD System(Applied Biosystems), Ion Proton(Life Technologies), Complete Genomics, Helicos Biosciences Heliscope, Pacific Biosciences의 단일 분자 실시간(SMRT™) 기술, 또는 이들의 조합에 의해 병렬 방식으로 수행될 수 있다.The term “massive parallel sequencing” may be used interchangeably with next-generation sequencing (NGS) or second-generation sequencing. Massively parallel sequencing refers to a technique for simultaneously sequencing millions of fragments of nucleic acids. Massively parallel sequencing is available, for example, on the 454 platform (Roche), GS FLX Titanium, Illumina MiSeq, Illumina HiSeq, Illumina Genome Analyzer, Solexa platform, SOLiD System (Applied Biosystems), Ion Proton (Life Technologies), Complete Genomics, Helicos Biosciences. It can be performed in parallel by Heliscope, Pacific Biosciences' single molecule real-time (SMRT™) technology, or a combination of these.

상기 방법은 대규모 병렬 시퀀싱을 수행하기 위해 핵산 라이브러리를 제조하는 단계를 더 포함할 수 있다.The method may further include preparing a nucleic acid library to perform massively parallel sequencing.

상기 핵산 라이브러리는 대규모 병렬 시퀀싱의 방식에 따라 제조될 수 있다. 대규모 병렬 시퀀싱을 제공하는 제조자의 지시에 따라 핵산 라이브러리를 제작할 수 있다.The nucleic acid library can be prepared according to massively parallel sequencing. Nucleic acid libraries can be constructed following the manufacturer's instructions that provide massively parallel sequencing.

수득된 핵산 단편의 서열정보는 리드(Read)로도 불릴 수 있다.The sequence information of the obtained nucleic acid fragment may also be called a read.

상기 방법은 수득된 서열정보를 인간 참조 유전체에 맵핑(mapping)하여 상기 핵산 단편의 서열정보를 염색체에 지정하는 단계를 포함한다.The method includes mapping the obtained sequence information to a human reference genome and assigning the sequence information of the nucleic acid fragment to a chromosome.

인간 참조 유전체는 hg18 또는 hg19일 수 있다. 인간 참조 유전체에서 하나의 게놈 위치에만 맵핑되는 서열정보를 고유한(unique) 서열정보로 지정할 수 있다. 지정된 고유한 서열번호를 기준으로 핵산 단편의 서열정보를 염색체의 위치에 지정할 수 있다. 상기 염색체의 위치는 약 5 kb, 약 10 kb, 약 20 kb, 약 50 kb, 약 100 kb, 약 1000 kb, 또는 2000 kb 이상의 길이를 갖는 염색체 상의 연속적인 범위일 수 있다. 상기 염색체 위치는 단일 염색체일 수 있다.The human reference genome may be hg18 or hg19. Sequence information that maps to only one genomic location in the human reference genome can be designated as unique sequence information. Based on the designated unique sequence number, the sequence information of the nucleic acid fragment can be assigned to the location of the chromosome. The chromosomal location may be a contiguous range on a chromosome having a length of at least about 5 kb, about 10 kb, about 20 kb, about 50 kb, about 100 kb, about 1000 kb, or 2000 kb. The chromosomal location may be a single chromosome.

상기 핵산 단편의 서열정보를 염색체에 지정하는 단계 후에, 염색체에 지정된 상기 핵산 단편의 서열정보의 두께 분포를 구간별로 확인하여 서열정보에 대한 신뢰도가 낮은 구간을 분석대상에서 제외하는 단계를 더 포함할 수 있다. 상기 구간은 약 5 kb 내지 약 50 kb 단위로 설정된 구간일 수 있다. 예를 들어 상기 구간은 약 10 kb 내지 약 40 kb, 약 15 kb 내지 약 30 kb, 또는 약 20 kb 내지 약 25 kb로 설정된 구간일 수 있다. 상기 구간을 설정함으로써 염기서열의 GC 함량을 이용하여 필터링할 수 있다. 또한, 상기 구간을 설정함으로써 염색체에 지정된 핵산 단편의 서열정보의 두께(depth) 및 GC 함량의 집단을 형성할 수 있고, 통계적인 분석이 가능할 수 있다.After the step of assigning the sequence information of the nucleic acid fragment to the chromosome, the step of checking the thickness distribution of the sequence information of the nucleic acid fragment assigned to the chromosome for each section and excluding a section with low reliability of the sequence information from the analysis target. You can. The section may be set in units of about 5 kb to about 50 kb. For example, the section may be set to about 10 kb to about 40 kb, about 15 kb to about 30 kb, or about 20 kb to about 25 kb. By setting the above section, filtering can be done using the GC content of the base sequence. In addition, by setting the section, it is possible to form a group of the depth and GC content of the sequence information of the nucleic acid fragment specified in the chromosome, and statistical analysis may be possible.

상기 서열정보에 대한 신뢰도가 낮은 구간을 분석대상에서 제외하는 단계는 미스매치(mismatch) 부분을 제거하거나, 복수의 부위에 지정되는 서열정보를 제거하거나, 중복적인 서열정보를 제거하거나, 또는 이들의 조합을 포함할 수 있다. 서열정보에 대한 신뢰도가 낮은 구간을 분석대상에서 제외하기 위해, 퀄리티 필터링(quality filtering), 트리밍(trimming), 퍼펙트 매치(perfect match), 여러 군데(multi)에 지정되는 서열들의 제거, PCR 중복 서열정보(PCR duplicated reads)의 제거, 또는 이들의 조합을 수행할 수 있다. 상기 퀄리티 필터링은 시퀀싱 과정에서 수득된 각 염기서열의 퀄리티에 대해 높은 퀄리티를 갖는 서열정보들을 추출하는 과정이다. 상기 트리밍은 시퀀싱 기기의 특성상 염기서열의 뒷부분의 퀄리티가 떨어지기 때문에 퀄리티가 좋지 않은 부분을 제거하는 과정이다. 예를 들어, 핵산 단편의 크기를 약 50 bp 이상, 약 50 bp 초과, 또는 약 100 bp 초과로 트리밍할 수 있다. 예를 들어, 핵산 단편의 퀄리티 값(quality value)이 20 이상, 30 이상, 40 이상, 또는 50 이상일 수 있다. 상기 퍼펙트 매치는 인간 참조 유전체에 맵핑할 경우 완벽히 매치되는 염기서열들만 선택하는 것이다. 여러 군데에 지정되는 서열들은 반복 서열 영역일 가능성이 크기 때문에 수득된 서열정보로부터 여러 군데(multi)에 지정되는 서열을 제거할 수 있다. PCR 중복 서열정보를 제거하는 것은 시퀀싱 과정 중 오류로 증폭이 더 많이 된 부분을 제거하는 것이다. 또한, 통계적으로 분석하기 위해 어느 정도 편차가 고른 집단을 선택해야 유의한 결과를 얻을 수 있다. 두께가 없는 부분은 대개 염색체의 N-영역이므로 분석대상에서 제거할 수 있다.The step of excluding the section with low confidence in the sequence information from the analysis target includes removing mismatch portions, removing sequence information assigned to multiple regions, removing redundant sequence information, or any of these. May include combinations. In order to exclude sections with low confidence in sequence information from analysis, quality filtering, trimming, perfect match, removal of sequences assigned to multiple locations, and PCR duplicate sequences Removal of information (PCR duplicated reads) or a combination of these can be performed. The quality filtering is a process of extracting sequence information with high quality relative to the quality of each base sequence obtained during the sequencing process. The trimming is a process of removing parts of poor quality because the quality of the latter part of the base sequence is low due to the nature of the sequencing device. For example, nucleic acid fragments can be trimmed to a size of at least about 50 bp, greater than about 50 bp, or greater than about 100 bp. For example, the quality value of the nucleic acid fragment may be 20 or higher, 30 or higher, 40 or higher, or 50 or higher. The perfect match selects only base sequences that perfectly match when mapping to the human reference genome. Since sequences assigned to multiple locations are likely to be repetitive sequence regions, sequences assigned to multiple locations (multi) can be removed from the obtained sequence information. Removing PCR duplicate sequence information means removing parts that have been amplified more due to errors during the sequencing process. In addition, for statistical analysis, a group with a certain degree of even deviation must be selected to obtain meaningful results. The part without thickness is usually the N-region of the chromosome and can be removed from the analysis target.

상기 방법은 염색체에 지정된 핵산 단편의 서열정보에 근거하여 1번 염색체에 할당된 개수의 총합을 C1RC(Chromosome 1 Read Count), 2번 염색체의 할당된 경우에는 C2RC(Chromosome 2 Read Count)로 표기할 수 있다. 따라서, i번째 염색체에 할당된 개수의 총합은 CiRC(Chromosome i Read Count)로 표기할 수 있다. 또한, 성염색체인 경우, 염색체 X에 할당된 개수의 총합을 CXRC(Chromosome X Read Count)로 표기하고 염색체 Y인 경우 CYRC(Chromosome Y Read Count)로 표기할 수 있다. 1번 염색체로부터 22번 상염색체의 전체 할당된 개수의 총합은 ATRC(Autosomal Total Read Count)라 표기하고, 전체 상염색체와 성염색체의 전체 할당된 개수의 총합은 TRC(Total Read Count)라고 표기한다.In this method, based on the sequence information of the nucleic acid fragment assigned to the chromosome, the total number assigned to chromosome 1 is expressed as C1RC (Chromosome 1 Read Count), and in the case of chromosome 2 assigned, it is expressed as C2RC (Chromosome 2 Read Count). You can. Therefore, the total number assigned to the ith chromosome can be expressed as CiRC (Chromosome i Read Count). Additionally, in the case of sex chromosomes, the total number assigned to chromosome X can be expressed as CXRC (Chromosome The sum of the total allocated numbers of autosomes 1 to 22 is denoted as ATRC (Autosomal Total Read Count), and the sum of the total allocated numbers of all autosomes and sex chromosomes is denoted as TRC (Total Read Count). .

상기 방법은 염색체에 지정된 핵산 단편의 서열정보에 근거하여, 정상 태아에서 표적 염색체에서의 핵산 단편의 서열정보의 리드수(Read Count: RC), 태아 DNA 분획(Fetal Fraction: FF), 및 GC 함량을 산출하는 단계를 포함한다.The method is based on the sequence information of the nucleic acid fragment specified in the chromosome, read count (RC), fetal DNA fraction (FF), and GC content of the sequence information of the nucleic acid fragment in the target chromosome in a normal fetus. It includes the step of calculating .

상기 표적 염색체는 1번 염색체 내지 22번 염색체, 염색체 X, 및 염색체 Y로 이루어진 군으로부터 선택될 수 있다. 상기 표적 염색체는 13번 염색체, 18번 염색체, 및 21번 염색체로 이루어진 군으로부터 선택될 수 있다.The target chromosome may be selected from the group consisting of chromosomes 1 to 22, chromosome X, and chromosome Y. The target chromosome may be selected from the group consisting of chromosome 13, chromosome 18, and chromosome 21.

용어 "리드수(Read Count: RC)" 또는 "리드 개수"는 하나의 유전자의 위치에 지정된 리드의 개수를 센 값이다.The term “Read Count (RC)” or “read number” refers to the number of reads assigned to the position of one gene.

용어 "태아 DNA 분획(Fetal Fraction: FF)" 또는 "태아 핵산의 분획(fraction of fetal nucleic acids)"은 임신한 여성의 생물학적 시료로부터 분리된 핵산 중 태아 핵산의 양 또는 비율(%)을 말한다. 상기 태아 분획은 태아 핵산의 농도, 상대적 비율, 또는 절대적 양일 수 있다. 상기 태아 핵산은 태반 영양막세포(fetal placenta trophoblast)로부터 유래된 핵산일 수 있다.The term “Fetal Fraction (FF)” or “fraction of fetal nucleic acids” refers to the amount or percentage (%) of fetal nucleic acids among nucleic acids isolated from a biological sample of a pregnant woman. The fetal fraction may be a concentration, relative ratio, or absolute amount of fetal nucleic acids. The fetal nucleic acid may be a nucleic acid derived from placental trophoblasts.

용어 "GC 함량"은 DNA를 이루는 염기 중에서 구아닌(G)과 시토신(C)이 차지하는 비율(%)을 나타낸다. 상기 GC 함량은 GC 함량=(G+C)/(A+T+G+C)의 식으로부터 산출될 수 있다.The term “GC content” refers to the ratio (%) of guanine (G) and cytosine (C) among the bases that make up DNA. The GC content can be calculated from the formula GC content=(G+C)/(A+T+G+C).

상기 방법은 정상 태아에서 표적 염색체에서의 리드수와 태아 DNA 분획에 근거하여, 정상 데이터로부터 가상의 정상 데이터를 생산하는 단계를 포함한다.The method includes generating virtual normal data from normal data based on the number of reads in the target chromosome and fetal DNA fraction in the normal fetus.

상기 정상 데이터는 정상 태아의 표적 염색체에서의 리드수일 수 있다. 상기 정상 데이터는 음성 데이터라고도 불릴 수 있다. 상기 정상 시료는 정상 남태아 시료 또는 정상 여태아 시료일 수 있다.The normal data may be the number of reads in the target chromosome of a normal fetus. The normal data may also be called voice data. The normal sample may be a normal male fetus sample or a normal female fetus sample.

상기 가상의 정상 데이터는 정상 데이터들을 무작위로 조합하고 나누어 얻은 표적 염색체에서의 리드수일 수 있다.The virtual normal data may be the number of reads in the target chromosome obtained by randomly combining and dividing normal data.

상기 정상 데이터로부터 가상의 정상 데이터를 생산하는 단계는 정상 시료 중 2 이상의 시료를 무작위로 선택하고 선택된 태아 시료를 합치고 다시 무작위로 나누어 가상 정상 데이터를 생성하는 단계일 수 있다. 상기 정상 데이터로부터 가상의 정상 데이터를 생산하기 위해, 정상 시료 중 2 이상의 시료를 무작위로 선택하고 선택된 태아 시료를 합쳐 전체 시료를 생성할 수 있다. 이때, 각 시료는 리드의 집합체이기 때문에, 전체 시료에서 리드를 무작위로 원하는 양만큼 선택하여 새로운 가상의 정상 데이터를 생성할 수 있다. 가상의 정상 데이터의 태아 DNA 분획과 GC 함량은 다음과 같이 결정할 수 있다. A를 시료 A의 리드수, B를 시료 B의 리드수, 시료 A의 태아 DNA 분획은 Aff, 및 시료 B의 태아 DNA 분획을 Bff로 표시할 경우, 전체 시료의 태아 DNA 분획은 (A×Aff + B×Bff)/(A + B)가 될 수 있고, 새로운 가상 정상 데이터도 전체 시료와 동일한 태아 DNA 분획을 가질 수 있다. GC 함량은 새로운 가상 정상 데이터에서 다시 산출할 수 있다.The step of generating virtual normal data from the normal data may be a step of randomly selecting two or more samples from among the normal samples, combining the selected fetal samples, and randomly dividing them again to generate virtual normal data. In order to produce virtual normal data from the normal data, two or more samples from among the normal samples can be randomly selected and the selected fetal samples can be combined to generate the entire sample. At this time, since each sample is a collection of leads, new virtual normal data can be generated by randomly selecting a desired amount of leads from the entire sample. The fetal DNA fraction and GC content of the hypothetical normal data can be determined as follows. If A is the number of reads in sample A, B is the number of reads in sample B, the fetal DNA fraction of sample A is Aff, and the fetal DNA fraction of sample B is denoted by Bff, the fetal DNA fraction of the entire sample is (A × Aff + B GC content can be recalculated from new virtual normal data.

상기 정상 데이터로부터 가상의 정상 데이터를 생산하는 단계는 정상 남태아 시료와 정상 여태아 시료를 구분하는 단계; 및 정상 남태아 시료 중 2 이상의 시료를 무작위로 선택하고 선택된 남태아 시료를 합치고 다시 무작위로 나누어 남태아 가상 정상 데이터를 생성하거나, 및/또는 정상 여태아 시료 중 2 이상의 시료를 무작위로 선택하고 선택된 여태아 시료를 합치고 다시 무작위로 나누어 여태아 가상 정상 데이터를 생성하는 단계를 포함할 수 있다.The step of producing virtual normal data from the normal data includes distinguishing between normal male fetus samples and normal female fetus samples; and randomly select two or more samples from normal male fetus samples, combine the selected male fetus samples and randomly divide again to generate male fetus virtual normal data, and/or randomly select two or more samples from normal female fetus samples and select It may include combining female fetus samples and randomly dividing them again to generate virtual normal data for female fetuses.

상기 방법은 상기 가상의 정상 데이터로부터 가상의 양성 데이터를 생성하는 단계를 포함한다.The method includes generating virtual positive data from the virtual normal data.

상기 가상의 양성 데이터는 염색체이수성을 갖는 태아의 표적 염색체에서의 리드수로서, 가상의 정상 데이터로부터 얻은 가상의 리드수일 수 있다.The virtual positive data is the number of reads on the target chromosome of a fetus with chromosomal aneuploidy, and may be the number of virtual reads obtained from virtual normal data.

상기 가상의 양성 데이터를 생산하는 단계는 상염색체 이수성을 검출하기 위해, CiRC(chromosome i read count)(i=1부터 22까지) 및 FF를 사용할 수 있다. 예를 들어, 13번 염색체인 경우에는 C13RC 및 FF를 사용한다.The step of producing the virtual positive data may use CiRC (chromosome i read count) (i=1 to 22) and FF to detect autosomal aneuploidy. For example, for chromosome 13, use C13RC and FF.

상기 가상의 정상 데이터로부터 가상의 양성 데이터를 생성하는 단계는 표적 염색체가 상염색체인 경우, 식 TiRC = CiRC + CiRC×FF/2의 식으로 결정될 수 있다. 상기 식에서, TiRC는 염색체이수성 태아에서 표적 염색체 i에서의 리드수이고, CiRC는 정상 태아에서 표적 염색체 i에서의 리드수이고, FF는 태아 DNA 분획이다.The step of generating virtual positive data from the virtual normal data can be determined by the formula TiRC = CiRC + CiRC × FF/2 when the target chromosome is an autosome. In the above formula, TiRC is the number of reads on target chromosome i in an aneuploidy fetus, CiRC is the number of reads on target chromosome i in a normal fetus, and FF is the fetal DNA fraction.

상기 가상의 정상 데이터로부터 가상의 양성 데이터를 생성하는 단계는 표적 염색체가 XXX 염색체인 경우, CXXXRC = CXXRC + CXXRC×FF/2의 식으로 결정될 수 있다. 상기 식에서, CXXXRC는 염색체이수성 태아에서 표적 염색체 XXX에서의 리드수이고, CXXRC는 정상 여태아에서 표적 염색체 XX에서의 리드수이고, FF는 태아 DNA 분획이다.The step of generating virtual positive data from the virtual normal data can be determined by the equation CXXXRC = CXXRC + CXXRC × FF/2 when the target chromosome is the XXX chromosome. In the above formula, CXXXRC is the number of reads on target chromosome XXX in a chromosomal aneuploidy fetus, CXXRC is the number of reads on target chromosome XX in a normal female fetus, and FF is the fetal DNA fraction.

상기 가상의 정상 데이터로부터 가상의 양성 데이터를 생성하는 단계는 표적 염색체가 XO 염색체인 경우, 식 CXRC = CXYRC - CYRC + CyRC의 식으로 결정될 수 있다. 상기 식에서, CXRC는 염색체이수성 태아에서 표적 염색체 XO에서의 리드수이고, CXYRC는 정상 남태아에서 표적 염색체 XY에서의 리드수이고, CYRC는 정상 남태아에서 염색체 Y에 할당된 리드수이고, CyRC는 표적 염색체 Y에 잘못 할당된 리드수이다. 상기 CXRC, CXYRC, CYRC, 및 CyRC는 가상 데이터일 수 있다.The step of generating virtual positive data from the virtual normal data can be determined by the formula CXRC = CXYRC - CYRC + CyRC when the target chromosome is an XO chromosome. In the above formula, CXRC is the number of reads on target chromosome XO in a chromosomal aneuploidy fetus, CXYRC is the number of reads on target chromosome This is the number of reads incorrectly assigned to target chromosome Y. The CXRC, CXYRC, CYRC, and CyRC may be virtual data.

상기 가상의 정상 데이터로부터 가상의 양성 데이터를 생성하는 단계는 표적 염색체가 XYY 염색체인 경우, CXYYRC = CXYRC + CYRC - CyRC의 식으로 결정될 수 있다. 상기 식에서, CXYYRC는 염색체이수성 태아에서 표적 염색체 XYY에서의 리드수이고, CXYRC는 정상 남태아에서 표적 염색체 XY에서의 리드수이고, CYRC는 정상 남태아에서 염색체 Y에 할당된 리드수이고, CyRC는 표적 염색체 Y에 잘못 할당된 리드수이다. 상기 CXYYRC, CXYRC, CYRC, 및 CyRC는 가상 데이터일 수 있다.The step of generating virtual positive data from the virtual normal data can be determined by the equation CXYYRC = CXYRC + CYRC - CyRC when the target chromosome is an XYY chromosome. In the above formula, CXYYRC is the number of reads on target chromosome XYY in a chromosomal aneuploidy fetus, CXYRC is the number of reads on target chromosome This is the number of reads incorrectly assigned to target chromosome Y. The CXYYRC, CXYRC, CYRC, and CyRC may be virtual data.

상기 CyRC는 CyRC = β0 + β1 TRC + ε (식 1) 및 CyRC' = β0 + β1 TRC (식 2)로부터 잔차(Residual)를 산출하는 단계; 및 상기 잔차로부터 CyRC를 산출하는 단계로부터 산출될 수 있다. 상기 식 1에서, TRC는 전체 염색체의 리드수이고, β0는 절편이고, β1은 TRC와 CyRC간의 계수이고, 및 ε은 잔차이다. 상기 식 2에서, CyRC'은 CyRC의 예측값이고, TRC는 전체 염색체의 리드수이고, β0는 절편이고, β1은 TRC와 CyRC'간의 계수이다. 여태아 시료는 이론적으로는 염색체 Y에 할당되는 리드가 없다. 그러나, 일부 리드가 염색체 Y에 잘못 할당되어 TRC의 크기에 비례하여 리드수가 증가하는 경향을 보인다. 따라서 상기 식 1 및 식 2는 여태아(XX) 시료를 이용하여 모델을 세울 수 있다. 이렇게 세운 모델은 여태아 시료와 성염색체만 다른 남태아(XY) 시료에도 근사적으로 적용될 수 있다. 왜냐하면 남태아 시료도TRC의 크기에 비례하여 염색체 Y에 잘못 할당되는 리드의 개수가 여태아 시료와 비슷하기 때문이다. 즉, 여태아(XX) 시료의 TRC를 남태아(XY) 시료의 TRC로 간주할 수 있다. 상기 잔차의 분포는 정규분포를 따른다고 가정할 수 있고 정규분포의 퍼진 정도를 나타내는 표준편차를 가질 수 있다. 식 2로부터 CyRC'를 구하고, 식 1을 이용하여 앞에서 설명한 여태아 시료의 잔차 분포와 동일한 표준편차를 가진 정규분포에 따라 잔차를 무작위로 발생시켜 CyRC'에 더하면, 남태아 시료의 염색체 Y에 잘못 할당되는 CyRC를 근사적으로 구할 수 있다.The CyRC calculates a residual from CyRC = β 0 + β 1 TRC + ε (Equation 1) and CyRC' = β 0 + β 1 TRC (Equation 2); And it can be calculated from the step of calculating CyRC from the residual. In Equation 1, TRC is the number of reads of the entire chromosome, β 0 is the intercept, β 1 is the coefficient between TRC and CyRC, and ε is the residual. In Equation 2, CyRC' is the predicted value of CyRC, TRC is the number of reads of the entire chromosome, β 0 is the fragment, and β 1 is the coefficient between TRC and CyRC'. Female fetal samples theoretically have no leads assigned to chromosome Y. However, some reads are incorrectly assigned to chromosome Y, and the number of reads tends to increase in proportion to the size of the TRC. Therefore, Equations 1 and 2 above can be modeled using female fetus (XX) samples. The model established in this way can be approximately applied to male fetus (XY) samples that differ only in sex chromosomes from female fetus samples. This is because the number of reads incorrectly assigned to chromosome Y in male fetus samples is similar to that in female fetus samples in proportion to the size of the TRC. In other words, the TRC of the female fetus (XX) sample can be regarded as the TRC of the male fetus (XY) sample. The distribution of the residuals can be assumed to follow a normal distribution and may have a standard deviation indicating the degree of spread of the normal distribution. If CyRC' is obtained from Equation 2, and residuals are randomly generated according to a normal distribution with the same standard deviation as the residual distribution of the female fetus sample described above using Equation 1 and added to CyRC', an error occurs in chromosome Y of the male fetus sample. The allocated CyRC can be approximately obtained.

상기 가상의 정상 데이터로부터 가상의 양성 데이터를 생성하는 단계는 표적 염색체가 XXY 염색체인 경우, CXXYRC = CXXRC + CYRC로 결정될 수 있다. 상기 식에서, CXXYRC는 염색체이수성 태아에서 표적 염색체 XXY에서의 리드수이고, CXXRC는 정상 여태아에서 표적 염색체 XX에서의 리드수이고, CYRC는 염색체 Y에 할당된 리드수이다. The step of generating virtual positive data from the virtual normal data may be determined as CXXYRC = CXXRC + CYRC when the target chromosome is an XXY chromosome. In the above formula, CXXYRC is the number of reads on target chromosome XXY in a chromosomal aneuploidy fetus, CXXRC is the number of reads on target chromosome XX in a normal female fetus, and CYRC is the number of reads assigned to chromosome Y.

상기 CYRC는 CYRC = β0 + β1 TRC + β2 FFsnp + ε (식 3) 및 CYRC' = β0 + β1 TRC + β2 FFsnp (식 4)로부터 잔차(Residual)를 산출하는 단계; 및 상기 잔차로부터 CYRC를 산출하는 단계로부터 산출하는 단계로부터 산출될 수 있다.The CYRC is a step of calculating the residual from CYRC = β 0 + β 1 TRC + β 2 FF snp + ε (Equation 3) and CYRC' = β 0 + β 1 TRC + β 2 FF snp (Equation 4) ; And it can be calculated from the step of calculating CYRC from the residual.

상기 식 3에서, TRC는 전체 염색체의 리드수이고, FFsnp는 SNP 기반의 FF이고, β0는 절편이고, β1은 TRC와 CYRC간의 계수이고, β2는 FFsnp와 CYRC간의 계수이고, 및 ε은 잔차이다. 상기 식4에서, CYRC'은 CYRC의 예측값이고, TRC는 전체 염색체의 리드수이고, FFsnp는 SNP 기반의 FF이고, β0는 절편이고, β1은 TRC와 CYRC'간의 계수이고, β2는 FFsnp와 CYRC'간의 계수이다. 상기 산출된 잔차로부터 CYRC를 산출하는 단계를 포함할 수 있다. 식 3 및 식 4는 남태아(XY) 시료를 이용하여 모델을 세울 수 있다. 상기 잔차의 분포는 정규분포를 따른다고 가정할 수 있고 정규분포의 퍼진 정도를 나타내는 표준편차를 가질 수 있다. 또한, XXY 염색체 이수성을 가진 시료는 남태아 시료와 비슷한 회귀식 모델과, 이 모델에 따른 잔차의 정규분포를 가정할 수 있다. 염색체 Y에 할당되는 리드수(CYRC)가 TRC에 비해 상대적으로 무시할 수 있을 정도로 작기 때문에, 여태아(XX) 시료의 TRC와 FF을 XXY 염색체이수성을 가진 시료의 TRC와 FF로 간주할 수 있다. 식 4로부터 CYRC'를 구하고, 식 3을 이용하여 앞에서 설명한 남태아 시료의 잔차 분포와 동일한 표준편차를 가진 정규분포에 따라 잔차를 무작위로 발생시켜 CYRC'에 더하면, 여태아의 CYRC를 근사적으로 구할 수 있다.In Equation 3, TRC is the number of reads of the entire chromosome, FF snp is SNP-based FF, β 0 is the intercept, β 1 is the coefficient between TRC and CYRC, β 2 is the coefficient between FF snp and CYRC, and ε is the residual. In Equation 4 above, CYRC' is the predicted value of CYRC, TRC is the number of reads of the entire chromosome, FF snp is SNP-based FF, β 0 is the intercept, β 1 is the coefficient between TRC and CYRC', and β 2 is the coefficient between FF snp and CYRC'. It may include calculating CYRC from the calculated residual. Equations 3 and 4 can be modeled using male fetus (XY) samples. The distribution of the residuals can be assumed to follow a normal distribution and may have a standard deviation indicating the degree of spread of the normal distribution. Additionally, for samples with XXY chromosome aneuploidy, a regression model similar to that of male fetus samples and a normal distribution of residuals according to this model can be assumed. Since the number of reads (CYRC) assigned to chromosome Y is relatively small and negligible compared to the TRC, the TRC and FF of the female fetus (XX) sample can be regarded as the TRC and FF of the sample with XXY chromosome aneuploidy. By calculating CYRC' from Equation 4, using Equation 3 to randomly generate residuals according to a normal distribution with the same standard deviation as the residual distribution of male fetus samples described above, and adding them to CYRC', the CYRC of female fetuses can be approximated. You can get it.

상기 방법은 생산된 가상의 양성 데이터 및 정상 데이터로부터 염색체이수성 판별 모델을 확립하는 단계를 포함한다.The method includes establishing a chromosomal aneuploidy discrimination model from the produced hypothetical positive data and normal data.

상기 생산된 가상의 양성 데이터 및 정상 데이터로부터 염색체이수성 판별 모델을 확립하는 단계는 표적 염색체가 상염색체인 경우, CiRC(chromosome i read count)(i=1부터 22까지), ATRC(Autosomal Total read count), FF, 및 GC 함량에 근거하여 수행할 수 있다.The step of establishing a chromosomal aneuploidy discrimination model from the produced virtual positive data and normal data is, when the target chromosome is an autosome, CiRC (chromosome i read count) (i = 1 to 22), ATRC (Autosomal Total read count) ), FF, and GC content.

상기 생산된 가상의 양성 데이터 및 정상 데이터로부터 염색체이수성 판별 모델을 확립하는 단계는 표적 염색체가 성염색체인 경우, CXRC(Chromosome X read count), CYRC(Chromosome Y read count), TRC(Total read count), FF, GC 함량, 또는 이들의 조합에 근거하여 수행할 수 있다.The step of establishing a chromosomal aneuploidy discrimination model from the produced virtual positive data and normal data is, when the target chromosome is a sex chromosome, CXRC (Chromosome , FF, GC content, or a combination thereof.

상기 염색체이수성 판별 모델은 기계학습 알고리즘을 적용하여 훈련시킬 수 있다. 상기 기계학습 알고리즘은 LGBM(Light Gradient Boosting Machine), 에이다부스트(AdaBoost), 다수결 분류(Voting Classifier), 랜덤 포레스트(Random Forest), 로지스틱 회귀분석(Logistic algorithm), 인공 신경망(Neural Network), 및 QDA(Quadratic Discriminant Analysis)로 이루어진 군으로부터 선택될 수 있다. 상기 LGBM은 Guolin Ke et al., "LightGBM: A Highly Efficient Gradient Boosting Decision Tree". Proceedings of the 31st International Conference on Neural Information Processing Systems (NIPS 2017), pp. 3149-3157에 기재된 것일 수 있다.The chromosomal aneuploidy discrimination model can be trained by applying a machine learning algorithm. The machine learning algorithms include LGBM (Light Gradient Boosting Machine), AdaBoost, Voting Classifier, Random Forest, Logistic algorithm, Neural Network, and QDA. (Quadratic Discriminant Analysis). The LGBM is Guolin Ke et al., “LightGBM: A Highly Efficient Gradient Boosting Decision Tree”. Proceedings of the 31st International Conference on Neural Information Processing Systems (NIPS 2017), pp. It may be described in 3149-3157.

상기 방법은 염색체이수성 판별 모델을 이용하여 피검 시료의 염색체이수성을 검출하는 단계를 포함한다.The method includes the step of detecting chromosomal aneuploidy in a test sample using a chromosomal aneuploidy discrimination model.

상기 염색체이수성 판별 모델을 이용하여 피검 시료의 염색체이수성을 검출하는 단계는 표적 염색체가 상염색체인 경우, CiRC(i=1부터 22까지), ATRC, FF, 및 GC 함량에 근거하여 수행할 수 있다.The step of detecting chromosomal aneuploidy of a test sample using the chromosomal aneuploidy discrimination model can be performed based on CiRC (i=1 to 22), ATRC, FF, and GC content when the target chromosome is an autosome. .

상기 염색체이수성 판별 모델을 이용하여 피검 시료의 염색체이수성을 검출하는 단계는 표적 염색체가 성염색체인 경우, CXRC, CYRC, TRC, FF, GC 함량, 또는 이들의 조합에 근거하여 수행할 수 있다.The step of detecting chromosomal aneuploidy of a test sample using the chromosomal aneuploidy determination model can be performed based on CXRC, CYRC, TRC, FF, GC content, or a combination thereof when the target chromosome is a sex chromosome.

다른 양상은 일 양상에 따른 방법을 수행하기 위해 적용되는 프로그램을 기록한 컴퓨터 판독 매체를 제공한다. 상기 컴퓨터 판독 매체는 컴퓨터 판독 매체를 포함하는 시스템을 포괄한다.Another aspect provides a computer-readable medium having a program applied to perform a method according to one aspect. The computer-readable media encompasses systems that include computer-readable media.

일 구체예에 따른 가상 데이터에 기반한 태아의 염색체이수성을 검출하는 방법, 및 이를 수행하기 위해 적용되는 프로그램을 기록한 컴퓨터 판독 매체에 의하면, 태아의 염색체이수성을 우수한 민감도 및 특이도로 비침습적으로 산전 진단할 수 있다.According to a method for detecting chromosomal aneuploidy in a fetus based on virtual data according to an embodiment, and a computer readable medium recording a program applied to perform the same, chromosomal aneuploidy in the fetus can be non-invasively diagnosed prenatally with excellent sensitivity and specificity. You can.

도 1a는 13번 염색체를 표적으로 세 개의 축(ATRC, GC 함량, 및 C13RC)에 따른 가상의 양성 데이터 및 가상의 음성 데이터의 분포를 3차원으로 나타내었고, 도 1b는 GC 함량과 C13RC에 따른 가상의 양성 데이터 및 가상의 음성 데이터의 분포를 평면에서 나타내었고, 도 1c는 가상의 데이터를 이용한 모델에 무작위로 데이터를 섞은 후 80%의 데이터를 이용하여 학습시키고(학습 데이터) 20%의 데이터를 이용하여 검증한 테스트 시료(테스트 데이터)의 민감도 및 양성예측도를 나타낸 결과이고, 도 1d는 확립된 모델의 정확도를, 양수검사로 확진된 양성 시료를 이용하여, 추가 검증한 결과를 나타낸다.
도 2a는 18번 염색체를 표적으로 세 개의 축(ATRC, GC 및 C18RC)에 따른 가상의 양성 데이터 및 가상의 음성 데이터의 분포를 3차원으로 나타내었고, 도 2b는 GC 함량과 C18RC에 따른 가상의 양성 데이터 및 가상의 음성 데이터의 분포를 평면에서 나타내었고, 도 2c는 가상의 데이터를 이용한 모델에 무작위로 데이터를 섞은 후 80%를 이용하여 학습시키고(학습 데이터) 20%를 이용하여 검증한 테스트 시료(테스트 데이터)의 정확도를 나타낸 결과이고, 도 2d는 확립된 모델의 정확도를, 양수검사로 확진된 양성시료를 이용하여, 추가 검증한 결과를 나타낸다.
도 3a는 21번 염색체를 표적으로 세 개의 축(ATRC, GC 함량, 및 C21RC)에 따른 가상의 양성 데이터 및 가상의 음성 데이터의 분포를 3차원으로 나타내었고, 도 3b는 GC 함량과 C21RC에 따른 가상의 양성 데이터 및 가상의 음성 데이터의 분포를 평면에서 나타내었고, 도 3c는 가상의 데이터를 이용한 모델에 무작위로 데이터를 섞은 후 80%를 이용하여 학습시키고(학습 데이터) 20%를 이용하여 검증한 테스트 시료(테스트 데이터)의 정확도를 나타낸 결과이고, 도 3d는 확립된 모델의 정확도를, 양수검사로 확진된 양성시료를 이용하여, 추가 검증한 결과를 나타낸다.
도 4a는 여태아 XX 염색체를 표적으로 두 개의 축(GC 함량 및 CXRC)에 따른 가상의 정상 여태아(XX) 및 가상의 양성 데이터인 X 홑염색체(XO) 및 삼중 X증후군(XXX) 시료의 분포를 나타내었고, 도 4b는 남태아 XY 염색체를 표적으로 두 개의 축(GC 및 CYRC)에 따른 가상의 정상 남태아(XY) 및 가상의 양성 데이터인 클라인펠터 증후군(XXY) 및 XYY 증후군(XYY) 데이터의 분포를 나타내었고, 도 4c는 가상의 양성 데이터 및 가상의 음성 데이터를 이용한 모델에 무작위로 데이터를 섞은 후 80%를 이용하여 학습시키고(학습 데이터) 20%를 이용하여 검증한 테스트 시료(테스트 데이터)의 정확도를 나타낸 결과이고, 도 4d는 확립된 모델의 정확도를, 양수검사로 확진된 양성시료를 이용하여, 추가 검증한 결과를 나타낸다.
Figure 1a shows the distribution of virtual positive data and virtual negative data along three axes (ATRC, GC content, and C13RC) targeting chromosome 13 in three dimensions, and Figure 1b shows the distribution of virtual positive data and virtual negative data according to GC content and C13RC. The distribution of virtual positive data and virtual negative data is shown on a plane, and Figure 1c shows a model using virtual data, randomly mixed with data, trained using 80% of the data (training data), and 20% of the data. This is a result showing the sensitivity and positive predictive value of the test sample (test data) verified using , and Figure 1d shows the result of additional verification of the accuracy of the established model using a positive sample confirmed by amniocentesis.
Figure 2a shows the distribution of virtual positive data and virtual negative data along three axes (ATRC, GC, and C18RC) targeting chromosome 18 in three dimensions, and Figure 2b shows the distribution of virtual positive data and virtual negative data according to GC content and C18RC. The distribution of positive data and virtual negative data is shown on a plane, and Figure 2c shows a test in which data was randomly mixed in a model using virtual data, trained using 80% (learning data), and verified using 20%. This is a result showing the accuracy of the sample (test data), and Figure 2d shows the result of additional verification of the accuracy of the established model using a positive sample confirmed by amniocentesis.
Figure 3a shows the distribution of virtual positive data and virtual negative data along three axes (ATRC, GC content, and C21RC) targeting chromosome 21 in three dimensions, and Figure 3b shows the distribution of virtual positive data and virtual negative data according to GC content and C21RC. The distribution of virtual positive data and virtual negative data is shown on a plane, and Figure 3c shows a model using virtual data randomly mixed with data, trained using 80% (training data), and verified using 20%. This is a result showing the accuracy of one test sample (test data), and Figure 3d shows the result of additional verification of the accuracy of the established model using a positive sample confirmed by amniocentesis.
Figure 4a shows the hypothetical normal female fetus (XX) and the hypothetical benign data of monosomy X (XO) and triple The distribution is shown, and Figure 4b shows a hypothetical normal male fetus (XY) and hypothetical benign data, Klinefelter syndrome (XXY) and XYY syndrome (XYY) along two axes (GC and CYRC) targeting the male fetus ) shows the distribution of data, and Figure 4c is a test sample that was randomly mixed in a model using virtual positive data and virtual negative data, trained using 80% (learning data), and verified using 20%. This is a result showing the accuracy of (test data), and Figure 4d shows the result of additional verification of the accuracy of the established model using a positive sample confirmed by amniocentesis.

이하 본 발명을 실시예를 통하여 보다 상세하게 설명한다. 그러나, 이들 실시예는 본 발명을 예시적으로 설명하기 위한 것으로 본 발명의 범위가 이들 실시예에 한정되는 것은 아니다.Hereinafter, the present invention will be described in more detail through examples. However, these examples are for illustrative purposes only and the scope of the present invention is not limited to these examples.

실시예 1. 가상 데이터 생산에 기반한 태아 염색체이수성의 비침습적 검출Example 1. Noninvasive detection of fetal chromosomal aneuploidy based on virtual data production

1. 시료의 준비1. Preparation of samples

총 15,999명의 태아를 임신한 여성의 혈액을 수집하였다. 이 중에서 양성으로 검출된 피검자들에 대해서 태아의 핵형분석(karyotyping)을 위한 양수검사를 수행하였다.Blood from a total of 15,999 pregnant women was collected. Among these, amniotic fluid tests for karyotyping of the fetus were performed on those subjects who were detected as positive.

모든 피검자들은 공인된 임상 시험 기관에서 표준 산전 염색체이수성 스크리닝을 받았다. 제1 삼분기 스크리닝은 혈청 임신-연관 혈장 단백질 A(pregnancy-associated plasma protein A: PAPP-A), 인간 융모성 생식선 자극 호르몬(human chorionic gonadotropin: hCG)의 총 또는 유리 베타 소단위, 및 태아 목 투명대(nuchal translucency)의 측정을 포함한다. 제2 삼분기 스크리닝은 모계 혈청 알파-태아단백질(maternal serum alpha-fetoprotein: MSAFP), hCG, 비접합된 에스트리올(unconjugated estriol), 및 인히빈(inhibin) A의 측정을 포함한다.All subjects underwent standard prenatal aneuploidy screening at an accredited clinical trial site. First trimester screening includes serum pregnancy-associated plasma protein A (PAPP-A), total or free beta subunit of human chorionic gonadotropin (hCG), and fetal cervical zona pellucida. Includes measurement of nuchal translucency. Second trimester screening includes measurements of maternal serum alpha-fetoprotein (MSAFP), hCG, unconjugated estriol, and inhibin A.

핵형분석 결과, 6명의 태아가 13번 염색체이수성이고, 7명의 태아가 18번 염색체이수성이고, 94명의 태아가 21번 염색체이수성이고, 6명의 태아가 XO 염색체이고, 9명의 태아가 XXY 염색체이고, 2명의 태아가 XYY 염색체이고, 및 13명의 태아가 XXX 염색체로, 실제 데이터에서 염색체이수성이 확진되었다.As a result of karyotype analysis, 6 fetuses had aneuploidy on chromosome 13, 7 fetuses had aneuploidy on chromosome 18, 94 fetuses had aneuploidy on chromosome 21, 6 fetuses had an XO chromosome, and 9 fetuses had an XXY chromosome. Two fetuses had XYY chromosomes, and 13 fetuses had XXX chromosomes, and chromosomal aneuploidy was confirmed in the actual data.

2. 세포 유리 DNA 및 DNA 시퀀싱용 DNA 라이브러리의 준비2. Preparation of cell-free DNA and DNA libraries for DNA sequencing

1.에 기재된 바와 같은 피검자들로부터 약 10 ㎖의 말초 혈액을 채혈하고 BCT™ 튜브(Streck, Omaha, NE, USA)에 수집하였다. 수집된 혈액 시료를 4℃에서 15 분 동안 1,200 x g에서 원심분리하였다. 혈액의 혈장을 수집하고 4℃에서 10 분 동안 16,000 x g에서 다시 원심분리하였다. 원심분리된 혈장으로부터 세포 유리 DNA(cell-free DNA: cfDNA)는 MagListo™ cfDNA 추출 키트(Bioneer, 대한민국)를 사용하여 수득하였다.Approximately 10 ml of peripheral blood was drawn from the subjects as described in 1. and collected in BCT™ tubes (Streck, Omaha, NE, USA). Collected blood samples were centrifuged at 1,200 x g for 15 minutes at 4°C. Blood plasma was collected and centrifuged again at 16,000 x g for 10 minutes at 4°C. Cell-free DNA (cfDNA) was obtained from centrifuged plasma using the MagListo™ cfDNA extraction kit (Bioneer, Korea).

수득된 cfDNA 단편은 T4 DNA 중합효소, 크레나우(Klenow) DNA 중합효소, 및 T4 폴리뉴클레오티드 키나제를 사용하여 말단 수선하고, 다시 Agencourt AMPure XP를 사용하여 cfDNA 단편을 수득하였다.The obtained cfDNA fragment was end-repaired using T4 DNA polymerase, Klenow DNA polymerase, and T4 polynucleotide kinase, and the cfDNA fragment was obtained again using Agencourt AMPure XP.

준비된 cfDNA로부터 이온 양성자 시퀀싱 시스템용 DNA 라이브러리를 제조자(ThermoFisher Scientific)가 제공한 프로토콜에 따라 제작하였다. 540 칩을 사용하여 뉴클레오티드 당 평균 0.3x 시퀀싱 커버리지 깊이(coverage depth)를 산출하였다.A DNA library for the ion proton sequencing system was prepared from the prepared cfDNA according to the protocol provided by the manufacturer (ThermoFisher Scientific). Using the 540 chip, an average sequencing coverage depth of 0.3x per nucleotide was calculated.

3. 대규모 병렬적 시퀀싱3. Massively parallel sequencing

2.에서 기재된 바와 같이 준비된 DNA 라이브러리를 Ion Torrent S5XL™ 시스템(ThermoFisher Scientific)을 사용하여 대규모 병렬적 시퀀싱하였다.DNA libraries prepared as described in 2 were massively parallel sequenced using the Ion Torrent S5XL™ system (ThermoFisher Scientific).

Ion Torrent Suite™ 소프트웨어(ThermoFisher Scientific)를 이용하여 상이한 미가공 리드(raw reads)를 수득하였다. 필터링된 리드들은 버로우스-휠러 변환(Burrows-Wheeler transform: BWT)에 의해 인간 게놈 참조 서열 hg19에 지정(align)하였다. hg19에서 하나의 게놈 위치에만 맵핑되는 시퀀스 리드를 고유한(unique) 리드로 지정하였다. 총 리드들 중 약 3.3×106 개가 고유한 리드였고, 총 15,999 시료의 GC 함량은 약 39% 내지 45%의 범위였다.Different raw reads were obtained using Ion Torrent Suite™ software (ThermoFisher Scientific). The filtered reads were aligned to the human genome reference sequence hg19 by Burrows-Wheeler transform (BWT). Sequence reads that mapped to only one genomic location in hg19 were designated as unique reads. Of the total reads, approximately 3.3×10 6 were unique, and the GC content of the total 15,999 samples ranged from approximately 39% to 45%.

1.에서 기재된 15,999개의 시료 중에서 고유한 리드수가 200만개 이상이고, GC 함량이 39.5% 이상 및 42% 미만이고, 및 태아 DNA 분획이 4% 이상인, 남태아 348개 및 여태아 354개의 시료를 선별하였다. 선별된 시료에 대해 SNP 유전자형 분석(genotyping)과 예측법(imputation)(한국 특허등록번호 KR 10-2031841)을 이용하여 태아 DNA분획을 결정하였다. 이때 MAF 필터링(filtering) 기준값은 7%로 하였고 염색체 Y 기반의 태아 DNA 분획과의 상관계수가 98%였다.Among the 15,999 samples described in 1., 348 male and 354 female fetus samples were selected with a unique read count of more than 2 million, a GC content of more than 39.5% and less than 42%, and a fetal DNA fraction of more than 4%. did. For the selected samples, the fetal DNA fraction was determined using SNP genotyping and imputation (Korean patent registration number KR 10-2031841). At this time, the MAF filtering standard value was 7%, and the correlation coefficient with the chromosome Y-based fetal DNA fraction was 98%.

가상 정상(음성) 데이터 생산을 위해, 남태아와 여태아를 서로 분리하여 각각 무작위로 2개의 시료를 뽑아서 합치고 무작위로 반으로 나누되 2개의 시료가 모두 중복되지 않게 선정하였다. 즉, 남태아 348개에서 2개의 시료를 무작위로 뽑아서 합치고 다시 무작위로 반으로 나누어 새로운 5,000개의 남태아 가상 정상 데이터를 만들었다. 여기서 하나로 합치고 다시 반으로 나눌 때는 전체 리드수에서 50%에 해당하는 리드수를 무작위로 선정하였다. 여태아에서도 354개의 시료에서 동일한 방법으로 실행하여 5,000개의 여태아 가상 정상 데이터를 만들었다. To produce virtual normal (negative) data, male fetuses and female fetuses were separated from each other, two samples were randomly selected from each, combined, and randomly divided in half, so that no two samples overlapped. In other words, two samples were randomly selected from 348 male fetuses, combined, and then randomly divided in half to create virtual normal data for 5,000 new male fetuses. Here, when combining them into one and dividing them in half again, the number of leads corresponding to 50% of the total number of leads was randomly selected. The same method was performed on 354 samples from female fetuses to create virtual normal data of 5,000 female fetuses.

4. 가상 정상 데이터로부터 염색체이수성을 가진 가상 양성 데이터 생산 및 검출4. Production and detection of virtual positive data with chromosomal aneuploidy from virtual normal data

가. 가상 정상 상염색체 데이터에서 삼염색체를 갖는 가상의 양성 데이터를 만드는 방법go. How to create virtual positive data with trisomy from virtual normal autosomal data

상염색체에서 삼염색체를 만드는 방법은 i번 상염색체 리드수(Read Counts: RC)에서 i번 상염색체의 리드수에 태아 DNA 비율(Fetal Fraction: FF)의 50%를 곱한 결과를 더하는 것이다. 즉, 이를 식으로 나타내면 TiRC = CiRC + CiRC×FF/2이다. 이 식에서, TiRC는 염색체이수성 태아에서 표적 염색체 i에서의 리드수이고, CiRC는 정상 태아에서 표적 염색체 i에서의 리드수이고, FF는 태아 DNA 분획이다.The method of creating a trisomy from an autosome is to add the result of multiplying the read count (RC) of autosome i by 50% of the fetal DNA ratio (FF). In other words, this can be expressed as TiRC = CiRC + CiRC × FF/2. In this formula, TiRC is the number of reads on target chromosome i in an aneuploidy fetus, CiRC is the number of reads on target chromosome i in a normal fetus, and FF is the fetal DNA fraction.

상염색체를 표적으로 염색체이수성을 생산하는 구체적인 방법은 염색체 13, 18 및 21번을 예를 들어 설명한다.A specific method for producing chromosomal aneuploidy by targeting autosomes is explained using chromosomes 13, 18, and 21 as examples.

임의의 한 시료를 선정하였을 때, 13번 염색체를 표적으로 하면, 13번 염색체의 DNA 리드에는 산모와 태아의 리드가 섞여 있다. 이때 태아의 DNA 리드의 비율을 가급적 정확하게 아는 것이 중요하다. 따라서 남태아 및 여태아인 경우 모두 SNP기반의 예측법(imputation)을 이용한 태아 DNA 비율(FF)을 사용한다.When a sample is randomly selected and chromosome 13 is targeted, the DNA reads of chromosome 13 are mixed with maternal and fetal reads. At this time, it is important to know the ratio of the fetus's DNA reads as accurately as possible. Therefore, for both male and female fetuses, the fetal DNA ratio (FF) using SNP-based prediction method (imputation) is used.

정상 태아의 경우에는 13번 염색체에 할당되는 DNA 리드 개수가 한 쌍의 산모 염색체와 한 쌍의 태아 염색체로부터 유래하여 결정된다. 따라서 정상 태아의 염색체 DNA 리드수는 13번 염색체에 할당되는 전체 DNA 리드수에 태아 DNA 비율(FF)을 곱하여 결정된다. 반면에 13번 삼염색체는 1개의 태아 염색체가 추가로 존재하기 때문에, 정상 태아 DNA 리드수에 50%가 더 추가되어야 된다. 결과적으로, 임의의 시료 13번 염색체에 할당되는 DNA 리드수를 C13RC라고 할 때, 삼염색체 시료의 13번 염색체 T13RC는 C13RC + C13RC×FF/2로 계산할 수 있다. 이와 같이 18번 및 21번 염색체에도 이와 같이 적용하여 T18RC 및 T21RC를 구할 수 있다.In the case of a normal fetus, the number of DNA reads assigned to chromosome 13 is determined by deriving from a pair of maternal chromosomes and a pair of fetal chromosomes. Therefore, the number of chromosomal DNA reads in a normal fetus is determined by multiplying the total number of DNA reads assigned to chromosome 13 by the fetal DNA ratio (FF). On the other hand, because trisomy 13 has one additional fetal chromosome, an additional 50% must be added to the normal number of fetal DNA reads. As a result, assuming that the number of DNA reads assigned to chromosome 13 of any sample is C13RC, chromosome 13 T13RC of the trisomy sample can be calculated as C13RC + C13RC × FF/2. Likewise, T18RC and T21RC can be obtained by applying this method to chromosomes 18 and 21.

나. 상염색체에서 삼염색체를 갖는 양성 데이터의 검출me. Detection of positive data with trisomy on autosomes

(1) 삼염색체성 13번 염색체의 검출(1) Detection of trisomy chromosome 13

13번 염색체를 표적으로 하였을 때, 총 10,000개의 가상 정상 데이터에서 10,000개의 삼염색체성을 가진 가상 양성 데이터를 생산하였다. 가상 데이터에서 통계적으로 정상의 범위를 벗어난 이상값(outlier)을 제외하고, 9,823개의 가상 정상 데이터와 9,646개의 가상 양성 데이터를 선별하였다.When targeting chromosome 13, 10,000 virtual positive data with trisomy were produced from a total of 10,000 virtual normal data. Outliers that were statistically outside the normal range were excluded from the virtual data, and 9,823 virtual normal data and 9,646 virtual positive data were selected.

13번 염색체를 표적으로 세 개의 축(ATRC, GC 함량, 및 C13RC)에 따른 가상 양성 데이터 및 가상 정상 데이터의 분포를 3차원으로 표시한 결과를 도 1a에 나타내었다. 또한, GC 함량과 C13RC에 따른 가상 양성 데이터 및 가상 정상 데이터의 분포를 평면으로 표시한 결과를 도 1b에 나타내었다. 도 1a은 삼염색체성 13번(T13)과 정상 염색체성(Normal) 13번에 대하여 13번 염색체에서 상염색체에 할당된 DNA 리드의 전체 리드수(autosomal total read counts: ATRC), 13번 염색체에 할당된 DNA 리드의 전체 리드수(C13RC), 및 GC 함량 간의 분포를 나타낸다. 이 결과에서 ATRC, C13RC, 및 GC 함량은 T13과 정상 시료를 분류할 수 있는 파라미터의 역할을 수행할 수 있는 것으로 확인되었다. 특히, 도 1b는 ATRC의 제한된 범위(3.00×106 내지 3.05×106) 내에서 GC 함량의 변화에 따른 C13RC가 삼염색체성 데이터와 정상 데이터를 명백히 구분할 수 있음을 보여준다.The results of the three-dimensional distribution of virtual positive data and virtual normal data along three axes (ATRC, GC content, and C13RC) targeting chromosome 13 are shown in Figure 1a. In addition, the distribution of virtual positive data and virtual normal data according to GC content and C13RC is shown in Figure 1b. Figure 1a shows the total read counts (ATRC) of DNA reads assigned to the autosome on chromosome 13 for trisomy 13 (T13) and normal chromosome 13, and The distribution between the total number of assigned DNA reads (C13RC) and GC content is shown. From these results, it was confirmed that ATRC, C13RC, and GC contents can serve as parameters for classifying T13 and normal samples. In particular, Figure 1b shows that C13RC can clearly distinguish between trisomy data and normal data according to changes in GC content within the limited range of ATRC (3.00 × 10 6 to 3.05 × 10 6 ).

가상 정상 데이터 9,823개 및 가상 양성 데이터 9,646개를 ATRC, C13RC, 및 GC 함량의 3개 파라미터를 사용하여 무작위로 데이터를 섞은 후 80%의 데이터를 이용하여 로지스틱 회귀 알고리즘으로 학습시켜(학습 데이터) 모델을 확립하였다. 나머지 20%의 데이터를 이용하여 검증한 테스트 시료(테스트 데이터)의 민감도 및 양성예측도를 산출하고, 산출된 결과를 도 1c에 나타내었다. 도 1c에 나타난 바와 같이, 학습 및 테스트 데이터에서 민감도와 양성 예측도에서 각각 99.99% 이상을 보임을 확인할 수 있었다.9,823 virtual normal data and 9,646 virtual positive data are randomly mixed using three parameters of ATRC, C13RC, and GC content, and then trained using a logistic regression algorithm using 80% of the data (training data) to create a model. was established. The sensitivity and positive predictive value of the verified test sample (test data) were calculated using the remaining 20% of data, and the calculated results are shown in Figure 1c. As shown in Figure 1c, it was confirmed that the sensitivity and positive predictive value were each above 99.99% in the training and test data.

확립된 모델의 정확도를 확인하기 위해, 양수검사로 확진된 양성시료를 이용하여 추가 검증한 결과를 도 1d에 나타내었다. 도 1d에 나타난 바와 같이, 가상 데이터를 이용한 이 모델을 사용하였을 때, 양수검사를 통해서 확인된 6개의 실제 양성 시료(T13)가 양성 데이터임을 정확히 예측하였다.To confirm the accuracy of the established model, the results of additional verification using positive samples confirmed by amniocentesis are shown in Figure 1d. As shown in Figure 1d, when this model using virtual data was used, it was accurately predicted that the six actual positive samples (T13) confirmed through amniocentesis were positive data.

(2) 삼염색체성 18번 염색체의 검출(2) Detection of trisomy 18 chromosome

18번 염색체인 경우, 10,000개 가상 정상 데이터에서 10,000개의 삼염색체성 가상 양성 데이터를 생산하였다. 가상 데이터에서 이상값을 제거하고, 9,823개의 가상 정상 데이터와 9,529개의 가성 양성 데이터를 선별하였다. ATRC의 범위(3.00×106 내지 3.05×106) 내에서 데이터를 선정하였다. 각각의 표적 염색체의 특성에 따라 통계적으로 정상의 범위를 벗어난 일부 데이터는 제거하였다.In the case of chromosome 18, 10,000 trisomy virtual positive data were produced from 10,000 virtual normal data. Outliers were removed from the virtual data, and 9,823 virtual normal data and 9,529 false positive data were selected. Data were selected within the range of ATRC (3.00×10 6 to 3.05×10 6 ). Some data that were statistically outside the normal range were removed depending on the characteristics of each target chromosome.

18번 염색체를 표적으로 세 개의 축(ATRC, GC 및 C18RC)에 따른 가상 양성 데이터 및 가상 정상 데이터의 분포를 3차원으로 표시한 결과를 도 2a에 나타내었다. GC 함량과 C18RC에 따른 가상 양성 데이터 및 가상 정상 데이터의 분포를 평면으로 표시한 결과를 도 2b에 나타내었다. 가상의 데이터를 이용하여 무작위로 데이터를 섞은 후 80%를 이용하여 로지스틱 회귀 알고리즘으로 학습시켜(학습 데이터) 모델을 확립하였다. 나머지 20%를 이용하여 검증한 테스트 시료(테스트 데이터)의 민감도와 양성예측도를 나타낸 결과를 도 2c에 나타내었다. 확립된 모델의 정확도를 확인하기 위해, 양수검사로 확진된 양성시료를 이용하여 추가 검증한 결과를 도 2d에 나타내었다.The results of the three-dimensional distribution of virtual positive data and virtual normal data along three axes (ATRC, GC, and C18RC) targeting chromosome 18 are shown in Figure 2a. The results of the distribution of virtual positive data and virtual normal data according to GC content and C18RC are displayed on a plane, and are shown in Figure 2b. The model was established by randomly mixing the data using virtual data and then training it with a logistic regression algorithm using 80% of the data (training data). The results showing the sensitivity and positive predictive value of the test sample (test data) verified using the remaining 20% are shown in Figure 2c. To confirm the accuracy of the established model, the results of additional verification using positive samples confirmed by amniocentesis are shown in Figure 2d.

도 2a와 도 2b에 나타난 바와 같이, ATRC, C18RC 및 GC 함량이 18번 삼염색체(T18)와 정상(Normal)을 구분할 수 있었다. 또한, 도 2c에서 학습 데이터 및 테스트 데이터에서 민감도와 양성예측도에서 각각 100%임을 확인하였다. 도 2d에 나타난 바와 같이, 가상 데이터를 이용한 방법을 사용하였을 때, 양수검사를 통해서 확인된 7개의 실제 양성 시료(T18)가 양성 데이터임을 정확히 예측하였다.As shown in Figures 2a and 2b, ATRC, C18RC, and GC contents were able to distinguish between trisomy 18 (T18) and normal. Additionally, in Figure 2c, it was confirmed that the sensitivity and positive predictive value were 100% in the training data and test data, respectively. As shown in Figure 2d, when the method using virtual data was used, it was accurately predicted that the 7 actual positive samples (T18) confirmed through amniocentesis were positive data.

(3) 삼염색체성 21번 염색체의 검출(3) Detection of trisomy 21 chromosome

21번 염색체인 경우, 10,000개 정상 가상 데이터에서 10,000개의 삼염색체성 가상 양성 데이터를 생산하였다. 가상 데이터에서 이상값을 제거하고 9,823개의 가상 정상 데이터와 가상 양성 데이터 9,594개를 선정하였다. ATRC의 범위(3.00×106 내지 3.05×106)내에서 데이터를 선정하였다. 각각의 표적 염색체의 특성에 따라 통계적으로 정상의 범위를 벗어난 일부 데이터는 제거하였다.In the case of chromosome 21, 10,000 trisomy virtual positive data were produced from 10,000 normal virtual data. Outliers were removed from the virtual data, and 9,823 virtual normal data and 9,594 virtual positive data were selected. Data were selected within the range of ATRC (3.00×10 6 to 3.05×10 6 ). Some data that were statistically outside the normal range were removed depending on the characteristics of each target chromosome.

21번 염색체를 표적으로 세 개의 축(ATRC, GC 및 C21RC)에 따른 가상의 양성 데이터 및 가상의 정상 데이터의 분포를 3차원으로 표시한 결과를 도 3a에 나타내었다. GC 함량과 C21RC에 따른 가상의 양성 데이터 및 가상의 정상 데이터의 분포를 평면으로 표시한 결과를 도 3b에 나타내었다. 가상의 데이터를 이용하여 무작위로 데이터를 섞은 후 80%를 이용하여 로지스틱 회귀 알고리즘으로 학습시켜서(학습 데이터) 모델을 확립하였다. 나머지 20%를 이용하여 검증한 테스트 시료(테스트 데이터)의 민감도와 양성예측도를 나타낸 결과를 도 3c에 나타내었다. 확립된 모델의 정확도를 확인하기 위해, 양수검사로 확진된 양성시료를 이용하여 추가 검증한 결과를 도 3d에 나타내었다.The results of the three-dimensional distribution of virtual positive data and virtual normal data along three axes (ATRC, GC, and C21RC) targeting chromosome 21 are shown in Figure 3a. The results of displaying the distribution of virtual positive data and virtual normal data according to GC content and C21RC on a plane are shown in Figure 3b. The model was established by randomly mixing the data using virtual data and then training it with a logistic regression algorithm using 80% of the data (learning data). The results showing the sensitivity and positive predictive value of the test sample (test data) verified using the remaining 20% are shown in Figure 3c. To confirm the accuracy of the established model, the results of additional verification using positive samples confirmed by amniocentesis are shown in Figure 3d.

도 3a와 도 3b에 나타난 바와 같이, ATRC, C18RC 및 GC 함량이 21번 삼염색체(T21)와 정상(Normal)을 구분할 수 있었다. 또한, 도 3c에서 학습 및 테스트 데이터에서 민감도와 양성예측도가 99.8% 이상임을 확인하였다. 도 3d에 나타난 바와 같이, 가상 데이터를 이용한 방법을 사용하였을 때 양수검사를 통해서 확인된 94개의 실제 양성 시료(T21)가 양성 데이터임을 정확히 예측하였다.As shown in Figures 3a and 3b, the ATRC, C18RC, and GC contents were able to distinguish between trisomy 21 (T21) and normal. Additionally, in Figure 3c, it was confirmed that the sensitivity and positive predictive value were over 99.8% in the training and test data. As shown in Figure 3d, when the method using virtual data was used, it was accurately predicted that 94 actual positive samples (T21) confirmed through amniocentesis were positive data.

다. 가상의 정상 성염색체 데이터에서 성염색체이수성을 갖는 가상의 양성 데이터를 만드는 방법all. How to create virtual positive data with sex chromosome aneuploidy from virtual normal sex chromosome data

태아의 성염색체이수성을 가진 데이터를 만들기 위해, 남태아(XY) 데이터, 여태아(XX) 데이터, 및 태아 DNA 비율(FF)을 이용하였다.To create data with fetal sex chromosome aneuploidy, male fetus (XY) data, female fetus (XX) data, and fetal DNA ratio (FF) were used.

FF은 남태아 시료의 경우에는 염색체 Y-기반의 FF을 사용하고, 여태아의 경우에는 기계학습 기반의 FF을 사용하였다.For FF, chromosome Y-based FF was used for male fetus samples, and machine learning-based FF was used for female fetus samples.

(1) XO 성염색체 이수성의 검출(1) Detection of XO sex chromosome aneuploidy

XO 성염색체 이수성을 나타내는 가상 양성 데이터를 만드는 방법은, 남태아 시료의 리드수(chromosome XY read counts: CXYRC)에 남태아 시료의 염색체 Y에 할당된 리드수(chromosome Y read counts: CYRC)를 제거하는 것이다. 하지만 염색체 Y에는 일정한 양의 잘못 할당된 리드가 존재한다.The method for creating virtual positive data representing It is done. However, there is a certain amount of misassigned reads on chromosome Y.

CXRC = CXYRC - CYRC + CyRCCXRC = CXYRC - CYRC + CyRC

상기 식에서, CXRC는 염색체이수성 태아에서 표적 염색체 XO에서의 리드수이고, CXYRC는 정상 남태아에서 표적 염색체 XY에서의 리드수이고, CYRC는 표적 염색체 Y에서의 리드수이고, CyRC는 표적 염색체 Y에 잘못 할당된 리드수이다.In the above formula, CXRC is the number of reads on target chromosome XO in a chromosomal aneuploidy fetus, CXYRC is the number of reads on target chromosome This is the number of incorrectly assigned leads.

염색체 Y에 잘못 할당되는 리드수(CyRC)는 총 리드수(리드수 전체크기)에 비례하는 회귀식으로 표현하였다.The number of reads incorrectly assigned to chromosome Y (CyRC) was expressed in a regression equation proportional to the total number of reads (total read size).

즉, 식 1의 회귀식으로 나타내었다.That is, it is expressed as the regression equation in Equation 1.

CyRC = β0 + β1 TRC + ε (식 1)CyRC = β 0 + β 1 TRC + ε (Equation 1)

식 1에서, TRC는 전체 염색체의 리드수이고, β0는 절편이고, β1은 TRC와 CyRC간의 계수이고, 및 ε은 잔차 (Residual)이다.In Equation 1, TRC is the number of reads of the entire chromosome, β 0 is the intercept, β 1 is the coefficient between TRC and CyRC, and ε is the residual.

식 1은 TRC를 독립변수로 한다. 종속변수 예측치는 하기 식 2로 나타낼 수 있다.Equation 1 uses TRC as the independent variable. The predicted value of the dependent variable can be expressed in Equation 2 below.

CyRC' = β0 + β1 TRC (식 2),CyRC' = β 0 + β 1 TRC (Equation 2),

식 2에서, CyRC'는 CyRC의 예측값이고, TRC는 전체 염색체의 리드수이고, β0는 절편이고, β1은 TRC와 CyRC'간의 계수이다.In Equation 2, CyRC' is the predicted value of CyRC, TRC is the number of reads of the entire chromosome, β 0 is the intercept, and β 1 is the coefficient between TRC and CyRC'.

여태아 시료 8,737개를 사용하여 식을 산출하면 다음과 같다.The formula is calculated using 8,737 female fetal samples as follows.

CyRC' = 3.8×10-5 TRC + 8.7CyRC' = 3.8×10 -5 TRC + 8.7

상기 식 1 및 식 2로부터 잔차(Residual)를 산출하였다. 잔차의 분포는 정규분포를 따른다고 가정할 수 있고 정규분포의 퍼진 정도를 나타내는 표준편차를 가질 수 있다. 정규분포로부터 잔차의 표준편자(standard deviation) 14를 산출하였다. 이 표준편차에 따른 정규분포(normal distribution)에 의해 새로운 잔차를 산출하였다. 임의의 남태아 전체 리드수(TRC)와 식 2로부터 CyRC'을 산출하고, 앞에서 산출한 새로운 잔차를 더하여, 새로운 CyRC를 계산한다. 결과적으로, 임의의 남태아 시료 CXYRC에서 염색체 Y에 할당된 리드수(chromosome Y read counts: CYRC)를 제거하고 새롭게 구한 CyRC를 더하여 CXRC를 얻을 수 있다.The residual was calculated from Equation 1 and Equation 2 above. The distribution of residuals can be assumed to follow a normal distribution and can have a standard deviation that indicates the spread of the normal distribution. The standard deviation of the residuals of 14 was calculated from the normal distribution. A new residual was calculated using a normal distribution according to this standard deviation. Calculate CyRC' from the total read count (TRC) of random male fetuses and Equation 2, and calculate the new CyRC by adding the new residual calculated previously. As a result, CXRC can be obtained by removing the read counts (chromosome Y read counts: CYRC) assigned to chromosome Y from a random male fetus sample CXYRC and adding the newly obtained CyRC.

(2) XXX 성염색체 이수성의 검출(2) Detection of XXX sex chromosome aneuploidy

XXX 성염색체 이수성을 가진 태아의 리드수를 만드는 방법은 임의의 여태아 샘플 리드수(CXXRC)에서 이 리드수(CXXRC)에 FF의 50% 곱한 값을 더하는 것이다. 즉, CXXXRC = CXXRC + CXXRC×FF/2로 계산할 수 있다. 상기 식에서, CXXXRC는 염색체이수성 태아에서 표적 염색체 XXX에서의 리드수이고, CXXRC는 정상 여태아에서 표적 염색체 XX에서의 리드수이고, FF는 태아 DNA 분획이다.The way to determine the number of reads for a fetus with XXX sex chromosome aneuploidy is to add the number of reads (CXXRC) multiplied by 50% of FF from the number of reads in a random female fetus sample (CXXRC). In other words, it can be calculated as CXXXRC = CXXRC + CXXRC × FF/2. In the above formula, CXXXRC is the number of reads on target chromosome XXX in a chromosomal aneuploidy fetus, CXXRC is the number of reads on target chromosome XX in a normal female fetus, and FF is the fetal DNA fraction.

(3) XYY 성염색체 이수성의 검출(3) Detection of XYY sex chromosome aneuploidy

XYY 성염색체 이수성을 가진 태아의 리드수를 만드는 방법은 임의의 남태아 시료의 리드수(chromosome XY read counts: CXYRC)에 이 남태아 시료의 염색체 Y에 할당된 리드수(chromosome Y read counts: CYRC)를 더하는 것이다. 즉, XYY 염색체 이수성을 가진 태아의 리드수(chromosome XYY read counts: CXYYRC)는, CXYRC에 CyRC의 리드수가 이미 포함되어 있기 때문에, CYRC를 더하게 되면 중복이 되므로 CyRC를 빼게 된다. 즉, 하기 식으로 산출할 수 있다.The method for calculating the read count of a fetus with XYY sex chromosome aneuploidy is to calculate the read count (chromosome ) is added. In other words, the read counts (chromosome XYY read counts: CXYYRC) of fetuses with That is, it can be calculated using the following formula.

CXYYRC = CXYRC + CYRC - CyRCCXYYRC = CXYRC + CYRC - CyRC

상기 식에서, CXYYRC는 염색체이수성 태아에서 표적 염색체 XYY에서의 리드수이고, CXYRC는 정상 남태아에서 표적 염색체 XY에서의 리드수이고, CYRC는 정상 남태아에서 염색체 Y에 할당된 리드수이고, CyRC는 표적 염색체 Y에 잘못 할당된 리드수이다.In the above formula, CXYYRC is the number of reads on target chromosome XYY in a chromosomal aneuploidy fetus, CXYRC is the number of reads on target chromosome This is the number of reads incorrectly assigned to target chromosome Y.

여기서 CyRC는 식 1 및 식 2의 수학식과 잔차의 표준편차 14를 이용하여 계산하였다.Here, CyRC was calculated using equations 1 and 2 and the standard deviation of the residuals of 14.

(4) XXY 성염색체 이수성의 검출(4) Detection of XXY sex chromosome aneuploidy

XXY 성염색체 이수성을 가진 태아의 리드수(chromosome XXY read count: CXXYRC)를 만드는 방법은 CXXYRC = CXXRC + CYRC로 계산할 수 있다. 상기 식에서, CXYYRC는 염색체이수성 태아에서 표적 염색체 XYY에서의 리드수이고, CXYRC는 정상 남태아에서 표적 염색체 XY에서의 리드수이고, CYRC는 정상 남태아에서 염색체 Y에 할당된 리드수이고, CyRC는 표적 염색체 Y에 잘못 할당된 리드수이다The chromosome XXY read count (CXXYRC) of a fetus with XXY sex chromosome aneuploidy can be calculated as CXXYRC = CXXRC + CYRC. In the above formula, CXYYRC is the number of reads on target chromosome XYY in a chromosomal aneuploidy fetus, CXYRC is the number of reads on target chromosome This is the number of reads incorrectly assigned to target chromosome Y.

우선, CYRC는 염색체 Y-기반의 FF을 사용하는 식 3의 회귀식으로 나타내었다.First, CYRC was expressed as the regression equation in Equation 3 using chromosome Y-based FF.

CYRC = β0 + β1 TRC + β2 FFsnp + ε (식 3)CYRC = β 0 + β 1 TRC + β 2 FF snp + ε (Equation 3)

상기 식 3에서, TRC는 전체 염색체의 리드수이고, FFsnp는 SNP 기반의 FF이고, β0는 절편이고, β1은 TRC와 CYRC간의 계수이고, β2는 FFsnp와 CYRC간의 계수이고, 및 ε은 잔차이다.In Equation 3, TRC is the number of reads of the entire chromosome, FF snp is SNP-based FF, β 0 is the intercept, β 1 is the coefficient between TRC and CYRC, β 2 is the coefficient between FF snp and CYRC, and ε is the residual.

식 3은 TRC와 염색체 Y-기반의 FF을 독립변수로 하였다. 종속변수 예측치는 하기 식 4로 나타낼 수 있다.Equation 3 used TRC and chromosome Y-based FF as independent variables. The predicted value of the dependent variable can be expressed in Equation 4 below.

CYRC' = β0 + β1 TRC + β2 FFsnp (식 4),CYRC' = β 0 + β 1 TRC + β 2 FF snp (Equation 4),

상기 식4에서, CYRC'은 CYRC의 예측값이고, TRC는 전체 염색체의 리드수이고, FFsnp는 SNP 기반의 FF이고, β0는 절편이고, β1은 TRC와 CYRC'간의 계수이고, β2는 FFsnp와 CYRC'간의 계수이다.In Equation 4 above, CYRC' is the predicted value of CYRC, TRC is the number of reads of the entire chromosome, FF snp is SNP-based FF, β 0 is the intercept, β 1 is the coefficient between TRC and CYRC', and β 2 is the coefficient between FF snp and CYRC'.

남태아 시료 9,406개를 사용하여 식을 산출하면 다음과 같다.The formula is calculated using 9,406 male fetal samples as follows.

CYRC' = 0.00018 TRC + 72.5 FFsnp - 576CYRC' = 0.00018 TRC + 72.5 FF snp - 576

상기 식 3 및 식 4로부터 잔차(Residual)의 표준편차(standard deviation)로 92를 산출하고, 이 표준편차에 따른 정규분포(normal distribution)에 의해 새로운 잔차를 산출하였다. 임의의 여태아 전체 리드수(TRC)와 SNP 기반의 FF를 이용하여 식 4로부터 CYRC'을 구하고 앞에서 얻은 새로운 잔차를 더하여 새로운 CYRC를 계산한다. 결과적으로, 임의의 여태아 시료 CXXRC에 새롭게 구한 CYRC를 더하여 CXXYRC를 얻을 수 있다.From Equations 3 and 4 above, 92 was calculated as the standard deviation of the residual, and a new residual was calculated by normal distribution according to this standard deviation. Calculate CYRC' from Equation 4 using the total read count (TRC) of random female fetuses and SNP-based FF, and calculate the new CYRC by adding the new residuals obtained previously. As a result, CXXYRC can be obtained by adding the newly obtained CYRC to a random female fetus sample CXXRC.

라. 성염색체에서 성염색체이수성을 갖는 양성 데이터의 검출la. Detection of positive data with sex chromosome aneuploidy

총 리드수(total read counts: TRC)의 범위(3.00×106 내지 3.05×106) 내에서 여태아 XX 염색체를 표적으로 두 개의 축(GC 및 CXRC)에 따른 가상의 정상 여태아(XX) 및 가상의 양성 데이터인, X 홑염색체(XO), 및 삼중 X증후군(XXX) 시료의 분포를 2차원으로 평면에서 표현한 그래프를 도 4a에 나타내었다. 도 4a에 나타난 바와 같이, 표적으로 하는 여태아 X 염색체에서(XX), CXXRC, CXORC 및 CXXXRC의 경우, 염색체 X에 할당된 리드수(CXRC)가 GC 함량에 따라 다르게 분포하였다.Virtual normal female fetus (XX) along two axes (GC and CXRC) targeting XX chromosomes of female fetus within the range of total read counts (TRC) (3.00×10 6 to 3.05×10 6 ). And a graph representing the distribution of hypothetical positive data, monosomy X (XO), and triple X syndrome (XXX) samples, is shown in Figure 4a. As shown in Figure 4a, in the case of the targeted female fetal X chromosome (XX), CXXRC, CXORC, and CXXXRC, the number of reads assigned to chromosome

TRC의 범위(3.00×106 내지 3.05×106) 내에서 남태아 XY 염색체를 표적으로 두 개의 축(GC 함량 및 CYRC)에 따른 가상의 정상 남태아(XY) 및 가상의 양성 데이터인, 클라인펠터 증후군(XXY) 및 XYY 증후군(XYY) 데이터의 분포를 평면에서 표현한 그래프를 도 4b에 나타내었다. 도 4b에 나타난 바와 같이, 표적으로 하는 남태아 염색체 Y에서(XY), CXYRC, CXXYRC, 및 CXYYRC의 경우, 염색체 Y에 할당된 리드수(CYRC)를 GC 함량에 따라 가 다르게 분포하였다.Klein, a virtual normal male fetus (XY) and virtual benign data along two axes (GC content and CYRC) targeting the XY chromosomes of male fetuses within the range of TRC (3.00×10 6 to 3.05×10 6 ). A graph representing the distribution of Felter syndrome (XXY) and XYY syndrome (XYY) data on a plane is shown in Figure 4b. As shown in Figure 4b, in the case of the target male fetal chromosome Y (XY), CXYRC, CXXYRC, and CXYYRC, the number of reads assigned to chromosome Y (CYRC) was distributed differently depending on the GC content.

이런 분포의 차이점으로 인해 CXRC, CYRC, 및 GC 함량은 XX 및 XY와 같은 정상 태아 시료와 XO, XXX, XXY, 또는 XYY를 가진 성염색체 이수성 시료를 분류할 수 있는 파라미터로 이용가능함을 확인하였다.Due to these differences in distribution, it was confirmed that CXRC, CYRC, and GC contents can be used as parameters to classify normal fetal samples such as XX and XY and sex chromosome aneuploidy samples with XO, XXX, XXY, or XYY.

가상의 정상 남태아 10,000개 및 가상의 정상 여태아 9,994개의 시료를 이용하여 각각 XYY 10,000개, XO 10,000개, XXX 9,957개, 및 XXY 9,967개의 가상 양성 데이터를 만들었다. 이에 더하여, 가상의 정상 남태아 10,000개 및 가상의 정상 여태아 9,930개를 앞에서 언급한 것과는 겹치지 않게 추가로 만들어 사용하였다. 여기서 가상 데이터를 무작위로 섞은 후 80%를 이용하여 학습시켜서 모델을 확립하고, 나머지 20%를 이용하여 검증한 테스트 샘플의 정확도를 나타낸 결과를 도 4c에 나타내었다. 도 4c에 나타난 바와 같이, 학습 및 테스트 데이터에서 민감도와 양성예측도에서 각각 99.8% 이상의 정확도를 보임을 확인할 수 있었다.Using 10,000 virtual normal male fetuses and 9,994 virtual normal female fetus samples, 10,000 XYY, 10,000 XO, 9,957 XXX, and 9,967 XXY virtual positive data were created, respectively. In addition, an additional 10,000 virtual normal male fetuses and 9,930 virtual normal female fetuses were created and used so as not to overlap with those mentioned above. Here, the virtual data was randomly mixed and trained using 80% to establish a model, and the accuracy of the test sample verified using the remaining 20% is shown in Figure 4c. As shown in Figure 4c, it was confirmed that the training and test data showed an accuracy of over 99.8% in sensitivity and positive predictive value, respectively.

확립된 모델의 정확도를 양수검사로 확진된 양성 시료를 이용하여 추가 검증한 결과를 도 4d에 나타내었다. 도 4d에 나타난 바와 같이, 양수검사를 통해서 확인된 6개의 XO, 9개의 XXY, 2개의 XYY, 및 13개의 XXX인 실제 염색체이수성(양성) 시료를 100% 정확히 예측하였다.The results of further verification of the accuracy of the established model using positive samples confirmed by amniocentesis are shown in Figure 4d. As shown in Figure 4d, the actual chromosomal aneuploidy (positive) samples, which were 6 XO, 9 XXY, 2

Claims (19)

태아의 염색체이수성을 검출하는 방법으로서,
정상 태아를 임신한 여성의 생물학적 시료로부터 수득된 복수의 핵산 단편의 서열정보(Read)를 수득하는 단계;
상기 수득된 서열정보를 인간 참조 유전체에 맵핑(mapping)하여 상기 핵산 단편의 서열정보를 염색체에 지정하는 단계;
상기 염색체에 지정된 핵산 단편의 서열정보에 근거하여, 정상 태아에서 표적 염색체에서의 핵산 단편의 서열정보의 리드수(Read Count: RC), 태아 DNA 분획(Fetal Fraction: FF), 및 GC 함량을 산출하는 단계;
정상 태아에서 표적 염색체에서의 리드수와 태아 DNA 분획에 근거하여, 정상 데이터로부터 가상의 정상 데이터를 생산하는 단계로서,
상기 정상 데이터는 정상 태아의 표적 염색체에서의 리드수인 단계;
상기 가상의 정상 데이터로부터 가상의 양성 데이터를 생성하는 단계로서,
상기 가상의 양성 데이터는 염색체이수성을 갖는 태아의 표적 염색체에서의 리드수인 것인 단계;
상기 생산된 가상의 정상 데이터 및 가상의 양성 데이터로부터 염색체이수성 판별 모델을 확립하는 단계; 및
상기 염색체이수성 판별 모델을 이용하여 피검 시료의 염색체이수성을 검출하는 단계를 포함하는 방법.
As a method for detecting chromosomal aneuploidy in a fetus,
Obtaining sequence information (Read) of a plurality of nucleic acid fragments obtained from a biological sample of a woman pregnant with a normal fetus;
Mapping the obtained sequence information to a human reference genome and assigning the sequence information of the nucleic acid fragment to a chromosome;
Based on the sequence information of the nucleic acid fragment specified in the chromosome, read count (RC), fetal DNA fraction (FF), and GC content of the sequence information of the nucleic acid fragment in the target chromosome are calculated in a normal fetus. steps;
A step of producing virtual normal data from normal data based on the number of reads in the target chromosome and fetal DNA fraction in the normal fetus,
The normal data is the number of reads in the target chromosome of a normal fetus;
Generating virtual positive data from the virtual normal data,
The virtual positive data is the number of reads in the target chromosome of a fetus with chromosomal aneuploidy;
Establishing a chromosomal aneuploidy discrimination model from the produced virtual normal data and virtual positive data; and
A method comprising the step of detecting chromosomal aneuploidy of a test sample using the chromosomal aneuploidy determination model.
청구항 1에 있어서, 상기 표적 염색체는 1번 염색체 내지 22번 염색체, 염색체 X, 및 염색체 Y로 이루어진 군으로부터 선택된 것인 방법.The method of claim 1, wherein the target chromosome is selected from the group consisting of chromosomes 1 to 22, chromosome X, and chromosome Y. 청구항 2에 있어서, 상기 표적 염색체는 13번 염색체, 18번 염색체, 및 21번 염색체로 이루어진 군으로부터 선택되는 것인 방법.The method of claim 2, wherein the target chromosome is selected from the group consisting of chromosome 13, chromosome 18, and chromosome 21. 청구항 1에 있어서, 상기 정상 데이터로부터 가상의 정상 데이터를 생산하는 단계는
정상 시료 중 2 이상의 시료를 무작위로 선택하고 선택된 태아 시료를 합치고 다시 무작위로 나누어 가상 정상 데이터를 생성하는 단계인 것인 방법.
The method of claim 1, wherein the step of producing virtual normal data from the normal data includes
A method of randomly selecting two or more normal samples, combining the selected fetal samples, and randomly dividing them again to generate virtual normal data.
청구항 1에 있어서, 상기 정상 데이터로부터 가상의 정상 데이터를 생산하는 단계는
정상 남태아 시료와 정상 여태아 시료를 구분하는 단계; 및
정상 남태아 시료 중 2 이상의 시료를 무작위로 선택하고 선택된 남태아 시료를 합치고 다시 무작위로 나누어 남태아 가상 정상 데이터를 생성하거나, 또는
정상 여태아 시료 중 2 이상의 시료를 무작위로 선택하고 선택된 여태아 시료를 합치고 다시 무작위로 나누어 여태아 가상 정상 데이터를 생성하는 단계를 포함하는 것인 방법.
The method of claim 1, wherein the step of producing virtual normal data from the normal data includes
Distinguishing between normal male fetus samples and normal female fetus samples; and
Randomly select two or more samples from normal male fetus samples, combine the selected male fetus samples, and randomly divide again to generate virtual normal male fetus data, or
A method comprising the step of randomly selecting two or more samples from normal female fetus samples, combining the selected female fetus samples, and randomly dividing them again to generate virtual normal female fetus data.
청구항 1에 있어서, 상기 가상의 정상 데이터로부터 가상의 양성 데이터를 생성하는 단계는 표적 염색체가 상염색체인 경우, 하기 식으로 결정되는 것인 방법:
TiRC = CiRC + CiRC×FF/2,
상기 식에서,
TiRC는 염색체이수성 태아에서 표적 염색체 i에서의 리드수이고,
CiRC는 정상 태아에서 표적 염색체 i에서의 리드수이고,
FF는 태아 DNA 분획이다.
The method of claim 1, wherein the step of generating virtual positive data from the virtual normal data is determined by the following equation when the target chromosome is an autosome:
TiRC = CiRC + CiRC × FF/2,
In the above equation,
TiRC is the number of reads on target chromosome i in aneuploidy fetuses,
CiRC is the number of reads on target chromosome i in a normal fetus;
FF is the fetal DNA fraction.
청구항 1에 있어서, 상기 가상의 정상 데이터로부터 가상의 양성 데이터를 생성하는 단계는 표적 염색체가 XXX 염색체인 경우, 하기 식으로 결정되는 것인 방법:
CXXXRC = CXXRC + CXXRC×FF/2,
상기 식에서,
CXXXRC는 염색체이수성 태아에서 표적 염색체 XXX에서의 리드수이고,
CXXRC는 정상 여태아에서 표적 염색체 XX에서의 리드수이고,
FF는 태아 DNA 분획이다.
The method of claim 1, wherein the step of generating virtual positive data from the virtual normal data is determined by the following equation when the target chromosome is the XXX chromosome:
CXXXRC = CXXRC + CXXRC×FF/2,
In the above equation,
CXXXRC is the number of reads on target chromosome XXX in aneuploidy fetuses,
CXXRC is the number of reads on target chromosome XX in a normal female fetus,
FF is the fetal DNA fraction.
청구항 1에 있어서, 상기 가상의 정상 데이터로부터 가상의 양성 데이터를 생성하는 단계는 표적 염색체가 XO 염색체인 경우, 하기 식으로 결정되는 것인 방법:
CXRC = CXYRC - CYRC + CyRC,
상기 식에서,
CXRC는 염색체이수성 태아에서 표적 염색체 XO에서의 리드수이고,
CXYRC는 정상 남태아에서 표적 염색체 XY에서의 리드수이고,
CYRC는 표적 염색체 Y에서의 리드수이고,
CyRC는 표적 염색체 Y에 잘못 할당된 리드수이다.
The method of claim 1, wherein the step of generating virtual positive data from the virtual normal data is determined by the following equation when the target chromosome is an XO chromosome:
CXRC = CXYRC - CYRC + CyRC,
In the above equation,
CXRC is the number of reads on target chromosome XO in aneuploidy fetus,
CXYRC is the number of reads on target chromosome XY in a normal male fetus,
CYRC is the number of reads on target chromosome Y,
CyRC is the number of reads incorrectly assigned to target chromosome Y.
청구항 1에 있어서, 상기 가상의 정상 데이터로부터 가상의 양성 데이터를 생성하는 단계는 표적 염색체가 XYY 염색체인 경우, 하기 식으로 결정되는 것인 방법:
CXYYRC = CXYRC + CYRC - CyRC,
상기 식에서,
CXYYRC는 염색체이수성 태아에서 표적 염색체 XYY에서의 리드수이고,
CXYRC는 정상 남태아에서 표적 염색체 XY에서의 리드수이고,
CYRC는 정상 남태아에서 염색체 Y에 할당된 리드수이고,
CyRC는 표적 염색체 Y에 잘못 할당된 리드수이다.
The method of claim 1, wherein the step of generating virtual positive data from the virtual normal data is determined by the following equation when the target chromosome is an XYY chromosome:
CXYYRC = CXYRC + CYRC - CyRC,
In the above equation,
CXYYRC is the number of reads on target chromosome XYY in aneuploidy fetus,
CXYRC is the number of reads on target chromosome XY in a normal male fetus,
CYRC is the number of reads assigned to chromosome Y in a normal male fetus,
CyRC is the number of reads incorrectly assigned to target chromosome Y.
청구항 8 및 9에 있어서, 상기 CyRC는
하기 식 1과 식 2로부터 잔차(Residual)를 산출하는 단계:
CyRC = β0 + β1 TRC + ε (식 1),
상기 식 1에서, TRC는 전체 염색체의 리드수이고, β0는 절편이고, β1은 TRC와 CyRC간의 계수이고, 및 ε은 잔차이고,
CyRC' = β0 + β1 TRC (식 2),
상기 식 2에서, CyRC'은 CyRC의 예측값이고, TRC는 전체 염색체의 리드수이고, β0는 절편이고, β1은 TRC와 CyRC'간의 계수인 것인 단계; 및
상기 잔차로부터 CyRC를 산출하는 단계로부터 산출되는 것인 방법.
The method of claims 8 and 9, wherein the CyRC
Steps for calculating residuals from Equations 1 and 2 below:
CyRC = β 0 + β 1 TRC + ε (Equation 1),
In Equation 1, TRC is the number of reads of the entire chromosome, β 0 is the intercept, β 1 is the coefficient between TRC and CyRC, and ε is the residual,
CyRC' = β 0 + β 1 TRC (Equation 2),
In Equation 2, CyRC' is the predicted value of CyRC, TRC is the number of reads of the entire chromosome, β 0 is the segment, and β 1 is the coefficient between TRC and CyRC'; and
A method calculated from the step of calculating CyRC from the residual.
청구항 1에 있어서, 상기 가상의 정상 데이터로부터 가상의 양성 데이터를 생성하는 단계는 표적 염색체가 XXY 염색체인 경우 하기 식으로 결정되는 것인 방법:
CXXYRC = CXXRC + CYRC,
상기 식에서,
CXXYRC는 염색체이수성 태아에서 표적 염색체 XXY에서의 리드수이고,
CXXRC는 정상 여태아에서 표적 염색체 XX에서의 리드수이고,
CYRC는 염색체 Y에 할당된 리드수이다.
The method of claim 1, wherein the step of generating virtual positive data from the virtual normal data is determined by the following equation when the target chromosome is an XXY chromosome:
CXXYRC = CXXRC + CYRC,
In the above equation,
CXXYRC is the number of reads on target chromosome XXY in aneuploidy fetus,
CXXRC is the number of reads on target chromosome XX in a normal female fetus,
CYRC is the number of reads assigned to chromosome Y.
청구항 11에 있어서, 상기 CYRC는 하기 식 3과 식 4로부터 잔차(Residual)를 산출하는 단계:
CYRC = β0 + β1 TRC + β2 FFsnp + ε (식 3),
상기 식 3에서, TRC는 전체 염색체의 리드수이고, FFsnp는 SNP 기반의 FF이고, β0는 절편이고, β1은 TRC와 CYRC간의 계수이고, β2는 FFsnp와 CYRC간의 계수이고, 및 ε은 잔차이고,
CYRC' = β0 + β1 TRC + β2 FFsnp (식 4),
상기 식4에서, CYRC'은 CYRC의 예측값이고, TRC는 전체 염색체의 리드수이고, FFsnp는 SNP 기반의 FF이고, β0는 절편이고, β1은 TRC와 CYRC'간의 계수이고, β2는 FFsnp와 CYRC'간의 계수인 것인 단계; 및
상기 잔차로부터 CYRC를 산출하는 단계로부터 산출되는 것인 방법.
The method of claim 11, wherein the CYRC calculates a residual from the following equations 3 and 4:
CYRC = β 0 + β 1 TRC + β 2 FF snp + ε (Equation 3),
In Equation 3, TRC is the number of reads of the entire chromosome, FF snp is SNP-based FF, β 0 is the intercept, β 1 is the coefficient between TRC and CYRC, β 2 is the coefficient between FF snp and CYRC, and ε is the residual,
CYRC' = β 0 + β 1 TRC + β 2 FF snp (Equation 4),
In Equation 4 above, CYRC' is the predicted value of CYRC, TRC is the number of reads of the entire chromosome, FF snp is SNP-based FF, β 0 is the intercept, β 1 is the coefficient between TRC and CYRC', and β 2 is the coefficient between FF snp and CYRC'; and
A method calculated from the step of calculating CYRC from the residual.
청구항 1에 있어서, 상기 생산된 가상의 정상 데이터 및 가상의 양성 데이터로부터 염색체이수성 판별 모델을 확립하는 단계는
표적 염색체가 상염색체인 경우, CiRC(chromosome i read count)(i=1부터 22까지), ATRC(Autosomal Total read count), FF, GC 함량, 또는 이들의 조합에 근거하여 수행하는 것인 방법.
The method of claim 1, wherein the step of establishing a chromosomal aneuploidy discrimination model from the produced virtual normal data and virtual positive data includes
When the target chromosome is an autosome, the method is performed based on CiRC (chromosome i read count) (i = 1 to 22), ATRC (Autosomal Total read count), FF, GC content, or a combination thereof.
청구항 1에 있어서, 염색체이수성 판별 모델을 이용하여 피검 시료의 염색체이수성을 검출하는 단계는 표적 염색체가 상염색체인 경우, CiRC(i=1부터 22까지), ATRC, FF, 및 GC 함량, 또는 이들의 조합에 근거하여 수행하는 것인 방법.The method of claim 1, wherein the step of detecting chromosomal aneuploidy of a test sample using a chromosomal aneuploidy determination model is performed by determining CiRC (i=1 to 22), ATRC, FF, and GC content, or these, when the target chromosome is an autosome. A method that is performed based on a combination of. 청구항 1에 있어서, 상기 생산된 가상의 정상 데이터 및 가상의 양성 데이터로부터 염색체이수성 판별 모델을 확립하는 단계는
표적 염색체가 성염색체인 경우, CXRC(Chromosome X read count), CYRC(Chromosome Y read count), TRC(Total read count), FF, GC 함량, 또는 이들의 조합에 근거하여 수행하는 것인 방법.
The method of claim 1, wherein the step of establishing a chromosomal aneuploidy discrimination model from the produced virtual normal data and virtual positive data includes
When the target chromosome is a sex chromosome, the method is performed based on Chromosome X read count (CXRC), Chromosome Y read count (CYRC), Total read count (TRC), FF, GC content, or a combination thereof.
청구항 1에 있어서, 염색체이수성 판별 모델을 이용하여 피검 시료의 염색체이수성을 검출하는 단계는 표적 염색체가 성염색체인 경우, CXRC, CYRC, TRC, FF, 및 GC 함량, 또는 이들의 조합에 근거하여 수행하는 것인 방법.The method of claim 1, wherein the step of detecting chromosomal aneuploidy of a test sample using a chromosomal aneuploidy determination model is performed based on CXRC, CYRC, TRC, FF, and GC contents, or a combination thereof, when the target chromosome is a sex chromosome. How to do it. 청구항 1에 있어서, 상기 염색체이수성 판별 모델은 기계학습 알고리즘을 적용하여 훈련시키는 것인 방법.The method according to claim 1, wherein the chromosomal aneuploidy discrimination model is trained by applying a machine learning algorithm. 청구항 17에 있어서, 상기 기계학습 알고리즘은 LGBM(Light Gradient Boosting Machine), 에이다부스트(AdaBoost), 다수결 분류(Voting Classifier), 랜덤 포레스트(Random Forest), 로지스틱 회귀분석(Logistic algorithm), 인공 신경망(Neural Network), 및 QDA(Quadratic Discriminant Analysis)로 이루어진 군으로부터 선택된 것인 방법.The method of claim 17, wherein the machine learning algorithm is LGBM (Light Gradient Boosting Machine), AdaBoost, Voting Classifier, Random Forest, Logistic algorithm, and Artificial Neural Network. Network), and QDA (Quadratic Discriminant Analysis). 청구항 1 내지 18 중 어느 한 항에 따른 방법을 수행하기 위해 적용되는 프로그램을 기록한 컴퓨터 판독 매체.A computer-readable medium recording a program applied to perform the method according to any one of claims 1 to 18.
KR1020220069309A 2022-05-09 2022-06-08 Method for detecting aneuploidy of fetus based on synthetic positive data and synthetic negative data KR20230157204A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2023/004091 WO2023219263A1 (en) 2022-05-09 2023-03-28 Method for detecting fetal chromosomal aneuploidies on basis of false-positive data and false-negative data

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020220056483 2022-05-09
KR20220056483 2022-05-09

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020240113808A Division KR20240136260A (en) 2022-05-09 2024-08-23 Method for detecting aneuploidy of fetus based on synthetic positive data and synthetic negative data

Publications (1)

Publication Number Publication Date
KR20230157204A true KR20230157204A (en) 2023-11-16

Family

ID=88964892

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220069309A KR20230157204A (en) 2022-05-09 2022-06-08 Method for detecting aneuploidy of fetus based on synthetic positive data and synthetic negative data

Country Status (1)

Country Link
KR (1) KR20230157204A (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101739535B1 (en) 2016-01-25 2017-05-24 지놈케어 주식회사 Method for detecting aneuploidy of fetus

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101739535B1 (en) 2016-01-25 2017-05-24 지놈케어 주식회사 Method for detecting aneuploidy of fetus

Similar Documents

Publication Publication Date Title
JP5659319B2 (en) Non-invasive detection of genetic abnormalities in the fetus
KR102184868B1 (en) Using cell-free dna fragment size to determine copy number variations
US10053729B2 (en) Rapid aneuploidy detection
CA3010254C (en) Size-based analysis of fetal dna fraction in maternal plasma
CN106319047B (en) Resolving genome fractions using polymorphic counts
US20230368918A1 (en) Method of detecting fetal chromosomal aneuploidy
JP6161607B2 (en) How to determine the presence or absence of different aneuploidies in a sample
US11339426B2 (en) Method capable of differentiating fetal sex and fetal sex chromosome abnormality on various platforms
Stumm et al. Diagnostic accuracy of random massively parallel sequencing for non‐invasive prenatal detection of common autosomal aneuploidies: a collaborative study in Europe
EP2792751B1 (en) Method and system for determining whether genome is abnormal
IL243655A (en) Noninvasive diagnosis of fetal aneuploidy by sequencing
HUE030510T2 (en) Diagnosing fetal chromosomal aneuploidy using genomic sequencing
CN108604258B (en) Chromosome abnormality determination method
EP3662479A1 (en) A method for non-invasive prenatal detection of fetal sex chromosomal abnormalities and fetal sex determination for singleton and twin pregnancies
KR101881098B1 (en) Method for detecting aneuploidy of fetus
WO2023096224A1 (en) Method for detecting chromosome aneuploidy of fetus on basis of virtual data
KR102704709B1 (en) Method for detecting aneuploidy of fetus based on synthetic data
KR20230157204A (en) Method for detecting aneuploidy of fetus based on synthetic positive data and synthetic negative data
KR20240136260A (en) Method for detecting aneuploidy of fetus based on synthetic positive data and synthetic negative data
JP2014530629A (en) Method for detecting chromosomal microdeletions and microduplications
WO2023219263A1 (en) Method for detecting fetal chromosomal aneuploidies on basis of false-positive data and false-negative data
WO2017051996A1 (en) Non-invasive type fetal chromosomal aneuploidy determination method
KR101907650B1 (en) Method of non-invasive trisomy detection of fetal aneuploidy
US20220101947A1 (en) Method for determining fetal fraction in maternal sample
KR20240117728A (en) Method for detecting copy number variants of a fetus based on synthetic positive data and synthetic negative data