WO2023120783A1 - 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법 및 분석 장치 - Google Patents

혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법 및 분석 장치 Download PDF

Info

Publication number
WO2023120783A1
WO2023120783A1 PCT/KR2021/019832 KR2021019832W WO2023120783A1 WO 2023120783 A1 WO2023120783 A1 WO 2023120783A1 KR 2021019832 W KR2021019832 W KR 2021019832W WO 2023120783 A1 WO2023120783 A1 WO 2023120783A1
Authority
WO
WIPO (PCT)
Prior art keywords
type
twins
determining
mixed model
conjugation
Prior art date
Application number
PCT/KR2021/019832
Other languages
English (en)
French (fr)
Inventor
이길원
국준호
이병철
박정훈
서정선
Original Assignee
주식회사 마크로젠
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 마크로젠 filed Critical 주식회사 마크로젠
Priority to PCT/KR2021/019832 priority Critical patent/WO2023120783A1/ko
Publication of WO2023120783A1 publication Critical patent/WO2023120783A1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Definitions

  • the technique described below is a technique for determining zygosity for twins by non-invasive prenatal testing.
  • the present invention is the result of a study conducted with the support of the Ministry of Health and Welfare and the Korea Health Industry Development Institute's "Public Disease Overcoming Research Support Project (R&D)" project (research title: Titration to identify fetal chromosomal abnormalities in twin pregnancy) Development of screening test method / assignment number: 1465029281).
  • R&D Public Disease Overcoming Research Support Project
  • Prenatal diagnosis methods are largely divided into invasive and non-invasive diagnostic methods. Invasive diagnostic methods can be problematic because they cause shock to the mother and fetus during the examination process. Therefore, non-invasive diagnostic methods are in the limelight.
  • Non-invasive diagnostic methods mainly use cell-free DNA (cfDNA) in maternal plasma.
  • cfDNA cell-free DNA
  • NGS Next Generation Sequencing
  • Noninvasive prenatal testing is becoming increasingly common as the number of testable items increases and the cost decreases.
  • Non-invasive prenatal testing is mainly for singletons.
  • twins multiple births
  • the technique described below is intended to provide a technique for non-invasively determining the zygosity of twins.
  • the method for determining the zygosity type of twins using a mixed model includes the step of acquiring genotype information for each of a plurality of single nucleotide polymorphisms (SNPs) in a maternal plasma sample by an analysis device, and the analysis device uses a mixed model for the zygosity of twins. Calculating the fraternal or identical probability of twins for each of the plurality of SNPs using , and determining, by the analyzer, the type of twin conjugation with maximum likelihood based on all of the plurality of SNPs.
  • the mixed model has read depth and genotype ratios at allele loci as variables.
  • An analysis device for determining the zygosity type of twins includes an input device for receiving genetic information about a maternal plasma sample, a storage device for storing a program for determining the zygosity type of twins using the genetic information, and the genetic information.
  • SNPs Single Nucleotide Polymorphisms
  • the technology described below provides highly accurate diagnostic information on whether twins are fraternal or identical in a non-invasive manner.
  • 1 is an example of a system for analyzing twin zygosity type.
  • FIG. 2 is an example of a flow chart for the process of determining twin conjugation.
  • 3 is an example of the structure of an analyzer for determining the twin conjugation type.
  • 5 is another example of simulation results for twin zygosity prediction.
  • 6 is another example of simulation results for twin zygosity prediction.
  • first, second, A, B, etc. may be used to describe various elements, but the elements are not limited by the above terms, and are merely used to distinguish one element from another. used only as For example, without departing from the scope of the technology described below, a first element may be referred to as a second element, and similarly, the second element may be referred to as a first element.
  • the terms and/or include any combination of a plurality of related recited items or any of a plurality of related recited items.
  • each component to be described below may be combined into one component, or one component may be divided into two or more for each more subdivided function.
  • each component to be described below may additionally perform some or all of the functions of other components in addition to its main function, and some of the main functions of each component may be performed by other components. Of course, it may be dedicated and performed by .
  • each process constituting the method may occur in a different order from the specified order unless a specific order is clearly described in context. That is, each process may occur in the same order as specified, may be performed substantially simultaneously, or may be performed in the reverse order.
  • a sample means a sample from which maternal DNA and fetal DNA can be obtained together.
  • the sample may be the mother's plasma.
  • cfDNA in maternal plasma contains both maternal and fetal DNA. It is generally known that the amount of fetal DNA increases in proportion to the gestational age.
  • Fetal fraction refers to the proportion of fetal DNA in a sample. In general, it is known that for an accurate prenatal test, the fraction must be above a certain value to be meaningful.
  • Conjugation of twins is classified as dizygotic twin or monozygotic twin.
  • Genomic information may include nucleotide sequence, gene expression data, genetic variation with standard genome data, DNA methylation, and the like.
  • the technology described below may use genomic information on maternal-derived cfDNA and fetal-derived cfDNA obtainable from a maternal sample.
  • the scope for analysis of cfDNA ranges from single mutations to whole genome analysis.
  • WGS whole-genome sequencing
  • NGS provides information on the entire genome. In the following description, it is assumed that the analysis results (WGS data) performed by WGS on maternal samples are used.
  • WGS results are provided as digital data.
  • a computer device capable of data processing and computation analyzes the WGS data to confirm twin conjugation.
  • a device for analyzing WGS data is referred to as an analysis device.
  • the analysis device may be implemented in various forms such as a PC, a server, and a smart device.
  • the technique described below confirms the zygosity of twins by using genotypes for a plurality of single nucleotide polymorphisms (SNPs) in a maternal sample.
  • the analysis device may determine the genotype for the SNP based on the WGS data using a genotype calling algorithm.
  • An algorithm for detecting a genotype may use various publicly available techniques or programs.
  • the analyzer may determine a fraction in the sample using the WGS data for the maternal sample.
  • Analytical Device A variety of algorithms can be used to determine the fraction.
  • the analysis device is SeqFF (Kim SK, Determination of fetal DNA fraction from the plasma of pregnant women using sequence read counts, Prenat Diagn. 2015 Aug;35(8):810-5. doi: 10.1002/pd.4615. Epub 2015 Jun 3.) can be used to estimate the fraction of the sample.
  • 1 is an example of a system for analyzing twin zygosity type.
  • Figure 1 shows a service user (A), a genomic information provider (B) and a service provider (C).
  • the service user (A) is a subject who receives twin conjugation information analyzed by the analysis device.
  • a service user (A) may be an individual or a medical institution.
  • the service user A may provide samples for analysis.
  • a genome information provider (B) is a subject that analyzes a sample and provides personal genome information.
  • the genome information provider B may generate genome information about a sample using WGS or the like.
  • the service provider (C) is a subject that provides zygosity information of twins using the genome information of the sample.
  • the service provider (C) may be a professional organization that analyzes genomic data. Meanwhile, the service provider (C) may be the same subject as the genome information provider (B) that generates genome information. In this case, the service provider C receives a sample from the service user A, generates genome information, and provides conjugation information of twins based on the genome information.
  • the analysis devices 150 and 250 analyze the genetic information of the sample to determine the twin conjugation type.
  • the analysis device is shown in the form of a network server 150 and a computer terminal 250.
  • 1(A) is an example of a system 100 including an analysis device 150 in the form of a server.
  • the genome information generating device 110 generates genome information about the maternal sample.
  • the dielectric information generating device 110 may store the generated dielectric information in the dielectric DB 120 .
  • the analysis device 150 receives genome information of a specific sample from the genome information generating device 110 or the genome DB 120 .
  • genome information may include identification information about an individual.
  • the analyzer 150 determines the twin-zygosity type of the sample based on the genome information of the sample.
  • the analysis device 150 may provide the service user A with analysis results for the sample. For example, the analysis device 150 may transmit analysis results to the personal terminal 50 .
  • the genome information generating device 210 generates genome information about the maternal sample.
  • the dielectric information generating device 210 may store the generated dielectric information in the dielectric DB 220 .
  • the analysis device 250 may receive genome information of a specific sample from the genome information generating device 210 or the genome DB 220 through a wired or wireless network. Alternatively, the analysis device 250 may receive dielectric information through a storage medium (SD card, USB, etc.). In order to distinguish a specific sample, genome information may include identification information about an individual.
  • the analyzer 250 determines the twin junction type of the sample based on the genetic information of the sample.
  • the analyzer 250 may output analysis results for the sample.
  • FIG. 2 is an example flow chart for a process 300 for determining twin conjugity.
  • the analysis device acquires genome information of the sample (310). As described above, the analysis device may receive the sample and generate genome information using the WGS technique.
  • the analysis device may determine the fraction of the sample using the genome information (320). Alternatively, the analysis device may receive only fractionation information from a separate device.
  • the analysis device determines genotypes for a plurality of SNPs.
  • the allele loci to be analyzed may use a plurality of pre-determined loci.
  • the number of SNPs can vary.
  • the analyzer may determine allelic genotypes by targeting hundreds, thousands, or tens of thousands of SNPs among the SNPs in the sample. There are various algorithms for determining genotypes of SNPs using NGS data.
  • the analyzer may determine the genotype at the SNP using a specific genotype detection algorithm.
  • the analyzer determines the genotype of SNP i (330).
  • the analyzer determines splicability for SNP i using the mixed model (340). The process of determining the zygosity using the mixed model will be described later.
  • the analyzer checks whether i ⁇ total (350), and if not, increases i by one (-360) and repeats the same process for the next SNP.
  • i total (that is, a state in which zygosity is determined for all SNPs)
  • the analyzer counts zygosity for all SNPs and determines the zygosity type having the maximum number as the zygosity of twins (370).
  • Genotypes are indicated by A and B.
  • the mother has a homozygous allele
  • the child can only have AA, AB or BB, AB. If the mother carries the heterozygous allele, the offspring can be AA, AB, or BB. Based on Table 1, possible twin SNP combinations such as Table 2 can be considered.
  • the genotype is detected (called) according to the read depth, a certain statistical model can be considered. If the depth of the lead for each allele i is N i , the allele a i detected in the corresponding lead can be considered as N replacement extractions from the ratio of A or B according to the genotype defined in Table 2 above. , assume that the total fetal fraction of twins is ⁇ and the individual fraction of twins is ⁇ /2. According to this assumption, if the genotype is recalculated by introducing the fetal fraction ⁇ , it is shown in Table 3 below.
  • the fetal fraction ⁇ can be estimated by techniques such as SeqFF.
  • SeqFF SeqFF.
  • Table 4 the distribution of possible genotypes as shown in Table 4 below is possible.
  • Table 5 the distribution of possible genotypes in Table 3 are possible as shown in Table 5 below.
  • BAF B-Allele Frequency
  • b is the number of B alleles
  • p B is BAF
  • p A is AAF
  • the junction type with the highest probability at the i-th position can be determined.
  • the likelihood value for the zygosity type is obtained for all SNPs, the zygosity type of the twins can be finally estimated. If this is expressed as a formula, it is as Equation 2 below.
  • the final discrimination score D can be expressed as in Equation 3 below.
  • the score or criterion for determining congruency may be expressed in other forms.
  • Equations 2 and 3 are respectively shown below.
  • log(D) > 0 it can be determined as identical, and if log(D) ⁇ 0, it can be determined as fraternal.
  • the analysis device is a mixed model described in Equation 1, and can determine splicability for each allele locus.
  • the analyzer finally determines twin zygosity for the sample, based on the zygosity determined for all allele loci.
  • the analysis device may determine twin zygosity based on a value such as Equation 3 or Equation 5.
  • the above formula is only one example of calculating a value for determining twin zygosity. Values for determining twin zygosity can be generated in various forms using values determined from the mixed model of Equation 1.
  • the analysis device 400 is a device corresponding to the analysis device 150 or 250 of FIG. 1 .
  • the analysis device 400 determines the zygosity of the twins from the sample using the aforementioned mixture model.
  • the analysis device 400 may be physically implemented in various forms.
  • the analysis device 400 may have a form of a computer device such as a PC, a smart device, a network server, and a chipset dedicated to data processing.
  • the analysis device 400 includes a storage device 410, a memory 420, an arithmetic device 430, an interface device 440, a communication device 450, and an output device 460.
  • the storage device 410 stores a program for determining the conjugation type of twins using genome analysis information.
  • the storage device 410 may store a program for determining a fetal fraction using genome information.
  • the storage device 410 may store a program for detecting the genotype of an allele locus.
  • the storage device 410 may store other programs or source codes necessary for data processing.
  • the storage device 410 may store input genome information and analysis results.
  • the memory 420 may store data generated in the process of analyzing the data received by the analysis device 400 .
  • the interface device 440 is a device that receives certain commands and data from the outside.
  • the interface device 440 may receive dielectric information from a physically connected input device or an external storage device.
  • the interface device 440 may receive a program or source code for data analysis.
  • the communication device 450 refers to a component that receives and transmits certain information through a wired or wireless network.
  • the communication device 450 may receive dielectric information from an external object.
  • the communication device 450 may transmit the analysis result to an external object.
  • the communication device 450 or interface device 440 is a device that receives certain data or commands from the outside.
  • the communication device 450 or the interface device 440 may be referred to as an input device.
  • the input device may receive genome information of a sample to be analyzed.
  • the input device may input or receive genome information from a genome information generating device, an external server, or a DB.
  • the output device 460 is a device that outputs certain information.
  • the output device 460 may output interfaces and analysis results required for data processing.
  • the arithmetic device 430 may determine the fetal genome fraction based on genome analysis information using a program stored in the storage device 410 .
  • the arithmetic unit 430 may obtain genotype information of each of a plurality of SNPs from genome information.
  • the arithmetic unit 430 may determine the genotype of the SNP using a program for detecting the genotype.
  • the calculator 430 may calculate a genotype ratio at an allele locus based on the genotype information.
  • the calculator 430 may input the read depth used to generate the genome analysis information and the genotype ratio to the mixed model to calculate the probability of fraternal or identical twins for each of the plurality of SNPs.
  • the arithmetic unit 430 may determine a junction type having a maximum likelihood based on all of the plurality of SNPs.
  • the arithmetic device 430 may be a device such as a processor, an AP, or a chip in which a program is embedded that processes data and performs certain arithmetic operations.
  • 4 to 6 are examples of simulation results for prediction of twin zygosity.
  • the effectiveness of the above-mentioned twin zygosity prediction technique was verified based on the genetic information data of the mother and twins and the previously known zygosity information.
  • 4 is a simulation result based on 1,000 SNPs.
  • 5 is a simulation result based on 5,000 SNPs.
  • 6 shows simulation results based on 10,000 SNPs.
  • a plurality of SNPs can be selected arbitrarily without a specific criterion.
  • depth represents the read depth
  • FF represents the fetal fraction.
  • 20 samples were prepared considering the case where the depth was 2x, 5x, 10x, 40x, 100x, and 1000x, respectively.
  • % means prediction accuracy.
  • Prediction accuracy varies with read depth and/or fetal fraction. Prediction accuracy depends on the combination of read depth and fetal fraction. Overall, stable accuracy is shown when the read depth is 1,000 or more and the fetal fraction is 0.1 or more.
  • the analysis device may calculate expected accuracy for the currently given data. For example, the analyzer may predict the accuracy of zygosity prediction using the number of SNPs, read depth, and fetal fraction as variables and output the accuracy. Since FIGS. 4 to 6 are results of one experiment, a map for prediction accuracy may be prepared in advance based on a larger number of samples for accuracy prediction.
  • the method for determining the conjugation type of twins as described above can be implemented as a program (or application) including an executable algorithm that can be executed on a computer.
  • the program may be stored and provided in a temporary or non-transitory computer readable medium.
  • a non-transitory readable medium is not a medium that stores data for a short moment, such as a register, cache, or memory, but a medium that stores data semi-permanently and can be read by a device.
  • the various applications or programs described above are CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM (read-only memory), PROM (programmable read only memory), EPROM (Erasable PROM, EPROM)
  • ROM read-only memory
  • PROM programmable read only memory
  • EPROM Erasable PROM, EPROM
  • it may be stored and provided in a non-transitory readable medium such as EEPROM (Electrically EPROM) or flash memory.
  • Temporary readable media include static RAM (SRAM), dynamic RAM (DRAM), synchronous DRAM (SDRAM), double data rate SDRAM (DDR SDRAM), and enhanced SDRAM (Enhanced SDRAM). SDRAM, ESDRAM), Synchronous DRAM (Synclink DRAM, SLDRAM) and Direct Rambus RAM (DRRAM).
  • SRAM static RAM
  • DRAM dynamic RAM
  • SDRAM synchronous DRAM
  • DDR SDRAM double data rate SDRAM
  • Enhanced SDRAM Enhanced SDRAM
  • SDRAM ESDRAM
  • Synchronous DRAM Synchronous DRAM
  • SLDRAM Direct Rambus RAM
  • DRRAM Direct Rambus RAM

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Ecology (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법은 분석장치가 산모 혈장 샘플에 대한 복수의 SNP(Single Nucleotide Polymorphism) 각각의 유전자형 정보를 획득하는 단계, 상기 분석장치가 쌍태아의 접합성(zygosity)에 대한 혼합 모델을 이용하여 상기 복수의 SNP별로 쌍태아의 이란성 또는 일란성 확률을 연산하는 단계 및 상기 분석장치가 상기 복수의 SNP 전체를 기준으로 최대 우도를 갖는 쌍태아 접합성의 타입을 결정하는 단계를 포함한다.

Description

혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법 및 분석 장치
이하 설명하는 기술은 비침습적 산전 검사로 쌍태아에 대한 접합성을 결정하는 기법이다.
본 발명은 보건복지부와 한국보건산업진흥원의 "공익적 질병극복연구 지원사업(R&D)" 사업의 지원을 받아 수행된 연구 결과이다(연구과제명: 쌍태 임신에서 태아의 염색체 이상을 확인하기 위한 적정 선별검사 방법 개발 / 과제고유번호: 1465029281).
산전 진단 방법은 크게 침습적 진단 방법과 비침습적 진단 방법으로 구분된다. 침습적 진단 방법은 검사 과정에서 산모 및 태아에 충격을 유발하여 문제가 될 수 있다. 따라서, 비침습적 진단 방법이 각광받고 있다.
비침습적 진단 방법은 주로 산모 혈장 내의 cfDNA(cell-free DNA)를 이용한다. 차세대 서열분석(Next Generation Sequencing: NGS)과 같은 대규모 병렬형 서열분석(massively parallel sequencing) 기술의 도입되면서 비침습적 진단 방법이 본격적으로 시장에 등장하였다.
비침습적 산전 검사(noninvasive prenatal testing, NIPT)는 검사 가능한 항목이 늘어나고, 비용도 낮아지면서 점차 보편화되고 있다.
비침습적 산전 검사는 주로 단태아를 대상으로 한다. 쌍태아(다태아)를 대상으로 하는 경우, 서로 다른 태아의 유전체 정보가 혼합되기에 검사하기 어려운 항목도 있고, 검사 가능한 항목도 그 정확도가 떨어지게 된다.
이하 설명하는 기술은 비침습적으로 쌍태아의 접합성(zygosity)을 판별하는 기법을 제공하고자 한다.
혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법은 분석장치가 산모 혈장 샘플에 대한 복수의 SNP(Single Nucleotide Polymorphism) 각각의 유전자형 정보를 획득하는 단계, 상기 분석장치가 쌍태아의 접합성(zygosity)에 대한 혼합 모델을 이용하여 상기 복수의 SNP별로 쌍태아의 이란성 또는 일란성 확률을 연산하는 단계 및 상기 분석장치가 상기 복수의 SNP 전체를 기준으로 최대 우도를 갖는 쌍태아 접합성의 타입을 결정하는 단계를 포함한다. 상기 혼합 모델은 리드(read) 깊이 및 대립유전자 자리에서의 유전자형 비율을 변수로 갖는다.
쌍태아의 접합성 타입을 결정하는 분석장치는 산모 혈장 샘플에 대한 유전체 정보를 입력받는 입력장치, 상기 유전체 정보를 이용하여 쌍태아의 접합성(zygosity) 타입을 결정하는 프로그램을 저장하는 저장장치 및 상기 유전체 정보에서 복수의 SNP(Single Nucleotide Polymorphism) 각각의 유전자형 정보를 획득하고, 상기 유전자형 정보를 기준으로 대립유전자 자리에서의 유전자형 비율을 연산하고, 상기 유전체 정보 생성에 사용된 리드(read) 깊이와 상기 유전자형 비율을 혼합모델에 입력하여 상기 복수의 SNP별로 쌍태아의 이란성 또는 일란성 확률을 연산하고, 상기 복수의 SNP 전체를 기준으로 최대 우도를 갖는 접합성 타입을 결정하는 연산장치를 포함한다.
이하 설명하는 기술은 비침습적으로 쌍태아가 이란성인지 또는 일란성인지 여부에 대하여 매우 정확한 진단 정보를 제공한다.
도 1은 쌍태아 접합성 타입을 분석하는 시스템의 예이다.
도 2는 쌍태아 접합성을 결정하는 과정에 대한 순서도의 예이다.
도 3은 쌍태아 접합성 타입을 결정하는 분석장치의 구조에 대한 예이다.
도 4는 쌍태아 접합성 예측에 대한 시뮬레이션 결과의 예이다.
도 5는 쌍태아 접합성 예측에 대한 시뮬레이션 결과의 다른 예이다.
도 6은 쌍태아 접합성 예측에 대한 시뮬레이션 결과의 또 다른 예이다.
이하 설명하는 기술은 다양한 변경을 가할 수 있고 여러 가지 실시례를 가질 수 있는 바, 특정 실시례들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 이하 설명하는 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 이하 설명하는 기술의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 이하 설명하는 기술의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설명된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.
도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.
또, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
이하 설명하는 기술은 비침습적 산전 검사 기법에 해당한다. 이하 설명에서 사용하는 용어나 기법에 대하여 먼저 간략하게 설명한다.
샘플은 산모의 DNA와 태아의 DNA를 함께 얻을 수 있는 시료를 의미한다. 예컨대, 샘플은 산모의 혈장일 수 있다.
산모 혈장 내의 cfDNA는 산모의 DNA와 태아의 DNA가 모두 존재한다. 일반적으로 임신 주수에 비례하여 태아 DNA의 양이 증가한다고 알려졌다.
태아 분획(fetal fraction)은 샘플에서 태아 DNA가 차지하는 비율을 의미한다. 일반적으로 정확한 산전검사를 위해서는 분획이 일정한 값 이상이어야 의미가 있다고 알려졌다.
쌍태아의 접합성는 이란성(dizygotic twin) 또는 일란성(monozygotic twin)으로 구분된다.
샘플에서 유전체를 분석하는 방법은 다양하다. 유전체를 분석한 정보를 유전체 정보라고 명명한다. 유전체 정보는 염기서열, 유전자 발현 데이터, 표준 유전체 데이터와의 유전 변이, DNA 메틸화(methylation) 등을 포함할 수 있다.
이하 설명하는 기술은 산모 샘플로부터 획득 가능한 산모 유래 cfDNA와 태아 유래 cfDNA에 대한 유전체 정보를 이용할 수 있다. cfDNA의 분석을 위한 범위는 단일 변이부터 전체 유전체 분석까지 다양하다.
몇 가지 예를 설명한다. 대표적인 단일 변이 시험은 특이 중합효소 연쇄 반응법(allele-specific PCR)과 디지털 PCR (digital PCR, dPCR)이 있다. 표적 서열 분석(targeted sequencing)은 많은 수의 유전자들을 한꺼번에 분석할 수 있다. NGS에 기반한 WGS(whole-genome sequencing)는 전체 유전체의 정보를 제공한다. 이하 설명에서 산모 샘플에 대한 WGS를 수행한 분석 결과(WGS 데이터)를 이용한다고 가정한다.
WGS 결과는 디지털 데이터로 제공된다. 데이터 처리 및 연산 가능한 컴퓨터 장치가 WGS 데이터를 분석하여 쌍태아 접합성을 확인한다. 이하, WGS 데이터를 분석하는 장치를 분석장치라고 명명한다. 분석장치는 PC, 서버, 스마트기기 등 다양한 형태로 구현될 수 있다.
이하 설명하는 기술은 산모 샘플에서 복수의 SNP(Single Nucleotide Polymorphism)에 대한 유전자형(genotype)을 이용하여 쌍태아의 접합성을 확인한다. 분석장치는 유전자형 검출(genotype calling) 알고리즘을 이용하여 WGS 데이터를 기준으로 SNP에 대한 유전자형을 결정할 수 있다. 유전자형을 검출하는 알고리즘은 공개된 다양한 기법 내지 프로그램을 사용할 수 있다.
또한, 분석장치는 산모 샘플에 대한 WGS 데이터를 이용하여 샘플에서의 분획을 결정할 수 있다. 분석장치 다양한 알고리즘을 이용하여 분획을 결정할 수 있다. 예컨대, 분석 장치는 SeqFF(Kim SK, Determination of fetal DNA fraction from the plasma of pregnant women using sequence read counts,Prenat Diagn. 2015 Aug;35(8):810-5. doi: 10.1002/pd.4615. Epub 2015 Jun 3.)를 이용하여 샘플의 분획을 추정할 수 있다.
도 1은 쌍태아 접합성 타입을 분석하는 시스템의 예이다.
도 1은 서비스 사용자(A), 유전체 정보 제공자(B) 및 서비스 제공자(C)를 도시한다.
서비스 사용자(A)는 분석장치가 분석한 쌍태아 접합성 정보를 제공받는 주체이다. 서비스 사용자(A)는 개인 또는 의료 기관일 수 있다. 서비스 사용자(A)는 분석을 위한 샘플을 제공할 수 있다.
유전체 정보 제공자(B)는 시료를 분석하여 개인 유전체 정보를 제공하는 주체이다. 예컨대, 유전체 정보 제공자(B)는 WGS 등을 이용하여 샘플에 대한 유전체 정보를 생성할 수 있다.
서비스 제공자(C)는 샘플의 유전체 정보를 이용하여 쌍태아의 접합성 정보를 제공하는 주체이다. 서비스 제공자(C)는 유전체 데이터를 분석하는 전문 기관일 수 있다. 한편, 서비스 제공자(C)는 유전체 정보를 생성하는 유전체 정보 제공자(B)와 동일한 주체일 수 있다. 이 경우, 서비스 제공자(C)는 서비스 사용자(A)로부터 샘플을 전달받아, 유전체 정보를 생성하고, 유전체 정보에 기반하여 쌍태아의 접합성 정보를 제공한다.
도 1은 2가지 유형의 시스템을 도시한다. 분석 장치(150, 250)는 샘플의 유전체 정보를 분석하여 쌍태아 접합성 타입을 결정한다. 도 1에서 분석장치는 네트워크 서버(150) 및 컴퓨터 단말(250)의 형태로 도시하였다.
도 1(A)는 서버 형태의 분석장치(150)를 포함하는 시스템(100)에 대한 예이다. 유전체 정보 생성장치(110)는 산모 샘플에 대한 유전체 정보를 생성한다. 유전체 정보 생성장치(110)는 생성한 유전체 정보를 유전체 DB(120)에 저장할 수도 있다.
분석장치(150)는 유전체 정보 생성장치(110) 또는 유전체 DB(120)로부터 특정 샘플의 유전체 정보를 수신한다. 특정 샘플을 구별하기 위하여 유전체 정보는 개체에 대한 식별정보를 포함할 수 있다.
분석장치(150)는 샘플의 유전체 정보를 기준으로 해당 샘플의 쌍태아 접합성 타입을 결정한다. 분석장치(150)는 샘플에 대한 분석 결과를 서비스 사용자(A)에게 제공할 수 있다. 예컨대, 분석장치(150)는 개인 단말(50)에 분석 결과를 전송할 수도 있다.
도 1(B)는 컴퓨터 단말 형태의 분석장치(250)를 포함하는 시스템(200)에 대한 예이다. 유전체 정보 생성장치(210)는 산모 샘플에 대한 유전체 정보를 생성한다. 유전체 정보 생성장치(210)는 생성한 유전체 정보를 유전체 DB(220)에 저장할 수도 있다.
분석장치(250)는 유선 또는 무선 네트워크로 유전체 정보 생성장치(210) 또는 유전체 DB(220)로부터 특정 샘플의 유전체 정보를 수신할 수 있다. 또는 분석장치(250)는 유전체 정보를 저장 매체(SD카드, USB 등)를 통해 입력받을 수도 있다. 특정 샘플을 구별하기 위하여 유전체 정보는 개체에 대한 식별정보를 포함할 수 있다.
분석장치(250)는 샘플의 유전체 정보를 기준으로 해당 샘플의 쌍태아 접합성 타입을 결정한다. 분석장치(250)는 샘플에 대한 분석 결과를 출력할 수 있다.
도 2는 쌍태아 접합성을 결정하는 과정(300)에 대한 순서도의 예이다.
분석장치는 샘플의 유전체 정보를 획득한다(310). 전술한 바와 같이 분석장치가 샘플을 전달받아 WGS 기법을 이용하여 유전체 정보를 생성할 수도 있다.
분석장치는 유전체 정보를 이용하여 샘플의 분획을 결정할 수 있다(320). 또는 분석장치가 별도의 장치로부터 분획 정보만을 수신할 수도 있다.
분석장치는 복수의 SNP에 대한 유전형을 결정한다. 이때, 분석 대상이 되는 대립유전자 자리들은 사전에 결정된 복수의 자리를 이용할 수 있다. SNP 개수는 다양할 수 있다. 분석장치는 샘플의 SNP 중 수백 개, 수천 개, 수만 개 등의 SNP를 타깃으로 대립유전자 유전형을 결정할 수 있다. NGS 데이터를 이용하여 SNP의 유전형을 결정하는 다양한 알고리즘이 있다. 분석장치는 특정한 유전형 검출 알고리즘을 사용하여 SNP에서의 유전형을 결정할 수 있다.
분석장치는 복수의 SNP 중 개별 SNP에 대하여 각각 유전형을 결정한다. 분석 대상의 SNP 개수를 total이라는 개수라고 가정한다. SNPi에서 i는 SNP의 식별자이고 개수를 나타낸다. i = 1 ~ total 범위라고 가정한다. 분석장치는 SNPi의 유전형을 결정한다(330). 분석장치는 혼합모델을 이용하여 SNPi에 대한 접합성을 결정한다(340). 혼합모델을 이용한 접합성 결정 과정은 후술한다.
분석장치는 i ≥ total 인지 확인하고(350), 아닌 경우 i를 하나 증가시켜(-360) 다음 SNP에 대하여 동일한 과정을 반복한다. i = total인 경우(즉, 모든 SNP에 대하여 접합성을 결정한 상태), 분석장치는 전체 SNP에 대한 접합성을 카운트하여, 최대 개수를 갖는 접합성 타입을 쌍태아의 접합성으로 결정할 수 있다(370).
이하 혼합모델을 이용한 쌍태아 접합성 결정 과정에 대하여 설명한다.
쌍태아를 임신한 산모의 혈장에서 지노타이핑(genotyping)을 한경우 가능한 변이 조합은 아래 표 1과 같다. 유전자형은 A와 B로 표시한다.
산모 생부 자녀
AA AA AA
AB AA, AB
BB AB
AB AA AA, AB
AB AA, AB, BB
BB AB, BB
BB AA AB
AB AB, BB
BB BB
산모가 동형 대립유전자(homozygous allele)인 경우 자녀는 AA, AB 또는 BB, AB만 가능하다. 산모가 이형 대립유전자(heterozygous allele)인 경우 자녀는 AA, AB 및 BB가 모두 가능하다. 표 1을 기준으로 표 2와 같은 가능한 쌍태아의 SNP 조합을 생각할 수 있다.
산모 태아1 태아2 유전형 쌍태아 종류
AA AA AA AAAAAA 일란성, 이란성
AB AAAAAB 이란성
AB AA AAAAAB 이란성
AB AAAABB 일란성, 이란성
AB AA AA AAAAAB 일란성, 이란성
AB AAAABB 이란성
BB AAABBB 이란성
AB AA AAAABB 이란성
AB AAABBB 일란성, 이란성
BB AABBBB 이란성
BB AA AAAABB 이란성
AB AAABBB 이란성
BB AABBBB 일란성, 이란성
BB AB AB AABBBB 일란성, 이란성
BB ABBBBB 이란성
BB AB ABBBBB 이란성
BB BBBBBB 일란성, 이란성
유전형이 리드 깊이에 따라 검출(calling) 된다고 하면, 일정한 통계 모형을 고려할 수 있다. 각 대립유전자 i별 리드의 깊이를 Ni 라고 하면, 해당 리드에 서 검출되는 대립유전자 ai는 상기 표 2 에서 정의한 유전형에 따른 A 또는 B의 비율로부터의 N개의 복원추출로 생각할 수 있다.이때, 쌍태아의 총 태아 분획은 α이고 쌍태아 각각의 분획은 α/2라고 가정한다. 이 가정에 따라 태아 분획 α를 도입하여 유전형을 다시 계산하면 아래 표 3과 같다.
Figure PCTKR2021019832-appb-img-000001
여기서 태아 분획 α는 SeqFF 등과 같은 기법으로 추정을 할 수 있다. 일란성 태아 경우, 가능한 유전형들은 아래 표 4와 같은 분포만이 가능하다. 반면에 이란성 태아 경우, 가능한 유전형들은 아래 표 5와 같이 표3의 모든 경우가 가능하다.
Figure PCTKR2021019832-appb-img-000002
Figure PCTKR2021019832-appb-img-000003
상기 표 4와 5에서 BAF(B-Allele Frequency)에 분획 추정치를 입력하면, 각 조건별 BAF가 계산된다. BAF는 대립유전자 B (B-Allele)가 각 allele의 depth에 기여한 비율(B/(A+B))을 나타낸 값이다. AAF(A-Allele Frequency)는 1- BAF로 구할 수 있다. 특정 ai에서 검출된 깊이 Ni의 변이는 복원 추출(이진분포)로 모델링이 가능하다. 이에 따른 혼합모델은 아래 수학식 1과 같이 표현될 수 있다.
Figure PCTKR2021019832-appb-img-000004
여기서, b는 B 대립 유전자의 개수, pB는 BAF이고, pA는 AAF이다.
예컨대, 태아 분획이 10%이고, Ni = 10이고, 대립 유전자 A가 4개, 대립 유전자 B가 6개가 나온 경우를 가정하면, 상기 표 4 및 표 5로부터 일란성일 때와 이란성일 때에 대한 우도(likelihood)를 아래 표 6과 같이 구할 수 있다.
Figure PCTKR2021019832-appb-img-000005
상기 표 6에서 가장 높은 확률 값을 보이는 모델을 선택하면 i번째 위치에서의 가장 확률 높은 접합성 타입을 결정할 수 있다. 이와 같이 전체 SNP에 대하여 접합성 타입에 대한 우도값을 구하면, 최종적으로 쌍태아의 접합성 타입을 추정할 수 있다. 이를 수식으로 표현하면 아래 수학식 2와 같다.
Figure PCTKR2021019832-appb-img-000006
최종 판별 점수 D는 아래 수학식 3과 같이 표현할 수 있다. 물론 접합성 판별을 위한 점수나 기준을 다른 형태로 표현할 수도 있다.
Figure PCTKR2021019832-appb-img-000007
이 경우, D > 1.0이면 일란성으로 판단하고, D < 1.0이면 이란성으로 판단한다.
상기 수학식 2 및 수학식 3에 log값을 취하면, 각각 아래 수학식 4 및 수학식 5와 같다.
Figure PCTKR2021019832-appb-img-000008
Figure PCTKR2021019832-appb-img-000009
이 경우, log(D) > 0이면 일란성으로 판단하고, log(D) < 0이면 이란성으로 판단할 수 있다.
분석장치는 수학식 1에서 설명한 혼합모델로 대립유전자 자리별로 접합성을 판별할 수 있다. 분석장치는 전체 대립유전자 자리에 대하여 결정된 접합성을 기준으로, 최종적으로 샘플에 대한 쌍태아 접합성을 결정한다. 분석장치는 수학식 3 또는 수학식 5와 같은 값을 기준으로 쌍태아 접합성을 판단할 수 있다. 다만, 상기 수식은 쌍태아 접합성 판정을 위한 값을 산출하는 하나의 예에 불과하다. 쌍태아 접합성 판정을 위한 값은 수학식 1의 혼합모델로부터 결정되는 값을 이용하여 다양한 형태로 생성할 수 있다.
도 3은 쌍태아 접합성 타입을 결정하는 분석장치(400)의 구조에 대한 예이다. 분석장치(400)는 도 1의 분석 장치(150 또는 250)에 해당하는 장치이다. 분석장치(400)는 전술한 혼합모델을 이용하여 샘플로부터 쌍태아의 접합성을 결정한다.
분석장치(400)는 물리적으로 다양한 형태로 구현될 수 있다. 예컨대, 분석장치(400)는 PC와 같은 컴퓨터 장치, 스마트기기, 네트워크의 서버, 데이터 처리 전용 칩셋 등의 형태를 가질 수 있다.
분석장치(400)는 저장장치(410), 메모리(420), 연산장치(430), 인터페이스 장치(440), 통신장치(450) 및 출력장치(460)를 포함한다.
저장장치(410)는 유전체 분석 정보를 이용하여 쌍태아의 접합성 타입을 결정하는 프로그램을 저장한다. 저장장치(410)는 유전체 정보를 이용하여 태아 분획을 결정하는 프로그램을 저장할 수 있다. 또한, 저장장치(410)는 대립유전자 자리의 유전형 검출을 위한 프로그램을 저장할 수 있다. 나아가 저장장치(410)는 데이터 처리에 필요한 다른 프로그램 내지 소스 코드 등을 저장할 수 있다. 저장장치(410)는 입력되는 유전체 정보 및 분석 결과를 저장할 수 있다.
메모리(420)는 분석장치(400)가 수신한 데이터를 분석하는 과정에서 생성되는 데이터를 저장할 수 있다.
인터페이스 장치(440)는 외부로부터 일정한 명령 및 데이터를 입력받는 장치이다. 인터페이스 장치(440)는 물리적으로 연결된 입력 장치 또는 외부 저장장치로부터 유전체 정보를 입력받을 수 있다. 인터페이스 장치(440)는 데이터 분석을 위한 프로그램 내지 소스코드를 입력받을 수 있다.
통신장치(450)는 유선 또는 무선 네트워크를 통해 일정한 정보를 수신하고 전송하는 구성을 의미한다. 통신장치(450)는 외부 객체로부터 유전체 정보를 수신할 수 있다. 통신장치(450)는 분석 결과를 외부 객체로 송신할 수 있다.
통신장치(450) 내지 인터페이스 장치(440)는 외부로부터 일정한 데이터 내지 명령을 전달받는 장치이다. 통신장치(450) 내지 인터페이스 장치(440)를 입력장치라고 명명할 수 있다.
입력 장치는 분석 대상인 샘플의 유전체 정보를 입력받을 수 있다. 예컨대, 입력 장치는 유전체 정보 생성장치, 외부 서버 또는 DB로부터 유전체 정보를 입력받고나 수신할 수 있다.
출력장치(460)는 일정한 정보를 출력하는 장치이다. 출력장치(460)는 데이터 처리 과정에 필요한 인터페이스, 분석 결과 등을 출력할 수 있다.
연산장치(430)는 저장장치(410)에 저장된 프로그램을 이용하여 유전체 분석 정보를 기준으로 유전체 태아 분획을 결정할 수 있다.
연산장치(430)는 유전체 정보에서 복수의 SNP 각각의 유전자형 정보를 획득할 수 있다. 연산장치(430)는 유전형 검출을 위한 프로그램을 이용하여 SNP의 유전자형을 결정할 수 있다.
연산장치(430)는 유전자형 정보를 기준으로 대립유전자 자리에서의 유전자형 비율을 연산할 수 있다. 연산장치(430)는 유전체 분석 정보 생성에 사용된 리드 깊이와 상기 유전자형 비율을 혼합모델에 입력하여 상기 복수의 SNP별로 쌍태아의 이란성 또는 일란성 확률을 연산할 수 있다. 연산장치(430)는 복수의 SNP 전체를 기준으로 최대 우도를 갖는 접합성 타입을 결정할 수 있다.
연산장치(430)는 데이터를 처리하고, 일정한 연산을 처리하는 프로세서, AP, 프로그램이 임베디드된 칩과 같은 장치일 수 있다.
도 4 내지 도 6은 쌍태아 접합성 예측에 대한 시뮬레이션 결과의 예이다. 시뮬레이션을 위하여 산모와 쌍태아의 유전자 정보 데이터와 사전에 알려진 접합성 정보를 기준으로 전술한 쌍태아 접합성 예측 기법의 효과를 검증하였다.
도 4는 1,000 개의 SNP를 기준으로 시뮬레이션한 결과이다. 도 5는 5,000 개의 SNP를 기준으로 시뮬레이션한 결과이다. 도 6은 10,000 개의 SNP를 기준으로 시뮬레이션한 결과이다. 복수의 SNP는 특정한 기준 없이 임의의 자리를 선택할 수 있다.
depth는 리드 깊이를 나타내고, FF는 태아 분획을 나타낸다. FF가 0.06, 0.1, 0.2, 0.3, 0.4 및 0.5인 경우에, 각각 depth가 2x, 5x, 10x, 40x, 100x 및 1000x인 경우를 고려하여 샘플을 20개씩 마련하였다. %는 예측 정확도를 의미한다.
SNP의 개수에 따라 시뮬레이션 결과가 차이가 조금 있었지만, SNP 1,000개 정도이면 충분히 정확한 정보를 제공하였다. 일란성에 대해서는 대체적으로 높은 정확도를 보였지만, 이란성 경우 정확도가 다소 떨어지는 경향이 관찰되었다.
리드 깊이 및/또는 태아 분획에 따라 예측 정확도가 달라진다. 리드 깊이와 태아 분획의 조합에 따라 예측 정확도가 달라진다. 전체적으로 리드 깊이는 1,000 이상이고, 태아분획이 0.1 이상인 경우 안정적인 정확도를 보여준다.
이와 같은 시뮬레이션 결과를 이용하여, 분석장치가 현재 주어진 데이터에 대한 예상 정확도를 산출할 수도 있다. 예컨대, 분석장치는 SNP 개수, 리드 깊이 및 태아 분획을 변수로 하여 접합성 예측의 정확도를 예측하고 정확도를 출력할 수도 있다. 도 4 내지 도 6은 하나의 실험 결과이므로, 정확도 예측을 위하여 보다 대량의 샘플을 기준으로 예측 정확도에 대한 맵을 사전에 준비할 수도 있다.
또한, 상술한 바와 같은 쌍태아의 접합성 타입 결정 방법은 컴퓨터에서 실행될 수 있는 실행가능한 알고리즘을 포함하는 프로그램(또는 어플리케이션)으로 구현될 수 있다. 상기 프로그램은 일시적 또는 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM (read-only memory), PROM (programmable read only memory), EPROM(Erasable PROM, EPROM) 또는 EEPROM(Electrically EPROM) 또는 플래시 메모리 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
일시적 판독 가능 매체는 스태틱 램(Static RAM,SRAM), 다이내믹 램(Dynamic RAM,DRAM), 싱크로너스 디램 (Synchronous DRAM,SDRAM), 2배속 SDRAM(Double Data Rate SDRAM,DDR SDRAM),증강형 SDRAM(Enhanced SDRAM,ESDRAM), 동기화 DRAM(Synclink DRAM,SLDRAM) 및 직접 램버스 램(Direct Rambus RAM,DRRAM) 과 같은 다양한 RAM을 의미한다.
본 실시례 및 본 명세서에 첨부된 도면은 전술한 기술에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 전술한 기술의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시례는 모두 전술한 기술의 권리범위에 포함되는 것이 자명하다고 할 것이다.

Claims (14)

  1. 분석장치가 산모 혈장 샘플에 대한 복수의 SNP(Single Nucleotide Polymorphism) 각각의 유전자형 정보를 획득하는 단계;
    상기 분석장치가 쌍태아의 접합성(zygosity)에 대한 혼합 모델을 이용하여 상기 복수의 SNP별로 쌍태아의 이란성 또는 일란성 확률을 연산하는 단계; 및
    상기 분석장치가 상기 복수의 SNP 전체를 기준으로 최대 우도를 갖는 쌍태아 접합성의 타입을 결정하는 단계를 포함하되,
    상기 혼합 모델은 리드(read) 깊이 및 대립유전자 자리에서의 유전자형 비율을 변수로 갖는 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법.
  2. 제1항에 있어서,
    상기 분석장치가 상기 샘플에 대한 태아 분획을 획득하는 단계를 더 포함하고, 상기 분석장치는 상기 태아 분획을 이용하여 상기 유전자형 비율을 연산하는 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법.
  3. 제1항에 있어서,
    상기 혼합모델은 아래 수식으로 표현되는 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법.
    Figure PCTKR2021019832-appb-img-000010
    (대립유전자의 유전자형은 각각 A 및 B로 표시하고, Ni는 리드의 깊이, b는 B 대립 유전자의 개수, pB는 BAF(B-Allele Frequency)이고, pA는 AAF(A-Allele Frequency)임)
  4. 제1항에 있어서,
    상기 분석장치는 상기 복수의 SNP 자리마다 상기 혼합 모델로 가장 확률이 높은 쌍태아의 접합성 타입을 결정하고, 상기 복수의 SNP 전체를 기준으로 이란성 또는 일란성 중 상기 결정된 접합성 타입의 개수가 많은 타입을 상기 쌍태아 접합성의 타입으로 결정하는 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법.
  5. 제1항에 있어서,
    상기 분석장치는
    상기 리드의 깊이가 1000 이상이고, 태아 분획이 0.1 이상인 경우, 상기 쌍태아의 접합성 타입을 결정하는 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법.
  6. 제1항에 있어서,
    상기 분석장치는
    상기 리드의 깊이가 제1 임계값 이상인지 여부 및 태아 분획이 제2 임계값 이상인지 여부 중 적어도 하나에 따라서 상기 결정된 쌍태아 접합성 타입에 대한 정확도를 결정하는 단계를 더 포함하는 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법.
  7. 제1항에 있어서,
    상기 분석장치는 상기 복수의 SNP 각각에서
    상기 산모 및 쌍태아에 대한 유전자형을 조합하여 나올 수 있는 유전자형 세트에 대하여 각각 태아 분획과 SNP 자리에서의 유전자형 비율을 기준으로 상기 혼합모델의 확률값을 결정하고, 가장 높은 확률값을 가지는 모델을 해당 SNP 자리에서의 접합성 타입으로 결정하는 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법.
  8. 산모 혈장 샘플에 대한 유전체 정보를 입력받는 입력장치;
    상기 유전체 정보를 이용하여 쌍태아의 접합성(zygosity) 타입을 결정하는 프로그램을 저장하는 저장장치; 및
    상기 유전체 정보에서 복수의 SNP(Single Nucleotide Polymorphism) 각각의 유전자형 정보를 획득하고, 상기 유전자형 정보를 기준으로 대립유전자 자리에서의 유전자형 비율을 연산하고, 상기 유전체 정보 생성에 사용된 리드(read) 깊이와 상기 유전자형 비율을 혼합모델에 입력하여 상기 복수의 SNP별로 쌍태아의 이란성 또는 일란성 확률을 연산하고, 상기 복수의 SNP 전체를 기준으로 최대 우도를 갖는 접합성 타입을 결정하는 연산장치를 포함하는 쌍태아의 접합성 타입을 결정하는 분석장치.
  9. 제8항에 있어서,
    상기 입력장치는 상기 유전체 정보를 이용하여 태아 분획을 결정하는 프로그램을 더 저장하고,
    상기 연산장치는 태아 분획을 결정하는 프로그램을 이용하여 상기 유전체 정보로부터 상기 샘플에 대한 태아 분획을 결정하는 쌍태아의 접합성 타입을 결정하는 분석장치.
  10. 제8항에 있어서,
    상기 혼합모델은 아래 수식으로 표현되는 쌍태아의 접합성 타입을 결정하는 분석장치.
    Figure PCTKR2021019832-appb-img-000011
    (대립유전자의 유전자형은 각각 A 및 B로 표시하고, Ni는 리드의 깊이, b는 B 대립 유전자의 개수, pB는 BAF(B-Allele Frequency)이고, pA는 AAF(A-Allele Frequency)임)
  11. 제8항에 있어서,
    상기 연산장치는 상기 복수의 SNP 자리마다 상기 혼합 모델로 가장 확률이 높은 쌍태아의 접합성 타입을 결정하고, 상기 복수의 SNP 전체를 기준으로 이란성 또는 일란성 중 상기 결정된 접합성 타입의 개수가 많은 타입을 상기 쌍태아의 타입으로 결정하는 쌍태아의 접합성 타입을 결정하는 분석장치.
  12. 제8항에 있어서,
    상기 연산장치는 상기 리드의 깊이가 1000 이상이고, 태아 분획이 0.1 이상인 경우, 상기 쌍태아의 접합성 타입을 결정하는 쌍태아의 접합성 타입을 결정하는 분석장치.
  13. 제8항에 있어서,
    상기 연산장치는 상기 복수의 SNP 각각에서
    상기 산모 및 쌍태아에 대한 유전자형을 조합하여 나올 수 있는 유전자형 세트에 대하여 각각 태아 분획과 SNP 자리에서의 유전자형 비율을 기준으로 상기 혼합모델의 확률값을 결정하고, 가장 높은 확률값을 가지는 모델을 해당 SNP 자리에서의 접합성 타입으로 결정하는 쌍태아의 접합성 타입을 결정하는 분석장치.
  14. 컴퓨터에서 제1항 내지 제7항 중 어느 하나의 항에 기재된 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
PCT/KR2021/019832 2021-12-24 2021-12-24 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법 및 분석 장치 WO2023120783A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2021/019832 WO2023120783A1 (ko) 2021-12-24 2021-12-24 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법 및 분석 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2021/019832 WO2023120783A1 (ko) 2021-12-24 2021-12-24 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법 및 분석 장치

Publications (1)

Publication Number Publication Date
WO2023120783A1 true WO2023120783A1 (ko) 2023-06-29

Family

ID=86903026

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/019832 WO2023120783A1 (ko) 2021-12-24 2021-12-24 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법 및 분석 장치

Country Status (1)

Country Link
WO (1) WO2023120783A1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102162831B1 (ko) * 2019-12-26 2020-10-08 주식회사 마크로젠 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법 및 분석 장치
US20210095340A1 (en) * 2011-02-24 2021-04-01 The Chinese University Of Hong Kong Molecular testing of multiple pregnancies

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210095340A1 (en) * 2011-02-24 2021-04-01 The Chinese University Of Hong Kong Molecular testing of multiple pregnancies
KR102162831B1 (ko) * 2019-12-26 2020-10-08 주식회사 마크로젠 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법 및 분석 장치

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BERNHARD ZIMMERMANN, MATTHEW HILL, GEORGE GEMELOS, ZACHARY DEMKO, MILENA BANJEVIC, JOHAN BANER, ALLISON RYAN, STYRMIR SIGURJONSSON: "Noninvasive prenatal aneuploidy testing of chromosomes 13, 18, 21, X, and Y, using targeted sequencing of polymorphic loci", PRENATAL DIAGNOSIS, vol. 32, no. 13, 1 December 2012 (2012-12-01), pages 1233 - 1241, XP055119823, ISSN: 01973851, DOI: 10.1002/pd.3993 *
J. Z. Z. QU, T. Y. LEUNG, P. JIANG, G. J. W. LIAO, Y. K. Y. CHENG, H. SUN, R. W. K. CHIU, K. C. A. CHAN, Y. M. D. LO: "Noninvasive Prenatal Determination of Twin Zygosity by Maternal Plasma DNA Analysis", CLINICAL CHEMISTRY, P.B. HOEBER, vol. 59, no. 2, 1 February 2013 (2013-02-01), pages 427 - 435, XP055138555, ISSN: 0009-9147, DOI: 10.1373/clinchem.2012.194068 *
TERAMOTO SHINICHIRO, SHIMURA HIDEKI, TANAKA RYOTA, SHIMADA YOSHIAKI, MIYAMOTO NOBUKAZU, ARAI HAJIME, URABE TAKAO, HATTORI NOBUTAKA: "Human-Derived Physiological Heat Shock Protein 27 Complex Protects Brain after Focal Cerebral Ischemia in Mice", PLOS ONE, vol. 8, no. 6, 1 June 2013 (2013-06-01), US , pages 1 - 12, XP055876559, ISSN: 1932-6203, DOI: 10.1371/journal.pone.0066001 *

Similar Documents

Publication Publication Date Title
US20220127683A1 (en) Detecting mutations for cancer screening
Lefkowitz et al. Clinical validation of a noninvasive prenatal test for genomewide detection of fetal copy number variants
ES2886508T3 (es) Métodos y procedimientos para la evaluación no invasiva de variaciones genéticas
Tekin et al. A next-generation sequencing gene panel (MiamiOtoGenes) for comprehensive analysis of deafness genes
King et al. Detection of structural mosaicism from targeted and whole-genome sequencing data
BR112016007401B1 (pt) Método para determinar a presença ou ausência de uma aneuploidia cromossômica em uma amostra
JP2015526101A (ja) 染色体異常を検出する方法
US20210090687A1 (en) Methods of quality control using single-nucleotide polymorphisms in pre-implantation genetic screening
CN108604258B (zh) 染色体异常判断方法
Barrett et al. Measurement of fetal fraction in cell-free DNA from maternal plasma using a panel of insertion/deletion polymorphisms
Ruark et al. The ICR1000 UK exome series: a resource of gene variation in an outbred population
JP7333838B2 (ja) 胚における遺伝パターンを決定するためのシステム、コンピュータプログラム及び方法
WO2023120783A1 (ko) 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법 및 분석 장치
Adam et al. Performing post-genome-wide association study analysis: overview, challenges and recommendations
Wou et al. Laboratory considerations for prenatal genetic testing
WO2016112539A1 (zh) 确定胎儿核酸含量的方法和装置
KR102162831B1 (ko) 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법 및 분석 장치
WO2014119914A1 (ko) 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
CN114402392A (zh) 使用单核苷酸变异密度验证人类胚胎中拷贝数变异的系统和方法
CN113728391A (zh) 用于基于上下文压缩免疫肿瘤学生物标志物的基因组数据的方法
JP7331325B1 (ja) 2種以上の検査を実施可能な遺伝学的解析方法
Gomy Modern Medical Genetics and Genomics in the Era of Personalized/Precision Medicine
US20220180967A1 (en) Methods and systems for genetic analysis
WO2020141722A1 (ko) 모체 시료 중 태아 분획을 결정하는 방법
CN115588464A (zh) 性染色体核型推测方法、工具、计算机设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21969147

Country of ref document: EP

Kind code of ref document: A1