KR20220029001A - Method of enhancing the proportion of the unique DNA fragment used for NGS analysis of cfDNA to detect low frequency variant - Google Patents

Method of enhancing the proportion of the unique DNA fragment used for NGS analysis of cfDNA to detect low frequency variant Download PDF

Info

Publication number
KR20220029001A
KR20220029001A KR1020200110773A KR20200110773A KR20220029001A KR 20220029001 A KR20220029001 A KR 20220029001A KR 1020200110773 A KR1020200110773 A KR 1020200110773A KR 20200110773 A KR20200110773 A KR 20200110773A KR 20220029001 A KR20220029001 A KR 20220029001A
Authority
KR
South Korea
Prior art keywords
cfdna
fragments
ngs
dna
analysis
Prior art date
Application number
KR1020200110773A
Other languages
Korean (ko)
Other versions
KR102530247B1 (en
Inventor
허성훈
이동인
방두희
노한성
김황필
문성태
Original Assignee
주식회사 아이엠비디엑스
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 아이엠비디엑스, 연세대학교 산학협력단 filed Critical 주식회사 아이엠비디엑스
Priority to KR1020200110773A priority Critical patent/KR102530247B1/en
Priority to PCT/KR2021/011654 priority patent/WO2022050654A1/en
Publication of KR20220029001A publication Critical patent/KR20220029001A/en
Application granted granted Critical
Publication of KR102530247B1 publication Critical patent/KR102530247B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/10Design of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Chemical & Material Sciences (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biochemistry (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

In the present application, disclosed is a method for increasing the proportion of a unique fragment used in next generation sequencing (NGS) analysis, in detecting a low frequency variant in cell free DNA (cfDNA) using the NGS analysis. The method according to the present application includes dividing a sample into two or more aliquots so that the proportion of collision with the same sequence, by chance, is equal to or less than a certain level, and lowering a DNA concentration per aliquot to create an NGS library, wherein NGS data generated from each aliquot are combined in an analysis step, to be analyzed, so that most unique DNA fragments can be distinguished. Therefore, it is possible to detect a low frequency genetic variant in ctDNA present in a very small amount, for example, in cfDNA than in general NGS.

Description

cfDNA의 저빈도 변이 검출을 위해 NGS 분석에 사용되는 고유 단편의 비율을 증가시키는 방법 {Method of enhancing the proportion of the unique DNA fragment used for NGS analysis of cfDNA to detect low frequency variant}{Method of enhancing the proportion of the unique DNA fragment used for NGS analysis of cfDNA to detect low frequency variant}

본원은 NGS (Next Generation Sequencing)를 이용한 cfDNA의 유전자 변이 분석 기술과 관련된 것이다. The present application relates to a technology for analyzing genetic variation of cfDNA using NGS (Next Generation Sequencing).

혈액속에 존재하는 세포유리 DNA (cell-free DNA, cfDNA)에는 건강한 사람들의 경우 조혈 세포 (haematopoietic cell)로부터 방출된 DNA가 대부분이다. 하지만 암 환자의 경우 cfDNA에는 암세포 사멸로 파괴된 세포로부터 혈액으로 방출된 순환 종양 DNA (circulating tumor DNA, ctDNA)가 포함되어 있다. 이 ctDNA는 특정 암과 관련된 유전적 변이를 포함하고 있으며, 이러한 유전적 변이의 모니터링을 통해, 병변 발생 전 암의 조기 발견, 특정 암치료법에 대한 반응 분석, 항암제에 대한 저항성 생성 기전 발견, 잔존 암의 존재 등의 확인이 가능하다. Most of the cell-free DNA (cfDNA) in the blood is DNA released from haematopoietic cells in healthy people. However, in cancer patients, cfDNA contains circulating tumor DNA (ctDNA) released into the blood from cells destroyed by cancer cell death. This ctDNA contains genetic mutations related to specific cancers, and through monitoring of these genetic mutations, early detection of cancer before lesion occurs, analysis of responses to specific cancer treatments, discovery of mechanisms for generating resistance to anticancer drugs, and residual cancer It is possible to confirm the existence of

이러한 ctDNA의 검출을 위한 방법의 하나는 droplet digital PCR (ddPCR)로 이는 0.001%의 ctDNA까지 검사할 수 있다. 암을 유발하는 DNA 마커는 매우 다양한데, ddPCR의 경우 검사 범위가 제한적인 단점이 있다. One of the methods for detecting such ctDNA is droplet digital PCR (ddPCR), which can test up to 0.001% of ctDNA. There are many cancer-causing DNA markers, but ddPCR has a limited test range.

다른 방법은 표적화 NGS (Targeted next-generation sequencing) 방법 (Corcoran, R. B., & Chabner, B. A. (2018). New England Journal of Medicine, 379(18), 1754-1765) 이다. 이 기술은 다수의 종양 관련 유전자의 전체 엑손 또는 특정 마커를 한 번에 검사할 수 있는 특징으로 인해 종양에 대한 유전학적 프로파일을 얻을 수 있는 장점이 있다. Another method is the Targeted next-generation sequencing (NGS) method (Corcoran, R. B., & Chabner, B. A. (2018). New England Journal of Medicine, 379(18), 1754-1765). This technology has the advantage of obtaining a genetic profile for a tumor due to its ability to examine the entire exons or specific markers of multiple tumor-associated genes at once.

하지만, 이러한 NGS 방법에는 주로 cfDNA가 사용되는데, 이에 포함된 ctDNA의 양이 매우 제한적이라는 문제점이 있다. ctDNA는 cfDNA의 단지 <0.1 ~ 10% 양으로 포함되어 있다. 나아가, NGS의 서열분석에서 통계적으로 유의한 결과를 얻기 위해서는 에러를 고려하여 최소 10 X read depth가 필요하고, 그 결과 0.5%의 변이 수준을 검출하기 위해서는 총 2000 X depth가 필요하고, 1ng 당 330 genome equivalent인 것을 고려하면 최소 6ng의 DNA가 필요하다. NGS 분석시 실험 단계마다 정보 양이 소실되어, 최종적으로 얻을 수 있는 DNA 정보의 양 (conversion rate)은 30% 수준이다. 그러므로 NGS 분석에서 ctDNA 6ng에 해당하는 정보량을 얻기 위해서는 20ng의 DNA가 필요하나, 임상에서 NGS 검사에 이용할 수 있는 DNA는 매우 제한적이다.However, this NGS method mainly uses cfDNA, but there is a problem that the amount of ctDNA contained therein is very limited. ctDNA contains only <0.1-10% of cfDNA. Furthermore, in order to obtain a statistically significant result in NGS sequencing, a minimum of 10 X read depth is required in consideration of the error. Considering that it is a genome equivalent, a minimum of 6 ng of DNA is required. During NGS analysis, the amount of information is lost at each experimental stage, and the final amount of DNA information that can be obtained (conversion rate) is 30%. Therefore, 20 ng of DNA is required to obtain the amount of information corresponding to 6 ng of ctDNA in NGS analysis, but the available DNA for NGS testing in clinical practice is very limited.

이에 더하여 최신 NGS 분석에 적용되는 molecular barcode 방식 적용시 어댑터에 의해 형성된 이량체(dimer)의 증가로 생산한 데이터 중 가용 데이터 비율의 저하, 암세포의 유전체 DNA가 잘리는 과정에서 서로 다른 세포에서 유래했지만 우연히 동일한 부위가 잘려서 NGS를 통해서 PCR로 증폭된 된 것과 구분하지 못하는 경우의 발생으로 인한 데이터 소실, 그리고 수십억개의 판독서열(reads) 중 동일한 서열을 제거하기 위해서 판독서열을 참조유전체에 맵핑(mapping)하는 과정에서 서열 품질이 가장 좋은 하나를 대표 판독서열로 삼고 나머지는 판독서열은 제외하는 중복제거 등으로 인한 가용 데이터의 소실로 인해 실제 더 많은 양의 DNA가 필요하다. 이는 ctDNA에 존재하는 암과 관련된 유전자 변이의 검출을 어렵게 만든다.In addition, when the molecular barcode method applied to the latest NGS analysis is applied, a decrease in the available data ratio among the produced data due to an increase in the dimer formed by the adapter; In the process of cutting the cancer cell's genomic DNA, data loss due to the occurrence of a case where the same region was accidentally cut and cannot be distinguished from the one that was amplified by PCR through NGS, and the same sequence among billions of reads derived from different cells during the cutting process In the process of mapping a read sequence to a reference genome to remove You need a lot of DNA. This makes it difficult to detect cancer-related genetic mutations present in ctDNA.

따라서 cfDNA에 저빈도로 존재하는 유전자 변이 검출을 위해 제한된 양의 cfDNA를 이용한 NGS 검사에 있어서, 분석에 사용될 수 있는 가용 ctDNA 분자 정보의 양을 증가시킬 수 있는 방법의 개발이 필요하다.Therefore, it is necessary to develop a method capable of increasing the amount of available ctDNA molecular information that can be used for analysis in the NGS test using a limited amount of cfDNA to detect genetic mutations that are present in cfDNA infrequently.

본원은 저빈도 유전자 변이 검출을 위해 제한된 양의 cfDNA를 이용한 NGS 검사에 있어서, 분석에 사용될 수 있는 가용 ctDNA 단편 정보의 양을 증가시킬 수 있는 방법을 제공하고자 한다.An object of the present application is to provide a method capable of increasing the amount of available ctDNA fragment information that can be used for analysis in an NGS test using a limited amount of cfDNA to detect low-frequency gene mutations.

한 양태에서 본원은 NGS 분석을 이용한 cfDNA (cell free DNA)의 저빈도 변이 검출에 있어서, 상기 NGS 분석에 사용되는 고유 단편의 비율을 향상시키는 방법을 제공한다. In one aspect, the present application provides a method for improving the ratio of unique fragments used in the NGS analysis in the detection of low-frequency mutations in cfDNA (cell free DNA) using the NGS analysis.

일 구현예에서 상기 방법은 (a) 특정 양의 cfDNA 시료를 제공하는 단계; (b) 상기 특정 양의 cfDNA에 포함된 유전체 단편 중 51 내지 330bp 길이에 해당하는 총 유전체 단편의 수, 및 고유 단편(unique fragment)의 수를 계산하는 단계로, 상기 고유 단편의 수는 상기 총 유전체 단편의 수에서 상기 51 내지 330bp 길이에 해당하는 각 유전체 단편의 collision count의 합을 제외한 값이고, 상기 collision count 합은 본원에 개시된 [식 1]로부터 계산되고, (c) 상기 총 유전체 단편 수에서 상기 고유 단편 수가 차지하는 비를 계산하고, 상기 고유 단편의 비를 증가시키도록 상기 특정 양의 cfDNA 시료를 복수 개의 aliquot로 나누는 단계; 및 (d) 상기 복수개의 각 aliquot 별로, 각각 상이한 인덱스를 포함하는 어뎁터를 태깅하여 라이브러리를 제조하고, NGS 분석을 수행한 후 상기 각 aliquot의 NGS 결과를 통합하는 단계를 포함한다. In one embodiment, the method comprises the steps of (a) providing a specific amount of a cfDNA sample; (b) calculating the total number of genome fragments corresponding to a length of 51 to 330 bp among the genome fragments included in the specific amount of cfDNA, and the number of unique fragments, wherein the number of unique fragments is the total A value obtained by subtracting the sum of collision counts of each genome fragment corresponding to the length of 51 to 330 bp from the number of genome fragments, and the sum of collision counts is calculated from [Equation 1] disclosed herein, (c) the total number of genome fragments calculating the ratio occupied by the number of unique fragments, and dividing the specific amount of the cfDNA sample into a plurality of aliquots to increase the ratio of the unique fragments; and (d) preparing a library by tagging adapters each having a different index for each of the plurality of aliquots, performing NGS analysis, and then integrating the NGS results of each aliquot.

일 구현예에서 저빈도 변이 검출은 cfDNA에 포함된 ctDNA의 변이 검출을 의미한다. In one embodiment, the detection of low-frequency mutations means detection of mutations in ctDNA included in cfDNA.

일 구현예에서 cfDNA에 포함된 DNA 유전체 단편 중에서, 약 1% 미만의 저빈도로 존재하는 암세포의 ctDNA의 유전자 변이를 검출하고자 한다.In one embodiment, it is intended to detect a genetic mutation in the ctDNA of cancer cells present at a low frequency of less than about 1% among DNA genome fragments included in cfDNA.

일 구현예에서 상기 (d) 단계에서 상기 고유 단편의 비가 최소 약 93% 이상이 되도록 또는 우연히 서열이 동일한 사건 (collision으로 표현) 비가 일정 이하가 되도록 시료를 2개 이상의 aliquot로 분할하여 aliquot 당 DNA 농도를 낮춰서 NGS 라이브러리를 만들고, 각 aliquots에서 생성된 NGS 데이터는 분석 단계에서 합쳐서 분석한다. In one embodiment, in step (d), the sample is divided into two or more aliquots so that the ratio of the native fragments is at least about 93% or more, or the ratio of events (expressed as collisions) having identical sequences is equal to or less than a certain amount of DNA per aliquot The concentration is lowered to make an NGS library, and the NGS data generated from each aliquot are aggregated and analyzed in the analysis step.

일 구현예에서 특정 양의 cfDNA는 20ng이고, 이 경우 상기 cfDNA는 상기 고유 단편이 비가 약 93.9%가 되도록 상기 cfDNA를 4개의 aliquot로 분할한다. In one embodiment, the specific amount of cfDNA is 20 ng, in which case the cfDNA divides the cfDNA into 4 aliquots such that the ratio of the native fragments is about 93.9%.

다른 양태에서 본원은 NGS 분석을 이용한 cfDNA의 저빈도 변이 검출에 있어서, 상기 NGS 분석에 사용되는 고유 단편의 비율을 향상시키기 위한 라이브러리 제조방법을 제공한다. In another aspect, the present application provides a library preparation method for improving the ratio of the native fragments used in the NGS analysis in the detection of low-frequency mutations in cfDNA using the NGS analysis.

일 구현예에서 상기 방법은 (a) 특정 양의 cfDNA 시료를 제공하는 단계; In one embodiment, the method comprises the steps of (a) providing a specific amount of a cfDNA sample;

(b) 상기 특정 양의 cfDNA에 포함된 유전체 단편 중 51bp 내지 330bp 길이에 해당하는 총 유전체 단편의 수, 및 고유 단편(unique fragment)의 수를 계산하는 단계로, 상기 고유 단편의 수는 상기 총 유전체 단편의 수에서 상기 51~330bp 길이에 해당하는 각 유전체 단편의 collision count의 합을 제외한 값이고, 상기 collision count 합은 본원에 개시된 식 1로부터 계산되며, (c) 상기 단계 (b)로부터 상기 총 유전체 단편 수에서 상기 고유 단편의 수가 차지하는 비를 계산하고, 상기 고유 단편의 비를 증가시키도록 상기 특정 양의 cfDNA 시료를 복수 개의 aliquot로 나누는 단계; 및 (d) 상기 복수개의 각 aliquot 별로, 각각 상이한 인덱스를 포함하는 어뎁터를 태깅하여 NGS용 라이브러리를 제조하는 단계를 포함한다. (b) calculating the number of total genome fragments corresponding to a length of 51 bp to 330 bp among the genome fragments included in the specific amount of cfDNA, and the number of unique fragments, wherein the number of unique fragments is the total It is a value obtained by subtracting the sum of collision counts of each genome fragment corresponding to a length of 51 to 330 bp from the number of genome fragments, and the collision count is calculated from Equation 1 disclosed herein, (c) from step (b) calculating the ratio of the number of unique fragments to the total number of genome fragments, and dividing the specific amount of the cfDNA sample into a plurality of aliquots to increase the ratio of the unique fragments; and (d) preparing a library for NGS by tagging adapters each having a different index for each of the plurality of aliquots.

일 구현예에서 cfDNA에 포함된 DNA 유전체 단편 중에서, 약 1% 미만의 저빈도로 존재하는 암세포의 ctDNA의 유전자 변이를 검출하고자 한다.In one embodiment, it is intended to detect a genetic mutation in the ctDNA of cancer cells present at a low frequency of less than about 1% among DNA genome fragments included in cfDNA.

일 구현예에서 상기 (d) 단계에서 상기 고유 단편의 비가 최소 약 93% 이상이 되도록 또는 우연히 서열이 동일한 사건 (collision으로 표현) 비가 일정 이하가 되도록 시료를 2개 이상의 aliquot로 분할하여 aliquot 당 DNA 농도를 낮춰서 NGS 라이브러리를 만들고, 각 aliquots에서 생성된 NGS 데이터는 분석 단계에서 합쳐서 분석한다. In one embodiment, in step (d), the sample is divided into two or more aliquots so that the ratio of the native fragments is at least about 93% or more, or the ratio of events (expressed as collisions) having identical sequences is equal to or less than a certain amount of DNA per aliquot The concentration is lowered to make an NGS library, and the NGS data generated from each aliquot are aggregated and analyzed in the analysis step.

일 구현예에서 특정 양의 cfDNA는 20ng이고, 이 경우 상기 cfDNA는 상기 고유 단편이 비가 약 93.9%가 되도록 상기 cfDNA를 4개의 aliquot로 분할한다. In one embodiment, the specific amount of cfDNA is 20 ng, in which case the cfDNA divides the cfDNA into 4 aliquots such that the ratio of the native fragments is about 93.9%.

본원에 따른 방법은 실제 의료현장에서 혈액으로부터 얻을 수 있는 cfDNA 양이 제한적인 상황에서 가용 ctDNA 정보양을 증가시켜 read depth를 향상시켜 차세대 염기서열 분석 (NGS)을 이용한 ctDNA 검사의 성능을 높일 수 있다. The method according to the present application improves the read depth by increasing the amount of available ctDNA information in a situation where the amount of cfDNA that can be obtained from blood is limited in actual medical settings, thereby improving the performance of ctDNA testing using next-generation sequencing (NGS). .

NGS 방법에 사용되는 일반적인 프로토콜에 따른 라이브러리 제조에 있어서, 암세포의 유전체 DNA가 잘리는 과정에서 서로 다른 세포에서 유래했지만 우연히 동일한 부위가 잘려서 서열이 동일한 단편이 발생하고, 이를 PCR로 증폭된 것과 구분하지 못해, NGS 분석과정에서의 데이터가 소실된다. DNA 단편의 길이가 작을수록, DNA 농도가 높을수록 우연히 동일한 DNA 단편이 발생할 확률이 높다. ctDNA의 경우 정상 DNA보다 평균적인 길이가 더 짧아서 이 사건이 더 높은 확률로 일어난다. 이로 인해 특히 cfDNA에 적은 양으로 존재하는 ctDNA에서 발견되는 유전자변이의 검출을 어렵게 한다. 하지만 본원에 따른 방법은 우연히 서열이 동일한 사건 (collision으로 표현) 비가 일정 이하가 되도록 시료를 2개 이상의 aliquot로 분할하여 aliquot 당 DNA 농도를 낮춰서 NGS 라이브러리를 만들고, 각 aliquots에서 생성된 NGS 데이터는 분석 단계에서 합쳐서 분석함으로써 대부분의 고유한 DNA 단편을 구분할 수 있어 일반적인 NGS 보다 예를 들면 cfDNA에 매우 적은 양으로 존재하는 ctDNA의 저빈도 유전자 변이의 검출이 가능하다. In library preparation according to the general protocol used in the NGS method, fragments with the same sequence are generated due to accidental cuts at the same site although they are derived from different cells in the process of cutting the genomic DNA of cancer cells, and it is difficult to distinguish them from those amplified by PCR. , the data in the NGS analysis process is lost. The shorter the length of the DNA fragment and the higher the DNA concentration, the higher the probability that the same DNA fragment will occur by chance. In the case of ctDNA, the average length is shorter than that of normal DNA, so this event has a higher probability. This makes it particularly difficult to detect genetic mutations found in ctDNA present in small amounts in cfDNA. However, in the method according to the present application, the sample is divided into two or more aliquots so that the ratio of events (expressed as collisions) with the same sequence is less than a certain level by chance, the DNA concentration per aliquot is lowered to create an NGS library, and the NGS data generated from each aliquot is analyzed By combining analysis in steps, most unique DNA fragments can be distinguished, so it is possible to detect low-frequency gene mutations in ctDNA, for example, present in a very small amount in cfDNA than in general NGS.

도 1은 본원의 일 구현예에 따른 방법을 도식적으로 나타낸 것이다.
도 2a는 실제 cfDNA에 존재하는 유전체 DNA 단편의 길이에 따른 단편의 개수 (fragments count)를 나타낸 그래프로, 2개의 봉우리를 갖는 분포를 나타낸다. 각각 봉우리는 166 bp 와 315 bp에서 최빈값이 확인된다. DNA 단편 분포는 전체 중의 비율을 계산하여 DNA 단편이 나타날 확률로 간주할 수 있다.
도 2b는 유전체의 특정 loci (좌위)에서 6,600개의 DNA 단편이 있을 때 (6,600 X depth 로 표현됨), 도 2a에서 계산된 DNA 단편 길이의 확률로부터 특정 길이의 DNA 단편의 개수를 계산하고, 해당하는 길이에서 발생가능한 collision을 계산한 그래프이다. 도 2a에서와 마찬가지로 166 bp 길이에서 단편이 가장 많이 분포하고 이 길이에서 DNA의 collision fragments count의 비율이 40.3%로 매우 높고, 누적 collision fraction의 대부분이 100~200 bp 사이 길이에서 일어나고, 이는 일반적인 NGS 분석에서는 사용되지 못하고 버려지는 데이터를 나타낸다.
도 2c는 시작 DNA의 양에 따른 고유 단편의 비율을 나타낸 그래프이다. 20ng에서 21.4%의 단편이 중복서열(duplicates)로 분류되어 이는 일반적인 NGS 분석에서는 사용되지 못한다.
도 3은 본원의 일 구현예에 따른 방법에 따라 20ng의 시작 DNA를 2, 4 및 8개의 aliquot로 나눈 후, aliquot 갯수에 따른 FMD (Fragment Mean Depth) 증가를 나타내는 것으로 4개에서 포화되는 것을 나타낸다.
도 4는 본원에 따른 방법에 의한 FMD 값과 기존 분석 (모든 duplicate 제거)의 FMD 값을 비교한 그래프로, 20ng의 시작 DNA를 2, 4 및 8개의 aliquot로 나누어 분석한 경우, 2개 이상의 모든 aliquot를 이용한 분석에서 FMD 값이 기존 분석 보다 높을 것을 나타낸다.
도 5는 본원의 일 구현예에 따른 방법에 따라 20ng의 시작 DNA를 2, 3 및 8개의 aliquot로 나눈 후, 각 aliquot 별로 library 제조 단계인 pre-PCR 단계에서 증폭되는 DNA 양을 나타내며, aliquot 개수가 증가할수록, 최종적으로 얻을 수 있는 DNA양은 증가하나, 4개 aliquot로 나눴을 때 포화되는 것으로 나타났다.
도 6a 및 도 6b는 오류 수정 전 (a)/후 (b)의 변이의 VAF (Variant allele frequency) (1% 미만) calling 결과를 나타내는 것으로, 오류 수정 전 변이 (a)는 VAF 1%에서 다수의 false positive (FP) 변이가 검출되나, consensus DNA 생성과 aliquot 정보를 이용한 오류 수정 후(b)는 true positive (TP)만 남고 모든 FP가 제거되는 것을 나타낸다.
1 schematically shows a method according to an embodiment of the present application.
Figure 2a is a graph showing the number of fragments (fragments count) according to the length of the genomic DNA fragment present in the actual cfDNA, shows a distribution having two peaks. The peaks are identified at 166 bp and 315 bp, respectively. The distribution of DNA fragments can be regarded as the probability of the appearance of DNA fragments by calculating the proportion in the total.
Figure 2b shows that when there are 6,600 DNA fragments at a specific loci (locus) of the genome (expressed as 6,600 X depth), the number of DNA fragments of a specific length is calculated from the probability of the DNA fragment length calculated in Figure 2a, and the corresponding It is a graph that calculates possible collisions in length. As in Fig. 2a, fragments are most distributed at 166 bp in length, and the proportion of DNA collision fragments count at this length is very high as 40.3%, and most of the cumulative collision fraction occurs in the length between 100 and 200 bp, which is typical of NGS. Represents data that is not used in the analysis and is discarded.
Figure 2c is a graph showing the ratio of the native fragment according to the amount of the starting DNA. At 20 ng, 21.4% of the fragments were classified as duplicates, which cannot be used in normal NGS analysis.
Figure 3 shows that after dividing 20ng of the starting DNA into 2, 4 and 8 aliquots according to the method according to an embodiment of the present application, it is saturated at 4 as showing an increase in FMD (Fragment Mean Depth) according to the number of aliquots .
4 is a graph comparing the FMD value by the method according to the present application and the FMD value of the existing analysis (all duplicates removed). It indicates that the FMD value in the analysis using the aliquot will be higher than in the conventional analysis.
5 shows the amount of DNA amplified in the pre-PCR step, which is the library preparation step, for each aliquot after dividing 20 ng of the starting DNA into 2, 3 and 8 aliquots according to the method according to an embodiment of the present application, the number of aliquots As α increases, the amount of DNA that can be finally obtained increases, but it was found to be saturated when divided into 4 aliquots.
6A and 6B show the VAF (Variant allele frequency) (less than 1%) calling result of the mutation before (a) / after (b) error correction, and the mutation (a) before error correction is majority in VAF 1% false positive (FP) mutation is detected, but after consensus DNA generation and error correction using aliquot information (b), only true positive (TP) remains and all FPs are removed.

본원은 cfDNA를 사용한 NGS 분석에 있어서, 특정 시료의 cfDNA 풀에 서로 다른 세포에서 유래했지만 우연히 동일한 부위가 잘려서 이를 PCR로 증폭된 것과 구분하지 못해 NGS 분석과정에서의 데이터가 소실되나, 특정 양의 cfDNA의 collision count를 최소로 하는 방식으로 특정 양의 cfDNA를 복수개의 aliquot로 나누어 라이브러리를 제조할 경우, 상기 데이터 소실을 최소화할 수 있고, 궁극적으로 저빈도 유전자 변이의 검출이 가능하다는 발견에 근거한 것이다. In the NGS analysis using cfDNA, the present application is derived from different cells in the cfDNA pool of a specific sample, but the same site is accidentally cut and cannot be distinguished from that amplified by PCR. When a library is prepared by dividing a specific amount of cfDNA into a plurality of aliquots in a manner that minimizes the collision count of

본원에서 “cfDNA(cell-free DNA, cfDNA)”는 혈액 속에 존재하는 다양한 길이의 유전체 단편을 포함하나, 히스톤 단백질에 의해 보호되지 않는 크로마틴 부분이 주로 잘려서 166 bp 길이에서 최빈값을 보인다. cfDNA는 건강한 사람들의 경우 조혈 세포(haematopoietic cell)로부터 방출된 DNA가 대부분이고, 암환자의 경우, 암세포 사멸로 인해 후술하는 바와 같이 암세포 유래의 ctDNA를 포함한다. cfDNA는 혈액으로부터 추출될 수 있으며, 이를 추출하는 시약/키트는 시중에서 구입할 수 있고, 그 방법은 공지되어 있다 (Clara Perez-Barrios et al. Traansl Lung Cancer Res 5 (2016).As used herein, “cfDNA (cell-free DNA, cfDNA)” includes genomic fragments of various lengths present in blood, but the chromatin portion that is not protected by histone proteins is mainly truncated and shows the mode at a length of 166 bp. cfDNA is mostly DNA released from haematopoietic cells in healthy people, and includes ctDNA derived from cancer cells in cancer patients as described below due to cancer cell death. cfDNA can be extracted from blood, and a reagent/kit for extracting it is commercially available, and the method is known (Clara Perez-Barrios et al. Traansl Lung Cancer Res 5 (2016).

본원에서 “ctDNA (circulating tumor DNA)”는 cfDNA에 포함된, 암세포에서 유래된 유전체 단편이다. 총 cfDNA의 단지 <0.1 ~ 10% 양으로 포함되어 있다. ctDNA는 암세포의 급격한 자기복제로 인해 히스톤 의해 보호되는 부위가 더 적고 결과적으로 건강한 세포유래 cfDNA보다 더 짧아져 주로 90 ~ 150 bp의 길이로 보통의 cfDNA보다 약 20-40 bp (Mouliere, F. et al. Sci Transl Med 10, (2018).) 짧다. 이러한 ctDNA는 특정 암과 관련된 유전적 변이를 포함하고 있어 혈액을 이용한 이러한 유전적 변이의 모니터링을 통해, 병변 발생 전 암의 조기 발견, 특정 암치료법에 대한 반응 분석, 항암제에 대한 저항성 생성 기전 발견, 잔존 암의 존재 등의 확인에 유용하게 사용될 수 있다. 본원에 따른 일 구현예에서는 cfDNA에 포함된 DNA 유전체 단편 중에서 약 1% 미만의 저빈도로 존재하는 암세포 유래의 ctDNA의 유전자 변이를 검출하고자 한다.As used herein, “circulating tumor DNA (ctDNA)” is a genomic fragment derived from cancer cells, included in cfDNA. It contains only <0.1-10% of total cfDNA. Due to the rapid self-replication of cancer cells, ctDNA has fewer histone-protected sites and consequently is shorter than healthy cell-derived cfDNA . al . Sci Transl Med 10, (2018).) short. These ctDNAs contain genetic mutations related to specific cancers, and through monitoring of these genetic mutations using blood, early detection of cancer before lesion occurs, response analysis to specific cancer treatment methods, discovery of mechanisms for generating resistance to anticancer drugs, It can be usefully used to confirm the presence of residual cancer. In one embodiment according to the present application, it is intended to detect a genetic mutation in ctDNA derived from cancer cells that is present at a low frequency of less than about 1% among DNA genome fragments included in cfDNA.

본원에서 “NGS (Next Generation Sequencing)”란, 유전체의 염기서열 분석기술 중 하나로, 유전체 유래의 DNA 단편을 병렬로 처리함으로써 염기서열을 고속으로 분석할 수 있다. 이를 위해 단편에 인덱스, 분자바코드 등을 추가하고 증폭하는 과정을 포함하는 라이브러리 제조 및 산출된 원(raw) 데이터의 정렬(alignment) 및 참조 염기서열에의 맵핑을 통한 오류 처리 및 염기서열 도출 등의 데이터 분석 과정이 필요하다. 차세대 염기서열 분석은 목적에 따라 다양한 분석 플랫폼으로 이용될 수 있다. 예를 들어, 차세대 염기서열 분석의 분석 플랫폼은 Illumina NextSeq, Illumina NovaSeq, ThermoFisher Ion Proton, Pacific Biosciences Sequel II, BGI MGI 등을 들 수 있고, 각 플랫폼에 사용되는 라이브러리 제조 키트 및 방법은 해당 플랫폼 제조사로부터 입수할 수 있다. As used herein, “NGS (Next Generation Sequencing)” refers to one of genome sequencing technologies, which can analyze nucleotide sequences at high speed by processing DNA fragments derived from the genome in parallel. To this end, library preparation, including the process of adding and amplifying indexes, molecular barcodes, etc. to fragments, alignment of the calculated raw data, and error handling and derivation of nucleotide sequences through mapping to reference nucleotide sequences, etc. A data analysis process is required. Next-generation sequencing can be used as a variety of analysis platforms depending on the purpose. For example, analysis platforms for next-generation sequencing include Illumina NextSeq, Illumina NovaSeq, ThermoFisher Ion Proton, Pacific Biosciences Sequel II, BGI MGI, etc., and library preparation kits and methods used for each platform are available from the platform manufacturer. can be obtained

이러한 NGS는 그 특징으로 인해 다음과 같은 본질적 문제점이 있다. 먼저 오류 처리 방법으로, 오류는 실험 방법과 NGS 플랫폼에 따라 다른데, 예를 들면 Illumina Inc.의 장비에서는 평균적으로 뉴클레오타이드 당 0.1 ~ 1%의 error rate을 가지고 있다. 일반적으로 cfDNA 검사는 AF (Allele Frequency) 1% 미만의 LOD(Limit of Detection)를 목표로 하기 때문에 전통적인 NGS 실험으로는 진짜 변이와 에러를 구분할 수 없다. 한편 NGS 실험은 어떤 방법을 사용하더라도 반드시 PCR을 이용한 DNA 증폭 단계를 포함한다. 그런데 DNA 증폭은 DNA의 GC 함량, DNA 길이 등 여러가지 요소로 DNA 단편마다 증폭 효율이 다르기 때문에 모든 단편이 균일한 정도로 증폭되는 결과를 얻을 수 없다. 그렇기 때문에 분석단계에서 duplicates (하나의 DNA에서 증폭된 복제물로 PCR duplicate와 collision을 모두 포함)를 제거하여 이 효과를 보정한다. 이때 일반적으로 picard 툴을 사용하는데, 참조 유전체와 동일한 read (NGS로 읽힌 판독서열을 칭함)를 남기고 나머지 duplicates는 제외한다. 만약 duplicates 중에 무작위로 특정 염기(nucleotide)에 오류가 발생하면 비록 하나의 DNA에서 복제되었지만 서열이 다른 reads로 보인다. 전통적인 NGS에서는 이 reads 들은 대체로 무시되고 참조유전체와 가장 가까운 read만 분석에 사용된다. 그런데 ctDNA는 길이가 짧은 특성상 우연히 서로 다른 세포에서 유래한 DNA이지만 완전히 동일한 서열을 갖는 경우가 자주 발생하고, 전통적인 NGS 방법에서는 이 것이 PCR duplicates 인지 서로 다른 세포에서 유래했는지를 구분할 수 없다. 따라서 이로 인해 변이가 발생한 DNA는 무시되는 경우가 발생한다. 이후 Molecular barcoding을 이용한 ctDNA 검사에서는 위의 문제를 극복하기 위해 Barcode sequence 또는 UMI (unique molecular identifier) 기술이 개발되었다. 이 기술을 이용하면 barcode sequence를 사용해 서로 다른 세포에서 유래한 reads를 구분할 수 있고, 이 reads 중에 PCR 오류와 진짜 변이를 구분할 수 있다. 이 과정을 일반적으로 error correction이라 부른다. 이 경우 시퀀싱 오류는 각 base마다 Q 값으로 계산된다. 일반적으로 Illumina 시퀀싱의 전체 단계 중 시작과 끝이 error rates이 더 크다. Molecular barcode sequence는 시퀀싱의 처음에 읽히기 때문에 상대적으로 더 오류에 취약할 수밖에 없다. Barcode sequence가 잘못 읽히는 문제로 인해 고유 분자를 구분하기 위한 본래 목적이 크게 훼손된다. 이런 문제를 극복하기 위해 barcode 서열의 길이를 조절하고, 서열을 정교하게 조합하는 등 많은 시도들이 있었다 (Smith et al., Somervuo et al, Genome Res. 27, 491-499 (2017); Somervuo, P. et al. BMC Bioinformatics 19, 257 (2018)). 또한 Barcode가 포함된 adapter dimer에 의해 conversion rate가 저하된다. 보통 ctDNA의 길이는 cfDNA 보다 짧고 adapter dimer 보다는 길다. Adapter dimer 제거 시 DNA 길이를 이용하는데, barcode sequence로 인해 DNA 길이가 더 길어졌기 때문에 ctDNA와 구분이 더 어려워지고 adapter dimer 제거시 ctDNA가 더 많이 유실된다. 결과적으로 ctDNA 자체의 conversion rate는 전체 cfDNA의 값보다 더 낮아진다.Such NGS has the following essential problems due to its characteristics. First, as an error handling method, the error varies depending on the experimental method and the NGS platform. For example, Illumina Inc.'s equipment has an average error rate of 0.1 to 1% per nucleotide. In general, since cfDNA testing aims at a limit of detection (LOD) of less than 1% of the AF (Allele Frequency), traditional NGS experiments cannot distinguish true mutations from errors. On the other hand, the NGS experiment always includes a DNA amplification step using PCR no matter which method is used. However, in DNA amplification, the amplification efficiency of each DNA fragment is different due to various factors such as DNA GC content and DNA length, so it is not possible to obtain a result in which all fragments are amplified to a uniform degree. Therefore, the analysis step compensates for this effect by removing duplicates (including both PCR duplicates and collisions with duplicates amplified from one DNA). In this case, the picard tool is usually used, leaving the same read as the reference genome (referred to as the read sequence read by NGS), and excluding the remaining duplicates. If a random nucleotide error occurs during duplicates, the sequence appears as different reads, although duplicated from one DNA. In traditional NGS, these reads are largely ignored and only the read closest to the reference genome is used for analysis. However, ctDNA is DNA derived from different cells by chance due to its short length, but it often has the exact same sequence. Therefore, the mutated DNA may be ignored. Later, in the ctDNA test using molecular barcoding, barcode sequence or UMI (unique molecular identifier) technology was developed to overcome the above problem. With this technology, reads from different cells can be distinguished using barcode sequences, and PCR errors and true mutations can be distinguished among these reads. This process is generally called error correction. In this case, the sequencing error is calculated as a Q value for each base. In general, the error rates at the beginning and end of the entire Illumina sequencing step are greater. Since the molecular barcode sequence is read at the beginning of sequencing, it is bound to be relatively more susceptible to errors. Due to the problem of the barcode sequence being read incorrectly, the original purpose of distinguishing unique molecules is greatly undermined. To overcome this problem, there have been many attempts such as adjusting the length of the barcode sequence and combining the sequences precisely (Smith et al., Somervuo et al, Genome Res. 27, 491-499 (2017); Somervuo, P) et al . BMC Bioinformatics 19, 257 (2018)). Also, the conversion rate is lowered by the adapter dimer with barcode. Usually, the length of ctDNA is shorter than that of cfDNA and longer than that of adapter dimer. When removing the adapter dimer, the DNA length is used. Because the DNA length is longer due to the barcode sequence, it is more difficult to distinguish from ctDNA, and when the adapter dimer is removed, more ctDNA is lost. As a result, the conversion rate of ctDNA itself is lower than that of total cfDNA.

즉, 세포에서 방출된 유전체 DNA가 잘리는 과정 중 서로 다른 세포에서 유래했지만 우연히 동일한 부위가 잘려서 NGS 결과에서 서열이 동일하게 나타날 수 있다. 한편, DNA는 NGS 실험과정 중 라이브러리 제조과정에서 PCR로 증폭되고 최종적으로 중복서열로 나타나기 때문에, 우연히 서열이 동일한 경우도 일반적인 분석 과정에서 중복서열로 제거된다. 특히 ctDNA는 암세포에 특이적 유전자 변이를 포함하고 있어 이를 검출하는 것이 중요하다. 하지만, ctDNA는 cfDNA에 매우 적은 양으로 포함되어 있으며 중복서열 제거 과정에서 정보가 소실되어 검출이 되지 않는 문제점이 있다. in other words, The sequence may appear identical in the NGS result because the genomic DNA released from the cell is derived from different cells during the cleavage process, but the same site is accidentally cut. On the other hand, since DNA is amplified by PCR during library preparation during the NGS experiment and finally appears as an overlapping sequence, even if the sequence is coincidentally identical, it is removed as a redundant sequence in the general analysis process. In particular, ctDNA contains a specific gene mutation in cancer cells, so it is important to detect it. However, ctDNA is contained in a very small amount in cfDNA, and there is a problem in that information is lost in the process of removing the redundant sequence and thus cannot be detected.

이러한 NGS의 문제점으로 인해, NGS를 이용한 혈액의 cfDNA 분석에 있어서, 분석에 사용될 수 있는 ctDNA의 정보는 더욱 제한된다. 또한 앞서 언급한 바와 같이, 혈액에 포함된 cfDNA의 양, 이에 포함된 ctDNA의 양의 매우 제한적이고 임상에서 채취할 수 있는 혈액의 양도 매우 제한적이어서 DNA 양 자체를 증가시키는 것은 한계가 있다. 예를 들면 정상인의 경우 혈액내에 DNA양은 평균적으로 약 4.4 ng/ml 정도이다 (Raymond, C. K., Hernandez, J., Karr, R., Hill, K. & Li, M. Collection of cell-free DNA for genomic analysis of solid tumors in a clinical laboratory setting. PLoS One 12, (2017).). 이 중 다른 검사 (예를 들어, ddPCR: 25ng, Real-Time PCR: 1~100ng)를 위해 DNA를 남겨두어야 하기 때문에, 실제 임상에서 NGS 검사에 이용할 수 있는 DNA 양은 더욱 제한적일 수밖에 없다.Due to these problems of NGS, in cfDNA analysis of blood using NGS, information on ctDNA that can be used for analysis is further limited. Also, as mentioned above, the amount of cfDNA contained in blood and the amount of ctDNA contained therein are very limited, and the amount of blood that can be collected in clinical practice is also very limited, so increasing the amount of DNA itself is limited. For example, in a normal person, the average amount of DNA in the blood is about 4.4 ng/ml (Raymond, CK, Hernandez, J., Karr, R., Hill, K. & Li, M. Collection of cell-free DNA for genomic analysis of solid tumors in a clinical laboratory setting. PLoS One 12, (2017).). Among these, since DNA must be left for other tests (eg, ddPCR: 25ng, Real-Time PCR: 1~100ng), the amount of DNA available for NGS test in actual clinical practice is inevitably more limited.

본원에 따른 방법은 cfDNA에 매우 적은 양으로 포함된 ctDNA에 존재하는 암과 연관된 저빈도 변이 예를 들면 1% 미만의 변이를 검출하기 위해, NGS 분석과정에서 에러 처리로 인해 소실되는 서열을 최소화할 수 있다. The method according to the present application minimizes sequences lost due to error handling in the NGS analysis process to detect cancer-related low-frequency mutations, for example, less than 1% mutations, present in ctDNA contained in very small amounts in cfDNA. can

이에 한 양태에서 본원은 NGS (Next Generation Sequencing) 분석을 이용한 cfDNA (cell free DNA)의 저빈도 변이 검출에 있어서, 상기 NGS 분석에 사용되는 고유 단편의 비율을 향상시키는 방법에 관한 것이다. Accordingly, in one aspect, the present application relates to a method of improving the ratio of unique fragments used in NGS analysis in the detection of low-frequency mutations in cfDNA (cell free DNA) using NGS (Next Generation Sequencing) analysis.

일 구현예에서 상기 방법은 (a) 특정 양의 cfDNA 시료를 제공하는 단계; (b) 상기 특정 양의 cfDNA에 포함된 유전체 단편 중 51 내지 330bp 길이에 해당하는 총 유전체 단편의 수, 및 고유 단편 (unique fragment)의 수를 계산하는 단계로, 상기 고유 단편의 수는 상기 총 유전체 단편의 수에서 상기 51 내지 330bp 길이에 해당하는 각 유전체 단편의 collision count의 합을 제외한 값이고, 상기 collision count 합은 다음 식으로부터 계산되며, In one embodiment, the method comprises the steps of (a) providing a specific amount of a cfDNA sample; (b) calculating the total number of genome fragments corresponding to a length of 51 to 330 bp among the genome fragments included in the specific amount of cfDNA, and the number of unique fragments, wherein the number of unique fragments is the total It is a value obtained by subtracting the sum of collision counts of each genome fragment corresponding to the length of 51 to 330 bp from the number of genome fragments, and the sum of collision counts is calculated from the following equation,

Figure pat00001
.
Figure pat00001
.

상기 식에서 q(k-1;d) : [1,d]의 범위의 n 개의 숫자 중 k 와 같은 숫자가 있을 확률, k : 특정 숫자, d : 숫자의 범위, n : 숫자의 개수임. In the above formula, q(k-1;d): Probability of a number equal to k among n numbers in the range of [1,d], k: a specific number, d: a range of numbers, n: the number of numbers.

(c) 상기 총 유전체 단편 수에서 상기 고유 단편 수가 차지하는 비를 계산하고, 상기 고유 단편의 비를 증가시키도록 상기 특정 양의 cfDNA 시료를 복수 개의 aliquot로 나누는 단계; 및 (d) 상기 복수개의 각 aliquot 별로, 각각 상이한 인덱스를 포함하는 어뎁터를 태깅하여 라이브러리를 제조하고, NGS (Next Generation Sequencing) 분석을 수행한 후 상기 각 aliquot의 NGS 결과를 통합하는 단계를 포함한다. (c) calculating the ratio of the number of unique fragments to the total number of genome fragments, and dividing the specific amount of the cfDNA sample into a plurality of aliquots to increase the ratio of the unique fragments; and (d) for each of the plurality of aliquots, tagging an adapter each having a different index to prepare a library, performing NGS (Next Generation Sequencing) analysis, and then integrating the NGS results of each aliquot. .

본원에 따른 방법은 도 1을 참조하면, 시료를 2개 이상의 aliquot로 분할하여 NGS 라이브러리를 만드는 것이 특징이다. 각 aliquots에서 생성된 NGS 데이터는 분석 단계에서 합쳐서 분석함으로써 일반적인 NGS 보다 더 많은 양의 ctDNA로부터 서열정보를 얻을 수 있기 때문에, ctDNA의 VAF (Variant Allele Frequency)가 낮은 유전자 변이의 정확한 검출을 가능하게 한다. Referring to FIG. 1 , the method according to the present application is characterized in that a sample is divided into two or more aliquots to make an NGS library. Since NGS data generated from each aliquots can be combined and analyzed in the analysis stage to obtain sequence information from a larger amount of ctDNA than general NGS, it enables accurate detection of gene mutations with low VAF (Variant Allele Frequency) of ctDNA. .

본원에서 가용 ctDNA 데이터란, 정상 세포와 종양 세포 유래의 DNA가 섞여 있어서 서로 구분할 수 없는 상태에서, 변이가 발생한 종양 세포 유래 DNA의 변이 검출에 사용가능한 NGS 데이터를 의미한다.Available ctDNA data herein refers to NGS data that can be used to detect mutations in DNA derived from mutated tumor cells in a state in which DNAs derived from normal cells and tumor cells are mixed and cannot be distinguished from each other.

본원에 따른 방법에서 특정 양의 DNA는 통상적으로 환자로부터 채취된 혈액으로부터 얻을 수 있는, 혈액 샘플에서 추출된 cfDNA로서, NGS 분석에 일반적으로 할당되는 cfDNA의 양을 의미한다. 예를 들면 정상인의 경우 혈액내에 DNA양은 평균적으로 약 4.4 ng/ml 정도이다 (Raymond, C. K., Hernandez, J., Karr, R., Hill, K. & Li, M. Collection of cell-free DNA for genomic analysis of solid tumors in a clinical laboratory setting. PLoS One 12, (2017).). NGS 분석을 위해 환자 한 명으로부터 일반적으로 약 5ml의 혈액을 채취한다면, 약 20ng의 cfDNA를 수득할 수 있으나, 구체적인 양은 암종이나 암의 진행 상태에 달라질 수 있다. A specific amount of DNA in the method according to the present application means the amount of cfDNA extracted from a blood sample, usually obtainable from blood taken from a patient, and generally allocated for NGS analysis. For example, in a normal person, the average amount of DNA in the blood is about 4.4 ng/ml (Raymond, CK, Hernandez, J., Karr, R., Hill, K. & Li, M. Collection of cell-free DNA for genomic analysis of solid tumors in a clinical laboratory setting. PLoS One 12, (2017).). In general, if about 5 ml of blood is collected from one patient for NGS analysis, about 20 ng of cfDNA can be obtained, but the specific amount may vary depending on the carcinoma or the progress of the cancer.

다음 단계로 본원에 따른 방법은 특정 양의 cfDNA에 포함된 유전체 단편의 개수 및 collision count를 이용하여 상기 단편 중 고유 단편의 개수를 수득하는 단계를 포함한다.As a next step, the method according to the present disclosure includes obtaining the number of unique fragments among the fragments by using the number of genomic fragments contained in a specific amount of cfDNA and a collision count.

본원에서는 특정 양의 cfDNA에 포함된 유전체 단편 중 특히 51 내지 330bp 길이에 해당하는 총 유전체 단편의 수 및 고유 단편(unique fragment)의 수를 계산한다. cfDNA 유전체 단편은 5bp ~ 991bp의 길이로 2개의 봉우리를 갖는 분포를 나타낸다. 각각 봉우리는 166 bp와 315 bp에서 최빈값을 갖고, 166 bp의 첫번째 봉우리는 315 bp의 두번째 봉우리보다 16배 정도 큰 비율을 갖는다. cfDNA 단편 중 50bp 이하로 과도하게 많이 잘려서 정보를 잃거나, 330 bp 이상으로 아주 긴 단편은 대부분 ctDNA가 아니므로 검사에 유용하지 않다. 따라서 51 ~ 330bp의 단편에 대부분의 ctDNA 정보가 포함되어 있으며, 본원에 따른 일 구현예에서는 다양한 길이의 유전체 단편을 포함하는 cfDNA에서 51 ~ 330bp 길이의 단편이 분석에 사용된다. In the present application, the number of total genome fragments corresponding to a length of 51 to 330 bp among the genome fragments included in a specific amount of cfDNA and the number of unique fragments are calculated. The cfDNA genome fragment has a distribution with two peaks with a length of 5 bp to 991 bp. The peaks, respectively, have a mode at 166 bp and 315 bp, with the first peak at 166 bp having a ratio 16 times greater than the second peak at 315 bp. Among cfDNA fragments, information is lost due to excessive cleavage of less than 50 bp, or fragments exceeding 330 bp are not useful for testing because most are not ctDNA. Accordingly, most of the ctDNA information is contained in a fragment of 51 to 330 bp, and in one embodiment according to the present application, a fragment of 51 to 330 bp in length is used for analysis in cfDNA including genomic fragments of various lengths.

cfDNA에 포함된 유전체 단편의 개수는 단편의 분자수에 상응하는 개념으로, 인간의 경우 통상 1ng DNA는 330개 Genome Equivalents (한 개 세포에 포함된 모든 유전자가 존재하는 DNA의 양으로 이 수는 특정 생물의 유전체의 크기에 따라 다르며 유전체 염기쌍을 ug의 DNA로 변환하여 계산된다)를 포함한다. 본원에 따른 일 구현예에서 상기 cfDNA의 유전체 단편의 길이는 약 51bp 내지 330bp로, 예를 들면 20ng의 cfDNA에서 51 - 330bp 길이를 갖는 단편의 개수는 표 1 및 2를 참조하면 6,173개이다. The number of genomic fragments contained in cfDNA is a concept corresponding to the number of molecules of the fragment, and in humans, 1 ng DNA is usually 330 Genome Equivalents (The amount of DNA present in all genes in one cell. This number depends on the size of the genome of a specific organism and is calculated by converting genome base pairs into ug DNA). In one embodiment according to the present application, the length of the genomic fragment of cfDNA is about 51 bp to 330 bp, for example, the number of fragments having a length of 51 - 330 bp in 20 ng of cfDNA is 6,173 with reference to Tables 1 and 2.

본원에 따른 방법에서 collision count를 이용해서 다양한 길이의 유전체 단편을 포함하는 특정 양의 cfDNA에서 우연히 서열이 동일한 단편의 개수가 계산되고, 전체 단편의 개수에서 우연히 서열이 동일한 단편의 개수를 빼면 고유 단편의 수가 된다. 다양한 길이의 유전체 단편을 포함하는 특정 DNA 시료에서 DNA 서열이 우연히 동일한 경우를 collision이라고 하고, collision counting 방법에 따라 우연히 서열이 동일한 DNA 단편의 개수를 계산할 수 있다. In the method according to the present application, the number of fragments with identical sequences is calculated by chance in a specific amount of cfDNA containing genomic fragments of various lengths using collision count, and when the number of fragments with identical sequences is subtracted from the total number of fragments, the unique fragment becomes the number of A case in which DNA sequences are coincidentally identical in a specific DNA sample containing genomic fragments of various lengths is called collision, and the number of DNA fragments with identical sequences can be counted according to the collision counting method.

Collison count는 Birthday paradox 에 근거한 것으로 특정한 크기의 집단에서 우연히 동일한 개체의 확률로, [1,d] 범위로부터 무작위로 선택된 k번째 정수가 적어도 하나의 앞선 선택이 반복될 확률은 q(k-1;d)와 같다는 것으로 다음과 같은 식 1으로 표시될 수 있다 (Might, Matt. "Collision hash collisions with the birthday paradox". Matt Might's blog. Retrieved 17 July 2015).The Collison count is based on the Birthday paradox, and is the probability of the same individual by chance in a group of a certain size. d), which can be expressed as Equation 1 as follows (Might, Matt. "Collision hash collisions with the birthday paradox". Matt Might's blog. Retrieved 17 July 2015).

[식 1][Equation 1]

Figure pat00002
Figure pat00002

상기 식에서, q(k-1;d) : [1,d]의 범위의 n 개의 숫자 중 k 와 같은 숫자가 있을 확률, k : 특정 숫자, d : 숫자의 범위, n : 숫자의 개수 이다. In the above formula, q(k-1;d): Probability that there is a number equal to k among n numbers in the range of [1,d], k: a specific number, d: a range of numbers, and n: the number of numbers.

예를 들어 cfDNA 20ng 에는 6,600개 Genome Equivalents가 존재하는 것은 알려진 사실이고, 이 경우, 어떤 특정한 loci (좌위)를 기준으로 보면, 6,600개의 다른 genome에서 유래된 DNA 단편이 존재하고 (6,600 X depth로 표현), 이 단편은 도 2a에서 계산된 확률과 동일한 분포로 다양한 길이로 존재하고 그 개수는 2b의 분포와 표 1에 표시된 값과 같다. 하지만, 이 중 실제 저빈도 서열 변이를 포함하는 ctDNA의 정보를 반영하는 길이를 51 ~ 330bp 범위로 가정했을 때, 해당하는 유전체 DNA 단편의 총 합은 표 2에 계산된 6,173개이다. 그리고 각 길이의 단편마다 상이한 collision count 값이 계산되는데, 예를 들어 166bp 단편의 경우 표 1에 따르면 그 길이 분포 확률은 0.02874이고 이는 6,600개 중 189.687개에 해당하고, 이때의 collision counts는 다음과 같이 계산되어 76.4513개이다.For example, it is known that there are 6,600 Genome Equivalents in 20 ng of cfDNA. In this case, based on a specific loci (locus), there are DNA fragments derived from 6,600 different genomes (expressed in 6,600 X depth). ), this fragment exists in various lengths with the same distribution as the probability calculated in FIG. 2A, and the number is the same as the distribution of 2b and the values shown in Table 1. However, assuming that the length reflecting the information of the ctDNA including the actual low-frequency sequence mutation is in the range of 51 to 330 bp, the total of the corresponding genomic DNA fragments is 6,173 calculated in Table 2. And a different collision count value is calculated for each fragment of each length. For example, in the case of a 166bp fragment, according to Table 1, the length distribution probability is 0.02874, which corresponds to 189.687 out of 6,600, and the collision counts at this time are as follows. It is calculated to be 76.4513.

Figure pat00003
Figure pat00003

이러한 방식으로, 식 1에 따라 51 ~ 330bp 길이의 각 단편의 collision counts를 계산하여 합하면 1,319개이고 이 것은 6,173개 중 21.4%에 해당한다 (표 2 참조). In this way, according to Equation 1, the collision counts of each fragment with a length of 51 to 330 bp are calculated and summed to 1,319, which corresponds to 21.4% of 6,173 (see Table 2).

앞서 언급한대로 cfDNA 특성상 서로 다른 세포에서 유래한 DNA이지만 우연히 완전히 동일한 서열을 갖는 경우가 자주 발생하고, 전통적인 NGS 방법에서는 PCR duplicates 인지 서로 다른 세포에서 유래했는지를 구분할 수 없다. 따라서 이로 인해 변이가 발생한 DNA는 무시되는 경우가 발생하여 가용 ctDNA 정보가 소실된다.As mentioned earlier, cfDNA is DNA derived from different cells due to the nature of it, but it often happens that they have exactly the same sequence by chance, and traditional NGS methods cannot distinguish between PCR duplicates or different cells. Therefore, the mutated DNA may be ignored, resulting in loss of available ctDNA information.

따라서 본원에서는 우연히 동일한 DNA가 발생할 확률을 계산하고, 이러한 확률을 최소화하는 방법으로 시료를 분할하여 NGS 검사가 진행된다. Therefore, in the present application, the NGS test is performed by calculating the probability of occurrence of the same DNA by chance, and dividing the sample in a method that minimizes this probability.

예를 들면 이론적으로 계산했을 때, 앞서 언급한 바와 같이 약 20ng DNA에는 6,600개 Genome Equivalents가 존재하고, 이중 분석적으로 의미가 있는 51 ~ 330 bp 길이를 갖는 단편은 6,173개이다. 이 중 Collision count에 의하면 1,319개 copy (21.4%)가 DNA 서열이 우연히 서로 동일해서 PCR duplicates와 구분이 불가능하고 이 데이터는 NGS 분석에서 사용되지 못하고 버려진다. 따라서 서로 다른 세포에서 유래한 DNA 정보라고 하더라도, 분석 과정에서 PCR duplicates를 제거하는 단계에서 버려진다. 이로 인해 실제 DNA 중 서로 다른 고유한 DNA 단편은 4,854개 (6,173-1,319) 이고, 고유 단편의 비는 0.786 (4,854/6,173)이다. 즉 78.6%의 단편만이 분석에 사용된다는 것이다. For example, when calculated theoretically, as mentioned above, there are 6,600 Genome Equivalents in about 20 ng DNA, and 6,173 fragments having a length of 51 to 330 bp that are analytically significant. Among them, according to the collision count, 1,319 copies (21.4%) found that the DNA sequences were coincidentally identical to each other, making them indistinguishable from PCR duplicates, and these data were not used in NGS analysis and were discarded. Therefore, even DNA information from different cells is discarded in the step of removing PCR duplicates during the analysis process. Due to this, the number of different unique DNA fragments among actual DNA is 4,854 (6,173-1,319), and the ratio of unique fragments is 0.786 (4,854/6,173). That is, only 78.6% of the fragments are used for analysis.

고유 DNA 단편은 서로 다른 세포에서 유래한 것이고, 우연히 서열이 동일한 것으로 간주되어 제거되지 않는 것이 저빈도 변이 검출에 중요하기 때문에, 고유 단편의 비를 가능한 증가시키는 것이 유리하다. 앞서 언급한 바와 같이 특정 DNA 시료에서 DNA 서열이 우연히 동일한 경우를 collision이라고 하고, collision counting 방법에 따라 특정 길이의 DNA 중에서 우연히 서열이 동일한 DNA 단편의 개수를 계산할 수 있다.Because unique DNA fragments are from different cells and it is important for infrequent mutation detection that sequences are not accidentally removed as they are considered identical, it is advantageous to increase the ratio of unique fragments as much as possible. As mentioned above, a case in which DNA sequences are coincidentally identical in a specific DNA sample is called collision, and the number of DNA fragments with identical sequences among DNAs of a specific length can be counted according to the collision counting method.

본원에서는 cfDNA 단편의 길이별로 발생할 수 있는 확률을 계산하기위해 실제 혈액으로부터 cfDNA를 검사하여 단편 길이의 분포를 얻었다 (도 2a 참조). 그리고 이 확률을 바탕으로 특정 loci에 6,600 X depth가 있을 때 각 길이별 DNA 단편의 개수를 계산했다 (도 2b, 표 1 참조). 이 중 너무 짧거나, 긴 DNA 서열을 제외하고 51bp 내지 330bp까지 길이의 단편에 대하여 길이별로 collision counting을 계산한 결과는 아래 표 1과 같다. 표 1에 의하면 20ng을 사용하는 경우, 예를 들면 166bp 길이에서 collision count의 비율이 40.3% 정도로 높게 나타나고, 이는 기존 NGS 분석에서는 사용되지 못하고 버려지는 데이터이다.Herein, in order to calculate the probability of occurrence for each length of the cfDNA fragment, the distribution of fragment length was obtained by examining cfDNA from real blood (see FIG. 2a ). And based on this probability, when there is 6,600 X depth at a specific loci, the number of DNA fragments for each length was calculated (see FIG. 2b, Table 1). Table 1 below shows the results of collision counting calculations for fragments with a length of 51 bp to 330 bp, except for too short or long DNA sequences. According to Table 1, when 20ng is used, for example, the collision count ratio is as high as 40.3% at a length of 166bp, which is data that is not used in the existing NGS analysis and is discarded.

[표 1-1][Table 1-1]

Figure pat00004
Figure pat00004

[표 1-2][Table 1-2]

Figure pat00005
Figure pat00005

[표 1-3][Table 1-3]

Figure pat00006
Figure pat00006

[표 1-4][Table 1-4]

Figure pat00007
Figure pat00007

[표 1-5][Table 1-5]

Figure pat00008
Figure pat00008

[표 1-6][Table 1-6]

Figure pat00009
Figure pat00009

[표 1-7][Table 1-7]

Figure pat00010
Figure pat00010

[표 1-8][Table 1-8]

Figure pat00011
Figure pat00011

[표 1-9][Table 1-9]

Figure pat00012
Figure pat00012

한편 본원에서는 보다 적은 양의 cfDNA를 사용하는 경우, 166bp에서 collision count가 6.06% 수준으로 낮아지며, 즉 NGS 실험에 사용되는 input cfDNA의 양이 증가할수록 collision count의 비율이 증가하는 것을 발견하였다 (표 2 참조). 시작 DNA 양이 적을수록 더 많은 비율의 데이터를 분석에 사용할 수 있다. 따라서 특정 양의 DNA를 일정 숫자로 나눠서 더 작은 시작 DNA 양으로 검사할 경우 더 많은 DNA 정보를 분석에 활용할 수 있음을 발견하였다. On the other hand, when a smaller amount of cfDNA was used, it was found that the collision count was lowered to 6.06% at 166bp, that is, the ratio of the collision count increased as the amount of input cfDNA used in the NGS experiment increased (Table 2). Reference). The smaller the amount of starting DNA, the greater the percentage of data available for analysis. Therefore, it was discovered that more DNA information can be used for analysis when a specific amount of DNA is divided by a certain number and tested with a smaller starting DNA amount.

[표 2][Table 2]

Figure pat00013
Figure pat00013

이에 본원에 따른 방법은 고유 단편의 비가 증가하도록 cfDNA 시료를 복수개의 aliquot로 분할하여 각 aliquot에 대하여 NGS 분석을 수행한다. 예를 들면 표 1을 참조하면, 시작 DNA가 20ng인 경우 1,319개 (21.4%) 단편이 우연히 동일한 서열로 판단되어 분석에 사용되지 못하지만, 시작 cfDNA를 4개로 나누어 각각 약 5ng를 시작 DNA 양으로 하는 경우에는 380 (=95*4)개 단편 (6.1%)이 우연히 동일할 수 있다. 그 결과 4개로 분할하여 NGS 라이브러리를 준비하면 93.9%를 분석에 사용할 수 있고, 분할하지 않은 경우 78.6%에 대비해 15.2% 더 많은 DNA 단편의 서열을 분석에 사용할 수 있다.Accordingly, in the method according to the present application, the cfDNA sample is divided into a plurality of aliquots to increase the ratio of native fragments, and NGS analysis is performed for each aliquot. For example, referring to Table 1, when the starting DNA is 20 ng, 1,319 (21.4%) fragments are determined to be identical sequences by chance and cannot be used for analysis. In this case, 380 (=95*4) fragments (6.1%) may be identical by chance. As a result, if the NGS library is prepared by dividing into four, 93.9% of the DNA fragment can be used for analysis, and 15.2% more DNA fragment sequences can be used for analysis compared to 78.6% if not divided.

본원에 따른 방법에서는 하나의 시작 cfDNA 시료에 우연히 서열이 동일한 DNA가 최소화되도록 시작 cfDNA 시료를 적절하게 나누어 분석함으로써, molecular barcode 없이도 각 aliquot를 구분하는 것만으로 고유 단편에서 유래된 저빈도 변이를 발견할 수 있다. In the method according to the present application, by appropriately dividing and analyzing the starting cfDNA sample so that DNA having the same sequence is minimized by chance in one starting cfDNA sample, low-frequency mutations derived from the unique fragment can be found just by distinguishing each aliquot without a molecular barcode. can

일 구현예에서는 고유 단편의 비가 최소 93% 이상이 되도록 특정 양의 시작 DNA를 적절히 분할하여 라이브러리를 제조한다. In one embodiment, a library is prepared by appropriately dividing a specific amount of starting DNA so that the ratio of native fragments is at least 93%.

임상에서 한 환자로부터 혈액을 채취하여 얻을 수 있는 cfDNA의 양이 20ng인 것을 고려하며, 일 구현예에서 특정 양의 cfDNA는 20ng이고, 고유 단편이 비가 93.9%가 되도록 상기 cfDNA를 4개의 aliquot로 분할한다. Considering that the amount of cfDNA that can be obtained by taking blood from a patient in clinical practice is 20 ng, in one embodiment, the specific amount of cfDNA is 20 ng, and the cfDNA is divided into 4 aliquots so that the ratio of native fragments is 93.9% do.

본원에 따른 방법의 다음단계에서는 분할된 복수개의 각 aliquot를 구분하기 위해, 각 aliquot 별로 각각 상이한 인덱스를 포함하는 어뎁터를 태깅하여 라이브러리를 제조하고, NGS분석을 수행한 후 상기 각 aliquot의 NGS 결과를 통합하는 단계를 포함한다. 본원에서 상기 각 aliquots를 구분하는 인덱스를 tube barcode라고 칭한다. 상이한 인덱스를 포함하는 어뎁터의 선택, 태깅 방법을 포함하는 라이브러리 제조는 채용되는 구체적 플랫폼에 따라 상이할 수 있으며, 본원 실시예 등의 기재를 참조하여 당업자라면 적절한 것을 선택할 수 있다. In the next step of the method according to the present application, in order to distinguish each divided plural aliquots, a library is prepared by tagging an adapter including a different index for each aliquot, and NGS analysis is performed, and then the NGS results of each aliquot are obtained. Including the step of integrating. In the present application, the index that distinguishes each of the aliquots is referred to as a tube barcode. Selection of adapters including different indices and library preparation including tagging methods may differ depending on the specific platform employed, and those skilled in the art may select an appropriate one with reference to the description of Examples and the like herein.

일 구현예에서는 Illumina와 같은 NGS 플랫폼에서 멀티플렉스 시퀀싱(multiplex sequencing) 방법으로 시퀀싱된다. In one embodiment, the sequence is performed by a multiplex sequencing method on an NGS platform such as Illumina.

본원에 따른 방법의 다음 단계에서 각 aliquot의 NGS 데이터는 독립적으로 참조 유전체에 맵핑되고 error correction을 진행한다. 이 단계의 결과물로 각 aliquot 마다 하나의 bam 파일이 생성된다. 이 bam 파일들을 한 개의 bam 파일로 통합한다. 이후 일반적인 변이 분석 프로그램 (Mutect2, Varscan, Vardict, Strelka2, 등)을 이용해 상기 통합된 bam 파일로부터 유전자 변이를 검출한다. In the next step of the method according to the present application, the NGS data of each aliquot is independently mapped to the reference genome and error correction is performed. As a result of this step, one bam file is created for each aliquot. These bam files are combined into one bam file. Thereafter, gene mutations are detected from the integrated bam file using a general mutation analysis program (Mutect2, Varscan, Vardict, Strelka2, etc.).

또한 다른 양태에서 본원은 NGS 분석을 이용한 cfDNA의 저빈도 변이 검출에 있어서, 상기 NGS 분석에 사용되는 고유 단편의 비율을 향상시키기 위한 라이브러리 제조방법에 관한 것이다. In another aspect, the present application relates to a library preparation method for improving the ratio of native fragments used for NGS analysis in detecting low-frequency mutations in cfDNA using NGS analysis.

일 구현예에서 상기 방법은 (a) 특정 양의 cfDNA 시료를 제공하는 단계; (b) 상기 특정 양의 cfDNA에 포함된 유전체 단편 중 51bp 내지 330bp 길이에 해당하는 총 유전체 단편의 수, 및 고유 단편 (unique fragment)의 수를 계산하는 단계로, 상기 고유 단편의 수는 상기 총 유전체 단편의 수에서 상기 51~330bp 길이에 해당하는 각 유전체 단편의 collision count의 합을 제외한 값이고, 상기 collision count 합은 식 1로부터 계산되고, (c) 상기 단계 (b)로부터 상기 총 유전체 단편 수에서 상기 고유 단편의 수가 차지하는 비를 계산하고, 상기 고유 단편의 비를 증가시키도록 상기 특정 양의 cfDNA 시료를 복수 개의 aliquot로 나누는 단계; 및 (d) 상기 복수개의 각 aliquot 별로, 각각 상이한 인덱스를 포함하는 어뎁터를 태깅하여 NGS용 라이브러리를 제조하는 단계를 포함한다. In one embodiment, the method comprises the steps of (a) providing a specific amount of a cfDNA sample; (b) calculating the number of total genome fragments corresponding to a length of 51 bp to 330 bp among the genome fragments included in the specific amount of cfDNA, and the number of unique fragments, wherein the number of unique fragments is the total number of It is a value obtained by subtracting the sum of collision counts of each genome fragment corresponding to the 51-330 bp length from the number of genome fragments, and the collision count sum is calculated from Equation 1, (c) the total genome fragments from step (b) calculating the ratio of the number of the unique fragments to the number, and dividing the specific amount of the cfDNA sample into a plurality of aliquots to increase the ratio of the unique fragments; and (d) preparing a library for NGS by tagging adapters each having a different index for each of the plurality of aliquots.

상기 방법에 포함된 각 단계는 앞서 언급한 바를 참조할 수 있다.Each step included in the method may refer to the aforementioned bar.

이하, 본 발명의 이해를 돕기 위해서 실시예를 제시한다. 그러나 하기의 실시예는 본 발명을 보다 쉽게 이해하기 위하여 제공되는 것일 뿐 본 발명이 하기의 실시예에 한정되는 것은 아니다.Hereinafter, examples are presented to help the understanding of the present invention. However, the following examples are only provided for easier understanding of the present invention, and the present invention is not limited to the following examples.

실시예Example

실시예 1. 상이한 인덱스를 사용한 시료 분할 NGS 분석Example 1. Sample Segmentation NGS Analysis Using Different Indices

본원에서 발견된 것을 다음과 같이 실험으로 증명하였다.What was found herein was experimentally verified as follows.

실험에 사용한 cfDNA는 SeraseqTM ctDNA mutation mix v2 및 SeraseqTM cfDNA mutation mix v2 WT (SeraCare, Milford, MA)에서 구입하여 사용하였다. The cfDNA used in the experiment was purchased from SeraseqTM ctDNA mutation mix v2 and SeraseqTM cfDNA mutation mix v2 WT (SeraCare, Milford, MA) and used.

실험 디자인은 다음 표와 같다. The experimental design is shown in the table below.

[표 3][Table 3]

Figure pat00014
Figure pat00014

cfDNA는 TapeStation (Agilent Inc.)을 이용하여 QC (Quality control)를 진행하였고, TapeStation 기준 cfDNA 20 ng을 사용하였다. cfDNA의 양쪽 말단에 A (아데노신)을 결합하고 어뎁터 (Illumina, Inc)를 라이게이션(ligation)으로 결합하였다. 그리고 극미량의 샘플 swap도 방지할 수 있는 듀얼 인덱스(dual index) 방법 적용을 위해, 5` 말단과 3`말단에 각각 i7과 i5 인덱스를 포함하는 PCR 프라이머 (Illumina, Inc)를 상기 어뎁터에 상보적으로 결합시켰다. 상기 PCR 프라이머는 다음과 같은 공통적인 서열과 각 aliquot를 구별할 수 있는 인덱스 서열([i7]과 [i5]로 표시)이 포함되어 있다.For cfDNA, QC (quality control) was performed using TapeStation (Agilent Inc.), and 20 ng of cfDNA based on TapeStation was used. A (adenosine) was bound to both ends of cfDNA, and an adapter (Illumina, Inc) was bound by ligation. And for application of the dual index method that can prevent even a very small amount of sample swap, PCR primers (Illumina, Inc) including i7 and i5 indexes at the 5' end and 3' end, respectively, are complementary to the adapter was combined with The PCR primers include the following common sequences and index sequences (indicated by [i7] and [i5]) that can distinguish each aliquot.

5'-CAAGCAGAAGACGGCATACGAGAT [i7] GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC-s-T-3'5'-CAAGCAGAAGACGGCATACGAGAT [i7] GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC-sT-3'

5´-AATGATACGGCGACCACCGAGATCTACAC[i5]ACACTCTTTCCCTACACGACGCTCTTCCGATC-s-T-3´5´-AATGATACGGCGACCACCGAGATCTACAC [i5] ACACTCTTTCCCTACACGACGCTCTTCCGATC-sT-3´

[표 4][Table 4]

Figure pat00015
Figure pat00015

일차적으로 만들어진 library는 106개 인간 유전자 (표 5 참조)의 probe (Celemics, Inc. custom panel)를 사용하여 관심이 있는 유전자 만을 캡처하여 최종 library를 기존 방법대로 제조하였다 (Kang, JK et al. Plos one 2020.May). For the primary library, only the gene of interest was captured using a probe (Celemics, Inc. custom panel) of 106 human genes (see Table 5), and the final library was prepared according to the existing method (Kang, JK et al. Plos). one 2020.May).

[표 5-1][Table 5-1]

Figure pat00016
Figure pat00016

[표 5-2][Table 5-2]

Figure pat00017
Figure pat00017

[표 5-3][Table 5-3]

Figure pat00018
Figure pat00018

이어 상기 제조한 라이브러리는 Nextseq550 Dx (Illumina, SanDiego, CA, USA) 장비를 사용하여 2x150 bp paired end 로 sequencing 하였고, bcl2fastq (v2.19.0.316, Illumina Inc.) 프로그램을 이용해 demultiplexing 하여 각 aliquot에 해당하는 fastq 파일을 생성했다. Aliquot마다 forward 방향, reverse 방향의 pair 로 2개의 fastq 파일이 생성된다. 각각 파일은 fastp (version 0.20.0, Shifu Chen et al.)를 사용해 insert (DNA fragment)와 함께 read 말단에 읽힌 adapter 서열을 제거하여 새로운 fastq 파일을 만들었다. 이어서 adapter 서열이 제거된 fastq 파일 (trimmed fastq)을 FastQC (v0.11.8, Babraham Institute)를 사용해 per base sequence quality, overrepresented sequences, adapter content 항목이 'good' 인 경우 QC를 통과한 것으로 판단하여 다음 단계로 진행했다. Trimmed fastq 파일은 GRCh38 버전의 참조유전체에 대하여 bwa (version 0.7.17-r1188)의 BWA-MEM 알고리즘을 사용해 맵핑(mapping)하여 bam 파일을 만들었다. Bam에서 sequencing error를 수정하고 PCR duplicate를 제거하기 위해 gencore (version 0.14.0, Shifu Chen et al.)를 사용했고, 이 결과로 새로운 bam 파일 (collapsed bam)을 만들었다. 이 collapsed bam 파일에 기록된 reads는 error가 수정되고 PCR duplicate가 제거되었기 때문에 혈액에 존재하는 DNA fragment의 정보를 반영한다. 이 과정까지 진행하여 각 샘플별 aliqout로 나눈 개수만큼 bam 파일이 생성되었다. 다음 단계로 진행하기 위해 각 aliquot bam 파일은 sambamba (version 0.7.0, Artem Tarasov et al.)의 merge 기능을 사용해 하나의 bam 파일로 합쳐졌다. 그리고 캡쳐한 106개 유전자에 대해 평균적으로 몇 개의 DNA fragment 정보가 있는지 알기 위해 sambamba (version 0.7.0, Artem Tarasov et al.)의 depth 기능을 이용해 per base depth를 계산하고, 전체 106개 유전자의 base에 대한 평균값을 구해 fragment mean depth(FMD) 값을 구했다.Then, the prepared library was sequenced with 2x150 bp paired ends using Nextseq550 Dx (Illumina, SanDiego, CA, USA) equipment, and demultiplexed using the bcl2fastq (v2.19.0.316, Illumina Inc.) program to correspond to each aliquot. A fastq file was created. For each aliquot, two fastq files are created as pairs in forward and reverse directions. For each file, using fastp (version 0.20.0, Shifu Chen et al.), the adapter sequence read at the end of the read was removed along with the insert (DNA fragment) to create a new fastq file. Then, use FastQC (v0.11.8, Babraham Institute) for the fastq file (trimmed fastq) with the adapter sequence removed. If the per base sequence quality, overrepresented sequences, and adapter content items are 'good', it is determined that the QC has been passed and the next step proceeded with The trimmed fastq file was mapped to the GRCh38 version reference genome using the BWA-MEM algorithm of bwa (version 0.7.17-r1188) to create a bam file. Gencore (version 0.14.0, Shifu Chen et al.) was used to correct sequencing errors in Bam and remove PCR duplicates, and a new bam file (collapsed bam) was created as a result. The reads recorded in this collapsed bam file reflect the information of DNA fragments present in blood because errors have been corrected and PCR duplicates have been removed. By proceeding to this process, bam files were created as much as the number divided by aliqout for each sample. To proceed to the next step, each aliquot bam file was merged into a single bam file using the merge function of sambamba (version 0.7.0, Artem Tarasov et al.). And to find out how many DNA fragments are on average for the 106 captured genes, the per base depth is calculated using the depth function of sambamba (version 0.7.0, Artem Tarasov et al.), and the base of all 106 genes The average value was obtained for the fragment mean depth (FMD).

결과는 도 3에 기재되어 있다. 동일한 20ng DNA를 aliquot로 나누지 않거나(1 aliquot), 2개, 4개, 8개로 나눠서 실험했을 때 검사에 사용할 수 있는 고유 단편의 개수가 상이하였다. 고유 단편의 수는 Aliquot 4개로 나눴을 때 포화되고, 이 이상 8개로 나누는 경우에는 큰 효과를 보기는 어려운 것으로 나타났다. 한편 aliquot를 많이 나눌수록 실험적 복잡성이 증가하므로 휴먼 에러를 유발할 가능성도 높아진다. 그러므로, 시작 DNA 양이 20ng인 경우에는 각 aliquot 별로 5ng에 해당하도록 4개의 aliquot로 나눴을 때 ctDNA 정보의 양을 최적으로 얻을 수 있다.The results are shown in FIG. 3 . When the same 20ng DNA was not divided into aliquots (1 aliquot) or divided into 2, 4, or 8 pieces, the number of unique fragments that could be used for the test was different. The number of unique fragments is saturated when divided by 4 aliquots, and it is difficult to see a big effect when dividing more than this into 8 aliquots. On the other hand, as the number of aliquots increases, the experimental complexity increases and thus the possibility of causing human error increases. Therefore, if the starting DNA amount is 20 ng, the amount of ctDNA information can be optimally obtained when divided into 4 aliquots corresponding to 5 ng for each aliquot.

또한 Aliquots 로 분할하여 얻은 DNA 정보를 이용해 본원에 따른 방법으로 분석을 하면 그렇지 않은 경우 (모든 duplicate 제거)보다 FMD (Fragment mean depth) 값이 높아지는 것을 확인하였다 (도 4 및 표 7 참조). 즉 동일한 시작 DNA를 사용하여 더 많은 DNA 정보를 검사에 사용할 수 있다. FMD는 NGS 검사 영역에서 대하여 고유 단편을 맵핑 했을 때 계산되는 평균적인 시퀀싱 정도(sequencing depth)로 그 값을 표 6에 나타냈다. In addition, it was confirmed that the FMD (Fragment mean depth) value was higher than if it was not analyzed by the method according to the present application using the DNA information obtained by dividing into aliquots (refer to FIGS. 4 and 7). That is, more DNA information can be used for testing using the same starting DNA. Table 6 shows FMD as the average sequencing depth calculated when unique fragments are mapped to the NGS test region.

[표 6][Table 6]

Figure pat00019
Figure pat00019

[표 7][Table 7]

Figure pat00020
Figure pat00020

기존의 library를 제작하는 방법은 앞에서 기술한 방법과 유사하다. 단 차이점은 본원에 따른 방법에서는 하나의 샘플을 4개의 aliquot로 나눈 뒤 각각 다른 index를 사용하나, 기존의 방법은 하나의 샘플을 하나의 tube로 실험하기 때문에 하나의 인덱스만을 사용하여 라이브러리를 제작하였다.The method of creating the existing library is similar to the method described above. The only difference is that in the method according to the present application, a sample is divided into 4 aliquots and then a different index is used. However , in the existing method, since one sample is tested with one tube, a library was prepared using only one index. .

또한 표 8을 참조하면, 동일한 input DNA 양 (20ng) 일 때, aliquot의 개수를 늘리는 만큼 개별 aliquot당 DNA 양은 줄어들고, 각 aliquot의 DNA는 pre-PCR 단계에서 증폭되는데, 1ng 당 pre-PCR 양은 aliquot에 5ng의 DNA가 있을 때 포화된다. 결과적으로 전체 pre-PCR DNA 양은 aliquot 개수를 늘릴수록 증가하고 4개로 늘렸을 때 포화되는 것으로 나타났다 (도 5 참조). 이 것은 FMD 값이 aliquots 4개인 경우 포화되는 것과 비슷한 현상으로 aliquots를 4개로 나눌 때의 특장점으로 볼 수 있다. 부가적으로 한 번의 NGS 실험에서는 증폭된 DNA 중 1000~2000 ng을 사용하기 때문에, aliquot를 나누지 않은 경우엔 1회 분석 분량의 DNA밖에 얻을 수 없는 반면, aliquot로 나누어서 증폭한 경우, 4000~6000 ng를 얻을 수 있기 때문에, 향후 검증과정에서 재검사에 활용하거나, 다른 실험에 사용할 수 있는 추가의 장점이 생긴다.Also, referring to Table 8, at the same input DNA amount (20ng), the amount of DNA per individual aliquot decreases as the number of aliquots increases, and the DNA of each aliquot is amplified in the pre-PCR step. It is saturated when there is 5 ng of DNA in it. As a result, it was found that the total amount of pre-PCR DNA increased as the number of aliquots increased, and was saturated when the number of aliquots was increased to 4 (see FIG. 5). This is a phenomenon similar to saturation when the FMD value is 4 aliquots, and can be viewed as a feature when dividing aliquots into 4 aliquots. Additionally, since 1000 to 2000 ng of amplified DNA is used in one NGS experiment, only the amount of DNA for one analysis can be obtained if the aliquot is not divided. can be obtained, there is an additional advantage that it can be used for re-inspection in the future verification process or used for other experiments.

[표 8][Table 8]

Figure pat00021
Figure pat00021

실시예 2. 본원에 따른 방법을 이용한 분석에서 오류 수정 전/후 변이의 VAF (Variant allele frequency) 향상Example 2. Variant allele frequency (VAF) improvement of variation before and after error correction in analysis using the method according to the present application

cfDNA 분석에 있어서 molecular barcode를 사용한 경우, barcode를 사용해 동일한 세포에서 유래한 DNA의 PCR duplicates로 확인되면 서로 염기서열을 비교하고, 다른 부분이 있을 경우 다수결의 원칙으로 오류가 생긴 염기를 수정하고 전체 PCR duplicates를 대표하는 하나의 consensus DNA 서열을 만든다. 이 방법으로 error rate를 1/10000 (10e-4)까지 낮출 수 있다.In the case of using molecular barcode in cfDNA analysis, if PCR duplicates of DNA derived from the same cell using barcode are confirmed, the nucleotide sequences are compared with each other. Creates a single consensus DNA sequence that represents duplicates. In this way, the error rate can be reduced to 1/10000 (10e-4).

본원에 따른 방법은 적절하게 aliquot로 나눈 경우 서로 다른 세포에서 온 DNA가 우연히 생기지 않는 것으로 가정하고, 모든 duplicates를 PCR duplicates로 가정하여 molecular barcode를 사용할 때와 유사하게 다수결 원칙으로 consensus DNA를 만든다. 하지만 실제로 다른 세포 유래의 우연히 동일한 DNA가 있을 수 있기 때문에 오류 수정 과정에서 서로 다른 염기가 많은 경우 분석에서 제외시킨다. The method according to the present application assumes that DNA from different cells does not occur by chance when properly divided into aliquots, and all duplicates are assumed to be PCR duplicates, similar to when using molecular barcodes, to make consensus DNA with a majority rule. However, in fact, since there may be identical DNA by chance from different cells, in the error correction process, if there are many different bases, it is excluded from the analysis.

한편, DNA를 aliquot로 나누는 것 자체는 반복실험의 효과가 있다. 이 점을 이용해 aliquots 사이에 통계적으로 유의미한 불일치가 발생하는 경우 분석 결과에서 제외한다. 결과적으로 error rate를 10배 더 낮춰서 1/100000 (10e-5)까지 낮출 수 있었다. 도 6a 및 도 6b에 나타난 바와 같이 오류 수정 전 변이는 VAF 1%에서 다수의 false positive (FP) 변이가 검출된다 (도 6a). 반면 오류 수정 후 true positive (TP)만 남고 모든 FP가 사라졌다 (도 6b). On the other hand, dividing DNA into aliquots itself has the effect of repeated experiments. Using this point, statistically significant discrepancies between aliquots are excluded from the analysis results. As a result, it was possible to lower the error rate by a factor of 10 to 1/100000 (10e-5). As shown in FIGS. 6A and 6B , a large number of false positive (FP) mutations were detected at 1% of the VAF before error correction ( FIG. 6A ). On the other hand, after error correction, only true positive (TP) remained and all FPs disappeared (FIG. 6b).

이상에서 본원의 예시적인 실시예에 대하여 상세하게 설명하였지만 본원의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본원의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본원의 권리범위에 속하는 것이다.Although the exemplary embodiments of the present application have been described in detail above, the scope of the present application is not limited thereto, and various modifications and improvements by those skilled in the art using the basic concept of the present application as defined in the following claims are also included in the scope of the present application. will belong to

본 발명에서 사용되는 모든 기술용어는, 달리 정의되지 않는 이상, 본 발명의 관련 분야에서 통상의 당업자가 일반적으로 이해하는 바와 같은 의미로 사용된다. 본 명세서에 참고문헌으로 기재되는 모든 간행물의 내용은 본 발명에 도입된다.All technical terms used in the present invention, unless otherwise defined, have the same meaning as commonly understood by one of ordinary skill in the art of the present invention. The contents of all publications herein incorporated by reference are incorporated herein by reference.

Claims (8)

NGS (Next Generation Sequencing) 분석을 이용한 cfDNA (cell free DNA)의 저빈도 변이 검출에 있어서, 상기 NGS 분석에 사용되는 고유 단편의 비율을 향상시키는 방법으로,
(a) 특정 양의 cfDNA 시료를 제공하는 단계;
(b) 상기 특정 양의 cfDNA에 포함된 유전체 단편 중 51 내지 330bp 길이에 해당하는 총 유전체 단편의 수, 및 고유 단편(unique fragment)의 수를 계산하는 단계로, 상기 고유 단편의 수는 상기 총 유전체 단편의 수에서 상기 51 내지 330bp 길이에 해당하는 각 유전체 단편의 collision count의 합을 제외한 값이고,
상기 collision count 합은 다음 식으로부터 계산되며,
Figure pat00022
.
상기 식에서 q(k-1;d) : [1,d]의 범위의 n 개의 숫자 중 k 와 같은 숫자가 있을 확률, k : 특정 숫자, d : 숫자의 범위, n : 숫자의 개수임.
(c) 상기 총 유전체 단편 수에서 상기 고유 단편 수가 차지하는 비를 계산하고, 상기 고유 단편의 비를 증가시키도록 상기 특정 양의 cfDNA 시료를 복수 개의 aliquot로 나누는 단계; 및
(d) 상기 복수개의 각 aliquot 별로, 각각 상이한 인덱스를 포함하는 어뎁터를 태깅하여 라이브러리를 제조하고, NGS (Next Generation Sequencing) 분석을 수행한 후 상기 각 aliquot의 NGS 결과를 통합하는 단계.
In the detection of low-frequency mutations in cfDNA (cell free DNA) using NGS (Next Generation Sequencing) analysis, a method for improving the ratio of unique fragments used in the NGS analysis,
(a) providing a specific amount of a cfDNA sample;
(b) calculating the total number of genome fragments corresponding to a length of 51 to 330 bp among the genome fragments included in the specific amount of cfDNA, and the number of unique fragments, wherein the number of unique fragments is the total It is a value obtained by subtracting the sum of the collision counts of each genome fragment corresponding to the length of 51 to 330 bp from the number of genome fragments,
The collision count sum is calculated from the following equation,
Figure pat00022
.
In the above formula, q(k-1;d): Probability of a number equal to k among n numbers in the range of [1,d], k: a specific number, d: a range of numbers, n: the number of numbers.
(c) calculating the ratio of the number of unique fragments to the total number of genome fragments, and dividing the specific amount of the cfDNA sample into a plurality of aliquots to increase the ratio of the unique fragments; and
(d) preparing a library by tagging adapters each having a different index for each of the plurality of aliquots, performing NGS (Next Generation Sequencing) analysis, and then integrating the NGS results of each aliquot.
제 1 항에 있어서,
상기 저빈도 변이는 1% 미만의 빈도인 것인, 방법.
The method of claim 1,
The method of claim 1, wherein the low frequency variation is less than 1% frequency.
제 1 항 또는 제 2 항에 있어서,
상기 (d) 단계에서 상기 고유 단편의 비가 최소 93% 이상이 되도록 하는 것인, 방법.
3. The method of claim 1 or 2,
The method, wherein in step (d), the ratio of the native fragments is at least 93%.
제 1 항 또는 제 2 항에 있어서,
상기 특정 양의 cfDNA는 20ng이고, 이 경우 상기 cfDNA는 상기 고유 단편이 비가 93.9%가 되도록 상기 cfDNA를 4개의 aliquot로 분할하는 것인, 방법.
3. The method of claim 1 or 2,
wherein the specific amount of cfDNA is 20 ng, in which case the cfDNA is divided into 4 aliquots of the cfDNA such that the ratio of the native fragments is 93.9%.
NGS (Next Generation Sequencing) 분석을 이용한 cfDNA (cell free DNA)의 저빈도 변이 검출에 있어서, 상기 NGS 분석에 사용되는 고유 단편의 비율을 향상시키기 위한 라이브러리 제조방법으로, 상기 방법은
(a) 특정 양의 cfDNA 시료를 제공하는 단계;
(b) 상기 특정 양의 cfDNA에 포함된 유전체 단편 중 51bp 내지 330bp 길이에 해당하는 총 유전체 단편의 수, 및 고유 단편 (unique fragment)의 수를 계산하는 단계로, 상기 고유 단편의 수는 상기 총 유전체 단편의 수에서 상기 51~330bp 길이에 해당하는 각 유전체 단편의 collision count의 합을 제외한 값이고,
상기 collision count 합은 다음 식으로부터 계산되며,
Figure pat00023
.
상기 식에서 q(k-1;d) : [1,d]의 범위의 n 개의 숫자 중 k 와 같은 숫자가 있을 확률, k : 특정 숫자, d : 숫자의 범위, n : 숫자의 개수임.
(c) 상기 단계 (b)로부터 상기 총 유전체 단편 수에서 상기 고유 단편의 수가 차지하는 비를 계산하고, 상기 고유 단편의 비를 증가시키도록 상기 특정 양의 cfDNA 시료를 복수 개의 aliquot로 나누는 단계; 및
(d) 상기 복수개의 각 aliquot 별로, 각각 상이한 인덱스를 포함하는 어뎁터를 태깅하여 NGS용 라이브러리를 제조하는 단계를 포함하는, 방법.
In the detection of low-frequency mutations in cfDNA (cell free DNA) using NGS (Next Generation Sequencing) analysis, a library preparation method for improving the ratio of unique fragments used in the NGS analysis, the method comprising:
(a) providing a specific amount of a cfDNA sample;
(b) calculating the number of total genome fragments corresponding to a length of 51 bp to 330 bp among the genome fragments included in the specific amount of cfDNA, and the number of unique fragments, wherein the number of unique fragments is the total number of It is a value obtained by subtracting the sum of the collision counts of each genome fragment corresponding to the length of 51 to 330 bp from the number of genome fragments,
The collision count sum is calculated from the following equation,
Figure pat00023
.
In the above formula, q(k-1;d): Probability of a number equal to k among n numbers in the range of [1,d], k: a specific number, d: a range of numbers, n: the number of numbers.
(c) calculating a ratio of the number of unique fragments to the total number of genome fragments from step (b), and dividing the specific amount of cfDNA sample into a plurality of aliquots to increase the ratio of unique fragments; and
(d) for each of the plurality of aliquots, each tagging an adapter including a different index to prepare a library for NGS.
제 5 항에 있어서,
상기 저빈도는 1% 미만의 빈도인 것인, 방법.
6. The method of claim 5,
The method of claim 1, wherein the low frequency is less than 1%.
제 5 항 또는 제 6 항에 있어서,
상기 (d) 단계에서 상기 고유 단편의 비가 최소 93% 이상이 되도록 하는 것인, 방법.
7. The method according to claim 5 or 6,
The method, wherein in step (d), the ratio of the native fragments is at least 93%.
제 5 항 또는 제 6 항에 있어서,
상기 특정 양의 cfDNA는 20ng이고, 이 경우 상기 cfDNA는 상기 고유 단편이 비가 93.9%가 되도록 상기 cfDNA를 4개의 aliquot로 분할하는 것인, 방법.
7. The method according to claim 5 or 6,
wherein the specific amount of cfDNA is 20 ng, in which case the cfDNA is divided into 4 aliquots of the cfDNA such that the ratio of the native fragments is 93.9%.
KR1020200110773A 2020-09-01 2020-09-01 Method of enhancing the proportion of the unique DNA fragment used for NGS analysis of cfDNA to detect low frequency variant KR102530247B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200110773A KR102530247B1 (en) 2020-09-01 2020-09-01 Method of enhancing the proportion of the unique DNA fragment used for NGS analysis of cfDNA to detect low frequency variant
PCT/KR2021/011654 WO2022050654A1 (en) 2020-09-01 2021-08-31 Method for increasing ratio of intrinsic fragment used in ngs analysis for detecting low-frequency mutation of cfdna

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200110773A KR102530247B1 (en) 2020-09-01 2020-09-01 Method of enhancing the proportion of the unique DNA fragment used for NGS analysis of cfDNA to detect low frequency variant

Publications (2)

Publication Number Publication Date
KR20220029001A true KR20220029001A (en) 2022-03-08
KR102530247B1 KR102530247B1 (en) 2023-05-09

Family

ID=80491218

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200110773A KR102530247B1 (en) 2020-09-01 2020-09-01 Method of enhancing the proportion of the unique DNA fragment used for NGS analysis of cfDNA to detect low frequency variant

Country Status (2)

Country Link
KR (1) KR102530247B1 (en)
WO (1) WO2022050654A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023182585A1 (en) * 2022-03-21 2023-09-28 주식회사 아이엠비디엑스 Method for analyzing copy number variation in circulating tumor nucleic acid

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117587131A (en) * 2024-01-09 2024-02-23 阅尔基因技术(苏州)有限公司 Detection method for dynamically monitoring ctDNA and application thereof

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180060764A (en) * 2016-11-29 2018-06-07 연세대학교 산학협력단 Methods for detecting nucleic acid sequence variations and a device for detecting nucleic acid sequence variations using the same
US20190316185A1 (en) * 2012-09-04 2019-10-17 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
WO2019204208A1 (en) * 2018-04-16 2019-10-24 Memorial Sloan Kettering Cancer Center SYSTEMS AND METHODS FOR DETECTING CANCER VIA cfDNA SCREENING
WO2020104670A1 (en) * 2018-11-23 2020-05-28 Cancer Research Technology Limited Improvements in variant detection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190316185A1 (en) * 2012-09-04 2019-10-17 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
KR20180060764A (en) * 2016-11-29 2018-06-07 연세대학교 산학협력단 Methods for detecting nucleic acid sequence variations and a device for detecting nucleic acid sequence variations using the same
WO2019204208A1 (en) * 2018-04-16 2019-10-24 Memorial Sloan Kettering Cancer Center SYSTEMS AND METHODS FOR DETECTING CANCER VIA cfDNA SCREENING
WO2020104670A1 (en) * 2018-11-23 2020-05-28 Cancer Research Technology Limited Improvements in variant detection

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Havell Markus 외, Sub-nucleosomal organization in urine cell-free DNA, arXiv, 2019.07.11., pp.1-33. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023182585A1 (en) * 2022-03-21 2023-09-28 주식회사 아이엠비디엑스 Method for analyzing copy number variation in circulating tumor nucleic acid

Also Published As

Publication number Publication date
WO2022050654A1 (en) 2022-03-10
KR102530247B1 (en) 2023-05-09

Similar Documents

Publication Publication Date Title
US11879158B2 (en) Systems and methods to detect rare mutations and copy number variation
US10704086B2 (en) Systems and methods to detect rare mutations and copy number variation
US11332737B2 (en) Method for counting number of nucleic acid molecules
KR102530247B1 (en) Method of enhancing the proportion of the unique DNA fragment used for NGS analysis of cfDNA to detect low frequency variant

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant