WO2023182586A1 - 핵산 서열 분석에서 위양성 변이를 판별하는 방법 - Google Patents

핵산 서열 분석에서 위양성 변이를 판별하는 방법 Download PDF

Info

Publication number
WO2023182586A1
WO2023182586A1 PCT/KR2022/011529 KR2022011529W WO2023182586A1 WO 2023182586 A1 WO2023182586 A1 WO 2023182586A1 KR 2022011529 W KR2022011529 W KR 2022011529W WO 2023182586 A1 WO2023182586 A1 WO 2023182586A1
Authority
WO
WIPO (PCT)
Prior art keywords
nucleic acid
error rate
del
false positive
ins
Prior art date
Application number
PCT/KR2022/011529
Other languages
English (en)
French (fr)
Inventor
노한성
김수연
김황필
문성태
김태유
Original Assignee
주식회사 아이엠비디엑스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 아이엠비디엑스 filed Critical 주식회사 아이엠비디엑스
Priority to CN202280006323.4A priority Critical patent/CN117157413A/zh
Publication of WO2023182586A1 publication Critical patent/WO2023182586A1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer

Definitions

  • the present invention relates to a method for determining false positive mutations during nucleic acid sequence analysis.
  • somatic mutation detection such as detection of low frequency somatic mutations or identification of genetic subclones in samples. Due to these technological advances, opportunities for clinical application of high-efficiency next-generation sequencing have increased in diagnosing genetic diseases that are difficult to detect through general clinical experiments or cancer from liquid biopsy.
  • cfDNA cell-free DNA
  • ctDNA circulating tumor DNA
  • blood contains a mixture of cfDNA and hematopoietic cell-derived DNA, and since the fraction of cfDNA is often less than 1% of the total, there is still a significant level of false positives or false negatives during the analysis process. It is happening.
  • technologies such as using molecular barcoding, digital error suppression methods, and annotation-based filtering have been reported, but they have not yet been commercialized and used for clinical diagnosis. There are not many cases where this happens.
  • the present invention seeks to present a technique that can identify and remove false positive mutations with high accuracy based on the context error rate information of HQS derived from amplified nucleic acid fragments.
  • One aspect of the present invention includes the steps of a) extracting nucleic acid fragments containing candidate mutations from a target sample; b) adding a unique molecular identifier (UMI) to the ends of the extracted nucleic acid fragments; c) amplifying the UMI-added nucleic acid fragment to generate a High Quality Unique Sequence (HQS); d) deriving the LLRc value by applying the error rate corresponding to the HQS; and e) determining whether a false positive mutation exists in nucleic acid sequence analysis from the LLRc value.
  • UMI unique molecular identifier
  • HQS High Quality Unique Sequence
  • the HQS may be a single-strand consensus sequence (SSCS) or a duplex consensus sequence (DCS).
  • SSCS single-strand consensus sequence
  • DCS duplex consensus sequence
  • the step of determining whether there is a false positive mutation is to calculate the LLR value for SSCS and the LLR value for DCS to obtain a weighted LLR (weighted LLR) value, and from the weighted LLR value If the cut-off value set using the precision-recall curve is 50 or more, the mutation in the nucleic acid fragment containing the candidate mutation may be judged as a false positive.
  • false positive mutations can be effectively distinguished and removed using the context error rate of the nucleic acid fragment family size derived from the amplified nucleic acid fragment.
  • Figure 1 is a diagram showing the occurrence of errors due to PCR amplification of nucleic acid fragments to which UMI has been added and the family size according to the amplification of the nucleic acid fragments.
  • Figure 2 is a diagram showing context error types and error rates by error type.
  • Figure 3 shows the results of context error rates by family size.
  • Figure 4 is a color-coded diagram of the context error rate by family size in SSCS and DCS.
  • Figure 7 is a graph showing the error rate for family size in the insertion context.
  • One aspect of the present invention includes the steps of a) extracting nucleic acid fragments containing candidate mutations from a target sample; b) adding a unique molecular identifier (UMI) to the ends of the extracted nucleic acid fragments; c) generating a High Quality Unique Sequence (HQS) by amplifying the UMI-added nucleic acid fragment; d) deriving an LLRc value according to Equation I below by applying the error rate corresponding to the HQS; and e) determining whether a false positive mutation exists in nucleic acid sequence analysis from the LLRc value.
  • UMI unique molecular identifier
  • HQS High Quality Unique Sequence
  • r represents reads
  • N represents total reads
  • S represents family size
  • f represents variant allele frequency
  • e error rate
  • cell-free nucleic acid which is a mixture of tumor nucleic acid (circulating tumor DNA, ctDNA) derived from the primary cancer and nucleic acid derived from hematopoietic cells, is circulating together.
  • the nucleic acid The amount is higher in cancer patients than in normal controls, there is a difference before and after chemotherapy, and it is known that the amount of ctDNA increases when cancer recurs after treatment.
  • the present inventors conducted somatic mutation analysis on cfDNA in the process of diagnosing cancer from liquid biopsy, and while conducting research to accurately and highly sensitively determine false positive mutations that occur during the analysis process, an amplified nucleic acid fragment ( The present invention was completed by verifying that false positive mutations can be effectively distinguished using the context error rate of the family size of the fragment).
  • the method of the present invention performs a) the step of extracting nucleic acid fragments containing candidate mutations from the target sample.
  • sample refers to tissue, cells, whole blood, serum, plasma, It includes, but is not limited to, samples such as saliva, sputum, cerebrospinal fluid, or urine, and may preferably be serum or plasma.
  • the nucleic acid may be a genome or a fragment thereof.
  • the term 'genome' is a general term that refers to the entirety of chromosomes, chromatin, or genes.
  • the genome or fragments thereof may be isolated DNA, such as cell free nucleic acid (cfDNA).
  • Methods for extracting or isolating nucleic acids from target samples can be performed by methods known to those skilled in the art.
  • the nucleic acid fragment is interpreted as a concept that includes fragmentation of extracted nucleic acid. Fragmentation refers to the process of naturally decomposing the genome as it circulates in the blood, or artificially cutting it physically, chemically, or enzymatically. Through this process, nucleic acid fragments of various lengths and leads at both ends of the genome are created. can be created.
  • the term 'read' refers to sequence information of one or more nucleic acid fragments generated from nucleic acid sequence analysis, and the length of the nucleic acid fragment can be calculated using the reads at both ends of the nucleic acid fragment.
  • the length of the nucleic acid fragment may be from about 10bp to about 2000bp, preferably from about 50bp to about 500bp.
  • the candidate variant may preferably be a somatic mutation, and may be a single nucleotide variation (SNV) or insertion of a base in a sequencing read. Or it may be a deletion of a base, but is not limited to this.
  • SNV single nucleotide variation
  • each of four types of nucleotides can be changed into three different nucleotides, so there are a total of 12 types of single base mutations.
  • This error rate can be observed by combining biological causes, the entire experimental process starting from nucleic acid extraction, and mechanical errors that appear during the sequencing process.
  • step b) adding a unique molecular identifier to the end of the extracted nucleic acid fragment is performed.
  • UMI unique molecular identifier
  • nucleic acid fragments can be distinguished when the nucleic acid fragment is amplified and cloned through PCR, and using this, PCR duplicates can be compared to each other to correct errors.
  • step c) is performed to generate HQS by amplifying the nucleic acid fragment to which the UMI has been added.
  • the term 'family' refers to duplicates produced as the UMI-added nucleic acid fragment is amplified in the PCR process
  • 'family size' refers to the family.
  • Figure 1 shows that errors may occur due to PCR amplification of UMI-added nucleic acid fragments (red dots), and is a diagram showing an example of family size according to amplification of the nucleic acid fragment.
  • the HQS may be a single-strand consensus sequence (SSCS) or a duplex consensus sequence (DCS).
  • SSCS single-strand consensus sequence
  • DCS duplex consensus sequence
  • the process of generating a DCS is to obtain a consensus sequence by comparing SSCS in both directions, so differences occur by comparing physical and chemical errors in the initial stage before PCR. It will be considered an error and removed.
  • r represents reads
  • N represents total reads
  • S represents family size
  • f represents variant allele frequency
  • e error rate
  • Error rate means the multiplier of the family size to the error probability of a specific nucleotide. For example, if the error probability of a certain nucleotide is x and the family size is n, the error rate is x ⁇ n This can be. Therefore, the larger the family size, the more accurate the consensus sequence can be obtained.
  • the error rate may include all of the context error rate in a specific family size, the nucleotide error rate calculated in the error correction process, and the read error rate calculated in the mapping process.
  • 'context' used in this specification can be used interchangeably with 'trinucleotide context', and is interpreted to include 1 bp nucleotides before and after the locus where the SNV occurs. .
  • the same SNV is known to have different error rates depending on the context, and one type of SNV is divided into 16 types of contextual errors. For example, in the A>T mutation, a total of 192 errors (4 ⁇ 12 ⁇ 4) may occur depending on the type of nucleotide before and after the reference allele A, and the error rate for each mutation is different for each mutation as shown in Figure 2. There is.
  • step e) the step of determining whether a false positive mutation is present is performed from the LLRc value derived in step d) above.
  • the step of determining whether there is a false positive mutation is to calculate the LLR value for SSCS and the LLR value for DCS to obtain a weighted LLR (weighted LLR) value, and calculate the precision-sensitivity from the weighted LLR value ( If the cut-off value set using the (precision-recall) curve is 50 or more, the mutation in the nucleic acid fragment containing the candidate mutation may be judged as a false positive.
  • test region 106 genes, 365,175 bp
  • parts that are different from the reference genome sequence at positions other than those of previously known germline mutations and somatic mutations are judged as errors, and the overall frequency for each context type is calculated.
  • the error rate was calculated by counting and dividing the number of errors.
  • Figure 3 shows the error rate displayed in color by dividing each type of context into a total of 29 cells corresponding to a family size of 2 to 30. As a result, it was confirmed that the error rate gradually decreased as the family size increased. Additionally, as a result of checking the context error rate for each of SSCS and DCS, it was confirmed that the error rate was lower in DCS than in SSCS, as shown in Figure 4. Considering these results, it was found that the larger the family size, the lower the error rate.
  • Insertions and deletions vary in length, and infinite combinations are possible depending on the location where the mutation occurs.
  • references and variants for indel contexts were divided into 75 and 113 categories, respectively, for a total of 8,745 contexts, and the error rate according to family size was confirmed using this.
  • the context is displayed as T:1:5.
  • the variant category context is indicated as follows.
  • Table 2 shows terms appearing in the above context, their explanations, and examples.
  • Tables 3 and 4 below show 75 types of reference category contexts and 113 types of variant category contexts according to the above definition used in this example.
  • micro homology unlike other categories, does not measure the repetition of repeat units, so the count is indicated as 0.
  • the log likelihood ratio (LLR) was used to calculate the mutation score to determine false positives.
  • the LLR value (LLRc) for the context was calculated according to Equation I below.
  • r represents reads
  • N represents total reads
  • S represents family size
  • f represents variant allele frequency
  • e error rate
  • the final mutation score was calculated by combining the three types of error rates below.
  • each LLR value is expressed as follows.
  • BQ_LLR DCS Sum of LLR values calculated by the error rate of nucleotides calculated during the error correction process of DCS in all family sizes
  • BQ_LLR SSCS Sum of LLR values calculated by the error rate of nucleotides calculated during the error correction process of SSCS in all family sizes
  • MQ_LLR DCS Sum of LLR values calculated by the error rate of reads calculated during the mapping process of DCS in all family sizes
  • LLR DCS CXT_LLR DCS + BQ_LLR DCS + MQ_LLR DCS
  • LLR SSCS CXT_LLR SSCS + BQ_LLR SSCS + MQ_LLR SSCS
  • the cut-off score for determining false positives was set using a precision-recall curve. In NGS tests, false positives can be further removed using other measurement standards, but since being removed as false negatives leads to worse results, the cut-off is set at 0.25 for precision and 0.7 to 0.8 for sensitivity (recall). was set. In the error correction stage, two types of parameters were set according to the intensity of error processing (s2, s3), and conditions were combined and analyzed for two types of data amount (20 Gbp, 30 Gbp).

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Wood Science & Technology (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Immunology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 핵산 서열 분석 과정 중에 위양성 변이를 판별하는 방법에 관한 것이다. 본 발명의 일 구체예에 따르면, 증폭된 핵산 절편으로부터 도출된 HQS 의 컨텍스트 오류율을 이용하여 효과적으로 위양성 변이를 구별하여 제거할 수 있다.

Description

핵산 서열 분석에서 위양성 변이를 판별하는 방법
본 발명은 핵산 서열 분석 과정 중에 위양성 변이를 판별하는 방법에 관한 것이다.
대량의 시퀀싱 데이터로부터의 체세포 돌연변이의 검출은 게놈 연구에 있어서의 핵심이다. 최근 염기서열 분석기술에 있어서, 낮은 빈도의 체세포 돌연변이의 검출이나 시료 내 유전적 서브클론의 동정과 같은 체세포 돌연변이 검출의 정확성이 매우 향상되었다. 이러한 기술적 진보로 인하여 일반적인 임상실험으로 검출하기 힘든 유전병이나, 액체 생검으로부터 암을 진단하는데 있어 고효율 차세대 시퀀싱의 임상적용의 기회가 많아졌다.
최근에는 암의 발견을 위해 혈액속에 존재하는 세포 유리 DNA (cell-free DNA, cfDNA) 또는 순환 종양 DNA(circulating tumor DNA, ctDNA)를 활용하고 있다. 건강한 사람들의 경우 조혈 세포 (haematopoietic cell)로부터 방출된 DNA가 대부분이나, 암 환자의 경우 cfDNA에는 암세포 사멸로 파괴된 세포로부터 혈액으로 방출된 ctDNA가 포함되어 있다. 이 ctDNA는 암과 관련된 유전적 변이를 포함하고 있으며, 이러한 유전적 변이의 모니터링을 통해, 병변 발생 전 암의 조기 발견, 특정 암치료법에 대한 반응 분석, 항암제에 대한 저항성 생성 기전 발견, 잔존 암의 존재 등의 확인이 가능하다.
한편, 혈액에는 cfDNA 와 조혈 세포 유래 DNA 가 혼합되어 있는데, cfDNA의 분율이 전체의 1% 도 못 미치는 경우가 많기 때문에, 여전히 분석 과정에서 상당한 수준의 위양성(false positive)나 위음성(false negative)이 발생하고 있다. 이러한 문제점을 해결하기 위한 기술로서, 예를 들어, 분자 바코딩을 이용하거나, 디지털 에러 억제 방법, 주석-기반(annotation-based) 필터링 등의 기술이 보고된 바 있으나, 아직 상용화되어 임상진단에 사용되는 경우는 많지 않은 실정이다.
이에, 본 발명에서는 증폭된 핵산 절편으로부터 도출된 HQS의 컨텍스트 오류율 정보에 기반하여 위양성 변이를 높은 정확도로 판별하고 제거할 수 있는 기법을 제시하고자 한다.
본 발명의 일 양상은 a) 표적 시료에서 후보 변이를 포함하는 핵산 절편을 추출하는 단계; b) 상기 추출된 핵산 절편의 말단에 고유 분자 식별자(Unique Molecular Identifier: UMI)를 첨가하는 단계; c) 상기 UMI가 첨가된 핵산 절편을 증폭시켜 HQS (High Quality unique Sequence)를 생성하는 단계; d) 상기 HQS 에 해당하는 오류율을 적용하여 LLRc 값을 도출하는 단계; 및 e) 상기 LLRc 값으로부터 위양성 변이 여부를 판별하는 단계를 포함하는 핵산 서열 분석에서 위양성 변이를 판별하는 방법을 제공하는 것을 목적으로 한다.
본 발명의 일 양상으로,
a) 표적 시료에서 후보 변이를 포함하는 핵산 절편을 추출하는 단계;
b) 상기 추출된 핵산 절편의 말단에 고유 분자 식별자(Unique Molecular Identifier, UMI)를 첨가하는 단계;
c) 상기 UMI가 첨가된 핵산 절편을 증폭시켜 HQS (High Quality unique Sequence)를 생성하는 단계;
d) 상기 HQS에 해당하는 오류율을 적용하여 하기 수학식 I에 따른 LLRc 값을 도출하는 단계; 및
[수학식 1]
Figure PCTKR2022011529-appb-img-000001
(상기 식에서, r은 리드(read), N은 총 리드, S는 패밀리 크기, f는 대립유전자 빈도(variant allele frequency), e는 오류율(error rate)를 나타낸다.)
e) 상기 LLRc 값으로부터 위양성 변이 여부를 판별하는 단계를 포함하는 핵산 서열 분석에서 위양성 변이를 제거하는 방법을 제공한다.
본 발명의 일 구체예로, 상기 후보 변이는 단일염기변이(single nucleotide variation), 염기의 삽입(insertion) 및 염기의 결실(deletion)로 이루어진 군으로부터 선택되는 하나 이상인 것일 수 있다.
본 발명의 일 구체예로, 상기 c) 단계에서, HQS는 단일가닥 컨센서스 서열(single-strand consensus sequence, SSCS) 또는 이중가닥 컨센서스 서열(duplex consensus sequence, DCS)인 것일 수 있다.
본 발명의 일 구체예로, 상기 패밀리 크기는 2 내지 30개인 것일 수 있다.
본 발명의 일 구체예로, 상기 오류율은 특정 패밀리 크기에서의 컨텍스트 오류율(context error rate), 오류 수정 과정에서 계산되는 뉴클레오티드의 오류율 및 매핑 과정에서 계산되는 리드의 오류율을 모두 포함하는 것일 수 있다.
본 발명의 일 구체예로, 상기 e) 단계에서, 위양성 변이 여부를 판별하는 단계는 SSCS에 대한 LLR 값과 DCS에 대한 LLR 값을 산출하여 가중 LLR(weighted LLR) 값을 구하고, 가중 LLR 값으로부터 정밀도-민감도(precision-recall) 커브를 이용하여 설정된 컷-오프 값이 50 이상인 경우 후보 변이를 포함하는 핵산 절편 내의 변이를 위양성으로 판별하는 것일 수 있다.
본 발명의 일 구체예에 따르면, 증폭된 핵산 절편으로부터 도출된 핵산 절편 패밀리 크기의 컨텍스트 오류율을 이용하여 효과적으로 위양성 변이를 구별하여 제거할 수 있다.
도 1은 UMI가 첨가된 핵산 절편의 PCR 증폭에 의한 오류 발생과 핵산 절편의 증폭에 따른 패밀리 크기를 나타내는 도면이다.
도 2는 컨텍스트 오류 종류와 오류 종류별로 오류율을 나타내는 그림이다.
도 3은 패밀리 크기 별로 컨텍스트 오류율을 표시한 결과이다.
도 4는 SSCS와 DCS에서 패밀리 크기 별로 컨텍스트 오류율을 색으로 표시한 그림이다.
도 5은 패밀리 크기 2 내지 15에서 SSCS와 DCS의 오류율을 나타낸 그래프이다.
도 6은 결실 컨텍스트에서 패밀리 크기에 대한 오류율을 나타낸 그래프이다.
도 7은 삽입 컨텍스트에서 패밀리 크기에 대한 오류율을 나타낸 그래프이다.
도 8은 SNV, 삽입, 결실 컨텍스트에서 정밀도-민감도 그래프를 이용하여 변이 점수의 컷-오프를 설정한 그래프이다.
본 발명의 일 양상은 a) 표적 시료에서 후보 변이를 포함하는 핵산 절편을 추출하는 단계; b) 상기 추출된 핵산 절편의 말단에 고유 분자 식별자(Unique Molecular Identifier, UMI)를 첨가하는 단계; c) 상기 UMI가 첨가된 핵산 절편을 증폭시켜 HQS (High Quality unique Sequence)를 생성하는 단계; d) 상기 HQS에 해당하는 오류율을 적용하여 하기 수학식 I에 따른 LLRc 값을 도출하는 단계; 및 e) 상기 LLRc 값으로부터 위양성 변이 여부를 판별하는 단계를 포함하는 핵산 서열 분석에서 위양성 변이를 판별하는 방법을 제공한다.
[수학식 1]
Figure PCTKR2022011529-appb-img-000002
상기 식에서, r은 리드(read), N은 총 리드, S는 패밀리 크기, f는 대립유전자 빈도(variant allele frequency), e는 오류율(error rate)를 나타낸다.
암 환자의 혈액에서는 원발암 유래의 종양 핵산(circulating tumor DNA, ctDNA)과 조혈 세포 유래 핵산이 혼합된 조성의 세포유리 핵산(cell-free DNA, cfDNA)이 함께 순환하고 있는데, 특히, 상기 핵산의 양은 암환자에서 정상 대조군보다 많고, 항암치료 전후로 차이가 있으며, 치료 후 암이 재발하는 경우에는 ctDNA의 양이 증가하는 것으로 알려져 있다. 본 발명자들은 액체 생검으로부터 암을 진단하는 과정에서 cfDNA에 대한 체세포 돌연변이 분석을 진행하였고, 분석 과정에서 발생하는 위양성(false positive) 변이를 정확하고 민감도 높게 판별하는 연구를 진행하던 중 증폭된 핵산 절편(fragment)의 패밀리 크기의 컨텍스트 오류율을 이용하여 위양성 변이를 효과적으로 구별할 수 있음을 검증하여 본 발명을 완성하였다.
이하, 본 발명에 따른 핵산 서열 분석에서 위양성 변이를 판별하는 방법을 상세히 설명한다.
먼저, 본 발명의 방법은 a) 표적 시료에서 후보 변이를 포함하는 핵산 절편을 추출하는 단계를 수행한다.
본 명세서에서 사용되는 용어, '시료(sample)'는 염기 서열 내 변이(variant)를 분석하기 위하여 타겟 시퀀싱(targeted sequencing)을 하고자 하는 대상을 수득할 수 있는 조직, 세포, 전혈, 혈청, 혈장, 타액, 객담, 뇌척수액 또는 뇨와 같은 시료 등을 포함하나, 이에 제한되지 않으며, 바람직하게는 혈청 또는 혈장일 수 있다.
상기 단계에서, 핵산은 유전체 또는 그의 절편일 수 있다. 본 명세서에서 사용된 용어, '유전체(genome)'는 염색체, 염색질, 또는 유전자의 전체를 총칭하는 용어이다. 상기 유전체 또는 그의 절편은 분리된 DNA, 예를 들어, 세포 유리 핵산 (cfDNA)일 수 있다. 표적 시료로부터 핵산을 추출 또는 분리하는 방법은 통상의 기술자에게 공지된 방법으로 수행될 수 있다.
상기 핵산 절편은 추출된 핵산의 절편화를 포함하는 개념으로 해석된다. 절편화(fragmentation)는 유전체가 혈액을 순환하면서 자연적으로 분해되는 과정 또는 물리적, 화학적, 또는 효소적으로 인위적으로 절단하는 것을 의미하며, 상기 과정을 통해 다양한 길이를 갖는 핵산 절편과 그의 양쪽 말단의 리드를 생성할 수 있다. 본 명세서에서 사용된 용어, '리드(read)'는 핵산 서열 분석에서 생성된 하나 이상의 핵산 절편의 서열 정보를 의미하며, 상기 핵산 절편의 양쪽 말단 리드를 이용해 핵산 절편의 길이를 계산할 수 있다. 핵산 절편의 길이는 약 10bp 내지 약 2000bp일 수 있으며, 바람직하게는, 약 50bp 내지 약 500bp 일 수 있다.
본 발명의 일 구체예에 따르면, 상기 후보 변이는, 바람직하게는 체세포 돌연변이(somatic variant)일 수 있으며, 시퀀싱 리드(read) 내의 단일염기변이(single nucleotide variation, SNV), 염기의 삽입(insertion) 또는 염기의 결실(deletion)일 수 있으나, 이에 한정하지는 않는다.
단일염기변이는 4종의 뉴클레오티드가 각각 3종의 다른 뉴클레오티드로 변경될 수 있으므로, 총 12종의 단일염기변이가 존재하게 된다. 이는 생물학적인 원인, 핵산의 추출부터 시작되는 실험 전 과정과 시퀀싱 과정에서 나타나는 기계적 오류 등이 종합되어 오류율이 관찰될 수 있다.
다음으로, b) 상기 추출된 핵산 절편의 말단에 고유 분자 식별자를 첨가하는 단계를 수행하게 된다.
본 명세서에서 사용되는 용어, '고유 분자 식별자(Unique Molecular Identifier, UMI)'는 4 내지 10 bp의 DNA로 이루어진 시퀀스로서 핵산 절편의 말단에 결합되어 해당 핵산 절편을 표지하는 바코드 서열을 의미한다.
상기 고유 분자 식별자를 사용하면 상기 핵산 절편이 PCR을 통해 증폭되어 복제될 때, 서로 다른 핵산 절편을 구별할 수 있으며, 이를 이용하면 PCR 복제 산물(duplicates)를 서로 비교하여 오류의 수정이 가능하다.
예를 들어, 서로 다른 시퀀스의 UMI를 핵산 절편의 양 방향에 첨가하면 이중 가닥(double strand) 중 어떤 가닥의 PCR 증폭 산물인지 확인할 수 있다(duplex sequencing).
다음으로, c) 상기 UMI가 첨가된 핵산 절편을 증폭시켜 HQS를 생성하는 단계를 수행한다.
상기 UMI가 첨가된 핵산 절편의 증폭은 차세대 시퀀싱(Next Generation Sequencing, NGS) 과정 중에 수반되는 중합 효소 연쇄 반응(Polymerase Chain Reaction, PCR)을 의미하는 것으로, PCR 과정에서 특정 빈도로 무작위의 시퀀싱 오류가 발생할 수 있다.
본 명세서에서 사용되는 용어, '패밀리(family)'는 상기 UMI가 첨가된 핵산 절편이 PCR 과정에서 증폭됨에 따라 산출되는 복제 산물(duplicates)을 의미하며, '패밀리 크기(family size)'는 상기 패밀리의 개수를 의미한다. 도 1은 UMI가 첨가된 핵산 절편이 PCR 증폭에 의해 오류가 발생할 수 있음을 보여주며(붉은색 점), 핵산 절편의 증폭에 따른 패밀리 크기 예시를 보여주는 도면이다.
본 발명의 일 구체예에 따르면, 상기 HQS는 단일가닥 컨센서스 서열(single-strand consensus sequence, SSCS) 또는 이중가닥 컨선세스 서열(duplex consensus sequence, DCS)인 것일 수 있다.
단일가닥 컨센서스 서열의 경우, SSCS를 생성하면서 한 방향의 DNA 가닥으로부터 발생한 PCR 복제 산물들을 서로 비교하여 오류가 발생한 뉴클레오티드를 수정하지만, PCR 이전의 초기 단계에서 발생한 오류가 PCR 과정에서 계속적으로 누적되는 한계가 있다.
이중가닥 컨센서스 서열의 경우, DCS를 생성하는 과정은 양 방향의 SSCS를 서로 비교하여 컨센서스 시퀀스(consensus sequence)를 얻기 때문에, PCR 이전의 초기 단계에서 물리, 화학적으로 발생한 오류를 비교하여 차이가 나는 것은 오류로 간주하여 제거하게 된다.
이후, d) 상기 HQS에 해당하는 오류율을 적용하여 하기 수학식 I에 따른 LLRc 값을 도출하는 단계를 수행한다.
[수학식 1]
Figure PCTKR2022011529-appb-img-000003
상기 식에서, r은 리드(read), N은 총 리드, S는 패밀리 크기, f는 대립유전자 빈도(variant allele frequency), e는 오류율(error rate)를 나타낸다.
본 명세서에서 사용되는 용어. '오류율(error rate)'는 특정 뉴클레오티드의 오류 확률에 대한 패밀리 크기의 승수를 의미하는 것으로, 예를 들어, 어떤 뉴클레오티드의 오류 확률을 x라 하고, 패밀리 크기를 n이라 하면, 오류율은 x^n 이 될 수 있다. 따라서, 패밀리 크기가 클수록 정확한 컨센서스 시퀀스(consensus sequence)를 획득할 수 있다.
본 발명의 일 구체예에 따르면, 상기 패밀리 크기는 2 내지 30개일 수 있으며, 바람직하게는 2 내지 15개, 더욱 바람직하게는 2 내지 10개, 가장 바람직하게는 2 내지 7개일 수 있다.
본 발명의 일 구체예에 따르면, 상기 오류율은 특정 패밀리 크기에서의 컨텍스트 오류율(context error rate), 오류 수정 과정에서 계산되는 뉴클레오티드의 오류율 및 매핑 과정에서 계산되는 리드의 오류율을 모두 포함할 수 있다.
본 명세서에서 사용되는 용어, '컨텍스트(context)'는 '트리뉴클레오티드 컨텍스트(trinucleotide context)'와 혼용될 수 있으며, 이는 SNV가 발생한 위치(locus)의 전후 1 bp 뉴클레오티드를 포함하여 지칭하는 것으로 해석된다. 동일한 SNV도 컨텍스트에 따라 서로 다른 오류율을 갖는 것으로 알려져 있으며, 한 종류의 SNV는 16가지의 컨텍스트 오류(contextual error)로 구분된다. 예를 들어, A>T 변이는 레퍼런스 대립유전자(reference allele) A 전후의 뉴클레오티드의 종류에 따라 총 192가지(4Х12Х4)의 오류가 나타날 수 있으며, 각각의 오류율은 도 2에서 보는 바와 같이 변이 별로 차이가 있다.
마지막으로, e) 상기 d) 단계에서 도출된 LLRc 값으로부터 위양성 변이 여부를 판별하는 단계를 수행하게 된다.
본 발명의 일 구체예에 따르면, 상기 위양성 변이 여부를 판별하는 단계는 SSCS에 대한 LLR 값과 DCS에 대한 LLR 값을 산출하여 가중 LLR(weighted LLR) 값을 구하고, 가중 LLR 값으로부터 정밀도-민감도(precision-recall) 커브를 이용하여 설정된 컷-오프 값이 50 이상인 경우 후보 변이를 포함하는 핵산 절편 내의 변이를 위양성으로 판별하는 것일 수 있다.
이하 하나 이상의 구체예를 실시예를 통하여 보다 상세하게 설명한다. 그러나, 이들 실시예는 하나 이상의 구체예를 예시적으로 설명하기 위한 것으로 본 발명의 범위가 이들 실시예에 한정되는 것은 아니다.
실시예 1: 패밀리 크기의 오류율 확인
정상인의 cfDNA 시료 3종(총 120 Gbp), 폐암 환자 유래 cfDNA 시료 4종(총 350 Gbp), cfDNA 혼합물 1 (대장암 환자 5명으로 구성, 4 번 반복 실험, 총 221 Gbp), cfDNA 혼합물 2 (대장암 환자 5명으로 구성, 4 번 반복 실험, 총 216 Gbp) cfDNA 혼합물 3 (위암 환자 4명과 대장암 환자 3명으로 구성, 26 번 반복 실험, 총 836 Gbp)를 대상으로 무작위로 서브 샘플링하여, 정상인 cfDNA 시료 서브샘플 420개 (총 8,400 Gbp), 폐암 환자 유래 cfDNA 서브샘플 380개 (총 10,050 Gbp), cfDNA 혼합물 1의 서브샘플 253개 (총 5,090 Gbp), cfDNA 혼합물 2의 서브샘플 253개 (총 5,090 Gbp), cfDNA 혼합물 3의 서브샘플 1,380개 (총 21,900 Gbp)를 오류율 계산에 사용하였으며, 본 실시예에서 사용된 시료 종류 및 다운 샘플링 조건을 표 1에 나타내었다.
Specimen Lable Replicate Nuber The number of Subsamples by Data size Total Subsample Count Total Subsample Data Size (Gbp)
5 Gbp 10 Gbp 15 Gbp 20 Gbp 25 Gbp 30 Gbp 35 Gbp 40 Gbp 45 Gbp 50 Gbp Total Count Total Data Size (Gbp)
Healthy person cfDNA 1 #1 20 20 20 20 20 20 20 - - - 140 2800 420 8,400
Healthy person cfDNA 2 #1 20 20 20 20 20 20 20 - - - 140 2800
Healthy person cfDNA 3 #1 20 20 20 20 20 20 20 - - - 140 2800
Lung cancer cfDNA 1 #1 10 10 10 10 10 10 10 10 10 10 100 2750 380 10,050
Lung cancer cfDNA 2 #1 10 10 10 10 10 10 10 10 10 10 100 2750
Lung cancer cfDNA 3 #1 10 10 10 10 10 10 10 10 10 10 100 2750
Lung cancer cfDNA 4 #1 10 10 10 10 10 10 10 10 - - 80 1800
Patient cfDNA mixture 1
(5 colon cancer patients)
#1 10 10 10 10 10 1 - - - - 51 780 253 5,090
#2 10 10 10 10 10 1 - - - - 51 780
#3 10 10 10 10 10 1 - - - - 51 780
#4 10 10 10 10 10 10 10 10 10 10 100 2750
Patient cfDNA mixture 2
(5 colon cancer patients)
#1 10 10 10 10 10 1 - - - - 51 780 253 5,090
#2 10 10 10 10 10 1 - - - - 51 780
#3 10 10 10 10 10 1 - - - - 51 780
#4 10 10 10 10 10 10 10 10 10 10 100 2750
Patient cfDNA mixture 3
(4 gastric cancer patients
+ 3 colon cancer patients)
#1 10 10 10 10 10 1 - - - - 51 780 1,380 21,900
#2 10 10 10 10 10 1 - - - - 51 780
#3 10 10 10 10 10 1 - - - - 51 780
#4 10 10 10 10 10 1 - - - - 51 780
#5 10 10 10 10 10 1 - - - - 51 780
#6 10 10 10 10 10 1 - - - - 51 780
#7 10 10 10 10 10 1 - - - - 51 780
#8 10 10 10 10 10 1 - - - - 51 780
#9 10 10 10 10 10 1 - - - - 51 780
#10 10 10 10 10 10 1 - - - - 51 780
#11 10 10 10 10 10 1 - - - - 51 780
#12 10 10 10 10 10 1 - - - - 51 780
#13 10 10 10 10 10 1 - - - - 51 780
#14 10 10 10 10 10 1 - - - - 51 780
#15 10 10 10 10 10 1 - - - - 51 780
#16 10 10 10 10 10 1 - - - - 51 780
#17 10 10 10 10 10 1 - - - - 51 780
#18 10 10 10 10 10 1 - - - - 51 780
#19 10 10 10 10 10 1 - - - - 51 780
#20 10 10 10 10 10 1 - - - - 51 780
#21 10 10 10 10 10 10 - - - - 60 1050
#22 10 10 10 10 10 10 - - - - 60 1050
#23 10 10 10 10 10 10 - - - - 60 1050
#24 10 10 10 10 10 10 - - - - 60 1050
#25 10 10 10 10 10 10 - - - - 60 1050
#26 10 10 10 10 10 10 - - - - 60 1050
서브 샘플링으로 만들어진 fastq 파일을 fastp 프로그램을 사용하여 어탑터 시퀀스(adapter sequence)를 제거하고, bwa MEM 프로그램을 사용해 human reference genome GRCh38에 맵핑해서 bam 형식으로 기록한 다음, fgbio 프로그램을 이용해 SSCS bam 파일과 DCS bam 파일을 생성하고, 패밀리 크기를 의미하는 consensus depth (cD) tag 값에 따라 bam 파일을 패밀리 크기 별로 나누어 생성하였다. 상기 과정에서 각 패밀리 크기별로 생성된 bam 파일로부터 레퍼런스 게놈(reference genome)과 상이한 부분을 찾고, 해당 위치의 컨텍스트 종류를 확인해서 각 컨텍스트 별로 오류가 발생한 횟수를 세었다. 이때, 전체 검사 영역(106개 유전자, 365,175 bp)에 대해서, 사전에 알고 있는 생식세포 변이와 체세포 변이의 위치를 제외한 나머지 위치에서 레퍼런스 게놈 시퀀스와 상이한 부분을 오류로 판정하고 각 컨텍스트 종류별 전체 빈도를 세어 오류 횟수를 나누는 방법으로 오류율을 계산하였다.
도 3은 한 종류의 컨텍스트마다 패밀리 크기가 2 내지 30개에 해당하는 총 29개의 칸으로 구분하여 오류율을 색으로 표시한 것이다. 그 결과, 패밀리 크기가 증가할수록 오류율은 점점 감소하는 패턴을 확인할 수 있었다. 또한, SSCS와 DCS 각각에 대하여 컨텍스트 오류율을 확인한 결과, 도 4에서와 같이, SSCS 보다 DCS에서 오류율이 낮은 것으로 확인되었다. 이러한 결과를 종합해 볼 때, 패밀리 크기가 클수록 오류율이 낮아지는 것을 알 수 있었다.
또한, 패밀리 크기마다 관찰된 오류율의 중간값들을 지수분포(exponential distribution)에 피팅하여 확률 밀도 함수(probability density function)를 만들고, 이로부터 패밀리 크기의 오류율을 계산하였다. 아울러, 거의 오류가 관찰되지 않는 패밀리 크기가 큰 그룹과 컨텍스트(context)는 오류율이 매우 낮아 부정확한 측정 및 통계학적 편중(bias)이 나타날 수 있으므로, 1e-10으로 값의 제한(cap)을 두었다. 그 결과, 도 5에서 보는 바와 같이, 오류율이 높았던 GCG>T 컨텍스트의 경우 패밀리 크기 2에서 오류율이 SSCS의 경우에는 2.54e-4 이고, DCS의 경우에는 8.13e-5의 결과가 패밀리 크기가 커질수록 작아졌으며, 패밀리 크기 7에서 SSCS는 1.06e-4로 DCS는 2.84e-5로 감소하였고, 패밀리 크기가 커질수록 계속 작아지는 경향을 확인할 수 있었다.
실시예 2: 패밀리 크기 별 인델 컨텍스트(Indel context) 종류에 따른 오류율 확인
삽입(insertion)과 결실(deletion)은 길이가 다양하고, 변이가 발생하는 위치에 따라 무한한 조합이 가능하다. 본 실시예에서는 인델 컨텍스트에 대하여 레퍼런스(reference)와 변이(variant)를 각각 75종, 113종의 카테고리로 나누어 총 8,745개의 컨텍스트로 구분하고, 이를 이용하여 패밀리 크기에 따른 오류율을 확인하였다.
레퍼런스 카테고리 컨텍스트는 다음과 같이 표시하였다.
[unit]:[unit length]:[repeat count]
예를 들어, 레퍼런스가 AA[TTTTT]AA이면, 컨텍스트는 T:1:5로 표시된다.
변이 카테고리 컨텍스트는 다음과 같이 표시하였다.
[unit length]:[variant type]:[unit]:[repeat count]
예를 들어, 레퍼런스가 AA[TTTTT]AA이고, 변이가 AA[TTT--]AA이면, 컨텍스트는 1:Del:T:2로 표시된다.
상기 컨텍스트에 표시된 용어 및 이에 대한 설명과 예시를 표 2에 나타내었다.
용어 설명 예시
unit Repeat unit을 나타냄R : 2bp 이상의 반복은 뉴클레오티드 상관없이 포함
M : micro-homology
N : 레퍼런스 시퀀스의 뉴클레오티드를 알 수 없는 경우
N, A, T, G, C, R, M GC 나 AT 가 repeat unit 인 경우 모두 R category에 포함
unit length Repeat unit의 길이 1~6 GC는 2, GCC는 3
repeat count Repeat의 반복 수 1~6 GCGCGC 는 GC가 3번 반복
variant type 변이의 종류 Ins, Del
하기 표 3 및 표 4에 본 실시예에서 사용한 상기 정의에 따른 레퍼런스 카테고리 컨텍스트 75종과 변이 카테고리 컨텍스트 113종을 나타내었다.
레퍼런스 카테고리
N:1:0 A:1:1 T:1:1 G:1:1 C:1:1 R:2:1 R:3:1 R:4:1 R:5:1 R:6:1N:2:0 A:1:2 T:1:2 G:1:2 C:1:2 R:2:2 R:3:2 R:4:2 R:5:2 R:6:2
N:3:0 A:1:3 T:1:3 G:1:3 C:1:3 R:2:3 R:3:3 R:4:3 R:5:3 R:6:3
N:4:0 A:1:4 T:1:4 G:1:4 C:1:4 R:2:4 R:3:4 R:4:4 R:5:4 R:6:4
N:5:0 A:1:5 T:1:5 G:1:5 C:1:5 R:2:5 R:3:5 R:4:5 R:5:5 R:6:5
N:6:0 A:1:6 T:1:6 G:1:6 C:1:6 R:2:6 R:3:6 R:4:6 R:5:6 R:6:6

M:2:1 M:3:1 M:4:1 M:5:1 M:6:1
M:3:2 M:4:2 M:5:2 M:6:2
M:4:3 M:5:3 M:6:3
M:5:4 M:6:4
M:6:5
변이 카테고리
1:Ins:A:1 1:Ins:T:1 1:Ins:G:1 1:Ins:C:1 1:Del:A:1 1:Del:T:1 1:Del:G:1 1:Del:C:1
1:Ins:A:2 1:Ins:T:2 1:Ins:G:2 1:Ins:C:2 1:Del:A:2 1:Del:T:2 1:Del:G:2 1:Del:C:2
1:Ins:A:3 1:Ins:T:3 1:Ins:G:3 1:Ins:C:3 1:Del:A:3 1:Del:T:3 1:Del:G:3 1:Del:C:3
1:Ins:A:4 1:Ins:T:4 1:Ins:G:4 1:Ins:C:4 1:Del:A:4 1:Del:T:4 1:Del:G:4 1:Del:C:4
1:Ins:A:5 1:Ins:T:5 1:Ins:G:5 1:Ins:C:5 1:Del:A:5 1:Del:T:5 1:Del:G:5 1:Del:C:5
1:Ins:A:6 1:Ins:T:6 1:Ins:G:6 1:Ins:C:6 1:Del:A:6 1:Del:T:6 1:Del:G:6 1:Del:C:6
2:Ins:R:1 2:Ins:R:2 2:Ins:R:3 2:Ins:R:4 2:Ins:R:5 2:Ins:R:6
3:Ins:R:1 3:Ins:R:2 3:Ins:R:3 3:Ins:R:4 3:Ins:R:5 3:Ins:R:6
4:Ins:R:1 4:Ins:R:2 4:Ins:R:3 4:Ins:R:4 4:Ins:R:5 4:Ins:R:6
5:Ins:R:1 5:Ins:R:2 5:Ins:R:3 5:Ins:R:4 5:Ins:R:5 5:Ins:R:6
6:Ins:R:1 6:Ins:R:2 6:Ins:R:3 6:Ins:R:4 6:Ins:R:5 6:Ins:R:6
2:Del:R:1 2:Del:R:2 2:Del:R:3 2:Del:R:4 2:Del:R:5 2:Del:R:6
2:Del:M:0
3:Del:R:1 3:Del:R:2 3:Del:R:3 3:Del:R:4 3:Del:R:5 3:Del:R:6
3:Del:M:0
4:Del:R:1 4:Del:R:2 4:Del:R:3 4:Del:R:4 4:Del:R:5 4:Del:R:6
4:Del:M:0
5:Del:R:1 5:Del:R:2 5:Del:R:3 5:Del:R:4 5:Del:R:5 5:Del:R:6
5:Del:M:0
6:Del:R:1 6:Del:R:2 6:Del:R:3 6:Del:R:4 6:Del:R:5 6:Del:R:6
6:Del:M:0
* 상기 표에서 micro homology(M)은 다른 카테고리와 다르게 repeat unit의 반복을 측정하지는 않으므로, count는 0으로 표기함.
도 6 및 도 7에서 확인할 수 있는 바와 같이, 결실 변이와 삽입 변이에서 패밀리 크기가 증가함에 따라 오류율은 매우 낮아짐을 확인할 수 있었다. 특히, 결실 변이와 삽입 변이는 길이가 짧을수록 오류율이 높았고, 도 6에서 보는 바와 같이, 결실 길이가 길어지면 거의 발생하지 않는 컨텍스트도 존재하였다. 또한, 도 7에서 보는 바와 같이, 반복서열이 긴 컨텍스트가 더 오류율이 큰 것을 확인할 수 있었다.
실시예 3: 변이 점수의 계산
위양성을 판별하기 위한 변이 점수의 계산은 로그 최우비(log likelihood ratio, LLR)를 이용하였다. 컨텍스트에 대한 LLR 값(LLRc)은 하기 수학식 I에 따라 계산하였다.
Figure PCTKR2022011529-appb-img-000004
상기 식에서, r은 리드(read), N은 총 리드, S는 패밀리 크기, f는 대립유전자 빈도(variant allele frequency), e는 오류율(error rate)를 나타낸다.
최종 변이 점수는 하기 3종류의 오류율을 종합하여 계산하였다.
1) 특정 패밀리 크기에서의 컨텍스트 오류율
2) 오류 수정 과정에서 계산되는 뉴클레오티드의 오류율
3) 매핑 과정에서 계산되는 리드의 오류율
상기 3종류의 오류율을 수학식 I에 대입하여 나타낸 각각의 LLR 값을 다음과 같이 표시하였다.
1) CXT_LLRDCS : 모든 패밀리 크기에서 DCS의 컨텍스트 오류율에 의해 계산된 LLR 값의 합
2) CXT_LLRSSCS : 모든 패밀리 크기에서 SSCS의 컨텍스트 오류율에 의해 계산된 LLR 값의 합
3) BQ_LLRDCS : 모든 패밀리 크기에서 DCS의 오류 수정 과정에서 계산되는 뉴클레오티드의 오류율에 의해 계산된 LLR 값의 합
4) BQ_LLRSSCS : 모든 패밀리 크기에서 SSCS의 오류 수정 과정에서 계산되는 뉴클레오티드의 오류율에 의해 계산된 LLR 값의 합
5) MQ_LLRDCS : 모든 패밀리 크기에서 DCS의 매핑 과정에서 계산되는 리드의 오류율에 의해 계산된 LLR 값의 합
6) MQ_LLRSSCS : 모든 패밀리 크기에서 SSCS의 매핑 과정에서 계산되는 리드의 오류율에 의해 계산된 LLR 값의 합
상기 LLR들을 종합하면,
LLRDCS = CXT_LLRDCS + BQ_LLRDCS + MQ_LLRDCS
LLRSSCS = CXT_LLRSSCS + BQ_LLRSSCS + MQ_LLRSSCS
로 나타낼 수 있으며, 최종 변이 점수 계산을 위한 가중 LLR 값(weighted LLR, wLLR)은 다음과 같이 계산하였다.
wLLR = (2×LLRDCS + LLRSSCS)/3
위양성을 판별하기 위한 점수의 컷-오프(cut-off) 설정은 정밀도-민감도 커브(precision-recall curve)를 이용하였다. NGS 검사에서 위양성은 다른 측정 기준을 통해 더 제거될 수 있지만, 위음성으로 제거되는 것은 더욱 좋지 않은 결과를 가져오므로 정밀도(precision)을 0.25, 민감도(recall)을 0.7 내지 0.8 수준으로 하여 컷-오프를 설정하였다. 오류 수정 단계에서 오류를 처리하는 강도에 따라 2종류의 파라미터로 세팅하였고(s2, s3), 데이터 양 2종류(20 Gbp, 30 Gbp)로 조건을 조합하여 분석하였다. 그 결과, 도 8에서 보는 바와 같이, SNV 에서는 s3와 30 Gbp 조건에서 성능이 가장 우수하였고, 삽입 변이에서는 조건에 크게 영향이 없었으며, 결실 변이에서는 s2와 30 Gbp 조건이 성능이 우수함을 확인할 수 있었다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (6)

  1. a) 표적 시료에서 후보 변이를 포함하는 핵산 절편을 추출하는 단계;
    b) 상기 추출된 핵산 절편의 말단에 고유 분자 식별자(Unique Molecular Identifier, UMI)를 첨가하는 단계;
    c) 상기 UMI가 첨가된 핵산 절편을 증폭시켜 HQS (High Quality unique Sequence)를 생성하는 단계;
    d) 상기 HQS에 해당하는 오류율을 적용하여 하기 수학식 I에 따른 LLRc 값을 도출하는 단계; 및
    [수학식 1]
    Figure PCTKR2022011529-appb-img-000005
    (상기 식에서, r은 리드(read), N은 총 리드, S는 패밀리 크기, f는 대립유전자 빈도(variant allele frequency), e는 오류율(error rate)를 나타낸다.)
    e) 상기 LLRc 값으로부터 위양성 변이 여부를 판별하는 단계를 포함하는 핵산 서열 분석에서 위양성 변이를 제거하는 방법.
  2. 청구항 1에 있어서,
    상기 후보 변이는 단일염기변이(single nucleotide variation), 염기의 삽입(insertion) 및 염기의 결실(deletion)로 이루어진 군으로부터 선택되는 하나 이상인 것인 방법.
  3. 청구항 1에 있어서,
    상기 c) 단계에서, HQS는 단일가닥 컨센서스 서열(single-strand consensus sequence, SSCS) 또는 이중가닥 컨센서스 서열(duplex consensus sequence, DCS)인 것인 방법.
  4. 청구항 1에 있어서,
    상기 패밀리 크기는 2 내지 30개인 것인 방법.
  5. 청구항 1에 있어서,
    상기 오류율은 특정 패밀리 크기에서의 컨텍스트 오류율(context error rate), 오류 수정 과정에서 계산되는 뉴클레오티드의 오류율 및 매핑 과정에서 계산되는 리드의 오류율을 모두 포함하는 것인 방법.
  6. 청구항 1에 있어서,
    상기 e) 단계에서, 위양성 변이 여부를 판별하는 단계는 SSCS에 대한 LLR 값과 DCS에 대한 LLR 값을 산출하여 가중 LLR(weighted LLR) 값을 구하고, 가중 LLR 값으로부터 정밀도-민감도(precision-recall) 커브를 이용하여 설정된 컷-오프 값이 50 이상인 경우 후보 변이를 포함하는 핵산 절편 내의 변이를 위양성으로 판별하는 것인 방법.
PCT/KR2022/011529 2022-03-21 2022-08-04 핵산 서열 분석에서 위양성 변이를 판별하는 방법 WO2023182586A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202280006323.4A CN117157413A (zh) 2022-03-21 2022-08-04 在核酸测序中鉴定假阳性变体的方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2022-0034590 2022-03-21
KR20220034590 2022-03-21
KR1020220080571A KR102529553B1 (ko) 2022-03-21 2022-06-30 핵산 서열 분석에서 위양성 변이를 판별하는 방법
KR10-2022-0080571 2022-06-30

Publications (1)

Publication Number Publication Date
WO2023182586A1 true WO2023182586A1 (ko) 2023-09-28

Family

ID=86385947

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/011529 WO2023182586A1 (ko) 2022-03-21 2022-08-04 핵산 서열 분석에서 위양성 변이를 판별하는 방법

Country Status (3)

Country Link
KR (1) KR102529553B1 (ko)
CN (1) CN117157413A (ko)
WO (1) WO2023182586A1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200013709A (ko) * 2017-11-30 2020-02-07 일루미나, 인코포레이티드 서열 변이체 콜에 대한 검증방법 및 시스템
CN111304288A (zh) * 2020-02-18 2020-06-19 江苏先声医学诊断有限公司 特异性分子标签umi组及其应用
KR20210040714A (ko) * 2019-10-04 2021-04-14 지니너스 주식회사 핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200013709A (ko) * 2017-11-30 2020-02-07 일루미나, 인코포레이티드 서열 변이체 콜에 대한 검증방법 및 시스템
KR20210040714A (ko) * 2019-10-04 2021-04-14 지니너스 주식회사 핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치
CN111304288A (zh) * 2020-02-18 2020-06-19 江苏先声医学诊断有限公司 特异性分子标签umi组及其应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHIANG-CHING HUANG, MEIJUN DU, LIANG WANG: "Bioinformatics Analysis for Circulating Cell-Free DNA in Cancer", CANCERS, vol. 11, no. 6, pages 805, XP055697060, DOI: 10.3390/cancers11060805 *
WANG TING TING, ABELSON SAGI, ZOU JINFENG, LI TIANTIAN, ZHAO ZHEN, DICK JOHN E, SHLUSH LIRAN I, PUGH TREVOR J, BRATMAN SCOTT V: "High efficiency error suppression for accurate detection of low-frequency variants", NUCLEIC ACIDS RESEARCH, OXFORD UNIVERSITY PRESS, GB, vol. 47, no. 15, 5 September 2019 (2019-09-05), GB , pages e87 - e87, XP093095876, ISSN: 0305-1048, DOI: 10.1093/nar/gkz474 *

Also Published As

Publication number Publication date
KR102529553B1 (ko) 2023-05-10
TW202338099A (zh) 2023-10-01
CN117157413A (zh) 2023-12-01

Similar Documents

Publication Publication Date Title
Pujol et al. Parity among the randomly amplified polymorphic DNA method, multilocus enzyme electrophoresis, and Southern blot hybridization with the moderately repetitive DNA probe Ca3 for fingerprinting Candida albicans
WO2022033000A1 (zh) 一种基于二代测序技术测定基因组不稳定的方法及试剂盒
US10127351B2 (en) Accurate and fast mapping of reads to genome
WO2017023148A1 (ko) 다양한 플랫폼에서 태아의 성별과 성염색체 이상을 구분할 수 있는 새로운 방법
CN108229103B (zh) 循环肿瘤dna重复序列的处理方法及装置
TWI727938B (zh) 血漿粒線體dna分析之應用
WO2019139363A1 (ko) 무세포 dna를 포함하는 샘플에서 순환 종양 dna를 검출하는 방법 및 그 용도
CN106834490A (zh) 一种鉴定胚胎平衡易位断裂点和平衡易位携带状态的方法
CN115083521B (zh) 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及系统
EP3409789A1 (en) Method for qualitative and quantitative detection of microorganism in human body
CN108595918A (zh) 循环肿瘤dna重复序列的处理方法及装置
CN113718057A (zh) 一种eb病毒的mnp标记位点、引物组合物、试剂盒及应用
CN110592208A (zh) 地中海贫血症三类亚型的捕获探针组合物及其应用方法和应用装置
CN108319817A (zh) 循环肿瘤dna重复序列的处理方法及装置
WO2022050654A1 (ko) 씨에프디엔에이의 저빈도 변이 검출을 위해 엔지에스 분석에 사용되는 고유 단편의 비율을 증가시키는 방법
WO2023182586A1 (ko) 핵산 서열 분석에서 위양성 변이를 판별하는 방법
Xie et al. Hearing screening combined with target gene panel testing increased etiological diagnostic yield in deaf children
WO2017213470A1 (ko) 다중 z-score에 기반한 비침습적 산전 검사 방법 및 장치
WO2023191262A1 (ko) 환자 맞춤형 패널을 이용한 암의 재발을 예측하는 방법
WO2022124575A1 (ko) 현미부수체 지역의 서열 길이의 변동계수를 이용한 현미부수체 불안정성 진단방법
TWI839151B (zh) 核酸定序辨識偽陽性變異體之方法
CN112513292B (zh) 基于高通量测序检测同源序列的方法和装置
WO2023171859A1 (ko) 체세포 변이 및 생식세포 변이를 구별하는 방법
WO2018110940A1 (ko) 차세대 핵산 서열 분석을 위한 라이브러리의 복잡성을 측정하는 방법
WO2021107567A1 (ko) Ngs를 이용한 열성유전병 원인 유전변이 판별 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22859528

Country of ref document: EP

Kind code of ref document: A1