WO2023182586A1

WO2023182586A1 - 핵산 서열 분석에서 위양성 변이를 판별하는 방법

Info

Publication number: WO2023182586A1
Application number: PCT/KR2022/011529
Authority: WO
Inventors: 노한성; 김수연; 김황필; 문성태; 김태유
Original assignee: 주식회사 아이엠비디엑스
Priority date: 2022-03-21
Filing date: 2022-08-04
Publication date: 2023-09-28
Also published as: KR102529553B1; TW202338099A; CN117157413A

Abstract

본 발명은 핵산 서열 분석 과정 중에 위양성 변이를 판별하는 방법에 관한 것이다. 본 발명의 일 구체예에 따르면, 증폭된 핵산 절편으로부터 도출된 HQS 의 컨텍스트 오류율을 이용하여 효과적으로 위양성 변이를 구별하여 제거할 수 있다.

Description

핵산 서열 분석에서 위양성 변이를 판별하는 방법

본 발명은 핵산 서열 분석 과정 중에 위양성 변이를 판별하는 방법에 관한 것이다.

대량의 시퀀싱 데이터로부터의 체세포 돌연변이의 검출은 게놈 연구에 있어서의 핵심이다. 최근 염기서열 분석기술에 있어서, 낮은 빈도의 체세포 돌연변이의 검출이나 시료 내 유전적 서브클론의 동정과 같은 체세포 돌연변이 검출의 정확성이 매우 향상되었다. 이러한 기술적 진보로 인하여 일반적인 임상실험으로 검출하기 힘든 유전병이나, 액체 생검으로부터 암을 진단하는데 있어 고효율 차세대 시퀀싱의 임상적용의 기회가 많아졌다.

최근에는 암의 발견을 위해 혈액속에 존재하는 세포 유리 DNA (cell-free DNA, cfDNA) 또는 순환 종양 DNA(circulating tumor DNA, ctDNA)를 활용하고 있다. 건강한 사람들의 경우 조혈 세포 (haematopoietic cell)로부터 방출된 DNA가 대부분이나, 암 환자의 경우 cfDNA에는 암세포 사멸로 파괴된 세포로부터 혈액으로 방출된 ctDNA가 포함되어 있다. 이 ctDNA는 암과 관련된 유전적 변이를 포함하고 있으며, 이러한 유전적 변이의 모니터링을 통해, 병변 발생 전 암의 조기 발견, 특정 암치료법에 대한 반응 분석, 항암제에 대한 저항성 생성 기전 발견, 잔존 암의 존재 등의 확인이 가능하다.

한편, 혈액에는 cfDNA 와 조혈 세포 유래 DNA 가 혼합되어 있는데, cfDNA의 분율이 전체의 1% 도 못 미치는 경우가 많기 때문에, 여전히 분석 과정에서 상당한 수준의 위양성(false positive)나 위음성(false negative)이 발생하고 있다. 이러한 문제점을 해결하기 위한 기술로서, 예를 들어, 분자 바코딩을 이용하거나, 디지털 에러 억제 방법, 주석-기반(annotation-based) 필터링 등의 기술이 보고된 바 있으나, 아직 상용화되어 임상진단에 사용되는 경우는 많지 않은 실정이다.

이에, 본 발명에서는 증폭된 핵산 절편으로부터 도출된 HQS의 컨텍스트 오류율 정보에 기반하여 위양성 변이를 높은 정확도로 판별하고 제거할 수 있는 기법을 제시하고자 한다.

본 발명의 일 양상은 a) 표적 시료에서 후보 변이를 포함하는 핵산 절편을 추출하는 단계; b) 상기 추출된 핵산 절편의 말단에 고유 분자 식별자(Unique Molecular Identifier: UMI)를 첨가하는 단계; c) 상기 UMI가 첨가된 핵산 절편을 증폭시켜 HQS (High Quality unique Sequence)를 생성하는 단계; d) 상기 HQS 에 해당하는 오류율을 적용하여 LLRc 값을 도출하는 단계; 및 e) 상기 LLRc 값으로부터 위양성 변이 여부를 판별하는 단계를 포함하는 핵산 서열 분석에서 위양성 변이를 판별하는 방법을 제공하는 것을 목적으로 한다.

본 발명의 일 양상으로,

a) 표적 시료에서 후보 변이를 포함하는 핵산 절편을 추출하는 단계;

b) 상기 추출된 핵산 절편의 말단에 고유 분자 식별자(Unique Molecular Identifier, UMI)를 첨가하는 단계;

c) 상기 UMI가 첨가된 핵산 절편을 증폭시켜 HQS (High Quality unique Sequence)를 생성하는 단계;

d) 상기 HQS에 해당하는 오류율을 적용하여 하기 수학식 I에 따른 LLRc 값을 도출하는 단계; 및

[수학식 1]

(상기 식에서, r은 리드(read), N은 총 리드, S는 패밀리 크기, f는 대립유전자 빈도(variant allele frequency), e는 오류율(error rate)를 나타낸다.)

e) 상기 LLRc 값으로부터 위양성 변이 여부를 판별하는 단계를 포함하는 핵산 서열 분석에서 위양성 변이를 제거하는 방법을 제공한다.

본 발명의 일 구체예로, 상기 후보 변이는 단일염기변이(single nucleotide variation), 염기의 삽입(insertion) 및 염기의 결실(deletion)로 이루어진 군으로부터 선택되는 하나 이상인 것일 수 있다.

본 발명의 일 구체예로, 상기 c) 단계에서, HQS는 단일가닥 컨센서스 서열(single-strand consensus sequence, SSCS) 또는 이중가닥 컨센서스 서열(duplex consensus sequence, DCS)인 것일 수 있다.

본 발명의 일 구체예로, 상기 패밀리 크기는 2 내지 30개인 것일 수 있다.

본 발명의 일 구체예로, 상기 오류율은 특정 패밀리 크기에서의 컨텍스트 오류율(context error rate), 오류 수정 과정에서 계산되는 뉴클레오티드의 오류율 및 매핑 과정에서 계산되는 리드의 오류율을 모두 포함하는 것일 수 있다.

본 발명의 일 구체예로, 상기 e) 단계에서, 위양성 변이 여부를 판별하는 단계는 SSCS에 대한 LLR 값과 DCS에 대한 LLR 값을 산출하여 가중 LLR(weighted LLR) 값을 구하고, 가중 LLR 값으로부터 정밀도-민감도(precision-recall) 커브를 이용하여 설정된 컷-오프 값이 50 이상인 경우 후보 변이를 포함하는 핵산 절편 내의 변이를 위양성으로 판별하는 것일 수 있다.

본 발명의 일 구체예에 따르면, 증폭된 핵산 절편으로부터 도출된 핵산 절편 패밀리 크기의 컨텍스트 오류율을 이용하여 효과적으로 위양성 변이를 구별하여 제거할 수 있다.

도 1은 UMI가 첨가된 핵산 절편의 PCR 증폭에 의한 오류 발생과 핵산 절편의 증폭에 따른 패밀리 크기를 나타내는 도면이다.

도 2는 컨텍스트 오류 종류와 오류 종류별로 오류율을 나타내는 그림이다.

도 3은 패밀리 크기 별로 컨텍스트 오류율을 표시한 결과이다.

도 4는 SSCS와 DCS에서 패밀리 크기 별로 컨텍스트 오류율을 색으로 표시한 그림이다.

도 5은 패밀리 크기 2 내지 15에서 SSCS와 DCS의 오류율을 나타낸 그래프이다.

도 6은 결실 컨텍스트에서 패밀리 크기에 대한 오류율을 나타낸 그래프이다.

도 7은 삽입 컨텍스트에서 패밀리 크기에 대한 오류율을 나타낸 그래프이다.

도 8은 SNV, 삽입, 결실 컨텍스트에서 정밀도-민감도 그래프를 이용하여 변이 점수의 컷-오프를 설정한 그래프이다.

본 발명의 일 양상은 a) 표적 시료에서 후보 변이를 포함하는 핵산 절편을 추출하는 단계; b) 상기 추출된 핵산 절편의 말단에 고유 분자 식별자(Unique Molecular Identifier, UMI)를 첨가하는 단계; c) 상기 UMI가 첨가된 핵산 절편을 증폭시켜 HQS (High Quality unique Sequence)를 생성하는 단계; d) 상기 HQS에 해당하는 오류율을 적용하여 하기 수학식 I에 따른 LLRc 값을 도출하는 단계; 및 e) 상기 LLRc 값으로부터 위양성 변이 여부를 판별하는 단계를 포함하는 핵산 서열 분석에서 위양성 변이를 판별하는 방법을 제공한다.

[수학식 1]

상기 식에서, r은 리드(read), N은 총 리드, S는 패밀리 크기, f는 대립유전자 빈도(variant allele frequency), e는 오류율(error rate)를 나타낸다.

암 환자의 혈액에서는 원발암 유래의 종양 핵산(circulating tumor DNA, ctDNA)과 조혈 세포 유래 핵산이 혼합된 조성의 세포유리 핵산(cell-free DNA, cfDNA)이 함께 순환하고 있는데, 특히, 상기 핵산의 양은 암환자에서 정상 대조군보다 많고, 항암치료 전후로 차이가 있으며, 치료 후 암이 재발하는 경우에는 ctDNA의 양이 증가하는 것으로 알려져 있다. 본 발명자들은 액체 생검으로부터 암을 진단하는 과정에서 cfDNA에 대한 체세포 돌연변이 분석을 진행하였고, 분석 과정에서 발생하는 위양성(false positive) 변이를 정확하고 민감도 높게 판별하는 연구를 진행하던 중 증폭된 핵산 절편(fragment)의 패밀리 크기의 컨텍스트 오류율을 이용하여 위양성 변이를 효과적으로 구별할 수 있음을 검증하여 본 발명을 완성하였다.

이하, 본 발명에 따른 핵산 서열 분석에서 위양성 변이를 판별하는 방법을 상세히 설명한다.

먼저, 본 발명의 방법은 a) 표적 시료에서 후보 변이를 포함하는 핵산 절편을 추출하는 단계를 수행한다.

본 명세서에서 사용되는 용어, '시료(sample)'는 염기 서열 내 변이(variant)를 분석하기 위하여 타겟 시퀀싱(targeted sequencing)을 하고자 하는 대상을 수득할 수 있는 조직, 세포, 전혈, 혈청, 혈장, 타액, 객담, 뇌척수액 또는 뇨와 같은 시료 등을 포함하나, 이에 제한되지 않으며, 바람직하게는 혈청 또는 혈장일 수 있다.

상기 단계에서, 핵산은 유전체 또는 그의 절편일 수 있다. 본 명세서에서 사용된 용어, '유전체(genome)'는 염색체, 염색질, 또는 유전자의 전체를 총칭하는 용어이다. 상기 유전체 또는 그의 절편은 분리된 DNA, 예를 들어, 세포 유리 핵산 (cfDNA)일 수 있다. 표적 시료로부터 핵산을 추출 또는 분리하는 방법은 통상의 기술자에게 공지된 방법으로 수행될 수 있다.

상기 핵산 절편은 추출된 핵산의 절편화를 포함하는 개념으로 해석된다. 절편화(fragmentation)는 유전체가 혈액을 순환하면서 자연적으로 분해되는 과정 또는 물리적, 화학적, 또는 효소적으로 인위적으로 절단하는 것을 의미하며, 상기 과정을 통해 다양한 길이를 갖는 핵산 절편과 그의 양쪽 말단의 리드를 생성할 수 있다. 본 명세서에서 사용된 용어, '리드(read)'는 핵산 서열 분석에서 생성된 하나 이상의 핵산 절편의 서열 정보를 의미하며, 상기 핵산 절편의 양쪽 말단 리드를 이용해 핵산 절편의 길이를 계산할 수 있다. 핵산 절편의 길이는 약 10bp 내지 약 2000bp일 수 있으며, 바람직하게는, 약 50bp 내지 약 500bp 일 수 있다.

본 발명의 일 구체예에 따르면, 상기 후보 변이는, 바람직하게는 체세포 돌연변이(somatic variant)일 수 있으며, 시퀀싱 리드(read) 내의 단일염기변이(single nucleotide variation, SNV), 염기의 삽입(insertion) 또는 염기의 결실(deletion)일 수 있으나, 이에 한정하지는 않는다.

단일염기변이는 4종의 뉴클레오티드가 각각 3종의 다른 뉴클레오티드로 변경될 수 있으므로, 총 12종의 단일염기변이가 존재하게 된다. 이는 생물학적인 원인, 핵산의 추출부터 시작되는 실험 전 과정과 시퀀싱 과정에서 나타나는 기계적 오류 등이 종합되어 오류율이 관찰될 수 있다.

다음으로, b) 상기 추출된 핵산 절편의 말단에 고유 분자 식별자를 첨가하는 단계를 수행하게 된다.

본 명세서에서 사용되는 용어, '고유 분자 식별자(Unique Molecular Identifier, UMI)'는 4 내지 10 bp의 DNA로 이루어진 시퀀스로서 핵산 절편의 말단에 결합되어 해당 핵산 절편을 표지하는 바코드 서열을 의미한다.

상기 고유 분자 식별자를 사용하면 상기 핵산 절편이 PCR을 통해 증폭되어 복제될 때, 서로 다른 핵산 절편을 구별할 수 있으며, 이를 이용하면 PCR 복제 산물(duplicates)를 서로 비교하여 오류의 수정이 가능하다.

예를 들어, 서로 다른 시퀀스의 UMI를 핵산 절편의 양 방향에 첨가하면 이중 가닥(double strand) 중 어떤 가닥의 PCR 증폭 산물인지 확인할 수 있다(duplex sequencing).

다음으로, c) 상기 UMI가 첨가된 핵산 절편을 증폭시켜 HQS를 생성하는 단계를 수행한다.

상기 UMI가 첨가된 핵산 절편의 증폭은 차세대 시퀀싱(Next Generation Sequencing, NGS) 과정 중에 수반되는 중합 효소 연쇄 반응(Polymerase Chain Reaction, PCR)을 의미하는 것으로, PCR 과정에서 특정 빈도로 무작위의 시퀀싱 오류가 발생할 수 있다.

본 명세서에서 사용되는 용어, '패밀리(family)'는 상기 UMI가 첨가된 핵산 절편이 PCR 과정에서 증폭됨에 따라 산출되는 복제 산물(duplicates)을 의미하며, '패밀리 크기(family size)'는 상기 패밀리의 개수를 의미한다. 도 1은 UMI가 첨가된 핵산 절편이 PCR 증폭에 의해 오류가 발생할 수 있음을 보여주며(붉은색 점), 핵산 절편의 증폭에 따른 패밀리 크기 예시를 보여주는 도면이다.

본 발명의 일 구체예에 따르면, 상기 HQS는 단일가닥 컨센서스 서열(single-strand consensus sequence, SSCS) 또는 이중가닥 컨선세스 서열(duplex consensus sequence, DCS)인 것일 수 있다.

단일가닥 컨센서스 서열의 경우, SSCS를 생성하면서 한 방향의 DNA 가닥으로부터 발생한 PCR 복제 산물들을 서로 비교하여 오류가 발생한 뉴클레오티드를 수정하지만, PCR 이전의 초기 단계에서 발생한 오류가 PCR 과정에서 계속적으로 누적되는 한계가 있다.

이중가닥 컨센서스 서열의 경우, DCS를 생성하는 과정은 양 방향의 SSCS를 서로 비교하여 컨센서스 시퀀스(consensus sequence)를 얻기 때문에, PCR 이전의 초기 단계에서 물리, 화학적으로 발생한 오류를 비교하여 차이가 나는 것은 오류로 간주하여 제거하게 된다.

이후, d) 상기 HQS에 해당하는 오류율을 적용하여 하기 수학식 I에 따른 LLRc 값을 도출하는 단계를 수행한다.

[수학식 1]

본 명세서에서 사용되는 용어. '오류율(error rate)'는 특정 뉴클레오티드의 오류 확률에 대한 패밀리 크기의 승수를 의미하는 것으로, 예를 들어, 어떤 뉴클레오티드의 오류 확률을 x라 하고, 패밀리 크기를 n이라 하면, 오류율은 x^n 이 될 수 있다. 따라서, 패밀리 크기가 클수록 정확한 컨센서스 시퀀스(consensus sequence)를 획득할 수 있다.

본 발명의 일 구체예에 따르면, 상기 패밀리 크기는 2 내지 30개일 수 있으며, 바람직하게는 2 내지 15개, 더욱 바람직하게는 2 내지 10개, 가장 바람직하게는 2 내지 7개일 수 있다.

본 발명의 일 구체예에 따르면, 상기 오류율은 특정 패밀리 크기에서의 컨텍스트 오류율(context error rate), 오류 수정 과정에서 계산되는 뉴클레오티드의 오류율 및 매핑 과정에서 계산되는 리드의 오류율을 모두 포함할 수 있다.

본 명세서에서 사용되는 용어, '컨텍스트(context)'는 '트리뉴클레오티드 컨텍스트(trinucleotide context)'와 혼용될 수 있으며, 이는 SNV가 발생한 위치(locus)의 전후 1 bp 뉴클레오티드를 포함하여 지칭하는 것으로 해석된다. 동일한 SNV도 컨텍스트에 따라 서로 다른 오류율을 갖는 것으로 알려져 있으며, 한 종류의 SNV는 16가지의 컨텍스트 오류(contextual error)로 구분된다. 예를 들어, A>T 변이는 레퍼런스 대립유전자(reference allele) A 전후의 뉴클레오티드의 종류에 따라 총 192가지(4Х12Х4)의 오류가 나타날 수 있으며, 각각의 오류율은 도 2에서 보는 바와 같이 변이 별로 차이가 있다.

마지막으로, e) 상기 d) 단계에서 도출된 LLRc 값으로부터 위양성 변이 여부를 판별하는 단계를 수행하게 된다.

본 발명의 일 구체예에 따르면, 상기 위양성 변이 여부를 판별하는 단계는 SSCS에 대한 LLR 값과 DCS에 대한 LLR 값을 산출하여 가중 LLR(weighted LLR) 값을 구하고, 가중 LLR 값으로부터 정밀도-민감도(precision-recall) 커브를 이용하여 설정된 컷-오프 값이 50 이상인 경우 후보 변이를 포함하는 핵산 절편 내의 변이를 위양성으로 판별하는 것일 수 있다.

이하 하나 이상의 구체예를 실시예를 통하여 보다 상세하게 설명한다. 그러나, 이들 실시예는 하나 이상의 구체예를 예시적으로 설명하기 위한 것으로 본 발명의 범위가 이들 실시예에 한정되는 것은 아니다.

실시예 1: 패밀리 크기의 오류율 확인

정상인의 cfDNA 시료 3종(총 120 Gbp), 폐암 환자 유래 cfDNA 시료 4종(총 350 Gbp), cfDNA 혼합물 1 (대장암 환자 5명으로 구성, 4 번 반복 실험, 총 221 Gbp), cfDNA 혼합물 2 (대장암 환자 5명으로 구성, 4 번 반복 실험, 총 216 Gbp) cfDNA 혼합물 3 (위암 환자 4명과 대장암 환자 3명으로 구성, 26 번 반복 실험, 총 836 Gbp)를 대상으로 무작위로 서브 샘플링하여, 정상인 cfDNA 시료 서브샘플 420개 (총 8,400 Gbp), 폐암 환자 유래 cfDNA 서브샘플 380개 (총 10,050 Gbp), cfDNA 혼합물 1의 서브샘플 253개 (총 5,090 Gbp), cfDNA 혼합물 2의 서브샘플 253개 (총 5,090 Gbp), cfDNA 혼합물 3의 서브샘플 1,380개 (총 21,900 Gbp)를 오류율 계산에 사용하였으며, 본 실시예에서 사용된 시료 종류 및 다운 샘플링 조건을 표 1에 나타내었다.

Specimen Lable	Replicate Nuber	The number of Subsamples by Data size												Total Subsample Count	Total Subsample Data Size (Gbp)
Specimen Lable	Replicate Nuber	5 Gbp	10 Gbp	15 Gbp	20 Gbp	25 Gbp	30 Gbp	35 Gbp	40 Gbp	45 Gbp	50 Gbp	Total Count	Total Data Size (Gbp)	Total Subsample Count	Total Subsample Data Size (Gbp)
Healthy person cfDNA 1	#1	20	20	20	20	20	20	20	-	-	-	140	2800	420	8,400
Healthy person cfDNA 2	#1	20	20	20	20	20	20	20	-	-	-	140	2800
Healthy person cfDNA 3	#1	20	20	20	20	20	20	20	-	-	-	140	2800
Lung cancer cfDNA 1	#1	10	10	10	10	10	10	10	10	10	10	100	2750	380	10,050
Lung cancer cfDNA 2	#1	10	10	10	10	10	10	10	10	10	10	100	2750
Lung cancer cfDNA 3	#1	10	10	10	10	10	10	10	10	10	10	100	2750
Lung cancer cfDNA 4	#1	10	10	10	10	10	10	10	10	-	-	80	1800
Patient cfDNA mixture 1 (5 colon cancer patients)	#1	10	10	10	10	10	1	-	-	-	-	51	780	253	5,090
	#2	10	10	10	10	10	1	-	-	-	-	51	780
	#3	10	10	10	10	10	1	-	-	-	-	51	780
	#4	10	10	10	10	10	10	10	10	10	10	100	2750
Patient cfDNA mixture 2 (5 colon cancer patients)	#1	10	10	10	10	10	1	-	-	-	-	51	780	253	5,090
	#2	10	10	10	10	10	1	-	-	-	-	51	780
	#3	10	10	10	10	10	1	-	-	-	-	51	780
	#4	10	10	10	10	10	10	10	10	10	10	100	2750
Patient cfDNA mixture 3 (4 gastric cancer patients + 3 colon cancer patients)	#1	10	10	10	10	10	1	-	-	-	-	51	780	1,380	21,900
	#2	10	10	10	10	10	1	-	-	-	-	51	780
	#3	10	10	10	10	10	1	-	-	-	-	51	780
	#4	10	10	10	10	10	1	-	-	-	-	51	780
	#5	10	10	10	10	10	1	-	-	-	-	51	780
	#6	10	10	10	10	10	1	-	-	-	-	51	780
	#7	10	10	10	10	10	1	-	-	-	-	51	780
	#8	10	10	10	10	10	1	-	-	-	-	51	780
	#9	10	10	10	10	10	1	-	-	-	-	51	780
	#10	10	10	10	10	10	1	-	-	-	-	51	780
	#11	10	10	10	10	10	1	-	-	-	-	51	780
	#12	10	10	10	10	10	1	-	-	-	-	51	780
	#13	10	10	10	10	10	1	-	-	-	-	51	780
	#14	10	10	10	10	10	1	-	-	-	-	51	780
	#15	10	10	10	10	10	1	-	-	-	-	51	780
	#16	10	10	10	10	10	1	-	-	-	-	51	780
	#17	10	10	10	10	10	1	-	-	-	-	51	780
	#18	10	10	10	10	10	1	-	-	-	-	51	780
	#19	10	10	10	10	10	1	-	-	-	-	51	780
	#20	10	10	10	10	10	1	-	-	-	-	51	780
	#21	10	10	10	10	10	10	-	-	-	-	60	1050
	#22	10	10	10	10	10	10	-	-	-	-	60	1050
	#23	10	10	10	10	10	10	-	-	-	-	60	1050
	#24	10	10	10	10	10	10	-	-	-	-	60	1050
	#25	10	10	10	10	10	10	-	-	-	-	60	1050
	#26	10	10	10	10	10	10	-	-	-	-	60	1050

서브 샘플링으로 만들어진 fastq 파일을 fastp 프로그램을 사용하여 어탑터 시퀀스(adapter sequence)를 제거하고, bwa MEM 프로그램을 사용해 human reference genome GRCh38에 맵핑해서 bam 형식으로 기록한 다음, fgbio 프로그램을 이용해 SSCS bam 파일과 DCS bam 파일을 생성하고, 패밀리 크기를 의미하는 consensus depth (cD) tag 값에 따라 bam 파일을 패밀리 크기 별로 나누어 생성하였다. 상기 과정에서 각 패밀리 크기별로 생성된 bam 파일로부터 레퍼런스 게놈(reference genome)과 상이한 부분을 찾고, 해당 위치의 컨텍스트 종류를 확인해서 각 컨텍스트 별로 오류가 발생한 횟수를 세었다. 이때, 전체 검사 영역(106개 유전자, 365,175 bp)에 대해서, 사전에 알고 있는 생식세포 변이와 체세포 변이의 위치를 제외한 나머지 위치에서 레퍼런스 게놈 시퀀스와 상이한 부분을 오류로 판정하고 각 컨텍스트 종류별 전체 빈도를 세어 오류 횟수를 나누는 방법으로 오류율을 계산하였다.

도 3은 한 종류의 컨텍스트마다 패밀리 크기가 2 내지 30개에 해당하는 총 29개의 칸으로 구분하여 오류율을 색으로 표시한 것이다. 그 결과, 패밀리 크기가 증가할수록 오류율은 점점 감소하는 패턴을 확인할 수 있었다. 또한, SSCS와 DCS 각각에 대하여 컨텍스트 오류율을 확인한 결과, 도 4에서와 같이, SSCS 보다 DCS에서 오류율이 낮은 것으로 확인되었다. 이러한 결과를 종합해 볼 때, 패밀리 크기가 클수록 오류율이 낮아지는 것을 알 수 있었다.

또한, 패밀리 크기마다 관찰된 오류율의 중간값들을 지수분포(exponential distribution)에 피팅하여 확률 밀도 함수(probability density function)를 만들고, 이로부터 패밀리 크기의 오류율을 계산하였다. 아울러, 거의 오류가 관찰되지 않는 패밀리 크기가 큰 그룹과 컨텍스트(context)는 오류율이 매우 낮아 부정확한 측정 및 통계학적 편중(bias)이 나타날 수 있으므로, 1e^-10으로 값의 제한(cap)을 두었다. 그 결과, 도 5에서 보는 바와 같이, 오류율이 높았던 GCG>T 컨텍스트의 경우 패밀리 크기 2에서 오류율이 SSCS의 경우에는 2.54e^-4 이고, DCS의 경우에는 8.13e^-5의 결과가 패밀리 크기가 커질수록 작아졌으며, 패밀리 크기 7에서 SSCS는 1.06e^-4로 DCS는 2.84e^-5로 감소하였고, 패밀리 크기가 커질수록 계속 작아지는 경향을 확인할 수 있었다.

실시예 2: 패밀리 크기 별 인델 컨텍스트(Indel context) 종류에 따른 오류율 확인

삽입(insertion)과 결실(deletion)은 길이가 다양하고, 변이가 발생하는 위치에 따라 무한한 조합이 가능하다. 본 실시예에서는 인델 컨텍스트에 대하여 레퍼런스(reference)와 변이(variant)를 각각 75종, 113종의 카테고리로 나누어 총 8,745개의 컨텍스트로 구분하고, 이를 이용하여 패밀리 크기에 따른 오류율을 확인하였다.

레퍼런스 카테고리 컨텍스트는 다음과 같이 표시하였다.

[unit]:[unit length]:[repeat count]

예를 들어, 레퍼런스가 AA[TTTTT]AA이면, 컨텍스트는 T:1:5로 표시된다.

변이 카테고리 컨텍스트는 다음과 같이 표시하였다.

[unit length]:[variant type]:[unit]:[repeat count]

예를 들어, 레퍼런스가 AA[TTTTT]AA이고, 변이가 AA[TTT--]AA이면, 컨텍스트는 1:Del:T:2로 표시된다.

상기 컨텍스트에 표시된 용어 및 이에 대한 설명과 예시를 표 2에 나타내었다.

용어	설명	값	예시
unit	Repeat unit을 나타냄R : 2bp 이상의 반복은 뉴클레오티드 상관없이 포함 M : micro-homology N : 레퍼런스 시퀀스의 뉴클레오티드를 알 수 없는 경우	N, A, T, G, C, R, M	GC 나 AT 가 repeat unit 인 경우 모두 R category에 포함
unit length	Repeat unit의 길이	1~6	GC는 2, GCC는 3
repeat count	Repeat의 반복 수	1~6	GCGCGC 는 GC가 3번 반복
variant type	변이의 종류	Ins, Del

하기 표 3 및 표 4에 본 실시예에서 사용한 상기 정의에 따른 레퍼런스 카테고리 컨텍스트 75종과 변이 카테고리 컨텍스트 113종을 나타내었다.

레퍼런스 카테고리

N:1:0 A:1:1 T:1:1 G:1:1 C:1:1 R:2:1 R:3:1 R:4:1 R:5:1 R:6:1N:2:0 A:1:2 T:1:2 G:1:2 C:1:2 R:2:2 R:3:2 R:4:2 R:5:2 R:6:2
N:3:0 A:1:3 T:1:3 G:1:3 C:1:3 R:2:3 R:3:3 R:4:3 R:5:3 R:6:3
N:4:0 A:1:4 T:1:4 G:1:4 C:1:4 R:2:4 R:3:4 R:4:4 R:5:4 R:6:4
N:5:0 A:1:5 T:1:5 G:1:5 C:1:5 R:2:5 R:3:5 R:4:5 R:5:5 R:6:5
N:6:0 A:1:6 T:1:6 G:1:6 C:1:6 R:2:6 R:3:6 R:4:6 R:5:6 R:6:6

M:2:1 M:3:1 M:4:1 M:5:1 M:6:1
M:3:2 M:4:2 M:5:2 M:6:2
M:4:3 M:5:3 M:6:3
M:5:4 M:6:4
M:6:5

변이 카테고리

1:Ins:A:1 1:Ins:T:1 1:Ins:G:1 1:Ins:C:1 1:Del:A:1 1:Del:T:1 1:Del:G:1 1:Del:C:1
1:Ins:A:2 1:Ins:T:2 1:Ins:G:2 1:Ins:C:2 1:Del:A:2 1:Del:T:2 1:Del:G:2 1:Del:C:2
1:Ins:A:3 1:Ins:T:3 1:Ins:G:3 1:Ins:C:3 1:Del:A:3 1:Del:T:3 1:Del:G:3 1:Del:C:3
1:Ins:A:4 1:Ins:T:4 1:Ins:G:4 1:Ins:C:4 1:Del:A:4 1:Del:T:4 1:Del:G:4 1:Del:C:4
1:Ins:A:5 1:Ins:T:5 1:Ins:G:5 1:Ins:C:5 1:Del:A:5 1:Del:T:5 1:Del:G:5 1:Del:C:5
1:Ins:A:6 1:Ins:T:6 1:Ins:G:6 1:Ins:C:6 1:Del:A:6 1:Del:T:6 1:Del:G:6 1:Del:C:6
2:Ins:R:1 2:Ins:R:2 2:Ins:R:3 2:Ins:R:4 2:Ins:R:5 2:Ins:R:6
3:Ins:R:1 3:Ins:R:2 3:Ins:R:3 3:Ins:R:4 3:Ins:R:5 3:Ins:R:6
4:Ins:R:1 4:Ins:R:2 4:Ins:R:3 4:Ins:R:4 4:Ins:R:5 4:Ins:R:6
5:Ins:R:1 5:Ins:R:2 5:Ins:R:3 5:Ins:R:4 5:Ins:R:5 5:Ins:R:6
6:Ins:R:1 6:Ins:R:2 6:Ins:R:3 6:Ins:R:4 6:Ins:R:5 6:Ins:R:6
2:Del:R:1 2:Del:R:2 2:Del:R:3 2:Del:R:4 2:Del:R:5 2:Del:R:6
2:Del:M:0
3:Del:R:1 3:Del:R:2 3:Del:R:3 3:Del:R:4 3:Del:R:5 3:Del:R:6
3:Del:M:0
4:Del:R:1 4:Del:R:2 4:Del:R:3 4:Del:R:4 4:Del:R:5 4:Del:R:6
4:Del:M:0
5:Del:R:1 5:Del:R:2 5:Del:R:3 5:Del:R:4 5:Del:R:5 5:Del:R:6
5:Del:M:0
6:Del:R:1 6:Del:R:2 6:Del:R:3 6:Del:R:4 6:Del:R:5 6:Del:R:6
6:Del:M:0

* 상기 표에서 micro homology(M)은 다른 카테고리와 다르게 repeat unit의 반복을 측정하지는 않으므로, count는 0으로 표기함.

도 6 및 도 7에서 확인할 수 있는 바와 같이, 결실 변이와 삽입 변이에서 패밀리 크기가 증가함에 따라 오류율은 매우 낮아짐을 확인할 수 있었다. 특히, 결실 변이와 삽입 변이는 길이가 짧을수록 오류율이 높았고, 도 6에서 보는 바와 같이, 결실 길이가 길어지면 거의 발생하지 않는 컨텍스트도 존재하였다. 또한, 도 7에서 보는 바와 같이, 반복서열이 긴 컨텍스트가 더 오류율이 큰 것을 확인할 수 있었다.

실시예 3: 변이 점수의 계산

위양성을 판별하기 위한 변이 점수의 계산은 로그 최우비(log likelihood ratio, LLR)를 이용하였다. 컨텍스트에 대한 LLR 값(LLRc)은 하기 수학식 I에 따라 계산하였다.

최종 변이 점수는 하기 3종류의 오류율을 종합하여 계산하였다.

1) 특정 패밀리 크기에서의 컨텍스트 오류율

2) 오류 수정 과정에서 계산되는 뉴클레오티드의 오류율

3) 매핑 과정에서 계산되는 리드의 오류율

상기 3종류의 오류율을 수학식 I에 대입하여 나타낸 각각의 LLR 값을 다음과 같이 표시하였다.

1) CXT_LLR_DCS : 모든 패밀리 크기에서 DCS의 컨텍스트 오류율에 의해 계산된 LLR 값의 합

2) CXT_LLR_SSCS : 모든 패밀리 크기에서 SSCS의 컨텍스트 오류율에 의해 계산된 LLR 값의 합

3) BQ_LLR_DCS : 모든 패밀리 크기에서 DCS의 오류 수정 과정에서 계산되는 뉴클레오티드의 오류율에 의해 계산된 LLR 값의 합

4) BQ_LLR_SSCS : 모든 패밀리 크기에서 SSCS의 오류 수정 과정에서 계산되는 뉴클레오티드의 오류율에 의해 계산된 LLR 값의 합

5) MQ_LLR_DCS : 모든 패밀리 크기에서 DCS의 매핑 과정에서 계산되는 리드의 오류율에 의해 계산된 LLR 값의 합

6) MQ_LLR_SSCS : 모든 패밀리 크기에서 SSCS의 매핑 과정에서 계산되는 리드의 오류율에 의해 계산된 LLR 값의 합

상기 LLR들을 종합하면,

LLR_DCS = CXT_LLR_DCS + BQ_LLR_DCS + MQ_LLR_DCS

LLR_SSCS = CXT_LLR_SSCS + BQ_LLR_SSCS + MQ_LLR_SSCS

로 나타낼 수 있으며, 최종 변이 점수 계산을 위한 가중 LLR 값(weighted LLR, wLLR)은 다음과 같이 계산하였다.

wLLR = (2×LLR_DCS + LLR_SSCS)/3

위양성을 판별하기 위한 점수의 컷-오프(cut-off) 설정은 정밀도-민감도 커브(precision-recall curve)를 이용하였다. NGS 검사에서 위양성은 다른 측정 기준을 통해 더 제거될 수 있지만, 위음성으로 제거되는 것은 더욱 좋지 않은 결과를 가져오므로 정밀도(precision)을 0.25, 민감도(recall)을 0.7 내지 0.8 수준으로 하여 컷-오프를 설정하였다. 오류 수정 단계에서 오류를 처리하는 강도에 따라 2종류의 파라미터로 세팅하였고(s2, s3), 데이터 양 2종류(20 Gbp, 30 Gbp)로 조건을 조합하여 분석하였다. 그 결과, 도 8에서 보는 바와 같이, SNV 에서는 s3와 30 Gbp 조건에서 성능이 가장 우수하였고, 삽입 변이에서는 조건에 크게 영향이 없었으며, 결실 변이에서는 s2와 30 Gbp 조건이 성능이 우수함을 확인할 수 있었다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims

a) 표적 시료에서 후보 변이를 포함하는 핵산 절편을 추출하는 단계;

b) 상기 추출된 핵산 절편의 말단에 고유 분자 식별자(Unique Molecular Identifier, UMI)를 첨가하는 단계;

c) 상기 UMI가 첨가된 핵산 절편을 증폭시켜 HQS (High Quality unique Sequence)를 생성하는 단계;

d) 상기 HQS에 해당하는 오류율을 적용하여 하기 수학식 I에 따른 LLRc 값을 도출하는 단계; 및

[수학식 1]

(상기 식에서, r은 리드(read), N은 총 리드, S는 패밀리 크기, f는 대립유전자 빈도(variant allele frequency), e는 오류율(error rate)를 나타낸다.)

e) 상기 LLRc 값으로부터 위양성 변이 여부를 판별하는 단계를 포함하는 핵산 서열 분석에서 위양성 변이를 제거하는 방법.
청구항 1에 있어서,

상기 후보 변이는 단일염기변이(single nucleotide variation), 염기의 삽입(insertion) 및 염기의 결실(deletion)로 이루어진 군으로부터 선택되는 하나 이상인 것인 방법.
청구항 1에 있어서,

상기 c) 단계에서, HQS는 단일가닥 컨센서스 서열(single-strand consensus sequence, SSCS) 또는 이중가닥 컨센서스 서열(duplex consensus sequence, DCS)인 것인 방법.
청구항 1에 있어서,

상기 패밀리 크기는 2 내지 30개인 것인 방법.
청구항 1에 있어서,

상기 오류율은 특정 패밀리 크기에서의 컨텍스트 오류율(context error rate), 오류 수정 과정에서 계산되는 뉴클레오티드의 오류율 및 매핑 과정에서 계산되는 리드의 오류율을 모두 포함하는 것인 방법.
청구항 1에 있어서,

상기 e) 단계에서, 위양성 변이 여부를 판별하는 단계는 SSCS에 대한 LLR 값과 DCS에 대한 LLR 값을 산출하여 가중 LLR(weighted LLR) 값을 구하고, 가중 LLR 값으로부터 정밀도-민감도(precision-recall) 커브를 이용하여 설정된 컷-오프 값이 50 이상인 경우 후보 변이를 포함하는 핵산 절편 내의 변이를 위양성으로 판별하는 것인 방법.