WO2017191871A1

WO2017191871A1 - 변이 검출 표지의 신뢰도를 결정하는 방법 및 장치

Info

Publication number: WO2017191871A1
Application number: PCT/KR2016/009491
Authority: WO
Inventors: 손대순; 박동현; 정종석; 박웅양
Original assignee: 삼성전자 주식회사; 사회복지법인 삼성생명공익재단
Priority date: 2016-05-04
Filing date: 2016-08-26
Publication date: 2017-11-09
Also published as: KR101882867B1; KR20170125278A

Abstract

단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하는 방법, 변이 검출 표지의 신뢰도를 결정하기 위한 장치 및 상기 방법을 실행시키기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체에 관한 것으로, 유전체의 표적 자리를 중심으로 리드의 뎁스에 기초하여 QC점수를 산출함으로써, 변이 검출 표지의 신뢰도를 결정할 수 있다.

Description

변이 검출 표지의 신뢰도를 결정하는 방법 및 장치

변이 검출 표지의 신뢰도를 결정하는 방법, 변이 검출 표지의 신뢰도를 결정하기 위한 장치 및 상기 방법을 실행시키기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체에 관한 것이다.

유전체(genome)란 한 생물이 가지는 모든 유전 정보를 말한다. 어느 한 개인의 유전체를 서열화(sequencing)하는 기술은 DNA 칩 및 차세대 시퀀싱(Next Generation Sequencing) 기술, 차차세대 시퀀싱(Next Next Generation Sequencing) 기술 등 여러 기술들로 개발되고 있다. 차세대 시퀀싱은 대규모 병렬 시퀀싱 또는 2세대 시퀀싱과 상호 교환적으로 사용될 수 있다.

뉴클레오티드 서열, 단백질 등과 같은 유전 정보들의 분석은 당뇨병, 암과 같은 질병을 발현시키는 유전자를 찾거나, 유전적 다양성과 개체의 발현 특성 간의 상관관계 등을 파악하기 위하여 폭넓게 활용된다. 특히, 개인으로부터 수집된 유전 데이터는 서로 다른 증상이나 질병의 진행과 관련된 개인의 유전적인 특징을 규명하는데 있어서 중요하다. 따라서, 개인의 뉴클레오티드 서열, 단백질 등과 같은 유전 데이터는 현재와 미래의 질병 관련 정보를 파악하여 질병을 예방하거나 질병의 초기 단계에서 최적의 치료 방법을 선택할 수 있도록 하는 핵심적인 데이터이다. 이러한 생물의 유전 정보들을 이용하여 질병과 관련된 SNV(Single Nucleotide Variant), CNV(Copy Number Variation), InDel(Insertion and Deletion), Translocation 등의 변이를 정확히 분석하고, 진단하는 기술들이 연구 중에 있다.

일 양상은 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하는 방법에 관한 것이다.

다른 양상은 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하는 장치에 관한 것이다.

다른 양상은 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하는 방법을 실행시키기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체에 관한 것이다.

본 실시예들에서 사용되는 용어는 본 실시예들에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 기술분야에 종사하는 통상의 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 임의로 선정된 용어도 있으며, 이 경우 해당 실시예의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서, 본 실시예들에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 실시예들의 전반에 걸친 내용을 토대로 정의되어야 한다.

실시예들에 대한 설명들에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐 아니라, 그 중간에 다른 구성요소를 사이에 두고 전기적으로 연결되어 있는 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 실시예들에 기재된 "...부", "...모듈"의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

본 실시예들에서 사용되는 "구성된다" 또는 "포함한다" 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.

하기 실시예들에 대한 설명은 권리범위를 제한하는 것으로 해석되지 말아야 하며, 해당 기술분야의 통상의 기술자가 용이하게 유추할 수 있는 것은 실시예들의 권리범위에 속하는 것으로 해석되어야 할 것이다. 이하 첨부된 도면들을 참조하면서 예시를 위한 실시예들을 상세히 설명하기로 한다.

일 양상은, 피검 유전자를 포함하는 핵산 시료로부터 피검 유전자의 단일 뉴클레오티드 변이(single nucleotide variant, SNV) 예측 자리에 대하여 표적 시퀀싱(targeted sequencing)을 수행하여 리드(read)를 수득하는 단계; 참조(reference) 유전체에 상기 리드를 맵핑(mapping)하고 참조 유전체에 정렬된 리드의 뎁스(depth)로부터 QC(Quality control)점수를 산출하는 단계; 및 산출된 QC점수에 따라 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 평가하는 단계를 포함하는, 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하는 방법을 제공한다.

도 1은 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하는 방법의 전반적인 흐름도이다. 도 1을 참고하면, 변이 검출 표지의 신뢰도를 결정하는 방법은 단일 뉴클레오티드 변이 예측 자리에 대하여 표적 시퀀싱을 수행하여 리드를 수득하는 단계(110), 참조 유전체에 리드를 맵핑하는 단계(120), 참조 유전체에 정렬된 리드의 뎁스로부터 QC점수를 산출하는 단계(130), 변이 검출 표지의 신뢰도를 평가하는 단계(140)를 포함할 수 있다.

용어 "단일 뉴클레오티드 변이(single nucleotide variant, SNV)"는 하나의 서열 또는 종 내 소수의 집단에서 나타나는 단일 뉴클레오티드의 차이를 의미하는 것으로, 상대적으로 큰 영역이 결손되거나 증폭되어 반복적으로 나타나는 유전자 내의 복제수 변이(copy number variant, CNV)와는 다르게 단일 뉴클레오티드의 치환 등을 의미한다. 상기 단일 뉴클레오티드 변이는 참조 유전체에 대하여 변이를 갖는 것일 수 있고, 예를 들면 참조 유전체의 뉴클레오티드 서열과의 차이일 수 있다.

용어 "QC"는 quality control 또는 품질관리와 혼용될 수 있으며, 상기 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하는 실험 또는 진단에서 변이 검출 표지를 얼마나 신뢰할 수 있는지, 예를 들면 변이 예측 자리에 맵핑된 리드의 뎁스가 충분하게 확보되었는지를 나타내는 지표가 된다.

상기 단계(110)는, 피검 유전자의 단일 뉴클레오티드 변이(SNV) 예측 자리를 포함하는 특정 영역에 대하여 표적 시퀀싱(targeted sequencing)을 수행하여 리드를 수득한다.

상기 단계(110)에 의해 분석되는 핵산 시료는, 피검체의 생물학적 물질로부터 수득될 수 있다. 상기 피검체는 영장류 및 인간, 예를 들면, 인간, 비-인간 영장류, 소, 말, 돼지, 양, 염소, 개, 고양이 또는 설치류를 포함할 수 있다. 상기 생물학적 물질은 혈액, 혈장, 혈청, 소변, 타액, 점막 분비물, 객담, 대변, 눈물 또는 이들의 조합으로부터 획득된 것일 수 있다. 상기 핵산은 임의의 길이를 지닌 폴리뉴클레오티드 또는 올리고뉴클레오티드와 상호교환적으로 사용될 수 있다. 상기 핵산은 세포를 포함하지 않는 핵산(cell-free DNA: cf DNA, RNA)일 수 있으며, 또는 분리된 DNA 또는 RNA일 수 있다. 상기 핵산을 분리하는 방법은 통상의 기술자에게 공지된 방법으로 수행될 수 있다.

피검 유전자의 단일 뉴클레오티드 변이 예측 자리에 대하여 차세대 시퀀싱(next generation sequencing, NGS) 기반의 표적 시퀀싱(targeted sequencing) 또는 패널 시퀀싱(panel sequencing)을 수행할 수 있다. 차세대 시퀀싱은 칩(chip) 기반 그리고 PCR 기반 쌍 말단(paired end) 형식으로 전장 유전체를 조각내고, 상기 조각을 혼성화 반응(hybridization)에 기초하여 초고속으로 시퀀싱을 수행하는 기술을 의미한다. 보다 상세하게는, 표적 딥 시퀀싱(targeted deep sequencing)을 수행함으로써 단일 뉴클레오티드 변이(SNV) 예측 유전자들 각각에 대한 리드들을 획득한다.

용어 "표적 딥 시퀀싱"은 전체 유전체가 아닌, 일부 표적 유전자의 핵산을 식별하는 시퀀싱으로, DNA 절편, RNA 절편 등과 같은 핵산들에 리드들을 반복적으로 정렬시킴으로써, DNA 절편, RNA 절편 등과 같은 핵산을 시퀀싱하는 기술이다.

상기 방법은 차세대 시퀀싱을 수행하기 위해 핵산 라이브러리를 제조하는 단계를 더 포함할 수 있다. 상기 핵산 라이브러리는 차세대 시퀀싱 방식에 따라 제조될 수 있다. 차세대 시퀀싱을 제공하는 제조자의 지시에 따라 핵산 라이브러리를 제작할 수 있다.

용어 "리드"는 하나 이상의 핵산 단편의 서열 정보를 의미한다. 상기 리드는 약 10bp(염기쌍) 내지 약 2000bp, 약 15bp 내지 약 1500bp, 약 20bp 내지 약 1000bp, 약 20bp 내지 약 500bp 또는 약 20 내지 약 200bp 일 수 있다.

용어 "뎁스(depth)"는 용어 "리드의 뎁스(read-depth)"와 동일한 의미로 혼용되어 사용될 수 있으며, 리드의 두께 또는 깊이를 의미한다.

시퀀싱 수행 결과 FASTQ 파일 포맷의 유전자 데이터를 획득할 수 있다. FASTQ 포맷은 보통 핵산 서열과 같은 생물학적 서열과, 그에 대응되는 퀄리티 스코어를 저장하는 텍스트 기반 포맷(text-based format)이다. 다만, FASTQ 포맷에 제한되지 않고, 다른 포맷의 시퀀싱 데이터도 분석이 가능하다.

참조 유전체에 리드를 맵핑하는 단계(120)에서 각 리드들을 참조 유전체의 표적 자리에 정렬시켜 맵핑한다. 참조 유전체에서 하나의 유전체 위치에만 맵핑되는 서열 정보를 고유한 서열 정보로 지정할 수 있다. 지정된 고유한 서열 번호를 기준으로 리드를 염색체의 위치에 지정할 수 있다. 상기 맵핑은 리드 전체 서열을 참조 유전체의 표적 자리 중 가장 유사한 부분에 위치시킬 수 있고(글로벌 정렬, Global alignment), 또는 리드 일부 서열을 참조 유전체의 표적 자리 중 가장 유사한 부분 위치시킬 수 있다(로컬 정렬, Local alignment). 결국, 상기 단계(120)에 의해 생성된 뎁스 데이터는, 참조 유전체의 표적 뉴클레오티드 자리에 맵핑된 리드의 뎁스를 나타내는 데이터를 포함할 수 있다.

한편, 참조(reference) 유전체 또는 단일 뉴클레오티드 변이(SNV) 예측 자리는 NCBI(National Center for Biotechnology Information), GEO (Gene　Expression Omnibus), FDA(Food and Drug Administration), My Cancer Genome, 또는 KFDA(식품의약품안전처) 등과 같은 당해 기술분야에서 이미 공지된 데이터베이스(DB)로부터 획득된 것일 수 있다. 즉, 참조유전체는 공개 게놈 데이터 또는 공개 합맵(HapMap) 데이터로부터 획득된 것일 수 있다. 상기 참조 유전체는 변이를 포함하지 않는 인간 참조 유전체일 수 있고, hg18 또는 hg19일 수 있다. 참조 유전체의 표적 자리와 피검 유전자의 단일 뉴클레오티드 변이(SNV) 예측 자리는, 예를 들면 동일한 엑손 자리 또는 인트론 자리일 수 있고, 동일한 넘버의 염색체 상에 동일한 서열 번호 자리일 수 있다.

도 3은 피검체(400)의 생검 샘플(410) 또는 FFPE 처리 샘플(425)을 표적 시퀀싱하고, 염색체 표적 자리 뉴클레오티드 각각(1,2,3,4 또는 5)에 정렬된 리드의 뎁스(430)를 설명하기 위한 도면이다. 도 1의 단계(120)에서 수행되는 방법과 관련된 것일 수 있다.

상기 시료는 피검체의 생검 조직, 포르말린-고정 조직 또는 파라핀-내장(Formalin-fixed, paraffin-embedded: FFPE) 조직으로부터 획득된 것일 수 있다. 상기 시료는 DNA 투입양에 기초하여 생검 조직으로부터 획득되거나, 또는 DNA 농도에 기초하여 FFPE 조직으로부터 획득될 수 있다. 상기 생검 조직으로부터 획득된 시료는 혼성화 단계에서 사용하기 위해 투입된 DNA 양이 중요하며, 혼성화 단계에서 사용하기 위하여 DNA를 400ng 이상, 600ng 이상 또는 800ng 이상 투입할 수 있다. FFPE 조직으로부터 획득된 시료는 DNA 농도가 중요하며, 10ng/㎕, 20ng/㎕ 또는 30ng/㎕ 이상 일 수 있다. 상기 범위에서, 리드의 뎁스가 충분하게 확보되어, 단일 뉴클레오티드 변이 검출 표지의 신뢰도가 향상될 수 있다.

상기 방법은 시료의 DNA의 변이를 확인하는 단계를 포함할 수 있다. 상기 변이 확인은 공지된 변이 검출 프로그램, 예를 들면 GATK, SAMtool, MoDIL, SeqSeq, PeMer, VariationHunter, Pindel, BreakDancer 및 Mutek등을 이용하여 수행할 수 있으나, 이에 제한되지 않는다.

QC점수를 산출하는 단계(130)는 상기 뎁스를 나타내는 데이터에 기초하여 QC점수(품질관리점수, Quality control score)를 산출한다. QC점수는 뎁스와 성분 편향(Strand bias), 표준 편차(standard deviation) 또는 변동 계수(coefficient of variation) 등을 고려할 수 있다. 상기 단계(130)에서, 총 n 개의 표적 자리에 대하여, QC점수는 하기의 수학식 1 및 2에 따라 산출될 수 있다.

[수학식 1]

[수학식 2]

식 1에서, D_i는 염색체의 i번째 표적 자리에 대한 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 뎁스의 평균을 의미한다. D_i를 구하기 위하여, i번째 표적 자리와 인접하는 주변 자리의 뎁스를 고려할 수 있고, 참조 유전체의 표적 자리로부터 5' 방향으로 c번째 뉴클레오티드 및 3' 방향으로 c번째 뉴클레오티드 사이를 뎁스 분석 구간으로 결정하고, 상기 뎁스 분석 구간 내의 2c+1개의 뉴클레오티드 각각에 맵핑된 리드의 뎁스로부터, 이들의 평균을 계산할 수 있다. 이 평균값을 D_i으로 정의할 수 있다. 상기 c는 0 또는 자연수일 수 있다. 상기 c는 0 내지 10, 0 내지 7, 0 내지 5, 0 내지 3 또는 0 내지 2일 수 있다. 예를 들면, 3개의 코돈이 하나의 아미노산으로 번역되는 것을 고려하여, 표적 자리와 상기 표적 자리로부터 5' 방향으로 2번째 뉴클레오티드 및 3' 방향으로 2번째 뉴클레오티드 사이를 뎁스 분석 구간으로 결정할 수 있다. 도 6을 참조하여 예를 들면, 표적 자리로부터 5' 방향 및 3' 방향, 즉 ±2 번째 뉴클레오티드 각각에 맵핑된 리드의 뎁스를 함께 분석한다. 1번 염색체의 11168336 자리를 기준으로 5' 방향에 있는 11168334 및 11168335 자리에서의 뉴클레오티드에 맵핑된 리드의 뎁스와, 1번 염색체의 11168336 자리를 기준으로 3' 방향에 있는 11168337 및 11168338 자리에서의 뉴클레오티드에 맵핑된 리드의 뎁스를 분석하고, 다섯 자리에서의 뎁스의 평균을 표적 자리, 11168336 자리에서의 D_i으로 결정할 수 있다.

I_Di는 염색체의 i번째 표적 자리에 대한 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 뎁스의 평균(D_i)이 최소 뎁스(d) 이상일 때 1의 값을 갖고, 최소 뎁스(d) 미만일 때 0의 값을 갖는 지시 함수이다.

S_i는 염색체의 i번째 표적 자리에 대한 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 성분 편향(strand bias)이다. 상기 수학식 1에서, S_i는 상기의 수학식 2에 따라 산출된다. 수학식 2에 따르면, S_i는 i번째 표적 자리에 대한 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드 중에서, 정방향의 리드의 수와 역방향의 리드의 수의 차이를, i번째 표적 자리에 대한 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 총 수로 나눈 수치이다. 수학식 2에서 n은 괄호에 해당하는 리드의 수를 의미한다. 리드는 순방향 또는 역방향으로 정렬될 수 있고, 어느 하나의 방향으로 치우치지 않도록 정렬될 수 있다. 순방향의 리드의 수 및 역방향의 리드의 수가 같을수록, S_i는 0에 가까워진다. S_i가 0.9 미만의 조건을 만족하는 경우 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하는데 신뢰도가 향상된다. 이 때, S_i는 약 0.9 미만, 약 0.8 미만, 약 0.7 미만, 약 0.6 미만, 약 0.5 미만, 약 0.4 미만, 약 0.3 미만, 약 0.2 미만, 또는 약 0.1 미만일 수 있다. I_Si는, i번째 표적 자리에 대한 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 성분 편향(S_i)이 0.9 미만일 때 1의 값을 갖고, 0.9 이상일 때 0의 값을 갖는 지시 함수이다.

수학식 1에서 n은 총 표적 자리의 수이다.

d는 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하기 위해 요구되는 최소 뎁스를 의미한다. 상기 최소 뎁스(d)는 검출 민감도(detection sensitivity), 변이의 검출 한계(detection limit), 지지 리드(supporting read)의 수 또는 이들의 조합에 기초하여 결정될 수 있다.

용어 "변이의 검출 한계"는 검출할 수 있는 최소의, 변이의 유전자 빈도를 의미한다.

용어 "검출 민감도"는 변이 유전자가 존재하는지 여부를 판단함에 있어서 어떤 변이 유전자가 존재하는 상태에서 그 변이를 얼마나 잘 검출할 수 있는지를 의미한다.

용어 "지지 리드"는 해당 표적 자리에 변이를 포함하고 있는 리드를 의미한다.

변이의 대립유전자 빈도의 검출 한계 및 검출 민감도를 설정하고, 이에 기초하여 변이의 검출 한계를 지지하는 지지 리드의 수를 충분하게 확보하는 최소 뎁스를 결정할 수 있다. 이 때, 시료의 상태에 따라 변이의 대립유전자 빈도의 검출 한계를 달리 설정할 수 있음은 물론이다.

상기 단계(130)의 최소 뎁스(d)는 하기의 수학식 3에 따라 산출될 수 있다.

[수학식 3]

r은 지지 리드의 수이다. 목표하는 검출 민감도를 달성하기 위해 요구되는 지지 리드의 수일 수 있다.

α는 변이의 검출 한계이다.

총 n 개의 표적 자리에 대한 QC점수는, 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 뎁스의 평균(D_i) 기준과 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 성분 편향(S_i) 기준을 동시에 만족하는 표적 자리의 수, 즉 I_Di및 I_Si 각각이 1의 값을 만족하는 표적 자리의 수를 총 표적 자리의 수 n으로 나눈 값으로 정의한다. 총 표적 자리의 수에 대하여, 상기 뎁스의 평균(D_i) 기준과 성분 편향(S_i) 기준을 동시에 만족하는 표적 자리의 수의 비율이 높을수록, 상기 QC점수는 100에 가까울 수 있다. QC점수가 50인 경우, 총 표적 자리 가운데 절반만이, 상기 뎁스의 평균(D_i) 기준과 성분 편향(S_i) 기준을 동시에 만족하는 것을 의미할 수 있다.

변이 검출 표지의 신뢰도를 평가하는 단계(140)에서, 총 n개의 표적 자리에 대한 변이 검출 표지 중 신뢰성 있는 변이 검출 표지의 비율로부터 변이 검출 표지의 신뢰도를 평가할 수 있다. 즉, QC점수는 단일 뉴클레오티드 변이를 신뢰성 있게 검출할 수 있는 변이 검출 표지가, 총 n개의 표적 자리에 대한 변이 검출 표지 중 몇 %인지를 의미할 수 있다. 총 n 개의 표적 자리에 대한 QC점수가 100에 가까울수록, n개에 가까운 단일 뉴클레오티드 변이 검출 결과를 신뢰할 수 있는 것으로 평가할 수 있다.

종래 변이의 존재 여부를 판단하는 기술은, 연구의 측면에서 변이 유전자를 검출하는 것에 초점이 맞추어져 있다. 종래의 평균 뎁스(mean depth), 100x OnTarget Rate, Q30/FASTQ TotalBases(Gb) 등을 이용하는 경우, 특정 변이를 진단하기 위한 활용도가 낮은 문제가 있다. 임상에서 시퀀싱은 표적 자리가 정해져 있는 경우가 대부분이므로, 표적 자리의 뎁스를 해당 표적 자리에서의 변이 검출의 신뢰도를 판단하는 기준으로 활용하는 것이 진단에 보다 적합하다. 나아가, 임상적으로는 피검체의 변이 예측 자리로부터 변이 유전자가 검출되는 경우뿐만 아니라, 변이 유전자가 검출되지 않는 경우에도, 해당 변이 예측 자리의 뎁스를 파악하면 변이 유전자가 존재하지 않는 것인지, 리드가 부족하여 존재하는지 여부를 판단하지 못하는 것인지에 대한 정보를 제공할 수 있다.

다른 양상은, 피검 유전자를 포함하는 핵산 시료로부터 피검 유전자의 단일 뉴클레오티드 변이 예측 자리에 대하여 표적 시퀀싱을 수행하여 리드를 수득하는 시퀀싱부; 참조 유전체에 상기 리드를 맵핑하는 맵핑부; 참조 유전체에 정렬된 리드의 뎁스로부터 QC점수를 산출하는 QC점수 산출부; 및 산출된 QC점수에 따라 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 평가하는 신뢰도 평가부를 포함하는, 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하기 위한 장치를 제공한다.

도 2에 도시된 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하기 위한 장치(300)는 앞서 설명된 신뢰도를 결정하는 방법을 구현할 수 있다. 도 2에 도시된 구성요소 외에 다른 범용적인 구성요소들이 더 포함될 수 있다.

시퀀싱부(310)는 피검 유전자의 단일 뉴클레오티드 변이(SNV) 예측 자리를 포함하는 특정 영역에 대하여 표적 시퀀싱을 수행하여 리드를 수득할 수 있다. 예를 들면, 표적 딥 시퀀싱을 수행함으로써 단일 뉴클레오티드 변이(SNV) 예측 유전자들 각각에 대한 리드들을 획득할 수 있다.

상기 시료는 피검체의 생검 조직 또는 FFPE 조직으로부터 획득된 것일 수 있다. 상기 시료는 DNA 투입양에 기초하여 생검 조직으로부터 획득되거나, 또는 DNA 농도에 기초하여 FFPE 조직으로부터 획득될 수 있다.

맵핑부(320)는 각 리드들을 참조 유전체의 표적 자리에 정렬시켜 뎁스를 분석할 수 있다. 맵핑부(320)에서 생성된 뎁스 데이터는, 참조 유전체의 표적 자리에 대한 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 뎁스를 나타내는 데이터를 포함할 수 있다.

QC점수 산출부(330)는 상기 뎁스를 나타내는 데이터에 기초하여 QC점수를 산출할 수 있다. 상기 QC점수는 뎁스와 성분 편향, 표준 편차 또는 변동 계수 등을 고려할 수 있다. 산출부(330)에서 총 n 개의 표적 자리에 대한 QC점수는 하기의 수학식 1 및 2에 따라 산출될 수 있다.

[수학식 1]

[수학식 2]

앞서 설명된 바와 같이, 식 1에서 D_i는 염색체의 i번째 표적 자리에 대한 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 뎁스의 평균이고, I_Di는 지시 함수이다. D_i를 구하기 위하여, i번째 표적 자리와 인접하는 주변 자리의 뎁스를 고려할 수 있고, 참조 유전체의 표적 자리로부터 5' 방향으로 c번째 뉴클레오티드 및 3' 방향으로 c번째 뉴클레오티드 사이를 뎁스 분석 구간으로 결정하고, 상기 뎁스 분석 구간 내의 2c+1개의 뉴클레오티드 각각에 맵핑된 리드의 뎁스로부터, 이들의 평균을 계산할 수 있다. 이 평균값을 D_i으로 정의할 수 있다. 상기 c는 0 또는 자연수일 수 있다. 상기 c는 0 내지 10, 0 내지 7, 0 내지 5, 0 내지 3 또는 0 내지 2일 수 있다.

앞서 설명된 바와 같이, 식 1에서 S_i는 염색체의 i번째 표적 자리에 대한 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 성분 편향을 의미하고, I_Si는 지시 함수이다. 수학식 1에서 n은 총 표적 자리의 수이다. d는 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하기 위해 요구되는 최소 뎁스를 의미한다. 상기 최소 뎁스(d)는 검출 민감도, 변이의 검출 한계, 지지 리드의 수 또는 이들의 조합에 기초하여 결정될 수 있다.

상기 산출부(330)에서 최소 뎁스(d)는 하기의 수학식 3에 따라 산출될 수 있다.

[수학식 3]

앞서 설명된 바와 같이, r은 지지 리드의 수이고, α는 변이의 검출 한계이다.

앞서 설명된 바와 같이, 총 n 개의 표적 자리에 대한 QC점수는, 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 뎁스의 평균(D_i) 기준과 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 성분 편향(S_i) 기준을 동시에 만족하는 표적 자리의 수, 즉 I_Di 및 I_Si 각각이 1의 값을 만족하는 표적 자리의 수를 총 표적 자리의 수 n으로 나눈 값으로 정의한다.

신뢰도 평가부(340)는 총 n개의 표적 자리에 대한 변이 검출 표지 중 신뢰성 있는 변이 검출 표지의 비율로부터 변이 검출 표지의 신뢰도를 평가할 수 있다. 즉, QC점수는 단일 뉴클레오티드 변이를 신뢰성 있게 검출할 수 있는 변이 검출 표지가, 총 n개의 표적 자리에 대한 변이 검출 표지 중 몇 %인지를 의미할 수 있다. 총 n 개의 표적 자리에 대한 QC점수가 100에 가까울수록, n개에 가까운 단일 뉴클레오티드 변이 검출 결과를 신뢰할 수 있는 것으로 평가할 수 있다.

부가적으로, 상기 장치(300)는 출력부를 포함할 수 있다. 상기 출력부는 상기 변이 검출 표지의 신뢰도를 표시하는 디스플레이 장치가 될 수 있다. 상기 출력부는 상기 변이 검출 표지의 신뢰도를 QC점수, 등급, PASS 또는 FAIL의 2치 변수(binary variable), 이미지, 그래프 등으로 제시할 수 있다. 그 외 사용자가 상기 변이 검출 표지의 신뢰도를 표시할 수 있는 장치라면 어떠한 장치도 가능하다. 도 9를 참조하여 예를 들면, 단일 뉴클레오티드 변이 검출 표지(Y 또는 N 중 N만 표기됨)와 함께, 각각의 염색체 표적 자리, 각각의 표적 자리에 대한 뎁스 분석 구간 내의 5개의 뉴클레오티드에 맵핑된 리드의 뎁스의 평균, 상기 뎁스 분석 구간 내의 5개의 뉴클레오티드에 맵핑된 리드의 성분 편향, 변동 계수 및 표준 편차, 및 QC점수로부터 변이 검출 표지의 신뢰도를 평가하여 PASS 또는 FAIL(PASS 또는 FAIL 중 PASS만 표기됨)로 나타내는 파일 포맷을 제공할 수 있다.

단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하기 위한 장치(300)는 도 2에 따르면 시퀀싱부(310), 맵핑부(320), QC점수 산출부(330) 및 신뢰도 평가부(340)를 모두 포함하는 것으로 도시되어 있으나, 이에 한정하는 것은 아니다. 즉, 시퀀싱부(310), 맵핑부(320), QC점수 산출부(330) 및 신뢰도 평가부(340) 각각은 서로 독립된 장치의 전체 또는 독립된 장치의 일부의 구성이 될 수도 있고, 이들 중 복수개의 그룹이 하나의 독립된 장치의 전체 또는 독립된 장치의 일부의 구성이 될 수도 있으며, 각 구성은 전체로서 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하기 위한 장치(300)가 될 수 있다.

다른 양상은, 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하는 방법을 실행시키기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체를 제공한다.

상기 방법은 다양한 컴퓨터 수단을 통하여 판독 가능한 소프트웨어 형태로 구현되어 컴퓨터로 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 상기에 따른 방법을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 해당 분야의 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다. 예를 들면 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM, Random Access Memory), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 이러한 하드웨어 장치는 상기에 따른 방법의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

비록 본 명세서와 도면에서는 예시적인 장치 구성을 기술하고 있지만, 본 명세서에서 설명하는 기능적인 동작과 주제의 구현물들은 다른 유형의 디지털 전자 회로로 구현되거나, 본 명세서에서 개시하는 구조 및 그 구조적인 등가물들을 포함하는 컴퓨터 소프트웨어, 펌웨어 혹은 하드웨어로 구현되거나, 이들 중 하나 이상의 결합으로 구현 가능하다. 본 명세서에서 설명하는 주제의 구현물들은 하나 이상의 컴퓨터 프로그램 제품, 다시 말해 상기 방법에 따른 장치의 동작을 제어하기 위하여 혹은 이것에 의한 실행을 위하여 유형의 프로그램 저장매체 상에 인코딩된 컴퓨터 프로그램 명령에 관한 하나 이상의 모듈로서 구현될 수 있다. 컴퓨터로 판독 가능한 매체는 기계로 판독 가능한 저장 장치, 기계로 판독 가능한 저장 기판, 메모리 장치, 기계로 판독 가능한 전파형 신호에 영향을 미치는 물질의 조성물 혹은 이들 중 하나 이상의 조합일 수 있다.

상기 방법에 따른 장치에 탑재되고 상기 방법을 실행하는 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 어플리케이션, 스크립트 혹은 코드로도 알려져 있음)은 컴파일 되거나 해석된 언어나 선험적 혹은 절차적 언어를 포함하는 프로그래밍 언어의 어떠한 형태로도 작성될 수 있으며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루틴 혹은 컴퓨터 환경에서 사용하기에 적합한 다른 유닛을 포함하여 어떠한 형태로도 전개될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 반드시 대응하는 것은 아니다. 프로그램은 요청된 프로그램에 제공되는 단일 파일 내에, 혹은 다중의 상호 작용하는 파일(예컨대, 하나 이상의 모듈, 하위 프로그램 혹은 코드의 일부를 저장하는 파일) 내에, 혹은 다른 프로그램이나 데이터를 보유하는 파일의 일부(예컨대, 마크업 언어 문서 내에 저장되는 하나 이상의 스크립트) 내에 저장될 수 있다. 컴퓨터 프로그램은 하나의 사이트에 위치하거나 복수의 사이트에 걸쳐서 분산되어 통신 네트워크에 의해 상호 접속된 다중 컴퓨터나 하나의 컴퓨터 상에서 실행되도록 전개될 수 있다.

상기된 바에 따르면, 피검 유전자로부터 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하는데 있어서 변이 검출 결과에 신뢰도를 부여하고, 특히 종양 특이적인 유전자 변이를 검출하는데 유용하다.

도 1은 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하는 방법의 전반적인 흐름을 나타내는 도면이다.

도 2는 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하는 장치의 구성들을 도시한 도면이다.

도 3은 피검체로부터 수득된 피검 유전자들에 대한 표적 시퀀싱 및 맵핑을 수행하는 것을 나타내는 도면이다.

도 4는 최소 뎁스를 구하기 위하여 참조된, 변이의 검출 한계, 뎁스 및 검출 민감도를 나타내는 도면이다.

도 5는 염색체의 단일 뉴클레오티드 변이 리스트로부터 선정된 표적 자리를 나타내는 도면이다.

도 6은 일 표적 자리에 대한 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의, 뎁스의 평균(D_i) 및 성분 편향(S_i)을 분석한 결과를 나타내는 도면이다.

도 7은 1283개의 생검 샘플 및 1012개의 FFPE 샘플 각각의 유전자로부터 산출된 QC점수 및 평균 뎁스를 나타내는 도면이다.

도 8은 평균 뎁스 및 QC점수, 및 염색체 표적 자리에서의 뎁스를 나타내는 도면이다.

도 9는 단일 뉴클레오티드 변이 검출 표지 및 그의 신뢰도를 제시하는 도면이다.

도 10은 서로 다른 DNA 추출 키트를 사용하여 염색체 표적 자리 별로 뎁스를 나타내는 도면이다.

이하 본 발명을 실시예를 통하여 보다 상세하게 설명한다. 그러나, 이들 실시예는 본 발명을 예시적으로 설명하기 위한 것으로 본 발명의 범위가 이들 실시예에 한정되는 것은 아니다.

실시예 1. 검출 민감도 및 검출 한계에 따른 뎁스 결정

검출 한계에 따라 얼마나 많은 리드의 뎁스가 요구되는지 확인하기 위하여, MuTect이 제공하는 변이 검출기(variant caller)의 검출 한계 및 뎁스에 따른 검출 민감도 결과를 참조하였다. 목표하는 검출 민감도를 달성하기 위해 요구되는 지지 리드는 변이를 검출하는 검출기의 성능에 의해 결정될 수 있다. MuTect의 경우에는 10개의 지지 리드가 있는 경우, 99%의 검출 민감도로 변이 검출이 가능하다. 도 4를 참조하면, 변이의 검출 한계가 0.04 초과인 경우, 최소 10개의 지지 리드가 있어야 99%의 검출 민감도를 가질 수 있고, 변이의 검출 한계가 0.04 이하인 경우에도 대략 10개의 지지 리드가 있어야 99%의 검출 민감도를 가질 수 있다.

예를 들면, 생검 샘플은 변이의 검출 한계를 2%, FFPE 샘플은 샘플 상태가 상대적으로 양호하지 못한 점을 고려하여 변이의 검출 한계를 5%로 설정하였다. 식 3에 따라, 2%의 변이를 검출하려 하고, 검출기로 MuTect을 사용하는 경우, r=10, α=0.02로 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하기 위해 요구되는 최소 뎁스(d)는 500이 된다. 5%의 변이를 검출하려 하고, 검출기로 MuTect을 사용하는 경우, r=10, α=0.05로 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하기 위해 요구되는 최소 뎁스(d)는 200이 된다.

실시예 2. 단일 뉴클레오티드 변이( SNV ) 예측 자리 선정

표적 시퀀싱의 대상으로 FDA 승인 약물 표적 변이(FDA approved drug target mutation), My Cancer Genome, 또는 KFDA에 등재된 단일 뉴클레오티드 변이(SNV)를 조사하고, 중복되는 변이 자리를 제외하여 137개의 염색체 표적 자리를 선정하였다(도 5 참조).

실시예 3. 표적 시퀀싱

DNA 프렙 키트를 이용하여 인간의 1283개의 생검 샘플과 1012개의 FFPE 샘플로부터 gDNA를 추출한 후, 나노드롭(Nanodrop)과 Qubit 2.0 형광광도계(Fluorometer)를 이용하여 DNA 농도와 순도를 측정하였다. 이어서, 가이드라인에 따라 라이브러리를 제작하고, Illumina의 HiSeq 2500 시퀀싱 플랫폼 상에서 TruSeq Rapid PE Cluster 키트 및 TruSeq Rapid SBS 키트의 100bp 쌍-말단 모드(paired-end mode)를 사용하여 시퀀싱을 수행하였다.

실시예 4. QC점수 산출

시퀀싱된 리드의 데이터를 hg19 인간 참조 서열에 로컬 정렬(local alignment)하였다. 낮은 품질의 리드, 단일 뉴클레오티드 변이(SNV) 예측 자리를 포함하는 영역에서 벗어난 리드를 필터한 후, MuTect 1.1.4로 변이 유전자가 존재하는지 여부를 확인하여 변이 검출 표지를 수득하였다.

이 때, SAMTOOLS mpileup을 이용하여 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 뎁스를 구하였다. 변이 검출기에 들어가기 직전의 최종 BAM 파일을 사용하였다. 상기 식 1에 대입하여 QC점수를 산출하였다.

실시예 5. 신뢰도 평가 1

QC점수를 산출하여 단일 뉴클레오티드 변이를 신뢰성 있게 검출할 수 있는 변이 검출 표지가, 총 137개의 표적 자리 중 몇 %인지 평가하였다.

1283개의 생검 샘플과 1012개의 FFPE 샘플의, 평균 뎁스와 137개의 염색체 표적 자리에서의 QC점수를 확인하였다(표 1 참조). 평균 뎁스를 살펴보면, FFPE 샘플은 약 728, 생검 샘플은 약 954로, 검출 한계를 고려한 검출 민감도의 기준보다 훨씬 높은 수치를 나타내었다. 한편, QC점수의 평균을 살펴보면, FFPE 샘플은 약 92.7, 생검 샘플은 약 97.3을 나타내었다. 즉, FFPE 샘플에서 평균 7.3%, 생검 샘플에서 평균 2.7%의 변이 검출 표지는, 요구되는 뎁스 기준 및 성분 편향 기준에 미치지 못한다는 것을 확인하였다.

샘플 종류	N	평균 뎁스	QC점수
FFPE	1012	727.8 ±279.2	92.7±22.3
생검(FF)	1283	954.3 ±181.5	97.3±9.1

도 7을 참조하면, 전체 샘플 중 일부 샘플은 충분히 높은 평균 뎁스를 가짐에도 불구하고, 검출 한계를 충족하지 못하는 것을 알 수 있다. 특히, FFPE 샘플은 샘플의 품질이 생검 샘플에 비하여 상대적으로 낮기 때문에, 평균 뎁스가 높게 나타난 경우에도 QC점수는 아주 낮은 경우가 존재할 수 있다. 즉, QC점수는 평균 뎁스가 놓친 변이 검출 표지의 품질을 설명할 수 있다.

실시예 6. 신뢰도 평가 2

임의의 FFPE 샘플 2개를 선정하고 137개의 염색체 자리에서의 뎁스 평균 및 QC점수를 산출하였다. A 샘플의 경우 평균 뎁스는 324.1, QC점수는 100을 기록하였다. B 샘플의 경우 평균 뎁스는 634.4, QC점수는 45.26을 기록하였다. 도 8에 137개의 염색체 표적 자리 각각에서의 뎁스를 함께 도시하였다. A 샘플의 평균 뎁스는 B 샘플의 평균 뎁스보다 낮았으나, 뎁스의 분포가 고르며, 모든 표적 자리에서 뎁스 기준 및 성분 편향 기준을 충족한 것을 알 수 있다.

FFPE 샘플	평균 뎁스	QC점수
A 샘플	324.1	100
B 샘플	634.4	45.26

실시예 7. QC점수를 제어하는 요인 확인

QC점수를 활용하여, 표적 시퀀싱을 수행하기 전 QC점수에 영향을 미칠 수 있는 주요 요인들을 확인하였다. 편의상 QC점수를 binary하여 80을 기준으로 PASS 또는 FAIL로 구분하였다.

1012개의 FFPE 샘플에 대하여, PrePCR 후 Qubit의 DNA 농도가 26.5ng/㎕ 이상을 만족하는 713개의 FFPE 샘플 중에서 696개의 FFPE 샘플(97.6%)의 QC점수는 80 이상을 만족하였다. 또한, 상기 713개의 FFPE 샘플에 대하여, postPCR 후 몰농도(Molarity)가 3.92nM 초과를 만족하는 702개의 FFPE 샘플 중에서 668개의 FFPE 샘플(98%)의 QC점수는 80 이상을 만족하였다.

1012개의 FFPE 샘플에 대하여, PrePCR 후 Qubit의 DNA 농도가 26.5ng/㎕ 미만인 299개의 FFPE 샘플 중에서 212개의 FFPE 샘플(70.9%)의 QC점수는 80 이상을 만족하였다. 상기 299개의 FFPE 샘플에 대하여, 평균 라이브러리 크기가 274 초과를 만족하는 213개의 FFPE 샘플 중에서 184개의 FFPE 샘플의 QC점수는 80 이상을 만족하였다. 그러나, 상기 299개의 FFPE 샘플에 대하여, 평균 라이브러리 크기가 274 미만인 84개의 FFPE 샘플 가운데 26개의 FFPE 샘플의 QC점수만이 80을 만족하였다. 즉, FFPE 샘플은, 1차적으로 라이브러리 제작으로 생성된 DNA 농도, postPCR 후 DNA 몰농도 및 평균 라이브러리 크기를 제어하여 높은 QC점수를 수득할 수 있음을 알 수 있다.

1246개의 생검 샘플에 대하여, 혼성화 단계에서 투입된 DNA 양이 648.06ng 초과를 만족하는 1160개의 생검 샘플 중에서 1147개의 생검 샘플(98.9%)의 QC점수는 80 이상을 만족하였다. 생검 샘플은 혼성화 단계에서 투입된 DNA 양을 제어하여 높은 QC점수를 수득할 수 있음을 알 수 있다.

실시예 8. DNA 추출 키트의 품질 평가

2가지 종류의 DNA 추출 키트를 사용하여 동일한 FFPE 샘플로부터 DNA를 추출하고, 상기의 과정을 통해 평균 뎁스, Picard tool의 품질 항목(DNA 순도, GC농도 및 평균 라이브러리 크기) 및 QC점수 산출하였다.

키트 종류	DNA 순도(260/280 비율)	GC 농도(%)	평균 라이브러리 크기(bp)	평균 뎁스	QC점수
A키트	1.895±0.067	49.2±1.8	300.3±22.5	728±279	93.5±21.6
B키트	1.875±0.076	51.5±3.5	313.3±23.4	775±326	77.7±23.7

A 키트와 B 키트를 사용하여 DNA를 추출한 경우, 평균 뎁스와 Picard tool의 품질 항목에 유의성 있는 차이가 없는 것으로 나타나는 때에도, QC점수에 유의한 차이가 존재하는 것을 확인하였다.

도 10을 참조하여 염색체 표적 자리 별로 뎁스를 살펴보면, A 키트를 사용하여 DNA를 추출한 샘플은 B 키트를 사용하여 DNA를 추출한 샘플에 비하여, 뎁스의 분포가 고르며, 뎁스 기준을 더 많이 만족한 것을 알 수 있다.

부호의 설명

110 : 리드 수득 단계

120 : 맵핑 단계

130 : QC점수 산출 단계

140 : 신뢰도 평가 단계

300 : 신뢰도를 결정하기 위한 장치

310 : 시퀀싱부

320 : 맵핑부

330 : QC점수 산출부

340 : 신뢰도 평가부

400 : 피검체

410 : 생검 샘플

425 : FFPE 처리 샘플

430 : 참조 유전체에 정렬된 리드의 뎁스

1,2,3,4,5 : 뉴클레오티드

Claims

피검 유전자를 포함하는 핵산 시료로부터 피검 유전자의 단일 뉴클레오티드 변이(single nucleotide variant, SNV) 예측 자리에 대하여 표적 시퀀싱(targeted sequencing)을 수행하여 리드(read)를 수득하는 단계;

참조(reference) 유전체에 상기 리드를 맵핑(mapping)하고 참조 유전체에 정렬된 리드의 뎁스(depth)로부터 QC(Quality control)점수를 산출하는 단계; 및

산출된 QC점수에 따라 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 평가하는 단계를 포함하는, 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하는 방법.
청구항 1에 있어서, 상기 QC점수는, 참조 유전체의 표적 자리로부터 5' 방향으로 c번째 뉴클레오티드 및 3' 방향으로 c번째 뉴클레오티드 사이를 뎁스 분석 구간으로 결정하고, 상기 뎁스 분석 구간 내의 2c+1개의 뉴클레오티드 각각에 맵핑된 리드의 뎁스로부터 산출되는 것인 방법(c는 0 또는 자연수).
청구항 2에 있어서, 상기 c는 2인 것인 방법.
청구항 1에 있어서, 상기 QC점수는 하기의 수학식 1에 따라 산출되는 것인 방법:

[수학식 1]

식 중, D_i는 i번째 표적 자리에 대한 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 뎁스의 평균이고,

I_Di는 D_i가 d 이상일 때 1의 값을 갖고, D_i가 d 미만일 때 0의 값을 갖는 지시 함수이며,

S_i는 i번째 표적 자리에 대한 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 성분 편향이고,

I_Si는 S_i가 0.9 미만일 때 1의 값을 갖고, S_i가 0.9 이상일 때 0의 값을 갖는 지시 함수이며,

n은 총 표적 자리의 수이고,

d는 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하기 위해 요구되는 최소 뎁스이며,

상기 수학식 1에서, S_i는 하기의 수학식 2에 따라 산출된다

[수학식 2]

.
청구항 4에 있어서, 상기 최소 뎁스(d)는 검출 민감도(detection sensitivity), 변이의 검출 한계(detection limit), 지지 리드(supporting read)의 수 또는 이들의 조합으로부터 산출되는 것인 방법.
청구항 5에 있어서, 상기 최소 뎁스(d)는 하기의 수학식 3에 따라 산출되는 것인 방법:

[수학식 3]

식 중, r은 지지 리드의 수이고, α는 변이의 검출 한계이다.
청구항 1에 있어서, 상기 시료는 생검 조직 또는 포르말린-고정 파라핀-내장(Formalin-fixed, paraffin-embedded, FFPE) 조직으로부터 획득된 것인 방법.
청구항 7에 있어서, 상기 시료는 DNA 투입양에 기초하여 생검 조직으로부터 획득되거나, 또는 DNA 농도에 기초하여 FFPE 조직으로부터 획득된 것인 방법.
청구항 1에 있어서, 상기 신뢰도를 평가하는 단계는, 총 n개의 표적 자리에 대한 변이 검출 표지 중 신뢰성 있는 변이 검출 표지의 비율로부터 평가하는 방법.
청구항 1 내지 9 중 어느 하나의 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하는 방법을 실행시키기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체.
피검 유전자를 포함하는 핵산 시료로부터 피검 유전자의 단일 뉴클레오티드 변이 예측 자리에 대하여 표적 시퀀싱을 수행하여 리드를 수득하는 시퀀싱부;

참조 유전체에 상기 리드를 맵핑하는 맵핑부;

참조 유전체에 정렬된 리드의 뎁스로부터 QC점수를 산출하는 QC점수 산출부; 및

산출된 QC점수에 따라 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 평가하는 신뢰도 평가부를 포함하는, 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하기 위한 장치.
청구항 11에 있어서, 상기 QC점수는, 참조 유전체의 표적 자리로부터 5' 방향으로 c번째 뉴클레오티드 및 3' 방향으로 c번째 뉴클레오티드 사이를 뎁스 분석 구간으로 결정하고, 상기 뎁스 분석 구간 내의 2c+1개의 뉴클레오티드 각각에 맵핑된 리드의 뎁스로부터 산출되는 것인 장치(c는 0 또는 자연수).
청구항 12에 있어서, 상기 c는 2인 것인 장치.
청구항 11에 있어서, 상기 QC점수는 하기의 수학식 1에 따라 산출되는 것인 장치:

[수학식 1]

식 중, D_i는 i번째 표적 자리에 대한 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 뎁스의 평균이고,

I_Di는 D_i가 d 이상일 때 1의 값을 갖고, D_i가 d 미만일 때 0의 값을 갖는 지시 함수이며,

S_i는 i번째 표적 자리에 대한 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 성분 편향이고,

I_Si는 S_i가 0.9 미만일 때 1의 값을 갖고, S_i가 0.9 이상일 때 0의 값을 갖는 지시 함수이며,

n은 총 표적 자리의 수이고,

d는 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하기 위해 요구되는 최소 뎁스이며,

상기 수학식 1에서, S_i는 하기의 수학식 2에 따라 산출된다

[수학식 2]

.
청구항 14에 있어서, 상기 최소 뎁스(d)는 검출 민감도(detection sensitivity), 변이의 검출 한계(detection limit), 지지 리드(supporting read)의 수 또는 이들의 조합으로부터 산출되는 것인 장치.
청구항 15에 있어서, 상기 최소 뎁스(d)는 하기의 수학식 3에 따라 산출되는 것인 장치:

[수학식 3]

식 중, r은 지지 리드의 수이고, α는 변이의 검출 한계이다.
청구항 11에 있어서, 상기 시료는 생검 조직 또는 FFPE 조직으로부터 획득된 것인 장치.
청구항 17에 있어서, 상기 시료는 DNA 투입양에 기초하여 생검조직으로부터 획득되거나, 또는 DNA 농도에 기초하여 FFPE 조직으로부터 획득된 것인 장치.
청구항 11에 있어서, 상기 신뢰도를 평가부는, 총 n개의 표적 자리에 대한 변이 검출 표지 중 신뢰성 있는 변이 검출 표지의 비율로부터 평가하는 장치.