KR101882867B1 - 변이 검출 표지의 신뢰도 결정 방법 및 장치 - Google Patents

변이 검출 표지의 신뢰도 결정 방법 및 장치 Download PDF

Info

Publication number
KR101882867B1
KR101882867B1 KR1020160055771A KR20160055771A KR101882867B1 KR 101882867 B1 KR101882867 B1 KR 101882867B1 KR 1020160055771 A KR1020160055771 A KR 1020160055771A KR 20160055771 A KR20160055771 A KR 20160055771A KR 101882867 B1 KR101882867 B1 KR 101882867B1
Authority
KR
South Korea
Prior art keywords
depth
score
reliability
single nucleotide
lead
Prior art date
Application number
KR1020160055771A
Other languages
English (en)
Other versions
KR20170125278A (ko
Inventor
손대순
박동현
정종석
박웅양
Original Assignee
삼성전자주식회사
사회복지법인 삼성생명공익재단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사, 사회복지법인 삼성생명공익재단 filed Critical 삼성전자주식회사
Priority to KR1020160055771A priority Critical patent/KR101882867B1/ko
Priority to PCT/KR2016/009491 priority patent/WO2017191871A1/ko
Publication of KR20170125278A publication Critical patent/KR20170125278A/ko
Application granted granted Critical
Publication of KR101882867B1 publication Critical patent/KR101882867B1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • G06F19/22
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • G06F19/18
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Abstract

단일 뉴클레오티드 변이 검출 표지의 신뢰도를 정확하게 결정하는 방법 및 장치에 관한 것으로, 유전체의 표적 자리를 중심으로 리드의 뎁스에 기초하여 QC점수를 산출함으로써, 변이 검출 표지의 신뢰도를 결정할 수 있다.

Description

변이 검출 표지의 신뢰도 결정 방법 및 장치{Method and apparatus for determining the reliability of variant detection markers}
변이 검출 표지의 신뢰도 결정 방법 및 장치에 관한 것이다.
유전체(genome)란 한 생물이 가지는 모든 유전 정보를 말한다. 어느 한 개인의 유전체를 서열화(sequencing)하는 기술은 DNA 칩 및 차세대 시퀀싱(Next Generation Sequencing) 기술, 차차세대 시퀀싱(Next Next Generation Sequencing) 기술 등 여러 기술들이 개발되고 있다. 차세대 시퀀싱은 대규모 병렬 시퀀싱 또는 2세대 시퀀싱과 상호 교환적으로 사용될 수 있다.
뉴클레오티드 서열, 단백질 등과 같은 유전 정보들의 분석은 당뇨병, 암과 같은 질병을 발현시키는 유전자를 찾거나, 유전적 다양성과 개체의 발현 특성 간의 상관관계 등을 파악하기 위하여 폭넓게 활용된다. 특히, 개인으로부터 수집된 유전 데이터는 서로 다른 증상이나 질병의 진행과 관련된 개인의 유전적인 특징을 규명하는데 있어서 중요하다. 따라서, 개인의 뉴클레오티드 서열, 단백질 등과 같은 유전 데이터는 현재와 미래의 질병 관련 정보를 파악하여 질병을 예방하거나 질병의 초기 단계에서 최적의 치료 방법을 선택할 수 있도록 하는 핵심적인 데이터이다. 이러한 생물의 유전 정보들을 이용하여 질병과 관련된 SNV(Single Nucleotide Variant), CNV(Copy Number Variation), InDel(Insertion and Deletion), Translocation 등의 변이를 정확히 분석하고, 진단하는 기술들이 연구 중에 있다.
단일 뉴클레오티드 변이 검출 표지의 신뢰도를 정확하게 결정하는 방법에 관한 것이다.
단일 뉴클레오티드 변이 검출 표지의 신뢰도를 정확하게 결정하는 장치에 관한 것이다.
본 실시예들에서 사용되는 용어는 본 실시예들에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 기술분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 임의로 선정된 용어도 있으며, 이 경우 해당 실시예의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서, 본 실시예들에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 실시예들의 전반에 걸친 내용을 토대로 정의되어야 한다.
실시예들에 대한 설명들에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐 아니라, 그 중간에 다른 구성요소를 사이에 두고 전기적으로 연결되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 실시예들에 기재된 "...부", "...모듈"의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
본 실시예들에서 사용되는 "구성된다" 또는 "포함한다" 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 도는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.
하기 실시예들에 대한 설명은 권리범위를 제한하는 것으로 해석되지 말아야 하며, 해당 기술분야의 통상의 기술자가 용이하게 유추할 수 있는 것은 실시예들의 권리범위에 속하는 것으로 해석되어야 할 것이다. 이하 첨부된 도면들을 참조하면서 오로지 예시를 위한 실시예들을 상세히 설명하기로 한다.
일 양상은, 피검 유전자를 포함하는 핵산 시료로부터 피검 유전자의 단일 뉴클레오티드 변이(single nucleotide variant, SNV) 예측 자리에 대하여 표적 시퀀싱(targeted sequencing)을 수행하여 리드(read)를 수득하는 단계;
참조(reference) 유전체에 상기 리드를 맵핑(mapping)하고 참조 유전체에 정렬된 리드의 뎁스(depth)로부터 QC(Quality control)점수를 산출하는 단계; 및
산출된 QC점수에 따라 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 평가하는 단계를 포함하는, 단일 뉴클레오티드 변이 검출 표지의 신뢰도 결정 방법을 제공한다.
용어 "단일 뉴클레오티드 변이(single nucleotide variant, SNV)"는 상대적으로 큰 영역이 결손되거나 증폭되어 반복적으로 나타나는 유전자 내의 복제수 변이(copy number variant, CNV)와는 다르게 단일 뉴클레오티드의 치환 등을 의미한다.
용어 "QC"는 quality control 또는 품질관리와 동일한 의미로 혼용되어 사용될 수 있으며, 상기 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하는 실험 또는 진단에서 신뢰도 높은 결과를 얻기 위해서, 변이 검출 표지의 품질, 특히 변이 예측 자리에 대하여 리드의 뎁스가 충분하게 확보되었는지를 의미한다.
도 1은 단일 뉴클레오티드 변이 검출 표지의 신뢰도 결정 방법의 전반적인 흐름도이다. 도 1을 참고하면, 변이 검출 표지의 신뢰도 결정 방법은 단일 뉴클레오티드 변이 예측 자리에 대하여 표적 시퀀싱을 수행하여 리드를 수득하는 단계(110), 참조 유전체에 리드를 맵핑하는 단계(120), 참조 유전체에 정렬된 리드의 뎁스로부터 QC점수를 산출하는 단계(130), 변이 검출 표지의 신뢰도를 평가하는 단계(140)를 포함할 수 있다.
상기 단계(110)는, 피검 유전자의 단일 뉴클레오티드 변이(SNV) 예측 자리를 포함하는 특정 영역에 대하여 표적 시퀀싱(targeted sequencing)을 수행하여 리드를 수득한다.
상기 단계(110)에 의해 분석되는 핵산 시료는, 피검체의 생물학적 물질로부터 수득된 DNA, RNA 등을 포함할 수 있고, 공지의 DNA 또는 RNA 추출 방법에 의해 수득될 수 있다.
피검 유전자의 단일 뉴클레오티드 변이 예측 자리에 대하여 차세대 시퀀싱(next generation sequencing, NGS) 기반의 표적 시퀀싱(targeted sequencing) 또는 패널 시퀀싱(panel sequencing)을 수행할 수 있다. 보다 상세하게는, 표적 딥 시퀀싱(targeted deep sequencing)을 수행함으로써 단일 뉴클레오티드 변이(SNV) 예측 유전자들 각각에 대한 리드들을 획득한다.
용어 "표적 딥 시퀀싱"은 DNA 절편, RNA 절편 등과 같은 핵산들에 리드들을 반복적으로 정렬시킴으로써, DNA 절편, RNA 절편 등과 같은 핵산을 시퀀싱하는 기술이다.
용어 "리드"는 하나 이상의 핵산 단편의 서열 정보를 의미한다. 상기 리드는 약 10bp(염기쌍) 내지 약 2000bp, 약 15bp 내지 약 1500bp, 약 20bp 내지 약 1000bp, 약 20bp 내지 약 500bp 또는 약 20 내지 약 200bp 일 수 있다.
용어 "뎁스(depth)"는 용어 "리드의 뎁스(read-depth)"와 동일한 의미로 혼용되어 사용될 수 있으며, 리드의 두께 또는 깊이를 의미한다.
시퀀싱 수행 결과 FASTQ 파일 포맷의 유전자 데이터를 획득할 수 있다. FASTQ 포맷은 보통 핵산 서열과 같은 생물학적 서열과, 그에 대응되는 퀄리티 스코어를 저장하는 텍스트 기반 포맷(text-based format)이다. 다만, FASTQ 포맷에 제한되지 않고, 다른 포맷의 시퀀싱 데이터도 분석이 가능하다.
한편, 참조 유전체 또는 단일 뉴클레오티드 변이(SNV) 예측 자리는 NCBI(National Center for Biotechnology Information), GEO (Gene Expression Omnibus), FDA(Food and Drug Administration), My Cancer Genome, 또는 KFDA(식품의약품안전처) 등과 같은 당해 기술분야에서 이미 공지된 데이터베이스(DB)로부터 획득된 것일 수 있다. 즉, 참조 유전체는 공개 게놈 데이터 또는 공개 합맵(HapMap) 데이터로부터 획득된 것일 수 있다. 참조 유전체의 표적 자리와 피검 유전자의 단일 뉴클레오티드 변이(SNV) 예측 자리는, 예를 들면 동일한 엑손 자리 또는 인트론 자리일 수 있고, 동일한 넘버의 염색체 상에 동일한 서열 번호 자리일 수 있다.
상기 시료는 피검체의 생검 조직, 포르말린-고정 조직 또는 파라핀-내장(Formalin-fixed, paraffin-embedded: FFPE) 조직으로부터 획득된 것일 수 있다. 상기 시료는 DNA 투입양에 기초하여 생검 조직으로부터 획득되거나, 또는 DNA 농도에 기초하여 FFPE 조직으로부터 획득될 수 있다. 상기 생검 조직으로부터 획득된 시료는 혼성화 단계에서 사용하기 위해 투입된 DNA 양이 중요하며, 혼성화 단계에서 사용하기 위하여 DNA를 400ng 이상, 600ng 이상 또는 800ng 이상 투입할 수 있다. FFPE 조직으로부터 획득된 시료는 DNA 농도가 중요하며, 10ng/μl, 20ng/μl 또는 30ng/μl 이상 일 수 있다. 상기 범위에서, 리드의 뎁스가 충분하게 확보되어, 단일 뉴클레오티드 변이 검출 표지의 신뢰도가 향상될 수 있다.
참조 유전체에 리드를 맵핑하는 단계(120)에서 각 리드들을 참조 유전체의 표적 자리에 정렬시켜 맵핑한다. 참조 유전체에서 하나의 게놈 위치에만 맵핑되는 서열 정보를 고유한 서열 정보로 지정할 수 있다. 지정된 고유한 서열 번호를 기준으로 리드를 염색체의 위치에 지정할 수 있다. 상기 맵핑은 리드 전체 서열을 참조 유전체의 표적 자리 중 가장 유사한 부분에 위치시킬 수 있고(글로벌 정렬, Global alignment), 또는 리드 일부 서열을 참조 유전체의 표적 자리 중 가장 유사한 부분 위치시킬 수 있다(로컬 정렬, Local alignment). 결국, 상기 단계(120)에 의해 생성된 뎁스 데이터는, 참조 유전체의 표적 자리 각각의 핵산에 맵핑된 리드의 뎁스를 나타내는 데이터를 포함할 수 있다.
도 3은 피검체(400)의 생검 샘플(410) 또는 FFPE 처리 샘플(425)을 표적 시퀀싱하고, 염색체 표적 자리 각각의 핵산(1,2,3,4 또는 5)에 정렬된 리드의 뎁스(430)를 설명하기 위한 도면이다. 도 1의 단계(120)에서 수행되는 방법과 관련된 것일 수 있다.
QC점수를 산출하는 단계(130)는 상기 뎁스를 나타내는 데이터에 기초하여 QC점수(품질관리점수, Quality control score)를 산출한다. QC점수는 뎁스와 성분 편향(Strand bias), 표준 편차(standard deviation) 또는 변동 계수(coefficient of variation) 등을 고려할 수 있다. 상기 단계(130)에서, 총 n 개의 표적 자리에 대하여, QC점수는 하기의 수학식 1 및 2에 따라 산출될 수 있다.
[수학식 1]
Figure 112016043512343-pat00001
[수학식 2]
Figure 112016043512343-pat00002
.
식 1에서, D i 는 염색체의 i번째 표적 자리에 대한 뎁스 분석 구간 내의 각각의 핵산에 맵핑된 리드의 뎁스의 평균을 의미한다. D i 을 구하기 위하여, i번째 표적 자리와 인접하는 주변 자리의 뎁스를 고려할 수 있고, 참조 유전체의 표적 자리로부터 5' 방향으로 c번째 위치의 핵산 및 3' 방향으로 c번째 위치의 핵산까지 뎁스 분석 구간으로 결정하고, 상기 뎁스 분석 구간 내의 2c+1개의 각각의 핵산에 맵핑된 리드의 뎁스로부터, 이들의 평균을 계산할 수 있다. 이 평균값을 D i 으로 정의할 수 있다. 상기 c는 0 또는 자연수일 수 있다. 상기 c는 0 내지 10, 0 내지 7, 0 내지 5, 0 내지 3 또는 0 내지 2일 수 있다. 예를 들면, 3개의 코돈이 하나의 아미노산으로 번역되는 것을 고려하여, 표적 자리와 상기 표적 자리로부터 5' 방향으로 2번째 위치의 핵산 및 3' 방향으로 2번째 위치의 핵산까지 뎁스 분석 구간으로 결정할 수 있다. 도 6을 참조하여 예를 들면, 표적 자리로부터 5' 방향 및 3' 방향, 즉 ±2 번째 위치의 각각의 핵산에 맵핑된 리드의 뎁스를 함께 분석한다. 1번 염색체의 11168336 자리를 기준으로 5' 방향에 있는 11168334 및 11168335 자리에서의 핵산에 맵핑된 리드의 뎁스와, 1번 염색체의 11168336 자리를 기준으로 3' 방향에 있는 11168337 및 11168338 자리에서의 핵산에 맵핑된 리드의 뎁스를 분석하고, 다섯 자리에서의 뎁스의 평균을 표적 자리, 11168336 자리에서의 D i 으로 결정할 수 있다.
I Di 는 염색체의 i번째 표적 자리에 대한 뎁스 분석 구간 내의 각각의 핵산에 맵핑된 리드의 뎁스의 평균(D i )이 최소 뎁스(d) 이상일 때 1의 값을 갖고, 최소 뎁스(d) 미만일 때 0의 값을 갖는 지시 함수이다.
S i 는 염색체의 i번째 표적 자리에 대한 뎁스 분석 구간 내의 각각의 핵산에 맵핑된 리드의 성분 편향 (strand bias)이다. 상기 수학식 1에서, S i 는 상기의 수학식 2에 따라 산출된다. 리드는 순방향 또는 역방향으로 정렬될 수 있고, 어느 하나의 방향으로 치우치지 않도록 정렬될 수 있다. 순방향의 리드의 수 및 역방향의 리드의 수가 같을수록, 0에 가까워진다. 예를 들면, S i 가 0.9 미만의 조건을 만족하는 경우 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하는데 신뢰도가 향상된다. I Si 는, 뎁스 분석 구간 내의 각각의 핵산에 맵핑된 리드의 성분 편향(S i )이 0.9 미만일 때 1의 값을 갖고, 0.9 이상일 때 0의 값을 갖는 지시 함수이다.
n은 총 표적 자리의 수이다.
d는 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하기 위해 요구되는 최소 뎁스를 의미한다. 상기 최소 뎁스(d)는 검출 민감도(detection sensitivity), 변이의 검출 한계(detection limit), 지지 리드(supporting read)의 수 또는 이들의 조합에 기초하여 결정될 수 있다.
용어 "변이의 검출 한계"는 검출할 수 있는 최소의, 변이의 유전자 빈도를 의미한다.
용어 "검출 민감도"는 변이 유전자가 존재하는지 여부를 판단함에 있어서 어떤 변이 유전자가 존재하는 상태에서 그 변이를 얼마나 잘 검출할 수 있는지를 의미한다.
용어 "지지 리드"는 해당 표적 자리에 변이를 포함하고 있는 리드를 의미한다.
변이의 대립유전자 빈도의 검출 한계 및 검출 민감도를 설정하고, 이에 기초하여 변이의 검출 한계를 지지하는 지지 리드의 수를 충분하게 확보하는 최소 뎁스를 결정할 수 있다. 이 때, 시료의 상태에 따라 변이의 대립유전자 빈도의 검출 한계를 달리 설정할 수 있음은 물론이다.
상기 단계(130)의 최소 뎁스(d)는 하기의 수학식 3에 따라 산출될 수 있다.
[수학식 3]
Figure 112016043512343-pat00003
r은 지지 리드의 수이다. 목표하는 검출 민감도를 달성하기 위해 요구되는 지지 리드의 수일 수 있다.
α는 변이의 검출 한계이다.
총 n 개의 표적 자리에 대한 QC점수는, 뎁스 분석 구간 내의 각각의 핵산에 맵핑된 리드의 뎁스의 평균(D i )과 뎁스 분석 구간 내의 각각의 핵산에 맵핑된 리드의 성분 편향(S i ) 기준을 동시에 만족하는 표적 자리의 수, 즉 I Di 및 I Si 각각이 1의 값을 만족하는 표적 자리의 수를 총 표적 자리의 수 n으로 나눈 값으로 정의한다. 총 표적 자리의 수에 대하여, 상기 뎁스의 평균(D i )과 성분 편향(S i ) 기준을 동시에 만족하는 표적 자리의 수의 비율이 높을수록, 상기 QC점수는 100에 가까울 수 있다. QC점수가 50인 경우 총 표적 자리 가운데 절반만이, 상기 뎁스의 평균(D i )과 성분 편향(S i ) 기준을 동시에 만족하는 것을 의미할 수 있다.
변이 검출 표지의 신뢰도를 평가하는 단계(140)에서, 총 n개의 표적 자리에 대한 변이 검출 표지 중 신뢰성 있는 변이 검출 표지의 비율로부터 변이 검출 표지의 신뢰도를 평가할 수 있다. 즉, QC점수는 단일 뉴클레오티드 변이를 신뢰성 있게 검출할 수 있는 변이 검출 표지가, 총 n개의 표적 자리에 대한 변이 검출 표지 중 몇 %인지를 의미할 수 있다. 총 n 개의 표적 자리에 대한 QC점수가 100에 가까울수록, n개에 가까운 단일 뉴클레오티드 변이 검출 결과를 신뢰할 수 있는 것으로 평가할 수 있다.
종래 변이의 존재 여부를 판단하는 기술은, 연구의 측면에서 변이 유전자를 검출하는 것에 초점이 맞추어져 있다. 종래의 평균 뎁스(mean depth), 100x OnTarget Rate, Q30/FASTQ TotalBases(Gb) 등을 이용하는 경우, 특정 변이를 진단하기 위한 활용도가 낮은 문제가 있다. 임상에서 시퀀싱은 표적 자리가 정해져 있는 경우가 대부분이므로, 표적 자리의 뎁스를 해당 표적 자리에서의 변이 검출의 신뢰도를 판단하는 기준으로 활용하는 것이 진단에 보다 적합하다. 나아가, 임상적으로는 피검체의 변이 예측 자리로부터 변이 유전자가 검출되는 경우뿐만 아니라, 변이 유전자가 검출되지 않는 경우에도, 해당 변이 예측 자리의 뎁스를 파악하면 변이 유전자가 존재하지 않는 것인지, 리드가 부족하여 존재하는지 여부를 판단하지 못하는 것인지에 대한 정보를 제공할 수 있다.
다른 양상은, 피검 유전자를 포함하는 핵산 시료로부터 피검 유전자의 단일 뉴클레오티드 변이 예측 자리에 대하여 표적 시퀀싱을 수행하여 리드를 수득하는 시퀀싱부;
참조 유전체에 상기 리드를 맵핑하는 맵핑부;
참조 유전체에 정렬된 리드의 뎁스로부터 QC점수를 산출하는 QC점수 산출부; 및
산출된 QC점수에 따라 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 평가하는 신뢰도 평가부를 포함하는, 단일 뉴클레오티드 변이 검출 표지의 신뢰도 결정 장치를 제공한다.
도 2에 도시된 단일 뉴클레오티드 변이 검출 표지의 신뢰도 결정 장치(300)는 앞서 설명된 신뢰도 결정 방법을 구현한다. 상기 장치는 컴퓨터 판독 매체 또는 이를 포함하는 시스템을 포괄한다. 도 2에 도시된 구성요소 외에 다른 범용적인 구성요소들이 더 포함될 수 있다.
시퀀싱부(310)는 피검 유전자의 단일 뉴클레오티드 변이(SNV) 예측 자리를 포함하는 특정 영역에 대하여 표적 시퀀싱을 수행하여 리드를 수득한다. 예를 들면, 표적 딥 시퀀싱을 수행함으로써 단일 뉴클레오티드 변이(SNV) 예측 유전자들 각각에 대한 리드들을 획득한다.
상기 시료는 피검체의 생검 조직 또는 FFPE 조직으로부터 획득된 것일 수 있다. 상기 시료는 DNA 투입양에 기초하여 생검 조직으로부터 획득되거나, 또는 DNA 농도에 기초하여 FFPE 조직으로부터 획득될 수 있다.
맵핑부(320)는 각 리드들을 참조 유전체의 표적 자리에 정렬시켜 뎁스를 분석한다. 맵핑부(320)에서 생성된 뎁스 데이터는, 참조 유전체의 표적 자리 각각의 핵산에 맵핑된 리드의 뎁스를 나타내는 데이터를 포함할 수 있다.
QC점수 산출부(330)는 상기 뎁스를 나타내는 데이터에 기초하여 QC점수를 산출한다. QC점수는 뎁스와 성분 편향, 표준 편차 또는 변동 계수 등을 고려할 수 있다. 산출부(330)에서 총 n 개의 표적 자리에 대한 QC점수는 하기의 수학식 1 및 2에 따라 산출될 수 있다.
[수학식 1]
Figure 112016043512343-pat00004
[수학식 2]
Figure 112016043512343-pat00005
.
앞서 설명된 바와 같이, 식 1에서 D i 는 염색체의 i번째 표적 자리에 대한 뎁스 분석 구간 내의 각각의 핵산에 맵핑된 리드의 뎁스의 평균이고, I Di 는 지시 함수이다. D i 을 구하기 위하여, i번째 표적 자리와 인접하는 주변 자리의 뎁스를 고려할 수 있고, 참조 유전체의 표적 자리로부터 5' 방향으로 c번째 위치의 핵산 및 3' 방향으로 c번째 위치의 핵산까지 뎁스 분석 구간으로 결정하고, 상기 뎁스 분석 구간 내의 2c+1개의 각각의 핵산에 맵핑된 리드의 뎁스로부터, 이들의 평균을 계산할 수 있다. 이 평균값을 D i 으로 정의할 수 있다. 상기 c는 0 또는 자연수일 수 있다. 상기 c는 0 내지 10, 0 내지 7, 0 내지 5, 0 내지 3 또는 0 내지 2일 수 있다.
앞서 설명된 바와 같이, 식 1에서 S i 는 염색체의 i번째 표적 자리에 대한 뎁스 분석 구간 내의 각각의 핵산에 맵핑된 리드의 성분 편향을 의미하고, I Si 는 지시 함수이다. n은 총 표적 자리의 수이다. d는 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하기 위해 요구되는 최소 뎁스를 의미한다. 상기 최소 뎁스(d)는 검출 민감도, 변이의 검출 한계, 지지 리드의 수 또는 이들의 조합에 기초하여 결정될 수 있다.
상기 산출부(330)에서 최소 뎁스(d)는 하기의 수학식 3에 따라 산출될 수 있다.
[수학식 3]
Figure 112016043512343-pat00006
앞서 설명된 바와 같이, r은 지지 리드의 수이고, α는 변이의 검출 한계이다.
앞서 설명된 바와 같이, 총 n 개의 표적 자리에 대한 QC점수는, 뎁스 분석 구간 내의 각각의 핵산에 맵핑된 리드의 뎁스의 평균(D i )과 뎁스 분석 구간 내의 각각의 핵산에 맵핑된 리드의 성분 편향(S i ) 기준을 동시에 만족하는 표적 자리의 수, 즉 I Di 및 I Si 각각이 1의 값을 만족하는 표적 자리의 수를 총 표적 자리의 수 n으로 나눈 값으로 정의한다.
신뢰도 평가부(340)는 총 n개의 표적 자리에 대한 변이 검출 표지 중 신뢰성 있는 변이 검출 표지의 비율로부터 변이 검출 표지의 신뢰도를 평가할 수 있다. 즉, QC점수는 단일 뉴클레오티드 변이를 신뢰성 있게 검출할 수 있는 변이 검출 표지가, 총 n개의 표적 자리에 대한 변이 검출 표지 중 몇 %인지를 의미할 수 있다. 총 n 개의 표적 자리에 대한 QC점수가 100에 가까울수록, n개에 가까운 단일 뉴클레오티드 변이 검출 결과를 신뢰할 수 있는 것으로 평가할 수 있다.
부가적으로, 상기 장치(300)는 출력부를 포함할 수 있다. 상기 출력부는 상기 변이 검출 표지의 신뢰도를 표시하는 디스플레이 장치가 될 수 있다. 상기 출력부는 상기 변이 검출 표지의 신뢰도를 QC점수, 등급, PASS 또는 FAIL의 2치 변수(binary variable), 이미지, 그래프 등으로 제시할 수 있다. 그 외 사용자가 상기 변이 검출 표지의 신뢰도를 표시할 수 있는 장치라면 어떠한 장치도 가능하다. 도 9를 참조하여 예를 들면, 단일 뉴클레오티드 변이 검출 표지(Y 또는 N 중 N만 표기됨)와 함께, 각각의 염색체 표적 자리, 각각의 표적 자리에 대한 뎁스 분석 구간 내의 5개의 핵산에 맵핑된 리드의 뎁스의 평균, 상기 뎁스 분석 구간 내의 5개의 핵산에 맵핑된 리드의 성분 편향, 변동 계수 및 표준 편차, 및 QC점수로부터 변이 검출 표지의 신뢰도를 평가하여 PASS 또는 FAIL(PASS 또는 FAIL 중 PASS만 표기됨)로 나타내는 파일 포맷을 제공할 수 있다.
단일 뉴클레오티드 변이 검출 표지의 신뢰도 결정 장치(300)는 도 2에 따르면 시퀀싱부(310), 맵핑부(320), QC점수 산출부(330) 및 신뢰도 평가부(340)를 모두 포함하는 것으로 도시되어 있으나, 이에 한정하는 것은 아니다. 즉, 시퀀싱부(310), 맵핑부(320), QC점수 산출부(330) 및 신뢰도 평가부(340) 각각은 서로 독립된 장치의 전체 또는 독립된 장치의 일부의 구성이 될 수도 있고, 이들 중 복수개의 그룹이 하나의 독립된 장치의 전체 또는 독립된 장치의 일부의 구성이 될 수도 있으며, 각 구성은 전체로서 단일 뉴클레오티드 변이 검출 표지의 신뢰도 결정 장치(300)가 될 수 있다.
다른 양상은, 단일 뉴클레오티드 변이 검출 표지의 신뢰도 결정 방법을 실행시키기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체를 제공한다.
상기 방법은 다양한 컴퓨터 수단을 통하여 판독 가능한 소프트웨어 형태로 구현되어 컴퓨터로 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 상기에 따른 방법을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 해당 분야의 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다.
예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM, Random Access Memory), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 이러한 하드웨어 장치는 상기에 따른 방법의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
비록 본 명세서와 도면에서는 예시적인 장치 구성을 기술하고 있지만, 본 명세서에서 설명하는 기능적인 동작과 주제의 구현물들은 다른 유형의 디지털 전자 회로로 구현되거나, 본 명세서에서 개시하는 구조 및 그 구조적인 등가물들을 포함하는 컴퓨터 소프트웨어, 펌웨어 혹은 하드웨어로 구현되거나, 이들 중 하나 이상의 결합으로 구현 가능하다. 본 명세서에서 설명하는 주제의 구현물들은 하나 이상의 컴퓨터 프로그램 제품, 다시 말해 상기 방법에 따른 장치의 동작을 제어하기 위하여 혹은 이것에 의한 실행을 위하여 유형의 프로그램 저장매체 상에 인코딩된 컴퓨터 프로그램 명령에 관한 하나 이상의 모듈로서 구현될 수 있다. 컴퓨터로 판독 가능한 매체는 기계로 판독 가능한 저장 장치, 기계로 판독 가능한 저장 기판, 메모리 장치, 기계로 판독 가능한 전파형 신호에 영향을 미치는 물질의 조성물 혹은 이들 중 하나 이상의 조합일 수 있다.
상기 방법에 따른 장치에 탑재되고 상기 방법을 실행하는 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 어플리케이션, 스크립트 혹은 코드로도 알려져 있음)은 컴파일 되거나 해석된 언어나 선험적 혹은 절차적 언어를 포함하는 프로그래밍 언어의 어떠한 형태로도 작성될 수 있으며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루틴 혹은 컴퓨터 환경에서 사용하기에 적합한 다른 유닛을 포함하여 어떠한 형태로도 전개될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 반드시 대응하는 것은 아니다. 프로그램은 요청된 프로그램에 제공되는 단일 파일 내에, 혹은 다중의 상호 작용하는 파일(예컨대, 하나 이상의 모듈, 하위 프로그램 혹은 코드의 일부를 저장하는 파일) 내에, 혹은 다른 프로그램이나 데이터를 보유하는 파일의 일부(예컨대, 마크업 언어 문서 내에 저장되는 하나 이상의 스크립트) 내에 저장될 수 있다. 컴퓨터 프로그램은 하나의 사이트에 위치하거나 복수의 사이트에 걸쳐서 분산되어 통신 네트워크에 의해 상호 접속된 다중 컴퓨터나 하나의 컴퓨터 상에서 실행되도록 전개될 수 있다.
상기된 바에 따르면, 피검 유전자로부터 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하는데 있어서 변이 검출 결과에 신뢰도를 부여하고, 특히 종양 특이적인 유전자 변이를 검출하는데 유용하다.
도 1은 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하는 방법의 전반적인 흐름을 나타내는 도면이다.
도 2는 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하는 장치의 구성들을 도시한 도면이다.
도 3은 피검체로부터 수득된 피검 유전자들에 대한 표적 시퀀싱 및 맵핑을 수행하는 것을 나타내는 도면이다.
도 4는 최소 뎁스를 구하기 위하여 참조된, 변이의 검출 한계, 뎁스 및 검출 민감도를 나타내는 도면이다.
도 5는 염색체의 단일 뉴클레오티드 변이 리스트로부터 선정된 표적 자리를 나타내는 도면이다.
도 6은 일 표적 자리에 대한 뎁스 분석 구간 내의 각각의 핵산에 맵핑된 리드의, 뎁스의 평균(D i ) 및 성분 편향(S i )을 분석한 결과를 나타내는 도면이다.
도 7은 1283개의 생검 샘플 및 1012개의 FFPE 샘플 각각의 유전자로부터 산출된 QC점수 및 평균 뎁스를 나타내는 도면이다.
도 8은 평균 뎁스 및 QC점수, 및 염색체 표적 자리에서의 뎁스를 나타내는 도면이다.
도 9는 단일 뉴클레오티드 변이 검출 표지 및 그의 신뢰도를 제시하는 도면이다.
도 10은 서로 다른 DNA 추출 키트를 사용하여 염색체 표적 자리 별로 뎁스를 나타내는 도면이다.
이하 본 발명을 실시예를 통하여 보다 상세하게 설명한다. 그러나, 이들 실시예는 본 발명을 예시적으로 설명하기 위한 것으로 본 발명의 범위가 이들 실시예에 한정되는 것은 아니다.
<검출 민감도 및 검출 한계에 따른 뎁스 결정>
검출 한계에 따라 얼마나 많은 리드의 뎁스가 요구되는지 확인하기 위하여, MuTect이 제공하는 변이 검출기(variant caller)의 검출 한계 및 뎁스에 따른 검출 민감도 결과를 참조하였다. 목표하는 검출 민감도를 달성하기 위해 요구되는 지지 리드는 변이를 검출하는 검출기의 성능에 의해 결정될 수 있다. MuTect의 경우에는 10개의 지지 리드가 있는 경우, 99%의 검출 민감도로 변이 검출이 가능하다. 도 4를 참조하면, 변이의 검출 한계가 0.04 초과인 경우, 최소 10개의 지지 리드가 있어야 99%의 검출 민감도를 가질 수 있고, 이 변이의 검출 한계가 0.04 이하인 경우에도 대략 10개의 지지 리드가 있어야 99%의 검출 민감도를 가질 수 있다.
예를 들면, 생검 샘플은 변이의 검출 한계를 2%, FFPE 샘플은 샘플 상태가 상대적으로 양호하지 못한 점을 고려하여 변이의 검출 한계를 5%로 설정하였다. 식 3에 따라, 2%의 변이를 검출하려 하고, 검출기로 MuTect을 사용하는 경우, r=10, α=0.02로 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하기 위해 요구되는 최소 뎁스(d)는 500이 된다. 5%의 변이를 검출하려 하고, 검출기로 MuTect을 사용하는 경우, r=10, α=0.05로 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하기 위해 요구되는 최소 뎁스(d)는 200이 된다.
<단일 뉴클레오티드 변이( SNV ) 예측 자리 선정>
표적 시퀀싱의 대상으로 FDA 승인 약물 표적 변이(FDA approved drug target mutation), My Cancer Genome, 또는 KFDA에 등재된 단일 뉴클레오티드 변이(SNV)를 조사하고, 중복되는 변이 자리를 제외하여 137개의 염색체 표적 자리를 선정하였다(도 5 참조).
<표적 시퀀싱>
DNA 프렙 키트를 이용하여 인간의 1283개의 생검 샘플과 1012개의 FFPE 샘플로부터 gDNA를 추출한 후, 나노드롭(Nanodrop)과 Qubit 2.0 형광광도계(Fluorometer)를 이용하여 DNA 농도와 순도를 측정하였다. 이어서, 가이드라인에 따라 라이브러리를 제작하고, Illumina의 HiSeq 2500 시퀀싱 플랫폼 상에서 TruSeq Rapid PE Cluster 키트 및 TruSeq Rapid SBS 키트의 100bp 쌍-말단 모드(paired-end mode)를 사용하여 시퀀싱을 수행하였다.
< QC점수 산출>
시퀀싱된 리드의 데이터를 hg19 인간 참조 서열에 로컬 정렬(local alignment)하였다. 낮은 품질의 리드, 단일 뉴클레오티드 변이(SNV) 예측 자리를 포함하는 영역에서 벗어난 리드를 필터한 후, MuTect 1.1.4로 변이 유전자가 존재하는지 여부를 확인하여 변이 검출 표지를 수득하였다.
이 때, SAMTOOLS mpileup을 이용하여 뎁스 분석 구간 내의 각각의 핵산에 맵핑된 리드의 뎁스를 구하였다. 변이 검출기에 들어가기 직전의 최종 BAM 파일을 사용하였다. 상기 식 1에 대입하여 QC점수를 산출하였다.
<신뢰도 평가 1>
QC점수를 산출하여 단일 뉴클레오티드 변이를 신뢰성 있게 검출할 수 있는 변이 검출 표지가, 총 137개의 표적 자리 중 몇 %인지 평가하였다.
1283개의 생검 샘플과 1012개의 FFPE 샘플의 평균 뎁스와 137개의 염색체 표적 자리에서의 QC점수를 확인하였다(표 1 참조). 평균 뎁스를 살펴보면, FFPE 샘플은 약 728, 생검 샘플은 약 954로, 검출 한계를 고려한 검출 민감도의 기준보다 훨씬 높은 수치를 나타내었다. 한편, QC점수를 살펴보면, FFPE 샘플은 약 92.7, 생검 샘플은 약 97.3을 나타내었다. 즉, FFPE 샘플에서 평균 7.3%, 생검 샘플에서 평균 2.7%의 변이 검출 표지는, 요구되는 최소 뎁스 기준에 미치지 못한다는 것을 확인하였다.
샘플 종류 N 평균 뎁스 QC점수
FFPE 1012 727.8 ±279.2 92.7±22.3
생검(FF) 1283 954.3 ±181.5 97.3±9.1
도 7을 참조하면, 전체 샘플 중 일부 샘플은 충분히 높은 평균 뎁스를 가짐에도 불구하고, 검출 한계를 충족하지 못하는 것을 알 수 있다. 특히, FFPE 샘플은 샘플의 품질이 생검 샘플에 비하여 상대적으로 낮기 때문에, 평균 뎁스가 높게 나타난 경우에도 QC점수는 아주 낮은 경우가 존재할 수 있다. 즉, QC점수는 평균 뎁스가 놓친 변이 검출 표지의 품질을 설명할 수 있다.
<신뢰도 평가 2>
임의의 FFPE 샘플 2개를 선정하고 137개의 염색체 자리에서의 뎁스 평균 및 QC점수를 산출하였다. A 샘플의 경우 평균 뎁스는 324.1, QC점수는 100을 기록하였다. B 샘플의 경우 평균 뎁스는 634.4, QC점수는 45.26을 기록하였다. 도 8에 137개의 염색체 표적 자리 각각에서의 뎁스를 함께 도시하였다. A 샘플의 평균 뎁스는 B 샘플의 평균 뎁스보다 낮았으나, 뎁스의 분포가 고르며, 모든 표적 자리에서 최소 뎁스 기준을 충족한 것을 알 수 있다.
FFPE 샘플 평균 뎁스 QC점수
A 샘플 324.1 100
B 샘플 634.4 45.26
< QC점수를 제어하는 요인 확인>
QC점수를 활용하여, 표적 시퀀싱을 수행하기 전 QC점수에 영향을 미칠 수 있는 주요 요인들을 확인하였다. 편의상 QC점수를 binary하여 80을 기준으로 PASS 또는 FAIL로 구분하였다.
1012개의 FFPE 샘플에 대하여, PrePCR 후 Qubit의 DNA 농도가 26.5ng/μl 이상을 만족하는 713개의 FFPE 샘플 중에서 696개의 FFPE 샘플(97.6%)의 QC점수는 80 이상을 만족하였다. 또한, 상기 713개의 FFPE 샘플에 대하여, postPCR 후 몰농도(Molarity)가 3.92nM 초과를 만족하는 702개의 FFPE 샘플 중에서 668개의 FFPE 샘플(98%)의 QC점수는 80 이상을 만족하였다.
1012개의 FFPE 샘플에 대하여, PrePCR 후 Qubit의 DNA 농도가 26.5ng/μl 미만인 299개의 FFPE 샘플 중에서 212개의 FFPE 샘플(70.9%)의 QC점수는 80 이상을 만족하였다. 상기 299개의 FFPE 샘플에 대하여, 평균 라이브러리 크기가 274 초과를 만족하는 213개의 FFPE 샘플 중에서 184개의 FFPE 샘플의 QC점수는 80 이상을 만족하였다. 그러나, 상기 299개의 FFPE 샘플에 대하여, 평균 라이브러리 크기가 274 미만인 84개의 FFPE 샘플 가운데 26개의 FFPE 샘플의 QC점수만이 80을 만족하였다. 즉, FFPE 샘플은, 1차적으로 라이브러리 제작으로 생성된 DNA 농도, postPCR 후 DNA 몰농도 및 평균 라이브러리 크기를 제어하여 높은 QC점수를 수득할 수 있음을 알 수 있다.
1246개의 생검 샘플에 대하여, 혼성화 단계에서 투입된 DNA 양이 648.06ng 초과를 만족하는 1160개의 생검 샘플 중에서 1147개의 생검 샘플(98.9%)의 QC점수는 80 이상을 만족하였다. 생검 샘플은 혼성화 단계에서 투입된 DNA 양을 제어하여 높은 QC점수를 수득할 수 있음을 알 수 있다.
< DNA 추출 키트의 품질 평가>
2가지 종류의 DNA 추출 키트를 사용하여 동일한 FFPE 샘플로부터 DNA를 추출하고, 상기의 과정을 통해 평균 뎁스, Picard tool의 품질 항목(DNA 순도, GC농도 및 평균 라이브러리 크기) 및 QC점수 산출하였다.
키트 종류 DNA 순도
(260/280 비율)
GC 농도
(%)
평균 라이브러리 크기(bp) 평균 뎁스 QC점수
A키트 1.895±0.067 49.2±1.8 300.3±22.5 728±279 93.5±21.6
B키트 1.875±0.076 51.5±3.5 313.3±23.4 775±326 77.7±23.7
A 키트와 B 키트를 사용하여 DNA를 추출한 경우, 평균 뎁스와 Picard tool의 품질 항목에 유의성 있는 차이가 없는 것으로 나타나는 때에도, QC점수에 유의한 차이가 존재하는 것을 확인하였다.
도 10을 참조하여 염색체 표적 자리 별로 뎁스를 살펴보면, A 키트를 사용하여 DNA를 추출한 샘플은 B 키트를 사용하여 DNA를 추출한 샘플에 비하여, 뎁스의 분포가 고르며, 최소 뎁스 기준을 더 많이 확보한 것을 알 수 있다.
110 : 리드 수득 단계
120 : 맵핑 단계
130 : QC점수 산출 단계
140 : 신뢰도 평가 단계
300 : 신뢰도 결정 장치
310 : 시퀀싱부
320 : 맵핑부
330 : QC점수 산출부
340 : 신뢰도 평가부
400 : 피검체
410 : 생검 샘플
425 : FFPE 처리 샘플
430 : 참조 유전체에 정렬된 리드의 뎁스
1,2,3,4,5 : 핵산

Claims (19)

  1. 컴퓨터를 이용한 시스템에서, 컴퓨터가 갖춘 시퀀싱 수단이 피검 유전자를 포함하는 핵산 시료로부터 피검 유전자의 단일 뉴클레오티드 변이(single nucleotide variant, SNV) 예측 자리에 대하여 표적 시퀀싱(targeted sequencing)을 수행하여 리드(read)를 수득하는 단계;
    맵핑 수단이 참조(reference) 유전체에 상기 리드를 맵핑(mapping)하는 단계;
    QC 점수 산출 수단이 참조 유전체에 정렬된 리드의 뎁스(depth)로부터 QC(Quality control)점수를 산출하는 단계; 및
    신뢰도 평가 수단이 산출된 QC점수에 따라 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 평가하는 단계를 포함하는,
    단일 뉴클레오티드 변이 검출 표지의 신뢰도 결정 방법에 있어서,
    상기 QC점수는 하기의 수학식 1에 따라 산출되는 것이며,
    [수학식 1]
    Figure 112018002167896-pat00023

    식 중, D i 는 i번째 표적 자리에 대한 뎁스 분석 구간 내의 각각의 핵산에 맵핑된 리드의 뎁스의 평균이고,
    I Di 는 D i 이 d 이상일 때 1의 값을 갖고, D i 이 d 미만일 때 0의 값을 갖는 지시 함수이며,
    S i 는 i번째 표적 자리에 대한 뎁스 분석 구간 내의 각각의 핵산에 맵핑된 리드의 성분 편향이고,
    I Si 는 S i 가 0.9 미만일 때 1의 값을 갖고, S i 가 0.9 이상일 때 0의 값을 갖는 지시 함수이며,
    n은 총 표적 자리의 수이고,
    d는 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하기 위해 요구되는 최소 뎁스이며,
    상기 수학식 1에서, S i 는 하기의 수학식 2에 따라 산출되고,
    [수학식 2]
    Figure 112018002167896-pat00024

    상기 d는 하기의 수학식 3에 따라 산출되며,
    [수학식 3]
    Figure 112018002167896-pat00025

    식 중, r은 지지 리드의 수이고, α는 변이의 검출 한계인 것인, 방법.
  2. 청구항 1에 있어서, 상기 QC점수는, 참조 유전체의 표적 자리로부터 5' 방향으로 c번째 위치의 핵산 및 3' 방향으로 c번째 위치의 핵산까지 뎁스 분석 구간으로 결정하고, 상기 뎁스 분석 구간 내의 2c+1개의 각각의 핵산에 맵핑된 리드의 뎁스로부터 산출되는 것인 방법(c은 0 또는 자연수).
  3. 청구항 2에 있어서, 상기 c은 2인 것인 방법.
  4. 삭제
  5. 삭제
  6. 삭제
  7. 청구항 1에 있어서, 상기 시료는 생검 조직 또는 포르말린-고정 파라핀-내장(Formalin-fixed, paraffin-embedded, FFPE) 조직으로부터 획득된 것인 방법.
  8. 청구항 7에 있어서, 상기 시료는 DNA 투입양에 기초하여 생검 조직으로부터 획득되거나, 또는 DNA 농도에 기초하여 FFPE 조직으로부터 획득된 것인 방법.
  9. 청구항 1에 있어서, 상기 신뢰도를 평가하는 단계는, 총 n개의 표적 자리에 대한 변이 검출 표지 중 신뢰성 있는 변이 검출 표지의 비율로부터 평가하는 것인 방법.
  10. 청구항 1 내지 3 및 7 내지 9 중 어느 한 항의 단일 뉴클레오티드 변이 검출 표지의 신뢰도 결정 방법을 실행시키기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체.
  11. 피검 유전자를 포함하는 핵산 시료로부터 피검 유전자의 단일 뉴클레오티드 변이 예측 자리에 대하여 표적 시퀀싱을 수행하여 리드를 수득하는 시퀀싱부;
    참조 유전체에 상기 리드를 맵핑하는 맵핑부;
    참조 유전체에 정렬된 리드의 뎁스로부터 QC점수를 산출하는 QC점수 산출부; 및
    산출된 QC점수에 따라 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 평가하는 신뢰도 평가부를 포함하는,
    단일 뉴클레오티드 변이 검출 표지의 신뢰도 결정 장치로서,
    상기 QC점수는 하기의 수학식 1에 따라 산출되는 것이며,
    [수학식 1]
    Figure 112018002167896-pat00026

    식 중, D i 는 i번째 표적 자리에 대한 뎁스 분석 구간 내의 각각의 핵산에 맵핑된 리드의 뎁스의 평균이고,
    I Di 는 D i 이 d 이상일 때 1의 값을 갖고, D i 이 d 미만일 때 0의 값을 갖는 지시 함수이며,
    S i 는 i번째 표적 자리에 대한 뎁스 분석 구간 내의 각각의 핵산에 맵핑된 리드의 성분 편향이고,
    I Si 는 S i 가 0.9 미만일 때 1의 값을 갖고, S i 가 0.9 이상일 때 0의 값을 갖는 지시 함수이며,
    n은 총 표적 자리의 수이고,
    d는 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하기 위해 요구되는 최소 뎁스이며,
    상기 수학식 1에서, S i 는 하기의 수학식 2에 따라 산출되고,
    [수학식 2]
    Figure 112018002167896-pat00027
    .
    상기 d는 하기의 수학식 3에 따라 산출되며,
    [수학식 3]
    Figure 112018002167896-pat00028

    식 중, r은 지지 리드의 수이고, α는 변이의 검출 한계인 것인, 장치.
  12. 청구항 11에 있어서, 상기 QC점수는, 참조 유전체의 표적 자리로부터 5' 방향으로 c번째 위치의 핵산 및 3' 방향으로 c번째 위치의 핵산까지 뎁스 분석 구간으로 결정하고, 상기 뎁스 분석 구간 내의 2c+1개의 각각의 핵산에 맵핑된 리드의 뎁스로부터 산출되는 것인 장치(c은 0 또는 자연수).
  13. 청구항 12에 있어서, 상기 c은 2인 것인 장치.
  14. 삭제
  15. 삭제
  16. 삭제
  17. 청구항 11에 있어서, 상기 시료는 생검 조직 또는 FFPE 조직으로부터 획득된 것인 장치.
  18. 청구항 17에 있어서, 상기 시료는 DNA 투입양에 기초하여 생검조직으로부터 획득되거나, 또는 DNA 농도에 기초하여 FFPE 조직으로부터 획득된 것인 장치.
  19. 청구항 11에 있어서, 상기 신뢰도 평가부는, 총 n개의 표적 자리에 대한 변이 검출 표지 중 신뢰성 있는 변이 검출 표지의 비율로부터 평가하는 것인 장치.
KR1020160055771A 2016-05-04 2016-05-04 변이 검출 표지의 신뢰도 결정 방법 및 장치 KR101882867B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020160055771A KR101882867B1 (ko) 2016-05-04 2016-05-04 변이 검출 표지의 신뢰도 결정 방법 및 장치
PCT/KR2016/009491 WO2017191871A1 (ko) 2016-05-04 2016-08-26 변이 검출 표지의 신뢰도를 결정하는 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160055771A KR101882867B1 (ko) 2016-05-04 2016-05-04 변이 검출 표지의 신뢰도 결정 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20170125278A KR20170125278A (ko) 2017-11-14
KR101882867B1 true KR101882867B1 (ko) 2018-07-27

Family

ID=60203755

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160055771A KR101882867B1 (ko) 2016-05-04 2016-05-04 변이 검출 표지의 신뢰도 결정 방법 및 장치

Country Status (2)

Country Link
KR (1) KR101882867B1 (ko)
WO (1) WO2017191871A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020067603A1 (ko) * 2018-09-28 2020-04-02 한양대학교 산학협력단 다중 참조 유전체에 기반한 유전체 구조변이 검출 방법 및 구조변이 검출 장치
KR102215151B1 (ko) * 2018-09-28 2021-02-10 한양대학교 산학협력단 다중 참조 유전체에 기반한 유전체 구조변이 검출 방법 및 구조변이 검출 장치
CN110310704A (zh) * 2019-05-08 2019-10-08 西安电子科技大学 一种基于局部异常因子的拷贝数变异检测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101460520B1 (ko) 2012-11-12 2014-11-11 (주)신테카바이오 차세대 시퀀싱 데이터의 질병변이마커 검출 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101770962B1 (ko) * 2013-02-01 2017-08-24 에스케이텔레콤 주식회사 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
KR20160010277A (ko) * 2014-07-18 2016-01-27 에스케이텔레콤 주식회사 산모의 무세포 dna의 차세대 서열분석을 통한 태아의 단일유전자 유전변이의 예측방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101460520B1 (ko) 2012-11-12 2014-11-11 (주)신테카바이오 차세대 시퀀싱 데이터의 질병변이마커 검출 방법

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
BMC Bioinformatics, Vol.15, Article 382 (2014)
Briefings in Bioinformatics, Vol.15, No.6, pp.879-889 (2013)
Diagnostic Pathology, Vol.10, Article 169 (2015)*
Nature Communication, Vol.6, Article 8018 (2015)
Nature Reviews Genetics, Vol.15, pp.121-132 (2014)
PLoS ONE, Vol.7, Issue 2, Article e30619 (2012)
PLoS ONE, Vol.8, Issue 9, Article e76144 (2013)
The Pharmacogenomics Journal, Vol.15, No.4, pp.298-309 (2015)*

Also Published As

Publication number Publication date
KR20170125278A (ko) 2017-11-14
WO2017191871A1 (ko) 2017-11-09

Similar Documents

Publication Publication Date Title
AU2019204917B2 (en) Size-based analysis of fetal dna fraction in maternal plasma
Krawitz et al. Microindel detection in short-read sequence data
Guo et al. Three-stage quality control strategies for DNA re-sequencing data
Ge et al. FusionMap: detecting fusion genes from next-generation sequencing data at base-pair resolution
Hebestreit et al. Detection of significantly differentially methylated regions in targeted bisulfite sequencing data
Albert et al. Genetics of single-cell protein abundance variation in large yeast populations
KR102356323B1 (ko) 서열 변이체 콜에 대한 검증방법 및 시스템
Yohe et al. Clinical validation of targeted next-generation sequencing for inherited disorders
Altmann et al. vipR: variant identification in pooled DNA using R
KR101936933B1 (ko) 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스
KR101882867B1 (ko) 변이 검출 표지의 신뢰도 결정 방법 및 장치
CN112703254A (zh) 游离dna损伤分析及其临床应用
KR101936934B1 (ko) 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스
KR102347463B1 (ko) 핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치
Cliften Base calling, read mapping, and coverage analysis
Wang et al. DeepPerVar: a multi-modal deep learning framework for functional interpretation of genetic variants in personal genome
KR101882866B1 (ko) 시료의 교차 오염 정도를 분석하는 방법 및 장치
EP4326896A1 (en) Systems and methods for next generation sequencing uniform probe design
US20190177786A1 (en) Methods and materials for the effective use of combined targeted enrichment of genomic regions and low coverage whole genome sequencing
Hu et al. Sequential model selection-based segmentation to detect DNA copy number variation
KR20190017161A (ko) 앰플리콘 기반 차세대 염기서열 분석기법에서 프라이머 서열을 제거하여 분석의 정확도를 높이는 방법
US20220399079A1 (en) Method and system for combined dna-rna sequencing analysis to enhance variant-calling performance and characterize variant expression status
CA3099612C (en) Method of cancer prognosis by assessing tumor variant diversity by means of establishing diversity indices
KR20210105725A (ko) 핵산서열 분석에서 진양성 변이를 판별하는 방법 및 장치
CN115691671A (zh) 一种基于三代测序的转录组嵌合体的切分方法、装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant