KR20210105725A - 핵산서열 분석에서 진양성 변이를 판별하는 방법 및 장치 - Google Patents

핵산서열 분석에서 진양성 변이를 판별하는 방법 및 장치 Download PDF

Info

Publication number
KR20210105725A
KR20210105725A KR1020200020550A KR20200020550A KR20210105725A KR 20210105725 A KR20210105725 A KR 20210105725A KR 1020200020550 A KR1020200020550 A KR 1020200020550A KR 20200020550 A KR20200020550 A KR 20200020550A KR 20210105725 A KR20210105725 A KR 20210105725A
Authority
KR
South Korea
Prior art keywords
data
error distribution
sequencing error
sequencing
nucleic acid
Prior art date
Application number
KR1020200020550A
Other languages
English (en)
Other versions
KR102347464B1 (ko
Inventor
신승호
박동현
Original Assignee
지니너스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 지니너스 주식회사 filed Critical 지니너스 주식회사
Priority to KR1020200020550A priority Critical patent/KR102347464B1/ko
Publication of KR20210105725A publication Critical patent/KR20210105725A/ko
Application granted granted Critical
Publication of KR102347464B1 publication Critical patent/KR102347464B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Databases & Information Systems (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 출원은 핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치에 관한 것으로, 일 양태로서 제공되는 진양성 변이를 판별하는 방법 및 장치는, 샘플의 특성에 따라 다르게 나타나는 오류 분포를 파악하고, 해당 정보를 변이 검출시 반영함으로써, 진양성 변이를 보다 정확하게 판별할 수 있다.

Description

핵산서열 분석에서 진양성 변이를 판별하는 방법 및 장치{A method and apparatus for determining true positive variation in nucleic acid sequencing analysis}
핵산서열 분석에서 진양성 변이를 검출하는 방법 및 장치에 관한 것이다.
NGS(Next Generation Sequencing)의 빠른 발전에 따라 유전체 데이터를 활용한 암 진단 및 변이 추적을 위한 연구가 활발히 진행되고 있다. 특히 최근 액체생검을 활용한 암 유전체 분석 서비스의 출현으로 인해 낮은 수준으로 존재하는 변이를 검출하는 방법에 대한 중요성이 커지고 있다. 액체 생검뿐만 아니라 NGS를 활용한 여러 암 유전체 분석에서도 조직에서의 암세포 비율에 따라 낮은 수준으로 존재하는 변이를 정확하게 검출하는 것이 중요하다.
낮은 수준으로 존재하는 변이의 경우 그 수준에 따라 검출을 위해 적절한 분석 플랫폼이 권장되고 있다. 하지만 기존에 알려진 바와 같이 NGS를 활용한 경우 일반적인 변이 검출의 수준이 1~2%이상의 변이에 한정된다.
낮은 수준의 변이를 검출하기 어려운 이유 중 대표적인 것은 서열정보를 생성하며 동반되는 오류와 구분이 어렵기 때문이다. 그 중에서도 1% 미만의 변이의 경우 DNA의 처리과정 및 NGS를 통한 서열 데이터 생성 중 발생하는 오류와 구분하기 어렵다.
이런 문제를 극복하기 위한 방법들은 여러 가지가 알려져 있다. NGS 분석 이외에도 DNA를 처리하는 과정에서 발생하는 오류들을 효과적으로 제거하는 방법들이 소개된 바 있으며, 최근에는 digital error suppression 방법을 사용하여 시퀀싱 과정에서 발생하는 오류들을 효과적으로 제거할 수 있음이 보고되었다.
이 밖에도 통계적인 방법을 통해 낮은 수준의 변이를 검출하는 전략으로는, 변이가 없다고 가정되는 같은 환자의 정상 DNA(matched-normal gDNA)를 활용하는 방법이 있다. 암 유전체 분석의 경우 생식세포 변이 제거를 위해 정상 샘플의 획득 및 접근이 용이한 WBC(White Blood Cell)의 gDNA를 정상샘플로서 많이 활용한다. 이에 따라 WBC를 활용하여 변이 검출의 정확도를 높이는 연구들 또한 보고되었다. 조직의 Whole exome sequencing의 경우, 혈액의 WBC gDNA를 분석 시 circulating tumor DNA의 존재에 의해 체세포 변이가 생식세포 변이로 오인되어 검출이 되지 않는 것을 개선한 cmDetect가 2016년 발표되었다.
다른 방법으로 WBC의 gDNA를 활용하는 방법은 위치 특이적 오류 패턴을 활용한 필터링 방법이 있다. WBC의 경우 체세포 변이가 없다고 가정하기 때문에 SNP를 제외한 나머지 변이들은 모두 오류로 간주할 때, 분석 대상 샘플에서 발견된 변이와 비교하여 그 변이 수준이 통계적으로 유의하게 높을 경우 변이로 선별한다(예시, WBC의 gDNA를 사용한 변이 수준의 분포와 검출된 변이 후보의 변이 수준을 Z-표준화 등을 통해 비교 검증).
그러나, 조직을 비롯하여 액체 생검의 cfDNA(cell-free DNA)등 분석 준비과정에서 DNA 처리과정에 차이가 있거나, 사용하는 시약 및 실험 과정의 차이에 따라 오류의 분포가 다르게 나타난다. 이와 같은 차이에 대한 보정을 적절히 적용해야만 WGC gDNA의 오류 분포를 활용한 진양성 변이 검출의 정확도를 확보할 수 있다.
일 양태로서, 핵산서열 분석에서 진양성 변이를 판별하는 방법을 제공한다.
일 양태로서, 상기 진양성 변이를 판별하는 방법을 수행하기 위한 컴퓨터 프로그램이 수록된 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
일 양태로서, 핵산서열 분석에서 진양성 변이를 판별하는 장치를 제공한다.
본 출원의 다른 목적 및 이점은 첨부한 청구범위와 함께 하기의 상세한 설명에 의해 보다 명확해질 것이다. 본 명세서에 기재되지 않은 내용은 본 출원의 기술 분야 또는 유사한 기술 분야 내 숙련된 자이면 충분히 인식하고 유추할 수 있는 것이므로 그 설명을 생략한다.
일 양태로서, (a) 정상세포 또는 변이세포 각각으로부터 유래된, 체세포 변이와 생식세포 변이가 포함되지 않은 핵산에 대한 정상세포의 서열분석 오류분포 데이터 및 변이세포의 서열분석 오류분포 데이터를 독립적으로 획득하는 단계; (b) 상기 데이터로부터 정상세포의 서열분석 오류분포 평균값 대비 변이세포의 서열분석 오류분포 평균값의 비율인 ω값을 산출하는 단계; (c) 상기 산출된 ω값을 정상세포의 서열분석 오류분포 데이터에 가중치로 부여하여, 수정된 서열분석 오류분포 데이터를 획득하는 단계; 및 (d) 상기 수정된 서열분석 오류분포 데이터와, 인간 참조 유전체 서열에 정렬된 분석 대상 시료 내 핵산서열 분석 데이터로부터 획득한 변이 확률 분포 값간 통계적 유의성을 평가하는 단계를 포함하는, 진양성 변이를 판별하는 방법을 제공한다.
일 양태로서, 상기 방법을 수행하기 위한 컴퓨터 프로그램이 수록된 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
일 양태로서, 정상세포 또는 변이세포 각각으로부터 유래된, 체세포 변이와 생식세포 변이가 포함되지 않은 핵산에 대하여, 정상세포의 서열분석 오류분포 데이터 및 변이세포의 서열분석 오류분포 데이터를 독립적으로 획득하는 데이터 수집부; 상기 데이터로부터 정상세포의 서열분석 오류분포 평균값 대비 변이세포의 서열분석 오류분포 평균값의 비율인 ω값을 산출하는 데이터 해석부; 상기 산출된 ω값을 정상세포의 서열분석 오류분포 데이터에 가중치로 부여하여, 수정된 서열분석 오류분포 데이터를 획득하는 데이터 수정부; 및 상기 수정된 서열분석 오류분포 데이터와 인간 참조 유전체 서열에 정렬된 분석 대상 시료 내 핵산서열 분석 데이터로부터 획득한 변이 확률 분포 값간 통계적 유의성을 평가하는 데이터 적용부를 포함하는, 핵산서열 분석에서 진양성 변이를 판별하는 장치를 제공한다.
일 양태로서 제공되는 핵산서열 분석에서 진양성 변이를 판별하는 방법은, 샘플의 특성에 따라 다르게 나타나는 오류 분포를 파악하고 해당 정보를 변이 검출시 활용하는 방법이다. 구체적으로, 일 양태에 따른 방법은 수정된 배경오류 분포와 분석 대상 시료 내 핵산서열 분석 데이터로부터 획득한 변이 확률 분포를 비교함으로써, 진양성 변이를 보다 정확하게 판별할 수 있다.
도 1은 일 양태로서의 진양성 변이를 판별하는 방법에서, 각 단계를 시계열적 순서에 따라 나타낸 도이다.
도 2는 진양성 변이를 판별하는 방법을 모식화한 것으로서, 도 2의 A는 종래의 진양성 변이를 판별하는 방법을 나타낸 것이며, 도 2의 B는 일 양태로서의 진양성 변이를 판별하는 방법을 나타낸 것이다.
도 3은 12가지 뉴클레오티드 치환 변이별 오류의 분포를 나타낸 것이다.
도 4는 인간 참조 유전체에 정렬된 분석 대상 시료의 gDNA 염기서열 데이터상 특정 위치(Bin 1, Bin 2, Bin 3)에서, 12가지 뉴클레오티드 치환 변이 별 오류의 분포의 일례를 나타낸 것이다.
도 5는 일 양태로서의 진양성 변이를 판별하는 방법에서, 특정 위치에서의 진양성 변이를 판별하는 과정을 모식화한 것으로서, 구체적으로, 수정된 서열분석 오류분포 데이터와 인간 참조 유전체 서열에 정렬된 분석 대상 시료 내 핵산서열 분석 데이터로부터 획득한 변이 확률 분포를 비교하는 과정을 나타낸 것이다. 여기서, ① 및 ②에 대응하는 리드는 ω값을 산출하는 과정을 포함하는 수정된 서열분석 오류분포 데이터를 획득하는데 사용되었고, ③에 대응하는 리드는 분석 대상 시료 내 핵산 서열 분석 데이터를 획득하는데 사용되었다.
도 6은 일 양태로서의 진양성 변이를 판별하는 장치의 구성들을 도시한 것이다.
본 명세서에서 사용되는 용어는 각 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 기술분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 임의로 선정된 용어도 있으며, 이 경우 해당 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서, 본 명세서에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 명세서 전반에 걸친 내용을 토대로 정의되어야 한다.
각 설명들에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐만 아니라, 그 중간에 다른 구성요소를 사이에 두고 유기적으로 연결되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것 이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부", "...모듈"의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
본 명세서에서 사용되는 "구성된다" 또는 "포함한다" 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 도는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.
각 설명은 권리범위를 제한하는 것으로 해석되지 말아야 하며, 해당 기술분야의 통상의 기술자가 용이하게 유추할 수 있는 것은 권리범위에 속하는 것으로 해석되어야 할 것이다.
일 양태로서, 컴퓨터를 이용한 시스템에서,
(a) 정상세포 또는 변이세포 각각으로부터 유래된, 체세포 변이와 생식세포 변이가 포함되지 않은 핵산에 대한 정상세포의 서열분석 오류분포 데이터 및 변이세포의 서열분석 오류분포 데이터를 독립적으로 획득하는 단계;
(b) 상기 데이터로부터 정상세포의 서열분석 오류분포 평균값 대비 변이세포의 서열분석 오류분포 평균값의 비율인 ω값을 산출하는 단계;
(c) 상기 산출된 ω값을 정상세포의 서열분석 오류분포 데이터에 가중치로 부여하여, 수정된 서열분석 오류분포 데이터를 획득하는 단계; 및
(d) 상기 수정된 서열분석 오류분포 데이터와, 인간 참조 유전체 서열에 정렬된 분석 대상 시료 내 핵산 서열 분석 데이터로부터 획득한 변이 확률 분포 값간 통계적 유의성을 평가하는 단계를 포함하는, 진양성 변이를 판별하는 방법을 제공한다.
본 명세서에서 사용된 용어, "핵산 서열 분석(nucleic acid sequencing analysis)"은 차세대 핵산 서열분석(next generation sequencing: NGS)인 것일 수 있다. 핵산 서열분석은 염기 서열분석, 서열분석 또는 시퀀싱 (sequencing)과 상호 교환적으로 사용되는 것일 수 있다. 상기 NGS는 대규모 병렬 서열분석(massive parallel sequencing) 또는 2세대 서열분석(second-generation sequencing)과 상호 교환적으로 사용되는 것일 수 있다. 상기 NGS는 대량의 단편의 핵산을 동시다발적으로 서열분석하는 기법으로서, 칩(chip) 기반 그리고 중합효소 연쇄 반응 (polymerase chain reaction: PCR) 기반 쌍 말단(paired end) 형식으로 전장 유전체를 조각내고, 상기 조각을 혼성화 반응(hybridization)에 기초하여 초고속으로 서열 분석을 수행하는 것일 수 있다. 상기 NGS는 예를 들면, 454 플랫폼(Roche), GS FLX 티타늄, Illumina MiSeq, Illumina HiSeq, Illumina HiSeq 2500, Illumina Genome Analyzer, Solexa platform, SOLiD System(Applied Biosystems), Ion Proton(Life Technologies), Complete Genomics, Helicos Biosciences Heliscope, Pacific Biosciences의 단일 분자 실시간(SMRT™) 기술, 또는 이들의 조합에 의해 수행되는 것일 수 있다. 상기 핵산 서열분석은 관심 영역만을 분석하기 위한 핵산 서열분석법인 것일 수 있다. 상기 핵산 서열분석은, 예를 들면, NGS 기반의 표적 서열분석(targeted sequencing), 표적 딥 서열분석(targeted deep sequencing), 또는 패널 서열분석(panel sequencing)을 포함하는 것일 수 있다.
도 1은 상기 진양성 변이를 판별하는 방법의 전반적인 흐름을 나타내는 도면이다. 도 1을 참고하면, 상기 진양성 변이를 판별하는 방법은 서열분석 오류분포 데이터를 획득하는 단계(110), 정상세포 대비 변이세포에 대한 서열분석 오류분포 평균값의 비율을 산출하는 단계(120), 수정된 서열분석 오류분포 데이터를 획득하는 단계(130), 및 수정된 서열분석 오류분포 데이터와 분석 대상 시료 내 핵산 서열 분석 데이터간 통계적 유의성을 평가하는 단계(140)를 포함할 수 있다.
상기 서열분석 오류분포 데이터를 획득하는 단계(110)에서는 정상세포 또는 변이세포 각각으로부터 유래된, 체세포 변이와 생식세포 변이가 포함되지 않은 핵산에 대한 정상세포의 서열분석 오류분포 데이터 및 변이세포의 서열분석 오류분포 데이터를 독립적으로 획득한다.
상기 단계에서, 핵산은 유전체 또는 그의 절편일 수 있다. 본 명세서에서 사용된 용어, "유전체(genome)"는 염색체, 염색질, 또는 유전자의 전체를 총칭하는 용어이다. 상기 유전체 또는 그의 절편은 분리된 DNA, 예를 들어, 세포를 포함하지 않는 핵산 (cell-free DNA: cf DNA)일 수 있다. 상기 세포로부터 핵산을 추출 또는 분리하는 방법은 통상의 기술자에게 공지된 방법으로 수행될 수 있다. 여기서, 절편은 유전체를 물리적, 화학적, 또는 효소적으로 절단하는 것을 의미하며, 상기 과정을 통해 다양한 길이(length)를 갖는 리드를 생성하는 것일 수 있다. 본 명세서에서 사용된 용어, "리드(read)"는 핵산 서열 분석에서 생성된 하나 이상의 핵산 절편의 서열 정보를 의미하며, 상기 리드는 약 10bp 내지 약 2000bp, 예를 들어, 약 15bp 내지 약 1500bp, 약 20bp 내지 약 1000bp, 약 20bp 내지 약 500bp, 약 20bp 내지 약 200bp, 약 20bp 내지 약 100bp일 수 있으나, 이에 제한되는 것은 아니다.
상기 서열분석 오류분포 데이터를 획득하는 단계는 통상의 기술자에게 공지된 방법으로 수행될 수 있으며, 예를 들어, Nucleic acids research 41.7 (2013): e89-e89에 기술된 방법에 따라 수행될 수 있으나, 이에 제한되는 것은 아니다.
상기 단계에서, 상기 정상세포는 체세포 유전자 변이가 존재하지 않는 핵산을 포함하는 세포일 수 있으며, 상기 세포는 핵산서열 분석에서 배경오류 데이터를 확보하기 위한 것으로, 세포 내 핵산에 체세포 변이와 생식세포 유전자 변이가 없는 세포라면 특별히 상기 종류에 제한되지는 않는다. 구체적으로, 상기 정상세포는 생물학적 연구에서 일반적으로 정상 짝(matched normal)으로 구분되는 종류를 모두 포함한다. 예를 들면, 병변이 존재하는 조직 주변에 위치한, 병변이 보이지 않는 암이 아닌 정상세포를 사용 가능하며, 암의 정상조직을 대체하여, 일반적으로 정상 짝으로 사용되는 혈액의 백혈구계 세포를 사용할 수 있다.
상기 단계에서, 상기 변이세포는 체세포 유전자 변이가 존재하는 핵산을 포함하는 세포일 수 있고, 이는 정상세포, 각 변이세포 별로 핵산서열 분석 시 그 오류의 분포가 모두 상이하게 나타남을 반영하기 위한 것일 수 있다. 구체적으로, 질환에 영향을 미치는 변이를 포함하는 핵산을 포함하는 세포를 모두 포함하는 것일 수 있다. 이는, 질환이 있는 핵산의 변이를 평가할 때 해당 변이의 통계적인 평가를 하기 위한 기술을 구현하기 위한 것일 수 있고, 예를 들면, 변이세포의 핵산을 포함하고 있는 세포 유리 DNA(cfDNA)를 포함하는 세포일 수 있으나, 체세포 변이를 포함하는 세포라면 특별히 제한되지 않는다.
상기 단계는 체세포 변이와 생식세포 변이가 포함되지 않은 핵산서열에 대한 오류분포 데이터를 획득하여 핵산서열 분석에 따르는 배경오류 분포를 각 세포별로 획득하기 위한 단계로서, 체세포 변이와 생식세포 변이를 제거된 세포에 대하여 핵산에 대한 서열분석 오류분포 데이터를 획득하는 단계를 포함할 수 있다. 상기 '제거'는 인간 참조 유전체 서열에 정렬된 변이세포의 핵산서열 분석 데이터 상에서 일치하지 않는 서열 데이터를 인간 참조 유전체 서열상의 데이터로 변경하는 것을 의미를 포함하는 것일 수 있다.
상기 정상세포 대비 변이세포에 대한 서열분석 오류분포 평균값의 비율을 산출하는 단계(120)에서는 상기 (a) 단계의 데이터로부터 정상세포의 서열분석 오류분포 평균값 대비 변이세포의 서열분석 오류분포 평균값의 비율인 ω값을 산출한다.
상기 단계는 상기 (a) 단계에서 획득한 각 세포 내 핵산서열에 대한 서열분석 오류분포 데이터로부터 정상세포의 오류분포 평균값 대비 변이세포의 오류분포 평균값의 비율인 ω값을 산출하는 단계로서, 상기 오류분포의 평균값은 오류가 발생할 확률의 평균값을 의미할 수 있고, 보다 구체적으로는, 오류가 발생할 확률의 분포도 상에서 획득한 오류 발생 확률의 평균값을 의미하는 것일 수 있다.
상기 단계는 12개의 뉴클레오티드 치환 유형 각각에 대한 ω값을 산출하는 단계를 포함할 수 있으며, 상기 12개의 뉴클레오티드 치환 유형이란 A>G, A>T, A>C, G>A, G>T, G>C, T>A, T>G, T>C, C>A, C>G 및 C>T의 12가지 유형을 의미하는 것일 수 있다. 일 실시예에 따르면, 도 3에 나타낸 바와 같이, 12개의 치환 유형 각각에 대하여 오류가 발생할 확률의 분포도 상에서 획득한 오류 발생 확률의 평균값의 비율, 즉, ω값을 산출할 수 있다.
상기 단계는 상기 오류분포 데이터 내 특정 위치에서의 12개의 뉴클레오티드 치환 유형 각각에 대한 ω값을 산출하는 단계를 포함할 수 있다. 일 실시예에 따르면, 도 4에 나타낸 바와 같이, 해당 뉴클레오티드 치환변이가 참조 유전체에 의해 정렬된 서열분석 데이터상에서, 특정 위치, 구체적으로는, 참조 유전체를 기준으로 표현된 임의의 위치에서, 12개의 치환 유형 각각에 대하여 오류가 발생할 확률의 분포도 상에서 획득한 오류 발생 확률의 평균값의 비율, 즉, ω값을 산출할 수 있다.
한편, 상기 참조 유전체는 NCBI(National Center for BiotechnologyInformation), GEO (Gene Expression Omnibus), FDA(Food and Drug Administration), My Cancer Genome, 또는 KFDA(식품의약품안전처) 등과 같은 당해 기술분야에서 이미 공지된 데이터베이스(DB)로부터 획득된 것일 수 있다. 즉, 참조 유전체는 공개 게놈 데이터 또는 공개 합맵(HapMap) 데이터로부터 획득된 것일 수 있다.
상기 단계는 상기 (a) 단계의 서열분석 오류분포 데이터를 획득하기 위해 사용된 정상세포 또는 변이세포로부터 유래된 리드들을 위치(position) 정보에 따라 그룹화하는 단계; 및 동일한 위치 정보를 포함하는 정상세포 또는 변이세포로부터 유래된 리드들에 대한 서열분석 오류분포 데이터에서, 뉴클레오티드 치환 유형 각각에 대한 ω값을 산출하는 단계를 포함할 수 있으며, 이러한 경우, 12개의 뉴클레오티드 치환 유형 각각이 리드 내 존재하는 위치정보를 반영하여, 보다 정확한 ω값을 산출할 수 있다.
상기 그룹화하는 단계에서, 리드 그룹의 염기쌍 길이 단위는 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15 또는 16bp일 수 있으나, 반드시 이에 제한되지 아니하고, 상기 방법을 실시하는 통상의 기술자가 리드를 복수의 그룹으로 설정하는 과정에서 적절히 선택할 수 있다.
상기 ω값은 (a) 단계에서 획득한 데이터로부터 정상세포의 오류분포 평균값 대비 변이세포의 오류분포 평균값의 비율을 의미하는 것으로서, 수학식으로 나타내면 하기와 같다:
[수학식 1]
ω = 변이세포의 오류분포 평균값/정상세포의 오류분포 평균값.
상기 수정된 서열분석 오류분포 데이터를 획득하는 단계(130)는 상기 산출된 ω값을 정상세포의 서열분석 오류분포 데이터에 가중치로 부여하여, 수정된 서열분석 오류분포 데이터를 획득한다.
상기 단계는 상기 산출된 ω값을 정상세포의 서열분석 오류분포 데이터에 가중치로 부여하여, 수정된 서열분석 오류분포 데이터를 획득하는 단계로서, 정상세포의 서열분석 오류분포 데이터에 상기 (b) 단계에서 산출된 ω값을 곱하여 수정된 서열분석 오류분포 데이터를 획득하는 단계를 포함할 수 있고, 리드들을 위치정보에 따라 그룹화하여 특정 위치유형 각각에 대한 ω값을 산출한 경우, 상기 그룹화된 정상세포의 서열분석 오류분포 데이터에 ω값을 곱하여 수정된 서열분석 오류분포 데이터를 획득하는 단계를 포함할 수 있다.
상기 단계에서, 상기 ω값을 가중치로 부여하는 것은 분석 대상 시료 내 정상세포의 핵산과 변이세포의 핵산이 혼입되어 있음을 반영하고자 함일 수 있다. 구체적으로, 인간 참조 유전체 서열과 일치하지 않으나 그 변이 발생 확률(Variant Allele Frequency; VAF)이 유의미하지 않아 양으로 판별되지 않는 것에 대해서도, 상기 혼입비율을 반영한 ω값을 가중치로 부여하여 통계적으로 유의미한 경우 진양성 변이로 판별할 수 있다. 상기 ω값을 가중치로 부여함에 따라 분석 대상 시료 내 핵산서열 분석 데이터로부터 획득한 변이 확률 분포도는 쉬프트(shift)될 수 있고, 이를 이용하여 당업계에 널리 알려진 통계적 유의성 평가방법으로 통계적 유의성을 평가하여 진양성 변이 여부를 판별할 수 있는 것이다.
상기 수정된 서열분석 오류분포 데이터와 분석 대상 시료 내 핵산 서열 분석 데이터간 통계적 유의성을 평가하는 단계(140)는 상기 수정된 서열분석 오류분포 데이터와, 인간 참조 유전체 서열에 정렬된 분석 대상 시료 내 핵산서열 분석 데이터로부터 획득한 변이 확률 분포 값간 통계적 유의성을 평가한다.
상기 단계에서, 상기 분석 대상 시료 내 핵산서열 분석 데이터로부터 획득한 변이는 뉴클레오티드 치환 변이일 수 있다.
상기 단계는 분석 대상 시료 내 핵산 서열 분석 데이터를 위치 정보에 따라 분류하는 하는 단계; 및 1) 상기 분류된 핵산 서열 분석 데이터로부터 획득한 변이 확률 분포 값과, 상기 리드들을 위치정보를 반영하여 2) 수정된 서열분석 오류분포 데이터 간 통계적 유의성을 평가하는 단계를 포함할 수 있으며, 여기서, 상기 분류된 핵산 서열 분석 데이터와 수정된 서열분석 오류분포 데이터는 동일한 위치 정보를 포함하는 리드들로부터 획득한 것일 수 있다.
한편, 도 5는 일 양태로서의 진양성 변이를 판별하는 방법에서, 특정 위치에서의 진양성 변이를 판별하는 과정을 모식화한 것이다. 도 5를 참고하면, ① 및 ②에 대응하는 리드 및 서열분석 오류분포 데이터로부터 ω값을 산출하는 과정을 포함하는 전술한 단계를 수행하여, 수정된 서열분석 오류분포 데이터를 획득하고, ③에 대응하는 리드 및 핵산 서열 분석 데이터로부터 변이 확률 분포를 독립적으로 획득한 뒤, 상기 두 분포들간 통계적 유의성을 평가하는 것일 수 있다.
상기 단계에서, 변이 확률 분포는 유전자의 서열상 변이가 발생할 수 있는 확률을 나타내는 분포도라면 특별히 제한되지 않으나, 바람직하게는 뉴클레오티드 치환 변이 확률 분포일 수 있다.
상기 방법은 상기 수정된 서열분석 오류분포 데이터와 인간 참조 유전체 서열에 정렬된 분석 대상 시료 내 핵산서열 분석 데이터로부터 획득한 변이 확률 분포 값간 통계적으로 유의한 차이를 나타내는 경우, 진양성 변이로 판별하는 단계를 더 포함할 수 있다(도 2의 B, 진양성 변이 참고). 또한, 수정된 서열분석 오류분포 데이터와 인간 참조 유전체 서열에 정렬된 분석 대상 시료 내 핵산서열 분석 데이터로부터 획득한 변이 확률 분포 값간 통계적으로 유의한 차이를 나타내지 않는 경우 위양성 변이로 판별하는 단계를 더 포함할 수 있다(도 2의 B, 위양성 변이 참고).
일례로서, 상기의 통계적 유의성 판단은 하기 수학식 2에 따라 수행될 수 있다:
[수학식 2]
Figure pat00001
상기 수학식 2에서,
P(X≥1/ω*VAFvariation)는 전형적인 정상 샘플과 변이 샘플간 오류 분포를 비교하여, 12개의 뉴클레오티드 치환 유형별 발생하는 오류로부터 산출한 오류분포의 평균값의 비율을 반영한 확률 모델로서, VAFvariation의 진양성 또는 위양성 여부를 판별하기 위한 모델을 의미한다.
Z는 정상 샘플의 오류분포 X와 VAF를 비교하기 위한 표준화 분포(Z distribution)을 의미한다.
Error(Variation)jk는 변이 샘플의 오류분포 평균값으로, j는 참조 뉴클레오티드 정보, k는 샘플의 뉴클레오타이드 정보를 의미하며, 상기 j 및 k는 A, T, C, 및 G 중 하나이며, 이들은 각각 상이하다.
Error(normal)jk는 정상 샘플의 오류분포 평균값으로, j는 참조 뉴클레오타이드 정보, k는 샘플의 뉴클레오타이드 정보를 의미하며, 상기 j 및 k는 A, T, C, 및 G 중 하나이며, 이들은 각각 상이하다.
VAFvariation 또는
Figure pat00002
정상 샘플의 오류분포 상에 변이 샘플의 분포를 반영한 것을 의미한다.
일 실시예에 따르면, 상기 방법은 변이 샘플의 특성, 구체적으로, 변이의 위치 및 치환 유형에 따라 다르게 나타나는 오류 분포를 파악하고 해당 정보를 변이 판별에 적용한 것으로서, 핵산서열 분석 데이터에 의해 검출된 변이, 구체적으로, 통계학적으로 오차가 발생할 수 있는 영역의 변이에 대해서도, 진양성 변이와 위양성 변이를 보다 정확하게 판별할 수 있다.
상기 방법에서, (a) 단계의 핵산에 대한 서열분석 오류분포 데이터 또는 (d) 단계의 분석 대상 시료 내 핵산서열 분석 데이터는 차세대 염기서열 분석(next generation sequencing), 표적 염기서열 분석(targeted sequencing), 표적 딥 염기서열 분석(targeted deep sequencing) 또는 패널 염기서열 분석(panel sequenceing)에 의한 데이터일 수 있고, 보다 구체적으로는 차세대 염기서열 분석에 의한 데이터일 수 있다.
일 양태로서, 상기 진양성 변이를 판별하는 방법을 수행하기 위한 컴퓨터 프로그램이 수록된 컴퓨터에서 읽을 수 있는 기록매체를 제공한다.
상기 방법은 다양한 컴퓨터 수단을 통하여 판독 가능한 소프트웨어 형태로 구현되어 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 상기에 따른 방법을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 해당 분야의 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다.
예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CDROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM, Random Access Memory), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 이러한 하드웨어 장치는 상기에 따른 방법의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
비록 본 명세서와 도면에서는 예시적인 장치 구성을 기술하고 있지만, 본 명세서에서 설명하는 기능적인 동작과 주제의 구현물들은 다른 유형의 디지털 전자 회로로 구현되거나, 본 명세서에서 개시하는 구조 및 그 구조적인 등가물들을 포함하는 컴퓨터 소프트웨어, 펌웨어 혹은 하드웨어로 구현되거나, 이들 중 하나 이상의 결합으로 구현 가능하다. 본 명세서에서 설명하는 주제의 구현물들은 하나 이상의 컴퓨터 프로그램 제품, 다시 말해 상기 방법에 따른 장치의 동작을 제어하기 위하여 혹은 이것에 의한 실행을 위하여 유형의 프로그램 저장매체 상에 인코딩된 컴퓨터 프로그램 명령에 관한 하나 이상의 모듈로서 구현될 수 있다. 컴퓨터로 읽을 수 있는 매체는 기계로 판독 가능한 저장 장치, 기계로 판독 가능한 저장 기판, 메모리 장치, 기계로 판독 가능한 전파형 신호에 영향을 미치는 물질의 조성물 혹은 이들 중 하나 이상의 조합일 수 있다.
상기 방법에 따른 장치에 탑재되고 상기 방법을 수행하는 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 어플리케이션, 스크립트 혹은 코드로도 알려져 있음)은 컴파일 되거나 해석된 언어나 선험적 혹은 절차적 언어를 포함하는 프로그래밍 언어의 어떠한 형태로도 작성될 수 있으며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루틴 혹은 컴퓨터 환경에서 사용하기에 적합한 다른 유닛을 포함하여 어떠한 형태로도 전개될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 반드시 대응하는 것은 아니다. 프로그램은 요청된 프로그램에 제공되는 단일 파일 내에, 혹은 다중의 상호 작용하는 파일(예컨대, 하나 이상의 모듈, 하위 프로그램 혹은 코드의 일부를 저장하는 파일) 내에, 혹은 다른 프로그램이나 데이터를 보유하는 파일의 일부(예컨대, 마크업 언어 문서 내에 저장되는 하나 이상의 스크립트) 내에 저장될 수 있다. 컴퓨터 프로그램은 하나의 사이트에 위치하거나 복수의 사이트에 걸쳐서 분산되어 통신 네트워크에 의해 상호 접속된 다중 컴퓨터나 하나의 컴퓨터 상에서 실행되도록 전개될 수 있다.
일 양태로서, 정상세포 또는 변이세포 각각으로부터 유래된, 체세포 변이와 생식세포 변이가 포함되지 않은 핵산에 대하여, 정상세포의 서열분석 오류분포 데이터 및 변이세포의 서열분석 오류분포 데이터를 독립적으로 획득하는 데이터 수집부(310); 상기 데이터로부터 정상세포의 서열분석 오류분포 평균값 대비 변이세포의 서열분석 오류분포 평균값의 비율인 ω값을 산출하는 데이터 해석부(320); 상기 산출된 ω값을 정상세포의 서열분석 오류분포 데이터에 가중치로 부여하여, 수정된 서열분석 오류분포 데이터를 획득하는 데이터 수정부(330); 및 상기 수정된 서열분석 오류분포 데이터와 인간 참조 유전체 서열에 정렬된 분석 대상 시료 내 핵산서열 분석 데이터로부터 획득한 변이 확률 분포 값간 통계적 유의성을 평가하는 데이터 적용부(340)를 포함하는, 핵산서열 분석에서 진양성변이를 판별하는 장치(300)를 제공한다.
도 6은 핵산서열 분석에서 진양성 변이를 판별하는 장치의 구성들을 도시한 도면이다. 상기 장치는 앞서 설명된 진양성 변이를 판별하는 방법을 구현하며, 컴퓨터 판독 매체 또는 이를 포함하는 시스템을 포괄한다. 또한, 도 6에 도시된 구성요소 외에 다른 범용적인 구성요소들이 추가로 포함될 수 있다.
상기 데이터 수집부는 정상세포 또는 변이세포 각각으로부터 유래된, 체세포 변이와 생식세포 변이가 포함되지 않은 핵산에 대하여, 정상세포의 서열분석 오류분포 데이터 및 변이세포의 서열분석 오류분포 데이터를 독립적으로 획득하는 단계를 수행할 수 있다. 상기 정상세포는 체세포 변이와 생식세포 변이가 존재하지 않는 핵산을 보유하는 것일 수 있고, 변이세포의 경우 체세포 변이와 생식세포 변이가 존재하는 핵산을 보유하는 것일 수 있다. 그러한 경우, 상기 데이터 수집부는 체세포 변이와 생식세포 변이를 제거된 세포로부터 유래된 핵산에 대하여 서열분석 오류분포 데이터를 획득하는 것일 수 있는데, 상기 '제거'는 인간 참조 유전체 서열에 정렬된 변이세포의 핵산서열 분석 데이터 상에서 일치하지 않는 서열 데이터를 인간 참조 유전체 서열상의 데이터로 변경하는 것을 의미를 포함하는 것일 수 있다.
상기 데이터 해석부는 상기 데이터 수집부로부터 획득한 데이터로부터 정상세포의 서열분석 오류분포 평균값 대비 변이세포의 서열분석 오류분포 평균값의 비율인 ω값을 산출하는 단계를 수행할 수 있다. 정확한 오류분포의 평균값 비율을 산출한다는 측면에서 바람직하게는 12개의 뉴클레오티드 치환 유형 각각에 대한 ω값을 산출할 수 있고, 보다 정확한 오류분포의 평균값 비율을 산출한다는 측면에서 바람직하게는 상기 오류분포 데이터 내 특정 위치에서의 12개의 뉴클레오티드 치환 유형 각각에 대한 ω값을 산출할 수 있다.
보다 구체적으로, 상기 데이터 해석부는 데이터 수집부에서 서열분석 오류분포 데이터를 획득하기 위해 사용된 정상세포 또는 변이세포로부터 유래된 리드들을 위치 정보에 따라 그룹화하는 단계; 및 동일한 위치 정보를 포함하는 정상세포 또는 변이세포로부터 유래된 리드들에 대한 서열분석 오류분포 데이터에서, 뉴클레오티드 치환 유형 각각에 대한 ω값을 산출하는 단계를 수행할 수 있다. 상기 그룹화에서, 그룹의 염기쌍 길이 단위는 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15 또는 16bp일 수 있으나, 반드시 이에 제한되지 아니하고, 상기 장치를 실시하는 통상의 기술자가 리드를 복수의 그룹으로 설정하는 과정에서 적절히 선택할 수 있다.
상기 데이터 수정부는 상기 데이터 해석부에서 산출된 ω값을 정상세포의 서열분석 오류분포 데이터에 가중치로 부여하여, 수정된 서열분석 오류분포 데이터를 획득하는 단계를 수행할 수 있다. 정상세포의 서열분석 오류분포 데이터에 상기 데이터 해석부에서 산출된 ω값을 곱하여 수정된 서열분석 오류분포 데이터를 획득할 수 있으며, 일례로서, ω값은 상기 수학식 1에 의해 산출될 수 있다.
상기 데이터 수정부는 그룹화된 정상세포의 서열분석 오류분포 데이터에 상기 그룹화하여 산출된 ω값을 곱하여 수정된 서열분석 오류분포 데이터를 획득하는 단계를 수행할 수 있다.
상기 데이터 적용부는 상기 데이터 수정부에서 수정된 서열분석 오류분포 데이터와 인간 참조 유전체 서열에 정렬된 분석 대상 시료 내 핵산서열 분석 데이터로부터 획득한 변이 확률 분포 값간 통계적 유의성을 평가하는 단계를 수행할 수 있다. 상기 분석 대상 시료 내 핵산서열 분석 데이터로부터 획득한 변이는 뉴클레오티드 치환 변이일 수 있다.
상기 데이터 적용부는 분석 대상 시료 내 핵산 서열 분석 데이터를 위치 정보에 따라 분류하는 하는 단계; 및 상기 분류된 핵산 서열 분석 데이터로부터 획득한 변이 확률 분포 값과 상기 데이터 수정부로부터 획득한 수정된 서열분석 오류분포 데이터간 통계적 유의성을 평가하는 단계를 수행할 수 있으며, 상기 분류된 핵산 서열 분석 데이터와 수정된 서열분석 오류분포 데이터는 동일한 위치 정보를 포함하는 리드들로부터 획득되는 것일 수 있다.
상기 장치는 상기 데이터 수정부에서 수정된 서열분석 오류분포 데이터와 인간 참조 유전체 서열에 정렬된 분석 대상 시료 내 핵산서열 분석 데이터로부터 획득한 변이 확률 분포 값간 통계적으로 유의한 경우 진양성 변이로 판별하는 데이터 판별부를 더 포함할 수 있다.
상기 변이 확률 분포는 유전자의 서열상 변이가 발생할 수 있는 확률을 나타내는 분포라면 특별히 제한되지 않으나, 바람직하게는 뉴클레오티드 치환 변이 확률 분포일 수 있다.
상기 데이터 판별부는 상기 수정된 서열분석 오류분포 데이터와 인간 참조 유전체 서열에 정렬된 분석 대상 시료 내 핵산서열 분석 데이터로부터 획득한 변이 확률 분포 값간 통계적으로 유의한 차이를 나타내는 경우, 진양성 변이로 판별하거하나, 수정된 서열분석 오류분포 데이터와 인간 참조 유전체 서열에 정렬된 분석 대상 시료 내 핵산서열 분석 데이터로부터 획득한 변이 확률 분포 값간 통계적으로 유의한 차이를 나타내지 않는 경우 위양성 변이로 판별하는 단계를 수행할 수 있다. 일례로서, 상기의 통계적 유의성 판단은 하기 수학식 2에 따라 수행될 수 있다.
상기 장치에서, 데이터 수집부의 핵산에 대한 서열분석 오류분포 데이터 또는 데이터 적용부의 분석 대상 시료 내 핵산서열 분석 데이터는 차세대 염기서열 분석(next generation sequencing), 표적 염기서열 분석(targeted sequencing), 표적 딥 염기서열 분석(targeted deep sequencing) 또는 패널 염기서열 분석(panel sequenceing)에 의한 데이터일 수 있고, 보다 구체적으로는 차세대 염기서열 분석에 의한 데이터일 수 있다.
상기 장치에서, 상술한 진양성 변이를 판별하는 방법에 대한 구체적인 설명들과 대응되는 개념이나, 이를 포함하는 것들에 대해서는 상술한 바를 참조하여 해석될 수 있음은 당업자에 자명한 것이다.
이하 실시예를 통하여 보다 상세하게 설명한다. 그러나, 이들 실시예는 발명의 각 양태를 예시적으로 설명하기 위한 것으로 발명의 범위가 이들 실시예에 한정되는 것은 아니다.
실시예 1. 데이터의 가정
암환자의 cfDNA를 변이 세포의 일례로서 활용한 변이 분석을 수행하였으며, 해당 변이가 진양성 변이인지(true positive), 위양성 변이(false positive)인지 구분하고자 하였다. 체세포 변이 이외의 변이를 제거하기 위하여 혈액으로부터 얻은 WBC(White Blood Cell)의 gDNA를 활용하여 생식세포(germline) 데이터를 제거하며, 체세포 변이가 없는 WBC의 gDNA를 활용하여 변이가 없을 때도 시퀀싱 과정에서 무작위적으로 발생하는 오류의 빈도를 측정하여 오류 분포도를 확보하였다.
실시예 2. 가중치가 부여된 오류분포 데이터의 획득
상기 가정에서 암환자의 cfDNA는 세포로부터 유리되어 혈액을 돌아다니며 생물학적 특성에 의해 일정한 크기(약 180bp)정도로 절편화 되어 있으며, gDNA는 시퀀싱 분석을 위해 인위적인 절편화 과정을 진행하였다. 이에 따른 오류의 편향이 알려져 있으므로 해당 편향의 비율을 알기 위하여 cfDNA와 gDNA로부터 얻은 시퀀싱 데이터 여러 건으로부터 각 염기 치환(substitution) 종류별 오류율을 산출하였다. 이를 통해 얻을 수 있는 정보는 cfDNA와 gDNA의 실험적인 차이를 포함하여 환경적인 차이에서 오는 오류율의 차이이며, 이때 cfDNA는 체세포 변이가 없는 정상인의 것 또는 선행 분석을 통해 체세포(somatic) 변이가 제거된 샘플이어야 한다. 위와 같은 절차를 통해 도 3과 같이 염기 치환 12가지에 따른 오류율의 평균을 산출할 수 있다. 염기치환이 C>T로 변할 cfDNA와 gDNA의 오류율의 평균 비(ratio)를 ωCT 라 가정할 경우, 또한, 도 4와 같이 서열분석 리드의 위치에 따라 오류율이 다를 수 있으므로, 리드의 K번째 위치의 ωCT를 ωCTK로 표현할 때 이를 확률모델을 수정 할 수 있는 가중치로 사용할 수 있으며, 이러한 오류분포 데이터를 수집하여 서로 다른 편향을 가진 샘플을 비교 시 오류율을 보정하는 용도로 사용할 수 있다.
구체적으로, 도 2의 B에 나타낸 바와 같이, 정상 gDNA에 대한 오류 분포도를 배경으로 하여, ω≥1인 경우 정상 gDNA에 대한 오류 분포도는 우측으로 shift시키고, ω≤1인 경우 정상 gDNA에 대한 오류 분포도는 좌측으로 shift 시킴으로써, 가중치가 부여된 오류분포 데이터를 획득하였다.
실시예 3. 가중치가 부여된 변이확률에 대한 통계적 유의성 평가 및 진양성 변이의 판별
가중치가 부여되기 전의 P(X≥VAFvariation)는 관찰한 변이의 빈도가 정상세포로부터 얻은 확률분포 X에서 관찰될 빈도를 나타낸다. 이 때, 만약 관찰된 VAF가 C>T 변이인 경우, 도 3에 나타낸 바와 같이 cfDNA의 분포에서 gDNA보다 오류율이 높으며 이를 표준화하여 관찰된 변이를 판단할 때, 대상 변이의 유효성을 과장하여 판단할 수 있기 때문에 ωCT를 확률 분포 X에 적용하여 P(X * ωCT≥VAFvariation)로 해당 변이의 통계 검정을 진행할 수 있다. 또한, 도 4와 같이 시퀀싱 리드의 위치마다 발생하는 오류율이 다르다는 것을 포함하여 적용 가능하다. 이때는 시퀀싱 리드의 위치마다 부분집합 데이터 K를 생성한 후 평가하고자 하는 변이에 해당하는 P(X *ωCTK≥VAFvariation)를 활용할 수 있다.
구체적으로, 시퀀싱 리드의 위치에 따른 오류율을 적용할 경우 위치는 1~5bp 등 범위로도 활용될 수 있으며, 평가하고자 하는 어느 C>T 변이를 포함하는 리드가 총 10개이며 해당 변이가 각각 리드에서 1~10번째 위치에 나타나고 시퀀싱 리드의 위치에 따른 오류는 리드의 끝에서 5bp씩 그룹을 짓는다라고 가정하였다. 그 결과에 따라, 예를 들어, 도 5에 나타낸 바와 같이, Bin 1에 대하여 P(X≥1/ωCT(1~5)*VAFvariation), 및 Bin 2에 대하여, P(X≥1/ωCT(6~10)*VAFvariation), 구체적으로, 염기 치환(substitution) 종류 및 위치에 관한 가중치가 부여된 오류분포 데이터와 이들이 통계적으로 유의적 차이를 나타내는 경우, 진양성 변이로 판별할 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
110: 서열분석 오류분포 데이터를 산출하는 단계
120: 정상세포 대비 변이세포에 대한 서열분석 오류분포 평균값의 비율을 산출하는 단계
130: 수정된 서열분석 오류분포 데이터를 획득하는 단계
140: 수정된 서열분석 오류분포 데이터와 분석 대상 시료 내 핵산 서열 분석 데이터간 통계적 유의성을 평가하는 단계
300: 진양성 변이를 판별하는 장치
310: 데이터 수집부
320: 데이터 해석부
330: 데이터 적용부
340: 데이터 판별부

Claims (21)

  1. 컴퓨터를 이용한 시스템에서,
    (a) 정상세포 또는 변이세포 각각으로부터 유래된, 체세포 변이와 생식세포 변이가 포함되지 않은 핵산에 대한 정상세포의 서열분석 오류분포 데이터 및 변이세포의 서열분석 오류분포 데이터를 독립적으로 획득하는 단계;
    (b) 상기 데이터로부터 정상세포의 서열분석 오류분포 평균값 대비 변이세포의 서열분석 오류분포 평균값의 비율인 ω값을 산출하는 단계;
    (c) 상기 산출된 ω값을 정상세포의 서열분석 오류분포 데이터에 가중치로 부여하여, 수정된 서열분석 오류분포 데이터를 획득하는 단계; 및
    (d) 상기 수정된 서열분석 오류분포 데이터와, 인간 참조 유전체 서열에 정렬된 분석 대상 시료 내 핵산서열 분석 데이터로부터 획득한 변이 확률 분포 값간 통계적 유의성을 평가하는 단계를 포함하는, 진양성변이를 판별하는 방법.
  2. 청구항 1에 있어서, 상기 정상세포는 체세포 유전자 변이가 존재하지 않는 핵산을 포함하는 세포인 방법.
  3. 청구항 1에 있어서, 상기 (a) 단계는 체세포 변이와 생식세포 변이가 제거된 정상세포로부터 유래된 핵산에 대하여 서열분석 오류분포 데이터를 획득하는 단계를 포함하는 방법.
  4. 청구항 1에 있어서, 상기 변이세포는 체세포 유전자 변이가 존재하는 핵산을 포함하는 세포인 방법.
  5. 청구항 1에 있어서, 상기 (b) 단계는 상기 서열분석 오류분포 데이터 내 특정 위치에서의 뉴클레오티드 치환 유형 각각에 대한 ω값을 산출하는 단계를 포함하는 방법.
  6. 청구항 5에 있어서, 상기 (b) 단계는 (a) 단계의 서열분석 오류분포 데이터를 획득하기 위해 사용된 정상세포 또는 변이세포로부터 유래된 리드들을 위치(position) 정보에 따라 그룹화하는 단계; 및
    동일한 위치 정보를 포함하는 정상세포 또는 변이세포로부터 유래된 리드들에 대한 서열분석 오류분포 데이터에서, 뉴클레오티드 치환 유형 각각에 대한 ω값을 산출하는 단계를 포함하는 방법.
  7. 청구항 1에 있어서, 상기 (c) 단계는 정상세포의 서열분석 오류분포 데이터에 상기 (b) 단계에서 산출된 ω값을 곱하여 수정된 서열분석 오류분포 데이터를 획득하는 단계를 포함하는 방법.
  8. 청구항 7에 있어서, 상기 (c) 단계는 그룹화된 정상세포의 서열분석 오류분포 데이터에 상기 청구항 6에 의해 산출한 ω값을 곱하여 수정된 서열분석 오류분포 데이터를 획득하는 단계를 포함하는 방법.
  9. 청구항 1에 있어서, 상기 (d) 단계에서, 분석 대상 시료 내 핵산서열 분석 데이터로부터 획득한 변이는 뉴클레오티드 치환 변이인 방법.
  10. 청구항 9에 있어서, 상기 (d) 단계는 분석 대상 시료 내 핵산 서열 분석 데이터를 위치 정보에 따라 분류하는 하는 단계; 및
    상기 분류된 핵산 서열 분석 데이터로부터 획득한 변이 확률 분포 값과 청구항 8에 의해 획득한 수정된 서열분석 오류분포 데이터간 통계적 유의성을 평가하는 단계를 포함하며,
    상기 분류된 핵산 서열 분석 데이터와 수정된 서열분석 오류분포 데이터는 동일한 위치 정보를 포함하는 리드들로부터 획득한 것인 방법.
  11. 청구항 1에 있어서, 상기 수정된 서열분석 오류분포 데이터와 인간 참조 유전체 서열에 정렬된 분석 대상 시료 내 핵산서열 분석 데이터로부터 획득한 변이 확률 분포 값간 통계적으로 유의한 차이를 나타내는 경우, 진양성 변이로 판별하는 단계를 더 포함하는 방법.
  12. 청구항 1 내지 11 중 어느 한 항의 방법을 수행하기 위한 컴퓨터 프로그램이 수록된 컴퓨터로 읽을 수 있는 기록매체.
  13. 정상세포 또는 변이세포 각각으로부터 유래된, 체세포 변이와 생식세포 변이가 포함되지 않은 핵산에 대하여, 정상세포의 서열분석 오류분포 데이터 및 변이세포의 서열분석 오류분포 데이터를 독립적으로 획득하는 데이터 수집부;
    상기 데이터로부터 정상세포의 서열분석 오류분포 평균값 대비 변이세포의 서열분석 오류분포 평균값의 비율인 ω값을 산출하는 데이터 해석부;
    상기 산출된 ω값을 정상세포의 서열분석 오류분포 데이터에 가중치로 부여하여, 수정된 서열분석 오류분포 데이터를 획득하는 데이터 수정부; 및
    상기 수정된 서열분석 오류분포 데이터와 인간 참조 유전체 서열에 정렬된 분석 대상 시료 내 핵산서열 분석 데이터로부터 획득한 변이 확률 분포 값간 통계적 유의성을 평가하는 데이터 적용부를 포함하는, 핵산서열 분석에서 진양성변이를 판별하는 장치.
  14. 청구항 13에 있어서, 상기 데이터 해석부는 뉴클레오티드 치환 유형 각각에 대한 ω값을 산출하는 것인 장치.
  15. 청구항 13에 있어서, 상기 데이터 해석부는 상기 서열분석 오류분포 데이터 내 특정 위치에서의 뉴클레오티드 치환 유형 각각에 대한 ω값을 산출하는 것인 장치.
  16. 청구항 15에 있어서, 상기 데이터 해석부는 데이터 수집부에서 서열분석 오류분포 데이터를 획득하기 위해 사용된 정상세포 또는 변이세포로부터 유래된 리드들을 위치 정보에 따라 그룹화하는 단계; 및
    동일한 위치 정보를 포함하는 정상세포 또는 변이세포로부터 유래된 리드들에 대한 서열분석 오류분포 데이터에서, 뉴클레오티드 치환 유형 각각에 대한 ω값을 산출하는 것인 장치.
  17. 청구항 13에 있어서, 상기 데이터 수정부는, 정상세포의 서열분석 오류분포 데이터에 상기 데이터 해석부에서 산출된 ω값을 곱하여 수정된 서열분석 오류분포 데이터를 획득하는 것인 장치.
  18. 청구항 17에 있어서, 상기 데이터 수정부는, 그룹화된 정상세포의 서열분석 오류분포 데이터에 상기 청구항 16에 의해 산출한 ω값을 곱하여 수정된 서열분석 오류분포 데이터를 획득하는 것인 장치.
  19. 청구항 13에 있어서, 상기 데이터 적용부에서, 분석 대상 시료 내 핵산서열 분석 데이터로부터 획득한 변이는 뉴클레오티드 치환 변이인 장치.
  20. 청구항 19에 있어서, 상기 데이터 적용부는 분석 대상 시료 내 핵산 서열 분석 데이터를 위치 정보에 따라 분류하는 하는 단계; 및
    상기 분류된 핵산 서열 분석 데이터로부터 획득한 변이 확률 분포 값과 청구항 18에 의해 획득한 수정된 서열분석 오류분포 데이터간 통계적 유의성을 평가하며,
    상기 분류된 핵산 서열 분석 데이터와 수정된 서열분석 오류분포 데이터는 동일한 위치 정보를 포함하는 리드들로부터 획득한 것인 장치.
  21. 청구항 13에 있어서, 상기 수정된 서열분석 오류분포 데이터와 인간 참조 유전체 서열에 정렬된 분석 대상 시료 내 핵산서열 분석 데이터로부터 획득한 변이 확률 분포 값간 통계적으로 유의한 경우 진양성 변이로 판별하는 데이터 판별부를 더 포함하는 장치.
KR1020200020550A 2020-02-19 2020-02-19 핵산서열 분석에서 진양성 변이를 판별하는 방법 및 장치 KR102347464B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200020550A KR102347464B1 (ko) 2020-02-19 2020-02-19 핵산서열 분석에서 진양성 변이를 판별하는 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200020550A KR102347464B1 (ko) 2020-02-19 2020-02-19 핵산서열 분석에서 진양성 변이를 판별하는 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20210105725A true KR20210105725A (ko) 2021-08-27
KR102347464B1 KR102347464B1 (ko) 2022-01-06

Family

ID=77504691

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200020550A KR102347464B1 (ko) 2020-02-19 2020-02-19 핵산서열 분석에서 진양성 변이를 판별하는 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102347464B1 (ko)

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Aaron M. Newman 외, Integrated digital error suppression for improved detection of circulating tumor DNA, Nature Biotechnology, 2016.09.28., Vol.34, No.5, pp547.555.* *
Alexis Christoforides 외, Identification of somatic mutations in cancer through Bayesian-based analysis of sequenced genome pairs, BMC Genomics, 2013.05.04., Vol.14, No.02, pp.1-11. *
Xiaotu Ma 외, Analysis of error profiles in deep nextgeneration sequencing data, Genome Biology, 2019.03.14., Vol.20, No.50, pp.1-15. *

Also Published As

Publication number Publication date
KR102347464B1 (ko) 2022-01-06

Similar Documents

Publication Publication Date Title
JP7119014B2 (ja) まれな変異およびコピー数多型を検出するためのシステムおよび方法
EP3882362A1 (en) Methods for sequencing of cell free polynucleotides
KR102347463B1 (ko) 핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치
KR102347464B1 (ko) 핵산서열 분석에서 진양성 변이를 판별하는 방법 및 장치
CN117965725A (zh) 区分肝癌与肝脏非癌疾病样本的方法、装置和试剂盒

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right