KR102347463B1 - 핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치 - Google Patents

핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치 Download PDF

Info

Publication number
KR102347463B1
KR102347463B1 KR1020190123369A KR20190123369A KR102347463B1 KR 102347463 B1 KR102347463 B1 KR 102347463B1 KR 1020190123369 A KR1020190123369 A KR 1020190123369A KR 20190123369 A KR20190123369 A KR 20190123369A KR 102347463 B1 KR102347463 B1 KR 102347463B1
Authority
KR
South Korea
Prior art keywords
group
index
read
mutation
diversity
Prior art date
Application number
KR1020190123369A
Other languages
English (en)
Other versions
KR20210040714A (ko
Inventor
신승호
박동현
Original Assignee
지니너스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 지니너스 주식회사 filed Critical 지니너스 주식회사
Priority to KR1020190123369A priority Critical patent/KR102347463B1/ko
Publication of KR20210040714A publication Critical patent/KR20210040714A/ko
Application granted granted Critical
Publication of KR102347463B1 publication Critical patent/KR102347463B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Abstract

본 출원은 핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치에 관한 것으로, 상기 방법 및 장치는 후보 변이 위치를 포함하는 복수 개의 리드 중에서 후보 변이가 포함된 변이군과 후보 변이가 포함되지 않은 대조군간 위치 정보에 대한 다양성 지수를 비교함으로써, 핵산 서열 분석, 구체적으로, 차세대 염기서열 분석 등의 과정에서 발생하는 위양성 변이를 효과적으로 검출할 수 있다.

Description

핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치{Method and appartus for detecting false positive variants in nucleic acid sequencing analysis}
핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치에 관한 것이다.
다양한 생체 정보는 DNA 서열의 유전자로 표현되고, 개체의 완전한 DNA 서열 정보는 생명 현상을 이해하고 질병과 관련된 정보를 얻을 수 있어 매우 중요하다. DNA 서열 정보의 해독, 즉 게놈 시퀀싱(genome sequencing)의 핵심은 개인차 및 민족적 특성을 파악하거나 유전자 이상과 관련된 질환에서 염색체 이상을 포함한 선천성 원인의 규명과 당뇨병, 고혈압과 같은 복합 질병의 유전자 결함을 찾기 위한 것이다. 또한, 시퀀싱 데이터는 유전자 발현, 유전자 다양성 및 그 상호작용 등의 정보들을 분자 진단과 치료 영역에서 폭넓게 활용할 수 있어 매우 중요하다.
게놈 시퀀싱을 위한 방법으로는 차세대 염기서열 분석법(Next Generation Sequencing; NGS)이 2007년 이래로 적용되기 시작하였고, 이러한 NGS의 개발에 따라 전통적인 방법과 비교하여 훨씬 쉽고 저비용으로 분석할 수 있게 되었다. 차세대 염기서열 분석법을 구현하는 차세대 게놈 시퀀서(Next Generation Sequencer)로 대표적인 것으로는 로슈(Roche)/454, 일루미나(Illumina)/Solexa 및 라이프 테크놀로지스(ABI)의 SOLiD 등이 있다. 이러한 차세대 염기서열 분석기기들은 7시간에 8,000만개 이상의 서열 판독이 가능하다. 이러한 기술 발전으로 종래에 막대한 검사 비용으로 인해 연구용으로만 사용되던 차세대 염기서열 분석법을 의료용 임상 검사에서도 활용할 수 있게 되었다.
한편, 시퀀싱 기술의 발달로 인해 다양한 종류의 구조적 변이(structure variation)를 발굴하는 다양한 시도가 이루어지고 있으나, 여전히 분석 과정에서 상당한 수준의 위양성(false positive)나 위음성(false negative)이 발생하고 있어, 이러한 문제점을 해결하기 위한 다양한 시도가 이루어지고 있다. 이러한 문제점을 해결하기 위한 기술로서, 예를 들어, 분자 바코딩, digital error suppression, annotation-based fitering 등의 기술이 보고된 바 있으나(한국 공개특허 10-2019-0027347), 아직은 미비한 실정이다.
일 양상은 핵산 서열 분석에서 위양성 변이를 검출하는 방법을 제공하는 것이다.
다른 양상은 핵산 서열 분석에서 위양성 변이를 검출하는 장치를 제공하는 것이다.
본 출원의 다른 목적 및 이점은 첨부한 청구범위와 함께 하기의 상세한 설명에 의해 보다 명확해질 것이다. 본 명세서에 기재되지 않은 내용은 본 출원의 기술 분야 또는 유사한 기술 분야 내 숙련된 자이면 충분히 인식하고 유추할 수 있는 것이므로 그 설명을 생략한다.
본 실시예들에서 사용되는 용어는 본 실시예들에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 기술분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 임의로 선정된 용어도 있으며, 이 경우 해당 실시예의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서, 본 실시예들에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 실시예들의 전반에 걸친 내용을 토대로 정의되어야 한다.
실시예들에 대한 설명들에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐만 아니라, 그 중간에 다른 구성요소를 사이에 두고 전기적으로 연결되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것 이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 실시예들에 기재된 "...부", "...모듈"의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
본 실시예들에서 사용되는 "구성된다" 또는 "포함한다" 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 도는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.
하기 실시예들에 대한 설명은 권리범위를 제한하는 것으로 해석되지 말아야 하며, 해당 기술분야의 통상의 기술자가 용이하게 유추할 수 있는 것은 실시예들의 권리범위에 속하는 것으로 해석되어야 할 것이다. 이하 첨부된 도면들을 참조하면서 오로지 예시를 위한 실시예들을 상세히 설명하기로 한다.
일 양상은 컴퓨터를 이용한 시스템에서,
데이터 수집 수단이 표적 시료에서 추출 및 절편화된 복수 개의 핵산으로부터, 후보 변이 위치를 포함하는 복수 개의 리드 및 상기 후보 변이 위치를 포함하는 각각의 리드에 대한 위치 정보를 수득하는 단계;
데이터 분류 수단이 상기 수득된 후보 변이 위치를 포함하는 복수 개의 리드에 대하여, 동일한 위치 정보를 갖는 복수 개의 리드를 하나의 다양성 그룹으로 선정하고, 상기 선정된 각각의 다양성 그룹에서 고유 식별자(Unique identifier: UID)에 의해 분류된 리드의 개수 산출하는 다양성 그룹의 분류 단계, 및 상기 복수 개의 리드에 대하여 후보 변이가 포함된 변이군 또는 후보 변이가 포함되지 않은 대조군으로 분류하는 변이군 분류 단계를 실시하는 단계;
다양성 지수 산출 수단이 상기 분류된 변이군 또는 대조군의 위치 정보에 대한 다양성 지수를 산출하는 단계; 및
위양성 평가 수단이 상기 산출된 변이군 또는 대조군의 위치 정보에 대한 다양성 지수에 따라 상기 변이군의 위양성 여부를 평가하는 단계를 포함하는, 핵산 서열 분석에서 위양성 변이를 검출하는 방법을 제공한다.
본 명세서에서 사용된 용어, "핵산 서열 분석(nucleic acid sequencing analysis)"은 차세대 핵산 서열분석(next generation sequencing: NGS)인 것일 수 있다. 핵산 서열분석은 염기 서열분석, 서열분석 또는 시퀀싱 (sequencing)과 상호 교환적으로 사용되는 것일 수 있다. 상기 NGS는 대규모 병렬 서열분석(massive parallel sequencing) 또는 2세대 서열분석(second-generation sequencing)과 상호 교환적으로 사용되는 것일 수 있다. 상기 NGS는 대량의 단편의 핵산을 동시다발적으로 서열분석하는 기법으로서, 칩(chip) 기반 그리고 중합효소 연쇄 반응 (polymerase chain reaction: PCR) 기반 쌍 말단(paired end) 형식으로 전장 유전체를 조각내고, 상기 조각을 혼성화 반응(hybridization)에 기초하여 초고속으로 서열 분석을 수행하는 것일 수 있다. 상기 NGS는 예를 들면, 454 플랫폼(Roche), GS FLX 티타늄, Illumina MiSeq, Illumina HiSeq, Illumina HiSeq 2500, Illumina Genome Analyzer, Solexa platform, SOLiD System(Applied Biosystems), Ion Proton(Life Technologies), Complete Genomics, Helicos Biosciences Heliscope, Pacific Biosciences의 단일 분자 실시간(SMRT™) 기술, 또는 이들의 조합에 의해 수행되는 것일 수 있다. 상기 핵산 서열분석은 관심 영역만을 분석하기 위한 핵산 서열분석법인 것일 수 있다. 상기 핵산 서열분석은, 예를 들면, NGS 기반의 표적 서열분석(targeted sequencing), 표적 딥 서열분석(targeted deep sequencing), 또는 패널 서열분석(panel sequencing)을 포함하는 것일 수 있다.
상기 핵산 서열 분석에서 위양성 변이를 검출하는 방법은, 상기 방법에 의해 검출된 위양성 변이군, 구체적으로, 위양성 변이군으로 평가된 리드를 시퀀싱 데이터에서 제거하는 단계를 추가로 포함할 수 있다.
도 1은 핵산 서열 분석에서 위양성 변이를 검출하는 방법의 전반적인 흐름을 나타내는 도면이다. 도 1을 참고하면, 상기 위양성 변이를 검출하는 방법은 리드 및 위치 정보 수득 단계(110), 리드 분류 단계(120), 다양성 지수 산출 단계(130), 및 변이군의 위양성 평가 단계(140)를 포함할 수 있다.
상기 리드 및 위치 정보를 수득하는 단계(110)에서는 표적 시료에서 추출 및 절편화된 복수 개의 핵산으로부터 후보 변이 위치를 포함하는 복수 개의 리드 및 상기 후보 변이 위치를 포함하는 각각의 리드에 대한 위치 정보를 수득한다.
상기 단계에서, 표적 시료는 개체 또는 세포로부터 유래할 수 있다. 상기 개체는 인간, 소, 말, 돼지, 양, 염소, 개, 고양이, 및 설치류를 포함한 포유류일 수 있다. 상기 세포는 개체로부터 유래된 세포 또는 세포주일 수 있다. 또한, 상기 표적 시료는 생물학적 시료일 수 있다. 상기 생물학적 시료는 예를 들어, 혈액, 혈장, 혈청, 소변, 타액, 점막, 분비물, 객담, 대변, 눈물, 또는 이들의 조합으로부터 획득된 것일 수 있다. 상기 생물학적 시료는 다양한 종으로부터 유래하는 진핵세포, 원핵세포, 바이러스, 박테리오파지 등의 시료일 수 있다.
상기 단계에서, 핵산은 유전체 또는 그의 절편일 수 있다. 본 명세서에서 사용된 용어, "유전체(genome)"는 염색체, 염색질, 또는 유전자의 전체를 총칭하는 용어이다. 상기 유전체 또는 그의 절편은 분리된 DNA, 예를 들어, 세포를 포함하지 않는 핵산 (cell-free DNA: cf DNA)일 수 있다. 표적 시료로부터 핵산을 추출 또는 분리하는 방법은 통상의 기술자에게 공지된 방법으로 수행될 수 있다.
상기 단계에서, 절편화(fragmentation)는 유전체를 물리적, 화학적, 또는 효소적으로 절단하는 것을 의미하며, 상기 과정을 통해 다양한 길이(length)를 갖는 리드를 생성할 수 있다. 본 명세서에서 사용된 용어, "리드(read)"는 핵산 서열 분석에서 생성된 하나 이상의 핵산 절편의 서열 정보를 의미하며, 상기 리드는 약 10bp 내지 약 2000bp, 예를 들어, 약 15bp 내지 약 1500bp, 약 20bp 내지 약 1000bp, 약 20bp 내지 약 500bp, 약 20bp 내지 약 200bp, 약 20bp 내지 약 100bp일 수 있다. 일 실시예에 따르면, 상기 리드는 생성된 핵산 절편의 하나 이상의 말단에 고유 식별자(unique identification: UID)를 포함하는 것 일 수 있으며, 예를 들어, 상기 핵산 절편에, 프라이머, 어뎁터, 고유 식별자 또는 이들의 조합이 라이게션된 것, 또는 이의 증폭 산물일 수 있다.
상기 단계에서, 후보 변이 위치를 포함하는 복수 개의 리드를 수득하는 단계는 통상의 기술자에게 공지된 방법으로 수행될 수 있다. 예를 들어, 상기 단계는 1) DNA 증폭 과정을 포함하는 염기서열 생성(sequence generation) 과정을 통해 NGS 장비에서 핵산 절편을 식별하고, 복수 개의 리드를 생성한 뒤, 2) 서열 정렬(sequence alignment) 또는 리드 매핑(read mapping) 과정을 통해 상기 생성된 리드를 참조 유전체(reference genome)와 비교하여, 해당 리드의 본래 위치를 추정하는 과정을 포함할 수 있다. 상기의 정렬 결과에 따라, 모든 유전체 상의 위치에 대해 정렬된 리드의 개수를 산출할 수 있고, 특정 유전자 영역에 대해서 커버리지 깊이(Depth of coverage)를 산출할 수 있다. 상기 단계에서는, 리드에 고유 식별자를 부착시키는 단계를 추가로 포함할 수도 있다. 일 실시예에 따르면, 상기 정렬 결과에 따라, 후보 변이 위치를 포함하는 복수 개의 리드를 수득할 수 있다.
한편, 상기 참조 유전체 또는 후보 변이 위치는 NCBI(National Center for BiotechnologyInformation), GEO (Gene Expression Omnibus), FDA(Food and Drug Administration), My Cancer Genome, 또는 KFDA(식품의약품안전처) 등과 같은 당해 기술분야에서 이미 공지된 데이터베이스(DB)로부터 획득된 것일 수 있다. 즉, 참조 유전체는 공개 게놈 데이터 또는 공개 합맵(HapMap) 데이터로부터 획득된 것일 수 있다.
상기 단계에서, 후보 변이 위치를 포함하는 리드에 대한 위치 정보를 수득하는 과정은 통상의 기술자에게 공지된 방법으로 수행될 수 있다. 예를 들어, 상기 단계는 상기 후보 변이 위치를 포함하는 리드에 대한 paired-end 리드를 수득하는 단계; 및 상기 수득된 paired-end 리드로부터 상기 후보 변이 위치를 포함하는 리드에 대한 위치 정보를 수득하는 단계를 포함할 수 있다. 여기서, 위치 정보는 유전체 전체 영역에 대하여, 이와 대응되는 특정 리드의 영역 또는 자리를 의미할 수 있으며, 보다 구체적으로, 리드를 생성하는데 주형으로 사용된 DNA 절편의 원래 위치에 대한 정보를 포함하는 것을 의미할 수 있다.
이후, 상기 리드 분류 단계(120)에서는 상기 수득된 후보 변이 위치를 포함하는 복수 개의 리드에 대하여, 동일한 위치 정보를 갖는 복수 개의 리드를 하나의 다양성 그룹으로 선정하고, 상기 선정된 각각의 다양성 그룹에서 고유 식별자에 의해 분류된 리드의 개수 산출하는 다양성 그룹의 분류 단계, 및 상기 복수 개의 리드에 대하여 후보 변이가 포함된 변이군 또는 후보 변이가 포함되지 않은 대조군으로 분류하는 변이군 분류 단계를 수행한다.
상기 단계에서는 생성된 서열과 참조 유전체 사이의 서열 차이점을 검출하는 통상의 변이 검출(variant calling) 과정을 포함할 수 있다. 도 2를 참고하면, 상기 단계는 후보 변이 위치를 포함하는 복수 개의 리드를 후보 변이의 유무에 따라 변이군(variant group) 또는 대조군(control group)으로 분류할 수 있다(변이군 분류 단계). 또한, 앞서 수득한 위치 정보에 따라, 상기 단계는 후보 변이 위치를 포함하는 복수 개의 리드를 구체적으로, 동일한 위치 정보를 갖는 복수 개의 리드를 하나의 다양성 그룹으로 선정하여, 복수 개의 다양성 그룹으로 분류 하고(diversity), 상기 다양성 그룹을 다시 고유 식별자로 구분하여 분류함으로써 해당 그룹에 해당하는 리드의 개수(count)를 획득할 수 있다(다양성 그룹의 분류 단계). 상기에서, 변이군 분류 단계 및 다양성 그룹의 분류 단계의 순서는 적의 변경하여 실시 가능하다.
이후, 상기 다양성 지수 산출 단계(130)에서는 상기 분류된 변이군 또는 대조군의 위치 정보에 대한 다양성 지수를 산출한다.
상기 단계에서, 변이군 또는 대조군에 대한 다양성 지수는 각 군에 대한 위치 정보의 분포를 정량적으로 표현할 수 있다면, 비제한적으로 확장 적용될 수 있으며, 일례로서, 상기 다양성 지수는 샤논 다양성 지수(Shannon diversity index: H s ), 심슨 지수(Simpson index: D s ), 심슨 역지수 (Simpson's reciprocal index: 1/D), 또는 버거-파커 지수(Berger-Parker index: D BP )일 수 있으나, 이에 제한되는 것은 아니다.
일 실시예에 있어서, 변이군 또는 대조군에 대한 다양성 지수는 하기 수학식 1에 의해 산출될 수 있다.
[수학식 1]
Figure 112019101714828-pat00001
상기 수학식 1에서, s는 동일한 위치 정보를 갖는 리드 종류의 총 개수이고, ni는 동일한 위치 정보를 갖는 i번째 리드 중 고유 식별자에 의해 분류된 리드 종류의 개수이며, N은 위치 정보 및 고유 식별자에 의해 분류된 리드 종류의 총 개수일 수 있다.
이후, 상기 변이군의 위양성 평가 단계(140)에서는 상기 산출된 변이군 또는 대조군의 위치 정보에 대한 다양성 지수에 따라 변이군의 위양성 여부를 평가한다.
상기 단계에서, 변이군의 위양성 여부를 평가하는 단계는 통계적 검정법을 통하여, 변이군의 위치 정보에 대한 다양성 지수가 대조군과 유의적인 차이를 나타내는지 여부를 평가하는 단계를 포함할 수 있다. 예를 들어, 상기 통계적 검정법은 각 군에 대한 다양성 지수의 차이에 대한 유의성을 평가할 수 있다면, 비제한적으로 확장 적용될 수 있으며, 일례로서, 상기 통계적 검정법은 t-test일 수 있으나, 이에 제한되는 것은 아니다.
일 실시예에 있어서, 변이군 또는 대조군의 다양성 지수에 대한 통계적 유의성은 하기 수학식 2에 의해 평가될 수 있다.
[수학식 2]
Figure 112019101714828-pat00002
상기 수학식 2에서, H1는 변이군의 다양성 지수, 예를 들어, 변이군의 샤논 다양성 지수, H2는 대조군의 다양성 지수, 예를 들어, 대조군의 샤논 다양성 지수이고, S1 2은 변이군의 분산값, S2 2는 대조군의 분산값일 수 있다.
한편, 상기 수학식 2에서, 상기 변이군 또는 대조군의 분산값은 하기 수학식 3에 의해 산출할 수 있다.
[수학식 3]
Figure 112019101714828-pat00003
상기 수학식 3에서, S2 H는 변이군 또는 실험군의 다양성 지수에 대한 분산, S는 동일한 위치 정보를 갖는 리드 종류의 총 개수, P는 수학식 1의 ni/N, 및 N은 상기 위치 정보 및 UID에 의해 분류된 리드 종류의 총 개수일 수 있다.
도 3을 참고하면, 상기 변이군이 위양성 변이에 해당하는 경우, 변이군에 해당하는 리드는 정규 분포(normal distribution)를 갖는 대조군과 달리, 비정규 분포를 나타내며, 이러한 분포의 차이는 다양성 지수의 비교를 통해 평가할 수 있다. 이에 따라, 변이군의 위치 정보에 대한 다양성 지수가 대조군과 통계적으로 유의적인 차이를 나타내는 경우, 상기 변이군을 위양성으로 평가할 수 있다
도 4를 참고하면, 상기 변이군이 진양성 변이에 해당하는 경우, 변이군에 해당하는 리드는 정규 분포를 갖는 대조군과 유사한 분포를 나타내며, 이러한 분포 유사성은 다양성 지수의 비교를 통해 평가할 수 있다. 이에 따라, 변이군의 위치 정보에 대한 다양성 지수가 대조군과 통계적으로 유의적인 차이를 나타내지 않는 경우, 상기 변이군을 진양성으로 평가할 수 있다.
종래의 위양성 변이를 검출 또는 제거하는 기술로서, 분자 바코딩 기술, digital error suppression, annotation-based fitering 등 알려져 있으나, 이러한 기술들은 분자 바코딩 UID swap에 의한 오류를 검출함에 어려움이 있을 뿐만 아니라, 서열 중복(Sequence duplicaiton)에 의한 위양성 변이를 제거함에는 한계가 있다. 따라서, 상기 방법은 위양성으로 간주되는 변이를 제거하는 프로세스를 지칭하는 변이 필터(variant filering) 기술 중 하나로서, 종래 기술적 문제점을 해소할 수 있으며, 이를 통하여, 상기 방법은 게놈 시퀀싱에 기반한 치료 및 진단 분야의 정확성을 크게 향상시킬 수 있다. 또한, 상기 방법은 예를 들어, 다수의 리드를 생성 및 처리하거나 높은 뎁스(depth)의 시퀀싱 기술에 보다 효과적으로 활용될 수 있다.
다른 양상은 표적 시료에서 추출 및 절편화된 복수 개의 핵산으로부터 후보 변이 위치를 포함하는 복수 개의 리드 및 상기 후보 변이 위치를 포함하는 각각의 리드에 대한 위치정보를 수득하는 데이터 수집부;
상기 수득된 후보 변이 위치를 포함하는 복수 개의 리드에 대하여, 동일한 위치 정보를 갖는 복수 개의 리드를 하나의 다양성 그룹으로 선정하고, 상기 선정된 각각의 다양성 그룹에서 고유 식별자에 의해 분류된 리드의 개수 산출하는 다양성 그룹의 분류 단계, 및 상기 복수 개의 리드에 대하여, 후보 변이가 포함된 변이군 또는 후보 변이가 포함되지 않은 대조군으로 분류하는 변이군 분류 단계를 실시하는 데이터 분류부;
상기 분류된 변이군의 위치 정보에 대한 다양성 지수를 산출하는 다양성 지수 산출부; 및
상기 산출된 변이군 또는 대조군의 다양성 지수에 따라 상기 변이군의 위양성 여부를 평가하는 위양성 평가부를 포함하는, 핵산 서열 분석에서 위양성 변이를 검출하는 장치를 제공한다.
도 5은 핵산 서열 분석에서 위양성 변이를 검출하는 장치의 구성들을 도시한 도면이다. 상기 장치는 앞서 설명된 위양성 변이를 검출하는 방법을 구현하며, 컴퓨터 판독 매체 또는 이를 포함하는 시스템을 포괄한다. 또한, 도 5에 도시된 구성요소 외에 다른 범용적인 구성요소들이 추가로 포함될 수 있다.
데이터 수집부(310)는 추출 및 절편화된 복수 개의 핵산으로부터 후보 변이 위치를 포함하는 복수 개의 리드 및 상기 후보 변이 위치를 포함하는 각각의 리드에 대한 위치 정보를 수득한다. 예를 들어, 표적 시퀀싱, 서열 정렬 과정을 수행함으로써 후보 변이 위치를 포함하는 복수 개의 리드를 획득할 수 있고, paired-end 리드로부터 상기 후보 변이 위치를 포함하는 리드에 대한 위치 정보를 획득할 수 있다.
데이터 분류부(320)는 통상적인 서열 정렬 및 변이 검출 과정을 수행함으로써, 상기 수득된 후보 변이 위치를 포함하는 복수 개의 리드에 대하여, 동일한 위치 정보를 갖는 복수 개의 리드를 하나의 다양성 그룹으로 선정하고, 뒤이어, 상기 선정된 각각의 다양성 그룹에서 고유 식별자에 의해 분류된 리드의 개수 산출함으로써 다양성 그룹을 분류하고; 상기 복수 개의 리드에 대하여, 후보 변이가 포함된 변이군 또는 후보 변이가 포함되지 않은 대조군으로 분류한다. 상기에서, 변이군 분류 단계 및 다양성 그룹의 분류 단계의 순서는 적의 변경될 수 있다.
다양성 지수 산출부(330)는 변이군 또는 대조군에 대한 위치 정보의 분포를 정량적으로 표현할 수 있는 지수를 산출한다. 예를 들어, 상기 다양성 지수는 샤논 다양성 지수(Shannon diversity index: H s ), 심슨 지수(Simpson index: D s ), 심슨 역지수 (Simpson's reciprocal index: 1/D), 또는 버거-파커 지수(Berger-Parker index: D BP )일 수 있으나, 이에 제한되는 것은 아니다.
일 실시예에 있어서, 변이군 또는 대조군에 대한 다양성 지수는 하기 수학식 1에 의해 산출될 수 있다.
[수학식 1]
Figure 112019101714828-pat00004
상기 수학식 1에서, s는 동일한 위치 정보를 갖는 리드 종류의 총 개수이고, ni는 동일한 위치 정보를 갖는 i번째 리드 중 고유 식별자에 의해 분류된 리드 종류의 개수이며, N은 위치 정보 및 고유 식별자에 의해 분류된 리드 종류의 총 개수일 수 있다.
위양성 평가부(340)는 통계적 검정법을 통하여, 변이군의 위치 정보에 대한 다양성 지수가 대조군과 유의적인 차이를 나타내는지 여부를 평가한다. 예를 들어, 변이군 또는 대조군의 다양성 지수에 대한 통계적 유의성은 하기 수학식 2에 의해 평가될 수 있다.
[수학식 2]
Figure 112019101714828-pat00005
상기 수학식 2에서, H1는 변이군의 다양성 지수, 예를 들어, 변이군의 샤논 다양성 지수, H2는 대조군의 다양성 지수, 예를 들어, 대조군의 샤논 다양성 지수이고, S1 2은 변이군의 분산값, S2 2는 대조군의 분산값일 수 있다.
한편, 상기 수학식 2에서, 상기 변이군 또는 대조군의 분산값은 하기 수학식 3에 의해 산출할 수 있다.
[수학식 3]
Figure 112019101714828-pat00006
상기 수학식 3에서, S2 H는 변이군 또는 실험군의 다양성 지수에 대한 분산, S는 동일한 위치 정보를 갖는 리드 종류의 총 개수, P는 수학식 1의 ni/N, 및 N은 상기 위치 정보 및 UID에 의해 분류된 리드 종류의 총 개수일 수 있다.
상기 위양성 평가부는 통계적 검정법을 통하여, 변이군의 위치 정보에 대한 다양성 지수가 대조군과 유의적인 차이를 나타내는 경우 상기 변이군을 위양성으로 평가할 수 있으며, 이와 반대로, 변이군의 위치 정보에 대한 다양성 지수가 대조군과 유의적인 차이를 나타내지 않는 경우 상기 변이군을 진양성으로 평가할 수 있다.
부가적으로, 상기 장치(300)는 출력부를 포함할 수 있다. 상기 출력부는 상기 변이군의 위양성 여부를 표시하는 디스플레이 장치가 될 수 있다. 상기 출력부는 상기 변이군의 위양성 여부를 다양성 지수, PASS 또는 FAIL의 2차 변수(binary variable), 이미지, 그래프 등으로 제시할 수 있다. 그 외 사용자가 상기 변이의 위양성 여부를 표시할 수 있는 장치라면 어떠한 장치도 가능하다.
핵산 서열 분석에서 위양성 변이를 검출하는 장치(300)는 도 5에 따르면 데이터 수집부(310), 데이터 분류부(320), 다양성 지수 산출부(330) 및 위양성 평가부(340)를 모두 포함하는 것으로 도시되어 있으나, 이에 한정하는 것은 아니다. 즉, 데이터 수집부(310), 데이터 분류부(320), 다양성 지수 산출부(330) 및 위양성 평가부(340) 각각은 서로 독립된 장치의 전체 또는 독립된 장치의 일부의 구성이 될 수도 있고, 이들 중 복수개의 그룹이 하나의 독립된 장치의 전체 또는 독립된 장치의 일부의 구성이 될 수도 있으며, 각 구성은 전체로서 핵산 서열 분석에서 위양성 변이를 검출하는 장치(300)가 될 수 있다.
다른 양상은 핵산 서열 분석에서 위양성 변이를 검출하는 방법을 실행시키기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체를 제공한다.
상기 방법은 다양한 컴퓨터 수단을 통하여 판독 가능한 소프트웨어 형태로 구현되어 컴퓨터로 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 상기에 따른 방법을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 해당 분야의 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다.
예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CDROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM, Random Access Memory), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 이러한 하드웨어 장치는 상기에 따른 방법의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
비록 본 명세서와 도면에서는 예시적인 장치 구성을 기술하고 있지만, 본 명세서에서 설명하는 기능적인 동작과 주제의 구현물들은 다른 유형의 디지털 전자 회로로 구현되거나, 본 명세서에서 개시하는 구조 및 그 구조적인 등가물들을 포함하는 컴퓨터 소프트웨어, 펌웨어 혹은 하드웨어로 구현되거나, 이들 중 하나 이상의 결합으로 구현 가능하다. 본 명세서에서 설명하는 주제의 구현물들은 하나 이상의 컴퓨터 프로그램 제품, 다시 말해 상기 방법에 따른 장치의 동작을 제어하기 위하여 혹은 이것에 의한 실행을 위하여 유형의 프로그램 저장매체 상에 인코딩된 컴퓨터 프로그램 명령에 관한 하나 이상의 모듈로서 구현될 수 있다. 컴퓨터로 판독 가능한 매체는 기계로 판독 가능한 저장 장치, 기계로 판독 가능한 저장 기판, 메모리 장치, 기계로 판독 가능한 전파형 신호에 영향을 미치는 물질의 조성물 혹은 이들 중 하나 이상의 조합일 수 있다.
상기 방법에 따른 장치에 탑재되고 상기 방법을 실행하는 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 어플리케이션, 스크립트 혹은 코드로도 알려져 있음)은 컴파일 되거나 해석된 언어나 선험적 혹은 절차적 언어를 포함하는 프로그래밍 언어의 어떠한 형태로도 작성될 수 있으며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루틴 혹은 컴퓨터 환경에서 사용하기에 적합한 다른 유닛을 포함하여 어떠한 형태로도 전개될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 반드시 대응하는 것은 아니다. 프로그램은 요청된 프로그램에 제공되는 단일 파일 내에, 혹은 다중의 상호 작용하는 파일(예컨대, 하나 이상의 모듈, 하위 프로그램 혹은 코드의 일부를 저장하는 파일) 내에, 혹은 다른 프로그램이나 데이터를 보유하는 파일의 일부(예컨대, 마크업 언어 문서 내에 저장되는 하나 이상의 스크립트) 내에 저장될 수 있다. 컴퓨터 프로그램은 하나의 사이트에 위치하거나 복수의 사이트에 걸쳐서 분산되어 통신 네트워크에 의해 상호 접속된 다중 컴퓨터나 하나의 컴퓨터 상에서 실행되도록 전개될 수 있다.
일 실시예에 따른 위양성 변이를 검출하는 방법 또는 장치에 따르면, 무작위인 절편화에 의해 비정상적인 분포를 나타내는 리드의 패턴을 검출하여, 차세대 염기서열 분석 등의 과정에서 위양성 변이를 효과적으로 검출 및 제거할 수 있다.
일 실시예에 따른 위양성 변이를 검출하는 방법 또는 장치에 따르면, digital error suppression 등과 같은 기존의 위양성 검출 기술과 함께 활용하여, 게놈 시퀀싱에 기반한 치료 및 진단 분야의 정확성을 크게 향상시킬 수 있다.
도 1은 일 실시예에 따른 위양성 변이를 검출하는 방법의 전반적인 흐름을 나타내는 도면이다.
도 2는 일 실시예에 따른 위양성 변이를 검출하는 방법에서, 후보 변이 위치를 포함하는 복수 개의 리드를 후보 변이가 포함된 변이군 또는 후보 변이가 포함되지 않은 대조군으로 분류하는 과정을 개략적으로 나타낸 도면이다.
도 3은 위양성 변이를 갖는 변이군 및 대조군의 위치 정보에 대한 분포를 나타낸 도면이다.
도 4는 진양성 변이를 갖는 변이군 및 대조군의 위치 정보에 대한 분포를 나타낸 도면이다.
도 5은 일 실시예에 따른 위양성 변이를 검출하는 장치의 구성들을 도시한 도면이다.
도 6은 일 실시예에 따른 위양성 변이를 검출하는 과정으로, 다양성 지표로서 샤논 다양성 지수(H), 통계적 유의성 검정으로서 t-test를 적용하여 위양성 변이를 검출하는 과정을 나타낸 도면이다.
이하 본 발명을 실시예를 통하여 보다 상세하게 설명한다. 그러나, 이들 실시예는 본 발명을 예시적으로 설명하기 위한 것으로 본 발명의 범위가 이들 실시예에 한정되는 것은 아니다.
<후보 변이 위치를 포함하는 리드 및 상기 리드의 위치 정보 수득>
본 실시예에서는 후보 변이 위치를 포함하는 리드 및 상기 리드의 위치 정보를 수득하기 위하여, 인간 레퍼런스 게놈상 매핑된 정보를 활용하였다. 각 시퀀싱 리드는 상기 리드가 생성될 때 주형으로 사용되는 DNA의 양 끝에서 각각 생성되며, 상기 리드를 인간 레퍼런스 게놈에 매핑함으로써, 주형 DNA의 양 끝의 위치 정보를 확인한다. 구체적으로, paired read 시퀀싱 정보를 활용하여 후보 변이 위치를 포함하는 리드의 위치 정보를 획득한다. 상기 위치 정보는 유전체 전체 영역에 대하여, 이와 대응되는 특정 리드의 영역 또는 자리를 의미한다.
상기 시퀀싱 리드를 aligner로 mapping하여, 서열 정렬(alignment)의 결과로서, 예를 들어, BAM(Binary Alignment/Map) 파일 형식의 결과물에는 paired read의 시작과 해당 리드의 길이가 기록된다. 이후, 이를 통하여 주형 DNA의 위치 정보를 확보한다. 대표적인 aligner로는 BWA가 적용될 수 있으며, 리드의 위치 정보는 home-built program을 작성하거나 picard 프로그램의 MarkDuplicate 모듈을 통해 획득할 수 있다. 한편, 후보 변이의 위치를 포함하는 리드는 레퍼런스 게놈에 매핑된 리드로서, reference와 더불어 다른 뉴클레오타이드를 추가로 포함하는 리드를 의미한다.
<리드의 분류>
본 실시예에서는 상기 수득된 리드를 2 가지 방식에 따라 분류를 실시하였다. 우선, paired reads의 위치 정보에 따라, 동일한 위치 정보를 공유하는 리드쌍들을 각각 하나의 그룹으로 지정하여 분류한다(제1 분류). 이후, 상기 분류된 그룹을 대상으로 변이를 포함하는 리드 그룹, 즉, 변이군과 변이를 비포함하는 리드 그룹, 즉, 대조군으로 재분류한다(제2 분류). 상기에서, 위치 정보는 paired reads에 대한 정보이며, 한쌍의 리드를 한 개의 unit(단위)로 간주하였다. 상기 제1 분류 단계 및 제2 분류 단계는 필요에 따라, 그 순서를 변경하여 실시할 수 있다.
구체적으로, 제 1 분류 과정에서, Paired read의 mapping 정보에 의해 생성된 리드의 위치 정보가 동일한 경우, PCR 증폭에 의해 생겨난 산물로 간주되고, 이들을 하나의 그룹으로 분류한다. 다만, 동일한 위치 정보를 공유하는 경우에도, 서로 다른 UID를 보유함에 따라 duplicate로 간주되어 삭제되지 않을 수 있으며, 이와 같이, 동일한 위치 정보를 갖는 그룹 안에 존재하는 UID의 다양성이 이후 다양성 지수로서 사용된다. 또한, 제2 분류 과정은 변이가 있는 그룹의 다양성 지수가 대조군에 비하여 얼마나 차이가 나는지 알아보기 위한 것이다. 이를 위하여, 리드 쌍(paired reads) 중 한쪽이라도 평가하고자 하는 변이가 존재하는 리드 쌍들을 변이군으로 선별하고, 해당 변이가 존재하지 않는 리드 쌍들을 모아 대조군을 선정하였다. 이를 위하여, 상기 리드들이 mapping 되어 있는 BAM 파일을 사용하며, 해당 그룹별 리드의 구분을 위한 프로그램을 작성하여 상기 선별 단계를 실시하였다.
<분류된 변이군 또는 대조군에 대한 다양성 지수 산출>
본 실시예에서는 다양성 지수의 산출은 <리드의 분류>에 서술된 2가지 조건에 따른 그룹을 대상으로 실시하였다. 리드쌍의 위치 정보가 같을 경우 같은 그룹으로 분류되며, 도 6의 변이군 내 G1 내지 G3, 대조군 내 G1 내지 G14가 여기에 해당한다. 같은 리드 위치를 공유하는 리드쌍 중 UID 당 유일한 한 개의 리드쌍만 남겨 두고 증폭된 리드쌍을 모두 제거하였을 때, 남아있는 리드의 개수는 UID의 유일한 조합과 같으며, 상기 UID에 따라 분류된 변이군 또는 대조군 내 리드 쌍의 개수가 도 6의 count 값으로 평가된다.
한편, 상기의 과정을 후보 변이 A를 검출하는 과정 적용하면, 우선, A 변이를 포함하는 위치에 mapping되는 리드와 해당 리드에 대한 짝을 선별한다. 이후, 상기 리드들 중에서, A 변이를 가진 리드쌍과 A 변이의 위치에 레퍼런스 시퀀스를 갖는 리드쌍을 구분하여 변이군과 대조군으로 분류한다. 이후, 변이군과 대조군에서 각각 리드쌍의 위치와 길이 정보를 통해 얻은 주형 DNA의 위치 정보가 일치하는 리드쌍을 하나의 다양성 그룹(도 6의 변이군 내 G1 내지 G3, 대조군 내 G1 내지 G14)으로 분류한 후 해당 다양성 그룹마다 중복되지 않는 UID 개수를 산출한다(도 6의 Count 값). 이후, 하기 기술한 바와 같이, 얻어진 지표들을 통해 다양성 지수를 수득한다. 일례로서, 하기 수학식 1에 의한 Shannon diversity 지수를 사용하여 다양성 지수를 산출한다.
[수학식 1]
Figure 112019101714828-pat00007
상기 수학식 1에서, s는 동일한 위치 정보를 갖는 리드쌍 종류의 총 개수이고; ni는 동일한 위치 정보를 갖는 i번째 리드쌍 중 UID에 의해 분류된 리드쌍 종류의 개수이며, N은 상기 위치 정보 및 UID에 의해 분류된 리드쌍 종류의 총 개수일 수이다.
구체적으로, 도 6의 실험 결과에 대입하여 살펴보면, G1 내지 G3으로 이루어진 변이군에 대한 지표는 s=3; P1(n1/N)= 10/13, 0.769231; P2(n2/N)= 2/13, 0.153846; 및 P3(n3/N)= 1/13, 0.076923이며, 이에 따른 다양성 지수(H 값)는 0.687092임을 알 수 있다. 또한, G1 내지 G14로 이루어진 대조군에 대한 지표 역시 상기와 같은 방식으로 적용하여, 대조군의 다양성 지수로서 2.634483을 산출할 수 있다.
<다양성 지수의 비교에 따른 위양성 변이 검출>
본 실시예에서는 통계 검정을 통해 변이군의 리드쌍과 대조군의 리드쌍간 유의성을 평가함으로써, 위양성 존재 여부를 확인하였다. 일례로서, 하기 수학식 2에 따라, 변이군 또는 대조군의 다양성 지수에 대한 통계적 유의성을 평가하였다(Hutcheson t-test).
[수학식 2]
Figure 112019101714828-pat00008
상기 수학식 2에서, H1는 변이군의 다양성 지수, 예를 들어, 변이군의 샤논 다양성 지수, H2는 대조군의 다양성 지수, 예를 들어, 대조군의 샤논 다양성 지수이고, S1 2은 변이군의 분산값, S2 2는 대조군의 분산값일 수 있다. 여기서, 상기 변이군 또는 대조군의 분산값은 하기 수학식 3에 의해 산출할 수 있다.
[수학식 3]
Figure 112019101714828-pat00009
상기 수학식 3에서, S2 H는 변이군 또는 실험군의 다양성 지수에 대한 분산을 나타내며, S는 동일한 위치 정보를 갖는 리드쌍 종류의 총 개수, P는 수학식 1의 ni/N, 및 N은 상기 위치 정보 및 UID에 의해 분류된 리드쌍 종류의 총 개수이다. 구체적으로, 도 6의 실험 결과에 대입하여 살펴보면, G1 내지 G3으로 이루어진 변이군에 대한 지표는 S=3, P1(n1/N)= 10/13, 0.769231; P2(n2/N)= 2/13, 0.153846; 및 P3(n3/N)= 1/13, 0.076923; 및 N=13이며, 이에 따른 변이군의 분산값(S2 H)은 0.054067임을 알 수 있다. 또한, G1 내지 G14로 이루어진 대조군에 대한 지표 역시 상기와 같은 방식으로 적용하여, 대조군의 분산값으로서 0.000269을 산출할 수 있다.
이후, 상기 변이군 및 대조군 각각으로부터 산출된 다양성 지수와 분산 S2 H를 활용하여 산술량 t를 산출한 뒤, 이를 통해 변이군의 다양성 지표가 대조군의 다양성 지표보다 크다는 가설을 기각할 수 있다면 해당 변이는 위양성 변이로 판단 가능하다. 구체적으로, 수학식 2에 따라 다양성 지수에 대한 통계치를 산출하여 얻은 t-statistics를 t-distribution에 대입하여, 변이군의 다양성 지수가 대조군의 다양성 지수보다 크다는 가설 두고, 단측 검정을 시행한다. p-value 값이 0.05보다 큰 경우, 변이군의 다양성 지표가 대조군에 비해 유의하게 낮다는 대립 가설은 기각되며, 이에 따라, 상기 변이군은 위양성이 존재하지 않는 것으로 평가할 수 있다. 반대로, 도 6에 나타낸 바와 같이 p-value 값이 0.05보다 낮은 경우(0.00000069), 변이군의 다양성 지표가 대조군에 비해 유의하게 낮다는 대립 가설을 채택할 수 있고, 이에 따라, 상기 변이군은 위양성이 존재하는 것으로 평가할 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
110 : 리드 및 위치 정보 수득 단계
120 : 리드 분류 단계
130 : 다양성 지수 산출 단계
140 : 변이군의 위양성 평가 단계
300 : 위양성 변이를 검출하는 장치
310 : 데이터 수집부
320 : 데이터 분류부
330 : 다양성 지수 산출부
340 : 위양성 평가부

Claims (14)

  1. 컴퓨터를 이용한 시스템에서,
    데이터 수집 수단이 표적 시료에서 추출 및 절편화된 복수 개의 핵산으로부터, 후보 변이 위치를 포함하는 복수 개의 리드 및 상기 후보 변이 위치를 포함하는 각각의 리드에 대한 위치 정보를 수득하는 단계;
    데이터 분류 수단이 상기 수득된 후보 변이 위치를 포함하는 복수 개의 리드에 대하여, 동일한 위치 정보를 갖는 복수 개의 리드를 하나의 다양성 그룹으로 선정하고, 상기 선정된 각각의 다양성 그룹에서 고유 식별자(Unique identifier: UID)에 의해 분류된 리드의 개수 산출하는 다양성 그룹의 분류 단계, 및 상기 복수 개의 리드에 대하여 후보 변이가 포함된 변이군 또는 후보 변이가 포함되지 않은 대조군으로 분류하는 변이군 분류 단계를 실시하는 단계;
    다양성 지수 산출 수단이 상기 분류된 변이군 또는 대조군의 위치 정보에 대한 다양성 지수를 산출하는 단계로서, 상기 단계는 샤논 다양성 지수(Shannon diversity index: Hs), 심슨 지수(Simpson index: Ds), 심슨 역지수 (Simpson's reciprocal index: 1/D), 또는 버거-파커 지수(Berger-Parker index: DBP)에 의해 다양성 지수를 산출하는 것이며; 및
    위양성 평가 수단이 상기 산출된 변이군 또는 대조군의 위치 정보에 대한 다양성 지수에 따라 상기 변이군의 위양성 여부를 평가하는 단계로서, 상기 단계는 통계적 검정법을 통하여, 변이군의 위치 정보에 대한 다양성 지수가 대조군과 유의적인 차이를 나타내는 경우, 상기 변이군을 위양성으로 평가하는 단계를 포함하는, 핵산 서열 분석에서 위양성 변이를 검출하는 방법.
  2. 청구항 1에 있어서, 상기 핵산 서열 분석은 차세대 염기서열 분석(next generation sequencing: NGS), 표적 염기서열 분석(targeted sequencing), 표적 딥 염기서열 분석(targeted deep sequencing), 또는 패널 염기서열 분석(panel sequenceing)인 것인 방법.
  3. 청구항 1에 있어서 상기 핵산은 유전체(genome) 또는 그의 절편인 것인 방법.
  4. 청구항 1에 있어서, 상기 위치 정보를 수득하는 단계는 상기 후보 변이 위치를 포함하는 리드에 대한 paired-end 리드를 수득하는 단계; 및
    상기 수득된 paired-end 리드로부터 상기 후보 변이 위치를 포함하는 리드에 대한 위치 정보를 수득하는 단계를 포함하는 것인 방법.
  5. 삭제
  6. 청구항 1에 있어서, 상기 다양성 지수는 하기 수학식 1에 의해 산출하는 것인 방법:
    [수학식 1]
    Figure 112019101714828-pat00010

    상기 수학식 1에서, s는 동일한 위치 정보를 갖는 리드 종류의 총 개수이고, ni는 동일한 위치 정보를 갖는 i번째 리드 중 고유 식별자에 의해 분류된 리드 종류의 개수이며, N은 위치 정보 및 고유 식별자에 의해 분류된 리드 종류의 총 개수이다.
  7. 삭제
  8. 청구항 1 내지 4 및 6 중 어느 한 항의 방법을 실행시키기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체.
  9. 표적 시료에서 추출 및 절편화된 복수 개의 핵산으로부터 후보 변이 위치를 포함하는 복수 개의 리드 및 상기 후보 변이 위치를 포함하는 각각의 리드에 대한 위치 정보를 수득하는 데이터 수집부;
    상기 수득된 후보 변이 위치를 포함하는 복수 개의 리드에 대하여, 동일한 위치 정보를 갖는 복수 개의 리드를 하나의 다양성 그룹으로 선정하고, 상기 선정된 각각의 다양성 그룹에서 고유 식별자(Unique identifier: UID)에 의해 분류된 리드의 개수 산출하는 다양성 그룹의 분류 단계, 및 상기 복수 개의 리드에 대하여 후보 변이가 포함된 변이군 또는 후보 변이가 포함되지 않은 대조군으로 분류하는 변이군 분류 단계를 실시하는 데이터 분류부;
    상기 분류된 변이군의 위치 정보에 대한 다양성 지수를 산출하는 다양성 지수 산출부; 및
    상기 산출된 변이군 또는 대조군의 다양성 지수에 따라 상기 변이군의 위양성 여부를 평가하는 위양성 평가부를 포함하며, 상기 위양성 평가부는 통계적 검정법을 통하여, 변이군의 위치 정보에 대한 다양성 지수가 대조군과 유의적인 차이를 나타내는 경우, 상기 변이군을 위양성으로 평가하는 것이고,
    상기 다양성 지수 산출부는 샤논 다양성 지수(Shannon diversity index: Hs), 심슨 지수(Simpson index: Ds), 심슨 역지수 (Simpson's reciprocal index: 1/D), 또는 버거-파커 지수(Berger-Parker index: DBP)에 의해 다양성 지수를 산출하는 것인, 핵산 서열 분석에서 위양성 변이를 검출하는 장치.
  10. 청구항 9에 있어서, 상기 핵산 서열 분석은 차세대 염기서열 분석, 표적 염기서열 분석, 표적 딥 염기서열 분석, 또는 패널 염기서열 분석인 것인 장치.
  11. 청구항 9에 있어서, 상기 데이터 수집부는 상기 후보 변이 위치를 포함하는 리드에 대한 paired-end 리드로부터 위치 정보를 수득하는 것인 장치.
  12. 삭제
  13. 청구항 9에 있어서, 상기 다양성 지수 산출부는 하기 수학식 1에 의해 산출하는 것인 장치:
    [수학식 1]
    Figure 112019101714828-pat00011

    상기 수학식 1에서, s는 동일한 위치 정보를 갖는 리드 종류의 총 개수이고, ni는 동일한 위치 정보를 갖는 i번째 리드 중 고유 식별자에 의해 분류된 리드 종류의 개수이며, N은 위치 정보 및 고유 식별자에 의해 분류된 리드 종류의 총 개수이다.
  14. 삭제
KR1020190123369A 2019-10-04 2019-10-04 핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치 KR102347463B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190123369A KR102347463B1 (ko) 2019-10-04 2019-10-04 핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190123369A KR102347463B1 (ko) 2019-10-04 2019-10-04 핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20210040714A KR20210040714A (ko) 2021-04-14
KR102347463B1 true KR102347463B1 (ko) 2022-01-06

Family

ID=75477720

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190123369A KR102347463B1 (ko) 2019-10-04 2019-10-04 핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102347463B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102529553B1 (ko) * 2022-03-21 2023-05-10 주식회사 아이엠비디엑스 핵산 서열 분석에서 위양성 변이를 판별하는 방법
KR20230155107A (ko) * 2022-05-03 2023-11-10 (주)디엑솜 진양성 변이 및 위양성 변이를 구별하는 PiSeq 장치 및 알고리즘

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Emil Christensen 외, Optimized targeted sequencing of cell-free plasma DNA from bladder cancer patients, Scientific Reports, 2018.01.30., Vol.8, No.1917, pp1-11.*
Pierre Martinez 외, Quantification of within-sample genetic heterogeneity from SNP-array data, Scientific Reports, 2017.06.12., Vol.7, No.3248, pp1-12.*

Also Published As

Publication number Publication date
KR20210040714A (ko) 2021-04-14

Similar Documents

Publication Publication Date Title
EP2852680B1 (en) Methods and processes for non-invasive assessment of genetic variations
EP3011051B1 (en) Method for non-invasive assessment of genetic variations
US20190233883A1 (en) Methods and compositions for analyzing nucleic acid
KR102347463B1 (ko) 핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치
US20240029890A1 (en) Computational modeling of loss of function based on allelic frequency
CA3059865A1 (en) Systems and methods for performing and optimizing performance of dna-based noninvasive prenatal screens
JP2023060046A (ja) 脱アミノ化に誘導される配列エラーの補正
KR101882866B1 (ko) 시료의 교차 오염 정도를 분석하는 방법 및 장치
EP3409788B1 (en) Method and system for nucleic acid sequencing
US20200216888A1 (en) Method for increasing accuracy of analysis by removing primer sequence in amplicon-based next-generation sequencing
KR102347464B1 (ko) 핵산서열 분석에서 진양성 변이를 판별하는 방법 및 장치
US20220399079A1 (en) Method and system for combined dna-rna sequencing analysis to enhance variant-calling performance and characterize variant expression status
JP6980907B2 (ja) 無細胞核酸から得られた配列分析データに係わる背景対立因子の頻度分布を生成する方法、及びそれを利用して無細胞核酸から変異を検出する方法
KR101967879B1 (ko) 핵산 서열분석에서 uid 핵산 서열의 순결도를 측정하는 방법
US20200075124A1 (en) Methods and systems for detecting allelic imbalance in cell-free nucleic acid samples
WO2024044668A2 (en) Next-generation sequencing pipeline for detection of ultrashort single-stranded cell-free dna

Legal Events

Date Code Title Description
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)