KR20200013709A

KR20200013709A - 서열 변이체 콜에 대한 검증방법 및 시스템

Info

Publication number: KR20200013709A
Application number: KR1020197038490A
Authority: KR
Inventors: 첸 자오; 팅팅 지앙
Original assignee: 일루미나, 인코포레이티드
Priority date: 2017-11-30
Filing date: 2018-11-30
Publication date: 2020-02-07
Also published as: KR102356323B1; IL271235A; WO2019108972A1; CA3067425A1; US20190206510A1; EP3718113A1; AU2021269294B2; CN110870016A; JP7013490B2; JP2020524499A; AU2021269294A1; AU2018375785A1; CA3067425C

Abstract

게놈 서열 데이터에서 서열 변이체를 식별 및/또는 검증하기 위한 기술이 본 명세서에서 제공된다. 이 기술은 상기 게놈 서열 데이터에 존재하는 서열 에러를 반영하는 에러율을 생성하는 것을 포함한다. 상기 에러율은 잠재적 서열 변이를 검증하는데 사용될 수 있다. 상기 에러율은 개별 고유 분자 식별자와 관련된 서열 리드에 대한 컨센서스 서열 확인 동안 식별된 에러들에 기초할 수 있다.

Description

서열 변이체 콜에 대한 검증방법 및 시스템

관련 출원에 대한 상호 참조

본 출원은 2017년 11월 30일자로 출원된 "VALIDATION METHODS AND SYSTEMS FOR SEQUENCE VARIANT CALLS"이라는 명칭의 미국 가출원 제62/593,095호를 우선권으로 주장하며, 그 개시내용은 모든 목적을 위해 본 명세서에 참고로 원용된다.

기술분야

본 발명은 일반적으로 서열 데이터와 같은 생물학적 샘플과 관련된 데이터 분야에 관한 것이다. 보다 구체적으로, 본 개시는 서열분석, 즉, 시퀀싱(sequencing) 시행 동안 얻어진 시퀀싱 데이터에 기초하여 서열 변이체 콜(sequence variant call)을 검증하는 기술에 관한 것이다.

유전자 시퀀싱은 유전자 연구에서 점점 더 중요한 영역이 되고 있으며 진단 및 다른 응용에서의 미래의 사용을 약속한다. 일반적으로, 유전자 시퀀싱은 RNA 또는 DNA의 단편과 같은 핵산에 대한 뉴클레오타이드의 순서를 결정하는 것을 포함한다. 차세대 시퀀싱(NGS)은 생물학적 시료에서 서열 변이체를 식별하는 기능을 제공한다. NGS 테스트에는 단일 뉴클레오타이드 변이체(SNV), 작은 삽입 및 결실(indel), 다중 뉴클레오타이드 변이체(MNV), 유전자 증폭(CNV)의 식별을 위한 DNA 워크 플로우가 포함된다. NGS 테스트에는 스플라이스 변이체 및 유전자 융합을 식별하기 위한 RNA 워크 플로우도 포함된다. 서열 변이체는 샘플 핵산 서열이 서열을 따라 하나 이상의 염기쌍 위치에서 참조 또는 기준 서열과 상이한 것으로 판정될 때 확인된다. 하나 이상의 서열 변이체의 확인은 환자 샘플을 규명하고, 임상 상태를 진단하고 및/또는 질병 (예를 들어, 암)의 진행을 분류하기 위해 사용될 수 있다.

그러나, 서열 변이체의 검증은 복잡하다. 특정 시퀀싱 기술은 변이체 콜과 관련하여 잘못된 양성 신호를 경험한다. 예를 들어, 상기 기술은 변이체가 특정 위치(염기쌍)에서 샘플 서열에 존재한다고 잘못 판정하고 및/또는 변이체의 유형을 잘못 식별할 수 있는데 이것은 식별된 서열 변이체에서 거짓 양성을 초래한다. 거짓 양성 서열 변이체는 샘플 준비 단계에서 샘플 자체에 도입된 오류의 결과일 수 있고/있거나 증폭 또는 서열 수득 동안 도입된 체계적인 오류의 결과일 수 있다. 또한, 특정 유형의 샘플 (예를 들어, FFPE 샘플)은 오류가 발생하기 쉽다. 능률적이고 비용-효율적인 방식으로 다수의 거짓 양성을 감소시키면서 DNA 변이체를 정확하게 식별할 수 있는 시퀀싱 방법 및 시스템에 대한 요구가 남아 있다.

정의

특허, 특허 출원, 기사, 서적, 논문 및 웹 페이지를 포함하지만 이에 제한되지 않는 본 출원에 인용된 모든 문헌 및 유사물은 이러한 문헌 및 유사한 물질의 형식에 관계없이 전체적으로 본 명세서에 명시적으로 통합되어 있다. 정의된 용어, 용어 사용, 기재된 기술 등을 포함하지만 이에 제한됨이 없이, 하나 이상의 통합된 문헌 및 유사물이 본 출원과 상이하거나 상반되는 경우 본 출원이 제어한다. 본 명세서에 사용된 용어는 하기 지시된 의미를 갖는다.

용어 "염색체"는 DNA 및 단백질 성분 (특히 히스톤)을 포함하는 염색질 가닥으로부터 유래된, 살아있는 세포의 유전성-보유 유전자 운반체를 지칭한다. 종래의 국제적으로 인정된 개별 인간 게놈 염색체 넘버링 시스템이 본 명세서에 사용된다.

"부위(site)"라는 용어는 참조 게놈상의 고유한 위치(예를 들어, 염색체 ID, 염색체 위치 및 배향)를 지칭한다. 일부 구체 예에서, 부위는 잔기, 서열 태그 또는 서열상의 세그먼트의 위치일 수 있다. 용어 "좌위"(locus)는 참조 염색체상의 핵산 서열 또는 다형성의 특정 위치를 지칭하기 위해 사용될 수 있다.

본 명세서에서 용어 "샘플" 또는 "생물학적 샘플"은 전형적으로 핵산 또는 핵산의 혼합물을 함유하는 생물학적 유체, 세포, 조직, 기관 또는 유기체로부터 유래된 샘플을 지칭하며, 여기서 상기 핵산 또는 핵산의 혼합물은 시퀀싱 및/또는 페이징(phasing)되는 적어도 하나의 핵산 서열을 포함한다. 이러한 샘플에는 객담/구내액, 양수, 혈액, 혈액 분획, 미세 침 생검 샘플(예컨대, 외과적 생검, 미세 침 생검 등), 소변, 복막액, 흉막액, 조직 이식편, 기관 배양물 및 다른 조직 또는 세포 제제, 또는 분획물 또는 그 유도체 또는 그로부터의 분리물을 포함하나 이에 제한되지 않는다. 샘플은 종종 인간 대상체(예를 들어, 환자)로부터 채취되지만, 개, 고양이, 말, 염소, 양, 소, 돼지 등을 포함하지만 이에 제한되지 않는, 염색체를 갖는 임의의 유기체로부터 채취할 수 있다. 상기 샘플은 생물학적 공급원으로부터 얻어진 그대로 또는 샘플의 특성을 변형하기 위해 전처리 후 사용될 수 있다. 예를 들어, 이러한 전처리는 혈액으로부터 혈장을 제조하고, 점성 유체를 희석하는 등의 처리를 포함할 수 있다. 전처리 방법은 또한 여과, 침전, 희석, 증류, 혼합, 원심 분리, 동결, 동결 건조, 농축, 증폭, 핵산 단편화, 방해 성분의 불활성화, 시약의 첨가, 용해(lysis) 등을 포함할 수 있으나, 이에 제한되지는 않는다.

용어 "서열"은 서로 연결된 뉴클레오타이드 가닥을 포함하거나 나타낸다. 상기 뉴클레오타이드는 DNA 또는 RNA에 기초할 수 있다. 하나의 서열은 다수의 하위서열을 포함할 수 있음을 이해해야 한다. 예를 들어, 단일 서열 (예를 들어, PCR 앰플리콘의)은 350개의 뉴클레오타이드를 가질 수 있다. 샘플 리드(read)는 이들 350 개 뉴클레오타이드 내의 다수의 하위서열을 포함할 수 있다. 예를 들어, 샘플 리드는 예를 들어 20 내지 50개의 뉴클레오타이드를 갖는, 제1 및 제2 플랭킹 하위서열을 포함할 수 있다. 제1 및 제2 플랭킹 하위서열은 상응하는 하위서열(예를 들어, 40 내지 100개의 뉴클레오타이드)을 갖는 반복 세그먼트의 어느 한 쪽에 위치될 수 있다. 플랭킹 하위서열 각각은 프라이머 하위서열(예를 들어, 10 내지 30개의 뉴클레오타이드) 또는 그 일부를 포함할 수 있다. 용이한 리딩을 위해 용어 "하위서열"은 "서열"로 지칭될 것이나, 2개의 서열이 반드시 공통 가닥상에서 서로 분리될 필요는 없음이 이해된다. 본 명세서에 기재된 다양한 서열을 구별하기 위해, 서열들에는 상이한 표지(예를 들어, 표적 서열, 프라이머 서열, 플랭킹 서열, 게놈 서열, 샘플 서열, 참조 서열 등)가 제공될 수 있다. "대립 유전자(allele)"와 같은 다른 용어에는 유사한 대상을 구별하기 위해 다른 표지가 부여될 수 있다.

용어 "페어드-엔드 시퀀싱"은 표적 단편의 양 말단을 시퀀싱하는 시퀀싱 방법을 지칭한다. 페어드-엔드 시퀀싱은 유전자 융합 및 신규한 전사체뿐만 아니라 게놈 재배열 및 반복 세그먼트의 검출을 용이하게 할 수 있다. 페어드-엔드 시퀀싱 방법은 PCT 공보 WO 07010252, PCT 출원 일련 번호 PCT GB2007/003798 및 미국 특허출원 공보 US 2009/0088327에 기재되어 있으며, 이들 각각은 본 명세서에 참조로 포함된다. 일례에서, 일련의 운용 단계들이 다음과 같이 수행될 수 있다; (a) 핵산 클러스터를 생성하고; (b) 핵산을 선형화하고; (c) 제1 시퀀싱 프라이머를 혼성화하고, 상술한 바와 같이 연장, 스캐닝 및 디블로킹의 반복 사이클을 수행하고; (d) 상보적 사본을 합성하여 플로우 셀 표면의 표적 핵산을 반전시키고(invert); (e) 재합성 스트랜드를 선형화하고; 및 (f) 제2 시퀀싱 프라이머를 혼성화하고 상술한 바와 같이 연장, 스캐닝 및 디블로킹의 반복 사이클을 수행하는 단계. 상기 반전 작업은 단일 사이클의 브릿지 증폭에 대해 전술한 바와 같은 시약을 전달하여 수행 할 수 있다.

용어 "참조 게놈(reference genome)", "참조 서열" 또는 "베이스라인 서열"은 대상체로부터 확인된 서열을 참조하기 위해 사용될 수 있는, 임의의 유기체의 부분 혹은 전체의 특정한 알려진 게놈 서열 및 하나 이상의 서열 변이체가 판정될 수 있는 관련 물질을 지칭한다. 예를 들어, 다른 많은 유기체뿐만 아니라 인간 대상체에 사용되는 참조 게놈은 ncbi.nlm.nih.gov의 국립 생명공학정보센터에서 찾을 수 있다. "게놈" 또는 게놈 서열은 핵산 서열 내에 발현된, 유기체 또는 바이러스의 완전한 유전 정보를 지칭한다. 게놈에는 유전자와 DNA의 비암호화 서열이 모두 포함된다. 참조 서열은 그에 정렬된 리딩보다 클 수 있다. 예를 들어, 약 100배 이상, 또는 약 1000배 이상, 또는 약 10,000배 이상, 또는 약 10⁵배 이상, 또는 약 10⁶배 이상 또는 약 10⁷배 이상일 수 있다. 일례에서, 참조 게놈 서열은 전장 인간 게놈의 서열이다. 또다른 예에서, 참조 게놈 서열은 특정 인간 염색체로 제한된다. 참조 게놈이라는 용어는 이러한 서열을 포함하도록 의도되었지만, 이러한 서열은 염색체 참조 서열로 지칭될 수 있다. 참조 서열의 다른 예는 임의의 종의 염색체, 서브-염색체 영역(가닥과 같은)뿐만 아니라 다른 종의 게놈을 포함한다.

또 다른 실시형태에서, 참조 서열은 표적화된 시퀀싱 패널과 정렬되는 게놈의 서브세트에 대한 서열 정보를 포함할 수 있다. 다양한 구체 예에서, 참조 게놈은 컨센서스 서열 또는 다수의 개체로부터 유래된 다른 조합이다. 즉, 참조 서열은 가정적이거나 대표적인 서열일 수 있다. 그러나, 특정 적용에서, 참조 서열은 특정 개체로부터 취해질 수 있다. 한 구체 예에서, 참조 서열은 정상 서열이고, 관심 샘플은 동일한 개체로부터의 매칭된 종양 서열이다. 다른 실시형태에서, 참조 서열은 제1 시점에서 취해지고 샘플 서열은 후속하는 제2 시점에서 취해진다. 본 명세서에서 제공된 바와 같이, 참조 서열은 서열 변이체가 그에 따라 판정되는 관련 기초로서 사용될 수 있다. 참조 서열은 프로세서 실행 명령에 따라 액세스 및/또는 작동될 수 있는 저장된 데이터 파일로서 제공될 수 있다. 또한, 본 명세서에서 제공된 바와 같은 시스템은 관심 샘플 및/또는 시퀀싱 유형(전체 게놈, 표적화된 서열 분석)과 관련된 사용자 입력에 기초하여 선택될 수 있는 상이한 참조 서열의 저장된 세트를 포함할 수 있다. 일 실시형태에서, 개별 사용자로부터의 샘플이 시퀀싱될 수 있고, 게놈 서열 데이터 상에서(예를 들어, 클라우드 컴퓨팅 환경으로부터) 서열 변이체 작동에 대한 입력으로서 적절한 참조 서열이 액세스될 수 있다.

용어 "리드(read, 판독)" 또는 "서열 리드(sequence read)"는 뉴클레오타이드 주형 또는 템플릿(template) 샘플의 단편 또는 참조를 기술하는 서열 데이터의 수집을 지칭한다. 상기 단편은 샘플 제조 동안 생성된 단편 일 수 있다. "리드"라는 용어는 (관심 생물학적 샘플로부터의) 샘플 리드 및/또는 참조 리드(참조 샘플의 시퀀싱의 일부로서 획득된 서열 판독)을 지칭할 수 있다. 리드는 샘플 또는 참조에서 연속적인 짧은 염기쌍의 짧은 서열을 나타낼 수 있다. 리드는 샘플 또는 참조 단편의 염기쌍 서열(ATCG)로 상징적으로 표현될 수 있다. 리드는 참조 서열과 매치되거나 이와 비교하여 차이가 있는지 또는 다른 기준을 만족하는지를 판정하기 위해 메모리 장치에 저장되고 적절하게 처리될 수 있다. 서열 리드는 시퀀싱 장치로부터 직접 얻을 수 있거나 그 샘플에 관한 저장된 서열 정보로부터 액세스될 수 있다. 일부 경우에, 리드는 예를 들어 정렬되고, 함께 스티칭되고, 염색체, 또는 게놈 영역 또는 게놈 어셈블리의 일부인 유전자에 특이적으로 할당되는 등 더 큰 서열 또는 영역을 식별하는데 사용될 수 있는 충분한 길이(예를 들어, 약 25bp 이상)를 갖는 DNA 서열이다. 용어 "샘플 리드", "샘플 서열" 또는 "샘플 단편"은 샘플로부터 관심 게놈 서열의 서열 데이터를 지칭한다. 예를 들어, 일 실시형태에서, 샘플 판독은 정방향 및 역방향 프라이머 서열을 갖는 PCR 앰플리콘으로부터의 서열 데이터를 포함한다. 상기 서열 데이터는 임의의 적절한 서열 방법론으로부터 얻을 수 있다. 샘플 판독은 예를 들어 SBS(sequencing-by-synthesis) 반응, sequencing-by-ligation 반응, 또는 길이를 결정 및/또는 반복 요소를 식별하는데 바람직한 임의의 다른 적합한 시퀀싱 방법론으로부터 가능할 수 있다. 샘플 판독은 컨센서스 (예를 들어, 평균화된 또는 가중된) 서열 또는 복수의 샘플 판독으로부터 유도된 붕괴(collapsed)된 서열일 수 있다.

차세대 시퀀싱(NGS) 방법은 예를 들어 합성 기술에 의한 시퀀싱(Illumina), 파이로 시퀀싱(454), 이온 반도체 기술(Ion Torrent 시퀀싱), 단일 분자 실시간 시퀀싱(Pacific Biosciences) 및 결찰(ligation)에 의한 시퀀싱(SOLiD 시퀀싱)을 포함할 수 있다. 시퀀싱 방법에 따라, 각각의 판독의 길이는 약 30 bp 내지 10,000 bp를 초과할 수 있다. 예를 들어, SOLiD 시퀀서를 사용한 일루미나 시퀀싱 방법은 약 50 bp의 핵산 리드를 생성한다. 다른 예에서, 이온 토런트 시퀀싱은 최대 400 bp의 핵산 리드를 생성하고 454 파이로 시퀀싱은 약 700 bp의 핵산 리드를 생성한다. 또 다른 예에서, 단일 분자 실시간 시퀀싱 방법은 10,000 bp 내지 15,000 bp의 판독을 생성할 수있다. 따라서, 특정 실시형태에서, 본 명세서에서 제공된 리드의 길이는 30-100 bp, 50-200 bp 또는 50-400 bp의 길이를 갖는다.

용어 "정렬된", "정렬" 또는 "정렬하기"는 판독 또는 태그를 참조 서열과 비교하여 참조 서열이 상기 판독 서열을 함유하는지 여부를 결정하는 과정을 지칭한다. 참조 서열이 상기 판독을 포함하는 경우, 상기 판독은 참조 서열에 매핑될 수 있거나 특정 실시예에서는 참조 서열의 특정 위치에 매핑될 수 있다. 일부 경우에, 정렬은 단순히 판독이 특정 기준 서열의 구성원인지의 여부 (즉, 판독이 기준 서열에 존재하는지 부재하는지)를 단순히 알려준다. 어떤 경우에는 부수적으로, 정렬은 읽기 또는 태그가 매핑되는 참조 서열에서의 위치를 나타낸다. 예를 들어, 참조 서열이 전체 인간 게놈 서열인 경우, 정렬은 판독이 특정 염색체에 존재함을 나타낼 수 있고, 상기 리드가 염색체의 특정 가닥 및/또는 부위에 있음을 추가로 나타낼 수 있다.

용어 "변이체(variant)"또는 "서열 변이체"는 참조 서열과 상이한 핵산 서열을 지칭한다. 전형적인 핵산 서열 변이체는 단일 뉴클레오타이드 다형성(SNP), 짧은 결실 및 삽입 다형성(Indel), 카피 수 변이(CNV), 마이크로세털라이트 마커 또는 짧은 탠덤 반복 및 구조적 변이를 제한없이 포함한다. 변이체는 또한 적어도 4개의 반복 뉴클레오타이드, 예를 들어 AAAA, GGGG, CCCC, TTTT 를 갖는 호모폴리머 영역에서 발생할 수 있다. 본 명세서에서 제공된 체세포 변이체 콜, 서열 변이체 콜 또는 변이체 콜은 관심 샘플에 존재하는 서열 변이체의 확인 및/또는 검증을 지칭한다. 일 구현예에서, 변이체 콜은 암 진행을 특징짓기 위해 사용될 수 있다. 예를 들어, 단일 뉴클레오타이드 변이는 주어진 염기를 커버하는 특정 비율의 리드에서 볼 수 있다.

용어 "인델"(indel)은 유기체의 DNA에서 염기의 삽입 및/또는 결실을 지칭한다. 마이크로-인델은 1 개 내지 50 개 뉴클레오타이드의 순 변화를 초래하는 인델을 나타낸다. 게놈의 코딩 영역에서 인델의 길이가 3의 배수가 아닌 한, 프레임 시프트 돌연변이를 생성할 것이다. 인델은 점 돌연변이와 대조될 수 있다. 인델은 서열에서 뉴클레오타이드를 삽입하고 삭제하는 반면, 점 돌연변이는 DNA의 전체 수를 변경하지 않고 뉴클레오타이드 중 하나를 대체하는 치환 형태이다. 인델은 또한 인접한 뉴클레오타이드에서의 치환으로 정의될 수있는 탠덤 염기 돌연변이(TBM)와 대조될 수 있다 (주로 2개의 인접한 뉴클레오타이드에서의 치환, 그러나 3개의 인접한 뉴클레오타이드에서의 치환이 관찰되었다).

용어 "변이체 빈도(variant frequency)" 또는 "변이체 대립유전자 빈도"는 집단의 특정 유전자좌에서 대립 유전자의 상대 빈도(유전자 변이)를 분수(fraction) 또는 백분율로 나타낸다. 예를 들어, 상기 분율 또는 백분율은 해당 대립 유전자를 보유하는 집단에서 모든 염색체의 분율일 수 있다. 예를 들어, 샘플 변이 빈도는 관심 게놈 서열에 대해 개체로부터 수득된 리드 및/또는 샘플의 수에 상응하는 "집단" 위의 관심 게놈 서열을 따라 특정 유전자좌/위치에서 대립 유전자/변이체의 상대 빈도를 나타낸다. 또 다른 예로서, 베이스라인 변이 빈도는 하나 이상의 베이스라인 게놈 서열을 따라 특정 좌위/위치에서 대립 유전자/변이체의 상대 빈도를 나타내며, 여기서 "집단"은 정상 개체 집단으로부터의 하나 이상의 베이스라인 게놈 서열에 대해 얻어지는 리드 및/또는 샘플 수에 상응한다.

용어 "위치", "지정된 위치(designated position)" 및 "좌위"는 뉴클레오타이드 서열 내의 하나 이상의 뉴클레오타이드의 위치 또는 좌표를 지칭한다. 또한, 용어 "위치", "지정된 위치" 및 "좌위"는 뉴클레오타이드 서열에서 하나 이상의 염기쌍의 위치 또는 좌표를 지칭한다.

용어 "하플로타입"은 함께 유전되는 염색체상의 인접 부위에 있는 대립 유전자의 조합을 지칭한다. 하플로타입은 주어진 유전자좌 세트 사이에서(발생할 경우)발생한 재조합 이벤트의 수에 따라 하나의 좌위, 여러 좌위 또는 전체 염색체일 수 있다.

본 명세서에서 용어 "임계값(threshold)"은 샘플, 핵산 또는 이의 일부 (예를 들어, 리드)를 특징짓기 위해 컷오프(cutoff)로서 사용되는 숫자 또는 비숫자 값을 지칭한다. 임계값은 경험적 분석에 기초하여 변할 수 있다. 상기 임계값은 그러한 값을 발생시키는 소스가 특정 방식으로 분류되어야 하는지 여부를 결정하기 위해 측정된 값 또는 계산된 값과 비교될 수 있다. 임계값은 경험적으로 또는 분석적으로 확인될 수 있다. 임계값의 선택은 사용자가 분류를 원하는 신뢰 수준에 따라 다르다. 임계값은 특정 목적을 위해 (예를 들어, 감도 및 선택성의 균형을 맞추기 위해) 선택될 수 있다. 본 명세서에서 사용되는 용어 "임계치"는 분석 과정이 변경 될 수 있는 지점 및/또는 행위가 트리거될 수 있는 지점을 나타낸다. 임계값은 미리 정해진 숫자일 필요는 없다. 대신에, 상기 임계치는 예를 들어 복수의 인자에 기초한 함수일 수 있다. 임계값은 상황에 따를 수 있다. 또한, 임계값은 상한, 하한 또는 한계 사이의 범위를 나타낼 수 있다.

일부 실시예들에서, 시퀀싱 데이터에 기초한 메트릭 또는 스코어가 임계치와 비교될 수 있다. 본 명세서에 사용된 용어 "메트릭" 또는 "스코어"는 시퀀싱 데이터로부터 결정된 값 또는 결과를 포함할 수 있거나 시퀀싱 데이터로부터 결정된 값 또는 결과에 기초한 기능을 포함할 수 있다. 임계값과 마찬가지로 메트릭 또는 스코어는 상황에 따를 수 있다. 예를 들어, 메트릭 또는 스코어는 정규화된 값일 수 있다. 스코어 또는 메트릭의 예로서, 하나 이상의 실시예는 데이터를 분석할 때 카운트 스코어를 사용할 수 있다. 카운트 스코어는 샘플 판독 수에 기초할 수 있다. 샘플 판독은 하나 이상의 공통적인 특성 또는 품질을 갖도록 하나 이상의 필터링 단계를 겪을 수 있다. 예를 들어, 카운트 스코어를 결정하기 위해 사용되는 각각의 샘플 판독은 참조 서열과 정렬되었거나 잠재적 대립 유전자로서 할당될 수 있다. 공통된 특성을 갖는 샘플 판독의 수는 리드(read) 카운트를 결정하기 위해 카운트될 수 있다. 카운트 스코어는 리드 카운트에 기초할 수 있다. 일부 실시예들에서, 카운트 스코어는 리드 카운트와 동일한 값일 수 있다. 다른 실시 예들에서, 카운트 스코어는 리드 카운트 및 다른 정보에 기초할 수 있다. 예를 들어, 카운트 스코어는 유전자 좌위의 특정 대립 유전자에 대한 리드 수 및 유전자 좌위에 대한 총 리드 수에 기초할 수 있다. 일부 실시형태에서, 카운트 스코어는 리드 유전자 수 및 유전자 좌위에 대한 이전에 획득된 데이터에 기초할 수 있다. 일부 실시예에서, 카운트 스코어는 미리 결정된 값 사이의 정규화된 스코어일 수 있다. 카운트 스코어는 또한 샘플의 다른 좌위로부터의 리드 카운트의 함수 또는 관심 샘플과 동시에 실행 된 다른 샘플로부터의 리드 카운트의 함수일 수 있다. 예를 들어, 카운트 스코어는 특정 대립 유전자의 리드 카운트 및 샘플에서 다른 좌위의 판독 카운트 및/또는 다른 샘플로부터의 판독 카운트의 함수일 수있다. 일례로서, 다른 좌위로부터의 판독 카운트 및/또는 다른 샘플로부터의 판독 카운트는 특정 대립 유전자에 대한 카운트 스코어를 정규화하는데 사용될 수 있다. "가능성 스코어(likelihood score)"는 개시된 실시예에 따른 에러율(error rate) 추정치가 제공된 변이체 부위 당 점수이며, 또한 부분적으로 대안의 판독 카운트 (변이체 샘플 리드 횟수의 수) 및 해당 변이체 부위에 대한 총 리드 카운트에 기초할 수 있다. 실시예에서, 에러율은 여기에 제공된 바와 같이 시퀀스 에러를 갖는 것으로 판정된 서열 리드의 총 카운트에 기초한다. 총 카운트가 높은 생물학적 시료는 총 카운트가 낮은 다른 생물학적 시료보다 에러율이 높은 것으로 간주될 수 있다.

용어 "커버리지", "서열 커버리지(sequence coverage)", "리드 커버리지(read coverage)" 또는 "단편 커버리지"는 동일한 서열의 단편에 대한 다수의 샘플 리드의 카운트 또는 다른 측정을 지칭한다. 서열 리드 카운트는 상응하는 단편을 커버하는 리드 수의 카운트를 나타낼 수 있다. 대안적으로, 커버리지는 이력 지식, 샘플 지식, 좌위 지식 등에 기초한 지정된 인자에 리드 카운트를 곱함으로써 결정될 수 있다.

"대립 유전자 품질(AQ)"은 베이스라인 또는 참조 샘플에 대한 시험 샘플에서 관찰된 대립 유전자 빈도의 품질 스코어이다.

고유 분자 지수 또는 고유 분자 식별자(UMI)는 개별 핵산 분자를 서로 구별하기 위해 사용될 수 있는, 핵산 분자에 적용되거나 핵산 분자 내에 식별되는 뉴클레오타이드의 서열이다. 판독 서열이 하나의 공급원의 핵산 분자인지 또는 다른 것인지를 결정하기 위해 UMI는 이들이 연관된 핵산 분자와 함께 시퀀싱될 수 있다. 용어 "UMI"는 본 명세서에서 폴리뉴클레오타이드의 서열 정보 및 물리적 폴리뉴클레오타이드 그 자체를 지칭하기 위해 사용될 수 있다. UMI는 하나의 샘플의 리드를 다른 샘플의 리드와 구별하기 위해 일반적으로 사용되는 바코드와 유사하지만 대신에 UMI는 개별 샘플에서 유래하는 많은 단편이 함께 시퀀싱될 때 핵산 주형 단편을 다른 것과 구별하기 위해 사용된다. UMI는 단일 또는 이중 가닥일 수 있고, 5개 이상의 염기, 6개 이상의 염기, 7개 이상의 염기, 8개 이상의 염기 또는 그 이상일 수 있다. 특정 구체 예에서, UMI는 길이가 5 내지 8개의 염기, 5 내지 10개의 염기, 5 내지 15개의 염기, 5 내지 25개의 염기, 8 내지 10개의 염기, 8 내지 12개의 염기, 8 내지 15개의 염기 또는 8 내지 25개의 염기 등일 수 있다. 또한, 특정 실시형태에서, UMI는 길이가 30개 이하의 염기, 25개 이하의 염기, 20개 이하의 염기, 15개 이하의 염기이다. 본 명세서에서 제공된 바와 같은 UMI 서열의 길이는 서열의 고유하고/구별 가능한 부분을 지칭할 수 있고 시퀀싱 프라이머로서 작용할 수 있고 상이한 식별자 서열을 갖는 다수의 UMI 간에 공통인 인접한 공통 또는 어댑터 서열 (예를 들어, p5, p7)을 배제할 수 있음을 이해해야 한다.

간단한 설명

본 발명의 개시는 생물학적 샘플에서 서열 변이체의 탐지 및/또는 식별된 서열 변이체의 검증을 위한 새로운 접근 방식을 제공한다. 개시된 기술은 서열 데이터에 존재하는 전체 서열 오류의 특징인 서열 데이터 에러율을 추출하기 위해 서열 조립 및/또는 분석에 사용되는 서열 정보를 이용한다. 이러한 기술은 에러를 감소시키기 위한 다른 기술과 함께 향상되거나 사용될 수 있다. 예를 들어, 모두 동일한 고유 분자 식별자 (UMI)를 포함하거나 이와 연관된 리드(read) 그룹, 서열 리드의 그룹의 오류를 감소시키는 것을 포함한다. 본 명세서에서 제공된 바와 같이, 본 기술은 게놈 서열 데이터의 특징적 에러율을 생성하기 위해 게놈 서열 데이터의 다수의 개별 판독 그룹 내에서 식별된 에러를 추적하고, 일부 실시형태에서 특징화한다. 개별적인 잠재적 서열 변이가 유효한지를 판정하기 위해 에러율이 사용될 수 있다. 예를 들어, 비교적 높은 전체 에러율을 갖는 게놈 서열 데이터의 경우, 잠재적 서열 변이체는 검증되기 전에 보다 엄격한 리드 커버리지 임계치에 놓일 수 있다. 비교적 낮은 전체 에러율을 갖는 게놈 서열 데이터의 경우, 개별 잠재 서열 변이를 검증하기 위해 이러한 샘플에서 더 낮은 리드 커버리지 임계치가 허용될 수 있다. 이러한 방식으로, 서열 변이체의 검증은 에러율에 의해 나타나는 게놈 서열 데이터의 품질에 의존할 수 있다.

본 기술은 서열 변이체의 확인 및 검증에서의 효율 및 정확성을 개선시킨다. 특정 실시형태에서, 본 기술은 적절한 에러율을 갖는 것으로 확인된 샘플에 대해서 낮은 판독 커버리지 및/또는 한정된 이중 가닥의 부재와 관련하여서도 변이체 콜을 허용한다. 특정 실시형태에서, 본 기술은 거짓 양성을 포함할 가능성이 있는 게놈 서열 데이터 또는 이러한 데이터 내의 부위를 식별함으로써 다수의 확인된 거짓 양성 서열 변이체의 수를 감소시킨다. 또한, 본 기술은 의미있는 정보를 추출하기 위해 컨센서스 시퀀스 결정 동안 일반적으로 무시되는 데이터를 이용함으로써, 변이 콜의 효율을 향상시킨다. 즉, 리드(read) 그룹 내에서 이상치(outlier) 시퀀스를 단순히 제거하는 대신에, 본 기술은 이러한 제거된 시퀀스를 식별하여 존재하는 시퀀스 에러의 수 및 어떤 실시예에서는, 그 본질을 결정한다. 특정 샘플의 서열 데이터에서 모든 시퀀싱 에러 또는 특정 유형의 시퀀싱 에러에 대한 전체 또는 글로벌 에러율에 기초하여, 개별 변이체가 검증될 수 있다. 검증 조건은 각 유형의 변화에 대한 에러율에 기초하여 설정될 수 있다. 특정 샘플이 특정 유형의 뉴클레오타이드 변화 (예를 들어, C에서 T로)의 높은 비율의 시퀀싱 오류와 관련이 있는 경우, 대안적인 C에서 T 서열을 갖는 확인된 변이체는 상기 샘플 내에서 낮은 에러율과 관련된 다른 서열을 갖는 변이체에 비해 보다 엄격한 검증 조건을 가질 수 있다.

이와 같이, 개별 샘플에 대한 특징적인 에러율은 샘플마다 결정될 수 있다. 게놈 서열 데이터에서의 에러의 존재는 예측하기 복잡한 다양한 에러 소스와 관련 될 수 있지만, 개시된 실시예는 이러한 에러 소스 및 에러 변동성을 설명하기 위해 맞춤형 방식으로 보다 정확한 서열 변이 정보의 결정을 용이하게 한다.

일 실시예에서, 컴퓨터 구현 방법이 제공된다. 이 방법은 명령어를 실행하는 프로세서의 제어 하에서 실행된다. 상기 방법은 생물학적 샘플의 게놈 서열 데이터를 수신하는 단계를 포함하며, 여기서 게놈 서열 데이터는 복수의 서열 리드(판독)를 포함하고, 각 서열 리드는 복수의 고유 분자 식별자의 고유 분자 식별자와 연관되어 있다. 이 방법은 또한 게놈 서열 데이터의 에러율을 생성하기 위해, 제1 고유 분자 식별자와 연관된 복수의 서열 리드의 제1 서브세트 내의 서열 불일치, 제1 고유분자 식별자와 상보적인 제2 고유 분자 식별자를 갖는 복수의 서열 리드의 제2 서브세트와 제1서브세트 간의 서열 불일치 또는 양자에 기초하여 게놈 서열 데이터에서 에러를 식별하는 단계를 포함한다. 상기 방법은 또한 참조 서열과 비교하여 게놈 서열 데이터에서 복수의 잠재적 서열 변이를 확인하는 단계; 게놈 서열 데이터의 에러율에 기초하여 복수의 잠재적 서열 변이의 거짓 양성 서열 변이를 분류하는 단계; 및 복수의 잠재적 서열 변이로부터 거짓 양성 서열 변이를 제거하여 복수의 서열 변이를 수득하는 단계를 포함할 수 있다.

일 실시예에서, 컴퓨터 구현 방법이 제공된다. 이 방법은 명령어를 실행하는 프로세서의 제어 하에서 실행된다. 상기 방법은 제1 생물학적 샘플의 게놈 서열 데이터를 수신하는 단계를 포함하며, 여기서 상기 게놈 서열 데이터는 복수의 서열 리드(판독)를 포함하고, 각 서열 리드는 복수의 고유 분자 식별자의 고유 분자 식별자와 연관된다. 이 방법은 또한 제1 고유 분자 식별자와 연관된 복수의 서열 리드의 제1 서브세트 내의 제1 서열 차이를 확인하는 단계를 포함한다. 이 방법은 또한 붕괴된(collapsed) 제1 서브세트 서열 리드를 수득하기 위해 제1 서브세트를 붕괴시키는 단계를 포함하며, 여기서 상기 붕괴(collapsing)는 제1 서브세트의 시퀀싱 리드의 소수에 존재하는 서열 차이를 제거하는 것을 포함한다. 이 방법은 또한 제2 고유 분자 식별자와 연관된 복수의 서열 리드의 제2 서브세트 내 제2 서열 차이를 확인하는 단계를 포함하며, 상기 제2 고유 분자 식별자는 적어도 부분적으로 상기 제1 고유 분자 식별자와 상보적이다. 이 방법은 또한 붕괴된 제2 서브세트 서열 리드를 수득하기 위해 제2 서브세트를 붕괴시키는 단계를 포함하며, 여기서 상기 붕괴는 제2 서브세트의 시퀀싱 리드의 소수에 존재하는 서열 차이를 제거하는 것을 포함한다. 이 방법은 또한 상기 붕괴된 제1 서브세트, 붕괴된 제2 서브세트, 또는 붕괴된 제1 서브세트와 붕괴된 제2 서브세트의 이중가닥에서의 베이스라인과 비교하여, 게놈 서열 데이터의 에러율의 함수에 기초하여 서열 변이가 유효한 것으로 결정하는 단계를 포함하며, 상기 에러율은 부분적으로는 확인된 제1 서열 차이 및 확인된 제2 서열 차이에 기초하여 결정된다.

일 실시형태에서 생물학적 샘플의 게놈 서열 데이터에서 서열 변이를 확인하도록 구성된 시퀀싱 장치가 제공된다. 이 장치는 그 안에 저장된 실행 가능한 애플리케이션 명령어을 포함하는 메모리 장치 및 상기 메모리 장치에 저장된 애플리케이션 명령어을 실행하도록 구성된 프로세서를 포함한다. 상기 애플리케이션 명령어는 프로세서가 생물학적 시료의 게놈 서열 데이터를 수신하는 것을 야기하는 명령어를 포함하고, 여기서 상기 게놈 서열 데이터는 각 서열 리드가 복수의 고유 분자 식별자 중 단일의 고유 분자 식별자와 연관되는, 복수의 서열 리드를 포함하고; 게놈 서열 데이터의 에러율을 생성하기 위해 복수의 고유 분자 식별자의 각 고유 분자 식별자와 연관된 서열 리드 사이의 서열 불일치에 기초하여 게놈 서열 데이터 내 복수의 에러를 확인하고, 참조 서열과 비교하여 게놈 서열 데이터 내 복수의 잠재적 서열 변이를 확인하고; 그리고 적어도 부분적으로는 상기 에러율에 기초하여 복수의 잠재적 서열 변이의 유효성을 판정한다.

도 1은 본 발명에 따라 게놈 서열 에러율을 식별하기 위한 워크플로우의 개략도;
도 2는 본 발명에 따른 서열 변이체 검증을 위한 기술의 흐름도;
도 3은 본 발명에 따른 서열 변이체 식별을 위한 기술의 흐름도;
도 4는 본 발명에 따라 게놈 서열 데이터 에러율을 결정하기 위한 기술의 흐름도;
도 5는 다양한 소스 샘플 및 에러 유형에 대한 계층화된(stratified) 에러율을 도시한 도면;
도 6은 본 발명에 따라 계층화된 에러율 및 서열 변이체 검증을 판정하기 위한 기술의 흐름도;
도 7은 에러율이 높은 샘플을 포함하여 소스 샘플에 대한 계층화된 오류 유형을 나타낸 도면;
도 8은 도 7의 높은 에러율 샘플에 대하여 다양한 에러 유형에 대한 계층화된 에러율을 나타낸 도면;
도 9는 결정 트리 기술(decision tree technique)에 비해 개선된 특이성을 나타내는 플롯도;
도 10은 디폴트 결정 트리 기술과 비교한 감도 및 특이성 결과를 나타내는 표;
도 11은 본 발명에 따른 시퀀싱 장치의 블록 다이어그램.

본 기술은 개선된 서열 변이체 검출 및/또는 검증을 위한 시퀀싱 데이터의 분석 및 처리에 관한 것이다. 이를 위해 개시된 기술은 거짓 양성 서열 변이체의 지정을 제거하거나 감소시키며, 어떤 샘플에 대한 서열 변이의 탐지의 개선된 한계를 허용한다. 도 1은 샘플 제조 및 서열 획득 워크플로우를 보여주는 개략적인 워크 플로우 다이어그램 10이다.

관심 생물학적 샘플로부터 유래된 주형(12)은 하나 이상의 UMI(16)를 삽입하기 위해 라이브러리 준비(단계 14)를 거친다. 주형 (12)은 복수의 핵산 단편을 나타낼 수 있다. 각각의 주형(12)은 복수의 UMI의 개별 UMI(16)(하나 이상의 식별자 시퀀스를 포함할 수 있음)을 편입하여 다른 소스 주형들 (12)이 각각 다른 서열을 가지는 구별가능한 UMI (16)와 연관되도록 한다. 예를 들어, 도시된 다이어그램 (10)은 핵산 주형 단편 (12)의 5' 및 3' 말단에서 연계되고, 그럼으로써 주형(12)이 UMI (16)의 다른 부분 (16a, 16b)이 측면에 위치하게 되는, 고유 분자 식별자 (UMI) (16)를 포함하는 분기된 쌍단 시퀀싱 어댑터(forked paired-end sequencing adapters)와 관련하여 도시되어 있다. 또한, 포지티브 가닥 (20a)은 제1 UMI 서열 또는 서열들을 포함하는 반면, 네가티브 가닥 (20b)은 제1 UMI 서열을 상보하는 제2 UMI 서열을 포함한다. 제1 UMI 서열 및 제2 UMI 서열은 단일 UMI 16 또는 상이한 UMIs (16)의 부분일 수 있다. UMI 또는 UMIs (16)의 상보적 서열을 식별함으로써, 포지티브 가닥 (20a) 및 네가티브 가닥 (20b)의 서열은 서로 연관될 수 있다.

라이브러리 제조에 이어서, (복수의 주형 (12)을 포함하는) 샘플의 게놈 서열 데이터는 여기서 페어드-엔드 시퀀싱(단계 26)으로 나타낸 임의의 적합한 시퀀싱 기술에 의해 수득된다. 페어드 엔드 시퀀싱은 복수의 서열 리드(28)를 생성하며, 이는 각각의 UMI (16)를 통해 주형 소스에 의해 분할되거나 분리될 수 있다. 예를 들어, 획득된 서열 리드(28)의 제1 서브세트를 포함하는 제1 리드 그룹(30)은 제1 UMI (16)와 연관될 수 있는 반면, 획득된 서열 리드(28)의 제2 서브세트를 포함하는 제2 리드 그룹(32)은 제1 UMI (16)에 상보적인 제2 UMI (16) 과 연관될 수 있다. 언급된 바와 같이, 상보적 UMI는 또한 단일 UMI로 고려될 수 있다.

일반적으로, 단일 리드 그룹(예를 들어, 제1 리드 그룹(30), 제2 리드 그룹(32)) 내에서 동일한 스트랜드 상의 서열 리드는 서로 동일해야 한다. 연관 UMI (16)는 서열 리드(28)의 서브세트와 단일 소스 주형(12)을 연계하기 때문이다. 그룹 내 편차 또는 차이는 샘플 제조 또는 서열 수득 오류를 나타낸다. 리드 그룹을 컨센서스 서열 또는 붕괴된 서열로 붕괴하기 위하여 리드 그룹 내에서 이상치(outlier) 리드를 확인 및 제거하는 것(스텝 40)은 도입된 서열 에러가 서열 데이터로 확장되어 잘못된 양성 변이체를 생성하는 것을 방지하는데 작용할 수 있다. 제공된 바와 같이, 제1 리드 그룹(30) 내의 다른 서열 리드에 존재하지 않는 차이(42)와 같은 이상치 차이는 시퀀스 에러로 인한 것으로 간주될 수 있다. 리드 그룹 내의 확인된 차이 또는 편차는 샘플에 대한 전체 에러율을 결정하기 위한 입력으로 제공된다.

차이(46)과 같은 컨센서스 서열 빌딩을 통과하는 차이들은 UMI (16)의 상보 서열과 연관된 서열 리드와 더 비교될 수 있다. 즉, 제1 리드 그룹(30) 및 제2 리드 그룹(32)의 서열들은 듀플렉스로서 조립될 수 있다. 다시, 상보 가닥의 컨센서스 듀플렉스가 조립되기 전에 그룹(30, 32) 사이의 임의의 차이가 식별될 수 있다 (단계 47). 그러한 차이는 에러율의 일부로서 또한 추적될 수 있다. 또한, 붕괴된 심플렉스 또는 듀플렉스 그룹은 중첩 영역에서 함께 스티칭되어 (단계 48), 서열 어셈블리의 일부로서 붕괴된 더 긴 단편을 생성할 수 있다. 스티칭은 임의의 잠재적 서열 변이체의 빈도를 결정하는데 사용될 수 있다.

예시된 다이어그램은 단일 주형 (12)(예를 들어, 핵산 단편)을 도시하지만, 개시된 기술은 게놈 서열 데이터 전체에 걸쳐 에러를 추적하여 글로벌 또는 전체 에러율 또는 비율을 생성한다. 특히, 도 2는 생물학적 샘플의 게놈 서열 데이터를 수신하는 방법 50의 흐름도이며, 상기 게놈 서열 데이터는 복수의 서열 리드를 포함하고, 각 서열 리드는 복수의 고유 분자 식별자 중 단일의 고유 분자 식별자와 연관된다. 상기 방법은 개별 생물학적 샘플의 게놈 서열 데이터를 수신하는 단계를 포함한다(블록 52).

수신된 서열 데이터는 제공된 바와 같이, 이어서 생물학적 샘플의 샘플 제조 및 시퀀싱 후에 수신될 수 있다. 또한, 수신된 게놈 서열 데이터는 저장되거나 후향적(레트로스펙티브) 서열 데이터일 수 있다. 상기 게놈 서열 데이터는 고객 정보, 생물학적 샘플 유기체 정보, 생물학적 샘플 유형 정보(예를 들면 시료가 신선하거나 얼거나 보존된 것인지 확인하는 정보 등), 조직 유형, 서열 장치 유형 및 시퀀싱 에세이 유형(전체 게놈, 타겟팅된 패널)을 포함할 수 있다.

게놈 서열 데이터는 게놈 서열 데이터의 에러율을 결정하기 위해 작동된다(블록 54). 에러율은 샘플 자체 및 그와 관련된 게놈 서열 데이터의 특징이다. 따라서, 에러율은 관심 생물학적 샘플의 각각의 시퀀싱 실행에 대해 드노보 계산될 수 있다. 같은 개체로부터 다른 시간에 취한 샘플에 대한 에러율은 시료 준비 변동성, 시퀀싱 장치 설정 등에 따라 다른 특성의 에러율을 보일 수 있다.

상기 방법은 또한 게놈 서열 데이터에서 잠재적 서열 변이체를 식별할 수 있다(블록 56). 잠재적 서열 변이체는 참조 서열과 관련하여 식별될 수 있다. 잠재적 서열 변이체 식별은 서열 리드의 좌위 맵핑 및 상응하는 유전자좌에 대한 할당을 포함할 수 있다. 샘플 리드는 샘플 리드의 뉴클레오타이드 서열, 즉 샘플 리드 내의 뉴클레오타이드의 순서(예를 들어, A, C, G, T)에 기초하여 대응하는 유전자좌에 할당될 수 있다. 이 분석에 기초하여, 상기 샘플 리드는 특정 유전자 좌위의 가능한 변이체/대립 유전자를 포함하는 것으로 지정될 수 있다. 샘플 리드는 유전자 좌위의 가능한 변이체/대립 유전자를 포함하는 것으로 지정된 다른 샘플 리드와 함께 수집(또는 집합 또는 비닝)될 수 있다. 상기 샘플 리드는 다른 샘플 리드와 상기 샘플 리드를 구별하는 뉴클레오타이드의 하나 이상의 식별 서열(예를 들어, UMIs 16)을 위치시키기 위해 분석될 수 있다.

맵핑된 샘플 리드는 잠재적 서열 변이체를 식별하기 위해 참조 서열과 비교하여 분석된다. 무엇보다도, 상기 분석 결과는 잠재적 변이체 콜, 샘플 변이체 빈도, 참조 서열 및 변이가 발생한 게놈 서열 내 위치를 식별한다. 예를 들어, 유전자 좌위가 SNP를 포함하는 것으로 알려진 경우, 상기 유전자 좌위에 대해 콜된 할당된 리드는 상기 할당된 리드의 SNP를 식별하기 위해 분석될 수 있다. 유전자 좌위가 다형성 반복 DNA 요소를 포함하는 것으로 알려진 경우, 상기 할당된 리드는 상기 샘플 리드 내의 다형성 반복 DNA 요소를 식별하거나 특성화하기 위해 분석될 수 있다. 일부 실시예들에서, 할당된 리드가 효과적으로 STR 좌위 및 SNP 좌위와 매칭되면, 경고 또는 플래그가 샘플 리드에 할당될 수 있다. 상기 샘플 리드는 STR 좌위 및 SNP 좌위 양자 모두로 지정될 수 있다. 상기 분석은 할당된 리드의 시퀀스 및/또는 길이를 결정하기 위해 정렬 프로토콜에 따라 할당된 리드를 정렬하는 단계를 포함할 수 있다. 상기 정렬 프로토콜은 2013년 3월 15일자로 출원된 국제출원번호 PCT/US2013/030867(공개번호 WO 2014/142831)에 기술된 방법을 포함할 수 있으며, 이는 그 전문이 본 명세서에 참조로 포함된다. 상기 분석은 또한 특정 좌위에 대한 총 커버리지와 비교하여 특정 잠재적 변이체 대립 유전자를 갖는 다수의 리드를 카운트할 수 있다.

일단 식별되면, 잠재적 시퀀스 변이체는 참 양성과 거짓 양성을 구별하기 위해, 결정된 에러율을 고려하는 함수에 의해 작동된다(블록 58). 일 구현예에서, 개별 잠재적 서열 변이체에 대해 가능성 점수(likelihood score)는 가능성 비율에 기초하여 결정된다:

가능성 비율(L) = 가능성(관찰된 변이체는 에러│커버리지, 에러율)/가능성(관찰된 변이체는 진정한 양성│변이체 대립 유전자 빈도), 여기서 변이체 대립 유전자 빈도(VAF) = 최대(관찰된 VAF, 검출 한계).

가능성 스코어는 에러율, 특정 사이트에서의 리드 커버리지 및 잠재적 시퀀스 변이가 상기 리드에서 발생하는 빈도의 함수이다. 예를 들어, 더 낮은 빈도의 변이체는 검증될 가능성이 적다. 가능성 스코어 또는 비율은 사용자 입력 및/또는 샘플 유형에 기초하여 사용자 또는 시스템에 의해 설정되는 조정 가능한 임계값을 가질 수 있다. 잠재적 서열 변이는 임계값 위 또는 아래 또는 어떤 범위 내의 가능성 스코어에 기초하여 검증될 수 있다. 예를 들어, 0.01 미만 및 0.0001 초과 또는 10^-6 내지 10^-2의 가능성 스코어 또는 비율은 패스를 나타낼 수 있다. 다른 실시예에서, 임계값은 계산된 특이성 목표에 기초하여 설정될 수 있다.

일단 식별되면, 검증된 서열 변이는 사용자에게 제공될 수 있다(블록 60). 예를 들어, 검증된 시퀀스는 생성된 보고서로서 제공될 수 있으며, 예를 들어 보고서 파일로서 저장되거나 사용자 상호 작용을 위해 그래픽 사용자 인터페이스 상에 디스플레이될 수 있다. 대안적으로, 상기 검증 작동이 잠재적 변이체 콜을 무효화 또는 실격화할 때, 검증 작동은 또한 상응하는 표시 (예를 들어, 네거티브 표시, 무콜(no call) 표시, 유효하지 않은 콜 표시)를 보고서의 일부로서 보고하거나 저장할 수 있다. 검증은 또한 변이체 콜이 정확하거나 유효하지 않은 콜 지정이 정확하다는 신뢰도와 관련된 가능성 스코어를 제공할 수 있다.

도 3은 서열 변이를 결정하기 위해 생물학적 샘플의 수신된 게놈 서열 데이터(블록 66)에서 작동하는 방법 (64)의 흐름도이다. 게놈 서열 데이터는 UMI의 서열을 포함하고, 이에 의해 각각의 서열 리드는 시퀀싱 실행에 사용된 복수의 UMI 중 하나의 UMI와 관련된다. 서열 리드는 리드 그룹으로 분리될 수 있으며, 이에 의해 각각의 리드 그룹은 공통 UMI와 연관된 서열 리드의 서브세트이다(블록 70). 따라서, 각각의 서열 리드는 하나의 리드 그룹에만 존재해야 한다. 일단 분리되면, 게놈 서열 데이터의 에러는 리드 그룹 내의 서열 리드의 서브세트 사이의 서열 불일치를 기초로 식별된다. 특정 UMI에 대한 각 서열 리드는 동일해야 한다. 또한, 페어드 엔드 시퀀싱의 경우, 양방향으로 시퀀싱된 스트랜드가 정렬되어야 한다. 특정 리드 그룹 내에 서열 가변성이 존재한다는 것은 시스템 에러를 나타낸다. 따라서, 각각의 상이한 리드 그룹 내에서 식별된 전체 오류에 기초하여 (블록 72), 게놈 서열 데이터의 전체 에러율이 결정될 수 있다(블록 74). 상기 에러율은 게놈 서열 데이터에서 서열 변이를 식별 및/또는 검증하는데 사용될 수 있다(블록 76).

도 4는 본 명세서에 제공된 바와 같이 에러율을 생성하기 위한 방법 (80)의 흐름도이다. 상기 방법 (80)은 공통의 고유 분자 식별자에 기초하여 서브세트로 분리된 생물학적 샘플의 수신된 게놈 서열 데이터(블록 82)에 작동한다(블록 84). 컨센서스 또는 붕괴된 서열을 생성하는 것의 일부로서, 서브세트 내의 서열 차이가 식별된다(블록 86). 붕괴된 시퀀스는 다수의 투표 규칙에 기초하여 결정될 수 있으며, 이에 의해 특정 서브세트(즉, 리드 그룹)에서 소수의 서열 리드에 있는 시퀀스 차이는 시퀀스 에러로 지정되지만(블록 88) 다수의 서열 리드에 있는 서열 차이는 컨센서스 또는 붕괴된 시퀀스를 구축하기 위해 통과한다(블록 90). 식별된 시퀀스 에러에 기초하여, 에러율이 식별된다(블록 92). 그러나 각 서브 그룹의 모든 시퀀스 차이가 반드시 에러율에 영향을 주는 것은 아니다. 다수의 서열 리드에서의 서열 차이(도 1의 차이 46 참조)는 소수에서의 서열 차이와 구별된다.

특정 실시형태가 게놈 서열 데이터에 대한 글로벌 또는 전체 에러율의 맥락에서 개시되어 있지만, 상기 에러율은 추가로 또는 대안적으로 뉴클레오타이드 변화 유형에 기초하여 계층화(stratified) 될 수 있다. 이러한 방식으로, 특정 뉴클레오타이드 변화에 대해 편향된 시스템 에러가 식별된다. 도 5는 변화 유형에 의해 분리된 에러율의 패널이다. 에러율은 24개의 단일 세포 유리 DNA(cell free DNA: cfDNA) BRN 샘플, 7개의 암 세포주의 뉴클레오솜 프렙 및 6개의 0.2 % zoo 믹스 샘플을 포함하는 다른 샘플 유형 및 3개의 건강한 샘플 및 21개의 HD753 적정된 샘플을 포함하는 게놈 pipDNA 사이에 비교된다. 또한, 에러율 결정에 대한 입력은 듀플렉스, 심플렉스, 스티칭 및 스티칭되지 않은 서열 리드에 의해 다양한 조합으로 분리된다. 도 1을 참조하여 언급된 바와 같이, 듀플렉스 구축 및 스티칭은 에러와 관련된 시퀀스 차이를 제거하여 주형 시퀀스의 오류를 수정한다.

관찰된 바와 같이, 각 유형의 에러의 에러율은 샘플 타입에 따라 변한다. 예를 들어, 세포 유리 DNA 및 뉴클레오좀 프렙에서, 탈아미노화 및 그 결과적인 G에서 A로의 에러는 비교적 높은 수준으로 존재한다. pipDNA에서 산화 반응이 지배적이어서, G 대 T 변화의 더 높은 에러율이 관찰되었다. 따라서, 특정 실시형태에서, 특정 생물학적 샘플 유형은 특정 특징적 에러와 연관될 수 있다. 일 실시예에서, 서열 변이체 결정은 문제의 샘플 유형에 대한 에러와 연관된 잠재적 변이에 대해 계량하기 위한 가중 인자를 포함할 수 있다.

도 6은, 도 5에 도시된 계층화된 에러율을 결정하는 방법(100)의 흐름도이다. 단일 리드 그룹의 일부인 서열 리드의 경우 그 그룹 내 및 소수의 스트랜드에서 서열 차이를 갖는 개별 리드는 주형을 보정하기 위해 제거된다. 이들 제거된 서열 리드는 각각의 좌위에서 발생하는 잘못된 서열 변화의 유형을 식별하기 위해 추가로 분석될 수 있다(블록 102). 잘못된 서열 변화를 형성하는 뉴클레오타이드 변화는 뉴클레오타이드 변화의 유형을 식별하기 위해 상기 그룹에서 다수의 서열 리드과 비교하여 고려된다. 예를 들어, 다수의 서열 리드가 상기 리드의 위치(n)에서 G를 포함하고 소수의 리드 또는 리드들이 위치(n)에서 A를 포함하는 경우, 그 변화 유형은 G>A 변화로서 비닝될(binned) 수 있다. 상기 변화는 단일 뉴클레오타이드 변화 또는 인델일 수 있다. 이 과정은 게놈 서열 데이터 전체에 걸쳐 각 유형의 뉴클레오타이드 변화의 계층화된 에러율을 생성하기 위해 서열 차이를 갖는 소수의 서열 리드들을 포함하는 모든 개별 리드 그룹에 적용되며(블록 104), 이에 의해 상기 뉴클레오타이드 변화는 게놈 서열 데이터 자체 내의 불일치에 기초한다. 계층화된 에러율을 사용하여 잠재적인 서열 변이체를 검증할 수 있다. 변이체 식별 운용의 일부로서 일단 수신되면(블록 106), 게놈 서열 데이터의 잠재적 서열 변이체는 참조 서열에 대한 뉴클레오타이드 변화의 유형에 따라 분류된다(블록 108). 특히, 에러율은 게놈 서열 데이터 내부의 측정값(본 명세서에서 제공된 바와 같이 리드 그룹의 서열 리드 사이의 내부 서열 불일치)을 사용하여 계산되지만, 서열 변이는 참조 서열과 비교하여 판정된다. 만일 잠재적 변이 서열이 참조 서열에 대한 G>A 변화인 경우, G>A 에러율 (및 나머지 유형의 뉴클레오타이드 변화에 대한 나머지 에러율은 아님)은 잠재적 서열 변이체가 예를 들어, 가능성 비율 결정의 일부로서 참양성 또는 거짓 양성인지 결정하는데 사용된다(블록 110). 이러한 방식으로, 상대적으로 낮은 G>A 에러율을 갖는 생물학적 샘플은 G>A 서열 변이를 검증할 수 있는 반면, 상대적으로 높은 G>T 에러율을 갖는 동일한 생물학적 샘플은 잠재적 G>T 서열 변이체를 검증하기 위해 보다 엄격한 조건을 적용할 수 있다. 일 실시예에서, 각 유형의 에러에 대한 가중 인자는 계층화된 에러율에 기초하여 생성될 수 있다.

도 7은 서로에 대한 상이한 세포 유리 DNA 샘플에서의 에러율의 비교 및 각각의 샘플의 서열 변이체 식별의 연관 특이성을 도시한다. 강조 표시된 샘플 BRN022는 샘플 코호트에 비해 C>T 오류가 크게 증가한다. 그러나, 상기 샘플 코호트는 일반적으로, C>T 또는 G>A 탈아미노화 변화를 나타내는, 다른 에러 유형에 비해 상대적으로 높은 C>T 에러를 나타낸다. 그럼에도 불구하고, 높은 C>T 또는 G>A 에러율을 갖는 샘플의 특이성은 약 99.95 % 이상이고, 이는 생물학적 샘플 및 높은 서열 에러율을 갖는 게놈 서열 데이터와 관련하여 높은 특이성을 가리킨다.

도 8은 스티칭 및 스티칭되지 않은 듀플렉스 및 심플렉스(양성 및 음성) 데이터에 관하여 도 7의 높은 에러율 샘플에 대한 다양한 에러 유형에 대한 계층화 된 에러율을 도시한다. 스티칭된 데이터에서의 주형 보정은 스티칭되지 않은 데이터와 비교하여 상이한 에러 식별과 연관된 것으로 보인다. 그러나, 양성 및 음성의 스트랜드 에러는 반대 스트랜드에서 G>A로 나타나는 C>T 에러와 연관되는 것으로 나타난다. 마찬가지로, T>C 에러에서 식별된 피크는 반대 가닥에서 A>G 에러의 피크로 나타난다. 식별된 높은 에러 C>T 및 G>A 변화는 본 명세서에 제공된 바와 같이 에러율을 계산하지 않는 디폴트 기술과 관련하여 검사된다. 상기 디폴트 기술은 BRN022 샘플에서 257 C>T 및 G>A 거짓 양성을 식별한 반면, 계층화된 에러율 방법은 (검출 임계값의 한계에 따라) 24 및 14를 식별하여 높은 에러율 샘플에 대한 거짓 양성 확인에서 유의한 감소를 보여주었다.

도 9는 결정 트리 기술에 비해 개선된 특이성을 나타내는 플롯이다. 이러한 기술은 PCT 공개공보 WO2018093780에 제공된 바와 같은 기술일 수 있으며, 이는 가중 단편 유형에 기초한 하나 이상의 품질 스코어와 관계된다. 결정 트리 기술과 달리, 개시된 기술은 미리 결정된 가중 인자를 사용하기 보다는 샘플 당 기초로 에러율을 결정할 수 있다. 예를 들어, 특정 샘플은 포지티브 스트랜드 대 네거티드 스트랜드에서 더 높은 에러를 보일 수 있다. 따라서, 에러는 드노보 계산된 프래그먼트 유형에 기초하여 계층화될 수도 있다. 도 9에 나타난 바와 같이, 본 명세서에서 제공된 에러율 기술, 가능성 모델은 검사된 3 가지 샘플 유형 모두에 대하여 결정 트리 기술에 비해 더 높은 특이성을 야기한다. 도 10은 결정 트리 기술에 따른 감도를 나타내는, 주 믹스(zoo mix)의 백분율을 포함하여, 뉴클레오솜 프렙 샘플에 대한 디폴트 결정 트리 기술에 대한 감도 및 특이성 결과를 보여주는 표이다. (에러율에 기초한) 가능성 기술은 높은 특이성을 나타내며, 변이체 콜의 개선 및 거짓 양성 식별의 감소를 나타낸다.

도 11은 본 명세서에서 제공된 바와 같이 서열 변이체 콜을 식별 및/또는 검증하는데 사용되는 시퀀싱 데이터를 획득하기 위해 개시된 실시형태와 함께 사용될 수 있는 시퀀싱 장치(160)의 개략도이다. 서열 장치(160)는 미국 특허공개번호 2007/0166705; 2006/0188901; 2006/0240439; 2006/0281109; 2005/0100900; 미국 특허 7,057,026; WO 05/065814; WO 06/064199; WO 07/010,251 (이의 개시내용은 그 전문이 본 명세서에 참조로 포함됨)에 기술된 합성에 의한 시퀀싱 방법을 포함하는 것과 같은 임의의 시퀀싱 기술에 따라 구현될 수 있다. 대안적으로, 결찰 기술에 의한 시퀀싱이 시퀀싱 장치(160)에 사용될 수 있다. 이러한 기술은 DNA 리가아제를 사용하여 올리고뉴클레오타이드를 혼입하고 이러한 올리고 뉴클레오타이드의 혼입을 확인하며, 미국 특허 No. 6,969,488; 미국 특허 No. 6,172,218; 및 미국 특허 No.6,306,597에 기재되어 있고 그 개시내용은 그 전문이 본 명세서에 참조로 포함된다.일부 구체 예는 나노 포어 시퀀싱을 이용할 수 있으며, 이에 의해 표적 핵산 가닥 또는 표적 핵산으로부터 엑소뉴클레오틱하게 제거된 뉴클레오타이드가 나노 포어를 통과한다. 표적 핵산 또는 뉴클레오타이드가 나노 포어를 통과함에 따라, 포어의 전기 전도도의 변동을 측정함으로써 각 유형의 염기를 확인할 수 있다 (미국 특허 번호 7,001,792; Soni & Meller, Clin. Chem. 53, 1996-2001 (2007); Healy, Nanomed. 2, 459-481 (2007); 및 Cockroft, et al. J. Am. Chem. Soc. 130, 818-820 (2008), 이들의 개시내용은 전문이 참고로 본 명세서에 포함된다). 또 다른 구체예는 연장 생성물 내로 뉴클레오타이드의 혼입 시 방출되는 양성자의 검출을 포함한다. 예를 들어, 방출된 양자의 검출에 기초한 시퀀싱은 전기 검출기 및 이온 토렌트 (Guilford, CT, Life Technologies 자회사)로부터 상업적으로 이용 가능한 관련 기술 또는 US 2009/0026082 A1; US 2009/0127589 A1; US 2010/0137143 A1; 또는 US 2010/0282617 A1에 기재된 시퀀싱 방법 및 시스템을 이용할 수 있으며, 이들 각각은 그 전문이 본 명세서에 참조로 포함된다. 특정 구체예는 DNA 폴리머라제 활성의 실시간 모니터링하는 것과 관계된 방법을 이용한다. 뉴클레오타이드 혼입은 형광단(fluorophore)-함유 폴리머라제와 γ-포스페이트-표지된 뉴클레오타이드 사이의 형광 공명 에너지 전이(FRET) 상호 작용을 통해 또는 예를 들어 Levene et al. Science 299, 682-686 (2003); Lundquist et al. Opt. Lett. 33, 1026-1028 (2008); Korlach et al. Proc. Natl. Acad. Sci. USA 105, 1176-1181 (2008) (이의 개시내용은 그 전문이 본 명세서에 참조로 포함된다)에 개시된 제로모드 웨이브가이드와 함께 검출될 수 있다. 다른 적절한 대한 기술은 예를 들어 형광 인시추(in situ) 시퀀싱(FISSEQ) 및 대규모 병렬 시그니처 시퀀싱(MPSS)을 포함한다. 특정 실시예에서, 시퀀싱 장치(160)는 Illumina (La Jolla, CA)의 HiSeq, MiSeq 또는 HiScanSQ일 수 있다. 다른 실시예에서, 시퀀싱 장치(160)는 DNA 증착(deposition)이 각각의 포토 다이오드와 일대일로 정렬되도록 포토 다이오드 위에 제조된 나노 웰을 갖는 CMOS 센서를 사용하여 동작하도록 구성될 수 있다.

시퀀싱 장치(160)는 4개의 뉴클레오타이드 중 2개만이 임의의 주어진 이미지에 대해 표지되고 검출될 수 있는 검출 장치 "one-채널"일 수있다. 예를 들어, 티민은 영구적인 형광 표지를 가질 수 있는 반면, 아데닌은 분리 가능한 형태로 동일한 형광 표지를 사용한다. 구아닌은 영구적으로 어두울 수 있으며 사이토신은 처음에는 어두울 수 있지만 사이클 동안 표지를 추가할 수 있다. 따라서, 각각의 사이클은 초기 이미지 및 제2 이미지를 포함할 수 있으며, 여기서 염료가 임의의 아데닌으로부터 절단되고 임의의 사이토신에 첨가되어 초기 이미지에서는 티민 및 아데닌만이 검출될 수 있지만 제2 이미지에서는 티민 및 사이토신만이 검출될 수 있다. 두 이미지를 통틀어 어둡게 나타난 염기는 구아닌이고, 두 이미지를 통틀어 탐지할 수 있는 염기는 티민이다. 제1 이미지에서 검출 가능하지만 제2 이미지에서 검출 가능하지 않은 염기는 아데닌이고, 제1 이미지에서 검출 가능하지 않지만 제2 이미지에서 검출 가능한 염기는 사이토신이다. 초기 이미지와 제2 이미지로부터의 정보를 조합함으로써, 하나의 채널을 사용하여 4개의 염기 모두를 식별할 수 있다.

도시된 실시예에서, 시퀀싱 장치(160)는 분리된 샘플 처리 장치(162) 및 연관 컴퓨터(164)를 포함한다. 그러나, 언급된 바와 같이, 이들은 단일 장치로서 구현될 수 있다. 또한, 연관 컴퓨터(164)는 샘플 처리 장치(162)에 로컬이거나 네트워크로 연결될 수 있다. 도시된 실시예에서, 생물학적 샘플은 시료 처리 장치(162)에 시료 기판(170), 예를 들어 플로우 셀 또는 슬라이드에 로딩되어 시퀀스 데이터를 생성하도록 이미지화될 수 있다. 예를 들어, 생물학적 샘플과 상호 작용하는 시약은 이미징 모듈(172)에 의해 생성된 여기 빔에 응답하여 특정 파장에서 형광을 발하고, 이미징을 위해 방사선을 리턴한다. 예를 들어, 형광 성분은 그 성분의 상보성 분자 또는 폴리머라제를 사용하여 올리고 뉴클레오타이드에 혼입되는 형광 태깅된 뉴클레오타이드에 혼성화하는 형광 태깅된 핵산에 의해 생성될 수 있다.당업자라면 이해할 수 있는 바와 같이, 샘플의 염료가 여기되는 파장 및 이들이 형광을 발하는 파장은 특정 염료의 흡수 및 방출 스펙트럼에 의존할 것이다. 이러한 복귀 방사선은 지향 광학계(directing optics)를 통해 다시 전파될 수 있다. 이 레트로 빔은 일반적으로 이미징 모듈(172)의 검출 광학계로 지향될 수 있다.

이미징 모듈 검출 광학계는 임의의 적절한 기술에 기초할 수 있고, 예를 들어, 장치 내의 광자 충돌 위치에 기초하여 유별난(pixilated) 이미지 데이터를 생성하는 CCD (charged coupled device) 센서일 수 있다. 그러나, TDI(time delay integration) 운용을 위해 구성된 검출기 어레이, CMOS(complementary metal oxide semiconductor) 검출기, 애벌랜치(avalanche) 광다이오드(APD) 검출기, 가이거 모드 광자 카운터 또는 기타 적합한 검출기를 포함하지만 이에 제한되지 않는 임의의 다양한 다른 검출기가 사용될 수 있음을 이해할 것이다. TDI 모드 검출은 본 명세서에 참고로 포함된 미국 특허 제 7,329,860 호에 기술된 바와 같이 라인 스캐닝과 결합될 수 있다. 다른 유용한 검출기는 예를 들어 다양한 핵산 서열 분석 방법과 관련하여 본 명세서에서 이전에 제공된 참고 문헌에 기재되어 있다.

이미징 모듈(172)은 예를 들어 프로세서(174)를 통해 프로세서 제어하에 있을 수 있고, 샘플 수신 장치(162)는 또한 I/O 제어 (176), 내부 버스 (78), 비 휘발성 메모리 (180), RAM (182) 및 메모리가 실행가능 명령어(executable instruction)를 저장할 수 있는 다른 메모리 구조, 및 도 11과 관련하여 기술된 것과 유사할 수 있는 다른 적절한 하드웨어 구성요소를 포함할 수 있다. 추가로, 연관 컴퓨터(164)는 또한 프로세서(184), I/O 제어기(186), 통신 모듈(184), 및 RAM(188)과 비휘발성 메모리(190)를 포함하는 메모리 아키텍처를 포함할 수 있어 상기 메모리 아키텍처가 실행가능 명령어(192)를 저장할 수 있다. 하드웨어 구성 요소는 디스플레이(196)에 또한 링크될 수 있는 내부 버스(194)에 의해 링크될 수 있다. 시퀀싱 장치(160)가 올인원 장치로서 구현되는 실시예에서 특정 중복 하드웨어 요소가 제거될 수 있다.

프로세서(184)는 본 명세서에서 제공된 바와 같이 게놈 서열 데이터에 작동하도록 프로그래밍 될 수 있다. 특정 실시예로, 이미징 모듈(172)에 의해 획득된 이미지 데이터에 기초하여, 시퀀싱 장치(160)는 서열 리드의 각 염기에 대한 염기 콜을 포함하는 시퀀싱 데이터를 생성하도록 구성될 수 있다. 또한, 이미지 데이터에 기초하여, 직렬로 수행되는 서열 리드에 대해서도, 개별 리드는 이미지 데이터를 통해 동일한 위치에, 그러므로 동일한 주형 스트랜드에 링크될 수 있다. 프로세서(184)는 또한 샘플에 서열 리드를 할당한 후에 특정 샘플에 대한 인서트에 대응하는 시퀀스에 대해 다운스트림 분석을 수행하도록 프로그래밍 될 수 있다. 프로세서(184)는 BAM 파일 형태의 시퀀스 데이터에 대해 동작하고, .VCF 또는 .GVCF 파일과 같은 다양한 포맷으로 변이 콜을 출력하도록 구성될 수 있다.

개시내용의 특정 특징들만이 본 명세서에서 예시되고 설명되었지만, 당업자에게는 많은 수정 및 변형이 일어날 수 있을 것이다. 그러므로, 첨부된 청구 범위는 본 개시의 진정한 사상에 속하는 그러한 모든 수정 및 변형을 포함하도록 의도된 것으로 이해되어야 한다.

Claims

하기 단계들을 포함하는, 명령어를 실행하는 프로세서의 제어 하의 컴퓨터-구현 방법:
생물학적 샘플의 게놈 서열 데이터를 수신하는 단계로서, 상기 게놈 서열 데이터는 복수의 서열 리드(sequence read)를 포함하고, 각 서열 리드는 복수의 고유 분자 식별자 중 단일의 고유 분자 식별자와 연관되어 있는, 상기 게놈 서열 데이터를 수신하는 단계;
상기 게놈 서열 데이터의 에러율(error rate)을 생성하기 위해, 제1 고유 분자 식별자와 연관된 복수의 서열 리드의 제1 서브세트 내의 서열 불일치, 상기 제1 고유 분자 식별자와 상보적인 제2 고유 분자 식별자를 갖는 복수의 서열 리드의 제2 서브세트와 상기 제1 서브세트 간의 서열 불일치, 또는 양자에 기초하여 게놈 서열 데이터에서 에러를 식별하는 단계;
참조 서열과 비교하여 상기 게놈 서열 데이터에서 복수의 잠재적 서열 변이체를 식별하는 단계;
상기 게놈 서열 데이터의 에러율에 기초하여 복수의 잠재적 서열 변이체의 거짓 양성 서열 변이체를 분류하는 단계; 및
상기 복수의 잠재적 서열 변이체로부터 거짓 양성 서열 변이체를 제거하여 복수의 서열 변이체를 수득하는 단계.
제1항에 있어서, 상기 에러율은 뉴클레오타이드 변화 유형에 기초한 개별 에러율를 포함하는, 컴퓨터-구현 방법.
제2항에 있어서, 상기 분류하는 단계는, 개별 유형의 뉴클레오타이드 변화에 대한 에러율의 함수 및 개별 잠재적 서열 변이체의 리드 커버리지(read coverage)를 적용하여 상기 개별 잠재적 서열 변이체가 거짓 양성 서열 변이체인 것을 판정하는 것을 포함하는 컴퓨터-구현 방법.
제1항에 있어서, 상기 복수의 서열 리드의 제1 서브세트 내의 서열 불일치에 기초하여 게놈 서열 데이터에서 오류를 식별하는 것은, 개별 고유 분자 식별자와 관련된 제1 리드 방향 또는 제2 리드 방향 간의 차이를 식별하는 것을 포함하고, 식별되는 상기 차이는 상기 에러율에 기여하는, 컴퓨터-구현 방법.
제4항에 있어서, 상기 제1 서브세트의 서열 리드의 다수의 컨센서스 서열을 나타내는 붕괴된(collapsed) 제1 서브세트 서열 리드를 생성하기 위해 상기 제1 서브세트의 상기 서열 리드를 붕괴시키는 것을 포함하는, 컴퓨터-구현 방법.
제5항에 있어서, 상기 제1 서브세트와 상기 제1 서브세트에 상보적인 복수의 서열 리드의 상기 제2 서브세트 사이의 서열 불일치에 기초하여 게놈 서열 데이터에서 오류를 식별하는 것은 상기 붕괴된 제1 서브세트 서열 리드와 상기 제2 서브세트의 서열 리드 간의 제2 차이를 식별하는 것을 포함하고, 식별된 상기 제2 차이는 상기 에러율에 기여하는, 컴퓨터-구현 방법.
제6항에 있어서, 상기 제1 서브세트 및 상기 제2 서브세트의 서열 리드의 다수의 컨센서스 서열을 나타내는 듀플렉스 붕괴된 서열 리드를 생성하기 위해 상기 제2 서브세트의 서열 리드 및 상기 붕괴된 제1 서브세트 서열 리드를 붕괴시키는 단계를 포함하는, 컴퓨터-구현 방법.
제7항에 있어서, 상기 듀플렉스 붕괴된 서열 리드는 상기 복수의 잠재적 서열 변이체의 잠재적 서열 변이체를 식별하기 위해 상기 참조 서열과 비교되는, 컴퓨터-구현 방법.
제1항에 있어서, 상기 분류하는 단계는 적어도 부분적으로 상기 에러율에 기초하는 함수를 각각의 잠재적 서열 변이체에 적용하여 스코어를 생성하고, 상기 스코어에 기초하여 각각의 잠재적 서열 변이체의 거짓 양성 또는 참 양성 분류를 결정하는 단계를 포함하는, 컴퓨터-구현 방법.
제9항에 있어서, 상기 에러율은 상기 서열 데이터에 대한 글로벌 에러율이며, 상기 함수는 상기 에러율 및 각각의 개별 잠재적 서열 변이체의 부위에서의 리드 커버리지에 기초하는, 컴퓨터-구현 방법.
제9항에 있어서, 상기 에러율은 잠재적 서열 변이체의 유형에 기초하여 각각의 잠재적 서열 변이체 부위에서의 복수의 에러율로부터 선택되고, 상기 함수는 상기 선택된 에러율 및 각각의 개별 잠재적 서열 변이체 부위에서의 리드 커버리지에 기초하는, 컴퓨터-구현 방법.
제9항에 있어서, 상기 에러율은 상기 생물학적 샘플의 유형에 기초하여 가중되며, 상기 함수는 상기 가중 에러율 및 각각의 개별 잠재적 서열 변이체 부위에서의 리드 커버리지에 기초하는, 컴퓨터-구현 방법.
제1항에 있어서, 복수의 서열 변이체의 표시를 디스플레이 상에 제공하는 단계를 포함하는, 컴퓨터-구현 방법.
제1항에 있어서, 상기 에러율은 포지티브 또는 네가티브 스트랜드 식별과는 무관한 것인, 컴퓨터-구현 방법.
하기 단계들을 포함하는, 명령어를 실행하는 프로세서의 제어 하에서의 컴퓨터-구현 방법:
제1 생물학적 샘플의 게놈 서열 데이터를 수신하는 단계로서, 상기 게놈 서열 데이터는 복수의 서열 리드를 포함하고, 각 서열 리드는 복수의 고유 분자 식별자 중 단일의 고유 분자 식별자와 연관되는, 상기 게놈 서열 데이터를 수신하는 단계;
제1 고유 분자 식별자와 연관된 복수의 서열 리드의 제1 서브세트 내의 제1 서열 차이를 확인하는 단계;
제1 서브세트를 붕괴시켜 붕괴된 제1 서브세트 서열 리드를 수득하는 단계로서, 상기 붕괴는 상기 제1 서브세트의 시퀀싱 리드의 소수에 존재하는 서열 차이를 제거하는 것을 포함하는, 상기 붕괴된 제1 서브세트 서열 리드를 수득하는 단계;
제2 고유 분자 식별자와 연관된 복수의 서열 리드의 제2 서브세트 내 제2 서열 차이를 식별하는 단계로서, 상기 제2 고유 분자 식별자는 적어도 부분적으로 상기 제1 고유 분자 식별자와 상보적인, 제2 서브세트 내 제2 서열 차이를 식별하는 단계;
상기 제2 서브세트를 붕괴시켜 붕괴된 제2 서브세트 서열 리드를 수득하는 단계로서, 상기 붕괴는 상기 제2 서브세트의 시퀀싱 리드의 소수에 존재하는 서열 차이를 제거하는 것을 포함하는, 상기 붕괴된 제2 서브세트 서열 리드를 수득하는 단계; 및
상기 붕괴된 제1 서브세트, 붕괴된 제2 서브세트, 또는 붕괴된 제1 서브세트와 붕괴된 제2 서브세트의 듀플렉스에서의 베이스라인과 비교하여, 게놈 서열 데이터의 에러율의 함수에 기초하여 서열 변이체가 유효한 것을 판정하는 단계로서, 상기 에러율은 부분적으로는 확인된 제1 서열 차이 및 확인된 제2 서열 차이에 기초하여 결정되는, 상기 판정하는 단계.
제15항에 있어서, 제3 고유 분자 식별자와 연관된 제3 서브세트에서의 추가 서열 변이체가 에러율의 함수에 기초하여 유효한 것을 판정하는 단계를 포함하는 방법.
제15항에 있어서, 제3 고유 분자 식별자와 연관된 제3 서브세트에서의 추가 서열 변이체가 에러율의 함수에 기초하여 거짓 양성인 것을 판정하는 단계를 포함하는 방법.
제17항에 있어서, 게놈 서열 데이터에서의 서열 변이체의 표시로부터 추가적인 서열 변이체를 제거하는 단계를 포함하는 방법.
생물학적 샘플의 게놈 서열 데이터에서 서열 변이를 식별하도록 구성된 시퀀싱 장치(sequencing device)로서,
내부에 저장된 실행 가능한 애플리케이션 명령어(application instruction)를 포함하는 메모리 장치; 및
상기 메모리 장치에 저장된 애플리케이션 명령어을 실행하도록 구성된 프로세서를 포함하되,
상기 애플리케이션 명령어는, 상기 프로세서로 하여금,
생물학적 시료의 게놈 서열 데이터를 수신하게 하되, 상기 게놈 서열 데이터는 각 서열 리드가 복수의 고유 분자 식별자 중 단일의 고유 분자 식별자와 연관되는, 복수의 서열 리드를 포함하고;
상기 게놈 서열 데이터의 에러율을 생성하기 위해 복수의 고유 분자 식별자의 각 고유 분자 식별자와 연관된 서열 리드 사이의 서열 불일치에 기초하여 상기 게놈 서열 데이터 내 복수의 에러를 식별하게 하고;
참조 서열과 비교하여 상기 게놈 서열 데이터 내 복수의 잠재적 서열 변이체를 식별하게 하고; 그리고
적어도 부분적으로는 상기 에러율에 기초하여 복수의 잠재적 서열 변이체의 유효성을 판정하게 하는 명령어를 포함하는, 시퀀싱 장치.
제19항에 있어서, 상기 유효성은 상기 에러율의 함수 및 개별 잠재적 서열 변이체의 서열 커버리지에 기초하는, 시퀀싱 장치.
제19항에 있어서, 사용자 입력을 수신하도록 구성된 사용자 인터페이스를 포함하고, 상기 사용자 입력은 생물학적 샘플의 샘플 유형을 포함하는, 시퀀싱 장치.
제21항에 있어서, 상기 에러율은 상기 샘플 유형에 기초하여 가중되는, 시퀀싱 장치.