WO2017179946A1

WO2017179946A1 - 초병렬 시퀀싱의 오류 확인방법 및 장치

Info

Publication number: WO2017179946A1
Application number: PCT/KR2017/004067
Authority: WO
Inventors: 권성훈; 염희란; 류태훈; 이용희; 김정민; 노진성
Original assignee: 서울대학교산학협력단
Priority date: 2016-04-15
Filing date: 2017-04-14
Publication date: 2017-10-19
Also published as: KR102070911B1; KR102070911B9; KR20170119295A

Abstract

(a) 초병렬 시퀀싱에 의해 생성된 리드 중 검증하고자 하는 적어도 하나의 제1 리드를 선정하는 단계; (b) 상기 제1 리드에 대응되는 핵산 단편을 시퀀싱 플레이트로부터 회수하는 단계; (c) 상기 각 단편 또는 그의 증폭 산물에 대하여 염기서열 분석을 수행하여 제2 리드를 생성하는 단계; 및 (d) 상기 제2 리드와 그에 대응되는 제1 리드를 비교하여 상기 제1 리드의 오류를 검증하는 단계를 포함하는, 초병렬 시퀀싱의 오류 확인방법이 제공된다. 또한, 상기 방법을 수행하기 위한, 초병렬 시퀀싱의 오류 확인장치를 제공된다.

Description

초병렬 시퀀싱의 오류 확인방법 및 장치

본 발명은 초병렬 시퀀싱의 오류 확인방법 및 장치에 관한 것이다.

차세대 염기서열 분석법의 가장 큰 단점은 높은 에러율에 있다. 이는 기존 염기서열 분석 방법인 생어(Sanger) 염기서열 분석법과 비교했을 때, 약 10배 높은 확률로, 즉, 염기 당 0.1% 내지 1%의 확률로 염기서열을 잘못 읽을 수 있는 한계를 갖는다. 실제로 0.1% 이하의 소수 대립유전자 빈도(minor allele frequency: MAF)를 분석하고자 할 경우, 차세대 염기서열 분석 시스템상의 분석 에러와 실제 MAF 분자 변이와의 구별이 불가능하며, 이와 같이 높은 에러율로 인하여 차세대 염기서열 분석법의 분석 가능한 범위가 제한되어 있는 상태이다.

차세대 염기서열 분석에서 발생하는 염기서열 분석 오류는, 대부분 시료로부터 빛을 감지한 후 그에 해당하는 염기서열을 매칭시킬 때 생기는 시스템상의 오류이며, 차세대 염기서열 분석에서 사용되는 기판상의 DNA 시료에는 분자적인 오류가 거의 없는 상태이다. 따라서 염기서열 분석 시스템상의 오류인지, 또는 실제 유전자의 분자 변이인지 구별하기 위하여, 보다 정밀한 분석 방법이 요구된다.

일 양상은 초병렬 시퀀싱의 오류 확인방법을 제공한다.

다른 양상은 초병렬 시퀀싱의 오류 확인장치를 제공한다.

일 양상은 (a) 초병렬 시퀀싱에 의해 생성된 리드(read) 중 검증하고자 하는 적어도 하나의 제1 리드를 선정하는 단계; (b) 상기 제1 리드에 대응되는 핵산 단편을 시퀀싱 플레이트로부터 회수하는 단계; (c) 상기 각 단편 또는 그의 증폭 산물에 대하여 염기서열 분석을 수행하여 제2 리드를 생성하는 단계; 및 (d) 상기 제2 리드와 그에 대응되는 제1 리드를 비교하여 상기 제1 리드의 오류를 검증하는 단계를 포함하는, 초병렬 시퀀싱의 오류 확인방법을 제공한다.

도 1은 초병렬 시퀀싱의 오류 확인방법의 일 구현예를 나타내는 공정 흐름도이다. 도 1을 참조하면, 단계 110에서 초병렬 시퀀싱에 의해 생성된 리드 중 검증하고자 하는 적어도 하나의 제1 리드를 선정한다.

상기 초병렬 시퀀싱은 차세대 염기서열 분석법(Next Generation Sequencing: NGS) 또는 고용량 시퀀싱(high-throughput sequencing)으로도 명명될 수 있다. 상기 초병렬 시퀀싱은 현재 차세대 염기서열 분석법으로 알려진 방법 및 장래 개발될 수 있는 방법을 포함한다. 상기 초병렬 시퀀싱은 합성에 의한 시퀀싱(sequencing by synthesis), 이온 토렌트(Ion-Torrent) 시퀀싱, 파이로시퀀싱(pyrosequencing), 라이게이션에 의한 시퀀싱, 나노포어 시퀀싱, 및 단일-분자 실시간 시퀀싱으로 이루어진 군으로부터 선택되나, 이에 한정되는 것은 아니다.

본 명세서에서 용어 "리드(read)"는, 차세대 염기서열 분석법을 통해 분석한 하나의 핵산 조각을 의미한다. 상기 제1 리드 중 적어도 하나는 레퍼런스 서열을 기준으로 변이된 서열을 포함하는 또는 포함하는 것으로 추정되는 리드일 수 있다. 상기 레퍼런스 서열은 인간 유전체 서열정보를 포함하는 알려진 서열 데이터베이스에 저장되어 있는 서열 정보일 수 있다. 상기 레퍼런스 서열은 초병렬 시퀀싱 분석에서 함께 정렬되는 핵산 분자의 서열일 수 있다. 또한, 상기 제1 리드 중 전부 또는 일부는 레퍼런스 서열과 동일한 서열을 포함하는 것일 수 있다. 즉, 하나 이상의 제1 리드 중 전부 또는 일부는 레퍼런스 서열 대비 시퀀싱 오류로 인해 발생된 서열 및 변이된 서열 중 어느 것도 포함하지 않는 리드일 수 있다.

단계 120에서, 상기 제1 리드에 대응되는 핵산 단편을 시퀀싱 플레이트로부터 회수한다.

상기 단계 120은, 혼성화, PCR에 의한 증폭, 화학적 분리, 물리적 분리, 또는 그의 조합에 의해 이루어지는 것일 수 있다. 상기 혼성화 또는 PCR에 의한 증폭의 경우, 회수하려는 단편의 서열 중 적어도 일부 서열 또는 그에 상보적인 서열을 포함하는 프로브 또는 프라이머를 이용하여 포획하거나 증폭함으로써 원하는 핵산 단편을 시퀀싱 플레이트로부터 회수할 수 있다. 상기 화학적 분리의 경우, 회수하려는 단편과 시퀀싱 플레이트 간의 결합을 끊거나 회수하려는 단편의 일부를 분리함으로써 원하는 단편을 회수할 수 있다.

상기 물리적 분리는 에너지 인가를 통해 또는 자성 물질에 의해 상기 단편이 결합된 지지체 또는 시퀀싱 플레이트의 일부분을 상기 플레이트로부터 이탈시켜 핵산 단편을 회수하는 것일 수 있다. 상기 물리적 분리는 혼성화 또는 PCR에 의한 증폭 없이, 시퀀싱 플레이트에서 회수하려는 단편의 위치 정보를 이용하여 이루어지는 것일 수 있다. 상기 물리적 분리 방법은, 예를 들면, 스나이퍼 클로닝(sniper cloning) 또는 펄스 레이저 광학 회수 시스템(pulse lazer optical retrieval system)으로 명명되는 방법, 공개특허 제2014-0075611호에 개시된 방법, 또는 그로부터 변형된 방법을 이용하는 것일 수 있다. 상기 지지체는 핵산 단편이 결합되어 있는 고체 지지체, 예를 들면 비드(bead)일 수 있다. 상기 에너지 인가는 레이저 조사(irradiation)를 통해 이루어질 수 있다.

상기 단계 120에서, 상기 각 단편은 공간상 상호 분리된 상태로 회수될 수 있다. 상기 각 단편은 시퀀싱 플레이트와 같이 복수 개의 구획된 웰을 갖는 저장 용기의 각 웰에 구분되어 회수될 수 있다.

상기 단계 120에서 상기 단편은 각 단편에 대해 고유 식별 물질이 부가된 단편의 혼합물로서 회수될 수 있다. 상기 고유 식별 물질은 복수 개의 단편으로 이루어진 혼합물 중 특정한 단편을 식별할 수 있도록 색인(index)하는 기능을 수행하는 것으로, 바코드 또는 태그로도 명명될 수 있다. 상기 물질은 핵산, 폴리펩타이드, 펩타이드, 또는 그 조합을 포함하는 생화학 분자일 수 있다. 이를 위해, 상기 단계 120 이전에 회수하려는 각 핵산 단편에 대해 고유 식별 물질을 부가하는 단계가 더 포함될 수 있다. 상기 고유 식별 물질의 부가는 PCR에 의한 증폭, 라이게이션(ligation) 또는 펩타이드 결합에 의해 수행될 수 있다.

단계 130에서, 상기 각 단편 또는 그의 증폭 산물에 대하여 염기서열 분석을 수행하여 제2 리드를 생성한다.

상기 단계 130은 상기 각 단편 또는 그의 증폭 산물이 혼합된 상태 또는 각각 구분된 상태로 수행될 수 있다. 예를 들면, 상기 단계 120에서 각 단편에 대해 고유 식별 물질이 부가된 단편의 혼합물로서 회수되는 경우, 그 혼합된 상태로 증폭 반응 및/또는 염기서열 분석을 수행할 수 있다. 또한, 상기 단계 120에서 각 단편이 공간상 상호 분리된 상태로 회수되는 경우, 각 단편에 대한 증폭 반응 및/또는 염기서열 분석은 공간상 분리된 상태로 이루어질 수 있다.

상기 염기서열 분석은 초병렬 시퀀싱, 생어 시퀀싱, 질량 분석, 전기영동, 혼성화, 디지털 PCR, 대립유전자-특이 PCR, 정량적 PCR, 형광 기반 분류, 또는 그 조합을 포함하는 방법에 의해 이루어질 수 있다.

단계 140에서, 상기 제2 리드와 그에 대응되는 제1 리드를 비교하여 상기 제1 리드의 오류를 검증한다.

상기 대응되는 제1 리드는, 상기 단계 120에서 각 단편이 공간상 상호 분리된 상태로, 예를 들면, 복수 개의 구획된 웰을 갖는 저장 용기의 각 웰에 회수되어 있는 경우, 상기 제2 리드에 대응하는 단편이 저장된 웰의 위치 정보를 확인함으로써 매칭될 수 있다. 또는, 상기 대응되는 제1 리드는 상기 제2 리드에 부가된 고유 식별 서열을 이용하여 매칭될 수 있다. 상기 리드의 비교는, 통상의 기술자에게 알려진 서열 얼라인먼트(alignment) 도구 또는 리드 서열 정렬을 위해 개발된 도구를 이용하여 수행될 수 있다. 상기 서열 얼라인먼트 도구는 예를 들면, BWA, BarraCUDA, BBMap, BLASTN, Bowtie, NextGENe, 또는 UGENE일 수 있으나, 이에 제한되지 않는다.

상기 제1 리드에 대응하는 제2 리드 중 상기 제1 리드와의 대응 부위에서 상기 제1 리드와 동일 서열을 갖는 리드의 비율이 일정값 미만인 경우, 상기 제1 리드의 해당 부위를 시퀀싱 오류에 의한 것으로 판단할 수 있다. 상기 일정값은 분석 대상 시퀀스에 따라 또는 기타 목적에 따라 결정될 수 있다. 상기 일정값은 예를 들면, 50% 내지 95%, 55% 내지 95%, 60% 내지 90%, 65% 내지 90%, 70% 내지 85%, 또는 75% 내지 80%일 수 있다. 또한, 상기 비율이 일정값 이상인 경우, 상기 제1 리드의 해당 부위는 상기 제1 리드에 대응되는 핵산 단편에 실제로 존재하는 서열인 것으로 판단할 수 있다.

다른 양상은, 초병렬 시퀀싱에 의해 생성된 리드 중 검증하고자 하는 적어도 하나의 제1 리드를 선정하는 리드 선정부; 상기 제1 리드에 대응되는 핵산 단편을 시퀀싱 플레이트로부터 회수하는 핵산 회수부; 상기 각 단편 또는 그의 증폭 산물에 대한 염기서열 분석을 통해 제2 리드를 생성하는 리드 생성부; 및 상기 제2 리드와 그에 대응되는 제1 리드를 비교하여 상기 제1 리드의 오류를 검증하는 판별부를 포함하는, 초병렬 시퀀싱의 오류 확인장치를 제공한다.

도 2는 초병렬 시퀀싱의 오류 확인장치의 일 구현예를 나타낸 도면이다. 도 2를 참조하면, 초병렬 시퀀싱의 오류 확인장치(600)는 초병렬 시퀀싱에 의해 생성된 리드 중 검증하고자 하는 적어도 하나의 제1 리드를 선정하는 리드 선정부(610); 상기 제1 리드에 대응되는 핵산 단편을 시퀀싱 플레이트로부터 회수하는 핵산 회수부(620); 상기 각 단편 또는 그의 증폭 산물에 대한 염기서열 분석을 통해 제2 리드를 생성하는 리드 생성부(630); 및 상기 제2 리드와 그에 대응되는 제1 리드를 비교하여 상기 제1 리드의 오류를 검증하는 판별부(640)을 포함한다.

상기 리드 선정부(610)에서, 상기 제1 리드 중 적어도 하나는 레퍼런스 서열을 기준으로 변이된 서열을 포함하는 리드일 수 있다. 상기 제1 리드 중 적어도 하나는 레퍼런스 서열 대비 변이된 서열을 포함하는 것으로 추정되는 리드일 수 있다. 또한, 상기 제1 리드 중 전부 또는 일부는 레퍼런스 서열과 동일한 서열을 포함하는 것일 수 있다.

상기 핵산 회수부(620)는 혼성화 반응 또는 PCR에 의한 증폭 반응을 통해 상기 각 단편에 고유 식별 물질을 부가하는 핵산 반응부를 포함할 수 있다. 상기 고유 식별 물질에 대해서는 전술한 바와 같다. 일 구현예에서, 상기 핵산 반응부는 혼성화 반응 또는 PCR에 의한 증폭 반응에 사용되는 시약의 저장 수단 및 공급 수단을 구비할 수 있다. 일 구현예에서, 상기 핵산 반응부는 반응 온도 조절을 위한 온도 제어장치를 포함할 수 있다. 또는 일 구현예에서, 상기 핵산 반응부는 반응이 일어나는 공간에 교반 또는 진동과 같은 물리적 힘을 인가하기 위한 반응촉진 장치를 포함할 수 있다.

또한, 상기 핵산 회수부(620)는 상기 제1 리드에 대응되는 핵산 단편이 결합된 지지체 또는 시퀀싱 플레이트의 일부분을 상기 플레이트로부터 이탈시키기 위해 에너지를 인가하는 에너지 인가부를 포함할 수 있다. 상기 핵산 회수부(620)는 레이저 광원, 이미징 장치, 및 집광 장치를 포함할 수 있다. 상기 이미징 장치는 회수하려는 핵산 단편의 위치 판독을 위한 것으로, 광학 현미경 또는 전자 현미경일 수 있다. 일 구현예에서, 상기 핵산 회수부(620)는 전술된 펄스 레이저 광학 회수 시스템을 포함할 수 있다. 상기 핵산 회수부(620)는 상기 각 단편을 공간상 상호 분리된 상태로 회수하기 위한 저장 용기를 포함할 수 있다.

상기 리드 생성부(630)는 초병렬 시퀀싱, 생어 시퀀싱, 질량 분석, 전기영동, 혼성화, 디지털 PCR, 대립유전자-특이 PCR, 정량적 PCR, 형광 기반 분류, 또는 그 조합을 수행하기 위한 장치를 포함할 수 있다.

상기 판별부(640)는 상기 제1 리드에 대응하는 제2 리드 중 상기 제1 리드와의 대응 부위에서 상기 제1 리드와 동일 서열을 갖는 리드의 비율에 따라 상기 제1 리드 중 해당 부위의 시퀀싱 오류 여부를 판별할 수 있다. 상기 판별부(640)는 서열 얼라인먼트 도구 또는 리드 서열 정렬을 위해 개발된 도구를 구비할 수 있다. 상기 판별부(640)의 구체적인 오류 검증 방법에 대해서는 상기 초병렬 시퀀싱의 오류 확인방법에서 전술한 바와 같다.

일 양상에 따른 초병렬 시퀀싱의 오류 확인방법 또는 장치에 따르면, 초병렬 시퀀싱에서 발생된 오류 서열을 정확하고 용이하게 확인할 수 있다. 상기 방법 또는 장치에 따르면, 초병렬 시퀀싱에서 발생된 오류 서열과 매우 낮은 빈도로 출현하는 변이 서열을 높은 정확도로 구별할 수 있다. 또한, 상기 방법 또는 장치에 따르면, 핵산에 식별 물질을 부가하는 과정 없이도 정확하고 신속하게 초병렬 시퀀싱의 오류를 확인하거나 매우 낮은 빈도로 출현하는 변이 서열을 확인하는 것이 가능하다.

도 1은 초병렬 시퀀싱의 오류 확인방법의 일 구현예를 나타내는 공정 흐름도이다.

도 2는 초병렬 시퀀싱의 오류 확인장치의 일 구현예를 나타낸 도면이다.

도 3은 초병렬 시퀀싱의 오류 분석방법에 대한 일 실시예를 나타내는 공정흐름도이다.

도 4는 바코드 PCR의 일부 결과를 나타낸다.

도 5은 BWA 얼라인먼트 결과를 시각화하여 나타낸 것이다.

도 6a 및 6b는 바코드에 의해 시퀀싱 결과를 비교한 그래프를 나타낸다.

이하, 본 발명을 하기 실시예에 의해 더욱 구체적으로 설명한다. 그러나, 이들 실시예는 본 발명에 대한 이해를 돕기 위한 것일 뿐, 어떤 의미로든 본 발명의 범위가 이들에 의해 제한되는 것은 아니다.

실시예 1: 초병렬 시퀀싱의 오류 분석 과정

도 3은 초병렬 시퀀싱의 오류 분석방법에 대한 일 실시예를 나타내는 공정흐름도이다. 도 3에 나타낸 바와 같이, 전체 실험 과정은 타겟 템플릿 제조, 1차 초병렬 시퀀싱, 오류 염기서열을 갖는 비드 분리, 바코드 PCR, 및 2차 초병렬 시퀀싱 일루미나 시퀀싱 및 분석으로 이루어진다.

1.1. 타겟 템플릿의 제조

초병렬 시퀀싱 분석에서 발생하는 오류와 구별되는 실제 변이(mutation)로서 폴리머레이즈에 의한 오류(polymerase error)를 선택하였다. 폴리머레이즈에 의한 오류 중 삽입 또는 결실 변이(indel)의 오류율은 10^-9개/base·cycle 수준으로 매우 낮아 실험적으로 관찰하고 분석하기가 어려우므로, 미스매치 변이(mismatch)만을 실제 변이로 간주하였다. 다른 변이를 배제하기 위하여, 돌연변이가 거의 없는 E.coli의 필수 유전자(essential gene)를 주형으로 하고 이 유전자를 증폭하기 위한 11쌍의 상이한 프라이머를 제작하였다. 1차 초병렬 시퀀싱 분석에서 미스매치 오류가 관찰될 수 있도록, 약 10^-6개/base·cycle 수준의 미스매치 오류율을 갖는 Phusion DNA 폴리머레이즈를 이용한 PCR을 하기와 같이 수행하였다.

E.coli의 콜로니(colony) 1 ㎕, 10μM의 정방향 및 역방향 프라이머 각 2.5 ㎕, 5x 완충액 10 ㎕, 디옥시뉴클레오티드 1 ㎕, Phusion DNA 폴리머레이즈(Phusion　 High-Fidelity DNA Polymerase) 0.5 ㎕, 뉴클레이즈 무함유 물을 포함하는 PCR 반응 혼합용액 50 ㎕를 하기의 조건으로 반응시켰다: 98℃에서 30초간 반응 후, 98℃에서 15초, 62℃에서 30초, 및 72℃에서 1분으로 이루어진 사이클 20회를 반복한 뒤, 72℃에서 6분간 반응시켜, 4℃에 보관.

1.2. 1차 초병렬 시퀀싱 분석

전술된 1.1.에서 제조된 타겟 템플릿에 대하여 GS 주니어 454 시퀀싱 시스템(GS Junior 454 sequencing system, Roche)를 이용하여 1차 초병렬 시퀀싱 분석을 수행하였다.

수득된 시퀀싱 데이터 중 NCBI에 게재된 E.coli 유래 해당 유전자의 염기서열과 비교하여 삽입, 결실, 또는 치환을 포함하는 염기서열을 오류 염기서열로 결정하였다. 1차 시퀀싱 결과, 총 42,328 리드 중 유전자 dapA2에 해당하는 리드는 10,878 리드가 나왔으며, 그 중 오류 염기서열은 3,196 리드가 검출되었고 그 비율은 29.38%이었다.

1.3. 오류 염기서열을 갖는 비드의 분리

전술된 1.2.에서 오류 염기서열을 갖는 비드를 스나이퍼 클로닝(Sniper cloning)을 통해 시퀀싱 플레이트로부터 분리하였다((Nature communications, 6, Article number: 6073 (2015)). 총 3,196개의 비드를 분리하였다.

구체적으로, FASTA 형식으로 출력되는 1차 초병렬 시퀀싱 결과 데이터에는 각 비드의 ID, 염기서열 정보 및 시퀀싱 플레이트에서의 좌표값이 포함되어 있다. 이 좌표값과 시퀀싱 플레이트의 이미지를 이용하여 원하는 위치의 웰을 현미경으로 확인하고 그 위치에 펄스 레이저를 조사하여 별도의 플레이트에 비드를 회수하였다.

1.4. 분리된 DNA에의 바코드 부가

분리된 하나의 비드에 대해 하나의 바코드 서열을 부가하기 위하여, 바코드 서열을 포함하는 프라이머를 이용하여 PCR을 수행하였다. 총 20개의 96웰 플레이트를 웰 별로 바코드 PCR 하였다. 바코드 PCR에서 사용된 정방향 프라이머는 시퀀싱 플레이트의 번호를 인덱싱하고, 역방향 프라이머는 그 플레이트의 웰 번호를 인덱싱하는 기능을 한다.

각 웰에 100 μM의 정방향 및 역방향 프라이머 각 0.2 ㎕, Taq DNA 폴리머레이즈 master mix 10 ㎕, 뉴클레이즈 무함유 물 9.6 ㎕을 포함하는 PCR 반응 혼합용액 20 ㎕를 가하여 95℃에서 2분간 반응 후, 95℃에서 20초, 58℃에서 40초, 및 72℃에서 30초로 이루어진 사이클 27회를 수행한 뒤, 72℃에서 5분간 반응시켜, 4℃에 보관하였다.

도 4는 바코드 PCR의 일부 결과를 나타낸다. 도 4에서 각 레인에 기재된 번호는 사용된 96웰 플레이트의 웰 번호를 나타낸다.

1.5. 2차 초병렬 시퀀싱 분석

1.4.에서 바코딩한 PCR 산물을 풀링하여 2차로 초병렬 시퀀싱 분석을 수행하였다. 바코드에 따라 분류함으로써 동일 DNA 시료에 대한 1차 및 2차 초병렬 시퀀싱 분석 결과를 취합할 수 있다. 초병렬 시퀀싱 과정 중 발생하는 오류 염기서열은 일정한 위치에서 발생하기보다 임의의 위치에 존재할 가능성이 높다. 이에 비해, 실제 DNA 상에 변이 서열이 존재할 경우, PCR 증폭 산물도 그와 동일한 변이 서열을 갖게 되므로 서열 분석 결과 대부분 동일 위치에서 변이 서열이 발견된다. 다만, 실제 DNA 상의 변이 서열도 시퀀싱 분석에 의한 오류로 인해 그와 다르게 나타날 수 있으므로, 이 실험에서는, 동일한 바코드를 갖는 서열에 있어서 동일 위치에 90% 이상의 변이 서열이 나타난 경우, 이 변이를 실제 DNA 시료 상에 존재하는 변이 서열로 간주하였다.

구체적으로, Miseq 일루미나 시퀀싱(Miseq illumina sequencing)을 통해 수득된 FASTA 형식의 서열 정보를 대상으로 페어드 엔드 병합(paird end merge) 도구인 PEAR 툴을 이용하여 300 bp의 페어드 엔드 시퀀싱을 수행하였다. 다음으로, 동일한 바코드를 갖는 2차 초병렬 시퀀싱 분석 데이터와 그에 해당하는 비드 결합 DNA의 서열을 BWA(bead sequence alignment) 툴을 이용하여 정렬(align)하였다. SAM/BAM 파일 형식을 변환한 후, bam-readcount 프로그램을 이용하여 단일 염기 다형성(SNP) 분석을 수행하였다.

도 5는 BWA 얼라인먼트 결과를 시각화하여 나타낸 것이다. 레퍼런스(reference)는 17_A1에 해당하는 454 시퀀싱 결과이고, 쿼리(query)는 17_A1에 해당하는 일루미나 시퀀싱 결과이다. 모든 바코드에 대하여 SNP는, 동일 위치에 90% 이상의 변이가 존재하는 경우가 2.18 X 10^-6/bp/cycle인 것으로 예상되었다.

실시예 2: 초병렬 시퀀싱의 오류 분석

도 6a 및 6b는 바코드에 의해 시퀀싱 결과를 비교한 그래프를 나타낸다. x축 및 y축은 각각 염기의 위치 및 변이의 빈도를 나타낸다. 도 6a에서, 17_A1은 17번 플레이트의 웰 번호 A1을 의미한다. 1차 시퀀싱에서 191번째 위치에서 구아닌이 티민으로 변이된 서열이 존재한다고 콜링(calling)되었으나, 2차 시퀀싱 결과 해당 위치에서 콜링된 변이 서열은 존재하지 않았다. 도 6b에서, 17_B8의 경우 1차 및 2차 시퀀싱 결과 모두 119번째 위치에서 시토신이 구아닌으로 변이된 서열이 존재한다고 콜링되었다. 따라서, 17_A1에 해당하는 1차 시퀀싱 데이터는 454 시퀀싱에서 발생된 오류인 것으로 판단하고, 17_B8의 경우에는 실제 변이 서열인 것으로 판단하였다.

Claims

(a) 초병렬 시퀀싱에 의해 생성된 리드(read) 중 검증하고자 하는 적어도 하나의 제1 리드를 선정하는 단계;

(b) 상기 제1 리드에 대응되는 핵산 단편을 시퀀싱 플레이트로부터 회수하는 단계;

(c) 상기 각 단편 또는 그의 증폭 산물에 대하여 염기서열 분석을 수행하여 제2 리드를 생성하는 단계; 및

(d) 상기 제2 리드와 그에 대응되는 제1 리드를 비교하여 상기 제1 리드의 오류를 검증하는 단계를 포함하는, 초병렬 시퀀싱의 오류 확인방법.
청구항 1에 있어서, 상기 제1 리드 중 적어도 하나는 레퍼런스 서열을 기준으로 변이된 서열을 포함하는 리드인 것인 방법.
청구항 1에 있어서, 상기 제1 리드 중 전부 또는 일부는 레퍼런스 서열과 동일한 서열을 포함하는 것인 방법.
청구항 1에 있어서, 상기 단계 (b)는 혼성화, PCR에 의한 증폭, 화학적 분리, 물리적 분리, 또는 그의 조합에 의해 이루어지는 것인 방법.
청구항 1에 있어서, 상기 단계 (b)는, 에너지 인가를 통해 또는 자성 물질에 의해, 상기 단편이 결합된 지지체 또는 시퀀싱 플레이트의 일부분을 상기 플레이트로부터 이탈시켜 이루어지는 것인 방법.
청구항 5에 있어서, 상기 에너지 인가는 레이저 조사를 통해 이루어지는 것인 방법.
청구항 1에 있어서, 상기 단계 (b)에서 상기 각 단편은 공간상 상호 분리된 상태 또는 고유 식별 물질이 부가된 상태로 회수되는 것인 방법.
청구항 1에 있어서, 상기 단계 (b)에서 상기 단편은 혼합 상태로 회수되고, 상기 단계 (c) 이전에 각 단편에 고유 식별 물질을 부가하는 것인 방법.
청구항 7 또는 8에 있어서, 상기 물질은 핵산, 폴리펩타이드, 펩타이드, 또는 그 조합을 포함하는 생화학 분자인 것인 방법.
청구항 1에 있어서, 상기 초병렬 시퀀싱은 합성에 의한 시퀀싱, 이온 토렌트 시퀀싱, 파이로시퀀싱, 라이게이션에 의한 시퀀싱, 나노포어 시퀀싱, 및 단일-분자 실시간 시퀀싱으로 이루어진 군으로부터 선택되는 것인 방법..
청구항 1에 있어서, 상기 염기서열 분석은 초병렬 시퀀싱, 생어(Sanger) 시퀀싱, 질량 분석, 전기영동, 혼성화, 디지털 PCR, 대립유전자-특이 PCR, 정량적 PCR, 형광 기반 분류, 또는 그 조합을 포함하는 것인 방법.
청구항 1에 있어서, 상기 단계 (e)는, 상기 제1 리드에 대응하는 제2 리드 중 상기 제1 리드와의 대응 부위에서 상기 제1 리드와 동일 서열을 갖는 리드의 비율이 일정값 미만인 경우, 상기 제1 리드의 해당 부위를 시퀀싱 오류에 의한 것으로 판단하는 것인 방법.
초병렬 시퀀싱에 의해 생성된 리드 중 검증하고자 하는 적어도 하나의 제1 리드를 선정하는 리드 선정부;

상기 제1 리드에 대응되는 핵산 단편을 시퀀싱 플레이트로부터 회수하는 핵산 회수부;

상기 각 단편 또는 그의 증폭 산물에 대한 염기서열 분석을 통해 제2 리드를 생성하는 리드 생성부; 및

상기 제2 리드와 그에 대응되는 제1 리드를 비교하여 상기 제1 리드의 오류를 검증하는 판별부를 포함하는, 초병렬 시퀀싱의 오류 확인장치.
청구항 13에 있어서, 상기 제1 리드 중 적어도 하나는 레퍼런스 서열을 기준으로 변이된 서열을 포함하는 리드인 것인 장치.
청구항 13에 있어서, 상기 제1 리드 중 전부 또는 일부는 레퍼런스 서열과 동일한 서열을 포함하는 리드인 것인 장치.
청구항 13에 있어서, 상기 핵산 회수부는 혼성화 반응 또는 PCR에 의한 증폭 반응을 통해 상기 각 단편에 고유 식별 물질을 부가하는 핵산 반응부를 포함하는 것인 장치.
청구항 13에 있어서, 상기 핵산 회수부는, 상기 제1 리드에 대응되는 핵산 단편이 결합된 지지체 또는 시퀀싱 플레이트의 일부분을 상기 플레이트로부터 이탈시키기 위해 에너지를 인가하는 에너지 인가부를 포함하는 것인 장치.
청구항 13에 있어서, 상기 핵산 회수부는, 레이저 광원, 이미징 장치, 및 집광 장치를 포함하는 것인 장치
청구항 13에 있어서, 상기 핵산 회수부는 상기 각 단편을 공간상 상호 분리된 상태로 회수하기 위한 저장 용기를 포함하는 것인 장치.
청구항 13에 있어서, 상기 리드 생성부는 초병렬 시퀀싱, 생어 시퀀싱, 질량 분석, 전기영동, 혼성화, 디지털 PCR, 대립유전자-특이 PCR, 정량적 PCR, 형광 기반 분류, 또는 그 조합에 의해 제2 리드를 생성하는 것인 장치.
청구항 13에 있어서, 상기 판별부는 상기 제1 리드에 대응하는 제2 리드 중 상기 제1 리드와의 대응 부위에서 상기 제1 리드와 동일 서열을 갖는 리드의 비율에 따라 상기 제1 리드 중 해당 부위의 시퀀싱 오류 여부를 판별하는 것인 장치.