KR101313087B1

KR101313087B1 - Ｎｇｓ를 위한 서열 재조합 방법 및 장치

Info

Publication number: KR101313087B1
Application number: KR1020110112370A
Authority: KR
Inventors: 박민서; 김판규
Original assignee: 삼성에스디에스 주식회사
Priority date: 2011-10-31
Filing date: 2011-10-31
Publication date: 2013-09-30
Also published as: WO2013065944A1; CN103946396A; US20140288851A1; CN103946396B; KR20130047382A

Abstract

본 발명은 NGS를 위한 서열 재조합 방법 및 장치에 관한 것이다. 본 발명의 바람직한 일 실시예에서는 서열길이가 n인 단편서열을 6등분 한 후 앞부분의 3조각만을 시드로 활용하여 참조서열을 기초로 생성된 해쉬테이블을 검색하여 매칭후보위치를 검색한다.

Description

ＮＧＳ를 위한 서열 재조합 방법 및 장치{Method and Apparatus for rearrangement of sequence in Next Generation Sequencing}

본 발명은 생물 개체의 전체 유전 서열을 완성하는 시퀀싱 분야에 관한 것이다. 상세히, 본 발명은 NGS(Next Generation Sequencing)를 위해 짧은 서열 재조합하기 위한 인덱싱 및 검색 기술에 관한 것이다.

DNA 염기서열 정보의 해독, 즉 게놈시퀀싱(genome sequencing)의 핵심은 개인차 및 민족적 특성을 파악하거나 유전자 이상과 관련된 질환에서 염색체 이상을 포함한 선천성 원인의 규명과 당뇨병, 고혈압과 같은 복합질병의 유전자 결함을 찾기 위한 것이다.

또한 서열 데이터(Sequencing Data)는 유전자 발현, 유전자 다양성, 유전적 variation, 유전적 질병원인 및 그 상호작용 등의 정보들을 분자진단과 치료영역에서 폭넓게 활용할 수 있어 매우 중요하다.

유전 연구에서 전통적으로 사용되던 긴 서열을 생산하는 Sanger 시퀀싱 방법은 실험과정에 소요되는 시간이나 비용 및 그 응용성이 우수한 짧은 서열을 생산하는 NGS 기술로 빠르게 대체되고 있다. 또한 정확도에 초점을 맞춘 다양한 NGS 서열재조합 프로그램들이 개발되었다.

최근에는 NGS 비용이 과거 HGP에 비해 1/1,520,000 수준으로 떨어짐으로 인해 단편 서열로 사용할 수 있는 데이터의 양이 많아지게 되었다. 대량데이터를 처리하기 위한 방법으로 SOAP2와 같은 방식이 개발되었으나, SOAP2의 경우 특정 길이에 대해서는 빠른 속도를 보이지만 품질을 보장하지 못하는 문제가 있다. 이로 인해 짧은 대용량의 단편서열의 품질을 보장하면서도 빠른시간에 처리하고자 하는 요구가 높아지고 있다.

본 발명은 이상의 문제를 해결하기 위한 것으로 시퀀서로부터 획득한 짧은 단편 서열들의 품질을 보장하면서 재조합하여 하나의 전체 염기서열을 생성하는 인덱싱 기법 및 탐색 기법을 제시하고자 한다.

본 발명의 바람직한 일 실시예로서, NGS를 위한 서열 재조합 방법은 서열길이가 n인 단편서열을 6등분하는 단계; 참조서열을 n/6 크기의 부서열(sub-string) 단위로 해쉬값을 생성하여 해쉬테이블을 구성하는 단계; 상기 단편서열을 6등분한 조각들 중 상기 단편서열의 앞부분에 위치한 3조각을 각각 시드로 이용하는 단계; 상기 3개 시드의 해쉬값을 계산하는 단계;및 상기 3개 시드의 해쉬값과 일치하는 해쉬값을 상기 해쉬테이블에서 검색하여 매핑후보위치를 검색하는 단계;를 포함한다.

본 발명의 또 다른 바람직한 일 실시예로서, 서열길이가 n인 단편서열을 6등분하는 분할부; 상기 단편서열을 6등분한 조각들 중 상기 단편서열의 앞부분에 위치한 3조각을 각각 시드로 사용하는 시드생성부; 상기 3개 시드의 해쉬값을 계산하는 해쉬값생성부; 참조서열을 n/6 크기의 부서열(sub-string) 단위로 해쉬값을 생성하여 해쉬테이블을 구성하는 해쉬테이블생성부; 및 상기 3개 시드의 해쉬값과 일치하는 해쉬값을 상기 해쉬테이블에서 검색하여 매핑후보위치를 검색하는 검색부;를 포함한다.

본 발명에서는 시퀀서로부터 얻어진 짧은 단편 서열들을 재조합하여, 하나의 염기 서열을 만들 때, 품질을 보장하면서 속도를 개선시키는 효과가 있다.

본 발명에 개시된 NGS를 위한 서열 재조합 방법 및 장치를 통해 혈액검사로부터 전체 유전체 서열을 완성하는 시간을 단축시킬 수 있으며, 질병 진단시 빠른 유전체 분석이 가능하게 하여 유전적 질병원인을 밝히는 시간을 줄일 수 있다.

도 1 은 서열 데이터를 재조합하여 유전체 서열을 완성하는 흐름도를 도시한다.
도 2 는 유전체 분석 솔루션의 일반적인 구성도를 도시한다.
도 3 은 기존 MAQ 의 인덱싱 방법의 일 실시예를 도시한다.
도 4 는 본 발명의 바람직한 일 실시예에서 유전체 참조 서열을 기초로 해쉬테이블을 생성하는 예를 도시한다.
도 5 는 본 발명의 바람직한 일 실시예로서, NGS를 위한 서열 재조합 방법을 도시한다.
도 6은 본 발명의 바람직한 일 실시예로서, NGS를 위한 서열 재조합 장치 구성도를 도시한다.

이하에서, 도면을 참조하여 본 발명의 실시예에 대하여 상세히 설명하기로 한다. 도면들 중 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 참조번호들 및 부호들로 나타내고 있음에 유의해야 한다.

하기에서 본 발명을 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.

또한, 본 발명에 보다 더 충실하도록 하기 위해서, 본 발명의 취지를 벗어나지 않는 범위 내에서 당업자 수준의 변경이나 변형이 있을 수 있음을 명기하는 바이다.

도 1 은 서열 데이터를 재조합하여 유전체 서열을 완성하는 흐름도를 도시한다.

유전체 참조 서열에 대한 인덱스를 작성한다(S110). 인덱스를 작성하기 위해 본 발명의 바람직한 일 실시예에서는 유전체 참조서열을 n/6 크기의 부서열(sub-string) 단위로 해쉬값을 생성하여 해쉬테이블을 구성한다. 이 때, n 은 입력되는 서열데이터(100)의 길이를 나타낸다. 유전체 참조서열을 n/6 크기의 부서열(sub-string) 단위로 해쉬값을 생성하는 예는 도 4를 참고한다.

본 발명의 바람직한 일 실시예에서, 서열데이터(100)는 100bp 길이 이내의 A, G, C, T로 이루어진 문자열인 서열 집합을 나타낸다.

이 후, 서열 데이터(100)를 6등분한 후, 6등분한 조각들 중 서열 데이터(100)의 앞부분에 위치한 3조각을 시드로 이용하며, 3개의 시드(Seed) 대해 해쉬값을 생성한다. 시드의 해쉬값이 생성되면 해쉬테이블 내에서 매칭되는 해쉬값을 검색하여 매핑후보의 위치를 검색한다(S110). 해쉬값을 생성하는 방법 및 해쉬테이블을 생성하는 실시예는 도 4를 참고한다.

매핑후보의 위치가 검색되면, 서열데이터(100)와 참조 서열의 해당위치를 갭없이 정렬하여 유사도를 측정한다(S120). 검색된 모든 매핑후보의 위치에 대해서 이 작업을 수행한 이후, 유사도가 가장 높은 위치를 최적의 위치로 선택한다(S130). 이후 짝을 이루는 두 서열의 짝을 찾고, 에러 검색 및 위치 보정을 수행하여 유전체 서열을 완성한다(S140, S150).

도 2 는 유전체 분석 솔루션의 일반적인 구성도를 도시한다.

유전체 분석 솔루션은 모든 바이오 메디컬 정보(Bio/Medical informatics)의 모든 연구 및 수행에 필요한 과정으로 생물 개체의 전체 유전 서열을 알아내는 시퀀싱 분야, 유전적 변형(Variation)들간의 관계를 분석하는 분야, 유전적 질병 원인 유전 서열을 밝혀내는 의료 분야, 생명 현상의 원인 유전 서열을 밝혀내는 의료 분야 및 특정 화학 물질이 반응하는 단백질 및 유전서열을 밝혀내는 의약 분야에 사용된다.

본 발명의 바람직한 일 실시예에서는, 유전체 분석 솔루션의 전처리 과정에 해당하는 매핑(210) 단계 및 페어링(220) 단계에서 종래의 MAQ의 인덱싱 방법을 개선하여 이용한다.

종래의 MAQ(Mapping and Assembly with Quality)는 게놈 분석(Genome Analyzer) 뿐만 아니라 SOLiD 단편서열도 다룰 수 있는 툴로써, 단편 서열 단위로 매핑을 수행하였다. 또한 매핑시 6개의 시드를 사용하며, 2개의 시드를 짝을 이루어 매핑을 수행하였다.

도 3 은 기존 MAQ 의 인덱싱 방법의 일 실시예를 도시한다.

도 3을 참고하면, 기존의 MAQ에서는 k개의 미스매치를 허용한다면, MAQ은 각 단편서열을 k개 이상의 단편(fragment)으로 나눈다. 예를 들어, 길이가 28인 단편서열에 대해서 2개의 미스매치를 허용한다면, 4(>k=2)개의 단편으로 나눈 후, 시드를 2개씩 조합하여 Combination Seed를 생성하고, 이를 기초로 단편마다 6개의 해쉬값을 생성하여 해쉬 테이블을 만든다, 참조서열을 차례로 스캔하여 6개의 시드 중 하나라도 발견되면 정확한 정렬점수를 계산하여 맵핑할지 결정한다

그러나 본 발명에서는 MAQ을 이용하여 시드 단위로 매핑을 수행할 수 있으며, 또한 사용하는 시드의 개수를 3개로 줄여 종래의 MAQ 방법보다 최소 50% 이상 시간을 단축시킬 수 있다.

기존 MAQ 에서는 시드 조합을 위해 정형화된 패턴을 사용하고, 6개의 Non-continuous 시드를 사용함으로써 속도가 늦었다. 그러나, 본 발명에서 개시하는 일 실시예로서 본 발명은 3개의 시드를 사용하며, 또한 각 시드가 독립적으로 사용되어 Parallel Processing(병행 처리)이 가능하며 속도가 향상된다.

도 4 는 본 발명의 바람직한 일 실시예에서 유전체 참조 서열을 기초로 해쉬테이블을 생성하는 예를 도시한다.

서열길이가 n인 단편서열이 입력되면, 유전체 참조서열의 해쉬테이블은 도 4와 같이 생성이 가능하다. 참조서열의 시작지점으로부터 길이가 n/6인 윈도우(window)(410)를 오른쪽 방향으로 하나의 서열씩 이동하면서 ACGACG, CGACGT, GACGTC.... 과 같은 부서열(sub-string) 이루어진 시드서열 필드(420)를 생성한다. 이 후 각 부서열에 대한 해쉬값필드(430)를 생성하고, 각 시드서열의 시작위치를 기록한 시작위치필드(440)를 포함하는 해쉬테이블을 생성한다.

본 발명의 바람직한 일 실시예에서, 해쉬값은 시드서열 필드(420) 내의 각 부서열에 대해서 하나의 값으로 생성한다. 해쉬값을 생성하는 방법은 염기서열 A, C, G, T에 대해서 각각 2bit의 이진수 00, 01, 10, 11로 치환하여 변환한다. 예를 들어서 CGACGT는 이진수 011000011011의 해쉬값으로 변환된다.

CGACGT 부서열의 경우 해쉬테이블 내의 해쉬값 필드는 011000011011, 시작위치 필드에는 82(411), 88(412),... 이 생성된다(450).

도 5 는 본 발명의 바람직한 일 실시예로서, NGS를 위한 서열 재조합 방법을 도시한다.

서열길이가 n인 단편서열(510)을 6등분으로 분할한다. 6등분으로 나뉘어진 조각 중 앞부분의 3조각을 시드로 이용한다(520). 본 발명의 바람직한 일 실시예에서 단편서열(510)의 앞부분에 위치한 3개의 조각만을 시드로 이용하는 이유는 단편서열은 한 서열 내에서 뒤로 갈수록 정확도가 낮아지고, 앞쪽에 있는 염기서열일 수록 정확도가 높기 때문이다.

이와 같이 생성된 3개의 시드에 대해 각각 시작위치(Offset)(530)을 저장한다. 본 발명의 바람직한 일 실시예에서 시드의 시작위치는 단편서열(510)의 시작지점을 기준으로 설정되며, 첫 번째 시드(시드1)의 위치는 0, 두 번째 시드(시드2)의 위치는 n/6, 세 번째 시드(시드3)의 위치는 2n/6으로 저장된다.

그리고, 생성된 3개의 시드에 대해 해쉬값을 생성한다. 이 후, 도 4의 일 실시예와 같은 해쉬테이블 내에서 각 시드와 같은 서열을 가지는 매핑후보위치를 O(1) 검색시간안에 찾는다.

본 발명의 바람직한 일 실시예에서 제시한 이상의 방식을 이용하여 검색을 수행할 경우, 3개의 시드에 대해서만 검색을 수행하므로 종래의 방식에 비해 검색시간이 절반 이하로 줄어들 수 있다.

매핑후보위치가 검색되면, 각 매핑후보위치에서 입력된 전체 단편서열과 참조서열의 해당 위치를 스미스-워터만(Smith-Waterman) 알고리즘으로 정렬하여 유사도를 측정한다. 검색된 모든 매핑후보위치에서 유사도를 측정한 이후 유사도가 가장 높은 위치를 최적의 위치로 할당하여 배치한다.

도 6은 본 발명의 바람직한 일 실시예로서, NGS를 위한 서열 재조합 장치 구성도를 도시한다.

NGS를 위한 서열 재조합 장치(600)는 분할부(610), 시드생성부(620), 해쉬값생성부(630), 해쉬테이블생성부(640) 및 검색부(650)를 포함한다.

분할부(610)는 서열길이가 n인 단편서열을 6등분한다. 본 발명의 바람직한 일 실시예에서는 단편 서열을 6등분한 경우 품질을 보장하면서 최적의 속도를 지원할 수 있다.

단편서열을 5등분한 경우와 6등분한 경우를 비교하면 아래와 같다.

1) 단편서열을 5등분 한경우

단편서열의 길이가 최대 100bp인 경우, 시드당 필요한 메모리는 10bytes이다.

시드서열: 0byte (해쉬값으로 역변환)

해쉬값: 5byte (4^20 개=2^(8*5)개)

시작위치 : 5byte

-염색체# : 1byte(23개<2^8)

-offset : 4byte(2억4천만 < 2^(8*4)

해쉬테이블 크기 : 10TB

10bytes*4^20=10*(2^30)*2^10=10GB*2^10=10TB

단편서열을 5등분할 경우, 이상에서와 같이 해쉬테이블을 위해 10TB가 요구된다.

2) 단편서열을 6등분 한경우

단편서열의 길이가 최대 100bp인 경우, 시드당 필요한 메모리는 9bytes이다.

시드서열: 0byte (해쉬값으로 역변환)

해쉬값: 4byte (4^15 개=2^(8*4)개)

시작위치 : 5byte

-염색체# : 1byte(23개<2^8)

-offset : 4byte(2억4천만 < 2^(8*4)

해쉬테이블 크기 : 9Gbytes

9bytes*4^15=9*(2^30)=9GB

단편서열을 6등분할 경우, 이상에서와 같이 해쉬테이블을 위해 9GB가 요구된다.

검색부(650)는 3개 시드의 해쉬값과 일치하는 해쉬값을 해쉬테이블에서 검색하여 매핑후보위치를 검색한다. 해쉬테이블은 n/6 크기의 부서열로 구성된 시드서열 필드, 부서열 각각에 대한 해쉬값을 기록된 해쉬값 필드, 부서열의 시작위치를 기록한 시작위치 필드를 포함한다.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.

컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피 디스크, 광데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

이상 도면과 명세서에서 최적 실시예들이 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다.

그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

서열길이가 n인 단편서열을 6등분하는 단계;
참조서열을 n/6 크기의 부서열(sub-string) 단위로 해쉬값을 생성하여 해쉬테이블을 구성하는 단계;
상기 단편서열을 6등분한 조각들 중 상기 단편서열의 앞부분에 위치한 3조각을 각각 시드로 이용하는 단계;
상기 3개 시드의 해쉬값을 계산하는 단계;및
상기 3개 시드의 해쉬값과 일치하는 해쉬값을 상기 해쉬테이블에서 검색하여 매핑후보위치를 검색하는 단계;를 포함하는 것을 특징으로 하는 NGS를 위한 서열 재조합 방법.
제 1 항에 있어서, 상기 3개의 시드의 시작위치는
상기 단편서열의 시작지점을 기준으로 설정되며, 첫 번째 시드의 위치는 0, 두 번째 시드의 위치는 n/6, 세 번째 시드의 위치는 2n/6인 것을 특징으로 하는 NGS를 위한 서열 재조합 방법.
제 1 항에 있어서, 상기 해쉬값은
염기서열 A, G, C, T 각각에 대해 이진수 00, 01, 10, 11로 치환하여 생성된 값인 것을 특징으로 하는 NGS를 위한 서열 재조합 방법.
제 1 항에 있어서, 상기 검색하는 단계에서
상기 3개의 시드 각각에 대한 검색시간은 O(1) 이내인 것을 특징으로 하는 NGS를 위한 서열 재조합 방법.
제 1 항에 있어서, 상기 검색하는 단계에서
상기 3개의 시드를 병렬로 동시에 검색이 가능한 것을 특징으로 하는 NGS를 위한 서열 재조합 방법.
제 1 항에 있어서, 상기 해쉬테이블은
상기 n/6 크기의 부서열로 구성된 시드서열 필드, 상기 부서열 각각에 대한 해쉬값을 기록된 해쉬값 필드, 상기 부서열의 시작위치를 기록한 시작위치 필드를 포함하는 것을 특징으로 하는 NGS를 위한 서열 재조합 방법.
제 1 항에 있어서, 각 매핑후보위치에서 입력된 전체 단편서열과 참조서열의 해당 위치를 정렬하여 유사도를 측정하는 단계를 더 포함하는 것을 특징으로 하는 NGS를 위한 서열 재조합 방법.
서열길이가 n인 단편서열을 6등분하는 분할부;
상기 단편서열을 6등분한 조각들 중 상기 단편서열의 앞부분에 위치한 3조각을 각각 시드로 사용하는 시드생성부;
상기 3개 시드의 해쉬값을 계산하는 해쉬값생성부;및
참조서열을 n/6 크기의 부서열(sub-string) 단위로 해쉬값을 생성하여 해쉬테이블을 구성하는 해쉬테이블생성부;
상기 3개 시드의 해쉬값과 일치하는 해쉬값을 상기 해쉬테이블에서 검색하여 매핑후보위치를 검색하는 검색부;를 포함하는 것을 특징으로 하는 NGS를 위한 서열 재조합 장치.
제 8 항에 있어서, 상기 3개의 시드의 시작위치는
상기 단편서열의 시작지점을 기준으로 설정되며, 첫 번째 시드의 위치는 0, 두 번째 시드의 위치는 n/6, 세 번째 시드의 위치는 2n/6인 것을 특징으로 하는 NGS를 위한 서열 재조합 장치.
제 8 항에 있어서, 상기 해쉬값은
염기서열 A, G, C, T 각각에 대해 이진수 00, 01, 10, 11로 치환하여 생성된 값인 것을 특징으로 하는 NGS를 위한 서열 재조합 장치.
제 8 항에 있어서, 상기 검색하는 단계에서
상기 3개의 시드 각각에 대한 검색시간은 O(1) 이내인 것을 특징으로 하는 NGS를 위한 서열 재조합 장치.
제 8 항에 있어서, 상기 검색하는 단계에서
상기 3개의 시드를 병렬로 동시에 검색이 가능한 것을 특징으로 하는 NGS를 위한 서열 재조합 장치.
제 8 항에 있어서, 상기 해쉬테이블은
상기 n/6 크기의 부서열로 구성된 시드서열 필드, 상기 부서열 각각에 대한 해쉬값을 기록된 해쉬값 필드, 상기 부서열의 시작위치를 기록한 시작위치 필드를 포함하는 것을 특징으로 하는 NGS를 위한 서열 재조합 장치.
제 8 항에 있어서, 각 매핑후보위치에서 입력된 전체 단편서열과 참조서열의 해당 위치를 정렬하여 유사도를 측정하는 단계를 더 포함하는 것을 특징으로 하는 NGS를 위한 서열 재조합 장치.