KR101372947B1

KR101372947B1 - 염기 서열 분석을 위한 참조 서열 처리 시스템 및 방법

Info

Publication number: KR101372947B1
Application number: KR1020120019090A
Authority: KR
Inventors: 박민서; 김판규; 전호상
Original assignee: 삼성에스디에스 주식회사
Priority date: 2012-02-24
Filing date: 2012-02-24
Publication date: 2014-03-13
Also published as: EP2631832A2; KR20130097440A; US9323889B2; EP2631832A3; US20130226467A1; CN103294932A; JP2013172709A

Abstract

염기 서열 분석을 위한 참조 서열 처리 시스템 및 방법이 개시된다. 본 발명의 일 실시예에 따른 참조 서열 처리 시스템은, 참조 서열(reference sequence)로부터 시드(seed)를 추출하는 시드 추출부; 상기 시드 추출부에서 추출된 상기 시드에 리드(read)와 맵핑되지 않는 베이스(base)가 존재하는지의 여부를 판단하는 판단부; 및 상기 시드에 상기 리드와 맵핑되지 않는 베이스가 존재하지 않는 경우 상기 시드를 인덱스에 추가하는 인덱스 생성부를 포함한다.

Description

염기 서열 분석을 위한 참조 서열 처리 시스템 및 방법{SYSTEM AND METHOD FOR PROCESSING REFERENCE SEQUENCE FOR ANALYZING GENOME SEQUENCE}

본 발명의 실시예들은 유전체의 염기 서열을 분석하기 위한 기술과 관련된다.

차세대 시퀀싱 기술(next-generation sequencing; NGS)의 출현과 DNA 시퀀싱(sequencing; 염기서열 해독)의 비용 감소로 인해 의학 유전학(medical genetics)과 집단 유전학(population genetics) 연구를 위해 대규모로 인간 유전체 염기서열을 생산하는 것이 가능하게 되었다. 염기 서열 분석을 위해 사용되는 NGS 시퀀서는 길이는 매우 짧지만 수십억 개의 단편서열(리드; read)을 생산할 수 있다. 각 개인의 유전체 서열은 생산된 리드들을 참조 서열의 어느 곳에 위치하는지 결정하는 리시퀀싱(Resequencing; Indexing, Mapping, and Alignment) 작업을 통하여 만들어진다.

염기 서열 분석 시, 리드들의 정확한 맵핑을 위하여 참조 서열이 반드시 필요하다. 그런데 이러한 참조 서열 중의 일부는 시퀀싱 에러, 실험 오류 등의 이유로 인해 A, C, G, T 중 어떠한 염기로 표현하여야 할 지 불분명한 경우가 있으며, 이 경우 통상 해당 위치를 N으로 표기한다. 이 경우, 종래의 염기 서열 분석 시스템들은 상기와 같은 불분명한 베이스를 처리하기 위하여 이를 A, C, G, T 중 임의로 선택된 염기인 것으로 가정하거나, 또는 확률적 방법론 등을 이용하여 불분명한 베이스를 처리하였다. 그러나 이와 같은 방법들의 경우 불분명한 베이스의 처리 루틴이 부가됨으로 인하여 염기 서열 분석 속도가 매우 느려지거나 또는 염기 서열 분석의 정확도가 떨어지는 문제점이 있었다.

본 발명의 실시예들은 염기 서열 분석의 정확도를 훼손하지 않는 동시에 고속 처리가 가능한 참조 서열 내의 불분명한 베이스의 처리 기술을 제공하기 위한 것이다.

본 발명의 일 실시예에 따른 참조 서열 처리 시스템은, 참조 서열(reference sequence)로부터 시드(seed)를 추출하는 시드 추출부; 상기 시드 추출부에서 추출된 상기 시드에 리드(read)와 맵핑되지 않는 베이스(base)가 존재하는지의 여부를 판단하는 판단부; 및 상기 시드에 상기 리드와 맵핑되지 않는 베이스가 존재하지 않는 경우 상기 시드를 인덱스에 추가하는 인덱스 생성부를 포함한다.

한편, 상기 과제를 해결하기 위한 본 발명의 일 실시예에 따른 참조 서열 처리 방법은, 참조 서열 처리 시스템에서, 참조 서열(reference sequence)로부터 시드(seed)를 추출하는 단계; 상기 참조 서열 처리 시스템에서, 추출된 상기 시드에 리드(read)와 맵핑되지 않는 베이스(base)가 존재하는지의 여부를 판단하는 단계; 및 상기 참조 서열 처리 시스템에서, 상기 시드에 상기 리드와 맵핑되지 않는 베이스가 존재하지 않는 경우 상기 시드를 인덱스에 추가하는 단계를 포함한다.

본 발명의 실시예들에 따를 경우 염기 서열 분석 시 참조 서열에서 불분명한 베이스를 처리하기 위한 알고리즘을 포함할 필요가 없게 되므로 염기 서열 분석 과정을 단순화하는 동시에 분석 시간을 대폭 단축할 수 있다.

또한 본 발명의 실시예들에 따를 경우 해시 테이블의 용량이 대폭 줄어들게 되므로, 더 적은 메모리를 이용하더라도 염기 서열 분석이 가능하게 되는 장점이 있다.

도 1은 참조 서열로부터 시드를 추출하는 과정을 예시한 도면이다.
도 2는 유전체 염기 서열 분석(genome sequencing) 과정을 설명하기 위한 순서도이다.
도 3은 유전체 염기 서열 분석에 있어, 리드와 참조 서열과의 맵핑 과정을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 참조 서열 처리 시스템의 블록 구성도이다.
도 5는 참조 서열과 리드와의 대비를 통하여 불분명한 베이스를 유추하는 과정을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 참조 서열 처리 방법을 도시한 순서도이다.

이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.

본 발명을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

본 발명의 기술적 사상은 청구범위에 의해 결정되며, 이하의 실시예는 본 발명의 기술적 사상을 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 효율적으로 설명하기 위한 일 수단일 뿐이다.

본 발명의 실시예들을 상세히 설명하기 앞서, 먼저 본 발명에서 사용되는 용어들에 대하여 설명하면 다음과 같다.

먼저, "리드(read)"란 게놈 시퀀서(genome sequencer)에서 출력되는 염기서열의 단편(fragment)이다. 리드의 길이는 게놈 시퀀서의 종류에 따라 일반적으로 35~500bp(base pair) 정도로 다양하게 구성되며, 일반적으로 DNA 염기의 경우 A, C, G, T의 알파벳 문자로 표현된다.

"참조 서열(reference sequence)"이란 상기 리드들로부터 전체 염기 서열을 생성하는 데 참조가 되는 염기 서열을 의미한다. 즉, 염기 서열 분석에서는 게놈 시퀀서에서 출력되는 다량의 리드들을 참조 서열을 참조하여 맵핑함으로써 전체 염기 서열을 완성하게 된다.

"베이스(base)"는 참조 서열 및 리드를 구성하는 최소 단위이다. 전술한 바와 같이 DNA 염기의 경우 A, C, G, T의 네 종류의 알파벳 문자로 구성될 수 있으며, 이들 각각을 베이스라 표현한다. 다시 말해 DNA 염기의 경우 4개의 베이스로 표현되며, 이는 리드 또한 마찬가지이다. 다만, 참조 서열의 경우 다양한 이유(시퀀싱 오류, 샘플의 오류 등)로 인해 특정 위치의 염기가 A, C, G 또는 T 중 어떠한 베이스로 표현하여야 할 지 불분명한 경우가 발생할 수 있으며, 통상 이러한 불분명한 베이스의 경우 N 등의 별도의 문자로 표기한다.

"시드(seed)"는 리드의 맵핑을 위하여 리드와 참조 서열을 비교할 때의 단위가 되는 시퀀스이다. 이론적으로 리드를 참조 서열에 맵핑하기 위해서는 리드 전체를 참조 서열의 가장 첫 부분부터 순차적으로 비교해 나가면서 리드의 맵핑 위치를 계산하여야 한다. 그러나 이와 같은 방법의 경우 하나의 리드를 맵핑하는 데 너무 많은 시간 및 컴퓨팅 파워가 요구되므로, 실제로는 참조 서열의 처음부터 한 베이스씩 이동하면서 참조 서열을 설정된 길이만큼 읽어 들인 후 이를 해싱(hashing)하여 해시 테이블을 구축하고, 이를 이용하여 리드의 맵핑 위치를 계산한다. 이때 상기 해싱을 위한 참조 서열의 단편이 시드가 된다. 일반적으로 시드의 길이는 리드의 길이보다 짧도록 구성되며, 이는 참조 서열의 길이, 구축되는 해시 테이블의 용량 등을 고려하여 적절하게 정해질 수 있다.

도 1은 상기와 같이 참조 서열로부터 시드를 추출하는 과정을 예시한 것으로, 참조 서열의 첫 부분부터 한 베이스씩 이동하면서 10bp 길이만큼 참조 서열의 값을 읽어 들여 시드를 추출하는 과정을 나타낸 것이다. 추출된 각각의 시드들은 모두 동일한 길이(도시된 실시예의 경우 10bp)를 가지며 그 값은 시드가 추출된 참조 서열의 위치에 따라 달라지게 된다. 도시된 실시예에서, 추출된 첫 번째 시드는 참조 서열의 첫 번째부터 열 번째까지의 값 즉,

G T G G C A A T T A

의 값을 가지며, 세 번째 시드는 참조 서열의 세 번째부터 열 두 번째까지의 값 즉,

G G C A A T T A A A

의 값을 가진다.

도 2는 유전체 염기 서열 분석(genome sequencing) 과정(200)을 설명하기 위한 순서도이다. 기본적으로, 유전체 염기 서열 분석은 시퀀서에서 출력되는 대량의 짧은 리드를 참조 서열에 맵핑시켜 전체 유전체 서열을 얻어내기 위한 과정이다.

먼저, 참조 서열로부터 시드를 추출한다(202). 도 1에서 도시한 바와 같이, 본 단계에서는 참조 서열의 첫 부분부터 한 베이스씩 순차적으로 이동하면서 설정된 길이만큼 상기 참조 서열의 값을 읽어 들여 복수 개의 시드를 추출하게 된다.

다음으로, 202단계에서 추출된 각 시드들을 해시 함수(hash function)를 이용하여 해싱하고, 이로부터 해시 테이블을 구성한다(204). 이때 상기 해시 테이블의 키(key)는 시드로부터 생성된 해시값, 값(value)은 해당 시드의 참조 서열에서의 위치 정보(예를 들어 포인터)로 구성될 수 있다.

다음으로, 시퀀서로부터 입력된 유전자에 대한 복수 개의 리드를 추출하고(206). 상기 해시 테이블을 이용하여 추출된 리드들을 참조 서열에 맵핑한다(208).

도 3은 상술한 바와 같은 리드의 참조 서열에의 맵핑 과정을 설명하기 위한 도면이다. 먼저, 206단계에서 추출된 리드의 앞 부분을 시드 길이만큼 읽어 들인 후(도시된 실시예에서는 리드의 앞 부분을 시드로 설정하였지만, 실제로 시드는 리드의 어느 부분이든 설정할 수 있다. 다만, 리드의 앞부분의 정확도(quality)가 일반적으로 높기 때문에, 주로 리드의 앞 부분을 시드로 사용한다), 해시 테이블을 검색하여 해당 시드에 대응되는 참조 서열 내 위치 정보를 추출한다. 이 경우 시드의 길이에 따라 다르나 통상 하나 이상의 위치 정보가 도출된다(도면에서는 L₁ 및 L₂의 2개의 위치 정보가 추출됨). 이후, 도출된 위치 각각에서 리드의 나머지 부분을 참조 서열과 대조하여 리드의 정확한 맵핑 위치를 결정한다. 도시된 실시예의 경우 2개의 후보 위치 중 L₁에서는 리드가 참조 서열에 대응(일치)되지 않으나, L₂에서는 대응되는 것으로 판단되는 바, 최종적으로 리드는 L₂ 위치에 맵핑된다.

마지막으로, 상기와 같은 과정을 거쳐 맵핑된 각 리드들을 연결함으로써 하나의 염기 서열이 완성된다(210).

도 4는 본 발명의 일 실시예에 따른 참조 서열 처리 시스템(400)의 블록 구성도이다. 본 발명의 실시예에서, 참조 서열 처리 시스템(400)은 별도의 시스템으로 구성되거나 또는 염기 서열 분석을 위한 시스템을 구성하는 일 요소로 포함될 수도 있음에 유의한다.

도시된 바와 같이, 본 발명의 일 실시예에 따른 참조 서열 처리 시스템(400)은 시드 추출부(402), 판단부(404) 및 인덱스 생성부(406)를 포함한다.

시드 추출부(402)는 참조 서열(reference sequence)로부터 시드(seed)를 추출한다. 전술한 바와 같이, 시드 추출부(402)는 참조 서열의 첫 부분부터 한 베이스씩 순차적으로 이동하면서 설정된 길이만큼 상기 참조 서열의 값을 읽어 들여 복수 개의 시드를 추출하게 된다. 예를 들어, 참조 서열이 다음과 같이 구성될 경우를 가정하자.

A C C G T A A A T G N N N N G C C A G C T

만약 설정된 시드의 길이가 7bp일 경우, 상기 참조 서열로부터 생성되는 시드는 다음과 같다.

SEED 1: A C C G T A A

SEED 2: C C G T A A A

SEED 3: C G T A A A T

SEED 4: G T A A A T G

SEED 5: T A A A T G N

SEED 6: A A A T G N N

SEED 7: A A T G N N N

SEED 8: A T G N N N N

SEED 9: T G N N N N G

SEED 10: G N N N N G C

SEED 11: N N N N G C C

SEED 12: N N N G C C A

SEED 13: N N G C C A G

SEED 14: N G C C A G C

SEED 15: G C C A G C T

판단부(404)는 시드 추출부(402)에서 추출된 상기 시드에 리드(read)와 맵핑되지 않는 베이스(base)가 존재하는지의 여부를 판단한다.

전술한 바와 같이, 참조 서열의 경우 오류 등의 원인으로 인해 특정 위치의 염기가 A, C, G 또는 T 중 어떠한 베이스로 표현하여야 할 지 불분명한 경우가 발생할 수 있으며, 통상 이러한 불분명한 베이스의 경우 N 등의 별도의 문자로 표기된다. 따라서 판단부(404)는 상기 시드에 A, C, G 또는 T 이외의 문자로 표기된 베이스가 존재하는 경우 상기 시드에 상기 리드와 맵핑되지 않는 베이스가 존재하는 것으로 판단할 수 있다.

예를 들어, 참조 서열(및 이로부터 추출된 시드)에 불분명한 베이스가 N으로 표기된 경우, 판단부(404)는 상기 시드에 N으로 표기된 베이스가 존재하는지의 여부를 판단하고, 존재하는 경우 상기 시드에 상기 리드와 맵핑되지 않는 베이스가 존재하는 것으로 판단할 수 있다. 또한 만약 불분명한 베이스가 N 이외의 다른 문자 등으로 표기된 경우에는 해당 문자를 인식함으로써 리드와 맵핑되지 않는 베이스가 존재하는지를 판단하게 된다.

전술한 예의 경우, 참조 서열의 11번째 베이스부터 14번째 베이스까지가 불분명한 베이스로 기재(N)되어 있으며(아래에 밑줄로 표시), 이로부터 추출된 시드 중 5번째 시드부터 14번째 시드 또한 상기 불분명한 베이스를 포함하고 있다. 따라서 판단부(404)는 추출된 15개의 시드 중 5번째 시드부터 14번째 시드의 경우 리드(read)와 맵핑되지 않는 베이스(base)가 존재하는 것으로 판단하게 된다.

A C C G T A A A T G N N N N G C C A G C T

인덱스 생성부(406)는 판단부(404)에 의하여 리드와 맵핑되지 않는 베이스가 존재하는 것으로 판단된 시드를 제외하고, 리드와 맵핑되지 않는 베이스가 존재하지 않는 것으로 판단된 시드만을 인덱스에 추가한다. 구체적으로 인덱스 생성부(406)는 리드와 맵핑되지 않는 베이스가 존재하지 않는 것으로 판단된 시드의 경우 해당 시드를 해시 함수를 이용하여 해싱(hashing)하고, 해싱된 시드를 키(key)로 하는 해시 테이블을 생성한다. 전술한 예의 경우, 인덱스 생성부(406)는 추출된 15개의 시드 중 5번부터 14번까지의 시드를 제외하고 아래에 기재된 나머지 시드들에 대해서만 인덱싱을 수행하게 된다.

SEED 1: A C C G T A A

SEED 2: C C G T A A A

SEED 3: C G T A A A T

SEED 4: G T A A A T G

SEED 5 ~ 14: 인덱싱에서 제외

SEED 15: G C C A G C T

즉, 본 발명의 실시예에서는 참조 서열에서 불분명한 베이스를 포함하는 부분을 고려하지 않고 나머지 부분에 대해서만 시드를 추출하여 해시 테이블을 생성한다. 이와 같이 구성할 경우 염기 서열 분석 시 종래의 방법에 비해 정확성을 훼손하지 않으면서도 분석 속도를 대폭 향상시킬 수 있다.

본 발명의 실시예에서 상기와 같은 효과가 발생할 수 있는 근거는 다음과 같다. 먼저, 일반적으로 참조 서열에서 불분명한 베이스(통상 N으로 지칭)는 대부분 한 곳에 몰려 있으며 대략 전체의 5% 정보의 비율을 차지한다. 따라서 이를 배제하더라도 전체 염기 서열 분석의 정확도에는 큰 차이를 보이지 않는다. 다음의 표 1은 시드 길이(k)에 따른 참조 서열에서 N을 포함하는 시드의 총 개수를 계산한 것이다.

시드 길이(k)	N을 포함하는 시드의 총 개수
10	222,409,329
11	222,409,622
12	222,409,915
13	222,410,208
14	222,410,501
15	222,410,794
16	222,411,087
17	222,411,380

상기 표에서 알 수 있는 바와 같이 시드 길이가 늘어나더라도 N을 포함하는 시드의 총 개수는 크게 변하지 않는다. 따라서 이를 볼 때 참조 서열에서 N은 대부분 한 곳에 집중되어 연속되어 있음을 알 수 있다.

또한, 이와 같이 불분명한 베이스가 포함된 시드를 배제하더라도 전체 염기 서열을 완성하는 데는 큰 문제가 되지 않는다. 예를 들어, 도 5와 같은 형태의 참조 서열을 가정하자. 만약 시드를 3bp로 가정할 경우, 도시된 리드는 참조 서열의 A T G 부분에 대응된다. 이 경우 참조 서열의 N N N N 부분은 리드와 대응이 불가능하나 이후의 G C C 부분이 일치하므로 참조 서열의 불분명한 베이스들은 리드와 대조하여 볼 때 C T C C인 것으로 유추할 수 있다. 즉, 참조 서열의 N 부분을 고려하지 않더라도 나머지 부분들의 대조를 통해 충분히 불분명한 영역에 대해서도 맵핑이 가능하다. 일반적으로 시퀀서에서는 하나의 유전자로부터 약 30회 이상의 반복을 통해 리드들을 추출하므로 추출된 리드들을 이용하여 상술한 방법을 반복 수행할 경우 매우 높은 정확도로 불분명한 참조 서열 부분까지 정확한 맵핑이 가능하게 된다.

한편, 시드의 길이가 15bp일 경우, 참조 서열에서 N을 A, C, G, T와 같은 별도의 캐릭터로 가정할 때의 해시 테이블의 레코드 수는 다음과 같다.

5¹⁵=30,517,578,125

만약 본 발명의 실시예에서와 같이 참조 서열에서 N을 고려하지 않을 경우의 해시 테이블의 레코드 수는 다음과 같다.

4¹⁵=1,073,741,824

즉, N을 고려하지 않을 경우 종래에 비해 해시 테이블의 레코드 수가 약 1/30으로 감소하는 것을 알 수 있다.

또한 N을 고려할 경우에는 5개의 글자가 되어 이를 표현하기 위해 최소 3개의 비트가 필요하다(2²< 5 < 2³). 따라서 이 경우 해시 테이블의 용량은 다음과 같이 정해진다.

(5¹⁵=30,517,578,125) * 3 bits

그러나 N을 고려하지 않을 경우에는 2개의 비트로 표현이 가능하므로(2²= 4), 해시 테이블의 용량은 다음과 같이 계산된다.

(4¹⁵=1,073,741,824) * 2 bits

즉, 해시 테이블의 용량을 고려할 경우에는 종래에 비해 약 1/45 정도의 용량 감소 효과가 있음을 알 수 있다.

도 6은 본 발명의 일 실시예에 따른 참조 서열 처리 방법(600)을 도시한 순서도이다.

먼저, 참조 서열(reference sequence)로부터 시드(seed)를 추출하고(602), 추출된 상기 시드에 리드(read)와 맵핑되지 않는 베이스(base)가 존재하는지의 여부를 판단한다(604). 전술한 바와 같이, 상기 604 단계는 상기 시드에 A, C, G 또는 T 이외의 문자로 표기된 베이스가 존재하는 경우(예를 들어, N으로 표기된 베이스가 존재하는 경우), 리드와 맵핑되지 않는 베이스가 존재하는 것으로 판단할 수 있다.

만약 상기 판단 결과 상기 시드에 상기 리드와 맵핑되지 않는 베이스가 존재하는 경우 상기 시드는 인덱스 생성에서 제외된다. 즉, 불분명한 베이스를 포함하는 시드는 이후 맵핑시 고려되지 않는다. 이와 달리, 상기 판단 결과 상기 시드에 상기 리드와 맵핑되지 않는 베이스가 존재하지 않는 경우에는 상기 시드를 해시 테이블에 추가한다(606).

상기 602 단계 내지 606 단계는 상기 참조 서열의 첫 번째 서열부터 순차적으로 참조 서열의 마지막 부분에 도달할 때 까지 반복되며, 이와 같은 과정을 거쳐 염기 서열 분석을 위한 시드 인덱스가 생성된다.

한편, 본 발명의 실시예는 본 명세서에서 기술한 방법들을 컴퓨터상에서 수행하기 위한 프로그램을 포함하는 컴퓨터 판독 가능 기록매체를 포함할 수 있다. 상기 컴퓨터 판독 가능 기록매체는 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야에서 통상의 지식을 가진 자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광 기록 매체, 플로피 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

이상에서 대표적인 실시예를 통하여 본 발명에 대하여 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다.

그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

400: 참조 서열 처리 시스템
402: 시드 추출부
404: 판단부
406: 인덱스 생성부

Claims

참조 서열(reference sequence)로부터 시드(seed)를 추출하는 시드 추출부;
상기 시드 추출부에서 추출된 상기 시드에 리드(read)와 맵핑되지 않는 베이스(base)가 존재하는지의 여부를 판단하는 판단부; 및
상기 시드에 상기 리드와 맵핑되지 않는 베이스가 존재하지 않는 경우 상기 시드를 인덱스에 추가하는 인덱스 생성부를 포함하는 참조 서열 처리 시스템.
청구항 1에 있어서,
상기 판단부는 상기 시드에 A, C, G 또는 T 이외의 문자로 표기된 베이스가 존재하는지의 여부에 따라 상기 시드에 상기 리드와 맵핑되지 않는 베이스가 존재하는지의 여부를 판단하는, 참조 서열 처리 시스템.
청구항 1에 있어서,
상기 판단부는 상기 시드에 N으로 표기된 베이스가 존재하는지의 여부에 따라 상기 시드에 상기 리드와 맵핑되지 않는 베이스가 존재하는지의 여부를 판단하는, 참조 서열 처리 시스템.
청구항 1 내지 3 중 어느 한 항에 기재된 참조 서열 처리 시스템을 포함하는 염기 서열 분석 시스템.
참조 서열 처리 시스템에서, 참조 서열(reference sequence)로부터 시드(seed)를 추출하는 단계;
상기 참조 서열 처리 시스템에서, 추출된 상기 시드에 리드(read)와 맵핑되지 않는 베이스(base)가 존재하는지의 여부를 판단하는 단계; 및
상기 참조 서열 처리 시스템에서, 상기 시드에 상기 리드와 맵핑되지 않는 베이스가 존재하지 않는 경우 상기 시드를 인덱스에 추가하는 단계를 포함하는 참조 서열 처리 방법.
청구항 5에 있어서,
상기 판단 단계는, 상기 시드에 A, C, G 또는 T 이외의 문자로 표기된 베이스가 존재하는지의 여부에 따라 상기 시드에 상기 리드와 맵핑되지 않는 베이스가 존재하는지의 여부를 판단하는, 참조 서열 처리 방법.
청구항 5에 있어서,
상기 판단 단계는, 상기 시드에 N으로 표기된 베이스가 존재하는지의 여부에 따라 상기 시드에 상기 리드와 맵핑되지 않는 베이스가 존재하는지의 여부를 판단하는, 참조 서열 처리 방법.
청구항 5 내지 7 중 어느 한 항에 기재된 방법을 컴퓨터상에서 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.