KR101538852B1

KR101538852B1 - 정확도를 고려한 염기 서열 정렬 장치 및 방법

Info

Publication number: KR101538852B1
Application number: KR1020130130679A
Authority: KR
Inventors: 박민서
Original assignee: 삼성에스디에스 주식회사
Priority date: 2013-10-31
Filing date: 2013-10-31
Publication date: 2015-07-22
Also published as: KR20150049749A; CN104598768A; US20150120208A1

Abstract

정확도를 고려한 염기 서열 정렬 장치 및 방법이 개시된다. 본 발명의 일 실시예에 따른 염기 서열 정렬 장치는, 리드(read)로부터 참조 서열(reference sequence)에 일치 정합되는 하나 이상의 시드(seed)를 추출하는 시드 추출부; 추출된 상기 하나 이상의 시드 각각에 대하여, 각 시드의 상기 참조 서열에서의 각 맵핑 위치에서 상기 시드를 중심으로 상기 리드의 좌측 영역 및 우측 영역을 상기 참조 서열에 각각 맵핑하고, 상기 맵핑 결과로부터 상기 각 맵핑 위치의 좌측 맵핑 스코어 및 우측 맵핑 스코어를 계산하는 맵핑 스코어 계산부; 및 계산된 상기 좌측 맵핑 스코어 및 상기 우측 맵핑 스코어를 이용하여 상기 하나 이상의 시드 각각의 상기 참조 서열에서의 맵핑 위치를 결정하는 리드 정렬부를 포함한다.

Description

정확도를 고려한 염기 서열 정렬 장치 및 방법{SYSTEM AND METHOD FOR ALGNING GENOME SEQENCE IN CONSIDERATION OF ACCURACY}

본 발명의 실시예들은 유전체의 염기 서열을 분석하기 위한 기술과 관련된다.

참조 서열과 리드 간의 염기 서열 정렬은 기본적으로 염기 서열의 상동성(homology)에 기반한 일치 정합(exact matching)을 이용한다. 그러나 시퀀싱 과정에서의 에러와 생명체의 유전 정보 상의 변이(polymorphism) 등의 이유로 인해 염기 서열 정렬 알고리즘에서는 일정 정도의 에러(불일치; mismatch)를 허용할 필요가 있다.

특히 특정 생명체의 전체 유전체에 대한 연구 등에서는 이와 같이 일정 정도의 에러를 허용하는 염기 서열 정렬 알고리즘이 효과적일 수 있다. 그러나 특정 질병, 예를 들어 암(cancer) 만을 진단하는 의료 시장 등에서는 유전체 전체를 분석하는 것이 아니라 특정 질병과 연관된 일부 영역만을 분석하는 경우가 많으며, 이와 같은 경우에는 속도보다는 정확도가 높은 염기 서열 정렬 알고리즘이 요구된다.

대한민국 공개특허공보 제10-2013-0060744호 (2013. 06. 10.)

본 발명의 실시예들은 시퀀서로부터 얻어진 다량의 짧은 염기 서열(read)들을 보다 정확하게 정렬하기 위한 염기 서열 정렬 수단을 제공하기 위한 것이다.

본 발명의 예시적인 실시예에 따르면, 리드(read)로부터 참조 서열(reference sequence)에 일치 정합되는 하나 이상의 시드(seed)를 추출하는 시드 추출부; 추출된 상기 하나 이상의 시드 각각에 대하여, 각 시드의 상기 참조 서열에서의 각 맵핑 위치에서 상기 시드를 중심으로 상기 리드의 좌측 영역 및 우측 영역을 상기 참조 서열에 각각 맵핑하고, 상기 맵핑 결과로부터 상기 각 맵핑 위치의 좌측 맵핑 스코어 및 우측 맵핑 스코어를 계산하는 맵핑 스코어 계산부; 및 계산된 상기 좌측 맵핑 스코어 및 상기 우측 맵핑 스코어를 이용하여 상기 리드의 상기 참조 서열에서의 맵핑 위치를 결정하는 리드 정렬부를 포함하는 염기 서열 정렬 장치가 제공된다.

상기 맵핑 스코어 계산부는, 상기 리드의 좌측 영역의 상기 시드와 연결되는 베이스(base)로부터 좌측 방향으로 순차적으로 상기 리드의 좌측 영역을 상기 참조 서열에 맵핑하며, 상기 리드의 우측 영역의 상기 시드와 연결되는 베이스(base)로부터 우측 방향으로 순차적으로 상기 리드의 우측 영역을 상기 참조 서열에 맵핑할 수 있다.

상기 맵핑 스코어 계산부는, 상기 리드의 좌측 영역 및 상기 좌측 영역에 대응되는 상기 참조 서열의 일부를 각각 열 및 행으로 가지는 제1 매트릭스, 및 상기 리드의 우측 영역 및 상기 우측 영역에 대응되는 상기 참조 서열의 일부를 각각 열 및 행으로 가지는 제2 매트릭스를 생성하고, 생성된 상기 제1 매트릭스 및 제2 매트릭스의 각 셀에 대하여, 해당 셀의 행 값과 열 값의 일치 여부에 따라 설정된 매치 스코어 또는 미스매치 스코어를 부여하며,상기 매치 스코어 또는 미스매치 스코어가 부여된 상기 제1 매트릭스 및 제2 매트릭스를 이용하여 상기 좌측 맵핑 스코어 및 상기 우측 맵핑 스코어를 계산할 수 있다.

상기 좌측 맵핑 스코어는, 상기 제1 매트릭스의 우상단 마지막 셀부터 시작하여 왼쪽, 아래쪽 또는 좌하단 대각선 방향 중 어느 한 방향으로 순차적으로 이동하여 상기 제1 매트릭스의 좌하단 첫번째 셀에 도달함으로써 형성되는 경로상에 부여된 상기 매치 스코어 또는 미스매치 스코어의 합 중 가장 큰 값이며, 상기 우측 맵핑 스코어는, 상기 제2 매트릭스의 좌상단 첫 번째 셀부터 시작하여 오른쪽, 아래쪽 또는 우하단 대각선 방향 중 어느 한 방향으로 순차적으로 이동하여 상기 제2 매트릭스의 우하단 마지막 셀에 도달함으로써 형성되는 경로상에 부여된 상기 매치 스코어 또는 미스매치 스코어의 합 중 가장 큰 값일 수 있다.

상기 매치 스코어는 0보다 크거나 같은 실수이고, 상기 미스매치 스코어는 0보다 작은 실수일 수 있다.

상기 매치 스코어는 1로, 상기 미스매치 스코어는 -1로 설정될 수 있다.

상기 리드 정렬부는, 상기 시드의 상기 참조 서열에서의 맵핑 위치 별로 계산된 상기 좌측 맵핑 스코어 및 상기 우측 맵핑 스코어의 합이 설정된 기준값보다 큰 맵핑 위치 중 상기 합이 가장 큰 맵핑 위치를 상기 리드의 맵핑 위치로 결정할 수 있다.

본 발명의 다른 예시적인 실시예에 따르면, 시드 추출부에서, 리드(read)로부터 참조 서열(reference sequence)에 일치 정합되는 하나 이상의 시드(seed)를 추출하는 단계; 맵핑 스코어 계산부에서, 추출된 상기 하나 이상의 시드 각각에 대하여, 각 시드의 상기 참조 서열에서의 각 맵핑 위치에서 상기 시드를 중심으로 상기 리드의 좌측 영역 및 우측 영역을 상기 참조 서열에 각각 맵핑하고, 상기 맵핑 결과로부터 상기 각 맵핑 위치의 좌측 맵핑 스코어 및 우측 맵핑 스코어를 계산하는 단계; 및 리드 정렬부에서, 계산된 상기 좌측 맵핑 스코어 및 상기 우측 맵핑 스코어를 이용하여 상기 리드의 상기 참조 서열에서의 맵핑 위치를 결정하는 단계를 포함하는 염기 서열 정렬 방법이 제공된다.

상기 좌측 맵핑 스코어 및 우측 맵핑 스코어 계산 단계는, 상기 리드의 좌측 영역 및 우측 영역의 상기 시드와 연결되는 베이스(base)로부터 상기 시드의 반대 방향으로 순차적으로 상기 리드의 좌측 영역 및 상기 우측 영역을 상기 참조 서열에 맵핑할 수 있다.

상기 좌측 맵핑 스코어 및 우측 맵핑 스코어 계산 단계는, 상기 리드의 좌측 영역 및 상기 좌측 영역에 대응되는 상기 참조 서열의 일부를 각각 열 및 행으로 가지는 제1 매트릭스, 및 상기 리드의 우측 영역 및 상기 우측 영역에 대응되는 상기 참조 서열의 일부를 각각 열 및 행으로 가지는 제2 매트릭스를 생성하는 단계; 생성된 상기 제1 매트릭스 및 제2 매트릭스의 각 셀에 대하여, 해당 셀의 행 값과 열 값의 일치 여부에 따라 설정된 매치 스코어 또는 미스매치 스코어를 부여하는 단계; 및 상기 매치 스코어 또는 미스매치 스코어가 부여된 상기 제1 매트릭스 및 제2 매트릭스를 이용하여 상기 좌측 맵핑 스코어 및 상기 우측 맵핑 스코어를 계산하는 단계를 포함할 수 있다.

상기 좌측 맵핑 스코어는, 상기 제1 매트릭스의 우상단 마지막 셀부터 시작하여 왼쪽, 아래쪽 또는 좌하단 대각선 방향 중 어느 한 방향으로 순차적으로 이동하여 상기 제1 매트릭스의 좌하단 첫번째 셀에 도달함으로써 형성되는 경로상에 부여된 상기 매치 스코어 또는 미스매치 스코어의 합 중 가장 큰 값이며,상기 우측 맵핑 스코어는, 상기 제2 매트릭스의 좌상단 첫 번째 셀부터 시작하여 오른쪽, 아래쪽 또는 우하단 대각선 방향 중 어느 한 방향으로 순차적으로 이동하여 상기 제2 매트릭스의 우하단 마지막 셀에 도달함으로써 형성되는 경로상에 부여된 상기 매치 스코어 또는 미스매치 스코어의 합 중 가장 큰 값일 수 있다.

상기 맵핑 위치를 결정하는 단계는, 상기 시드의 상기 참조 서열에서의 맵핑 위치 별로 계산된 상기 좌측 맵핑 스코어 및 상기 우측 맵핑 스코어의 합이 설정된 기준값보다 큰 맵핑 위치 중 상기 합이 가장 큰 맵핑 위치를 상기 리드의 맵핑 위치로 결정하도록 구성될 수 있다.

본 발명의 실시예들에 따르면, 리드를 참조 서열에 정렬함에 있어서 정확도를 높이기 위하여 리드와 참조 서열간의 2차원 매트릭스를 형성하고, 상기 매트릭스를 이용하여 염색체의 삽입(insertion) 및 삭제(deletion)을 모두 고려한 염기 서열 정렬 알고리즘(fully gapped alignment)을 적용함으로써 염기 서열 정렬의 정확성을 높일 수 있다.

또한, 본 발명의 실시예들에 따르면 Fully gapped alignment을 적용함으로써 발생되는 속도 저하를 최소화하기 위하여 리드로부터 추출된 시드를 참조 서열에 일치 정합하고, 일치 정합되는 영역에 한정하여 Fully gapped alignment를 적용함으로써, 속도의 문제를 보완하면서도 염기 서열 정렬의 정확도를 100%에 가깝게 높일 수 있다.

도 1은 본 발명의 일 실시예에 따른 염기 서열 정렬 장치(100)을 설명하기 위한 블록도
도 2는 본 발명의 일 실시예에 따른 시드를 중심으로 한 리드의 분할을 설명하기 위한 예시도
도 3은 본 발명의 일 실시예에 따른 리드의 좌측 영역 및 우측 영역의 맵핑 시작 지점 및 맵핑 방향을 설명하기 위한 예시도
도 4는 상기 제1 매트릭스 및 제2 매트릭스의 생성 과정을 예시하여 설명하기 위한 도면
도 5는 본 발명의 일 실시예에 따른 리드 정렬부(106)에서 맵핑 스코어를 이용하여 리드의 정렬 위치를 결정하는 과정을 설명하기 위한 예시도
도 6은 본 발명의 일 실시예에 따른 염기 서열 정렬 방법(600)을 설명하기 위한 흐름도

이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.

본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.

본 발명의 실시예들을 상세히 설명하기 앞서, 먼저 본 발명에서 사용되는 용어들에 대하여 설명하면 다음과 같다. 먼저, "리드(read)"란 게놈시퀀서(genome sequencer)에서 출력되는 짧은 길이의 염기서열 데이터이다. 리드의 길이는 시퀀서의 종류에 따라 일반적으로 35~500bp(base pair) 정도로 다양하게 구성되며, 일반적으로 DNA 염기의 경우 A, C, G, T의 알파벳 문자로 표현된다.

"참조 서열(reference sequence)"이란 상기 리드들로부터 전체 염기 서열을 생성하는 데 참조가 되는 염기 서열을 의미한다. 염기 서열 분석에서는 게놈 시퀀서에서 출력되는 다량의 리드들을 참조 서열을 참조하여 맵핑함으로써 전체 염기 서열을 완성하게 된다. 본 발명에서 상기 참조 서열은 염기 서열 분석 시 미리 설정된 서열(예를 들어 인간의 전체 염기 서열 등)일 수도 있으며, 또는 게놈 시퀀서에서 만들어진 염기 서열을 참조 서열로 사용할 수도 있다.

"베이스(base)"는 참조 서열 및 리드를 구성하는 최소 단위이다. 전술한 바와 같이 DNA 염기의 경우 A, C, G 및 T의 네 종류의 알파벳 문자로 구성될 수 있으며, 이들 각각을 베이스라 표현한다. 즉, DNA 염기의 경우 4개의 베이스로 표현되며, 이는 리드 또한 마찬가지이다.

도 1은 본 발명의 일 실시예에 따른 염기 서열 정렬 장치(100)를 설명하기 위한 블록도이다. 도시된 바와 같이, 본 발명의 일 실시예에 따른 염기 서열 정렬 장치(100)는 시드 추출부(102), 맵핑 스코어 계산부(104) 및 리드 정렬부(106)를 포함한다.

시드 추출부(102)는 게놈 시퀀서로부터 출력된 리드로부터 하나 이상의 시드(seed)를 추출한다. 본 발명의 실시예에서, 시드란 리드의 맵핑을 위하여 리드와 참조 서열을 비교할 때의 단위가 되는 시퀀스이다. 일 실시예에서, 시드 추출부(102)는 리드로부터 하나 이상의 조각(fragment)을 생성하고, 상기 조각들 중 참조 서열에 일치 정합(exact matching)되는 조각들을 맵핑의 기본 단위가 되는 시드로 선택할 수 있다. 즉, 본 발명의 실시예들에서 시드란 리드로부터 생성된 조각들 중 참조 서열에 일치 정합되는 조각들을 의미한다. 이때 상기 리드로부터 조각을 생성하는 방법은 특별히 제한되지 않으므로, 시드 추출부(102)는 다양한 방법으로 리드로부터 조각들을 생성할 수 있다.

맵핑 스코어 계산부(104)는 추출된 상기 하나 이상의 시드 각각에 대하여, 각 시드의 상기 참조 서열에서의 각 맵핑 위치에서 상기 시드를 중심으로 상기 리드의 좌측 영역 및 우측 영역을 상기 참조 서열에 각각 맵핑한다. 또한 맵핑 스코어 계산부(104)는 상기 맵핑 결과로부터 상기 각 맵핑 위치의 좌측 맵핑 스코어 및 우측 맵핑 스코어를 계산한다.

맵핑 스코어 계산부(104)에서의 좌측 맵핑 스코어 및 우측 맵핑 스코어 계산 과정을 좀 더 상세히 설명하면 다음과 같다. 먼저, 맵핑 스코어 계산부(104)는 시드 추출부(102)에서 생성된 시드 중 하나의 시드를 선택한다. 이 경우, 리드는 선택된 시드를 중심으로 좌우의 2개의 영역으로 분할되게 된다. 이를 그림으로 나타내면 도 2와 같다. 즉, 도시된 바와 같이, 리드(200)는 시드(202), 좌측 영역(204) 및 우측 영역(206)으로 나뉘어질 수 있다.

시드가 선택되면, 맵핑 스코어 계산부(104)는 선택된 시드(202)를 중심으로 한 좌측 영역(204) 및 우측 영역(206) 각각에 대하여, 시드(202)와 연결되는 베이스(base)로부터 상기 시드의 반대 방향으로 순차적으로 좌측 영역(204) 및 우측 영역(206)을 상기 참조 서열에 맵핑한다. 도 3의 화살표는 이를 설명하기 위한 것으로서, 좌측 영역(204)의 경우 시드(202)와 연결되는 A 부분부터 왼쪽 방향으로 순차적으로 참조 서열에 맵핑되며, 우측 영역(206)의 경우에도 시드(202)와 연결되는 B 부분부터 오른쪽 방향으로 순차적으로 참조 서열에 맵핑됨을 알 수 있다. 이때, 상기 좌측 영역(204) 및 우측 영역(206)의 참조 서열에 대한 맵핑에는 염기의 삽입(insertion) 또는 삭제(deletion)를 고려한 정렬(fully gapped alignment) 방식이 이용된다.

구체적으로, 맵핑 스코어 계산부(104)는 리드(200)의 좌측 영역(204) 및 이에 대응되는 상기 참조 서열의 일부를 각각 열 및 행으로 가지는 제1 매트릭스와, 리드(200)의 우측 영역(206) 및 해당 영역에 대응되는 상기 참조 서열의 일부를 각각 열 및 행으로 가지는 제2 매트릭스를 생성한다. 또한, 맵핑 스코어 계산부(104)는 생성된 상기 제1 매트릭스 및 제2 매트릭스의 각 셀에 대하여, 해당 셀의 행 값과 열 값의 일치 여부에 따라 설정된 매치 스코어 또는 미스매치 스코어를 부여한다. 이때 상기 매치 스코어는 0보다 크거나 같은 실수이고, 상기 미스매치 스코어는 0보다 작은 실수로 설정될 수 있다. 예를 들어, 상기 매치 스코어는 1로, 상기 미스매치 스코어는 -1로 설정될 수 있으나, 이는 단지 예시적인 것에 불과하며 상기 매치 스코어 및 미스매치 스코어는 대상 염기 서열의 특성 등을 고려하여 적절히 정해질 수 있다.

도 4는 상기 제1 매트릭스 및 제2 매트릭스의 생성 과정을 예시하여 설명하기 위한 도면이다. 예를 들어, 특정 리드의 좌측 영역(204)이 하기의 x와 같이 배열되고, 해당 영역과 대응되는 참조 서열이 하기의 y와 같이 배열된다고 가정하자.

x = "CATGCTA"

y = "TATTGTA"

이 경우, 상기 y를 행으로, x를 열로 가지는 제1 매트릭스를 구성하고, 생성된 제1 매트릭스의 각 셀에 해당 열과 행의 일치 여부에 따라 매치 스코어 또는 미스매치 스코어를 부여하면 도 4에 도시된 바와 같다. 이때, 상기 x의 경우 가장 오른쪽 베이스부터 오른쪽에서 왼쪽으로 이동하면서 각 열(column)을 구성한다. 즉, 상기 제1 매트릭스의 첫 번째 열은 x의 첫 번째 베이스인 C에, 마지막 열은 x의 마지막 베이스인 A에 각각 대응된다. 또한, 상기 y의 경우 가장 오른쪽 베이스부터 위에서 아래로 이동하면서 각 행(row)을 구성한다. 즉, 상기 제1 매트릭스의 첫 번째 행은 y의 마지막 베이스인 A에, 마지막 행은 첫 번째 베이스인 T에 각각 대응된다.

도 4에 도시된 실시예들은 매치 스코어로 1을, 미스매치 스코어로 -1을 각각 부여한 실시예를 나타낸 것이다. 또한, 도시하지는 않았지만 제2 매트릭스 또한 제1 매트릭스와 동일한 과정을 통해 생성될 수 있다.

이와 같이 제1 매트릭스 및 제2 매트릭스가 생성되면, 다음으로 맵핑 스코어 계산부(104)는 상기 매치 스코어 또는 미스매치 스코어가 부여된 상기 제1 매트릭스 및 제2 매트릭스를 이용하여 좌측 맵핑 스코어 및 상기 우측 맵핑 스코어를 계산한다. 즉, 상기 좌측 맵핑 스코어는 제1 매트릭스로부터, 우측 맵핑 스코어는 제2 매트릭스로부터 각각 계산된다.

구체적으로, 상기 좌측 맵핑 스코어는 도시된 바와 같이 상기 제1 매트릭스의 우상단 마지막 셀(m*n 매트릭스의 경우 (1,n))부터 시작하여 왼쪽, 아래쪽 또는 좌하단 대각선 방향 중 어느 한 방향으로 순차적으로 이동하여 상기 제1 매트릭스의 좌하단 첫 번째 셀(m,1)에 도달함으로써 형성되는 경로상에 부여된 상기 매치 스코어 또는 미스매치 스코어의 합 중 가장 큰 값으로 계산된다. 전술한 바와 같이 좌측 맵핑 스코어는 리드(200)의 좌측 영역(204)을 오른쪽에서 왼쪽 방향으로 순차적으로 맵핑하도록 구성되는 바, 이에 대응되는 제1 매트릭스 상에서도 우상단 마지막 셀로부터 좌측 아래 방향으로 순차적으로 이동하면서 최적의 경로를 계산하게 된다. 물론 이는 제1 매트릭스의 행 또는 열을 구성하는 방법이 달라질 경우에는 그에 맞춰 변경될 수 있다. 예를 들어 계산의 편의를 위해 좌측 영역을 아래와 같이 뒤집어(reverse) 제1 매트릭스를 구성한다고 가정하자.

x' = "ATCGTAC"

y' = "ATGTTAT"

이 경우, 상기 좌측 매트릭스는 앞에 기술한 것과 반대로 제1 매트릭스의 좌상단 첫번째 셀(1,1)부터 우하단 마지막 셀(m,n) 까지 순차적으로 이동함으로써 계산되게 된다. 또한, 제1 매트릭스를 구성하는 행과 열이 뒤바뀔 경우에도 그에 맞추어 최적 경로 계산 방향이 달라지게 된다.

한편,상기 우측 맵핑 스코어는 상기 제2 매트릭스의 좌상단 첫 번째 셀(1,1)부터 시작하여 오른쪽, 아래쪽 또는 우하단 대각선 방향 중 어느 한 방향으로 순차적으로 이동하여 상기 제2 매트릭스의 마지막 셀(m,n)에 도달함으로써 형성되는 경로상에 부여된 상기 매치 스코어 또는 미스매치 스코어의 합 중 가장 큰 값으로 계산된다.

예를 들어, 도 4에 도시된 제1 매트릭스에서 셀(1,7)로부터 (7,1)까지 순차적으로 이동하면서 형성할 수 있는 경로 중 해당 경로상에 부여된 스코어의 합이 가장 큰 경로는 도시된 화살표를 따르는 경로이며, 이 때의 맵핑 스코어, 즉 좌측 맵핑 스코어는 다음과 같다.

1 + 1 - 1 + 1 + 1 + 1 + 1 - 1 = 4

또한, 맵핑 스코어 계산부(104)도 이와 동일한 방법으로 제2 매트릭스로부터 우측 맵핑 스코어를 계산할 수 있다.

이와 같이 좌측 맵핑 스코어 및 우측 맵핑 스코어가 계산되면, 다음으로 리드 정렬부(106)는 계산된 상기 좌측 맵핑 스코어 및 상기 우측 맵핑 스코어를 이용하여 상기 리드의 상기 참조 서열에서의 맵핑 위치를 결정한다. 일 실시예에서, 리드 정렬부(106)는 리드로부터 생성된 시드의 상기 참조 서열에서의 맵핑 위치 별로 계산된 상기 좌측 맵핑 스코어 및 상기 우측 맵핑 스코어의 합이 설정된 기준값보다 큰 맵핑 위치 중 상기 합이 가장 큰 맵핑 위치를 상기 리드의 맵핑 위치로 결정할 수 있다.

예를 들어, 도 5에 도시된 바와 같이 리드로부터 추출된 시드 S₁이 참조 서열의 P₁, P₂, 및 P₃의 3 군데에서 각각 일치 정합되며, 각각의 맵핑 위치에서 계산된 리드의 좌측 맵핑 스코어 및 우측 맵핑 스코어가 다음의 표 1과 같다고 가정하자.

맵핑 위치	좌측 맵핑 스코어	우측 맵핑 스코어	합계
P₁	55	30	85
P₂	50	40	90
P₃	49	39	88

만약 상기 기준값이 70이라고 가정하면 3개의 맵핑 위치에서의 맵핑 스코어의 합 모두 기준값 이상이므로 맵핑 후보가 될 수 있으며, 리드 정렬부(106)는 이 중 맵핑 스코어의 합계가 90으로 가장 큰 P₂를 해당 리드의 맵핑 위치로 결정하게 된다.

한편, 본 발명의 일 실시예에 따른 염기 서열 정렬 장치(100)는 일치 정합부(미도시)를 더 포함할 수 있다. 상기 일치 정합부는 시퀀서로부터 도출된 리드로부터 시드를 추출하기 전, 먼저 참조 서열에 일치 정합(exact matching)을 시도한다. 만약 상기 일치 정합 결과 리드가 상기 참조 서열에 일치 정합되는 경우, 상기 일치 정합부는 상기 리드의 정렬을 성공한 것으로 판단한다. 다시 말해, 본 발명의 실시예들에서 시드 추출부(102)는 상기 일치 정합부에서 일치 정합되지 않은 리드들만을 대상으로 시드를 추출하게 된다. 이와 같이 일치 정합부에서 참조 서열과 일치 정합되는 리드를 미리 맵핑할 경우에는 리드에서 시드를 추출하고, 이를 이용하여 맵핑 스코어를 계산하는 일련의 과정을 거치지 않아도 되므로 전체적인 정렬 속도의 향상을 가져올 수 있다.

또한, 본 발명의 일 실시예에 따른 염기 서열 정렬 장치(100)는 상기 일치 정합부 이외에 에러 개수 추정부(미도시)를 더 포함할 수 있다. 상기 에러 개수 추정부는 시퀀서로부터 도출된 리드의 에러 개수를 추정하고, 추정된 에러 개수가 기 설정된 기준값 이상일 경우 해당 리드를 폐기한다. 에러 개수 추정부에서 에러 개수가 일정 개수 이상으로 추정되는 리드는 실제 참조 서열에 대한 정렬을 시도하더라도 정렬에 실패할 가능성이 높으므로, 이와 같이 해당 리드들을 미리 염기 서열 정렬에서 배제할 경우 염기 서열 정렬의 효율을 높일 수 있다.

한편, 도출된 리드에서 발생할 수 있는 에러 개수를 추정하는 알고리즘은 본 발명이 속하는 기술분야에서 알려진 여러 가지 알고리즘 중 하나를 제한 없이 사용할 수 있으며, 이에 대한 설명은 본 발명의 범위를 벗어나는 것인 바, 여기서는 이에 대한 상세한 설명을 생략하기로 한다.

도 6은 본 발명의 일 실시예에 따른 염기 서열 정렬 방법(600)을 설명하기 위한 흐름도이다. 도 6에 도시된 방법은 예를 들어, 전술한 염기 서열 정렬 장치(100)에 의해 수행될 수 있다. 도시된 흐름도에서는 상기 방법을 복수 개의 단계로 나누어 기재하였으나, 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 또는 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.

602 단계에서,시드 추출부(102)는 리드(read)로부터 참조 서열(reference sequence)에 일치 정합되는 하나 이상의 시드(seed)를 추출한다.

604 단계에서, 맵핑 스코어 계산부(104)는 추출된 상기 하나 이상의 시드 각각에 대하여, 각 시드의 상기 참조 서열에서의 각 맵핑 위치에서 상기 시드를 중심으로 상기 리드의 좌측 영역 및 우측 영역을 상기 참조 서열에 각각 맵핑하고, 상기 맵핑 결과로부터 상기 각 맵핑 위치의 좌측 맵핑 스코어 및 우측 맵핑 스코어를 계산한다.

606 단계에서,리드 정렬부(106)는 계산된 상기 좌측 맵핑 스코어 및 상기 우측 맵핑 스코어를 이용하여 상기 리드의 상기 참조 서열에서의 맵핑 위치를 결정한다.

한편, 본 발명의 실시예는 본 명세서에서 기술한 방법들을 컴퓨터상에서 수행하기 위한 프로그램을 포함하는 컴퓨터 판독 가능 기록매체를 포함할 수 있다. 상기 컴퓨터 판독 가능 기록매체는 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나, 또는 컴퓨터 소프트웨어 분야에서 통상적으로 사용 가능한 것일 수 있다. 컴퓨터 판독 가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광 기록 매체, 플로피 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

이상에서 본 발명의 대표적인 실시예들을 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다.그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

100: 염기 서열 정렬 장치
102: 시드 추출부
104: 맵핑 스코어 계산부
106: 리드 정렬부
200: 리드
202: 시드
204: 좌측 영역
206: 우측 영역

Claims

리드(read)로부터 참조 서열(reference sequence)에 일치 정합되는 하나 이상의 시드(seed)를 추출하는 시드 추출부;
추출된 상기 하나 이상의 시드 각각에 대하여, 각 시드의 상기 참조 서열에서의 각 맵핑 위치에서 상기 시드를 중심으로 상기 리드의 좌측 영역 및 우측 영역을 상기 참조 서열에 각각 맵핑하고, 상기 맵핑 결과로부터 상기 각 맵핑 위치의 좌측 맵핑 스코어 및 우측 맵핑 스코어를 계산하는 맵핑 스코어 계산부; 및
계산된 상기 좌측 맵핑 스코어 및 상기 우측 맵핑 스코어를 이용하여 상기 리드의 상기 참조 서열에서의 맵핑 위치를 결정하는 리드 정렬부를 포함하는 염기 서열 정렬 장치.
청구항 1에 있어서,
상기 맵핑 스코어 계산부는,
상기 리드의 좌측 영역의 상기 시드와 연결되는 베이스(base)로부터 좌측 방향으로 순차적으로 상기 리드의 좌측 영역을 상기 참조 서열에 맵핑하며,
상기 리드의 우측 영역의 상기 시드와 연결되는 베이스(base)로부터 우측 방향으로 순차적으로 상기 리드의 우측 영역을 상기 참조 서열에 맵핑하는, 염기 서열 정렬 장치.
청구항 2에 있어서,
상기 맵핑 스코어 계산부는, 상기 리드의 좌측 영역 및 상기 좌측 영역에 대응되는 상기 참조 서열의 일부를 각각 열 및 행으로 가지는 제1 매트릭스, 및 상기 리드의 우측 영역 및 상기 우측 영역에 대응되는 상기 참조 서열의 일부를 각각 열 및 행으로 가지는 제2 매트릭스를 생성하고,
생성된 상기 제1 매트릭스 및 제2 매트릭스의 각 셀에 대하여, 해당 셀의 행 값과 열 값의 일치 여부에 따라 설정된 매치 스코어 또는 미스매치 스코어를 부여하며,
상기 매치 스코어 또는 미스매치 스코어가 부여된 상기 제1 매트릭스 및 제2 매트릭스를 이용하여 상기 좌측 맵핑 스코어 및 상기 우측 맵핑 스코어를 계산하는, 염기 서열 정렬 장치.
청구항 3에 있어서,
상기 좌측 맵핑 스코어는, 상기 제1 매트릭스의 우상단 마지막 셀부터 시작하여 왼쪽, 아래쪽 또는 좌하단 대각선 방향 중 어느 한 방향으로 순차적으로 이동하여 상기 제1 매트릭스의 좌하단 첫번째 셀에 도달함으로써 형성되는 경로상에 부여된 상기 매치 스코어 또는 미스매치 스코어의 합 중 가장 큰 값이며,
상기 우측 맵핑 스코어는, 상기 제2 매트릭스의 좌상단 첫 번째 셀부터 시작하여 오른쪽, 아래쪽 또는 우하단 대각선 방향 중 어느 한 방향으로 순차적으로 이동하여 상기 제2 매트릭스의 우하단 마지막 셀에 도달함으로써 형성되는 경로상에 부여된 상기 매치 스코어 또는 미스매치 스코어의 합 중 가장 큰 값인, 염기 서열 정렬 장치.
청구항 3에 있어서,
상기 매치 스코어는 0보다 크거나 같은 실수이고, 상기 미스매치 스코어는 0보다 작은 실수인, 염기 서열 정렬 장치.
청구항 5에 있어서,
상기 매치 스코어는 1로, 상기 미스매치 스코어는 -1로 설정되는, 염기 서열 정렬 장치.
청구항 1에 있어서,
상기 리드 정렬부는, 상기 각 시드의 상기 참조 서열에서의 맵핑 위치 별로 계산된 상기 좌측 맵핑 스코어 및 상기 우측 맵핑 스코어의 합이 설정된 기준값보다 큰 맵핑 위치 중 상기 합이 가장 큰 맵핑 위치를 상기 리드의 맵핑 위치로 결정하는, 염기 서열 정렬 장치.
시드 추출부에서, 리드(read)로부터 참조 서열(reference sequence)에 일치 정합되는 하나 이상의 시드(seed)를 추출하는 단계;
맵핑 스코어 계산부에서, 추출된 상기 하나 이상의 시드 각각에 대하여, 각 시드의 상기 참조 서열에서의 각 맵핑 위치에서 상기 시드를 중심으로 상기 리드의 좌측 영역 및 우측 영역을 상기 참조 서열에 각각 맵핑하고, 상기 맵핑 결과로부터 상기 각 맵핑 위치의 좌측 맵핑 스코어 및 우측 맵핑 스코어를 계산하는 단계; 및
리드 정렬부에서, 계산된 상기 좌측 맵핑 스코어 및 상기 우측 맵핑 스코어를 이용하여 상기 리드의 상기 참조 서열에서의 맵핑 위치를 결정하는 단계를 포함하는 염기 서열 정렬 방법.
청구항 8에 있어서,
상기 좌측 맵핑 스코어 및 우측 맵핑 스코어 계산 단계는, 상기 리드의 좌측 영역의 상기 시드와 연결되는 베이스(base)로부터 좌측 방향으로 순차적으로 상기 리드의 좌측 영역을 상기 참조 서열에 맵핑하며,
상기 리드의 우측 영역의 상기 시드와 연결되는 베이스(base)로부터 우측 방향으로 순차적으로 상기 리드의 우측 영역을 상기 참조 서열에 맵핑하는, 염기 서열 정렬 방법.
청구항 9에 있어서,
상기 좌측 맵핑 스코어 및 우측 맵핑 스코어 계산 단계는,
상기 리드의 좌측 영역 및 상기 좌측 영역에 대응되는 상기 참조 서열의 일부를 각각 열 및 행으로 가지는 제1 매트릭스, 및 상기 리드의 우측 영역 및 상기 우측 영역에 대응되는 상기 참조 서열의 일부를 각각 열 및 행으로 가지는 제2 매트릭스를 생성하는 단계;
생성된 상기 제1 매트릭스 및 제2 매트릭스의 각 셀에 대하여, 해당 셀의 행 값과 열 값의 일치 여부에 따라 설정된 매치 스코어 또는 미스매치 스코어를 부여하는 단계; 및
상기 매치 스코어 또는 미스매치 스코어가 부여된 상기 제1 매트릭스 및 제2 매트릭스를 이용하여 상기 좌측 맵핑 스코어 및 상기 우측 맵핑 스코어를 계산하는 단계를 포함하는, 염기 서열 정렬 방법.
청구항 10에 있어서,
상기 좌측 맵핑 스코어는, 상기 제1 매트릭스의 우상단 마지막 셀부터 시작하여 왼쪽, 아래쪽 또는 좌하단 대각선 방향 중 어느 한 방향으로 순차적으로 이동하여 상기 제1 매트릭스의 좌하단 첫번째 셀에 도달함으로써 형성되는 경로상에 부여된 상기 매치 스코어 또는 미스매치 스코어의 합 중 가장 큰 값이며,
상기 우측 맵핑 스코어는, 상기 제2 매트릭스의 좌상단 첫 번째 셀부터 시작하여 오른쪽, 아래쪽 또는 우하단 대각선 방향 중 어느 한 방향으로 순차적으로 이동하여 상기 제2 매트릭스의 우하단 마지막 셀에 도달함으로써 형성되는 경로상에 부여된 상기 매치 스코어 또는 미스매치 스코어의 합 중 가장 큰 값인, 염기 서열 정렬 방법.
청구항 10에 있어서,
상기 매치 스코어는 0보다 크거나 같은 실수이고, 상기 미스매치 스코어는 0보다 작은 실수인, 염기 서열 정렬 방법.
청구항 12에 있어서,
상기 매치 스코어는 1로, 상기 미스매치 스코어는 -1로 설정되는, 염기 서열 정렬 방법.
청구항 8에 있어서,
상기 맵핑 위치를 결정하는 단계는, 상기 각 시드의 상기 참조 서열에서의 맵핑 위치 별로 계산된 상기 좌측 맵핑 스코어 및 상기 우측 맵핑 스코어의 합이 설정된 기준값보다 큰 맵핑 위치 중 상기 합이 가장 큰 맵핑 위치를 상기 리드의 맵핑 위치로 결정하도록 구성되는, 염기 서열 정렬 방법.