WO2013081333A1

WO2013081333A1 - 염기 서열 정렬 장치 및 그 방법

Info

Publication number: WO2013081333A1
Application number: PCT/KR2012/009981
Authority: WO
Inventors: 박민서; 여윤구; 박상현
Original assignee: 삼성에스디에스 주식회사; 연세대학교 산학협력단
Priority date: 2011-11-30
Filing date: 2012-11-23
Publication date: 2013-06-06
Also published as: KR20130060744A; CN103930569B; US20140309945A1; KR101337094B1; CN103930569A

Abstract

참조 서열에서 리드 서열의 일부인 기준 조각과 일치되는 기준 위치를 찾고, 기준 위치를 기준으로 참조 서열과 상기 리드 서열을 서로 맵핑시키는 염기 서열 정렬 방법이 개시된다. 이로써, 리드 서열에 존재할 수 있는 모든 변이와 에러를 허용하는 정렬이 가능하고, 리드 서열의 전체 영역에서 변이와 에러를 탐색할 수 있고, 또한, 종래의 염기 서열 정렬 기술과 달리 백트래킹(back tracking)을 허용하지 않고, 더 적은 계산량으로 정렬을 수행할 수 있게 된다.

Description

염기 서열 정렬 장치 및 그 방법

염기 서열 정렬 장치 및 그 방법에 관한 것으로, 리드 서열에 존재할 수 있는 모든 변이와 에러를 허용하는 정렬이 가능하고, 리드 서열의 전체 영역에서 변이와 에러를 탐색할 수 있고, 백트래킹(back tracking)을 허용하지 않으면서도 더 적은 계산량으로 정렬을 수행할 수 있는 염기 서열 정렬 장치 및 방법이 제공된다.

염기 서열 정렬 기술은 생물학 전반에 걸쳐 가장 널리 사용되는 기술 중 하나다. 예를 들어, 참조 어셈블리(Reference assembly) 방법을 이용해 리드 서열을 알려진 참조 서열에 맵핑하는 과정을 통해 각 개체(individual)에 대한 유전체 서열을 완성할 수 있고 더 나아가 각 개체간의 염기 서열의 차이(variation)를 분석할 수 있다. 1,000 genome project와 같은 대형 시퀀싱 프로젝트가 현재 수행되고 있으며, 이러한 발전이 계속된다면 궁극적으로 개인 유전체 분석 및 유전 정보에 따른 맞춤 의료 시스템 등의 서비스가 가능할 것으로 보인다.

본 발명적 개념의 하나 이상의 예시적 실시예에 따르면, 리드 서열에 존재할 수 있는 모든 변이와 에러를 허용하는 정렬이 가능하고, 리드 서열의 전체 영역에서 변이와 에러를 탐색할 수 있는 염기 서열 정렬 장치, 방법 및 프로그램이 기록된 기록매체가 제공된다.

또한, 본 발명적 개념의 하나 이상의 예시적 실시예에 따르면, 종래의 염기 서열 정렬 기술과 달리 백트래킹(back tracking)을 허용하지 않고, 더 적은 계산량으로 정렬을 수행할 수 있는 염기 서열 정렬 장치, 방법 및 프로그램이 기록된 기록매체가 제공된다.

본 발명적 개념의 하나 이상의 예시적 실시예에 따르면, 리드 서열을 참조 서열에 정렬하는 염기 서열 정렬 방법에 있어서, 참조 서열에서 리드 서열의 일부인 기준 조각과 일치되는 위치를 찾는 기준 위치 선택 단계; 및 상기 기준 위치를 기준으로 상기 참조 서열과 상기 리드 서열을 서로 맵핑시키는 단계를 포함하는 염기 서열 정렬 방법이 제공된다.

기준 조각은, 리드 서열의 임의의 위치부터 시작하여 소정 길이의 서열로 구성된 것일 수 있다.

기준 조각의 소정 길이는, 상기 참조서열에서 상기 기준 조각이 나타날 평균 빈도 값에 기초하여 정해진 것일 수 있다.

평균 빈도 값은, 상기 참조서열의 길이와 염기서열의 개수에 의해 정해지는 것일 수 있다.

기준 위치 선택 단계는, 상기 참조 서열에서 기준 조각과 완전히 일치하는 위치; 및 상기 참조 서열에서, 기 정해진 에러 허용치(E) 범위 내에서 기준 조각과 참조 서열이 일치하는 위치 중 적어도 어느 하나의 위치를 선택하는 단계인 것일 수 있다.

기준 위치 선택 단계는, 상기 참조 서열에서 기준 조각과 완전히 일치하는 위치를 적어도 하나 이상 찾는 단계; 및 기 정해진 에러 허용치(E) 범위 내에서 상기 기준 조각을 구성한 서열에 대하여 삽입, 삭제, 및/또는 치환한 후 상기 참조 서열과 일치하는 위치를 적어도 하나 이상 찾는 단계 중 적어도 어느 하나의 단계를 포함하는 것일 수 있다.

기준 위치를 기준으로 상기 참조 서열과 상기 리드 서열을 서로 맵핑시키는 단계는, 상기 리드 서열 중 기준 조각 이후의 잔여서열과, 상기 참조 서열에서 상기 기준 위치 이후의 서열을 맵핑시키는 단계인 것일 수 있다.

본 염기 서열 정렬 방법은, 기 정해진 에러 허용치(E) 범위 내에서, 상기 리드 서열 중 기준 조각을 제외한 잔여 서열을 구성하는 서열에 대하여 삽입, 삭제, 및/또는 치환한 것과 상기 참조서열과 일치하는지 여부를 판단하는 단계를 더 포함할 수 있다.

에러 허용치(E)는, 상기 기준 서열에 대하여 정해진 에러 허용치일 수 있다.

기준 위치 이후의 참조 서열과 상기 리드 서열 중 기준 조각 이후의 잔여서열이 서로 일치하지 않는 부분이 있는 경우, 기 정해진 에러 허용치(E) 범위 내에서 점프를 한 위치 부터의 참조 서열과, 상기 기준 조각 이후의 잔여 서열을 맵핑시키는 것일 수 있다.

본 서열 정렬 방법은, 기준 조각이 상기 참조 서열과 일치되면, 상기 기준 조각을 맵핑조각으로서 저장하는 단계; 및 상기 기준 조각 이후의 잔여서열 중에서 기 정해진 에러 허용치(E)내에서 상기 기준 위치 이후의 참조 서열과 일치되는 부분들이 있는 경우, 그러한 일치되는 부분들 맵핑조각들로서 저장하는 단계를 더 포함하는 것일 수 있다.

본 염기 서열 정렬 방법은, 맵핑조각들이 다음의 수식

을 만족하는 경우, 서로 연결하는 단계를 더 포함하며, 여기서,M ₁ , M ₂은 서로 연결하고자 하는 맵핑 조각이고, D _r (M ₁ , M ₂ ) 은 리드 서열에서의 맵핑 조각 M ₁ , M ₂간의 거리이고, D _R (M ₁ , M ₂ ) 은 참조 서열에서의 맵핑 조각 M ₁ , M ₂간의 거리이고, E 는 리드 서열에 허용된 에러 허용치이고, E ₀는 맵핑조각들에 포함된 에러 값들의 총합이고, ｜D _r (M ₁ , M ₂ ) - D _R (M ₁ , M ₂ )｜는 D _r (M ₁ , M ₂ ) 와 D _R (M ₁ , M ₂ ) 의 거리차에 대한 절대값인 것일 수 있다.

본 발명적 개념의 다른 예시적 실시예에 따르면, 컴퓨터에, 청구항 제1항 내지 제12항 중 어느 하나의 항에 따른 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체가 제공된다.

본 발명적 개념의 다른 예시적 실시예에 따르면, 참조 서열에서 리드 서열의 일부인 기준 조각과 일치되는 위치를 찾는 기준 위치 선택부; 상기 기준 위치를 기준으로 상기 참조 서열과 상기 리드 서열을 서로 맵핑시키는 맵핑부; 및 상기 기준 위치를 기준으로 상기 참조 서열과 상기 리드 서열이 서로 일치되면, 상기 기준 위치에 상기 리드 서열을 정렬시키는 정렬부를 포함할 수 있다.

기준 위치 선택부는, 상기 참조 서열에서 기준 조각과 완전히 일치하는 위치; 및 상기 참조 서열에서, 기 정해진 에러 허용치(E) 범위 내에서 기준 조각과 참조 서열이 일치하는 위치 중 적어도 어느 하나의 위치를 선택하는 것일 수 있다.

맵핑부는, 상기 리드 서열 중 기준 조각 이후의 잔여서열과, 상기 참조 서열에서 상기 기준 위치 이후의 서열을 맵핑시키거나, 또는 상기 리드 서열 중 기준 조각 전후의 잔여서열과, 상기 참조 서열에서 기준 위치 전후의 서열을 맵핑시키는 것일 수 있다.

맵핑부는, 또한, 상기 기준 위치 이후의 참조 서열과 상기 리드 서열 중 기준 조각 이후의 잔여서열이 서로 일치하는지 여부를 판단하며, 상기 기준 위치 이후의 참조 서열과 상기 리드 서열 중 기준 조각 이후의 잔여서열이 서로 일치하지 않는 부분이 있는 경우, 기 정해진 에러 허용치(E) 범위 내에서 점프를 한 위치 부터의 참조 서열과, 상기 기준 조각 이후의 잔여 서열을 맵핑시키는 것일 수 있다.

본 염기 서열 정렬 장치는, 저장부;를 더 포함하며, 상기 맵핑부는, 상기 기준 조각이 상기 참조 서열과 일치되면, 상기 기준 조각을 맵핑조각으로서 상기 저장부에 저장하고, 상기 기준 조각 이후의 잔여서열 중에서 기 정해진 에러 허용치(E)내에서 상기 기준 위치 이후의 참조 서열과 일치되는 부분들이 있는 경우, 그러한 일치되는 부분들 맵핑조각들로서 상기 저장부에 저장하는 것일 수 있다.

정렬부는, 상기 맵핑조각들이 다음의 수식

을 만족하는 경우, 서로 연결시키며, 여기서,M ₁ , M ₂은 서로 연결하고자 하는 맵핑 조각이고, D _r (M ₁ , M ₂ ) 은 리드 서열에서의 맵핑 조각 M ₁ , M ₂간의 거리이고, D _R (M ₁ , M ₂ ) 은 참조 서열에서의 맵핑 조각 M ₁ , M ₂간의 거리이고, E 는 리드 서열에 허용된 에러 허용치이고, E ₀는 맵핑조각들에 포함된 에러 값들의 총합이고, ｜D _r (M ₁ , M ₂ ) - D _R (M ₁ , M ₂ )｜는 D _r (M ₁ , M ₂ ) 와 D _R (M ₁ , M ₂ ) 의 거리차에 대한 절대값이다.

본 발명적 개념의 하나 이상의 예시적 실시예에 따르면, 리드 서열에 존재할 수 있는 모든 변이와 에러를 허용하는 정렬이 가능하며, 리드 서열의 전체 영역에서 변이와 에러를 탐색할 수 있다.

또한, 본 발명적 개념의 하나 이상의 예시적 실시예에 따르면, 종래의 염기 서열 정렬 기술과 달리 백트래킹(back tracking)을 허용하지 않고, 더 적은 계산량으로 정렬을 수행할 수 있어서 정렬속도가 빨라질 수 있다.

도 1은 본 발명적 개념의 예시적 실시예에 따른 염기 서열 정렬 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체를 설명하기 위한 도면이고,

도 2는 본 발명적 개념의 예시적 실시예에 따른 염기 서열 정렬 장치의 구성도이고,

도 3은 본 발명적 개념의 예시적 실시예에 따른 염기 서열 정렬 방법을 설명하기 위한 흐름도이고, 그리고

도 4와 도 5는 본 발명적 개념의 예시적 실시예에 따른 기준조각 맵핑 방법을 설명하기 위해서 제공되는 도면이다.

이상의 본 발명의 목적들, 다른 목적들, 특징들 및 이점들은 첨부된 도면과 관련된 이하의 바람직한 실시예들을 통해서 쉽게 이해될 것이다. 그러나 본 발명은 여기서 설명되는 실시예들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 오히려, 여기서 소개되는 실시예들은 개시된 내용이 철저하고 완전해질 수 있도록 그리고 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 제공되는 것이다. 본 명세서에서, 어떤 구성요소가 다른 구성요소 상에 있다고 언급되는 경우에 그것은 다른 구성요소 상에 직접 형성될 수 있거나 또는 그들 사이에 제 3의 구성요소가 게재될 수도 있다는 것을 의미한다.

또한, 어떤 엘리먼트 (또는 구성요소)가 다른 엘리먼트(또는 구성요소) 상(ON)에서 동작 또는 실행된다고 언급될 때, 그 엘리먼트(또는 구성요소)는 다른 엘리먼트(또는 구성요소)가 동작 또는 실행되는 환경에서 동작 또는 실행되거나 또는 다른 엘리먼트(또는 구성요소)와 직접 또는 간접적으로 상호 작용을 통해서 동작 또는 실행되는 것으로 이해되어야 할 것이다.

어떤 엘리먼트, 구성요소, 장치, 또는 시스템이 프로그램 또는 소프트웨어로 이루어진 구성요소를 포함한다고 언급되는 경우, 명시적인 언급이 없더라도, 그 엘리먼트, 구성요소, 장치, 또는 시스템은 그 프로그램 또는 소프트웨어가 실행 또는 동작하는데 필요한 하드웨어(예를 들면, 메모리, CPU 등)나 다른 프로그램 또는 소프트웨어(예를 들면 운영체제나 하드웨어를 구동하는데 필요한 드라이버 등)를 포함하는 것으로 이해되어야 할 것이다.

또한 어떤 엘리먼트(또는 구성요소)가 구현됨에 있어서 특별한 언급이 없다면, 그 엘리먼트(또는 구성요소)는 소프트웨어, 하드웨어, 또는 소프트웨어 및 하드웨어 어떤 형태로도 구현될 수 있는 것으로 이해되어야 할 것이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 '포함한다(comprises)' 및/또는 '포함하는(comprising)'은 언급된 구성요소는 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.

이하, 도면을 참조하여 본 발명을 상세히 설명하도록 한다. 아래의 특정 실시예들을 기술하는데 있어서, 여러 가지의 특정적인 내용들은 발명을 더 구체적으로 설명하고 이해를 돕기 위해 작성되었다. 하지만 본 발명을 이해할 수 있을 정도로 이 분야의 지식을 갖고 있는 독자는 이러한 여러 가지의 특정적인 내용들이 없어도 사용될 수 있다는 것을 인지할 수 있다. 어떤 경우에는, 발명을 기술하는 데 있어서 흔히 알려졌으면서 발명과 크게 관련 없는 부분들은 본 발명을 설명하는 데 있어 별 이유 없이 혼돈이 오는 것을 막기 위해 기술하지 않음을 미리 언급해 둔다.

도 1은 본 발명적 개념의 예시적 실시예에 따른 염기 서열 정렬 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체를 설명하기 위한 도면이다.

도 1을 참조하면, 본 염기 서열 정렬 장치(100)는, 본 발명적 개념의 예시적 실시예에 따른 염기 서열 정렬 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체(110)를 포함한다. 한편, 본 발명적 개념을 설명하기 위한 목적으로 시퀀서(10)를 추가적으로 도시하였다.

시퀀서(10)는 샘플로부터 리드 서열(Read Sequence)을 생성하며, 염기 서열 정렬 장치(100)는 시퀀서(10)가 생성한 리드 서열을 기지의 참조 서열(Reference Sequence)에 맵핑시켜서 정렬시킨다.

본 실시예에 따른 염기 서열 정렬 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체(110)를 포함한 염기 서열 정렬 장치(100)(이하, '염기 서열 장치(100)'라고 함)는, 염기 서열의 상동성(homology)에 기반한 일치 정합(exact matching)을 수행할 뿐만 아니라, 에러 허용치(E)만큼의 불일치를 허용하는 불일치 정합도 수행할 수 있다.

본 실시예에 따른 염기 서열 정렬 장치(100)는, 리드 서열의 일부 구간(이하, '기준 조각'이라고 함)에 대하여 조합 가능한 모든 변이(삭제, 치환, 또는 추가)를 고려하여 참조 서열에서 맵핑 가능한 모든 위치를 검색하여 기준위치로 결정한다. 여기서, 염기 서열 정렬 장치(100)는, 종래 알려지는 맵핑 방법(예를 들면, BWT와 Suffix 배열을 이용한 방법)을 사용하여 기준 조각과 일치되는 위치를 검색할 수 있다.

본 발명적 개념의 예시적 실시예에 따르면, 기준 조각의 시작 위치는 리드 서열의 첫번째 위치로 결정될 수 있다. 다르게는, 리드 서열의 두번째 위치로 결정될 수 있다. 또 다르게는 리드 서열의 세번째 위치로 결정될 수 있다. 또 다르게는 리드 서열의 첫번째 위치부터 리드 서열 길이의 50% 지점되는 위치 중 임의의 위치로 결정될 수 있다. 여기서, 기준 조각의 위치는 리드 서열의 첫번째 서열부터 소정 길이의 구간으로 결정하는 것이 정확도가 높지만, 본 발명적 개념이 반드시 이러한 위치에만 한정되는 것이 아님을 알아야 한다.

도 4를 참조하여 설명하면, 기준 조각의 위치는 리드서열의 첫번째부터 시작한 것으로 선택되어 있고, 기준조각과 일치 정합 또는 에러 허용치 이내의 불일치 정합하는 기준 위치가 3군데(M1, M2, M3) 예시적으로 도시되어있다.

염기 서열 정렬 장치(100)는, 기준 위치들을 기준으로 리드 서열의 잔여 서열과 참조 서열을 비교한다. 예를 들면, 염기 서열 정렬 장치(100)는, 기준 위치(M1) 직후의 참조 서열(R1)과 리드 서열의 잔여 서열을 서로 맵핑시키고, 기준 위치(M2) 직후의 참조 서열(R2)과 리드 서열의 잔여 서열을 서로 맵핑시키고, 기준 위치(M3) 직후의 참조 서열(R3)과 리드 서열의 잔여 서열을 서로 맵핑시킨다.

한편, 만약 기준조각이 리드 서열의 첫번째 위치에서부터 선택된 것이 아니고 그 다음 위치들 중 어느 하나의 위치부터 선택된 경우라면, 잔여 서열은 기준 조각의 전후로 위치되게 된다. 이러한 경우, 염기 서열 정렬 장치(100)는 기준 위치 직후의 참조서열 뿐만 아니라 기준 위치 이전의 참조서열을 잔여 서열과 맵핑시킬 수 있을 것이다.

염기 서열 정렬 장치(100)는 리드 서열의 잔여 서열과 기준 위치들(M1, M2, M3)의 참조 서열간에 맵핑 동작을 수행하다가 정합이 불가능한 경우(예를 들면, 에러 허용치 이내의 불일치 정합이 이루어지지 않는 경우)에는, 일정 거리 점프한 뒤 맵핑을 계속 수행할 수 있다. 여기서, 점프 거리는 리드 서열에 주어진 최대 에러 허용치(E) 이하의 값이 될 수 있다. 예를 들면, 이미 선정된 기준 위치들의 에러 허용치의 합들이 'k'라고 하면, 상기 점프 거리는 E-k 이하일 수 있다.

다르게는(alternatively), 염기 서열 정렬 장치(100)는 리드 서열의 잔여 서열과 기준 위치들의 참조 서열간에 맵핑 동작을 수행하다가 정합이 불가능한 경우에, 바로 점프하는 것이 아니고, 앞서 맵핑한 결과가 최소 정합 거리를 만족한 경우에만 점프를 한다. 도 5를 참조하여 설명하면, 염기 서열 정열 장치(100)가 리드 서열의 잔여 서열과 참조 서열의 R1과 맵핑을 한다고 가정하면, 염기 서열 정렬 장치(100)는 참조 서열 위치 E에서 정합이 불가능하다고 판단된 경우, 앞서 맵핑한 영역 S1의 길이가 최소 정합 거리 보다는 커야 E 위치를 점프하고 맵핑 동작을 계속 수행한다. 만약, 영역 S1의 길이가 최소 정합 거리 보다 적은 경우라면, 염기 서열 정렬 장치(100)는, R1 영역은 리드 서열의 정렬 위치에서 제외시킨다.

염기 서열 정렬 장치(100)는, 리드 서열의 잔여 서열과 기준 위치(M1)간의 맵핑 결과, 최소 정합 길이(mS) 이상 일치되면 그러한 일치 부분들을 맵핑 조각으로서 저장한다(도 5에서 맵핑 조작은 S1, S2, S3가 될 수 있고, 기준 위치의 서열도 맵핑 조각이 될 수 있다).

염기 서열 정렬 장치(100)는 리드 서열 끝까지 맵핑 조각이 모두 저장되면, 저장된 맵핑 조각들의 연결을 시도한다. 예를 들면, 염기 서열 정렬 장치(100)는 맵핑 조각의 리드 서열과 참조 서열에서의 위치 정보, 파라미터 값으로서 입력받은 최대 에러 허용 값을 기준으로 맵핑 조각들의 연결 여부를 판단한다.

예를 들면, 염기 서열 정렬 장치(100)는 다음의 수학식 1을 만족하는 경우에 맵핑 조각들을 연결한다.

[수학식 1]

여기서,M ₁ , M ₂은 서로 연결하고자 하는 맵핑 조각이고,

D _r (M ₁ , M ₂ ) 은 리드 서열에서의 맵핑 조각 M ₁ , M ₂간의 거리이고

D _R (M ₁ , M ₂ ) 은 참조 서열에서의 맵핑 조각 M ₁ , M ₂간의 거리이고

E 는 리드 서열에 허용된 에러 허용치이고,

E ₀는 맵핑조각들에 포함된 에러 값들의 총합이고,

｜D _r (M ₁ , M ₂ ) - D _R (M ₁ , M ₂ )｜는 D _r (M ₁ , M ₂ ) 와 D _R (M ₁ , M ₂ ) 의 거리차에 대한 절대값임.

염기 서열 정렬 장치(100)는 맵핑 조각들의 연결가능한 조합들에 대하여, 종래 알려진 기법(예를 들면, Needleman-Wunsch 알고리즘) 또는 장차 발견될 기법들을 이용하여 맵핑 조각 사이를 연결한다.

한편, 기준조각의 길이는, 참조서열에서 기준 조각이 나타날 평균 빈도 값에 기초하여 정해질 수 있으며, 여기서 평균 빈도 값은, 참조서열의 길이와 염기서열(즉, A, G, C, T)의 개수에 의해 정해질 수 있다. 또한, 맵핑 조각의 최소 정합 길이도 기준 조각의 길이와 같도록 정해질 수 있다.

본 염기 서열 정렬 장치(100)는, 도시하지는 않았지만, 본 발명적 개념의 예시적 실시예에 따른 염기 서열 정렬 방법을 수행하는 프로그램이 동작하는 데 필요한 H/W 및 S/W 자원들을 추가적으로 포함할 수 있다. 예를 들어, 하드웨어 자원으로는 CPU(Central Processing Unit), 메모리(MEMORY), 하드디스크, 네트워크 카드 등을 예로 들 수 있고, 소프트웨어 자원으로는 OS(Operating System), 하드웨어를 구동하기 위한 드라이버(driver)를 예로 들 수 있다. 예를 들면, 기준 위치의 선택이나 맵핑 동작의 수행 등은 CPU의 제어 하에 메모리에 로딩되어 동작된다. 이처럼, 기록매체(210)에 저장된 프로그램들이 실행되기 위해서는 하드웨어 자원들 및/또는 소프트웨어 자원들이 필요하며, 이들 자원들과 기록매체(210)에 저장된 프로그램간의 상호 작용은 본 발명적 개념이 속한 기술분야의 자라면 누구라도 쉽게 이해할 수 있는 기술일 것이다.

도 2는 본 발명적 개념의 예시적 실시예에 따른 염기 서열 정렬 장치의 구성도이다.

도 2을 참조하면, 본 염기 서열 정렬 장치(200)는, 기준 위치 선택부(201), 맵핑부(203), 정렬부(205), 및 저장부(207)을 포함한다. 도 2에서도, 설명의 목적을 위해서 시퀀서(10)를 추가적으로 도시하였다.

염기 서열 정렬 장치(200)의 기준 위치 선택부(201), 맵핑부(203), 정렬부(205), 및 저장부(207)는 서로 유기적으로 동작하여, 도 1에서 설명한 염기 서열 정렬 장치(100)과 동일 또는 유사한 동작을 수행할 수 있다. 본 발명적 개념이 속하는 기술 분야의 자라면, 기준 위치 선택부(201), 맵핑부(203), 및 정렬부(205)를 소프트웨어 및/또는 하드웨어로 구현할 수 있다.

시퀀서(10)는 샘플로부터 리드 서열(Read Sequence)을 생성하며, 염기 서열 정렬 장치(200)는 시퀀서(10)가 생성한 리드 서열을 기지의 참조 서열(Reference Sequence)에 맵핑시켜서 정렬시킨다.

기준 위치 선택부(201)는 기준 조각에 대하여 조합 가능한 모든 변이(삭제, 치환, 또는 추가)를 고려하여 참조 서열에서 맵핑 가능한 모든 위치를 검색하여 기준위치로 결정한다.

상술한 바와 같이 기준 조각의 위치는 리드 서열의 첫번째 서열부터 소정 길이의 구간으로 결정하는 것이 정확도가 높지만, 본 발명적 개념이 반드시 이러한 위치에만 한정되는 것이 아니다. 또한, 기준 조각의 길이는 참조서열에서 기준 조각이 나타날 평균 빈도 값에 기초하여 정해질 수 있고, 여기서 평균 빈도 값은, 참조서열의 길이와 염기서열(즉, A, G, C, T)의 개수에 의해 정해질 수 있음은 도 1의 실시예에서 설명한 바와 같다.

맵핑부(203)는, 기준 위치들을 기준으로 리드 서열의 잔여 서열과 참조 서열을 맵핑시킨다. 도 4의 예를 참조하여 설명하면, 맵핑부(203)는, 기준 위치(M1) 직후의 참조 서열(R1)과 리드 서열의 잔여 서열을 서로 맵핑시키고, 기준 위치(M2) 직후의 참조 서열(R2)과 리드 서열의 잔여 서열을 서로 맵핑시키고, 기준 위치(M3) 직후의 참조 서열(R3)과 리드 서열의 잔여 서열을 서로 맵핑시킨다.

맵핑부(203)는, 리드 서열의 잔여 서열과 기준 위치들(M1, M2, M3)의 참조 서열간에 맵핑 동작을 수행하다가 정합이 불가능한 경우(예를 들면, 에러 허용치 이내의 불일치 정합이 이루어지지 않는 경우)에는, 일정 거리 점프한 뒤 맵핑을 계속 수행할 수 있다. 여기서, 점프 거리는 리드 서열에 주어진 최대 에러 허용치(E) 이하의 값이 될 수 있다. 예를 들면, 이미 선정된 기준 위치들의 에러 허용치의 합들이 'k'라고 하면, 상기 점프 거리는 E-k 이하일 수 있다.

다르게는(alternatively), 맵핑부(203)는 리드 서열의 잔여 서열과 기준 위치들의 참조 서열간에 맵핑 동작을 수행하다가 정합이 불가능한 경우에, 바로 점프하는 것이 아니고, 앞서 맵핑한 결과가 최소 정합 거리를 만족한 경우에만 점프를 한다. 도 5를 참조하여 설명하면, 리드 서열의 잔여 서열과 참조 서열의 R1과 맵핑을 한다고 가정하면, 맵핑부(203)는 참조 서열 위치 E에서 정합이 불가능하다고 판단된 경우, 앞서 맵핑한 영역 S1의 길이가 최소 정합 거리 보다는 커야 E 위치를 점프하고 맵핑 동작을 계속 수행한다. 만약, 영역 S1의 길이가 최소 정합 거리 보다 적은 경우라면, 맴핑부(103)는, R1 영역에 대하여는 더 이상 맵핑 동작을 수행하지 않는다.

맵핑부(203)는, 리드 서열의 잔여 서열과 기준 위치(M1)간의 맵핑 결과, 최소 정합 길이(mS) 이상 일치되면 그러한 일치 부분들을 맵핑 조각으로서 저장부(207)에 저장한다(도 5에서 맵핑 조작은 S1, S2, S3가 될 수 있고, 기준 위치의 서열도 맵핑 조각이 될 수 있다).

정렬부(205)는 리드 서열 끝까지 맵핑 조각이 모두 저장되면, 저장된 맵핑 조각들을 연결시킨다. 예를 들면, 정렬부(205)는 맵핑 조각의 리드 서열과 참조 서열에서의 위치 정보, 파라미터 값으로서 입력받은 최대 에러 허용 값을 기준으로 맵핑 조각들의 연결 여부를 판단한다.

예를 들면, 정렬부(205)는 상술한 수학식 1을 만족하는 경우에 맵핑 조각들을 연결할 수 있으며, 맵핑 조각들의 연결가능한 조합들에 대하여, 종래 알려진 기법(예를 들면, Needleman-Wunsch 알고리즘) 또는 장차 발견될 기법들을 이용하여 맵핑 조각 사이를 연결할 수 있다.

도 3은 본 발명적 개념의 예시적 실시예에 따른 염기 서열 정렬 방법을 설명하기 위한 흐름도이다.

도 3을 참조하면, 염기 서열 정렬 장치(100 또는 200)는, 시퀀서(10)에서 생성된 리드 서열에서 기준 조각을 선택한다(S101).

기준 조각의 위치는 리드 서열의 첫번째 위치가 정확도가 높지만, 반드시 첫번째 위치에 한정될 필요는 없다. 또한, 기준 조각의 길이도 참조서열에서 기준 조각이 나타날 평균 빈도 값에 기초하여 정해지는 것이 염기 서열의 정렬 속도를 보다 향상시킬 수 있지만, 이에만 반드시 한정될 필요는 없다.

염기 서열 정렬 장치(100 또는 200)는, S101 단계에서 선택한 기준 조각과 참조 서열을 맵핑시키고(S103), 일치 정합 또는 에러 허용치 이내에서 정합되는 기준 위치를 선택한다(S105).

염기 서열 정렬 장치(100 또는 200)는, S105 단계에서 선택한 기준위치를 기준으로 리드 서열의 잔여 서열과 참조 서열을 맵핑시킨다(S107).

S107 단계에서, 염기 서열 정렬 장치(100 또는 200)는 맵핑이 불가능할 경우, 최대 에러 허용치 이내에서 점프가 가능하다.

염기 서열 정렬 장치(100 또는 200)는 상기 수학식 1을 만족하는 맵핑 조각들을 연결시킨다(S109). S109에서, 염기 서열 정렬 장치(100 또는 200)는 종래 알려진 기법 또는 향후 개발될 기법을 사용하여 맵핑 조각의 빈공간을 채울 수 있다.

상술한 바와 같은 본 발명적 개념에 따른 염기 서열 장치와 방법은, SNP(Single Nucleotide Polymorphism), MNP(Multiple Nucleotide Polymorphism), Indel, Inversion, 구조적 다양성(Structural variations), CNV(Copy Number Variation) 등의 탐색에 활용할 수 있고, 전사체(transcriptome)에 대한 분석, 신약 개발을 위한 단백질의 결합 위치(binding site) 파악 등 생물학 전반의 분야에 걸쳐 활용될 수 있다.

상기와 같이 본 발명적 개념은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명적 개념은 상기의 실시예에 한정되는 것은 아니며, 본 발명적 개념이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 그러므로, 본 발명적 개념의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

[부호의 설명]

10: 시퀀서 100, 200; 염기 서열 정렬 장치

201: 기준 위치 선택부 203: 맵핑부

205: 정렬부 207: 저장부

Claims

리드 서열을 참조 서열에 정렬하는 염기 서열 정렬 방법에 있어서,

참조 서열에서 리드 서열의 일부인 기준 조각과 일치되는 위치를 찾는 기준 위치 선택 단계; 및

상기 기준 위치를 기준으로 상기 참조 서열과 상기 리드 서열을 서로 맵핑시키는 단계; 를 포함하는 염기 서열 정렬 방법.
제1항에 있어서,

상기 기준 조각은, 리드 서열의 임의의 위치부터 시작하여 소정 길이의 서열로 구성된 것을 특징으로 하는 염기 서열 정렬 방법.
제1항에 있어서,

상기 기준 조각의 소정 길이는, 상기 참조 서열에서 상기 기준 조각이 나타날 평균 빈도 값에 기초하여 정해진 것을 특징으로 하는 염기 서열 정렬 방법.
제3항에 있어서,

상기 평균 빈도 값은, 상기 참조 서열의 길이와 염기서열의 개수에 의해 정해지는 것을 특징으로 하는 염기 서열 정렬 방법.
제1항에 있어서,

상기 기준 위치 선택 단계는,

상기 참조 서열에서 기준 조각과 완전히 일치하는 위치; 및

상기 참조 서열에서, 기 정해진 에러 허용치(E) 범위 내에서 기준 조각과 참조 서열이 일치하는 위치; 중 적어도 어느 하나의 위치를 선택하는 단계인 것을 특징으로 하는 염기 서열 정렬 방법.
제1항에 있어서,

상기 기준 위치 선택 단계는,

상기 참조 서열에서 기준 조각과 완전히 일치하는 위치를 적어도 하나 이상 찾는 단계; 및

기 정해진 에러 허용치(E) 범위 내에서 상기 기준 조각을 구성한 서열에 대하여 삽입, 삭제, 및/또는 치환한 후 상기 참조서열과 일치하는 위치를 적어도 하나 이상 찾는 단계; 중 적어도 어느 하나의 단계를 포함하는 것을 특징으로 하는 염기 서열 정렬 방법.
제6항에 있어서,

상기 기준 위치를 기준으로 상기 참조 서열과 상기 리드 서열을 서로 맵핑시키는 단계는,

상기 리드 서열 중 기준 조각 이후의 잔여 서열과, 상기 참조 서열에서 상기 기준 위치 이후의 서열을 맵핑시키는 단계인 것을 특징으로 하는 염기 서열 정렬 방법.
제7항에 있어서,

기 정해진 에러 허용치(E) 범위 내에서, 상기 리드 서열 중 기준 조각을 제외한 잔여 서열을 구성하는 서열에 대하여 삽입, 삭제, 및/또는 치환한 것과 상기 참조서열과 일치하는지 여부를 판단하는 단계를 더 포함하는 것을 특징으로 하는 염기 서열 정렬 방법.
제8항에 있어서,

상기 에러 허용치(E)는, 상기 기준 서열에 대하여 정해진 에러 허용치인 것을 특징으로 하는 염기 서열 정렬 방법.
제9항에 있어서,

상기 기준 위치 이후의 참조 서열과 상기 리드 서열 중 기준 조각 이후의 잔여서열이 서로 일치하지 않는 부분이 있는 경우, 기 정해진 에러 허용치(E) 범위 내에서 점프를 한 위치부터의 참조 서열과, 상기 기준 조각 이후의 잔여 서열을 맵핑시키는 것을 특징으로 하는 염기 서열 정렬 방법.
제9항에 있어서,

상기 기준 조각이 상기 참조 서열과 일치되면, 상기 기준 조각을 맵핑조각으로서 저장하는 단계; 및

상기 기준 조각 이후의 잔여 서열 중에서 기 정해진 에러 허용치(E)내에서 상기 기준 위치 이후의 참조 서열과 일치되는 부분들이 있는 경우, 그러한 일치되는 부분들 맵핑조각들로서 저장하는 단계;를 더 포함하는 것을 특징으로 하는 염기 서열 정렬 방법.
제11항에 있어서,

상기 맵핑조각들이 다음의 수식

을 만족하는 경우, 서로 연결하는 단계를 더 포함하며,

여기서,M ₁ , M ₂은 서로 연결하고자 하는 맵핑 조각이고,

D _r (M ₁ , M ₂ ) 은 리드 서열에서의 맵핑 조각 M ₁ , M ₂간의 거리이고

D _R (M ₁ , M ₂ ) 은 참조 서열에서의 맵핑 조각 M ₁ , M ₂간의 거리이고

E 는 리드 서열에 허용된 에러 허용치이고,

E ₀는 맵핑조각들에 포함된 에러 값들의 총합이고,

｜D _r (M ₁ , M ₂ ) - D _R (M ₁ , M ₂ )｜는 D _r (M ₁ , M ₂ ) 와 D _R (M ₁ , M ₂ ) 의 거리차에 대한 절대값인 것을 특징으로 하는 염기 서열 정렬 방법.
컴퓨터에,

청구항 제1항 내지 제12항 중 어느 하나의 항에 따른 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체.
리드 서열을 참조 서열에 정렬하는 염기 서열 정렬 장치에 있어서,

참조 서열에서 리드 서열의 일부인 기준 조각과 일치되는 위치를 찾는 기준 위치 선택부;

상기 기준 위치를 기준으로 상기 참조 서열과 상기 리드 서열을 서로 맵핑시키는 맵핑부; 및

상기 기준 위치를 기준으로 상기 참조 서열과 상기 리드 서열이 서로 일치되면, 상기 기준 위치에 상기 리드 서열을 정렬시키는 정렬부; 를 포함하는 염기 서열 정렬 장치.
제14항에 있어서,

상기 기준 조각은, 리드 서열의 임의의 위치부터 시작하여 소정 길이의 서열로 구성된 것을 특징으로 하는 염기 서열 정렬 장치.
제14항에 있어서,

상기 기준 조각의 소정 길이는, 상기 참조서열에서 상기 기준 조각이 나타날 평균 빈도 값에 기초하여 정해지며,

상기 평균 빈도 값은, 상기 참조서열의 길이와 염기서열의 개수에 의해 정해지는 것을 특징으로 하는 염기 서열 정렬 장치.
제14항에 있어서,

상기 기준 위치 선택부는,

상기 참조 서열에서 기준 조각과 완전히 일치하는 위치; 및

상기 참조 서열에서, 기 정해진 에러 허용치(E) 범위 내에서 기준 조각과 참조 서열이 일치하는 위치; 중 적어도 어느 하나의 위치를 선택하는 것을 특징으로 하는 염기 서열 정렬 장치.
제14항에 있어서,

상기 맵핑부는,

상기 리드 서열 중 기준 조각 이후의 잔여서열과, 상기 참조 서열에서 상기 기준 위치 이후의 서열을 맵핑시키거나, 또는

상기 리드 서열 중 기준 조각 전후의 잔여서열과, 상기 참조 서열에서 기준 위치 전후의 서열을 맵핑시키는 것을 특징으로 하는 염기 서열 정렬 장치.
제17항에 있어서,

상기 에러 허용치(E)는, 상기 기준 서열에 대하여 정해진 에러 허용치인 것을 특징으로 하는 염기 서열 정렬 장치.
제19항에 있어서,

상기 맵핑부는, 또한,

상기 기준 위치 이후의 참조 서열과 상기 리드 서열 중 기준 조각 이후의 잔여서열이 서로 일치하는지 여부를 판단하며,

상기 기준 위치 이후의 참조 서열과 상기 리드 서열 중 기준 조각 이후의 잔여서열이 서로 일치하지 않는 부분이 있는 경우, 기 정해진 에러 허용치(E) 범위 내에서 점프를 한 위치 부터의 참조 서열과, 상기 기준 조각 이후의 잔여 서열을 맵핑시키는 것을 특징으로 하는 염기 서열 정렬 장치.
제14항에 있어서,

저장부를 더 포함하며,

상기 맵핑부는, 상기 기준 조각이 상기 참조 서열과 일치되면, 상기 기준 조각을 맵핑조각으로서 상기 저장부에 저장하고,

상기 기준 조각 이후의 잔여서열 중에서 기 정해진 에러 허용치(E)내에서 상기 기준 위치 이후의 참조 서열과 일치되는 부분들이 있는 경우, 그러한 일치되는 부분들 맵핑조각들로서 상기 저장부에 저장하는 것을 특징으로 하는 염기 서열 정렬 장치.
제21항에 있어서,

상기 정렬부는,

상기 맵핑조각들이 다음의 수식

을 만족하는 경우, 서로 연결시키며,

여기서,M ₁ , M ₂은 서로 연결하고자 하는 맵핑 조각이고,

D _r (M ₁ , M ₂ ) 은 리드 서열에서의 맵핑 조각 M ₁ , M ₂간의 거리이고

D _R (M ₁ , M ₂ ) 은 참조 서열에서의 맵핑 조각 M ₁ , M ₂간의 거리이고

E 는 리드 서열에 허용된 에러 허용치이고,

E ₀는 맵핑조각들에 포함된 에러 값들의 총합이고,

｜D _r (M ₁ , M ₂ ) - D _R (M ₁ , M ₂ )｜는 D _r (M ₁ , M ₂ ) 와 D _R (M ₁ , M ₂ ) 의 거리차에 대한 절대값인 것을 특징으로 하는 염기 서열 정렬 장치.