KR101173257B1 - 하플로타입 페이징 방법 및 장치 - Google Patents

하플로타입 페이징 방법 및 장치 Download PDF

Info

Publication number
KR101173257B1
KR101173257B1 KR20100105500A KR20100105500A KR101173257B1 KR 101173257 B1 KR101173257 B1 KR 101173257B1 KR 20100105500 A KR20100105500 A KR 20100105500A KR 20100105500 A KR20100105500 A KR 20100105500A KR 101173257 B1 KR101173257 B1 KR 101173257B1
Authority
KR
South Korea
Prior art keywords
data
haplotype
generating
snp
evaluation function
Prior art date
Application number
KR20100105500A
Other languages
English (en)
Other versions
KR20120044096A (ko
Inventor
신수용
이용석
홍태희
김판규
박민서
권제근
Original Assignee
삼성에스디에스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사 filed Critical 삼성에스디에스 주식회사
Priority to KR20100105500A priority Critical patent/KR101173257B1/ko
Publication of KR20120044096A publication Critical patent/KR20120044096A/ko
Application granted granted Critical
Publication of KR101173257B1 publication Critical patent/KR101173257B1/ko

Links

Images

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

하플로타입 페이징 방법이 게시된다. 본 발명에 따른 하플로타입 페이징 방법은 염기서열 데이터로부터 이형접합 SNP 매트릭스 데이터를 생성하는 단계 및 평가 함수를 이용한 조합 최적화 프로세스에 상기 이형접합 SNP 매트릭스 데이터를 입력하여 하플로타입 데이터를 생성하는 단계와 생성된 하플로타입 데이터와 컨센서스 서열 및 유전자형을 이용해 이배체를 만드는 단계를 포함한다. 이때, 상기 SNP 매트릭스 데이터의 생성 및 상기 평가 함수 중 적어도 하나에 상기 염기서열 데이터에 포함된 리드 뎁스(read depth) 및 퀄리티 스코어(quality score) 값을 반영한다.

Description

하플로타입 페이징 방법 및 장치{Apparatus and system for haplotype phasing}
본 발명은 하플로타입 페이징 방법 및 장치에 관한 것이다. 보다 자세하게는, 하플로타입 페이징 대상 생명체의 염기서열을 분석한 데이터를 폭넓게 이용하여 하플로타입 페이징의 정확도를 높이는 방법 및 장치에 관한 것이다.
SNP(Single Nucleotide Polymorphism)은 새포핵 속의 염색체(chromosome)가 가지고 있는 염기 서열 중 각 개체의 편차를 나타내는 한 개의 염기를 의미한다. 인간의 경우 평균 200-300bp(base pair) 마다 하나씩 SNP가 존재하는 것으로 알려져 있다. 상기 SNP의 존재는 똑 같은 종이라도 조금씩 형질이 상이하게 되는 원인이다.
하플로타입(haplotype)은 하나의 염색체에 포함된 상기 SNP들의 서열로 이해될 수 있다. 주로 인접해 있는 SNP들이 유사한 형상을 발현하는 것으로 알려져 있고, 그러한 SNP들의 집합이 하플로타입으로 이해될 수 있다.
인간 염색체의 경우 남성의 성염색체를 제외하고는 두 개의 상동 염색체로 구성되어 있는데, 대부분의 질병 및 유전적 특이성은 두 개의 상동 염색체 중 한 개에서 생기는 변이(variation)에 의해서 발현되는 경우가 일반적이다. 따라서 유전체 서열을 아는 것도 중요하지만, 염색체 각 가닥의 서열을 파악하는 것이 보다 중요하다고 할 수 있다. 특히 상기 하플로타입을 알게 되면 질병 원인을 보다 정확히 밝혀 낼 수 있으며, 약물 반응에도 응용이 가능하여 개인 맞춤형 의학을 현실화할 수 있다. 이 외에도 인간 유전적 변이의 공통된 패턴, 가족간의 진화 패턴 등도 유추할 수 있다. 이러한 목적으로 HapMap Project (http://www.hapmap.org)가 미국, 유럽, 중국, 일본 등 전세계 국가들이 참여한 대규모 프로젝트로 2002년부터 현재까지 진행되고 있다.
하플로 타입을 구성하는데 있어서 같은 좌위에 서로 다른 대립유전자가 포함 되는데 이러한 것을 이형 접합(heterozygous)이라고 한다. 이러한 이형접합이 어떤 좌위에서 왔는지 정확히 파악 하기 위해 염기서열 시퀸서를 통해 분석된 염기서열 데이터를 이용하여 찾아 내는 과정이 필요하다. 이러한 과정을 소위 하플로타입 페이징이라 한다.
하플로타입 페이징은 이론적으로 최적해를 찾을 수 없는 NP-완전(NP-complete) 문제로 증명되어 있다(G. Lancia, V. Bafna, S. Istrail, R. Lippert, & R. Schwartz, SNPs Problems, Complexity, and Algorithms, Lecture Notes in Computer Science, 2161: 182-193, 2001). 그러나, 현재까지 dynamic programming 기법 등이나 통계적 방법 등과 같이 NP 문제 해결에는 한계점이 있는 방법들이 많이 전통적으로 사용되어 왔다. 지금까지는 주로 SNP chip을 기반으로 한 정보를 이용하고 있어서, 그 정보량이 많지 않아 탐색 공간이 작아서 전통적인 방법을 사용하더라도 최적해와 유사한 해를 찾을 수 있었기 때문이다.
그러나, 최근 들어 염기서열 분석 비용이 하락함에 따라서 여러 분야에 응용되기 시작하고 있다. 이로 인해서 기존의 SNP칩을 통해 생성된 제한된 염기서열 데이터를 통해 분석하는 것이 아니라, 다양한 염기서열 분석 정보를 폭넓게 활용하여 하플로타입을 발견하는 방법이 필요해지고 있다.
본 발명이 해결하고자 하는 기술적 과제는 염기서열 분석 데이터를 폭넓게 활용하여 정확도를 높이는 하플로타입 페이징 방법 및 시스템을 제공하는 것이다.
본 발명이 해결하고자 하는 다른 기술적 과제는 전장 염기서열 데이터에 대응하는 전장 하플로타입 페이징 방법 및 시스템을 제공하는 것이다.
본 발명이 해결하고자 하는 또 다른 기술적 과제는 하플로타입 페이징 대상 생명체의 가족 관계에 있는 생명체의 염기서열 데이터를 부가적으로 활용하여 하플로타입 페이징을 수행하는 방법 및 시스템을 제공하는 것이다.
본 발명이 해결하고자 하는 또 다른 기술적 과제는 염기서열 분석기를 통해 얻은 개체의 전체 염기서열(컨센서스 서열, consensus sequence)을 대상으로 하플로타입 페이징 분석을 통해 완전한 이배체(diploid)를 구성하는 방법 및 시스템을 제공하는 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해 될 수 있을 것이다.
상기 기술적 과제를 달성하기 위한 본 발명의 일 태양에 따른 하플로타입 페이징 방법은 염기서열 데이터로부터 각 프래그먼트에 포함된 이형접합 SNP 타입에 대한 데이터인 이형접합 SNP 매트릭스 데이터를 생성하는 단계 및 평가 함수의 함수 값인 적합도를 기준으로 상기 이형접합 SNP 매트릭스의 각 프래그먼트 집합으로부터 하플로타입 최적해를 산출하는 조합 최적화(Combinatorial optimization) 단계를 포함하되, 상기 SNP 매트릭스 데이터의 생성 및 상기 평가 함수 중 적어도 하나에 상기 염기서열 데이터에 포함된 리드 뎁스(read depth) 및 퀄리티 스코어(quality score) 값 중 적어도 하나를 반영하는 것이 바람직하다.
상기 하플로타입 페이징 방법은 상기 염기서열 데이터의 주체인 대상 생명체 종의 컨센서스 서열, 유전자형 및 상기 하플로타입 최적해를 결합하여 이배체를 생성하는 단계를 더 포함할 수 있다.
상기 SNP 매트릭스 데이터 생성 시, 상기 SNP 매트릭스의 열(row)인 각각의 프래그먼트를 상기 리드 뎁스 및 상기 퀄리티 스코어로 평가하여 기준치 이하인 프래그먼트는 제외한 상기 SNP 매트릭스 데이터를 생성할 수 있다. 또한, 상기 평가 함수는 하플로타입 해k의 각 SNP의 값이 상기 SNP 매트릭스의 각 프래그먼트를 구성하는 각 SNP의 값과 상이한 경우, 해당 프래그먼트를 구성하는 해당 SNP의 값의 상기 리드 뎁스와 상기 퀄리티 스코어 값을 반영한 패널티를 부가하는 것일 수 있다.
상기 하플로타입 페이징 방법은 대상 생명체의 전장 염기서열에 대한 데이터를 산출하는 DNA 시퀀서(sequencer)를 이용하여 상기 염기서열 데이터를 생성하는 단계를 더 포함할 수 있다. 이때, 상기 이형접합 SNP 매트릭스 데이터를 생성하는 단계는, 상기 염기서열 데이터를 상기 대상 생명체의 표준 염기서열 데이터와 비교하여 이형접합 SNP 매트릭스 데이터를 생성하는 단계를 포함할 수 있다. 또한, 대상 생명체의 전장 염기서열에 대한 데이터를 산출하는 DNA 시퀀서(sequencer)를 이용하여 상기 염기서열 데이터를 생성하는 단계는, 메이트-페어 라이브러리(mate-pair library) 또는 페어드-엔드 라이브러리(paired-end library)를 이용하여 상기 염기서열 데이터를 생성하는 단계를 포함하고, 상기 이형접합 SNP 매트릭스 데이터를 생성하는 단계는, 상기 염기서열 데이터의 각 리드(read) 중 중첩 사이트(site)를 연결한 프래그먼트(fragment)를 이용하여 상기 이형접합 SNP 매트릭스 데이터를 생성하는 단계를 포함할 수 있다.
한편, 상기 하플로타입 데이터를 생성하는 단계는 상기 평가 함수를 이용한 탐색점 분포 학습 프로세스에 상기 이형접합 SNP 매트릭스 데이터를 입력하여 하플로타입 데이터를 생성하는 단계를 포함할 수 있다.
상기 평가 함수를 이용한 탐색점 분포 학습 프로세스에 상기 이형접합 SNP 매트릭스 데이터를 입력하여 하플로타입 데이터를 생성하는 단계는, 상기 대상 생명체의 가족의 염기서열 데이터를 이용하여 현재 세대 해를 생성하는 제1 단계, 상기 평가 함수를 이용하여 상기 현재 세대 해의 적합도를 생성하는 제2 단계, 상기 현재 세대 해 전체 집합 중 부분 집합을 선택하는 제3 단계, 상기 선택된 부분 집합의 각 해의 상기 적합도를 반영하여 각 이형접합 SNP들의 분포를 학습하는 제4 단계, 종료 조건 만족 여부를 평가하는 제5 단계 및 상기 종료 조건 불만족 시 상기 현재 세대 해를 다시 생성하여 상기 제2 단계를 재 수행하는 제6 단계를 포함할 수 있다.
상기 종료 조건은, 상기 제2 단계 재 수행 횟수 및 상기 현재 세대 해의 적합도가 기존 세대 해의 적합도 보다 기 설정 치 이상으로 증가하지 않는 경우 중 적어도 하나일 수 있다.
상기 하플로타입 데이터를 생성하는 단계는, 상기 평가 함수를 이용한 진화 연산 프로세스에 상기 이형접합 SNP 매트릭스 데이터를 입력하여 하플로타입 데이터를 생성하는 단계를 포함할 수 있다.
상기 평가 함수를 이용한 진화 연산 프로세스에 상기 이형접합 SNP 매트릭스 데이터를 입력하여 하플로타입 데이터를 생성하는 단계는, 상기 대상 생명체의 가족의 염기서열 데이터를 이용하여 현재 세대 해를 생성하는 제1 단계, 상기 평가 함수를 이용하여 상기 현재 세대 해의 적합도를 생성하는 제2 단계, 상기 현재 세대 해 전체 집합 중 선택 된 부분 집합에 대하여 크로스오버(crossover) 및 뮤테이션(mutation) 동작 중 적어도 하나를 수행하는 제3 단계 및 종료 조건 만족 여부를 평가하는 제4 단계 및 상기 종료 조건 불만족 시 상기 현재 세대 해를 다시 생성하여 상기 제2 단계를 재 수행하는 제5 단계를 포함할 수 있다.
상기 평가 함수는, 평가 대상 해와 상기 SNP 매트릭스의 값이 일치하지 않는 경우 주어지는 제1 패널티 값에 상기 리드 뎁스 및 상기 퀄리티 스코어 값을 반영하는 것일 수 있다.
상기 평가 함수는, 상기 평가 대상 해와 상기 대상 생명체의 가족의 염기서열 데이터와의 일치 여부에 따라 제2 패널티를 더 주는 것일 수 있다.
본 발명의 다른 일 태양에 따른 하플로타입 페이징 장치는 염기서열 데이터로부터 이형접합 SNP 매트릭스 데이터를 생성하는 SNP 매트릭스 생성부 및 평가 함수를 이용한 조합 최적화 프로세스에 상기 이형접합 SNP 매트릭스 데이터를 입력하여 하플로타입 데이터를 생성하는 하플로타입 데이터 생성부를 포함할 수 있다. 이때, 상기 SNP 매트릭스 데이터의 생성 및 상기 평가 함수 중 적어도 하나에 상기 염기서열 데이터에 포함된 리드 뎁스(read depth) 및 퀄리티 스코어(quality score) 값을 반영할 수 있다.
상기 하플로타입 페이징 장치는 상기 하플로타입 데이터 생성부에 의해 생성된 하플로타입 데이터와 컨센서스 염기서열 및 유전자형을 이용해 이배체를 구성하는 이배체 생성부를 더 포함할 수 있다.
본 발명의 또 다른 일 태양에 따른 컴퓨터로 읽을 수 있는 기록 매체는 염기서열 데이터로부터 이형접합 SNP 매트릭스 데이터를 생성하는 단계 및 평가 함수를 이용한 조합 최적화 프로세스에 상기 이형접합 SNP 매트릭스 데이터를 입력하여 하플로타입 데이터를 생성하는 단계를 수행하며, 상기 SNP 매트릭스 데이터의 생성 및 상기 평가 함수 중 적어도 하나에 상기 염기서열 데이터에 포함된 리드 뎁스(read depth) 및 퀄리티 스코어(quality score) 값을 반영하는 컴퓨터 프로그램이 기록된 것일 수 있다.
상기 컴퓨터 프로그램은 상기 생성된 하플로타입 데이터와 컨센서스 염기서열 및 유전자형을 이용해 이배체를 구성하는 이배체 생성 단계를 더 수행할 수 있다.
상기와 같은 본 발명에 따르면, 염기서열 분석 데이터를 폭넓게 활용하여 하플로타입 페이징을 수행하므로, 하플로타입 페이징의 대상에 주어지는 제약이 줄어들고, 정확도를 높일 수 있는 효과가 있다.
또한, 대상 생명체의 가족의 염기서열 데이터를 더 활용하여 하플로타입 페이징의 정확도를 높일 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 하플로타입 페이징 방법의 순서도이다.
도 2는 본 발명의 일 실시예에 따른 중첩 리드(read) 병합 방법의 개념도이다.
도 3는 본 발명의 일 실시예에 따른 하플로타입 페이징 방법에서의 탐색점 분포 학습 알고리즘 적용 방법의 순서도이다.
도 4는 본 발명의 일 실시예에 따른 하플로타입 페이징 방법에서의 진화 연산 적용 방법의 순서도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하, 도 1을 참조하여 본 발명의 일 실시예에 따른 하플로타입 페이징 방법에 대하여 설명하기로 한다.
먼저, 하플로타입 대상 생명체의 염기서열 데이터가 생성 된다(S100). 하플로타입 대상 생명체는 인간일 수 있으나, 인간에 한정되지 않는다. 상기 염기서열 데이터는 DNA를 구성하는 4개의 염기(A, T, C, G)의 서열 자체에 대한 데이터 및 그에 부속되는 데이터를 의미한다. 상기 부속되는 데이터는 예를 들어, 퀄리티 스코어(Quality score), 리드 뎁스(read depth), 컨센서스 서열(consensus sequence) 및 유전자형 (genotype) 일 수 있다. 상기 컨센서스 서열은 대상 생명체 종의 표준 염기서열을 의미하는 것으로 해석될 수 있을 것이다.
한편, 상기 염기서열 데이터는 DNA 시퀀서(sequencer)를 이용하여 생성된 전장 염기서열 데이터일 수 있다. 이경우, 본 실시예에 따른 하플로타입 페이징 방법은 대상 생명체의 전장 염기서열 데이터에 대응하는 하플로타입을 계산한 후에 이를 활용해 이배체를 구성하는 단계를 더 포함할 수 있다.
다음으로, 중첩되는 리드(read)를 병합하여 길이를 늘린 프래그먼트(fragment)를 생성할 수 있다(S102). 상기 리드(read)는 DNA 시퀀싱 절차를 통하여 생성된 연결된 하나의 염기서열 조각을 의미한다.
다음으로, 이형접합 SNP 매트릭스를 생성한다(S104).
한편, DNA 시퀀싱과 관련하여 DNA의 분할 및 증식 단계가 수행되므로, 상기 DNA 시퀀싱 결과 산출된 각각의 리드에는 중첩된 부분이 존재할 수 있다. 특히, 메이트-페어 라이브러리(mate-pair library) 또는 페어드-엔드 라이브러리(paired-end library)를 이용하여 DNA 시퀀싱이 수행 된 경우에는, 도 2에 도시된 바와 같이 한 리드(read)안에 두 개 이상의 이형접합 SNP가 존재하거나(200), 쌍을 이루는 페어 리드(pair read)안에 두개 이상의 이형접합 SNP가 존재 한다면(202) 상기 각각의 이형접합 SNP의 위치에 해당하는 페어링-리드(pairing-read) 데이터를 이용하여 상기 프래그먼트(fragment)의 길이를 증가시킬 수 있다.
이형접합 SNP는 대립 유전자(allele)의 유전형이 상이한 경우를 의미한다. 동형접합 SNP는 이형접합 SNP와는 반대로 대립 유전자의 유전형이 동일한 경우이다. 하플로타입을 구성하는 좌위 중 동형접합 SNP로 구성되는 좌위는 하플로타입을 결정함에 있어서 어떠한 영향도 미치지 못하므로, 본 발명에서는 대상 생명체의 SNP 중 이형접합 SNP의 염기서열 데이터 만으로 구성된 이형접합 SNP 매트릭스를 생성하여 하플로타입 페이징을 수행한다. 본 발명에 따르면, 상기 전장 염기서열 데이터를 상기 대상 생명체의 표준 염기서열 데이터와 비교하여 이형접합 SNP를 용이하게 판단할 수 있는 효과가 있다.
표 1은 본 실시예에 따른 이형접합 SNP 매트릭스의 일 예이다.
Figure 112010069842217-pat00001
표 1은 이형접합 SNP가 6개 있고, 프래그먼트가 7개가 있는 경우이다. 표 1은 본 실시예의 이해의 편의를 위한 것일 뿐, 실제로는 훨씬 많은 수의 이형접합 SNP 및 프래그먼트를 이용하여 하플로타입 페이징을 수행하여야 할 것이다. 이형접합 SNP 매트릭스(이하, 'S'라 한다)는 S(i,j)={0, 1, -}이다. 이 때, 0, 1은 각각의 대립 유전자(allele)를 의미하며(예를 들어, '0'이 대립 유전자 중 하나의 유전자를 의미한다면, '1'은 그에 대립되는 유전자를 의미함), '-'는 프래그먼트 i가 SNP j를 포함하고 있지 않은 상태를 의미한다.
상기 SNP 매트릭스 데이터 생성 시, 상기 염기서열 데이터에 포함된 리드 뎁스(read depth) 및 퀄리티 스코어(quality score) 값 중 적어도 하나를 활용하여 신뢰할 수 없는 프래그먼트를 제외한 상기 SNP 매트릭스를 생성할 수 있다. 이는 특정 염기서열 데이터의 리드 뎁스가 높을수록 신뢰도가 높고, 특정 염기서열에 포함된 베이스들의 퀄리티 스코어 값이 클수록 신뢰도가 높다는 점을 반영한 것이다.
예를 들어, 상기 SNP 매트릭스의 열(row)인 각각의 프래그먼트를 상기 리드 뎁스 및 상기 퀄리티 스코어로 평가하여 평가 점수가 기준치 이하인 프래그먼트는 제외한 상기 SNP 매트릭스 데이터를 생성할 수 있다. 이 경우, 오류가 있을 것으로 예상되는 프래그먼트로 인하여 최적해를 찾는 연산 시간이 늘어나고, 최적해 자체에도 오류가 발생할 수 있는 문제점을 해결할 수 있는 효과가 있다.
상기 대상 생명체에는 각각의 상동 염색체에 대응되는 두개의 하플로타입이 존재하므로, 상기 프래그먼트 0-6은 각각의 하플로타입을 의미하는 두 집합으로 완전히 구분되어야 한다. 그러나, DNA 시퀀싱 과정에서 오류가 발생할 수도 있으므로, 그런 점을 감안하여 두개의 하플로타입을 결정하여야 한다.
본 발명에서는 조합 최적화 프로세스를 이용하여 하플로타입 페이징을 수행하는 방법을 소개한다. 즉, 상기 이형접합 SNP 매트릭스를 만족시키는 최적의 하플로타입을 구하는 문제로 하플로타입 페이징 문제가 변형 된다. 따라서, 상기 이형접합 SNP 매트릭스에 조합 최적화 프로세스를 적용(S106)하여 하플로타입 최적해를 제공할 수 있다(S108).
또한, 상기 하플로타입 데이터 생성부에 의해 생성된 하플로타입 데이터와 컨센서스 염기서열 및 유전자형을 이용해 이배체를 구성하는 단계(S110)가 수행될 수 있다.
이배체 구성 단계(S110)는 컨센서스 염기서열, 유전자형, 그리고 하플로타입 최적해 정보를 결합하여 수행된다. 각 반수체(haploid)는 기본적으로 컨센서스 서열을 이용해 생성하고, 이형접합 SNP 위치들에서만 하플로타입 최적해를 활용해서 결정하는 것으로 수행된다.
예를 들면, 컨센서스 염기서열의 특징 부위가 'ATGCATGC'이고 첫번째 T와 마지막 C가 이형접합 SNP인 경우, (각각 T/C, C/A SNP이라고 가정) 하플로타입이 10 (T/C, G/A에서 앞쪽이 1, 뒤쪽이 0이라고 가정)으로 찾아졌을때 'ATGCATGA'와 'ACGCATGC'가 대상 생명체의 각각의 반수체로 생성될 수 있다.
이하, 조합 최적화 프로세스를 적용(S106)하는 방법에 대하여 도 3 및 도 4를 참조하여 보다 자세히 설명하기로 한다. 상기 조합 최적화는 조합 최적화의 영역은 가능해가 이산 집합에 속하거나 이산적인 것으로 변환될 수 있고, 가장 좋은 해를 찾는 것이 목적인 최적화 문제를 의미하는 것으로, 응용수학과 전산학에서 널리 통용되는 최적화 문제의 일종인 알고리즘 내지 문제 해결 프로세스를 의미한다. 관련 기술로 'Alexander Schrijver; A Course in Combinatorial Optimization, February 1, 2006' 등의 문헌을 참조할 수 있다.
먼저, 조합 최적화 프로세스에 공통적으로 적용되는 평가 함수에 대하여 설명하기로 한다. 상기 조합 최적화 프로세스는 하플로타입 후보 해를 평가 함수에 입력하여 그 함수 값인 적합도를 산출하고, 상기 적합도를 기준으로 상기 이형접합 SNP 매트릭스의 각 프래그먼트 집합으로부터 하플로타입 최적해를 산출하는 단계를 의미할 수 있다.
상기 평가 함수는 입력 데이터인 하플로타입 후보해와 상기 SNP 매트릭스의 값이 일치하지 않는 경우 주어지는 제1 패널티 값에 상기 리드 뎁스 및 상기 퀄리티 스코어 값을 반영하는 것일 수 있다. 아래 식 1은 본 실시예에 따른 평가 함수(f(k))의 일 예이다.
식 1:
Figure 112010069842217-pat00002
식 1에서 Sij는 상기 이형접합 SNP 매트릭스의 프래그먼트 j, SNP i 값을 의미하며,
Figure 112010069842217-pat00003
는 하플로타입 해k의 SNP j 값을 의미한다. 하플로타입 해k는 상기 하플로타입 후보해를 수식화하여 표현한 것이다.
또한, M은 상기 이형접합 SNP 매트릭스의 SNP 개수 이며, N은 상기 이형접합 SNP 매트릭스의 프래그먼트 개수이다.
또한, 일 수 있다. 즉, w(Indk(j),Sij) 함수는, 하플로타입 해k의 j번째 SNP 가 SNP 매트릭스의 프래그먼트 j에 포함된 SNP i 값과 동일하거나 SNP 매트릭스의 프래그먼트 j에 포함된 SNP i의 값이 '-'이면 0, 그렇지 않으면 1-quality_score(Sij)값을 반환한다.
quality_score(Sij) 함수는 Sij에 대응하는 리드 뎁스 정보를 활용하여 각 리드의 퀄리티 스코어 값의 평균 값을 반환할 수 있다. 예를 들어, Sij에 대응하는 베이스(base)들의 리드 뎁스가 30x인 경우, 30개의 Sij에 대응하는 베이스(base)들의 퀄리티 스코어 값의 평균 값을 반환할 수 있다.
즉, 본원 발명의 평가 함수는 종래의 하플로타입 페이징 방법과 다르게 대상 생명체의 염기서열 분석 결과를 폭넓게 사용할 수 있는 효과가 있다.
또한, 대상 생명체 가족 개체의 염기서열 정보를 더 반영하는 평가 함수를 사용할 수도 있다. 이 경우, 평가 함수(f'(k))는 아래와 같다.
Figure 112010069842217-pat00004
이때,
Figure 112010069842217-pat00005
는 하플로타입 후보 해k(Indk)와 대상 생명체 가족 개체의 염기서열 정보가 일치하면 0, 틀리면 1을 반환하는 함수 일 수 있다.
다음으로, 도 3을 참조하여 조합 최적화 프로세스 적용(S106)이 탐색점 분포 학습 알고리즘을 적용하는 경우를 설명하기로 한다.
탐색점 분포 학습 알고리즘은 주어진 데이터를 학습해 데이터의 분포를 표현할 수 있는 모델을 형성하고, 그 모델로 새로운 데이터를 생성한 후, 생성된 데이터 중에서 적합한 것을 선택하고, 선택된 데이터로 모델을 조금씩 수정해 나가면서 최적해를 찾아가는 최적화 알고리즘이다 (P. Larranaga & J. A. Lozano, Estimation of distribution algorithms: A new tool for evolutionary computation. Kluwer Academic Publishers, 2002). 기존의 진화 연산과 다른 점은 교차 연산 또는 돌연변이 연산 등을 사용하지 않고, 오로지 선택 연산만을 사용하면서 데이터의 분포를 파악하는 방법으로 최적해를 발견하는데, 많은 NP (Nondeterministic Polynomial time) 문제에서 실제로 사용할 수 있는 해 (near-optimal)를 찾아 주는 것으로 알려져 있다. 페이징 문제도 NP 문제로 증명되어 있기 때문에, 가장 적절한 선택이라고 볼 수 있다.
먼저, 초기해를 생성한다(S1600). 초기해를 생성할 때 대상 생명체의 가족의 염기서열 정보를 활용할 수 있는데, 가족의 하플로타입을 조사하여 각 하플로타입 비율을 찾아, 해당 비율을 기반으로 초기해를 생성할 수 있다. 예를 들어, 염기서열의 특정 위치에서 가족 하플로타입을 조사해 본 결과 AG SNP의 빈도가 0.95라면, 초기해를 생성할 때 해당 위치의 하플로타입은 95%의 확률로 AG 타입을 가정해서 생성할 수 있다.
다음으로, 상기 평가 함수를 이용하여 상기 현재 세대 해의 적합도를 산출한다(S1602). 상기 가족의 염기서열 정보는 상기 평가 함수에서도 반영될 수 있으므로, 지속적으로 활용 될 수 있다.
다음으로, 전체 해 집합 중 부분 집합을 선택한다(S1604). 또한 선택 된 해들의 적합도를 반영하여 각 이형접합 SNP들의 연관성을 학습한다(S1606). 이때 각 이형접합 SNP들이 서로 독립적(linkage equilibrium)이라고 간주될 수도 있고, 서로 의존적(linkage disequilibrium)이라고 간주될 수도 있다. 서로 의존적인 경우에는 인접한 2 개의 SNP들 만이 영향을 주고 있다고 간주할 수도 있고, 불특정 다수가 서로 의존적이라고 간주할 수도 있다. 각각의 가정에 따라 학습 모델을 세워 분포를 학습하게 된다. 학습 방법은 (P. Larranaga & J. A. Lozano, Estimation of distribution algorithms : A new tool for evolutionary computation. Kluwer Academic Publishers, 2002)의 방법론을 활용할 수 있다.
학습이 종료되어 모델이 생성되면, 종료 조건이 완성되었는지 판단한다(S1608). 상기 종료 조건은, 세대 반복 횟수 및 상기 현재 세대 해의 적합도가 기존 세대 해의 적합도 보다 기 설정 치 이상으로 증가하지 않는 경우 중 적어도 하나일 수 있다.
종료 조건이 완성되지 않은 경우, 상기 학습 결과를 이용하여 상기 현재 세대 해를 다시 생성하여(S1610), S1602 단계를 재 수행한다.
도 4는 조합 최적화 프로세스 적용(S106)이 진화 연산을 적용하는 경우로, 진화 연산의 방법은 (T. Back, Evolutionary Algorithms in Theory and Practice, Oxford University Press, 1996) 등에 공지된 바에 따른다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
S102 프래그먼트 생성
S104 이형접합 SNP 매트릭스 생성
S106 이형접합 SNP 매트릭스로부터 하플로타입 최적해 구하는 조합 최적화 프로세스 적용

Claims (18)

  1. 염기서열 데이터로부터 각 프래그먼트에 포함된 이형접합 SNP 타입에 대한 데이터인 이형접합 SNP 매트릭스 데이터를 생성하는 단계; 및
    평가 함수의 함수 값인 적합도를 기준으로 상기 이형접합 SNP 매트릭스의 각 프래그먼트 집합으로부터 하플로타입 데이터를 산출하는 조합 최적화 단계를 포함하되,
    상기 SNP 매트릭스 데이터의 생성 및 상기 평가 함수 중 적어도 하나에 상기 염기서열 데이터에 포함된 리드 뎁스(read depth) 및 퀄리티 스코어(quality score) 값 중 적어도 하나를 반영하고,
    상기 이형접합 SNP 매트릭스 데이터를 생성하는 단계는, 상기 SNP 매트릭스의 상기 각각의 프래그먼트를 상기 리드 뎁스 및 상기 퀄리티 스코어로 평가하여 기준치 이하인 프래그먼트는 제외한 상기 SNP 매트릭스 데이터를 생성하는 단계를 포함하는 하플로타입 페이징(haplotype phasing) 방법.
  2. 삭제
  3. 제1 항에 있어서,
    상기 평가 함수는,
    입력 데이터인 하플로타입 후보해와 상기 SNP 매트릭스의 값이 일치하지 않는 경우 주어지는 제1 패널티 값에 상기 리드 뎁스 및 상기 퀄리티 스코어 값을 반영하는 하플로타입 페이징 방법.
  4. 제3 항에 있어서,
    상기 평가 함수는,
    상기 평가 대상 해와 대상 생명체의 가족의 염기서열 데이터와의 일치 여부에 따라 제2 패널티를 더 주는 하플로타입 페이징 방법.
  5. 제1 항에 있어서,
    대상 생명체의 전장 염기서열에 대한 데이터를 산출하는 DNA 시퀀서(sequencer)를 이용하여 상기 염기서열 데이터를 생성하는 단계를 더 포함하는 하플로타입 페이징 방법.
  6. 제5 항에 있어서,
    상기 이형접합 SNP 매트릭스 데이터를 생성하는 단계는,
    상기 염기서열 데이터를 상기 대상 생명체의 표준 염기서열 데이터와 비교하여 이형접합 SNP 매트릭스 데이터를 생성하는 단계를 포함하는 하플로타입 페이징 방법.
  7. 제5 항에 있어서,
    대상 생명체의 전장 염기서열에 대한 데이터를 산출하는 DNA 시퀀서(sequencer)를 이용하여 상기 염기서열 데이터를 생성하는 단계는, 메이트-페어 라이브러리(mate-pair library) 또는 페어드-엔드 라이브러리(paired-end library)를 이용하여 상기 염기서열 데이터를 생성하는 단계를 포함하고,
    상기 이형접합 SNP 매트릭스 데이터를 생성하는 단계는, 상기 염기서열 데이터의 각 리드(read) 중 중첩 사이트(site)를 연결한 프래그먼트(fragment)를 이용하여 상기 이형접합 SNP 매트릭스 데이터를 생성하는 단계를 포함하는 하플로타입 페이징 방법.
  8. 제1 항에 있어서,
    상기 하플로타입 데이터를 생성하는 단계는,
    상기 평가 함수를 이용한 탐색점 분포 학습 프로세스에 상기 이형접합 SNP 매트릭스 데이터를 입력하여 하플로타입 데이터를 생성하는 단계를 포함하는 하플로타입 페이징 방법.
  9. 제8 항에 있어서,
    상기 평가 함수를 이용한 탐색점 분포 학습 프로세스에 상기 이형접합 SNP 매트릭스 데이터를 입력하여 하플로타입 데이터를 생성하는 단계는,
    대상 생명체의 가족의 염기서열 데이터를 이용하여 현재 세대 해를 생성하는 제1 단계;
    상기 평가 함수를 이용하여 상기 현재 세대 해의 적합도를 생성하는 제2 단계;
    상기 현재 세대 해 전체 집합 중 부분 집합을 선택하는 제3 단계;
    상기 선택된 부분 집합의 각 해의 상기 적합도를 반영하여 각 이형접합 SNP들의 분포를 학습하는 제4 단계;
    종료 조건 만족 여부를 평가하는 제5 단계; 및
    상기 종료 조건 불만족 시 상기 현재 세대 해를 다시 생성하여 상기 제2 단계를 재 수행하는 제6 단계를 포함하는 하플로타입 페이징 방법.
  10. 제9 항에 있어서,
    상기 제6 단계는,
    상기 제2 단계 재 수행 횟수 및 상기 현재 세대 해의 적합도가 기존 세대 해의 적합도 보다 기 설정 치 이상으로 증가하지 않는 경우 중 적어도 하나인 상기 종료 조건 불만족 시 상기 현재 세대 해를 다시 생성하여 상기 제2 단계를 재 수행하는 단계를 포함하는 하플로타입 페이징 방법.
  11. 제1 항에 있어서,
    상기 하플로타입 데이터를 생성하는 단계는,
    상기 평가 함수를 이용한 진화 연산 프로세스에 상기 이형접합 SNP 매트릭스 데이터를 입력하여 하플로타입 데이터를 생성하는 단계를 포함하는 하플로타입 페이징 방법.
  12. 제11 항에 있어서,
    상기 평가 함수를 이용한 진화 연산 프로세스에 상기 이형접합 SNP 매트릭스 데이터를 입력하여 하플로타입 데이터를 생성하는 단계는,
    대상 생명체의 가족의 염기서열 데이터를 이용하여 현재 세대 해를 생성하는 제1 단계;
    상기 평가 함수를 이용하여 상기 현재 세대 해의 적합도를 생성하는 제2 단계;
    상기 현재 세대 해 전체 집합 중 선택 된 부분 집합에 대하여 크로스오버(crossover) 및 뮤테이션(mutation) 동작 중 적어도 하나를 수행하는 제3 단계; 및
    종료 조건 만족 여부를 평가하는 제4 단계; 및
    상기 종료 조건 불만족 시 상기 현재 세대 해를 다시 생성하여 상기 제2 단계를 재 수행하는 제5 단계를 포함하는 하플로타입 페이징 방법.
  13. 제1 항에 있어서,
    상기 산출 된 하플로타입 데이터와 컨센서스 염기서열 및 유전자형을 이용하여 이배체를 구성하는 단계를 더 포함하는 하플로타입 페이징 방법.
  14. 제13 항에 있어서,
    상기 이배체를 구성하는 단계는,
    상기 컨센서스 염기서열을 이용하여 각각의 반수체(haploid)를 생성하는 단계; 및
    상기 반수체의 이형접합 SNP에 해당하는 좌위를 상기 하플로타입 데이터 및 상기 유전자형을 이용하여 결정하는 단계를 포함하는 하플로타입 페이징 방법.
  15. 염기서열 데이터로부터 이형접합 SNP 매트릭스 데이터를 생성하는 SNP 매트릭스 생성부; 및
    평가 함수를 이용한 조합 최적화 프로세스에 상기 이형접합 SNP 매트릭스 데이터를 입력하여 하플로타입 데이터를 생성하는 하플로타입 데이터 생성부를 포함하되,
    상기 SNP 매트릭스 데이터의 생성 및 상기 평가 함수 중 적어도 하나에 상기 염기서열 데이터에 포함된 리드 뎁스(read depth) 및 퀄리티 스코어(quality score) 값을 반영하는 하플로타입 추정 장치.
  16. 제15 항에 있어서,
    상기 하플로타입 데이터 생성부에 의해 생성된 하플로타입 데이터를 제공 받아 컨센서스 염기서열 및 유전자형을 이용하여 이배체를 구성하는 이배체 생성부를 더 포함하는 하플로타입 추정 장치.
  17. 염기서열 데이터로부터 이형접합 SNP 매트릭스 데이터를 생성하는 단계; 및
    평가 함수를 이용한 조합 최적화 프로세스에 상기 이형접합 SNP 매트릭스 데이터를 입력하여 하플로타입 데이터를 생성하는 단계를 수행하되,
    상기 SNP 매트릭스 데이터의 생성 및 상기 평가 함수 중 적어도 하나에 상기 염기서열 데이터에 포함된 리드 뎁스(read depth) 및 퀄리티 스코어(quality score) 값을 반영하는 컴퓨터 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체.
  18. 제17 항에 있어서,
    상기 컴퓨터 프로그램은,
    상기 생성 된 하플로타입 데이터와 컨센서스 염기서열 및 유전자형을 이용하여 이배체를 구성하는 단계를 더 수행하는 컴퓨터 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체.
KR20100105500A 2010-10-27 2010-10-27 하플로타입 페이징 방법 및 장치 KR101173257B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR20100105500A KR101173257B1 (ko) 2010-10-27 2010-10-27 하플로타입 페이징 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20100105500A KR101173257B1 (ko) 2010-10-27 2010-10-27 하플로타입 페이징 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20120044096A KR20120044096A (ko) 2012-05-07
KR101173257B1 true KR101173257B1 (ko) 2012-08-10

Family

ID=46264018

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20100105500A KR101173257B1 (ko) 2010-10-27 2010-10-27 하플로타입 페이징 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101173257B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3420108A4 (en) * 2016-02-23 2019-11-06 Dovetail Genomics LLC GENERATION OF LIVE PHASES FOR THE GENERATION ARRANGEMENT AND HAPLOTYPE PHASE RULES

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Haplotype reconstruction from SNP fragments by minimum error correction(Oxford Journals, vol.21, Issue 10, 2005년, pp.2456-2462)*

Also Published As

Publication number Publication date
KR20120044096A (ko) 2012-05-07

Similar Documents

Publication Publication Date Title
Wickland et al. A comparison of genotyping-by-sequencing analysis methods on low-coverage crop datasets shows advantages of a new workflow, GB-eaSy
US20210174907A1 (en) Method of machine learning, employing bayesian latent class inference: combining multiple genomic feature detection algorithms to produce an integrated genomic feature set with specificity, sensitivity and accuracy
Wang et al. Haplotype reconstruction from SNP fragments by minimum error correction
Frousios et al. Predicting the functional consequences of non-synonymous DNA sequence variants—evaluation of bioinformatics tools and development of a consensus strategy
Yuan et al. An overview of population genetic data simulation
Gusev et al. DASH: a method for identical-by-descent haplotype mapping uncovers association with recent variation
US20130091126A1 (en) Systems and methods for analysis and interpretation of nucleic acid sequence data
WO2013169398A2 (en) Systems and methods for improving nuclease specificity and activity
Kirkpatrick et al. Pedigree reconstruction using identity by descent
Löwer et al. Confidence-based somatic mutation evaluation and prioritization
Ronin et al. Two-phase analysis in consensus genetic mapping
Motazedi et al. TriPoly: haplotype estimation for polyploids using sequencing data of related individuals
Huang et al. Sequencing strategies and characterization of 721 vervet monkey genomes for future genetic analyses of medically relevant traits
Long et al. Genome-wide imputation using the practical haplotype graph in the heterozygous crop cassava
Ferdosi et al. Detection of recombination events, haplotype reconstruction and imputation of sires using half-sib SNP genotypes
Plagnol et al. Relative influences of crossing over and gene conversion on the pattern of linkage disequilibrium in Arabidopsis thaliana
Serra Mari et al. Haplotype-resolved assembly of a tetraploid potato genome using long reads and low-depth offspring data
Chang et al. Phenotype prediction by integrative network analysis of SNP and gene expression microarrays
KR101173257B1 (ko) 하플로타입 페이징 방법 및 장치
Melé et al. A new method to reconstruct recombination events at a genomic scale
Torkamaneh et al. Accurate imputation of untyped variants from deep sequencing data
Young et al. Recursive partitioning analysis of complex disease pharmacogenetic studies. I. Motivation and overview
Yuan et al. Bayesian multiple quantitative trait loci mapping for recombinant inbred intercrosses
Moeinzadeh De novo and haplotype assembly of polyploid genomes
Patel et al. Pragmatic Approach to Applying Polygenic Risk Scores to Diverse Populations

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150629

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160701

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee