KR101201626B1 - 부분 결합 서열을 이용한 유전자 서열 정렬장치 및 그 방법 - Google Patents

부분 결합 서열을 이용한 유전자 서열 정렬장치 및 그 방법 Download PDF

Info

Publication number
KR101201626B1
KR101201626B1 KR1020090105803A KR20090105803A KR101201626B1 KR 101201626 B1 KR101201626 B1 KR 101201626B1 KR 1020090105803 A KR1020090105803 A KR 1020090105803A KR 20090105803 A KR20090105803 A KR 20090105803A KR 101201626 B1 KR101201626 B1 KR 101201626B1
Authority
KR
South Korea
Prior art keywords
sequence
sequences
partial binding
sample
sample reference
Prior art date
Application number
KR1020090105803A
Other languages
English (en)
Other versions
KR20110049005A (ko
Inventor
성병용
정종락
김직수
최광민
신동민
Original Assignee
삼성에스디에스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사 filed Critical 삼성에스디에스 주식회사
Priority to KR1020090105803A priority Critical patent/KR101201626B1/ko
Publication of KR20110049005A publication Critical patent/KR20110049005A/ko
Application granted granted Critical
Publication of KR101201626B1 publication Critical patent/KR101201626B1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Abstract

본 발명은 유전 서열 정렬장치 및 그 방법에 관한 것으로서, 샘플로부터 획득되는 입력 서열을 구성하는 샘플 기준 서열들 중 적어도 2개 이상을 서로 결합하여 2개 이상의 부분 결합 서열을 생성하고, 생성한 부분 결합 서열들을 기저장된 목표 서열에 위치시키고, 위치된 부분 결합 서열들과 목표 서열을 비교함으로써, 입력 서열을 목표 서열에 정렬시킨다. 이로써, 입력 서열을 목표 서열에 신속하게 정렬할 수 있다.
유전, 서열, 정렬, 부분

Description

부분 결합 서열을 이용한 유전자 서열 정렬장치 및 그 방법{APPARATUS FOR GENOME SEQUENCE ALIGNMENT USTING THE PARTIAL COMBINATION SEQUENCE AND METHOD THEREOF}
본 발명은 유전자 정렬장치 및 그 방법에 관한 것으로서, 보다 상세하게는, 유전자 정렬시간을 최소화할 수 있는 유전자 정렬장치 및 그 방법에 관한 것이다.
최근 유전자 서열의 길이가 수십억 개까지 될 수 있는 두 개의 전체 게놈을 비교하는 것(서열 정렬)이 연구자들 사이의 초점이 되고 있으며, 이러한 요구가 증대됨에 따라 컴퓨터를 이용하여 신속 및 정확하게 서열정렬을 수행할 방법이 모색되고 있다.
유전 서열 정렬장치는 서열 정렬을 위해서 사용되는 장치로서 사람, 동물, 또는 식물 등과 같은 대상물에서 각종 실험을 통해서 수집한 시료로부터 추출된 서열(이하, '입력 서열')을, 기저장된 목표 서열에 정렬시키는 장치이며, 종래에는 주로 종래 Seed & extend 라고 불리우는 방법으로 수행되고 있다.
Seed & extend 방법은, 미리 대상물의 표준 유전자 서열과, 표준 유전자 서열을 구성하는 기준 서열 및 그 위치를 미리 저장하여 두고, 시료로부터 추출된 서 열(이하, '입력 서열')이 표준 유전자 서열의 어떤 곳에 위치하는지를 결정하는 방법이다. 구체적으로, 입력 서열을 표준 유전자 서열과 비교하여 입력 서열의 위치를 결정하되, 처음부터 입력 서열 전체와 표준 유전자 서열을 비교하는 것이 아니고, 입력 서열을 이루는 몇몇 기준 서열들을 찾아내고(이러한 기준 서열들이 표준 유전자 서열에서 어디에 위치하는지는 통상 해시 테이블의 형태로 미리 저장되어 있음), 그러한 기준 서열들을 중심으로 표준 유전자 서열을 비교한다.
도 1a 내지 도 1c는 종래의 유전 서열 정렬 방법을 설명하기 위해서 제공되는 도면들이다.
도 1a를 참조하면, 입력 서열을 구성하는 기준 서열(Seed)이 목표 서열(Target)의 어떤 위치에 있는지를 먼저 결정하고, 결정한 위치에 기준 서열을 배치시킨 후, 기준 서열을 중심으로 양쪽의 서열들을 목표 서열과 비교함으로써, 입력 서열을 정렬시킨다.
도 1b 를 참조하면, 입력 서열을 구성하는 기준 서열들의 위치를 해시 테이블을 통해서 알 수 있음을 나타내며, 구체적으로 입력 서열을 구성하는 모든 기준 서열(seed)들을 해시 테이블에서 검색하여 해당 기준 서열이 목표 서열의 어느 곳에 위치하는지를 알 수 있다. 도 1b를 계속 참조하면, 기준 서열이 목표 서열의 특정 위치에 배치되고, 기준 서열을 기준으로 나머지 입력 서열 부분들과 목표 서열을 비교한다. 이처럼, 기준 서열을 중심으로 양쪽의 나머지 입력 서열을 목표 서열과 비교하는 과정을 확장(extend) 라고 하며, 종래의 기술은 기준 서열마다 확장 과정을 수행해야 한다.
도 1c를 참조하면, 상술한 바와 같은 종래 기술은 기준 서열마다 확장 과정을 수행하므로, 입력 서열이 길거나, 기준 서열을 중심으로 나머지 입력 서열 부분이 목표 서열과 일치하거나 불일치하는 부분이 적은 경우에는, 확장 동작의 낭비가 큰 문제점이 있으며, 이로 인하여 신속한 정렬에 어려움이 있다.
본 발명의 목적은 입력 서열을 목표 서열에 신속하게 정렬할 수 있는 유전자 정렬장치 및 그 방법을 제공함에 있다.
상기 목적은, 샘플로부터 유전 서열을 정렬하는 장치에 있어서, 상기 샘플로부터 획득되는 입력 서열을 구성하는 샘플 기준 서열들 중 적어도 2개 이상을 서로 결합하여 2개 이상의 부분 결합 서열을 생성하는 부분 결합 서열 생성부; 및
상기 부분 결합 서열들을 기저장된 목표 서열에 위치시키고, 상기 부분 결합 서열들과 상기 목표 서열을 비교함으로써, 상기 입력 서열을 상기 목표 서열에 정렬시키는 매칭부;를 포함하는 것을 특징으로 하는 유전 서열 정렬장치에 의해 달성될 수 있다.
본 유전 서열 정렬장치는, 상기 샘플로부터 획득되는 샘플 기준 서열들이 상기 목표 서열의 어떤 위치에 해당하는지를 판단하는 기준 서열 위치 판단부;를 더 포함하며, 상기 부분결합서열 생성부는, 상기 기준 서열 위치 판단부의 판단결과에 기초하여 상기 샘플 기준 서열들의 결합 순서를 정하여 상기 부분 결합 서열을 생성할 수 있다.
본 유전 서열 정렬장치는, 표준 기준 서열이 상기 목표 서열에서 어떤 위치에 있는지를 나타내는 기준 서열위치 정보를 저장하는 표준 유전 서열 데이터 베이스;를 더 포함하며, 상기 기준 서열 위치 판단부는 상기 표준 유전 서열 데이터 베 이스에 저장된 표준 기준 서열 정보에 기초하여, 상기 샘플 기준 서열들의 위치를 판단할 수 있다.
본 유전 서열 정렬장치는, 상기 표준 기준 서열에 정렬된 샘플 기준 서열들을 연결하여, 유전서열을 생성하는 유전서열 결합장치;를 더 포함할 수 있다.
상기 부분 결합 서열 생성부는, 상기 샘플 기준 서열들 중에서 인접한 샘플 기준 서열을 서로 결합하여 부분 결합 서열을 형성할 수 있다.
상기 부분 결합 서열 생성부는, 제1 샘플 기준 서열과 제2 샘플 기준 서열을 연결하며, 제1 샘플 기준 서열의 마지막 서열의 위치는 e 이고 , 제2 샘플 기준 서열의 처음 서열의 위치는 s 이고 , 그리고 k 는 0 이상의 기 결정된 정수라고 하면, 다음 수식
-k<s-e≤k+1
을 만족하는 경우, 제1 샘플 기준 서열과 제2 샘플 기준 서열을 연결하여 부분 결합 서열을 생성할 수 있다.
본 유전 서열 정렬장치는, 상기 부분 결합 서열들을 기저장된 목표 서열에 위치시키기 전에, 상기 부분 결합 서열을 상기 목표 서열에 위치시키는 우선순위를 결정하는 우선 순위 결정부;를 더 포함하며, 상기 매칭부는, 상기 우선순위에 따라서 부분 결합 서열들을 상기 목표 서열에 위치시킬 수 있다.
상기 우선순위를 정함에 있어서, 상기 부분 결합 서열들을 각각 전체 집합으로 정의하고, 정의한 전체 집합의 부분 집합을 정의하며, 정의된 부분 집합들 간에 우선 순위를 정할 수 있다.
상기 부분 집합들간의 우선 순위는, 상기 부분 집합에 포함되는 부분 결합 서열들이 미포함하는 샘플 기준 서열의 개수에 따라서 정해질 수 있다.
상기 부분 집합 내의 샘플 기준 서열들간의 우선 순위는, 상기 부분 결합 서열들이 제1 샘플 기준 서열과 제2 샘플 기준 서열이 연결되어 있고, 제1 샘플 기준 서열의 마지막 서열의 위치는 e 이고, 제2 샘플 기준 서열의 처음 서열의 위치를 s 이고, 그리고 k 는 0 이상의 기 결정된 정수라고 하면, 다음 수식
-k<s-e≤k+1
에 의해 도출된 삽입 또는 결손의 개수를 고려하여 우선 순위가 정해질 수 있다.
상기 부분 집합내의 샘플 기준 서열들간의 우선 순위는, 상기 부분 집합을 각각 구성하는 샘플 기준 서열들의 시퀀싱 퀄리티의 합을 기준으로 하여 정해질 수 있다.
또한, 상기 목적은, 샘플로부터 유전 서열을 정렬하는 방법에 있어서, 상기 샘플로부터 획득되는 샘플 기준 서열들 중 적어도 2개 이상을 서로 결합하여 2개 이상의 부분 결합 서열을 생성하는 부분 결합 서열 생성 단계; 상기 부분 결합 서열들을 기저장된 목표 서열에 위치시키는 단계; 및 상기 부분 결합 서열들을 상기 목표 서열과 비교함으로써, 상기 입력 서열을 상기 목표 서열에 정렬하는 매칭단계;를 포함하는 유전 서열 정렬 방법에 의해 달성될 수 있다.
본 유전 서열 정렬 방법은, 상기 샘플로부터 획득되는 샘플 기준 서열들을 상기 목표 서열의 어떤 곳에 위치시킬지를 판단하는 기준 서열 위치 판단 단계;를 더 포함하며, 상기 부분 결합 서열 생성단계는, 상기 기준 서열 위치 판단결과에 기초하여 상기 샘플 기준 서열들의 결합 순서를 정하여 상기 부분 결합 서열을 생성할 수 있다.
본 유전 서열 정렬 방법은, 표준 기준 서열이 상기 목표 서열에서 어떤 위치에 있는지를 나타내는 기준 서열위치 정보를 저장하는 단계;를 더 포함하며, 상기 기준 서열 위치 판단 단계는, 상기 기준 서열 위치 정보에 기초하여, 상기 샘플 기준 서열들의 위치를 판단할 수 있다.
상기 부분 결합 서열 생성단계는, 상기 샘플 기준 서열들 중에서 인접한 샘플 기준 서열은 서로 결합하여 부분 결합 서열을 형성할 수 있다.
상기 부분 결합 서열 생성 단계는, 제1 샘플 기준 서열과 제2 샘플 기준 서열을 연결하며, 제1 샘플 기준 서열의 마지막 서열의 위치는 e 이고, 제2 샘플 기준 서열의 처음 서열의 위치는 s 이고, 그리고 k 는 0 이상의 기 결정된 정수라고 하면, 다음 수식
-k<s-e≤k+1
을 만족하는 경우, 제1 샘플 기준 서열과 제2 샘플 기준 서열을 연결하여 부분 결합 서열을 생성할 수 있다.
본 유전 서열 정렬 방법은, 상기 부분 결합 서열을 상기 목표 서열에 위치시킬 때의 우선순위를 결정하는 우선 순위 결정단계;를 더 포함하며, 상기 부분 결합 서열들을 기저장된 목표 서열에 위치시키는 단계는, 상기 우선순위에 따라서 부분 결합 서열들을 상기 목표 서열에 위치시킬 수 있다.
상기 우선순위를 정함에 있어서, 상기 부분 결합 서열들을 각각 전체 집합으로 정의하고, 정의한 전체 집합의 부분 집합을 정의하며, 정의된 부분 집합들 간에 우선 순위를 정할 수 있다.
상기 부분 집합들간의 우선 순위는, 상기 부분 집합에 포함되는 부분 결합 서열들이 미포함하는 샘플 기준 서열의 개수에 따라서 정해질 수 있다.
상기 부분 집합 내의 부분 결합 서열들 간의 우선 순위는, 상기 부분 결합 서열들이 제1 샘플 기준 서열과 제2 샘플 기준 서열이 연결되어 있고, 제1 샘플 기준 서열의 마지막 서열의 위치는 e 이고, 제2 샘플 기준 서열의 처음 서열의 위치는 s 이고, 그리고 k 는 0 이상의 기 결정된 정수라고 하면, 다음 수식
-k<s-e≤k+1
에 의해 도출되는 삽입 또는 결손의 개수를 고려하여 우선 순위가 정해질 수 있다.
상기 부분 집합의 내의 부분 결합 서열들 간의 우선 순위는, 상기 부분 집합을 각각 구성하는 샘플 기준 서열들의 시퀀싱 퀄리티의 합을 기준으로 하여 정해질 수 있다.
또한, 상기 목적은 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체에 의해 달성될 수 있다.
본 발명에 따르면, 입력 서열을 신속하게 목표 서열과 비교할 수 있는 효과가 있다. 특히 입력 서열의 길이가 길거나, 불필요한 확장(extend) 과정을 없앰으 로써, 종래 기술에 비하여 더욱 신속하게 서열을 정렬할 수 있다.
상술한 목적, 특징 및 장점들은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 우선 각 도면의 구성요소들에 참조 번호를 부가함에 있어서, 동일한 구성 요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 번호를 가지도록 하고 있음에 유의하여야 한다. 또한, 본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
먼저, 본원 명세서에서 주로 사용되는 용어에 대하여 설명하기로 한다.
'서열'은 유전자 서열을 의미하며, 예를 들면 DNA 서열 또는 RNA 서열 등을 포함하는 개념으로 사용하기로 한다.
'정렬' 또는 '매칭'은 입력 서열을 목표 서열의 제대로 된 위치에 놓은 상태 또는 그러한 상태로 만드는 동작을 의미한다.
'비교'는 '정렬' 또는 '매칭'을 위해서 서열들을 서로 대비하는 동작을 의미한다.
'입력 서열(read sequece)'(이하, '입력 서열' 또는 'read sequence'라고 함)은 유전서열을 알고 싶어하는 대상자(이하, "대상자")에서 채취한 시료로부터 수집되는 유전 서열을 의미하며, 예를 들면 대상자로부터 채취한 시료를 유전 서열 시퀀싱 장비에 넣고 획득되는 유전 서열이 이에 해당할 수 있다.
'목표 서열(target sequence)'(이하, '목표 서열' 또는 'target sequence'라 고 함)은 기준이 되는 유전 서열로서 예를 들면, 인간의 표준 유전 서열(reference sequence)이 이에 해당할 수 있다.
'기준 서열'은 그 위치와 서열이 사전에 정해진 유전자 서열이다. '기준 서열'의 길이는 유전 서열을 정렬할 때 허용되는 오차 값에 의해서 정해질 수 있다. 만약, 길이가 r인 입력 서열을 정렬함에 있어서 k 개의 불일치를 허용하는 경우, 목표 서열에 정확히 정렬되는 연속된 서열, 즉 기준 서열이 적어도 하나 이상 입력 서열에 존재하며, 그러한 기준 서열의 길이는 r/(k+1)로 정의될 수 있다.
'표준 기준 서열(seed sequence)'(이하, '기준 서열' 또는 'seed sequence'라고 함)은 기준 서열로서 '목표 서열'의 일부이며, 그 위치와 서열이 사전에 정해진 연속적인 유전자 서열이다. 표준 기준 서열에 대한 정보(위치와 서열)은 주로 해시 테이블의 형태로 사전에 저장된다.
'샘플 기준 서열'은 기준 서열로서 입력 서열의 일부이며, 상기 표준 기준 서열에 정보(예를 들면 해시 테이블)에 기초하여, 입력 서열로부터 찾아진 유전자 서열을 의미한다.
'부분 결합 서열'은 인접한 2개 이상의 샘플 기준 서열이 서로 결합된 유전 서열을 의미한다. 부분 결합 서열은, 샘플 기준 서열들 중에서 서로 인접한 기준 서열들이 적어도 2개 이상 결합된 것이다. 여기서, '인접'은 2개 이상의 샘플 기준 서열이 서로 겹치거나 빠짐이 없이 연결되거나, 또는, 2개 이상의 샘플 기준 서열이 소정의 개수만큼 서로 겹치면서 연결되거나, 또는 2개 이상의 샘플 기준 서열이 소정의 개수만큼 결손된 채 연결된 것을 포함하는 개념으로 사용된다. 또한, 소정 의 개수는 1~3 중 어느 하나의 숫자일 수 있지만, 이러한 숫자는 예시적인 것으로서 본원 발명의 실시자가 필요에 따라서 다르게 구성할 수 있음은 물론이다.
이하, 도면을 참조하여 본 발명을 상세히 설명하도록 한다.
도 2는 본 발명의 일 실시예에 따른 유전 서열 정보 제공 시스템의 기능 블록도이고, 도 3은 본 발명의 일 실시예에 따른 유전 서열 정렬장치의 기능 블록도이다.
도 2와 도 3을 참조하면, 본 발명의 일 실시예에 따른 유전 서열 정보 제공 시스템은, 유전 서열 시퀀싱 장치(100), 유전 서열 정렬장치(200), 표준 유전 서열 데이터 베이스(300)(이하, '표준 유전 서열 DB'), 유전 서열 결합 장치(400), 및 결과 유전 서열 데이터 베이스(500)(이하, '결과 유전 서열 DB')를 포함한다.
유전 서열 시퀀싱 장치(100)는 대상자로부터 채취된 샘플 유전자로부터 유전자 서열(이하, '입력 서열')을 결정하는 장치이다.
유전 서열 정렬장치(200)는 목표 서열에서의 입력 서열의 위치를 결정한다. 이를 위해서, 입력 서열에 포함된 샘플 기준 서열들을 적어도 2개 이상 결합하여 부분 결합 서열들을 생성하며, 생성한 부분 결합 서열들을 목표 서열의 특정 위치에 위치시킨다.
예를 들면, 입력 서열이 25개의 유전자 서열로 이루어져 있고, 1번 위치부터 10번 위치까지를 'm' 구간, 11번 위치부터 15번 위치까지를 'n' 구간, 16번 위치부터 25번 위치까지를 'p' 구간이라고 하고, 여기서, n 구간의 서열이 부분 결합 서열이라고 가정한다.
이러한 경우, 유전 서열 정렬장치(200)는, n 구간의 서열을 목표 서열에 위치시키고, m 구간과 p 구간의 서열을 목표 서열과 각각 비교하여 그 차이의 정도가 오차 허용 범위 이내 있는지를 판단한다. 여기서, 오차 허용 범위는, 서로 일치하는 경우와 불일치의 개수가 기설정된 개수 미만인 경우를 의미한다.
부분 결합 서열인 n 구간에 있어서는 그 구성에 따라서, 유전 서열 정렬장치(200)의 비교 동작이 달라지므로 이에 관하여 상세히 설명한다.
a. 부분 결합 서열 n이, 샘플 기준 서열들이 완벽히 연결되어 구성된 경우
이러한 경우, 유전 서열 정렬장치(200)는, n 구간에 대한 비교 동작을 수행하지 않으며, m 구간과 p 구간에 대한 비교 동작만을 수행한다.
비교 결과, m 구간과 p 구간이 목표 서열의 차이의 정도가 오차 허용 범위 내이면, 상기 입력 서열은 현재의 목표 서열의 위치로 결정될 수 있다. 만약, 오차 허용 범위를 벗어나면, 유전 서열 정렬장치(200)는, 목표 서열의 다른 위치에 다시 부분 결합 서열 n을 위치시키고, m 구간과 p 구간이 목표 서열과 오차 허용 범위 내에 있는지를 비교한다.
b. 부분 결합 서열 n이, 샘플 기준 서열들이 완벽히 연결되어 구성된 것이 아니고 1개 이상 빠진 경우
이러한 경우, 유전 서열 정렬장치(200)는, n 구간과 목표 서열간의 비교 동작도 수행하고, m 구간과 p 구간에 대한 비교 동작도 수행한다.
다만, n 구간의 비교 동작은, n 구간에서 샘플 기준 서열이 빠져 있는 부분과 목표 서열을 비교함으로써 이루어진다. 비교 결과, n 구간, m 구간, 및 p 구간이 목표 서열과 각각 오차 허용 범위 이내이면, 상기 입력 서열은 현재의 목표 서열의 위치로 결정될 수 있다. 만약, 오차 허용 범위 이내가 아니면, 유전 서열 정렬장치(200)는, 목표 서열의 다른 곳에 다시 부분 결합 서열 n을 위치시키고, m 구간과 p 구간이 목표 서열과 오차 허용 범위 이내에 있는지를 비교한다.
본 발명의 일 실시예에 따른 유전 서열 정렬장치(200)는, 기저장된 목표 서열, 표준 기준 서열, 및 표준 기준 서열의 목표 서열에서의 위치를 참조하여, 샘플에서 샘플 기준 서열을 선정하고, 목표 서열에서의 샘플 기준 서열의 위치를 결정한다.
또한, 유전 서열 정렬장치(200)는, 부분 결합 서열들을 2개 이상 생성할 수 있으며, 목표 서열에 부분 결합 서열들을 위치시킬 때 부분 결합 서열들 간에 우선 순위를 정하여 수행할 수 있다. 우선 순위는, 부분 결합 서열들에 포함되는 샘플 기준 서열의 시퀀싱 퀄리티나, 염기 서열의 추가 또는 결손의 정도에 따라서 결정될 수 있다.
또한, 유전 서열 정렬장치(200)는, 부분 결합 서열들을 원소로 하는 전체 집합을 정의하고, 이 전체 집합에 속하는 부분집합을 정의할 수 있다. 이러한 부분 집합들은 소정의 기준에 따라서 우선 순위가 정해지고, 그리고 부분집합에 포함된 부분 결합 서열들의 우선 순위는, 부분 결합 서열들에 포함되는 샘플 기준 서열의 시퀀싱 퀄리티나, 염기 서열의 추가 또는 결손의 정도에 따라서 결정될 수 있다.
표준 유전 서열 DB(300)는 목표 서열과, 표준 기준 서열 및 표준 기준 서열의 위치를 해시 테이블의 형태로 저장한다. 본 실시예에서는, 목표 서열, 표준 기준 서열, 표준 기준 서열의 위치를 하나의 저장부에 저장하는 것으로 설명하였지만, 이들은 서로 다른 저장부에 저장되는 것도 가능하다. 또한, 표준 기준 서열과 표준 기준 서열의 위치가 해시 테이블의 형태로 저장되었지만, 다른 형태로 저장되는 것도 가능하다.
유전 서열 결합장치(400)는 정렬된 입력 서열들을 서로 연결하여 유전 서열을 완성하며, 결과 유전 서열 DB(500)는 완성된 유전 서열을 저장한다.
이하에서는, 도 3를 참조하여 유전 서열 정렬장치(200)에 대하여 상세히 설명한다.
본 발명의 일 실시예에 따른 유전 서열 정렬장치(200)는, 기준 서열 위치 판단부(203), 부분 결합 서열 생성부(205), 우선 순위 결정부(207), 및 매칭부(209)를 포함한다.
기준 서열 위치 판단부(203)는, 표준 유전 서열 DB에 저장된 해시 테이블을 참조하여, 입력 서열에서 샘플 기준 서열을 결정하고, 결정한 샘플 기준 서열이 목표 서열에서 어떤 위치를 가지는지를 판단한다.
부분결합서열 생성부(205)는, 기준 서열 위치 판단부(203)의 판단결과를 참 조하고, 참조 결과에 기초하여 샘플 기준 서열들의 결합 순서를 정하여 부분 결합 서열을 생성한다. 구체적으로, 부분결합서열 생성부(205)는, 서로 인접한 샘플 기준 서열들 중 소정의 기준을 만족하는 샘플 기준 서열끼리는 서로 결합시켜 부분 결합 서열을 형성한다.
예를 들면, 부분 결합 서열 생성부(205)가, 제1 샘플 기준 서열과 제2 샘플 기준 서열을 연결하고자 할 때, 다음과 같은 소정의 기준에 따라서 부분 결합 서열을 형성할 수 있다.
제1 샘플 기준 서열의 마지막 서열의 위치를 e 라고 하고, 제2 샘플 기준 서열의 처음 서열의 위치를 s 라고 하고, 그리고 k 는 0 이상의 기 결정된 정수라고 하면, s-e가 다음 수학식 1을 만족하는 경우, 제1 샘플 기준 서열과 제2 샘플 기준 서열을 연결하여 부분 결합 서열을 생성한다.
-k<s-e≤k+1
여기서, s-e 는 제1 샘플 기준 서열과 제2 샘플 기준을 서로 연결할 때의 삽입 또는 결손의 개수를 나타내며, s-e 값은 우선 순위를 정할 때 참조 될 수 있다.
본 발명의 일 실시예에 따르면, 부분 결합 서열 생성부(205)는, 입력서열에 포함된 모든 샘플 기준서열들에 대하여, 수학식 1을 만족하는 것을 전제로, 샘플 기준서열들을 서로 결합하여 부분 결합 서열을 생성할 수 있다.
우선 순위 결정부(207)는 부분 결합 서열을 목표 서열에 위치시키기 전에, 어떤 부분 결합 서열부터 먼저 위치시킬 지에 대한 우선 순위를 결정한다.
본 발명의 일 실시예에 따른 우선 순위 결정부(207)는, 우선순위를 정함에 있어서, 부분 결합 서열들을 원소로 하는 전체 집합을 정의하고, 정의한 전체 집합의 부분 집합을 정의하며, 정의된 부분 집합들 간에 우선 순위를 정할 수 있다.
예를 들면, 부분 집합들 간의 우선순위는 후술하는 바와 같이 '포함되지 않은 기준서열의 개수'가 0개인 부분 집합, 1개인 부분 집합, 2개인 부분집합, ... N개인 부분집합의 순서대로 우선이 된다.
한편, 부분 집합 내에서의 부분 결합 서열들 간의, 우선순위를 정함에 있어서는, 상기 수학식 1에 의해 도출되는 삽입 또는 결손의 개수가 적을수록 우선 순위가 높도록 정할 수 있다.
다른 예를 들면, 각 부분 집합을 각각 구성하는 부분 결합 서열들을 구성하는 샘플 기준 서열들의 시퀀싱 퀄리티의 합을 기준으로 하여 정할 수 있다.
바람직하게는, 부분 집합 내의 부분 결합 서열들 간의 우선 순위를 정함에 있어서, 부분 결합 서열들을 구성하는 샘플 기준 서열들의 시퀀싱 퀄리티의 합과, 상기 수학식 1에 의해 도출되는 삽입 또는 결손의 개수를 모두 고려하여 정할 수 있다.
매칭부(209)는, 우선순위에 따라서 부분 결합 서열들을 목표 서열의 소정의 곳에 위치시킨 후, 부분 결합 서열들이 포함된 입력 서열의 나머지 부분과 목표 서열을 비교하여 입력 서열과 목표 서열이 매칭 되는지를 결정한다.
매칭부(209)는, 부분 결합 서열들이 포함된 입력 서열의 나머지 부분과 목표 서열을 비교한 결과(즉, 확장동작을 수행한 결과), 그 차이가 정도가 기정의된 오차 허용 범위 이내에 있으면, 현재 부분 결합 서열이 위치된 곳을 입력 서열의 위치로서 결정한다. 여기서, 오차 허용 범위는 상술한 바와 같이, 양자가 완전히 일치하는 경우로 기정의될 수도 있고, 1 ~ 2 개의 불일치까지 허용되도록 설정되는 것도 가능하다. 오차 허용 범위는 당업자가 필요에 따라서 상술한 범위(1~2개의 불일치를 허용)보다 더 넓게 설정될 수 있음은 물론이다.
만약, 부분 결합 서열들이 포함된 입력 서열의 나머지 부분과 목표 서열을 비교한 결과, 기정의된 오차 허용 범위를 벗어나면, 목표 서열의 다른 곳들 중 부분 결합 서열에 정렬되는 곳을 선정하고, 선정한 위치에 부분 결합 서열을 위치시키고, 상술한 과정을 반복한다. 여기서, 목표 서열에서 부분 결합 서열이 위치되는 곳은, 표준 유전 서열 DB(300)에 기저장된 해시 테이블을 검색하여 알 수 있다.
도 2에는 표준 유전 서열 DB(300)가 유전 서열 정렬장치(200)와 별개로 구현된 것으로 도시되어 있지만, 이는 예시적인 구성으로서, 표준 유전 서열 DB(300)가 유전 서열 정렬장치(200)의 일부로서 구현되는 것도 가능하다.
또한, 도 3에서 기준 서열 위치 판단부(203), 부분 결합 서열 생성부(205), 우선 순위 결정부(207), 및 매칭부(209)는 하나의 통신선에 의해 서로 연결된 것으로 도시되어 있지만, 이는 예시적인 것으로 서로 기능적으로 관련된 구성요소들끼리 직접 연결되거나 또는 공통의 통신선을 통해서 연결되는 어떠한 구성으로도 구현가능함은 물론이다.
도 4는 본 발명의 일 실시예에 따른 유전 서열 정렬 방법을 설명하기 위해서 제공되는 흐름도이다.
도 4를 참조하면, 본 유전 서열 정렬 방법에서는, 표준 유전 서열 DB(300)가 표준 기준 서열과 그 위치를 나타내는 해시 테이블을 미리 저장하며(S401), 기준 서열 위치 판단부(203)가 입력 서열을 구성하는 샘플 기준 서열이 목표 서열에서 어떤 위치를 가지는지를 알기 위해서 해시 테이블을 검색한다(S403).
부분 결합 서열 생성부(205)는 부분 결합 서열을 생성하며(S405), 이후 부분 결합 서열은 목표 서열에 위치된다(S407). 구체적으로, 우선 순위 결정부(207)는 부분 결합 서열간에 우선 순서를 결정한다(S407a). 우선 순위 결정부(207)는, 먼저, 부분 결합 서열들을 원소로 하는 전체 집합을 정의하고, 정의된 전체 집합의 부분 집합들을 정의한 후, 정의한 부분 집합들의 우선 순위들을 소정의 기준으로 결정한다. 예를 들면, 부분 결합 서열에 포함되지 않은 기준서열의 개수를 기준으로, 부분 결합 서열의 부분 집합들의 우선 순위를 정할 수 있다.
이후, 부분 집합에 포함된 부분 결합 서열들 간의 우선 순위를 정하며, 예를 들면 시퀀싱 퀄리티를 이용하여 우선순위를 부여하고(S407b), 부분집합 내의 부분 결합 서열에 삽입 및/또는 결손의 정도를 고려하여 우선 순위를 부여한다(S407c).
매칭부(209)는 우선 순위대로 부분 결합 서열들을 목표 서열의 특정 위치에 배치하고(S407d), 부분 결합 서열들을 기준으로 양쪽의 입력서열을 목표 서열과 비교하여, 입력 서열의 최적의 위치를 결정한다(S409). 한편, 부분 결합 서열과 목표 서열을 비교함에 있어서, 부분 결합 서열이 완벽히 연결된 경우에는 부분 결합 서열은 입력 서열과 비교하지 않고, 부분 결합 서열이 1-2개의 표준 기준 서열이 누 락된 채 연결된 경우에는, 그 누락 부분에 대하여만 입력 서열과 비교한다는 것은 상술한 바와 같다.
도 5 내지 도 6은 본 발명의 일 실시예에 따른 부분결합서열을 설명하기 위해서 제공되는 도면들이다.
도 5를 참조하면, 특정 입력 서열에 샘플 기준 서열의 종류가 4개(즉, Seed 1, Seed 2, Seed 3, Seed 4) 있고, Seed 1은 4개, Seed 2는 3개, Seed 3는 4개, 그리고 Seed 4는 4개가 도시되어 있다. 또한, 도 5는, 이들 샘플 기준 서열들이 목표 서열(target Sequence)의 어떤 곳에 위치하는지와, 이들 샘플 기준 서열들이 형성하는 부분 결합 서열을 나타내고 있다. 여기서, 이들 샘플 기준 서열의 종류, 개수, 또는 위치들은 예시적인 것이므로 이들 구성에만 본원 발명이 한정되지 않음은 물론이다.
부분 결합 서열 생성부(205)는, 도 5의 하단 부분에 도시된 바와 같이, 서로 인접하는 입력 서열들을 결합하여 부분 결합 서열을 생성한다.
예를 들면, 부분 결합 서열 생성부(205)는, 제1 샘플 기준 서열과 제2 샘플 기준 서열(제1 샘플 기준 서열보다 뒤에 있는 서열이라고 가정함)을 연결하고자 할 때, 제1 샘플 기준 서열의 마지막 서열의 위치를 e라고 하고, 제2 샘플 기준 서열의 처음 서열의 위치를 s라고 하고, 허용하는 최대 불일치의 개수를 k라고 하면, 제1 샘플 기준 서열과 제2 샘플 기준 서열은 다음과 같은 조건들에 따라서 연결 여부가 결정된다.
① -k<s-e≤k+1 를 만족하지 않는 경우: 제1 샘플 기준 서열과 제2 샘플 기 준 서열은 결합될 수 없음.
② s-e = 1 인 경우 : 제1 샘플 기준 서열과 제2 샘플 기준 서열은 완벽히 인접하는 경우로서 이들을 결합할 수 있음.
③ s-e > 1 인 경우 : 제1 샘플 기준 서열과 제2 샘플 기준 서열을 연결할 수 있음. 다만, 이들 부분 결합 서열은 s-e-1 개의 결손(deletion) 서열이 존재함.
④ s-e <1 인 경우: 제1 샘플 기준 서열과 제2 샘플 기준 서열을 연결할 수 있음. 다만, 이들 부분 결합 서열은 e-s-1 개의 삽입(insertion) 서열이 존재함.
도 6을 참조하면, ① 의 경우는 결합이 불가함을 나타내고 있고, ② 의 경우는 완벽히 인접한 경우를 나타내며, ③ 의 경우는 2개의 결손(deletion)이 존재하는 경우를 나타내며, ④ 의 경우는 3개의 삽입(insertion)이 존재하는 것을 나타낸다.
도 7을 참조하면, 부분 결합 서열이 완벽히 인접한 경우와, 1개의 표준 기준 서열이 빠진 경우와, 2 개의 표준 기준 서열이 빠진 경우, 및 3개의 표준 기준 서열이 빠진 경우를 도시하고 있다.
도 7에 설명한 바와 같이, 부분 결합 서열이 완벽히 인접한 경우에는 부분 결합 서열 부분은 비교할 필요가 없다. 입력 서열에서 부분 결합 서열 이외의 부분만을, 목표 서열과 비교하면, 입력 서열과 목표 서열의 차이의 정도가 기정의된 오차 허용 범위 이내인지를 결정할 수 있다. 따라서, 종래 기술과 대비할 때, 매칭 과정이 확실히 감소됨을 알 수 있다.
도 7을 계속 참조하면, 부분 결합 서열에서 1개의 표준 기준 서열이 빠진 경우는, 그 빠진 부분의 입력 서열과 목표 서열을 비교하고, 그리고 입력 서열에서 부분 결합 서열 이외의 부분을 목표 서열과 비교한다. 이로써, 입력 서열과 목표 서열의 차이의 정도가 기정의된 오차 허용 범위 이내인지를 결정할 수 있다. 한편, 부분 결합 서열에서 2개의 표준 기준 서열이 빠진 경우는, 그 빠진 부분의 입력 서열과 목표 서열을 비교하고, 그리고 입력 서열에서 부분 결합 서열 이외의 부분을 목표 서열과 비교한다. 이로써, 입력 서열과 목표 서열이 오차 허용 범위 이내에 있는지를 결정할 수 있다.
도 8은 본 발명의 일 실시예에 따른 부분 결합 서열들의 부분 집합을 형성하는 방법을 설명하기 위해서 제공되는 도면이다.
도 8에 예시적으로 도시된 바와 같이, 수학식 1에서 언급된 부분 결합 서열에 포함되지 않은 기준 서열의 개수를 기준으로 부분 집합을 정의할 수 있다.
Group-0 : 포함되지 않은 기준서열이 0개인 부분결합 서열의 집합
Group-1 : 포함되지 않은 기준서열이 1개인 부분결합 서열의 집합
Group-2 : 포함되지 않은 기준서열이 2개인 부분결합 서열의 집합
...
Group-N : 포함되지 않은 기준서열이 N개인 부분결합 서열의 집합
또한, 위의 정의를 기반으로 아래와 같은 수퍼그룹들을 정의할 수 있다.
SuperGroup-1 : Group-0 ∪ Group-1
SuperGroup-2 : Group-0 ∪ Group-1 ∪ Group-2
SuperGroup-3 : Group-0 ∪ Group-1 ∪ Group-2 ∪ Group-3
SuperGroup-N : Group-0 ∪ ... ∪ Group-N
상술한 정의들과 같이, 기준 서열에서 포함되지 않은 서열 개수를 기준으로 부분 집합을 정의하면, Group-N에 속하는 입력서열은 항상 N 개 이상의 불일치를 가지게 되도록 정의될 수 있다(포함되지 않은 기준 서열의 개수 ≤ 불일치의 개수이므로).
따라서, 다음과 같이 결론 지을 수 있다.
불일치가 0개 이하인 입력서열은 모두 Group-0에 속함
불일치가 1개 이하인 입력서열은 모두 Group-0 ∪ Group-1 (SuperGroup-1) 에 속함
불일치가 2개 이하인 입력서열은 모두 Group-0 ∪ Group-1 ∪ Group-2 (SuperGroup-2) 에 속함
불일치가 N개 이하인 입력서열은 모두 Group-0 ∪ ... ∪ Group-N (SuperGroup-N) 에 속함
이처럼, 기준서열에 포함되지 않은 서열의 개수를 기준으로 부분집합을 정의 하고, Group-0 부터 Group-N 순서로 매칭을 하면, 결과적으로 불일치가 적은 것부터 모두 찾을 수 있게 된다.
즉, SuperGroup-1(위의 결과에 추가적으로 Group-1)를 매칭하면 불일치가 1개인 것은 모두 찾을 수 있고, SuperGroup-2(위의 결과에 추가적으로 Group-2)를 매칭하면 불일치가 2개인 것은 모두 찾을 수 있고, 이하 SuperGroup-3 이하도 같은 방식으로 찾을 수 있다.
이상 설명한 것과 같은 원리로 그룹을 먼저 선정하고, 이에 더하여 각 Group 내의 부분결합서열의 우선순위를 정할 때는 시퀀싱 퀄리티 및 상기 수학식 1에 의해 도출된 삽입 또는 결손의 개수를 고려하여 우선 순위를 정할 수 있다. 여기서, 시퀀싱 퀄리티는 유전 서열 시퀀싱 장치에서 출력되는 값으로서 그 값이 클수록 유전 서열 시퀀싱 장치가 오작동 없이 올바른 서열을 추출하였을 가능성이 클 확률을 나타낸다.
우선 순위 결정부(207)는 도 8과 같이 부분 집합들(Group-0, Group-1, Super Group-1, Group-2, Super Group-2, Group-3, Super Group-3)을 정의하고, 이들 부분 집합들에 속한 부분결합 서열의 우선 순위를 결정한다.
본원발명에서는, 우선 순위가 큰 부분 집합들부터 목표 서열에 위치되고, 부분 결합 서열의 비어있는 곳만 목표 서열과의 비교가 이루어지므로, 서열 비교의 횟수를 크게 줄일 수 있고, 특히 입력 서열이 길거나, 불일치가 적거나, 또는 불일치가 적은 경우에, 신속하게 정렬이 이루어질 수 있다.
본원 발명의 일 실시예에 따르면 상술한 유전 서열 정렬방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체가 제공된다.
본원명세서에서, 기능블록으로 도시되어 설명된 본 발명의 실시예들은 그러한 기능을 가지는 것으로 이해되어야 하는 것이지, 기능 블록이 반드시 물리적으로 별도로 구현되는 것을 의미하는 것은 아니다. 하나의 물리적 장치에 여러 가지 기능이 구현될 수도 있으며, 하나의 기능이 여러 가지 물리적 장치에 구현될 수도 있음에 유념해야 한다.
도 1a 내지 도 1c는 종래의 유전 서열 정렬 방법을 설명하기 위해서 제공되는 도면들이다.
도 2는 본 발명의 일 실시예에 따른 유전 서열 정보 제공 시스템의 기능 블록도이다.
도 3은 본 발명의 일 실시예에 따른 유전 서열 정렬장치의 기능 블록도이다.
도 4는 본 발명의 일 실시예에 따른 유전 서열 정렬 방법을 설명하기 위해서 제공되는 흐름도이다.
도 5 내지 도 7은, 본 발명의 일 실시예에 따른 부분 결합 서열을 설명하기 위해서 제공되는 도면들이다.
도 8은 본 발명의 일 실시예에 따른 부분 결합 서열의 부분 집합을 형성하는 방법을 설명하기 위해서 제공되는 도면이다.
* 도면의 주요부분에 대한 설명 *
100: 유전 서열 시퀀싱 장치
200: 유전 서열 정렬 장치 203: 기준 서열 위치 결정부
205: 부분 결합서열 생성부 207: 우선 순위 결정부
209: 매칭부 300: 표준 유전 서열 DB
400: 유전 서열 결합 장치 500: 결과 유전 서열 DB

Claims (22)

  1. 샘플로부터 유전 서열을 정렬하는 장치에 있어서,
    상기 샘플로부터 획득되는 입력 서열을 구성하는 샘플 기준 서열들 중 적어도 2개 이상을 서로 결합하여 2개 이상의 부분 결합 서열들을 생성하는 부분 결합 서열 생성부;
    상기 부분 결합 서열들의 우선순위를 결정하는 우선 순위 결정부; 및
    상기 우선순위에 따라서 상기 부분 결합 서열들을 기저장된 목표 서열에 위치시키고, 상기 부분 결합 서열들과 상기 목표 서열을 비교함으로써, 상기 입력 서열을 상기 목표 서열에 정렬시키는 매칭부;를 포함하는 것을 특징으로 하는 유전 서열 정렬장치.
  2. 제1항에 있어서,
    상기 샘플로부터 획득되는 샘플 기준 서열들이 상기 목표 서열의 어떤 위치에 해당하는지를 판단하는 기준 서열 위치 판단부;를 더 포함하며,
    상기 부분결합서열 생성부는, 상기 기준 서열 위치 판단부의 판단결과에 기초하여 상기 샘플 기준 서열들의 결합 순서를 정하여 상기 부분 결합 서열을 생성하는 것을 특징으로 하는 유전 서열 정렬장치.
  3. 제1항에 있어서,
    표준 기준 서열이 상기 목표 서열에서 어떤 위치에 있는지를 나타내는 기준 서열위치 정보를 저장하는 표준 유전 서열 데이터 베이스;를 더 포함하며,
    상기 기준 서열 위치 판단부는 상기 표준 유전 서열 데이터 베이스에 저장된 표준 기준 서열 정보에 기초하여, 상기 샘플 기준 서열들의 위치를 판단하는 것을 특징으로 하는 유전 서열 정렬장치.
  4. 제3항에 있어서,
    상기 표준 기준 서열에 정렬된 샘플 기준 서열들을 연결하여, 유전서열을 생성하는 유전서열 결합장치;를 더 포함하는 것을 특징으로 하는 유전 서열 정렬장치.
  5. 제1항에 있어서,
    상기 부분 결합 서열 생성부는,
    상기 샘플 기준 서열들 중에서 인접한 샘플 기준 서열을 서로 결합하여 부분 결합 서열을 형성하는 것을 특징으로 하는 유전 서열 정렬장치.
  6. 제1항에 있어서,
    상기 부분 결합 서열 생성부는, 제1 샘플 기준 서열과 제2 샘플 기준 서열을 연결하며, 제1 샘플 기준 서열의 마지막 서열의 위치는 e 이고 , 제2 샘플 기준 서열의 처음 서열의 위치는 s 이고 , 그리고 k 는 0 이상의 기 결정된 정수라고 하면, 다음 수식
    -k<s-e≤k+1
    을 만족하는 경우, 제1 샘플 기준 서열과 제2 샘플 기준 서열을 연결하여 부분 결합 서열을 생성하는 것을 특징으로 하는 유전 서열 정렬장치.
  7. 삭제
  8. 제1항에 있어서,
    상기 우선순위를 결정함에 있어서, 상기 부분 결합 서열들을 원소로 하는 전체 집합을 정의하고, 상기 전체 집합의 부분 집합들을 정의하며, 그리고 상기 부분 집합들 간에 우선 순위를 정하는 것을 특징으로 하는 유전 서열 정렬장치.
  9. 제8항에 있어서,
    상기 부분 집합들간의 우선 순위는,
    상기 부분 결합 서열이 포함하지 않는 샘플 기준 서열들의 개수에 따라서, 상기 부분 집합들의 우선 순위가 정해지는 것을 특징으로 하는 유전 서열 정렬장치.
  10. 제9항에 있어서,
    상기 부분 집합 내의 샘플 기준 서열들간의 우선 순위는
    상기 부분 결합 서열들이 제1 샘플 기준 서열과 제2 샘플 기준 서열이 연결되어 있고, 제1 샘플 기준 서열의 마지막 서열의 위치는 e 이고, 제2 샘플 기준 서열의 처음 서열의 위치를 s 이고, 그리고 k 는 0 이상의 기 결정된 정수라고 하면, 다음 수식
    -k<s-e≤k+1
    에 의해 도출된 삽입 또는 결손의 개수를 고려하여 우선 순위가 정해지는 것을 특징으로 하는 유전 서열 정렬장치.
  11. 제9항에 있어서,
    상기 부분 집합내의 샘플 기준 서열들간의 우선 순위는,
    상기 부분 집합을 각각 구성하는 샘플 기준 서열들의 시퀀싱 퀄리티의 합을 기준으로 하여 정해지 것을 특징으로 하는 유전 서열 정렬장치.
  12. 샘플로부터 유전 서열을 정렬하는 방법에 있어서,
    상기 샘플로부터 획득되는 입력 서열을 구성하는 샘플 기준 서열들 중 적어도 2개 이상을 서로 결합하여 2개 이상의 부분 결합 서열들을 생성하는 부분 결합 서열 생성 단계;
    상기 부분 결합 서열들에 대한 우선순위를 결정하는 우선 순위 결정단계;
    상기 우선순위에 따라서 상기 부분 결합 서열들을 목표 서열에 위치시키는 단계; 및
    상기 부분 결합 서열들을 상기 목표 서열과 비교함으로써, 상기 입력 서열을 상기 목표 서열에 정렬하는 매칭단계;를 포함하는 것을 특징으로 하는 유전 서열 정렬방법.
  13. 제12항에 있어서,
    상기 샘플로부터 획득되는 샘플 기준 서열들을 상기 목표 서열의 어떤 곳에 위치시킬지를 판단하는 기준 서열 위치 판단 단계;를 더 포함하며,
    상기 부분 결합 서열 생성단계는, 상기 기준 서열 위치 판단결과에 기초하여 상기 샘플 기준 서열들의 결합 순서를 정하여 상기 부분 결합 서열을 생성하는 것을 특징으로 하는 유전 서열 정렬방법.
  14. 제12항에 있어서,
    표준 기준 서열이 상기 목표 서열에서 어떤 위치에 있는지를 나타내는 기준 서열위치 정보를 저장하는 단계;를 더 포함하며,
    상기 기준 서열 위치 판단 단계는, 상기 기준 서열 위치 정보에 기초하여, 상기 샘플 기준 서열들의 위치를 판단하는 것을 특징으로 하는 유전 서열 정렬방법.
  15. 제12항에 있어서,
    상기 부분 결합 서열 생성단계는,
    상기 샘플 기준 서열들 중에서 인접한 샘플 기준 서열은 서로 결합하여 부분 결합 서열을 형성하는 것을 특징으로 하는 유전 서열 정렬방법.
  16. 제12항에 있어서,
    상기 부분 결합 서열 생성 단계는, 제1 샘플 기준 서열과 제2 샘플 기준 서열을 연결하며, 제1 샘플 기준 서열의 마지막 서열의 위치는 e 이고, 제2 샘플 기준 서열의 처음 서열의 위치는 s 이고, 그리고 k 는 0 이상의 기 결정된 정수라고 하면, 다음 수식
    -k<s-e≤k+1
    을 만족하는 경우, 제1 샘플 기준 서열과 제2 샘플 기준 서열을 연결하여 부분 결합 서열을 생성하는 것을 특징으로 하는 유전 서열 정렬방법.
  17. 삭제
  18. 제12항에 있어서,
    상기 우선순위를 결정함에 있어서, 상기 부분 결합 서열들을 원소로 하는 전체 집합을 정의하고, 상기 전체 집합의 부분 집합을 정의하며, 상기 부분 집합들 간에 우선 순위를 정하는 것을 특징으로 하는 유전 서열 정렬방법.
  19. 제18항에 있어서,
    상기 부분 집합들간의 우선 순위는,
    상기 부분 결합 서열이 포함하지 않는 샘플 기준 서열들의 개수에 따라서, 상기 부분 집합들의 우선 순위가 정해지는 것을 특징으로 하는 유전 서열 정렬방법.
  20. 제19항에 있어서,
    상기 부분 집합 내의 부분 결합 서열들 간의 우선 순위는,
    상기 부분 결합 서열들이 제1 샘플 기준 서열과 제2 샘플 기준 서열이 연결되어 있고, 제1 샘플 기준 서열의 마지막 서열의 위치는 e 이고, 제2 샘플 기준 서열의 처음 서열의 위치는 s 이고, 그리고 k 는 0 이상의 기 결정된 정수라고 하면, 다음 수식
    -k<s-e≤k+1
    에 의해 도출되는 삽입 또는 결손의 개수를 고려하여 우선 순위가 정해지는 것을 특징으로 하는 유전 서열 정렬방법.
  21. 제20항에 있어서,
    상기 부분 집합의 내의 부분 결합 서열들 간의 우선 순위는,
    상기 부분 집합을 각각 구성하는 샘플 기준 서열들의 시퀀싱 퀄리티의 합을 기준으로 하여 정해지는 것을 특징으로 하는 유전 서열 정렬방법.
  22. 제12항 내지 제16항, 및 제18항 내지 제21항 중 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
KR1020090105803A 2009-11-04 2009-11-04 부분 결합 서열을 이용한 유전자 서열 정렬장치 및 그 방법 KR101201626B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090105803A KR101201626B1 (ko) 2009-11-04 2009-11-04 부분 결합 서열을 이용한 유전자 서열 정렬장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090105803A KR101201626B1 (ko) 2009-11-04 2009-11-04 부분 결합 서열을 이용한 유전자 서열 정렬장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20110049005A KR20110049005A (ko) 2011-05-12
KR101201626B1 true KR101201626B1 (ko) 2012-11-14

Family

ID=44360210

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090105803A KR101201626B1 (ko) 2009-11-04 2009-11-04 부분 결합 서열을 이용한 유전자 서열 정렬장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR101201626B1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9328366B2 (en) * 2011-10-27 2016-05-03 Snu R & Db Foundation Method for mass production of high-purity oligonucleotides
KR101295784B1 (ko) * 2011-10-31 2013-08-12 삼성에스디에스 주식회사 목표 유전체 서열 내의 신규서열 생성 장치 및 방법
KR101337094B1 (ko) * 2011-11-30 2013-12-05 삼성에스디에스 주식회사 염기 서열 정렬 장치 및 그 방법
KR101922129B1 (ko) * 2011-12-05 2018-11-26 삼성전자주식회사 차세대 시퀀싱을 이용하여 획득된 유전 정보를 압축 및 압축해제하는 방법 및 장치
KR101482011B1 (ko) * 2012-10-29 2015-01-14 삼성에스디에스 주식회사 염기 서열 정렬 시스템 및 방법
KR101506371B1 (ko) * 2012-10-29 2015-03-26 삼성에스디에스 주식회사 중복을 고려한 염기 서열 재조합 시스템 및 방법
KR101600660B1 (ko) * 2013-05-09 2016-03-07 삼성에스디에스 주식회사 리드의 퀄리티를 고려한 염기 서열 처리 시스템 및 방법
KR101522087B1 (ko) * 2013-06-19 2015-05-28 삼성에스디에스 주식회사 미스매치를 고려한 염기 서열 정렬 시스템 및 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100681795B1 (ko) 2006-11-30 2007-02-12 한국정보통신대학교 산학협력단 그리드 컴퓨팅 환경에서의 유전체 서열 정렬 방법 및프로그램 저장 매체

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100681795B1 (ko) 2006-11-30 2007-02-12 한국정보통신대학교 산학협력단 그리드 컴퓨팅 환경에서의 유전체 서열 정렬 방법 및프로그램 저장 매체

Also Published As

Publication number Publication date
KR20110049005A (ko) 2011-05-12

Similar Documents

Publication Publication Date Title
KR101201626B1 (ko) 부분 결합 서열을 이용한 유전자 서열 정렬장치 및 그 방법
JP2010517539A (ja) ショートリード配列決定を用いたインデル識別のためのシステムおよび方法
Batzoglou et al. ARACHNE: a whole-genome shotgun assembler
CN102279749B (zh) 一种代码归并方法和设备
CN103946396B (zh) 用于下一代测序的序列重组方法及装置
CN110692101B (zh) 用于比对靶向的核酸测序数据的方法
KR101469087B1 (ko) 지형이미지와의 정밀비교를 통한 수치좌표 링크형 수치지도의 오차확인시스템
CN108153784A (zh) 同步数据处理方法和装置
CN102890675B (zh) 一种数据存储和查找的方法及装置
US7735040B2 (en) Method for designing cell layout of a semiconductor integrated circuit with logic having a data flow
CN107729576A (zh) 档案的管理方法和系统
CN107679104B (zh) 大表流式并行高速数据比对方法
US20050278175A1 (en) Searching for symbol string
CN103473076A (zh) 一种代码版本的发布方法及系统
CN113495902A (zh) 数据处理方法及数据标准管理系统
CA2743466C (en) Path calculation order deciding method, program and calculating apparatus
WO2013098918A1 (ja) データベースシステム及びデータベース管理方法
CN103678513B (zh) 一种交互式的检索式生成方法及系统
JP4189248B2 (ja) データベース検索経路判定方法
CN107967411A (zh) 一种脱靶位点的检测方法、装置及终端设备
CN105447064A (zh) 一种电子地图数据制作及其使用方法和装置
CN108667659B (zh) 网络拓朴图中环路节点的搜索方法及系统
US20130198182A1 (en) Method, system and program for comparing claimed antibodies with a target antibody
CN107391377B (zh) 一种基于组合流程图测试软件集成的方法
CN115952165A (zh) 一种全网定值快速核查方法及系统

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150930

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160920

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170928

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20180927

Year of fee payment: 7