KR101394339B1 - 시드의 길이를 고려한 염기 서열 처리 시스템 및 방법 - Google Patents

시드의 길이를 고려한 염기 서열 처리 시스템 및 방법 Download PDF

Info

Publication number
KR101394339B1
KR101394339B1 KR1020120022647A KR20120022647A KR101394339B1 KR 101394339 B1 KR101394339 B1 KR 101394339B1 KR 1020120022647 A KR1020120022647 A KR 1020120022647A KR 20120022647 A KR20120022647 A KR 20120022647A KR 101394339 B1 KR101394339 B1 KR 101394339B1
Authority
KR
South Korea
Prior art keywords
seed
sequence
nucleotide sequence
length
extracted
Prior art date
Application number
KR1020120022647A
Other languages
English (en)
Other versions
KR20130101711A (ko
Inventor
박민서
Original Assignee
삼성에스디에스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사 filed Critical 삼성에스디에스 주식회사
Priority to KR1020120022647A priority Critical patent/KR101394339B1/ko
Priority to EP12187721.1A priority patent/EP2639724A3/en
Priority to JP2012227078A priority patent/JP5781486B2/ja
Priority to US13/728,116 priority patent/US9348968B2/en
Priority to CN201310009347.8A priority patent/CN103310128B/zh
Publication of KR20130101711A publication Critical patent/KR20130101711A/ko
Application granted granted Critical
Publication of KR101394339B1 publication Critical patent/KR101394339B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass

Abstract

시드의 길이를 고려한 염기 서열 처리 시스템 및 방법이 개시된다. 본 발명의 일 실시예에 따른 염기 서열 처리 시스템은, 본 발명의 일 실시예에 따른 염기 서열 처리 시스템은, 대상 염기 서열로부터 시드(seed)를 추출하는 시드 추출부; 및 상기 시드 추출부에서 추출되는 상기 시드를 인덱싱하는 인덱스 생성부를 포함하며, 추출되는 상기 시드의 길이는 상기 대상 염기 서열에서 추출되는 시드 중 동일한 서열을 가지는 시드의 빈도를 고려하여 설정되도록 구성된다.

Description

시드의 길이를 고려한 염기 서열 처리 시스템 및 방법{SYSTEM AND METHOD FOR PROCESSING GENOME SEQUENCE IN CONSIDERATION OF SEED LENGTH}
본 발명의 실시예들은 유전체의 염기 서열을 분석하기 위한 기술과 관련된다.
차세대 시퀀싱 기술(next-generation sequencing; NGS)의 출현과 DNA 시퀀싱(sequencing; 염기서열 해독)의 비용 감소로 인해 의학 유전학(medical genetics)과 집단 유전학(population genetics) 연구를 위해 대규모로 인간 유전체 염기서열을 생산하는 것이 가능하게 되었다. 염기 서열 분석을 위해 사용되는 NGS 시퀀서는 길이는 매우 짧지만 수십억 개의 단편서열(리드; read)을 생산할 수 있다. 각 개인의 유전체 서열은 생산된 리드들이 대상 염기 서열의 어느 곳에 위치하는지를 결정하는 리시퀀싱(Resequencing; Indexing, Mapping, and Alignment) 작업을 통하여 만들어진다.
초기의 유전체 분석 시스템은 주로 분석의 정확도를 염두에 두고 개발되었다. 그러나 최근 들어 차세대 시퀀싱 기술이 일반화됨에 따라 분석의 기초가 되는 리드(단편 서열)를 만들어 내는 비용이 예전에 비해 대폭 감소하면서 분석시 사용 가능한 데이터의 양이 증가하였으며, 이에 따라 대용량의 리드들을 빠른 시간 내에 정확하게 처리하기 위한 기술이 필요하게 되었다.
본 발명의 실시예들은 유전체 염기 서열 분석에 있어 분석 속도 및 정확성을 향상하기 위한 염기 서열 처리 시스템 및 방법을 제공하기 위한 것이다.
본 발명의 일 실시예에 따른 염기 서열 처리 시스템은, 대상 염기 서열로부터 시드(seed)를 추출하는 시드 추출부; 및 상기 시드 추출부에서 추출되는 상기 시드를 인덱싱하는 인덱스 생성부를 포함하며, 추출되는 상기 시드의 길이는 상기 대상 염기 서열에서 추출되는 시드 중 동일한 서열을 가지는 시드의 빈도를 고려하여 정해지도록 구성된다.
또한, 본 발명의 일 실시예에 따른 염기 서열 처리 방법은, 염기 서열 처리 시스템에서, 상기 대상 염기 서열로부터 시드(seed)를 추출하는 단계; 및 상기 염기 서열 처리 시스템에서, 추출된 상기 시드를 인덱싱하는 단계를 포함하며, 상기 시드의 길이는 상기 대상 염기 서열에서 추출되는 시드 중 동일한 서열을 가지는 시드의 빈도를 고려하여 정해지도록 구성된다.
또한, 본 발명의 일 실시예에 따른 염기 서열 처리 방법은, 염기 서열 처리 시스템에서, 상기 대상 염기 서열로부터 시드(seed)를 추출하는 단계를 포함하며, 상기 시드의 길이는 상기 대상 염기 서열에서 추출되는 시드 중 동일한 서열을 가지는 시드의 빈도를 고려하여 설정되도록 구성된다.
본 발명의 실시예들에 따를 경우, 염기 서열 처리 시 추출되는 시드의 길이를 적절하게 조절함으로써 유전체 염기 서열 분석의 속도 및 정확성을 향상시킬 수 있는 장점이 있다.
도 1은 염기 서열로부터 시드를 추출하는 과정을 예시한 도면이다.
도 2는 유전체 염기 서열 분석(genome sequencing) 과정을 설명하기 위한 순서도이다.
도 3은 유전체 염기 서열 분석에 있어, 리드의 맵핑 과정을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 염기 서열 처리 시스템의 블록 구성도이다.
도 5는 시드 길이에 따른 인간 유전체 내에서의 시드의 평균 등장 빈도를 나타낸 그래프이다.
도 6은 본 발명의 일 실시예에 따른 염기 서열 처리 방법을 도시한 순서도이다.
이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.
본 발명을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
본 발명의 기술적 사상은 청구범위에 의해 결정되며, 이하의 실시예는 본 발명의 기술적 사상을 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 효율적으로 설명하기 위한 일 수단일 뿐이다.
본 발명의 실시예들을 상세히 설명하기 앞서, 먼저 본 발명에서 사용되는 용어들에 대하여 설명하면 다음과 같다.
먼저, "리드(read)"란 게놈 시퀀서(genome sequencer)에서 출력되는 염기서열의 단편(fragment)이다. 리드의 길이는 게놈 시퀀서의 종류에 따라 일반적으로 35~500bp(base pair) 정도로 다양하게 구성되며, 일반적으로 DNA 염기의 경우 A, C, G, T의 알파벳 문자로 표현된다.
"대상 염기 서열"이란 상기 리드들로부터 전체 염기 서열을 생성하는 데 참조가 되는 염기 서열을 의미한다. 즉, 염기 서열 분석에서는 게놈 시퀀서에서 출력되는 다량의 리드들을 대상 염기 서열을 참조하여 맵핑함으로써 전체 염기 서열을 완성하게 된다. 본 발명에서 상기 대상 염기 서열은 염기 서열 분석 시 미리 설정된 서열(예를 들어 인간의 전체 염기 서열 등)일 수도 있으며, 또는 게놈 시퀀서에서 만들어진 염기 서열을 대상 염기 서열로 사용할 수도 있다.
"베이스(base)"는 대상 염기 서열 및 리드를 구성하는 최소 단위이다. 전술한 바와 같이 DNA 염기의 경우 A, C, G 및 T의 네 종류의 알파벳 문자로 구성될 수 있으며, 이들 각각을 베이스라 표현한다. 다시 말해 DNA 염기의 경우 4개의 베이스로 표현되며, 이는 리드 또한 마찬가지이다. 다만, 대상 염기 서열의 경우 다양한 이유(시퀀싱 오류, 샘플의 오류 등)로 인해 특정 위치의 염기가 A, C, G 또는 T 중 어떠한 베이스로 표현하여야 할지 불분명한 경우가 발생할 수 있으며, 통상 이러한 불분명한 베이스의 경우 N 등의 별도의 문자로 표기한다.
"시드(seed)"는 리드의 맵핑을 위하여 리드와 대상 염기 서열을 비교할 때의 단위가 되는 시퀀스이다. 이론적으로 리드를 대상 염기 서열에 맵핑하기 위해서는 리드 전체를 대상 염기 서열의 가장 첫 부분부터 순차적으로 비교해 나가면서 리드의 맵핑 위치를 계산하여야 한다. 그러나 이와 같은 방법의 경우 하나의 리드를 맵핑하는 데 너무 많은 시간 및 컴퓨팅 파워가 요구되므로, 실제로는 대상 염기 서열의 처음부터 한 베이스씩 이동하면서 대상 염기 서열을 설정된 길이만큼 읽어 들인 후 이를 해싱(hashing)하여 해시 테이블(hash table)을 구축하고, 이를 이용하여 리드의 맵핑 위치를 계산한다. 이때 상기 해싱을 위한 대상 염기 서열의 단편이 시드가 된다. 다만, 때에 따라 리드의 단편이 시드가 될 수도 있다. 일반적으로 시드의 길이는 리드의 길이보다 짧도록 구성되며, 이는 대상 염기 서열의 길이, 구축되는 해시 테이블의 용량 등을 고려하여 적절하게 정해질 수 있다.
도 1은 대상 염기 서열로부터 시드를 추출하는 과정을 예시한 것으로, 대상 염기 서열의 첫 부분부터 한 베이스씩 이동하면서 10bp 길이만큼 대상 염기 서열의 값을 읽어 들여 시드를 추출하는 과정을 나타낸 것이다. 추출된 각각의 시드들은 모두 동일한 길이(도시된 실시예의 경우 10bp)를 가지며 그 값은 시드가 추출된 대상 염기 서열의 위치에 따라 달라지게 된다. 도시된 실시예에서, 추출된 첫 번째 시드는 대상 염기 서열의 첫 번째부터 열 번째까지의 값 즉,
G T G G C A A T T A
의 값을 가지며, 세 번째 시드는 대상 염기 서열의 세 번째부터 열 두 번째까지의 값 즉,
G G C A A T T A A A
의 값을 가진다.
도 2는 유전체 염기 서열 분석(genome sequencing) 과정(200)을 설명하기 위한 순서도이다. 기본적으로, 유전체 염기 서열 분석은 시퀀서에서 출력되는 대량의 짧은 리드를 대상 염기 서열에 맵핑시켜 전체 유전체 서열을 얻어내기 위한 과정이다.
먼저, 대상 염기 서열로부터 시드를 추출한다(202). 도 1에서 도시한 바와 같이, 본 단계에서는 대상 염기 서열의 첫 부분부터 한 베이스씩 순차적으로 이동하면서 설정된 길이만큼 상기 대상 염기 서열의 값을 읽어 들여 복수 개의 시드를 추출하게 된다.
다음으로, 202단계에서 추출된 시드들을 해시 함수(hash function)를 이용하여 해싱하고, 이로부터 해시 테이블을 구성한다(204). 이때 상기 해시 테이블의 키(key)는 시드로부터 생성된 해시값, 값(value)은 해당 시드의 대상 염기 서열에서의 위치 정보(예를 들어 포인터)로 구성될 수 있다.
다음으로, 시퀀서로부터 입력된 유전자에 대한 복수 개의 리드를 추출하고(206). 상기 해시 테이블을 이용하여 추출된 리드들을 대상 염기 서열에 맵핑한다(208).
도 3은 상술한 바와 같은 리드의 대상 염기 서열에의 맵핑 과정을 설명하기 위한 도면이다. 먼저, 206단계에서 추출된 리드의 앞 부분을 시드 길이만큼 읽어 들인 후(도시된 실시예에서는 리드의 앞 부분을 시드로 설정하였지만, 실제로 시드는 리드의 어느 부분이든 설정할 수 있다. 다만, 리드의 앞부분의 정확도(quality)가 일반적으로 높기 때문에, 주로 리드의 앞 부분을 시드로 사용하게 된다), 해시 테이블을 검색하여 해당 시드에 대응되는 대상 염기 서열 내 위치 정보를 추출한다. 이 경우 시드의 길이에 따라 다르나 통상 하나 이상의 위치 정보가 도출된다(도면에서는 L1 및 L2의 2개의 위치 정보가 추출됨). 이후, 도출된 위치 각각에서 리드의 나머지 부분을 대상 염기 서열과 대조하여 리드의 정확한 맵핑 위치를 결정한다. 도시된 실시예의 경우 2개의 후보 위치 중 L1에서는 리드가 대상 염기 서열에 대응(일치)되지 않으나, L2에서는 대응되는 것으로 판단되는 바, 최종적으로 리드는 L2 위치에 맵핑된다.
마지막으로, 상기와 같은 과정을 거쳐 맵핑된 각 리드들을 연결함으로써 하나의 염기 서열이 완성된다(210).
도 4는 본 발명의 일 실시예에 따른 염기 서열 처리 시스템(400)의 블록 구성도이다. 본 발명의 실시예에서, 염기 서열 처리 시스템(400)은 별도의 시스템으로 구성되거나 또는 염기 서열 분석을 위한 시스템 내의 일 요소로 포함될 수도 있다.
도시된 바와 같이, 본 발명의 일 실시예에 따른 염기 서열 처리 시스템(400)은 시드 추출부(402) 및 인덱스 생성부(404)를 포함한다.
시드 추출부(402)는 대상 염기 서열로부터 시드(seed)를 추출한다. 이때, 상기 대상 염기 서열은 예를 들어 염기 서열 분석을 위한 전체 염기 서열, 즉 참조 서열(reference sequence)일 수 있다. 그러나 본 발명의 대상 염기 서열은 이에 한정되는 것은 아니며, 예를 들어 시퀀서에서 추출되는 리드(read) 또한 본 발명에서의 대상 염기 서열이 될 수 있다. 즉, 본 발명에서 대상 염기 서열은 시드를 추출하기 위한 기초가 되는 어떠한 종류의 염기 서열 또한 포함됨을 유의한다.
시드 추출부(402)는 상기 대상 염기 서열의 첫 부분부터 한 베이스씩 순차적으로 이동하면서 설정된 길이만큼 상기 대상 염기 서열의 값을 읽어 들여 복수 개의 시드를 추출하도록 구성될 수 있다. 이때, 추출되는 상기 시드의 길이는 상기 대상 염기 서열에서 추출되는 전체 시드들 중 동일한 서열을 가지는 시드의 빈도를 고려하여 정해지며, 이에 대한 상세한 설명은 후술하기로 한다.
인덱스 생성부(404)는 시드 추출부(402)에서 추출되는 상기 시드를 인덱싱한다. 구체적으로 인덱스 생성부(404)는 시드 추출부(402)에서 추출된 시드를 해시 함수를 이용하여 해싱(hashing)하고, 해싱된 시드를 키(key)로 하는 해시 테이블을 생성함으로서 상기 시드를 인덱싱하도록 구성된다.
이하에서는 시드 추출부(402)에서 추출되는 시드의 길이를 결정하는 과정에 대해 설명한다.
염기 서열 분석에서 생성되는 염기 서열의 정확도를 높이기 위해서는 시퀀서로부터 산출되는 리드들이 대상 염기 서열 상에 고르게 분포되어야 한다. 이를 위해서는 시드의 중복(동일한 서열을 가지는 시드의 개수)를 줄일 필요가 있다. 예를 들어, 다음과 같은 형태의 대상 염기 서열을 가정하자.
ACTCTGGTGCATACCTCCTGGCTGGACTCTGG
상기 대상 염기 서열에서 길이가 6인 시드를 추출할 경우에는 ACTCTG, CTCTGG가 각각 2번씩 중복되나, 시드의 길이를 3으로 할 경우에는 그 서열이 TGC인 시드가 5번 반복된다. 즉, 시드의 길이가 줄어들수록 시드의 중복이 늘어나며 이에 따라 리드의 맵핑 후보 위치 또한 증가하게 된다. 예를 들어 시드의 길이가 3인 상기 예에서 추출된 리드의 앞 부분이 TGC로 시작하는 경우, 해당 리드는 총 5개의 후보 위치에서 비교를 수행하여야 하므로 그만큼 맵핑 시간이 증가하고 맵핑의 정확도가 감소하게 된다.
시드의 길이를 S, 대상 염기 서열을 구성하는 베이스의 개수를 B라 할 때, 시드의 길이에 따라 생성 가능한 시드의 가짓수는 다음의 수학식과 같이 정해진다.
[수학식 1]
Figure 112012018051057-pat00001

상기 수학식에서, 만약 대상 염기 서열이 A, C, G, T의 4개의 염기로 구성된 경우 B 값은 4가 되며, 불분명한 베이스(N)를 추가로 포함하는 경우 B 값은 5가 된다.
시드를 추출하기 위한 전체 대상 염기 서열의 길이를 R이라 하면(예를 들어 인간(human)의 염기 서열을 대상 염기 서열로 할 경우 R은 약 3*109), 대상 염기 서열 전체에서 동일한 서열을 가지는 시드의 개수(중복되는 시드의 개수)는 평균적으로 다음과 같이 정해질 수 있다.
[수학식 2]
Figure 112012018051057-pat00002

표 1은 인간 유전체에서의 시드 길이 별 중복되는 시드의 개수의 평균을 나타낸 것이다.
시드 길이 13 14 15 16
중복되는 시드의 개수 44.70 11.18 2.79 0.70
만약 상기 대상 염기 서열로부터 추출되는 시드 중 중복되는 시드의 개수의 목표값(또는 설정값)을 k라고 가정하면, k는 다음과 같은 수식을 만족하여야 한다. 다시 말해 중복되는 시드의 개수의 평균값이 상기 목표값 이내이어야 한다.
[수학식 3]
Figure 112012018051057-pat00003

이를 정리하여 보면, 시드의 길이는 다음의 수학식과 같이 표현된다.
[수학식 4]
Figure 112012018051057-pat00004

상기 수학식에서, k 값은 3 이하, 바람직하게는 2 또는 3인 것이 바람직하다. 전술한 바와 같이, k 값이 적을수록(즉, 시드의 중복 수가 적을수록) 리드의 맵핑 시 맵핑 후보 위치의 개수가 적어지므로 맵핑의 속도 및 정확도가 상승한다. 다만, k 값에 따라 시드의 길이가 지나치게 적어질 경우에는 시드와 완전히 일치하지 않는 리드가 존재하여 맵핑이 불가능하거나 해시 테이블의 용량이 지나치게 커지는 등의 문제가 발생할 수 있으므로 이를 고려하여 적절히 k 값을 정할 수 있다.
한편, 상기 대상 염기 서열이 인간(human)의 유전체 서열일 경우, 상기 수학식 4에 따를 때 시드의 길이(S)는 15 이상이 되도록 정해질 수 있다. 다음의 표 2는 시드 길이에 따른 인간 유전체 내에서의 시드의 평균 등장 빈도를 나타낸 것이고, 도 5는 이를 그래프로 도시한 것이다.
시드의 길이 평균 등장 빈도
10 2,726.1919
11 681.9731
12 170.9185
13 42.7099
14 10.6470
15 2.6617
16 0.6654
17 0.1664
상기 표에서 알 수 있는 바와 같이, 시드의 길이가 14 이하일 경우에는 시드 별 빈도가 10 이상이나, 15일 경우에는 3 이하로 감소하는 것을 알 수 있다. 즉, 시드의 길이를 15 이상으로 구성할 경우 14 이하로 구성할 경우에 비해 시드의 중복을 대폭 감소시킬 수 있다.
또한, 상기 시드의 길이는 인덱스 생성부(404)에서 생성되는 인덱스의 용량 및 염기 서열 처리 시스템(100)에 포함된 메모리 용량을 고려해서도 정해질 수 있다. 상기 시드의 길이가 길어질수록 이로부터 생성되는 해시 테이블의 용량 또한 증가하게 되며, 이에 따라 해시 테이블의 용량이 염기 서열 처리 시스템(100)에 포함된 메모리 용량을 초과하는 경우가 발생할 수 있다. 따라서 시드의 길이를 결정함에 있어서는 이와 같은 사항을 함께 고려하는 것이 바람직하다. 예를 들어 상기 대상 염기 서열이 인간(human)의 유전체 서열일 경우, 인덱스의 용량 및 메모리 용량(예를 들어 단일 노드의 메모리 용량) 등을 고려한 상기 시드의 길이는 30 이하가 되도록 정해질 수 있다.
도 6은 본 발명의 일 실시예에 따른 대상 서열 처리 방법(600)을 나타낸 순서도이다.
먼저, 대상 염기 서열로부터 시드(seed)를 추출한다(602). 전술한 바와 같이, 본 단계는 대상 서열의 첫 부분부터 한 베이스씩 순차적으로 이동하면서 설정된 길이만큼 상기 대상 염기 서열의 값을 읽어 들여 복수 개의 시드를 추출하도록 구성되며, 추출되는 상기 시드의 길이는 상기 대상 염기 서열에서 추출되는 전체 시드들 중 동일한 서열을 가지는 시드의 빈도를 고려하여 정해진다. 상기 시드의 길이와 관련된 사항은 앞에서 상세히 설명하였으므로 여기서는 반복되는 설명을 생략하기로 한다.
다음으로, 상기 602 단계에서 추출되는 상기 시드를 인덱싱한다(604). 구체적으로 본 단계는 추출된 상기 시드를 해시 함수를 이용하여 해싱(hashing)하고, 해싱된 시드를 키(key)로 하는 해시 테이블을 생성함으로서 상기 시드를 인덱싱하게 된다.
한편, 본 발명의 실시예는 본 명세서에서 기술한 방법들을 컴퓨터상에서 수행하기 위한 프로그램을 포함하는 컴퓨터 판독 가능 기록매체를 포함할 수 있다. 상기 컴퓨터 판독 가능 기록매체는 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야에서 통상의 지식을 가진 자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광 기록 매체, 플로피 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
이상에서 대표적인 실시예를 통하여 본 발명에 대하여 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다.
그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
400: 염기 서열 처리 시스템
402: 시드 추출부
404: 인덱스 생성부

Claims (17)

  1. 대상 염기 서열로부터 시드(seed)를 추출하는 시드 추출부; 및
    상기 시드 추출부에서 추출되는 상기 시드를 인덱싱하는 인덱스 생성부를 포함하며,
    추출되는 상기 시드의 길이는 상기 대상 염기 서열에서 추출되는 시드 중 동일한 서열을 가지는 시드의 빈도를 고려하여 설정되는 염기 서열 처리 시스템.
  2. 청구항 1에 있어서,
    추출되는 상기 시드의 길이는 상기 대상 염기 서열에서 추출되는 시드 중 동일한 서열을 가지는 시드의 빈도가 설정된 값 이하가 되도록 정해지는, 염기 서열 처리 시스템.
  3. 청구항 1에 있어서,
    상기 시드의 길이는 다음의 수학식
    Figure 112012018051057-pat00005

    (이때, S는 시드의 길이, R은 대상 염기 서열의 길이, B는 상기 대상 염기 서열을 구성하는 베이스(base)의 개수, k는 상기 대상 염기 서열로부터 추출되는 시드 중 동일한 서열을 가지는 시드의 빈도수 설정값)
    에 따라 정해지는, 염기 서열 처리 시스템.
  4. 청구항 3에 있어서,
    상기 동일한 서열을 가지는 시드의 빈도수 설정값(k)은 3 이하로 설정되는, 염기 서열 처리 시스템.
  5. 청구항 1에 있어서,
    상기 대상 염기 서열이 인간(human)의 유전체 서열일 경우, 상기 시드의 길이는 15 이상이 되도록 정해지는, 염기 서열 처리 시스템.
  6. 청구항 1에 있어서,
    상기 시드의 길이는 상기 인덱스 생성부에서 생성되는 인덱스의 용량 및 상기 염기 서열 처리 시스템에 포함된 메모리 용량을 초과하지 않도록 정해지는, 염기 서열 처리 시스템.
  7. 청구항 1에 있어서,
    상기 대상 염기 서열이 인간(human)의 유전체 서열일 경우, 상기 시드의 길이는 30 이하가 되도록 정해지는, 염기 서열 처리 시스템.
  8. 청구항 1 내지 7 중 어느 한 항에 기재된 염기 서열 처리 시스템을 포함하는 유전체 분석 시스템.
  9. 염기 서열 처리 시스템에서, 대상 염기 서열로부터 시드(seed)를 추출하는 단계; 및
    상기 염기 서열 처리 시스템에서, 추출된 상기 시드를 인덱싱하는 단계를 포함하며,
    상기 시드의 길이는 상기 대상 염기 서열에서 추출되는 시드 중 동일한 서열을 가지는 시드의 빈도를 고려하여 설정되는 염기 서열 처리 방법.
  10. 청구항 9에 있어서,
    상기 시드를 추출하는 단계에서 추출되는 상기 시드의 길이는 상기 대상 염기 서열에서 추출되는 시드 중 동일한 서열을 가지는 시드의 빈도가 설정된 값 이하가 되도록 정해지는, 염기 서열 처리 방법.
  11. 청구항 9에 있어서,
    상기 시드의 길이는 다음의 수학식
    Figure 112012018051057-pat00006

    (이때, S는 시드의 길이, R은 대상 염기 서열의 길이, B는 상기 대상 염기 서열을 구성하는 베이스(base)의 개수, k는 상기 대상 염기 서열로부터 추출되는 시드 중 동일한 서열을 가지는 시드의 빈도수 설정값)
    에 따라 정해지는, 염기 서열 처리 방법.
  12. 청구항 11에 있어서,
    상기 동일한 서열을 가지는 시드의 빈도수 설정값(k)은 3 이하로 설정되는, 염기 서열 처리 방법.
  13. 청구항 9에 있어서,
    상기 대상 염기 서열이 인간(human)의 유전체 서열일 경우, 상기 시드의 길이는 15 이상이 되도록 정해지는, 염기 서열 처리 방법.
  14. 청구항 9에 있어서,
    상기 시드의 길이는 상기 인덱싱하는 단계에서 생성되는 인덱스의 용량 및 상기 염기 서열 처리 시스템에 포함된 메모리 용량을 초과하지 않도록 정해지는, 염기 서열 처리 방법.
  15. 청구항 9에 있어서,
    상기 대상 염기 서열이 인간(human)의 유전체 서열일 경우, 상기 시드의 길이는 30 이하가 되도록 정해지는, 염기 서열 처리 방법.
  16. 염기 서열 처리 시스템에서, 대상 염기 서열로부터 시드(seed)를 추출하는 단계를 포함하며,
    상기 시드의 길이는 상기 대상 염기 서열에서 추출되는 시드 중 동일한 서열을 가지는 시드의 빈도를 고려하여 설정되는 염기 서열 처리 방법.
  17. 청구항 16에 있어서,
    상기 대상 염기 서열이 인간(human)의 유전체 서열일 경우, 상기 시드의 길이는 15 이상이 되도록 정해지는, 염기 서열 처리 방법.
KR1020120022647A 2012-03-06 2012-03-06 시드의 길이를 고려한 염기 서열 처리 시스템 및 방법 KR101394339B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020120022647A KR101394339B1 (ko) 2012-03-06 2012-03-06 시드의 길이를 고려한 염기 서열 처리 시스템 및 방법
EP12187721.1A EP2639724A3 (en) 2012-03-06 2012-10-09 System and method for processing genome sequence in consideration of seed length
JP2012227078A JP5781486B2 (ja) 2012-03-06 2012-10-12 シードの長さを考慮した塩基配列処理システム及び方法
US13/728,116 US9348968B2 (en) 2012-03-06 2012-12-27 System and method for processing genome sequence in consideration of seed length
CN201310009347.8A CN103310128B (zh) 2012-03-06 2013-01-10 考虑种子片段的长度的碱基序列处理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120022647A KR101394339B1 (ko) 2012-03-06 2012-03-06 시드의 길이를 고려한 염기 서열 처리 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20130101711A KR20130101711A (ko) 2013-09-16
KR101394339B1 true KR101394339B1 (ko) 2014-05-13

Family

ID=47520665

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120022647A KR101394339B1 (ko) 2012-03-06 2012-03-06 시드의 길이를 고려한 염기 서열 처리 시스템 및 방법

Country Status (5)

Country Link
US (1) US9348968B2 (ko)
EP (1) EP2639724A3 (ko)
JP (1) JP5781486B2 (ko)
KR (1) KR101394339B1 (ko)
CN (1) CN103310128B (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL2013120B1 (en) * 2014-07-03 2016-09-20 Genalice B V A method for finding associated positions of bases of a read on a reference genome.
WO2018068014A1 (en) * 2016-10-07 2018-04-12 Illumina, Inc. System and method for secondary analysis of nucleotide sequencing data
KR102377810B1 (ko) * 2020-03-11 2022-03-23 한국전자통신연구원 유전체 서열 정렬 방법 및 그 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4944009A (en) * 1988-02-25 1990-07-24 Massachusetts Institute Of Technology Pseudo-random sequence generator

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1309722A (zh) * 1998-05-12 2001-08-22 罗斯塔英法美蒂克斯公司 定量分析基因表达的方法、系统及设备
WO2001062965A2 (en) * 2000-02-22 2001-08-30 Oxford Biomedica (Uk) Limited Differential expression screening method
WO2011137368A2 (en) * 2010-04-30 2011-11-03 Life Technologies Corporation Systems and methods for analyzing nucleic acid sequences
KR101372947B1 (ko) 2012-02-24 2014-03-13 삼성에스디에스 주식회사 염기 서열 분석을 위한 참조 서열 처리 시스템 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4944009A (en) * 1988-02-25 1990-07-24 Massachusetts Institute Of Technology Pseudo-random sequence generator

Also Published As

Publication number Publication date
CN103310128A (zh) 2013-09-18
US20130238250A1 (en) 2013-09-12
EP2639724A3 (en) 2014-03-26
EP2639724A2 (en) 2013-09-18
US9348968B2 (en) 2016-05-24
CN103310128B (zh) 2016-08-24
JP2013183737A (ja) 2013-09-19
KR20130101711A (ko) 2013-09-16
JP5781486B2 (ja) 2015-09-24

Similar Documents

Publication Publication Date Title
US10600217B2 (en) Methods for the graphical representation of genomic sequence data
JP5985040B2 (ja) データ解析装置、及びその方法
US10319465B2 (en) Systems and methods for aligning sequences to graph references
KR101508816B1 (ko) 염기 서열 정렬 시스템 및 방법
CN110692101A (zh) 用于比对靶向的核酸测序数据的方法
KR101372947B1 (ko) 염기 서열 분석을 위한 참조 서열 처리 시스템 및 방법
Dutta et al. Parameterized syncmer schemes improve long-read mapping
KR101394339B1 (ko) 시드의 길이를 고려한 염기 서열 처리 시스템 및 방법
KR101508817B1 (ko) 염기 서열 정렬 시스템 및 방법
KR101480897B1 (ko) 염기 서열 정렬 시스템 및 방법
KR101584857B1 (ko) 염기 서열 정렬 시스템 및 방법
KR101538852B1 (ko) 정확도를 고려한 염기 서열 정렬 장치 및 방법
KR101525303B1 (ko) 염기 서열 정렬 시스템 및 방법
CN110476215A (zh) 用于多序列文件的签名-散列
NL2013120B1 (en) A method for finding associated positions of bases of a read on a reference genome.
KR101482010B1 (ko) 전체 유전체 서열분석을 위한 초고속 범용 검색장치 및 방법
KR101482011B1 (ko) 염기 서열 정렬 시스템 및 방법
KR101576794B1 (ko) 리드 길이를 고려한 염기 서열 정렬 시스템 및 방법
KR101600660B1 (ko) 리드의 퀄리티를 고려한 염기 서열 처리 시스템 및 방법
KR20150137373A (ko) 유전체 분석 장치 및 방법
JP2005190248A (ja) 配列探索システムおよび探索プログラム
da Silva Lopes et al. Research Article ProGeRF: Proteome and Genome Repeat Finder Utilizing a Fast Parallel Hash Function

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170309

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee