KR101372947B1 - 염기 서열 분석을 위한 참조 서열 처리 시스템 및 방법 - Google Patents

염기 서열 분석을 위한 참조 서열 처리 시스템 및 방법 Download PDF

Info

Publication number
KR101372947B1
KR101372947B1 KR1020120019090A KR20120019090A KR101372947B1 KR 101372947 B1 KR101372947 B1 KR 101372947B1 KR 1020120019090 A KR1020120019090 A KR 1020120019090A KR 20120019090 A KR20120019090 A KR 20120019090A KR 101372947 B1 KR101372947 B1 KR 101372947B1
Authority
KR
South Korea
Prior art keywords
seed
reference sequence
base
read
mapped
Prior art date
Application number
KR1020120019090A
Other languages
English (en)
Other versions
KR20130097440A (ko
Inventor
박민서
김판규
전호상
Original Assignee
삼성에스디에스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사 filed Critical 삼성에스디에스 주식회사
Priority to KR1020120019090A priority Critical patent/KR101372947B1/ko
Priority to EP12187722.9A priority patent/EP2631832A3/en
Priority to JP2012227089A priority patent/JP2013172709A/ja
Priority to US13/713,927 priority patent/US9323889B2/en
Priority to CN2013100090732A priority patent/CN103294932A/zh
Publication of KR20130097440A publication Critical patent/KR20130097440A/ko
Application granted granted Critical
Publication of KR101372947B1 publication Critical patent/KR101372947B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Organic Chemistry (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

염기 서열 분석을 위한 참조 서열 처리 시스템 및 방법이 개시된다. 본 발명의 일 실시예에 따른 참조 서열 처리 시스템은, 참조 서열(reference sequence)로부터 시드(seed)를 추출하는 시드 추출부; 상기 시드 추출부에서 추출된 상기 시드에 리드(read)와 맵핑되지 않는 베이스(base)가 존재하는지의 여부를 판단하는 판단부; 및 상기 시드에 상기 리드와 맵핑되지 않는 베이스가 존재하지 않는 경우 상기 시드를 인덱스에 추가하는 인덱스 생성부를 포함한다.

Description

염기 서열 분석을 위한 참조 서열 처리 시스템 및 방법{SYSTEM AND METHOD FOR PROCESSING REFERENCE SEQUENCE FOR ANALYZING GENOME SEQUENCE}
본 발명의 실시예들은 유전체의 염기 서열을 분석하기 위한 기술과 관련된다.
차세대 시퀀싱 기술(next-generation sequencing; NGS)의 출현과 DNA 시퀀싱(sequencing; 염기서열 해독)의 비용 감소로 인해 의학 유전학(medical genetics)과 집단 유전학(population genetics) 연구를 위해 대규모로 인간 유전체 염기서열을 생산하는 것이 가능하게 되었다. 염기 서열 분석을 위해 사용되는 NGS 시퀀서는 길이는 매우 짧지만 수십억 개의 단편서열(리드; read)을 생산할 수 있다. 각 개인의 유전체 서열은 생산된 리드들을 참조 서열의 어느 곳에 위치하는지 결정하는 리시퀀싱(Resequencing; Indexing, Mapping, and Alignment) 작업을 통하여 만들어진다.
염기 서열 분석 시, 리드들의 정확한 맵핑을 위하여 참조 서열이 반드시 필요하다. 그런데 이러한 참조 서열 중의 일부는 시퀀싱 에러, 실험 오류 등의 이유로 인해 A, C, G, T 중 어떠한 염기로 표현하여야 할 지 불분명한 경우가 있으며, 이 경우 통상 해당 위치를 N으로 표기한다. 이 경우, 종래의 염기 서열 분석 시스템들은 상기와 같은 불분명한 베이스를 처리하기 위하여 이를 A, C, G, T 중 임의로 선택된 염기인 것으로 가정하거나, 또는 확률적 방법론 등을 이용하여 불분명한 베이스를 처리하였다. 그러나 이와 같은 방법들의 경우 불분명한 베이스의 처리 루틴이 부가됨으로 인하여 염기 서열 분석 속도가 매우 느려지거나 또는 염기 서열 분석의 정확도가 떨어지는 문제점이 있었다.
본 발명의 실시예들은 염기 서열 분석의 정확도를 훼손하지 않는 동시에 고속 처리가 가능한 참조 서열 내의 불분명한 베이스의 처리 기술을 제공하기 위한 것이다.
본 발명의 일 실시예에 따른 참조 서열 처리 시스템은, 참조 서열(reference sequence)로부터 시드(seed)를 추출하는 시드 추출부; 상기 시드 추출부에서 추출된 상기 시드에 리드(read)와 맵핑되지 않는 베이스(base)가 존재하는지의 여부를 판단하는 판단부; 및 상기 시드에 상기 리드와 맵핑되지 않는 베이스가 존재하지 않는 경우 상기 시드를 인덱스에 추가하는 인덱스 생성부를 포함한다.
한편, 상기 과제를 해결하기 위한 본 발명의 일 실시예에 따른 참조 서열 처리 방법은, 참조 서열 처리 시스템에서, 참조 서열(reference sequence)로부터 시드(seed)를 추출하는 단계; 상기 참조 서열 처리 시스템에서, 추출된 상기 시드에 리드(read)와 맵핑되지 않는 베이스(base)가 존재하는지의 여부를 판단하는 단계; 및 상기 참조 서열 처리 시스템에서, 상기 시드에 상기 리드와 맵핑되지 않는 베이스가 존재하지 않는 경우 상기 시드를 인덱스에 추가하는 단계를 포함한다.
본 발명의 실시예들에 따를 경우 염기 서열 분석 시 참조 서열에서 불분명한 베이스를 처리하기 위한 알고리즘을 포함할 필요가 없게 되므로 염기 서열 분석 과정을 단순화하는 동시에 분석 시간을 대폭 단축할 수 있다.
또한 본 발명의 실시예들에 따를 경우 해시 테이블의 용량이 대폭 줄어들게 되므로, 더 적은 메모리를 이용하더라도 염기 서열 분석이 가능하게 되는 장점이 있다.
도 1은 참조 서열로부터 시드를 추출하는 과정을 예시한 도면이다.
도 2는 유전체 염기 서열 분석(genome sequencing) 과정을 설명하기 위한 순서도이다.
도 3은 유전체 염기 서열 분석에 있어, 리드와 참조 서열과의 맵핑 과정을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 참조 서열 처리 시스템의 블록 구성도이다.
도 5는 참조 서열과 리드와의 대비를 통하여 불분명한 베이스를 유추하는 과정을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 참조 서열 처리 방법을 도시한 순서도이다.
이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.
본 발명을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
본 발명의 기술적 사상은 청구범위에 의해 결정되며, 이하의 실시예는 본 발명의 기술적 사상을 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 효율적으로 설명하기 위한 일 수단일 뿐이다.
본 발명의 실시예들을 상세히 설명하기 앞서, 먼저 본 발명에서 사용되는 용어들에 대하여 설명하면 다음과 같다.
먼저, "리드(read)"란 게놈 시퀀서(genome sequencer)에서 출력되는 염기서열의 단편(fragment)이다. 리드의 길이는 게놈 시퀀서의 종류에 따라 일반적으로 35~500bp(base pair) 정도로 다양하게 구성되며, 일반적으로 DNA 염기의 경우 A, C, G, T의 알파벳 문자로 표현된다.
"참조 서열(reference sequence)"이란 상기 리드들로부터 전체 염기 서열을 생성하는 데 참조가 되는 염기 서열을 의미한다. 즉, 염기 서열 분석에서는 게놈 시퀀서에서 출력되는 다량의 리드들을 참조 서열을 참조하여 맵핑함으로써 전체 염기 서열을 완성하게 된다.
"베이스(base)"는 참조 서열 및 리드를 구성하는 최소 단위이다. 전술한 바와 같이 DNA 염기의 경우 A, C, G, T의 네 종류의 알파벳 문자로 구성될 수 있으며, 이들 각각을 베이스라 표현한다. 다시 말해 DNA 염기의 경우 4개의 베이스로 표현되며, 이는 리드 또한 마찬가지이다. 다만, 참조 서열의 경우 다양한 이유(시퀀싱 오류, 샘플의 오류 등)로 인해 특정 위치의 염기가 A, C, G 또는 T 중 어떠한 베이스로 표현하여야 할 지 불분명한 경우가 발생할 수 있으며, 통상 이러한 불분명한 베이스의 경우 N 등의 별도의 문자로 표기한다.
"시드(seed)"는 리드의 맵핑을 위하여 리드와 참조 서열을 비교할 때의 단위가 되는 시퀀스이다. 이론적으로 리드를 참조 서열에 맵핑하기 위해서는 리드 전체를 참조 서열의 가장 첫 부분부터 순차적으로 비교해 나가면서 리드의 맵핑 위치를 계산하여야 한다. 그러나 이와 같은 방법의 경우 하나의 리드를 맵핑하는 데 너무 많은 시간 및 컴퓨팅 파워가 요구되므로, 실제로는 참조 서열의 처음부터 한 베이스씩 이동하면서 참조 서열을 설정된 길이만큼 읽어 들인 후 이를 해싱(hashing)하여 해시 테이블을 구축하고, 이를 이용하여 리드의 맵핑 위치를 계산한다. 이때 상기 해싱을 위한 참조 서열의 단편이 시드가 된다. 일반적으로 시드의 길이는 리드의 길이보다 짧도록 구성되며, 이는 참조 서열의 길이, 구축되는 해시 테이블의 용량 등을 고려하여 적절하게 정해질 수 있다.
도 1은 상기와 같이 참조 서열로부터 시드를 추출하는 과정을 예시한 것으로, 참조 서열의 첫 부분부터 한 베이스씩 이동하면서 10bp 길이만큼 참조 서열의 값을 읽어 들여 시드를 추출하는 과정을 나타낸 것이다. 추출된 각각의 시드들은 모두 동일한 길이(도시된 실시예의 경우 10bp)를 가지며 그 값은 시드가 추출된 참조 서열의 위치에 따라 달라지게 된다. 도시된 실시예에서, 추출된 첫 번째 시드는 참조 서열의 첫 번째부터 열 번째까지의 값 즉,
G T G G C A A T T A
의 값을 가지며, 세 번째 시드는 참조 서열의 세 번째부터 열 두 번째까지의 값 즉,
G G C A A T T A A A
의 값을 가진다.
도 2는 유전체 염기 서열 분석(genome sequencing) 과정(200)을 설명하기 위한 순서도이다. 기본적으로, 유전체 염기 서열 분석은 시퀀서에서 출력되는 대량의 짧은 리드를 참조 서열에 맵핑시켜 전체 유전체 서열을 얻어내기 위한 과정이다.
먼저, 참조 서열로부터 시드를 추출한다(202). 도 1에서 도시한 바와 같이, 본 단계에서는 참조 서열의 첫 부분부터 한 베이스씩 순차적으로 이동하면서 설정된 길이만큼 상기 참조 서열의 값을 읽어 들여 복수 개의 시드를 추출하게 된다.
다음으로, 202단계에서 추출된 각 시드들을 해시 함수(hash function)를 이용하여 해싱하고, 이로부터 해시 테이블을 구성한다(204). 이때 상기 해시 테이블의 키(key)는 시드로부터 생성된 해시값, 값(value)은 해당 시드의 참조 서열에서의 위치 정보(예를 들어 포인터)로 구성될 수 있다.
다음으로, 시퀀서로부터 입력된 유전자에 대한 복수 개의 리드를 추출하고(206). 상기 해시 테이블을 이용하여 추출된 리드들을 참조 서열에 맵핑한다(208).
도 3은 상술한 바와 같은 리드의 참조 서열에의 맵핑 과정을 설명하기 위한 도면이다. 먼저, 206단계에서 추출된 리드의 앞 부분을 시드 길이만큼 읽어 들인 후(도시된 실시예에서는 리드의 앞 부분을 시드로 설정하였지만, 실제로 시드는 리드의 어느 부분이든 설정할 수 있다. 다만, 리드의 앞부분의 정확도(quality)가 일반적으로 높기 때문에, 주로 리드의 앞 부분을 시드로 사용한다), 해시 테이블을 검색하여 해당 시드에 대응되는 참조 서열 내 위치 정보를 추출한다. 이 경우 시드의 길이에 따라 다르나 통상 하나 이상의 위치 정보가 도출된다(도면에서는 L1 및 L2의 2개의 위치 정보가 추출됨). 이후, 도출된 위치 각각에서 리드의 나머지 부분을 참조 서열과 대조하여 리드의 정확한 맵핑 위치를 결정한다. 도시된 실시예의 경우 2개의 후보 위치 중 L1에서는 리드가 참조 서열에 대응(일치)되지 않으나, L2에서는 대응되는 것으로 판단되는 바, 최종적으로 리드는 L2 위치에 맵핑된다.
마지막으로, 상기와 같은 과정을 거쳐 맵핑된 각 리드들을 연결함으로써 하나의 염기 서열이 완성된다(210).
도 4는 본 발명의 일 실시예에 따른 참조 서열 처리 시스템(400)의 블록 구성도이다. 본 발명의 실시예에서, 참조 서열 처리 시스템(400)은 별도의 시스템으로 구성되거나 또는 염기 서열 분석을 위한 시스템을 구성하는 일 요소로 포함될 수도 있음에 유의한다.
도시된 바와 같이, 본 발명의 일 실시예에 따른 참조 서열 처리 시스템(400)은 시드 추출부(402), 판단부(404) 및 인덱스 생성부(406)를 포함한다.
시드 추출부(402)는 참조 서열(reference sequence)로부터 시드(seed)를 추출한다. 전술한 바와 같이, 시드 추출부(402)는 참조 서열의 첫 부분부터 한 베이스씩 순차적으로 이동하면서 설정된 길이만큼 상기 참조 서열의 값을 읽어 들여 복수 개의 시드를 추출하게 된다. 예를 들어, 참조 서열이 다음과 같이 구성될 경우를 가정하자.
A C C G T A A A T G N N N N G C C A G C T
만약 설정된 시드의 길이가 7bp일 경우, 상기 참조 서열로부터 생성되는 시드는 다음과 같다.
SEED 1: A C C G T A A
SEED 2: C C G T A A A
SEED 3: C G T A A A T
SEED 4: G T A A A T G
SEED 5: T A A A T G N
SEED 6: A A A T G N N
SEED 7: A A T G N N N
SEED 8: A T G N N N N
SEED 9: T G N N N N G
SEED 10: G N N N N G C
SEED 11: N N N N G C C
SEED 12: N N N G C C A
SEED 13: N N G C C A G
SEED 14: N G C C A G C
SEED 15: G C C A G C T
판단부(404)는 시드 추출부(402)에서 추출된 상기 시드에 리드(read)와 맵핑되지 않는 베이스(base)가 존재하는지의 여부를 판단한다.
전술한 바와 같이, 참조 서열의 경우 오류 등의 원인으로 인해 특정 위치의 염기가 A, C, G 또는 T 중 어떠한 베이스로 표현하여야 할 지 불분명한 경우가 발생할 수 있으며, 통상 이러한 불분명한 베이스의 경우 N 등의 별도의 문자로 표기된다. 따라서 판단부(404)는 상기 시드에 A, C, G 또는 T 이외의 문자로 표기된 베이스가 존재하는 경우 상기 시드에 상기 리드와 맵핑되지 않는 베이스가 존재하는 것으로 판단할 수 있다.
예를 들어, 참조 서열(및 이로부터 추출된 시드)에 불분명한 베이스가 N으로 표기된 경우, 판단부(404)는 상기 시드에 N으로 표기된 베이스가 존재하는지의 여부를 판단하고, 존재하는 경우 상기 시드에 상기 리드와 맵핑되지 않는 베이스가 존재하는 것으로 판단할 수 있다. 또한 만약 불분명한 베이스가 N 이외의 다른 문자 등으로 표기된 경우에는 해당 문자를 인식함으로써 리드와 맵핑되지 않는 베이스가 존재하는지를 판단하게 된다.
전술한 예의 경우, 참조 서열의 11번째 베이스부터 14번째 베이스까지가 불분명한 베이스로 기재(N)되어 있으며(아래에 밑줄로 표시), 이로부터 추출된 시드 중 5번째 시드부터 14번째 시드 또한 상기 불분명한 베이스를 포함하고 있다. 따라서 판단부(404)는 추출된 15개의 시드 중 5번째 시드부터 14번째 시드의 경우 리드(read)와 맵핑되지 않는 베이스(base)가 존재하는 것으로 판단하게 된다.
A C C G T A A A T G N N N N G C C A G C T
인덱스 생성부(406)는 판단부(404)에 의하여 리드와 맵핑되지 않는 베이스가 존재하는 것으로 판단된 시드를 제외하고, 리드와 맵핑되지 않는 베이스가 존재하지 않는 것으로 판단된 시드만을 인덱스에 추가한다. 구체적으로 인덱스 생성부(406)는 리드와 맵핑되지 않는 베이스가 존재하지 않는 것으로 판단된 시드의 경우 해당 시드를 해시 함수를 이용하여 해싱(hashing)하고, 해싱된 시드를 키(key)로 하는 해시 테이블을 생성한다. 전술한 예의 경우, 인덱스 생성부(406)는 추출된 15개의 시드 중 5번부터 14번까지의 시드를 제외하고 아래에 기재된 나머지 시드들에 대해서만 인덱싱을 수행하게 된다.
SEED 1: A C C G T A A
SEED 2: C C G T A A A
SEED 3: C G T A A A T
SEED 4: G T A A A T G
SEED 5 ~ 14: 인덱싱에서 제외
SEED 15: G C C A G C T
즉, 본 발명의 실시예에서는 참조 서열에서 불분명한 베이스를 포함하는 부분을 고려하지 않고 나머지 부분에 대해서만 시드를 추출하여 해시 테이블을 생성한다. 이와 같이 구성할 경우 염기 서열 분석 시 종래의 방법에 비해 정확성을 훼손하지 않으면서도 분석 속도를 대폭 향상시킬 수 있다.
본 발명의 실시예에서 상기와 같은 효과가 발생할 수 있는 근거는 다음과 같다. 먼저, 일반적으로 참조 서열에서 불분명한 베이스(통상 N으로 지칭)는 대부분 한 곳에 몰려 있으며 대략 전체의 5% 정보의 비율을 차지한다. 따라서 이를 배제하더라도 전체 염기 서열 분석의 정확도에는 큰 차이를 보이지 않는다. 다음의 표 1은 시드 길이(k)에 따른 참조 서열에서 N을 포함하는 시드의 총 개수를 계산한 것이다.
시드 길이(k) N을 포함하는 시드의 총 개수
10 222,409,329
11 222,409,622
12 222,409,915
13 222,410,208
14 222,410,501
15 222,410,794
16 222,411,087
17 222,411,380
상기 표에서 알 수 있는 바와 같이 시드 길이가 늘어나더라도 N을 포함하는 시드의 총 개수는 크게 변하지 않는다. 따라서 이를 볼 때 참조 서열에서 N은 대부분 한 곳에 집중되어 연속되어 있음을 알 수 있다.
또한, 이와 같이 불분명한 베이스가 포함된 시드를 배제하더라도 전체 염기 서열을 완성하는 데는 큰 문제가 되지 않는다. 예를 들어, 도 5와 같은 형태의 참조 서열을 가정하자. 만약 시드를 3bp로 가정할 경우, 도시된 리드는 참조 서열의 A T G 부분에 대응된다. 이 경우 참조 서열의 N N N N 부분은 리드와 대응이 불가능하나 이후의 G C C 부분이 일치하므로 참조 서열의 불분명한 베이스들은 리드와 대조하여 볼 때 C T C C인 것으로 유추할 수 있다. 즉, 참조 서열의 N 부분을 고려하지 않더라도 나머지 부분들의 대조를 통해 충분히 불분명한 영역에 대해서도 맵핑이 가능하다. 일반적으로 시퀀서에서는 하나의 유전자로부터 약 30회 이상의 반복을 통해 리드들을 추출하므로 추출된 리드들을 이용하여 상술한 방법을 반복 수행할 경우 매우 높은 정확도로 불분명한 참조 서열 부분까지 정확한 맵핑이 가능하게 된다.
한편, 시드의 길이가 15bp일 경우, 참조 서열에서 N을 A, C, G, T와 같은 별도의 캐릭터로 가정할 때의 해시 테이블의 레코드 수는 다음과 같다.
515=30,517,578,125
만약 본 발명의 실시예에서와 같이 참조 서열에서 N을 고려하지 않을 경우의 해시 테이블의 레코드 수는 다음과 같다.
415=1,073,741,824
즉, N을 고려하지 않을 경우 종래에 비해 해시 테이블의 레코드 수가 약 1/30으로 감소하는 것을 알 수 있다.
또한 N을 고려할 경우에는 5개의 글자가 되어 이를 표현하기 위해 최소 3개의 비트가 필요하다(22 < 5 < 23). 따라서 이 경우 해시 테이블의 용량은 다음과 같이 정해진다.
(515=30,517,578,125) * 3 bits
그러나 N을 고려하지 않을 경우에는 2개의 비트로 표현이 가능하므로(22 = 4), 해시 테이블의 용량은 다음과 같이 계산된다.
(415=1,073,741,824) * 2 bits
즉, 해시 테이블의 용량을 고려할 경우에는 종래에 비해 약 1/45 정도의 용량 감소 효과가 있음을 알 수 있다.
도 6은 본 발명의 일 실시예에 따른 참조 서열 처리 방법(600)을 도시한 순서도이다.
먼저, 참조 서열(reference sequence)로부터 시드(seed)를 추출하고(602), 추출된 상기 시드에 리드(read)와 맵핑되지 않는 베이스(base)가 존재하는지의 여부를 판단한다(604). 전술한 바와 같이, 상기 604 단계는 상기 시드에 A, C, G 또는 T 이외의 문자로 표기된 베이스가 존재하는 경우(예를 들어, N으로 표기된 베이스가 존재하는 경우), 리드와 맵핑되지 않는 베이스가 존재하는 것으로 판단할 수 있다.
만약 상기 판단 결과 상기 시드에 상기 리드와 맵핑되지 않는 베이스가 존재하는 경우 상기 시드는 인덱스 생성에서 제외된다. 즉, 불분명한 베이스를 포함하는 시드는 이후 맵핑시 고려되지 않는다. 이와 달리, 상기 판단 결과 상기 시드에 상기 리드와 맵핑되지 않는 베이스가 존재하지 않는 경우에는 상기 시드를 해시 테이블에 추가한다(606).
상기 602 단계 내지 606 단계는 상기 참조 서열의 첫 번째 서열부터 순차적으로 참조 서열의 마지막 부분에 도달할 때 까지 반복되며, 이와 같은 과정을 거쳐 염기 서열 분석을 위한 시드 인덱스가 생성된다.
한편, 본 발명의 실시예는 본 명세서에서 기술한 방법들을 컴퓨터상에서 수행하기 위한 프로그램을 포함하는 컴퓨터 판독 가능 기록매체를 포함할 수 있다. 상기 컴퓨터 판독 가능 기록매체는 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야에서 통상의 지식을 가진 자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광 기록 매체, 플로피 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
이상에서 대표적인 실시예를 통하여 본 발명에 대하여 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다.
그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
400: 참조 서열 처리 시스템
402: 시드 추출부
404: 판단부
406: 인덱스 생성부

Claims (8)

  1. 참조 서열(reference sequence)로부터 시드(seed)를 추출하는 시드 추출부;
    상기 시드 추출부에서 추출된 상기 시드에 리드(read)와 맵핑되지 않는 베이스(base)가 존재하는지의 여부를 판단하는 판단부; 및
    상기 시드에 상기 리드와 맵핑되지 않는 베이스가 존재하지 않는 경우 상기 시드를 인덱스에 추가하는 인덱스 생성부를 포함하는 참조 서열 처리 시스템.
  2. 청구항 1에 있어서,
    상기 판단부는 상기 시드에 A, C, G 또는 T 이외의 문자로 표기된 베이스가 존재하는지의 여부에 따라 상기 시드에 상기 리드와 맵핑되지 않는 베이스가 존재하는지의 여부를 판단하는, 참조 서열 처리 시스템.
  3. 청구항 1에 있어서,
    상기 판단부는 상기 시드에 N으로 표기된 베이스가 존재하는지의 여부에 따라 상기 시드에 상기 리드와 맵핑되지 않는 베이스가 존재하는지의 여부를 판단하는, 참조 서열 처리 시스템.
  4. 청구항 1 내지 3 중 어느 한 항에 기재된 참조 서열 처리 시스템을 포함하는 염기 서열 분석 시스템.
  5. 참조 서열 처리 시스템에서, 참조 서열(reference sequence)로부터 시드(seed)를 추출하는 단계;
    상기 참조 서열 처리 시스템에서, 추출된 상기 시드에 리드(read)와 맵핑되지 않는 베이스(base)가 존재하는지의 여부를 판단하는 단계; 및
    상기 참조 서열 처리 시스템에서, 상기 시드에 상기 리드와 맵핑되지 않는 베이스가 존재하지 않는 경우 상기 시드를 인덱스에 추가하는 단계를 포함하는 참조 서열 처리 방법.
  6. 청구항 5에 있어서,
    상기 판단 단계는, 상기 시드에 A, C, G 또는 T 이외의 문자로 표기된 베이스가 존재하는지의 여부에 따라 상기 시드에 상기 리드와 맵핑되지 않는 베이스가 존재하는지의 여부를 판단하는, 참조 서열 처리 방법.
  7. 청구항 5에 있어서,
    상기 판단 단계는, 상기 시드에 N으로 표기된 베이스가 존재하는지의 여부에 따라 상기 시드에 상기 리드와 맵핑되지 않는 베이스가 존재하는지의 여부를 판단하는, 참조 서열 처리 방법.
  8. 청구항 5 내지 7 중 어느 한 항에 기재된 방법을 컴퓨터상에서 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020120019090A 2012-02-24 2012-02-24 염기 서열 분석을 위한 참조 서열 처리 시스템 및 방법 KR101372947B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020120019090A KR101372947B1 (ko) 2012-02-24 2012-02-24 염기 서열 분석을 위한 참조 서열 처리 시스템 및 방법
EP12187722.9A EP2631832A3 (en) 2012-02-24 2012-10-09 System and method for processing reference sequence for analyzing genome sequence
JP2012227089A JP2013172709A (ja) 2012-02-24 2012-10-12 塩基配列分析のための参照配列処理システム及び方法
US13/713,927 US9323889B2 (en) 2012-02-24 2012-12-13 System and method for processing reference sequence for analyzing genome sequence
CN2013100090732A CN103294932A (zh) 2012-02-24 2013-01-10 用于碱基序列分析的参考序列处理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120019090A KR101372947B1 (ko) 2012-02-24 2012-02-24 염기 서열 분석을 위한 참조 서열 처리 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20130097440A KR20130097440A (ko) 2013-09-03
KR101372947B1 true KR101372947B1 (ko) 2014-03-13

Family

ID=47559050

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120019090A KR101372947B1 (ko) 2012-02-24 2012-02-24 염기 서열 분석을 위한 참조 서열 처리 시스템 및 방법

Country Status (5)

Country Link
US (1) US9323889B2 (ko)
EP (1) EP2631832A3 (ko)
JP (1) JP2013172709A (ko)
KR (1) KR101372947B1 (ko)
CN (1) CN103294932A (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101394339B1 (ko) 2012-03-06 2014-05-13 삼성에스디에스 주식회사 시드의 길이를 고려한 염기 서열 처리 시스템 및 방법
KR101538852B1 (ko) * 2013-10-31 2015-07-22 삼성에스디에스 주식회사 정확도를 고려한 염기 서열 정렬 장치 및 방법
WO2019023978A1 (zh) * 2017-08-02 2019-02-07 深圳市瀚海基因生物科技有限公司 比对方法、装置及系统
KR102377810B1 (ko) * 2020-03-11 2022-03-23 한국전자통신연구원 유전체 서열 정렬 방법 및 그 장치
CN116741274A (zh) * 2023-02-07 2023-09-12 杭州联川基因诊断技术有限公司 一种确定靶向测序数据中代表性序列的方法、设备和介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001009384A2 (en) * 1999-07-29 2001-02-08 Genzyme Corporation Serial analysis of genetic alterations
US20030165495A1 (en) * 2003-04-01 2003-09-04 Carulli John P. Nucleic acids and polypeptides
US20060091023A1 (en) * 2004-10-28 2006-05-04 Ahsan Bukhari Assessing micro-via formation PCB substrate manufacturing process
CN102329895A (zh) * 2011-10-14 2012-01-25 武汉百泰基因工程有限公司 乙型肝炎前c区和bcp区基因突变检测试剂盒、检测方法、引物及其探针

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
정보과학회논문지: 소프트웨어 및 응용, 제38권, 제10호, pp. 503-511 (2011.10.) *

Also Published As

Publication number Publication date
EP2631832A2 (en) 2013-08-28
KR20130097440A (ko) 2013-09-03
US9323889B2 (en) 2016-04-26
EP2631832A3 (en) 2014-05-21
US20130226467A1 (en) 2013-08-29
CN103294932A (zh) 2013-09-11
JP2013172709A (ja) 2013-09-05

Similar Documents

Publication Publication Date Title
US20230366046A1 (en) Systems and methods for analyzing viral nucleic acids
JP6141335B2 (ja) コンパクトな次世代シーケンシングデータセット及び該データセットを使用した効率的な配列の処理
US10229519B2 (en) Methods for the graphical representation of genomic sequence data
KR101372947B1 (ko) 염기 서열 분석을 위한 참조 서열 처리 시스템 및 방법
US10192028B2 (en) Data analysis device and method therefor
US10319465B2 (en) Systems and methods for aligning sequences to graph references
KR101313087B1 (ko) Ngs를 위한 서열 재조합 방법 및 장치
Giangaspero et al. Numerical taxonomy of the genus Pestivirus: New software for genotyping based on the palindromic nucleotide substitutions method
JP2006075162A (ja) 遺伝子の転写物マッピング方法及びシステム
US20210183466A1 (en) Identification method, information processing device, and recording medium
US20160098517A1 (en) Apparatus and method for detecting internal tandem duplication
KR101394339B1 (ko) 시드의 길이를 고려한 염기 서열 처리 시스템 및 방법
KR101480897B1 (ko) 염기 서열 정렬 시스템 및 방법
KR101525303B1 (ko) 염기 서열 정렬 시스템 및 방법
KR101584857B1 (ko) 염기 서열 정렬 시스템 및 방법
KR101538852B1 (ko) 정확도를 고려한 염기 서열 정렬 장치 및 방법
NL2013120B1 (en) A method for finding associated positions of bases of a read on a reference genome.
Chen et al. SEME: a fast mapper of Illumina sequencing reads with statistical evaluation
KR101482011B1 (ko) 염기 서열 정렬 시스템 및 방법
KR101600660B1 (ko) 리드의 퀄리티를 고려한 염기 서열 처리 시스템 및 방법
KR101322123B1 (ko) 교환 연산을 포함한 확장편집거리의 계산을 병렬적으로 수행하기 위한 방법
CN114496073B (zh) 用于识别阳性重排的方法、计算设备和计算机存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee