KR20130068185A - 염기서열 맵핑 장치 및 그것의 염기서열 맵핑 방법 - Google Patents

염기서열 맵핑 장치 및 그것의 염기서열 맵핑 방법 Download PDF

Info

Publication number
KR20130068185A
KR20130068185A KR1020110134730A KR20110134730A KR20130068185A KR 20130068185 A KR20130068185 A KR 20130068185A KR 1020110134730 A KR1020110134730 A KR 1020110134730A KR 20110134730 A KR20110134730 A KR 20110134730A KR 20130068185 A KR20130068185 A KR 20130068185A
Authority
KR
South Korea
Prior art keywords
sequence data
standard
data
target
sequencing
Prior art date
Application number
KR1020110134730A
Other languages
English (en)
Inventor
박찬용
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020110134730A priority Critical patent/KR20130068185A/ko
Priority to US13/672,529 priority patent/US20130158885A1/en
Publication of KR20130068185A publication Critical patent/KR20130068185A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

본 발명은 염기서열을 분석하는 장치 및 방법에 관한 것이다. 본 발명의 실시 예에 따른 염기서열 맵핑 장치는 제어기 및 상기 제어기의 제어에 응답하여, 표준 염기서열 데이터에 타겟 염기서열 데이터를 맵핑하는 염기서열 분석기를 포함하며, 상기 염기서열 분석기는 상기 표준 염기서열 데이터 및 상기 타겟 염기서열 데이터를 주파수 영역으로 변환함으로써, 상기 표준 염기서열 데이터 중 상기 타겟 염기서열 데이터가 맵핑될 위치를 결정한다. 본 발명의 실시 예에 따른 염기서열 맵핑 장치는 주파수 영역에서 표준 염기서열 데이터 및 타겟 염기서열 데이터의 상관 관계를 연산함으로써, 빠른 속도로 표준 염기서열 데이터와 타겟 염기서열 데이터의 일치 여부를 판단할 수 있다.

Description

염기서열 맵핑 장치 및 그것의 염기서열 맵핑 방법{GENOME SEQUENCE MAPPING DEVICE AND GENOME SEQUENCE MAPPING METHOD THEREOF}
본 발명은 염기서열을 분석하는 장치 및 방법에 관한 것이다.
인간 유전자 서열의 초안이 완성된 이후, 의학 및 생물학 분야에서 유전체에 관한 연구가 차지하는 비중이 매우 높아졌다. 또한, 마이크로 어레이(micro array)와 같은 높은 처리 용량을 가지는 기법(high throughput technology)의 발전으로 인하여 대용량의 자료가 한 번의 실험으로 쉽게 얻을 수 있는 환경이 구축되면서, 유전체에 관한 연구가 의학 및 생물학 분야에서 더욱 중요하게 되었다.
최근에는 유전자의 서열에 관한 정보를 빠르게 확인할 수 있는 차세대 염기서열 분석법(Next Generation Sequencing)이 의학 및 생물학 분야에서 많이 사용된다. 그러나 차세대 염기서열 분석법으로부터 생산된 염기서열 데이터는 서열의 길이가 종래의 Sanger 방법으로 생산된 염기서열 데이터에 비하여 현저하게 짧다. 또한, 하나의 샘플로부터 얻어질 수 있는 단편의 염기서열(short read)의 수는 수백만 개에서 수십억 개에 이른다. 따라서, 종래의 해쉬 테이블 또는 서픽스 트리 방법을 통하여, 차세대 염기서열 분석법으로부터 생산된 염기서열 데이터를 표준 염기서열 데이터와 비교하기 위해서는 많은 시간이 소모되는 문제가 있다.
본 발명은 빠른 속도로 표준 염기서열 데이터 중 차세대 염기서열 분석법으로부터 생산된 염기서열 데이터를 맵핑하는 염기서열 맵핑 장치 및 염기서열 맵핑 방법을 제공하는데 목적이 있다.
본 발명의 실시 예에 따른 염기서열 맵핑 장치는 제어기; 및 상기 제어기의 제어에 응답하여, 표준 염기서열 데이터에 타겟 염기서열 데이터를 맵핑하는 염기서열 분석기를 포함하며, 상기 염기서열 분석기는 상기 표준 염기서열 데이터 및 상기 타겟 염기서열 데이터를 주파수 영역으로 변환함으로써, 상기 표준 염기서열 데이터 중 상기 타겟 염기서열 데이터가 맵핑될 위치를 결정한다.
실시 예로써, 상기 염기서열 분석기는 상기 표준 염기서열 데이터 및 상기 타겟 염기서열 데이터를 각각 바이너리 데이터로 코딩하는 코딩부를 포함한다.
실시 예로써, 상기 코딩부는 상기 표준 염기서열 데이터 및 상기 타겟 염기서열 데이터를 각각 컴퓨터가 처리 가능한 단위로 구성한다.
실시 예로써, 상기 염기서열 분석기는 상기 코딩된 표준 염기서열 데이터 및 상기 코딩된 타겟 염기서열 데이터에 대한 푸리에 변환 동작을 수행하는 푸리에 변환부를 더 포함한다.
실시 예로써, 상기 염기서열 분석기는 상기 푸리에 변환된 표준 염기서열 데이터 및 상기 푸리에 변환된 타겟 염기서열 데이터에 대한 상관 연산 동작을 수행하는 상관 연산부를 더 포함한다.
실시 예로써, 상기 상관 연산부에 의한 상관 연산 결과 값을 역푸리에 변환하는 역푸리에 변환부를 더 포함한다.
실시 예로써, 상기 역푸리에 변환된 결과에 기초하여, 상기 표준 염기서열 데이터 중 상기 타겟 염기서열 데이터가 맵핑될 위치를 결정하는 최적 위치 결정부를 더 포함한다.
실시 예로써, 상기 최적 위치 결정부는 상기 역푸리에 변환된 결과의 복수의 피크 점들의 크기에 기초하여, 상기 표준 염기서열 데이터 중 상기 타겟 염기서열 데이터가 맵핑될 위치를 결정한다.
실시 예로써, 상기 타겟 염기서열 데이터는 차세대 염기서열 분석법으로부터 생산된 염기서열 데이터이다.
실시 예로써, 상기 타겟 염기서열 데이터의 길이는 상기 표준 염기서열 데이터의 길이보다 짧다.
본 발명의 실시 예에 따른 염기서열 맵핑 방법은 표준 염기서열 데이터 및 타겟 염기서열 데이터를 각각 주파수 영역으로 변환하는 단계; 상기 주파수 영역으로 변환된 표준 염기서열 데이터 및 상기 주파수 영역으로 변환된 타겟 염기서열 데이터에 대한 상관 연산을 수행하는 단계; 및 상기 상관 연산의 결과에 기초하여, 상기 표준 염기서열 데이터 중 상기 타겟 염기서열 데이터가 일치하는 위치를 결정하는 단계를 포함한다.
실시 예로써, 상기 표준 염기서열 데이터 및 상기 타겟 염기서열 데이터를 각각 바이너리 데이터로 코딩하는 단계를 더 포함한다.
실시 예로써, 상기 바이너리 코딩된 표준 염기서열 데이터 및 상기 바이너리 코딩된 타깃 염기서열 데이터를 각각 바이트 단위의 데이터로 변환하는 단계를 더 포함한다.
실시 예로써, 상기 상관 연산을 수행한 후에, 상기 상관 연산의 결과를 시간 영역으로 변환하는 단계를 더 포함한다.
실시 예로써, 상기 타겟 염기서열 데이터는 차세대 염기서열 분석법으로부터 생산된 염기서열 데이터이다.
본 발명의 실시 예에 따른 염기서열 맵핑 장치는 주파수 영역에서 표준 염기서열 데이터 및 타겟 염기서열 데이터의 상관 관계를 연산함으로써, 빠른 속도로 표준 염기서열 데이터와 타겟 염기서열 데이터의 일치 여부를 판단할 수 있다.
도 1은 본 발명의 실시 예에 따른 염기서열 맵핑 장치를 보여주는 블록도이다.
도 2는 염기서열을 바이너리 코딩하는 방법을 설명하기 위한 본 발명의 일 실시 예에 따른 표이다.
도 3 내지 도 7은 도 1의 염기서열 맵핑 장치의 동작을 예시적으로 보여주는 도면들이다.
도 8은 도 1의 염기서열 맵핑 장치의 동작을 보여주는 순서도이다.
이하, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 실시 예들이 첨부된 도면일 참조하여 설명될 것이다.
도 1은 본 발명의 실시 예에 따른 염기서열 맵핑 장치(100)를 보여주는 블록도이다. 도 1을 참조하며, 염기서열 맵핑 장치(100)는 염기서열 분석기(110)와 제어기(120)를 포함한다.
본 발명의 실시 예에 따른 염기서열 분석기(110)는 제어기(120)의 제어에 응답하여 표준 염기서열 데이터 및 차세대 염기서열 분석법으로부터 획득한 염기서열 데이터(이하, NGS 염기서열 데이터)를 주파수 영역으로 변환함으로써, 표준 염기서열 데이터 중 NGS 염기 서열 데이터가 맵핑될 위치를 결정한다. 염기서열 분석기(110)는 코딩부(111), 푸리에 변환부(112), 상관 연산부(113), 역푸리에 변환부(114), 그리고 최적 위치 결정부(115)를 포함한다.
코딩부(111)는 표준 염기서열 데이터와 NGS 염기서열 데이터를 제공받는다. 여기서, NGS 염기서열 데이터는 차세대 염기서열 분석법으로부터 생산된 데이터로써, 표준 염기서열에 비하여 짧다. 예를 들어, 표준 염기서열 데이터는 "AGCTCCCCTTTTAGTC"의 염기서열을 갖고, NGS 염기서열 데이터는 표준 염기서열 데이터보다 짧은 "CCCCTTTT"의 염기서열을 가질 수 있다. 다만 이는 예시적인 것이며, 표준 염기서열 데이터와 NGS 염기서열 데이터는 다양한 조합들로 구성될 수 있다.
코딩부(111)는 표준 염기서열 데이터와 NGS 염기서열 데이터를 각각 바이너리 데이터로 코딩한다. 예를 들어, 코딩부(111)는 도 2의 표를 이용하여, 표준 염기서열 데이터와 NGS 염기서열 데이터를 각각 바이너리 코딩할 수 있다. 다만, 도 2의 표는 예시적인 것이며 "A"가 반드시 "0001"일 필요는 없다. 한편, "N"은 NGS 염기서열 데이터 중 염기서열이 결정되지 않은 부분을 나타내며, 이는 도 2에 도시된 바와 같이, "1111"로 코딩될 수 있다. 한편, 코딩된 NGS 염기서열 데이터는 코딩된 표준 염기서열 데이터보다 짧다. 따라서, 코딩된 NGS 염기서열 데이터의 길이와 코딩된 표준 염기서열 데이터의 길이를 갖게 하기 위하여, 부족한 부분(padding part)은 "0000"으로 채운다.
또한, 코딩부(111)는 코딩된 표준 염기서열 데이터와 코딩된 NGS 염기서열 데이터를 컴퓨터가 처리할 수 있는 단위로 구성할 수 있다. 예를 들어, 코딩부(111)는 코딩된 표준 염기서열 데이터와 코딩된 NGS 염기서열 데이터를 바이트(byte)로 구성할 수 있다.
자세히 설명하면, NGS 염기서열이 "AGTC"이라고 가정하고, 도 2의 표를 이용하여 바이너리 코딩된다고 가정하자. 이 경우, 먼저, 코딩부(111)는 NGS 염기서열을 "0001001010000100"로 바이너리 코딩한다. 하나의 염기(또는, DNA 코드)(예를 들어, "A")가 4 비트에 해당하므로, 하나의 바이트(8 비트)에는 두 개의 염기가 할당된다. "0001001010000100"은 2 바이트에 해당하며, 16진수로 "1284"로 표현된다. 결국, 코딩부(111)는 "AGTC"의 NGS 염기서열을 "1284"의 16진수로 변환할 수 있다.
설명의 편의상, 이하에서는 컴퓨터가 처리할 수 있는 단위로 변환된 코딩된 표준 염기서열 데이터 및 코딩된 NGS 염기서열 데이터는 각각 표준 염기배열 및 NGS 염기배열이라 칭해진다.
계속해서 도 1을 참조하면, 푸리에 변환부(112)는 코딩부(111)로부터 표준 염기배열 및 NGS 염기배열을 전달받는다. 푸리에 변환부(112)는 표준 염기배열 및 NGS 염기배열을 각각 푸리에 변환한다. 이는 표준 염기배열 및 NGS 염기배열이 푸리에 변환부(112)에 의하여 주파수 영역으로 변경됨을 의미한다. 푸리에 변환부(112)는 속도 향상을 위해 CUDA나 Open CL을 사용하는 GPU를 이용하여 구성될 수 있고, 시스템 쓰레드를 이용하여 병렬처리를 수행하도록 구성될 수도 있으며, MIC(Many Integrated Core)를 사용하여 구성될 수도 있다.
상관 연산부(113)는 푸리에 변환부(112)로부터 푸리에 변환된 표준 염기배열 및 푸리에 변환된 NGS 염기배열을 각각 전달받는다. 상관 연산부(113)는 푸리에 변환된 표준 염기배열 및 푸리에 변환된 NGS 염기배열에 대한 상관 연산(correlation) 연산을 수행한다. 예를 들어, 상관 연산부(113)는 푸리에 변환된 표준 염기배열 및 푸리에 변환된 NGS 염기배열 중 어느 하나에 대하여 콘쥬게이트(conjugate)를 수행하고, 이 후 두 개의 염기배열에 대해가 각 배열의 요소(element)끼리 곱하는 연산을 수행한다.
역푸리에 변환부(114)는 상관 연산부(114)로부터 상관 연산의 결과 값을 전달받고, 이를 역푸리에 변환한다. 최적 위치 결정부(115)는 역푸리에 변환부(114)로부터 역푸리에 변환의 결과 값을 전달받고, 이를 이용하여 표준 염기서열 데이터 중 NGS 염기서열 데이터가 일치하는 부분을 결정한다.
예를 들어, 최적 위치 결정부(115)는 역푸리에 변환의 결과 값들 중 가장 큰 결과 값에 대응하는 표준 염기서열 데이터의 위치가 NGS 염기서열 데이터가 일치하는 위치로 결정한다.
상술한 바와 같이, 본 발명의 실시 예에 따른 염기서열 맵핑 장치(100)는 표준 염기서열 데이터와 NGS 염기서열 데이터를 각각 주파수 영역으로 변환시키고, 이에 대한 상관 연산을 수행함으로써 표준 염기서열 데이터 중 NGS 염기서열 데이터가 일치하는 위치를 결정할 수 있다. 즉, 염기서열 맵핑 장치(100)는 염기서열 데이터를 주파수 영역으로 변환함으로써, NGS 염기서열 데이터를 표준 염기서열 데이터에 맵핑할 수 있다. 주파수 영역에서 비교 동작(즉, 상관 연산)을 수행함으로써, 본 발명의 실시 예에 따른 염기서열 맵핑 장치(100)는 빠른 속도로 맵핑 동작을 수행할 수 있다.
도 3 내지 도 7은 도 1의 염기서열 맵핑 장치(100)의 동작을 예시적으로 보여주는 도면들이다.
도 3을 참조하면, 표준 염기서열 데이터 및 NGS 염기서열 데이터는 코딩부(111)에 의하여 각각 바이너리 코딩된다. 도 3에서는 설명의 편의상, 코딩된 표준 염기서열 데이터(11)는 "1001010110101"의 값을 갖고, 코딩된 NGS 염기서열 데이터(21)는 "1001010110101"의 값을 갖는다고 가정된다.
코딩된 표준 염기서열 데이터(11) 및 코딩된 NGS 염기서열 데이터(21)는 코딩부(111)에 의하여 컴퓨터가 처리 가능한 단위로 변환될 수 있다. 예를 들어, 코딩된 표준 염기서열 데이터(11) 및 코딩된 NGS 염기서열 데이터(21)는 16 진수의 표준 염기배열 및 16진수의 NGS 염기배열로 변환될 수 있다.
코딩된 표준 염기서열 데이터(11) 또는 표준 염기배열(미도시)은 푸리에 변환부(112)에 의하여 푸리에 변환된다. 마찬가지로, 코딩된 NGS 염기서열 데이터(21) 또는 NGS 염기배열(미도시)는 푸리에 변환부(112)에 의하여 푸리에 변환된다. 도 3에서는 설명의 편의상, 푸리에 변환된 표준 염기배열(12)은 "1011010110101"의 값을 갖고, 푸리에 변환된 NGS 표준 염기배열(22)은 "102101010111"의 값을 갖는다고 가정된다.
푸리에 변환된 표준 염기배열(12) 및 푸리에 변환된 NGS 염기배열(22) 중 어느 하나는 상관 연산부(113)에 의하여 콘쥬게이트(conjugate) 된다. 예를 들어, 도 3에 도시된 바와 같이, 상관 연산부(113)는 푸리에 변환된 표준 염기배열(12)에 대한 콘쥬게이트 동작을 수행할 수 있다. 도 3에서는 설명의 편의상, 콘쥬게이트 동작이 수행된 표준 염기배열(13, 이하 복소 표준 염기배열)은 "1101001110101"의 값을 갖는다고 가정된다.
또한, 상관 연산부(113)는 복소 표준 염기배열(13) 및 푸리에 변환된 NGS 염기배열(22)에 대하여 각 배열의 요소(element)끼리 곱하는 곱셈 연산을 수행한다. 도 3에서는 설명의 편의상, 상관 연산의 결과 값(23)이 "1101001110101"의 값을 갖는다고 가정된다.
상관 연산의 결과 값(23)은 역푸리에 변환부(114)에 의하여 역푸리에 변환된다. 예를 들어, 역푸리에 변환부(114)에 의하여 역푸리에 변환된 결과는 도 4와 같은 그래프를 가질 수 있다. 최적 위치 결정부(115)는 역푸리에 변환된 결과에 기초하여, 표준 염기서열 데이터 중 NGS 염기서열 데이터가 일치하는 부분을 결정한다.
예를 들어, 도 5에 도시된 바와 같이, 최적 위치 결정부(115)는 역푸리에 변환된 결과 중 제 1 내지 제 3 피크(peak)를 검출하고, 제 1 내지 제 3 피크들 중 가장 큰 값을 갖는 제 1 피크의 위치가 표준 염기서열 데이터와 NGS 염기서열 데이터가 일치하는 부분이라고 결정한다.
좀더 자세히 설명하면, 도 6에 도시된 바와 같이, 표준 염기서열 데이터 및 NGS 염기서열 데이터가 각각 "AGCTCCCCTTTTAGTC" 및 "CCCCTTTT"의 염기서열을 갖는다고 가정된다. 또한, 표준 염기서열 데이터는 위치에 따라 고유의 인덱스들을 갖는다고 가정된다. 이 경우, 도 7에 도시된 바와 같이, 역푸리에 변환된 결과의 제 1 피크는 표준 염기서열 데이터의 인덱스들 중 "5"의 인덱스에 해당하며, 최적 위치 결정부(115)는 표준 염기서열 데이터 중 인덱스 "5"에 해당하는 위치에 NGS 염기서열 데이터가 일치한다고 결정할 수 있다.
결국, 본 발명의 실시 예에 따른 염기서열 맵핑 장치(100)는 표준 염기서열 데이터와 NGS 염기서열 데이터가 일치하는 부분을 탐지하고, NGS 염기서열 데이터를 표준 염기서열 데이터에 맵핑할 수 있다.
도 8은 도 1의 염기서열 맵핑 장치(100)의 동작을 보여주는 순서도이다.
S110 단계에서, 코딩부(110)는 표준 염기서열 데이터 및 NGS 염기서열 데이터를 각각 바이너리 데이터로 코딩한다. 또한, 코딩부(110)는 컴퓨터가 처리가능하도록, 코딩된 표준 염기서열 데이터 및 코딩된 NGS 염기서열 데이터를 각각 표준 염기배열 및 NGS 염기배열로 변환한다.
S120 단계에서, 푸리에 변환부(120)는 표준 염기배열 및 NGS 염기배열에 대한 푸리에 변환 동작을 각각 수행한다.
S130 단계에서, 상관 연산부(130)는 푸리에 변환된 표준 염기배열 및 푸리에 변환된 NGS 염기배열에 대한 상관(correlation)을 수행한다. 예를 들어, 상관 연산부(130)는 푸리에 변환된 표준 염기배열 및 푸리에 변환된 NGS 염기배열 중 어느 하나에 대한 콘쥬게이트 동작을 수행하고, 이 후 각 염기배열의 요소(element)들끼리 곱하는 연산을 수행한다.
S140 단계에서, 역푸리에 변환부(140)는 상관 연산 결과 값에 대한 역푸리에 변환 동작을 수행하고, S150 단계에서, 최적 위치 결정부(150)는 역푸리에 변환 결과를 참조하여, NGS 염기서열 데이터가 최적으로 일치하는 표준 염기서열 데이터의 위치를 결정한다.
한편, 본 발명의 범위 또는 기술적 사상을 벗어나지 않고 본 발명의 구조 및 동작 방법이 다양하게 수정되거나 변경될 수 있음은 이 분야에 숙련된 자들에게 자명하다. 상술한 내용을 고려해 볼 때, 만약 본 발명의 수정 및 변경이 아래의 청구항들 및 동등물의 범주 내에 속한다면, 본 발명이 이 발명의 변경 및 수정을 포함하는 것으로 여겨진다.
100: 염기서열 맵핑 장치
110: 염기서열 분석기
111: 코딩부
112: 푸리에 변환부
113: 상관 연산부
114: 역푸리에 변환부
115: 최적 위치 결정부
120: 제어기
NGS: 차세대 염기서열 분석법

Claims (18)

  1. 제어기; 및
    상기 제어기의 제어에 응답하여, 표준 염기서열 데이터에 타겟 염기서열 데이터를 맵핑하는 염기서열 분석기를 포함하며,
    상기 염기서열 분석기는 상기 표준 염기서열 데이터 및 상기 타겟 염기서열 데이터를 주파수 영역으로 변환함으로써, 상기 표준 염기서열 데이터 중 상기 타겟 염기서열 데이터가 맵핑될 위치를 결정하는 염기서열 맵핑 장치.
  2. 제 1 항에 있어서,
    상기 염기서열 분석기는 상기 표준 염기서열 데이터 및 상기 타겟 염기서열 데이터를 각각 바이너리 데이터로 코딩하는 코딩부를 포함하는 염기서열 맵핑 장치.
  3. 제 2 항에 있어서,
    상기 코딩부는 상기 표준 염기서열 데이터 및 상기 타겟 염기서열 데이터를 각각 컴퓨터가 처리 가능한 단위로 구성하는 염기서열 맵핑 장치.
  4. 제 2 항에 있어서,
    상기 염기서열 분석기는 상기 코딩된 표준 염기서열 데이터 및 상기 코딩된 타겟 염기서열 데이터에 대한 푸리에 변환 동작을 수행하는 푸리에 변환부를 더 포함하는 염기서열 맵핑 장치.
  5. 제 4 항에 있어서,
    상기 염기서열 분석기는 상기 푸리에 변환된 표준 염기서열 데이터 및 상기 푸리에 변환된 타겟 염기서열 데이터에 대한 상관 연산 동작을 수행하는 상관 연산부를 더 포함하는 염기서열 맵핑 장치.
  6. 제 5 항에 있어서,
    상기 염기서열 분석기는 상기 상관 연산부에 의한 상관 연산 결과 값을 역푸리에 변환하는 역푸리에 변환부를 더 포함하는 염기서열 맵핑 장치.
  7. 제 6 항에 있어서,
    상기 염기서열 분석기는
    상기 역푸리에 변환된 결과에 기초하여, 상기 표준 염기서열 데이터 중 상기 타겟 염기서열 데이터가 맵핑될 위치를 결정하는 최적 위치 결정부를 더 포함하는 염기서열 맵핑 장치.
  8. 제 7 항에 있어서,
    상기 최적 위치 결정부는 상기 역푸리에 변환된 결과의 복수의 피크 점들의 크기에 기초하여, 상기 표준 염기서열 데이터 중 상기 타겟 염기서열 데이터가 맵핑될 위치를 결정하는 염기서열 맵핑 장치.
  9. 제 1 항에 있어서,
    상기 타겟 염기서열 데이터는 차세대 염기서열 분석법으로부터 생산된 염기서열 데이터인 염기서열 맵핑 장치.
  10. 제 9 항에 있어서,
    상기 타겟 염기서열 데이터의 길이는 상기 표준 염기서열 데이터의 길이보다 짧은 염기서열 맵핑 장치.
  11. 표준 염기서열 데이터 및 타겟 염기서열 데이터를 각각 주파수 영역으로 변환하는 단계;
    상기 주파수 영역으로 변환된 표준 염기서열 데이터 및 상기 주파수 영역으로 변환된 타겟 염기서열 데이터에 대한 상관 연산을 수행하는 단계; 및
    상기 상관 연산의 결과에 기초하여, 상기 표준 염기서열 데이터 중 상기 타겟 염기서열 데이터가 일치하는 위치를 결정하는 단계를 포함하는 염기서열 맵핑 방법.
  12. 제 11 항에 있어서,
    상기 표준 염기서열 데이터 및 상기 타겟 염기서열 데이터를 각각 바이너리 데이터로 코딩하는 단계를 더 포함하는 염기서열 맵핑 방법.
  13. 제 12 항에 있어서,
    상기 바이너리 코딩된 표준 염기서열 데이터 및 상기 바이너리 코딩된 타깃 염기서열 데이터를 각각 컴퓨터가 처리 가능한 단위의 데이터로 변환하는 단계를 더 포함하는 염기서열 맵핑 방법.
  14. 제 13 항에 있어서,
    상기 컴퓨터가 처리 가능한 단위는 바이트 단위인 것을 특징으로 하는 염기서열 맵핑 방법.
  15. 제 11 항에 있어서,
    상기 상관 연산을 수행한 후에, 상기 상관 연산의 결과에 대한 역푸리에 변환을 수행하는 단계를 더 포함하는 염기서열 맵핑 방법.
  16. 제 15 항에 있어서,
    상기 표준 염기서열 데이터 중 상기 타겟 염기서열 데이터가 일치하는 위치를 결정하는 단계는 상기 역푸리에 변환된 결과의 복수의 피크 점들의 크기에 기초하여 상기 표준 염기서열 데이터 중 상기 타겟 염기서열 데이터가 맵핑될 위치를 결정하는 염기 서열 맵핑 방법.
  17. 제 11 항에 있어서,
    상기 타겟 염기서열 데이터는 차세대 염기서열 분석법으로부터 생산된 염기서열 데이터인 염기서열 맵핑 방법.
  18. 제 11 항에 있어서,
    상기 타겟 염기서열 데이터의 길이는 상기 표준 염기서열 데이터의 길이보다 짧은 염기서열 맵핑 방법.
KR1020110134730A 2011-12-14 2011-12-14 염기서열 맵핑 장치 및 그것의 염기서열 맵핑 방법 KR20130068185A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020110134730A KR20130068185A (ko) 2011-12-14 2011-12-14 염기서열 맵핑 장치 및 그것의 염기서열 맵핑 방법
US13/672,529 US20130158885A1 (en) 2011-12-14 2012-11-08 Genome sequence mapping device and genome sequence mapping method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110134730A KR20130068185A (ko) 2011-12-14 2011-12-14 염기서열 맵핑 장치 및 그것의 염기서열 맵핑 방법

Publications (1)

Publication Number Publication Date
KR20130068185A true KR20130068185A (ko) 2013-06-26

Family

ID=48611009

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110134730A KR20130068185A (ko) 2011-12-14 2011-12-14 염기서열 맵핑 장치 및 그것의 염기서열 맵핑 방법

Country Status (2)

Country Link
US (1) US20130158885A1 (ko)
KR (1) KR20130068185A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020179962A1 (ko) * 2019-03-05 2020-09-10 손인식 Dna 코드화 방법 및 그 코드화 방법의 의생명공학적 응용
KR20210022606A (ko) * 2019-03-05 2021-03-03 손인식 Dna 코드화 방법 및 그 코드화 방법의 의생명공학적 응용

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559427B (zh) * 2013-11-12 2017-10-31 高扬 一种用数字标识生物序列和推断物种亲缘关系的方法
WO2015187832A1 (en) * 2014-06-04 2015-12-10 Life Technologies Corporation Methods, systems, and computer-readable media for compression of sequencing data
US10443090B2 (en) 2014-11-25 2019-10-15 Electronics And Telecommunications Research Institute Method and apparatus for detecting translocation
CN107609350B (zh) * 2017-09-08 2020-04-03 厦门极元科技有限公司 一种二代测序数据分析平台的数据处理方法
CN108932401B (zh) * 2018-06-07 2021-09-24 江西海普洛斯生物科技有限公司 一种测序样本的标识方法及其应用

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6750011B1 (en) * 1994-06-17 2004-06-15 Mark W. Perlin Method and system for genotyping
WO2005033895A2 (en) * 2003-10-03 2005-04-14 Cira Discovery Sciences, Inc. Method and apparatus for discovering patterns in binary or categorical data
KR100797400B1 (ko) * 2006-12-04 2008-01-28 한국전자통신연구원 주성분분석 및 자동상관을 이용한 단백질 구조 비교 장치및 그 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020179962A1 (ko) * 2019-03-05 2020-09-10 손인식 Dna 코드화 방법 및 그 코드화 방법의 의생명공학적 응용
KR20210022606A (ko) * 2019-03-05 2021-03-03 손인식 Dna 코드화 방법 및 그 코드화 방법의 의생명공학적 응용

Also Published As

Publication number Publication date
US20130158885A1 (en) 2013-06-20

Similar Documents

Publication Publication Date Title
KR20130068185A (ko) 염기서열 맵핑 장치 및 그것의 염기서열 맵핑 방법
Baichoo et al. Computational complexity of algorithms for sequence comparison, short-read assembly and genome alignment
Landan et al. Local reliability measures from sets of co-optimal multiple sequence alignments
Zhang et al. Real-time mapping of nanopore raw signals
Zhou et al. QC-Chain: fast and holistic quality control method for next-generation sequencing data
Bonfert et al. ContextMap 2: fast and accurate context-based RNA-seq mapping
Lin et al. AGORA: assembly guided by optical restriction alignment
WO2015134664A1 (en) Methods and systems for biological sequence alignment
Arram et al. Hardware acceleration of genetic sequence alignment
EP3072076B1 (en) A method of generating a reference index data structure and method for finding a position of a data pattern in a reference data structure
Peng et al. Re-alignment of the unmapped reads with base quality score
Yu et al. An efficient algorithm for discovering motifs in large DNA data sets
He et al. De novo assembly methods for next generation sequencing data
Chen et al. A high-throughput FPGA accelerator for short-read mapping of the whole human genome
US8700918B2 (en) Data masking
Yu et al. Discriminate the falsely predicted protein-coding genes in aeropyrum pernix k1 genome based on graphical representation
Kumar et al. A new numerical approach for DNA representation using modified Gabor wavelet transform for the identification of protein coding regions
Mansouri et al. One-bit dna compression algorithm
EP3414348A1 (en) Third generation sequencing alignment algorithm
Jiang et al. Coding region prediction based on a universal DNA sequence representation method
Yu et al. Signalign: An ontology of DNA as signal for comparative gene structure prediction using information-coding-and-processing techniques
US8880353B2 (en) Ribonucleic acid identification apparatus, ribonucleic acid identification method, program and ribonucleic acid identification system
Shi et al. Learning the comparing and converting method of sequence phred quality score
CN113025697A (zh) 一种基于纳米孔的快速测序方法
Sun et al. HBS‐Tools for Hairpin Bisulfite Sequencing Data Processing and Analysis

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid