KR101313087B1 - Ngs를 위한 서열 재조합 방법 및 장치 - Google Patents

Ngs를 위한 서열 재조합 방법 및 장치 Download PDF

Info

Publication number
KR101313087B1
KR101313087B1 KR1020110112370A KR20110112370A KR101313087B1 KR 101313087 B1 KR101313087 B1 KR 101313087B1 KR 1020110112370 A KR1020110112370 A KR 1020110112370A KR 20110112370 A KR20110112370 A KR 20110112370A KR 101313087 B1 KR101313087 B1 KR 101313087B1
Authority
KR
South Korea
Prior art keywords
sequence
seed
seeds
hash
hash value
Prior art date
Application number
KR1020110112370A
Other languages
English (en)
Other versions
KR20130047382A (ko
Inventor
박민서
김판규
Original Assignee
삼성에스디에스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사 filed Critical 삼성에스디에스 주식회사
Priority to KR1020110112370A priority Critical patent/KR101313087B1/ko
Priority to CN201280053889.9A priority patent/CN103946396B/zh
Priority to PCT/KR2012/007273 priority patent/WO2013065944A1/ko
Priority to US14/355,434 priority patent/US20140288851A1/en
Publication of KR20130047382A publication Critical patent/KR20130047382A/ko
Application granted granted Critical
Publication of KR101313087B1 publication Critical patent/KR101313087B1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Abstract

본 발명은 NGS를 위한 서열 재조합 방법 및 장치에 관한 것이다. 본 발명의 바람직한 일 실시예에서는 서열길이가 n인 단편서열을 6등분 한 후 앞부분의 3조각만을 시드로 활용하여 참조서열을 기초로 생성된 해쉬테이블을 검색하여 매칭후보위치를 검색한다.

Description

NGS를 위한 서열 재조합 방법 및 장치{Method and Apparatus for rearrangement of sequence in Next Generation Sequencing}
본 발명은 생물 개체의 전체 유전 서열을 완성하는 시퀀싱 분야에 관한 것이다. 상세히, 본 발명은 NGS(Next Generation Sequencing)를 위해 짧은 서열 재조합하기 위한 인덱싱 및 검색 기술에 관한 것이다.
DNA 염기서열 정보의 해독, 즉 게놈시퀀싱(genome sequencing)의 핵심은 개인차 및 민족적 특성을 파악하거나 유전자 이상과 관련된 질환에서 염색체 이상을 포함한 선천성 원인의 규명과 당뇨병, 고혈압과 같은 복합질병의 유전자 결함을 찾기 위한 것이다.
또한 서열 데이터(Sequencing Data)는 유전자 발현, 유전자 다양성, 유전적 variation, 유전적 질병원인 및 그 상호작용 등의 정보들을 분자진단과 치료영역에서 폭넓게 활용할 수 있어 매우 중요하다.
유전 연구에서 전통적으로 사용되던 긴 서열을 생산하는 Sanger 시퀀싱 방법은 실험과정에 소요되는 시간이나 비용 및 그 응용성이 우수한 짧은 서열을 생산하는 NGS 기술로 빠르게 대체되고 있다. 또한 정확도에 초점을 맞춘 다양한 NGS 서열재조합 프로그램들이 개발되었다.
최근에는 NGS 비용이 과거 HGP에 비해 1/1,520,000 수준으로 떨어짐으로 인해 단편 서열로 사용할 수 있는 데이터의 양이 많아지게 되었다. 대량데이터를 처리하기 위한 방법으로 SOAP2와 같은 방식이 개발되었으나, SOAP2의 경우 특정 길이에 대해서는 빠른 속도를 보이지만 품질을 보장하지 못하는 문제가 있다. 이로 인해 짧은 대용량의 단편서열의 품질을 보장하면서도 빠른시간에 처리하고자 하는 요구가 높아지고 있다.
본 발명은 이상의 문제를 해결하기 위한 것으로 시퀀서로부터 획득한 짧은 단편 서열들의 품질을 보장하면서 재조합하여 하나의 전체 염기서열을 생성하는 인덱싱 기법 및 탐색 기법을 제시하고자 한다.
본 발명의 바람직한 일 실시예로서, NGS를 위한 서열 재조합 방법은 서열길이가 n인 단편서열을 6등분하는 단계; 참조서열을 n/6 크기의 부서열(sub-string) 단위로 해쉬값을 생성하여 해쉬테이블을 구성하는 단계; 상기 단편서열을 6등분한 조각들 중 상기 단편서열의 앞부분에 위치한 3조각을 각각 시드로 이용하는 단계; 상기 3개 시드의 해쉬값을 계산하는 단계;및 상기 3개 시드의 해쉬값과 일치하는 해쉬값을 상기 해쉬테이블에서 검색하여 매핑후보위치를 검색하는 단계;를 포함한다.
본 발명의 또 다른 바람직한 일 실시예로서, 서열길이가 n인 단편서열을 6등분하는 분할부; 상기 단편서열을 6등분한 조각들 중 상기 단편서열의 앞부분에 위치한 3조각을 각각 시드로 사용하는 시드생성부; 상기 3개 시드의 해쉬값을 계산하는 해쉬값생성부; 참조서열을 n/6 크기의 부서열(sub-string) 단위로 해쉬값을 생성하여 해쉬테이블을 구성하는 해쉬테이블생성부; 및 상기 3개 시드의 해쉬값과 일치하는 해쉬값을 상기 해쉬테이블에서 검색하여 매핑후보위치를 검색하는 검색부;를 포함한다.
본 발명에서는 시퀀서로부터 얻어진 짧은 단편 서열들을 재조합하여, 하나의 염기 서열을 만들 때, 품질을 보장하면서 속도를 개선시키는 효과가 있다.
본 발명에 개시된 NGS를 위한 서열 재조합 방법 및 장치를 통해 혈액검사로부터 전체 유전체 서열을 완성하는 시간을 단축시킬 수 있으며, 질병 진단시 빠른 유전체 분석이 가능하게 하여 유전적 질병원인을 밝히는 시간을 줄일 수 있다.
도 1 은 서열 데이터를 재조합하여 유전체 서열을 완성하는 흐름도를 도시한다.
도 2 는 유전체 분석 솔루션의 일반적인 구성도를 도시한다.
도 3 은 기존 MAQ 의 인덱싱 방법의 일 실시예를 도시한다.
도 4 는 본 발명의 바람직한 일 실시예에서 유전체 참조 서열을 기초로 해쉬테이블을 생성하는 예를 도시한다.
도 5 는 본 발명의 바람직한 일 실시예로서, NGS를 위한 서열 재조합 방법을 도시한다.
도 6은 본 발명의 바람직한 일 실시예로서, NGS를 위한 서열 재조합 장치 구성도를 도시한다.
이하에서, 도면을 참조하여 본 발명의 실시예에 대하여 상세히 설명하기로 한다. 도면들 중 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 참조번호들 및 부호들로 나타내고 있음에 유의해야 한다.
하기에서 본 발명을 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.
또한, 본 발명에 보다 더 충실하도록 하기 위해서, 본 발명의 취지를 벗어나지 않는 범위 내에서 당업자 수준의 변경이나 변형이 있을 수 있음을 명기하는 바이다.
도 1 은 서열 데이터를 재조합하여 유전체 서열을 완성하는 흐름도를 도시한다.
유전체 참조 서열에 대한 인덱스를 작성한다(S110). 인덱스를 작성하기 위해 본 발명의 바람직한 일 실시예에서는 유전체 참조서열을 n/6 크기의 부서열(sub-string) 단위로 해쉬값을 생성하여 해쉬테이블을 구성한다. 이 때, n 은 입력되는 서열데이터(100)의 길이를 나타낸다. 유전체 참조서열을 n/6 크기의 부서열(sub-string) 단위로 해쉬값을 생성하는 예는 도 4를 참고한다.
본 발명의 바람직한 일 실시예에서, 서열데이터(100)는 100bp 길이 이내의 A, G, C, T로 이루어진 문자열인 서열 집합을 나타낸다.
이 후, 서열 데이터(100)를 6등분한 후, 6등분한 조각들 중 서열 데이터(100)의 앞부분에 위치한 3조각을 시드로 이용하며, 3개의 시드(Seed) 대해 해쉬값을 생성한다. 시드의 해쉬값이 생성되면 해쉬테이블 내에서 매칭되는 해쉬값을 검색하여 매핑후보의 위치를 검색한다(S110). 해쉬값을 생성하는 방법 및 해쉬테이블을 생성하는 실시예는 도 4를 참고한다.
매핑후보의 위치가 검색되면, 서열데이터(100)와 참조 서열의 해당위치를 갭없이 정렬하여 유사도를 측정한다(S120). 검색된 모든 매핑후보의 위치에 대해서 이 작업을 수행한 이후, 유사도가 가장 높은 위치를 최적의 위치로 선택한다(S130). 이후 짝을 이루는 두 서열의 짝을 찾고, 에러 검색 및 위치 보정을 수행하여 유전체 서열을 완성한다(S140, S150).
도 2 는 유전체 분석 솔루션의 일반적인 구성도를 도시한다.
유전체 분석 솔루션은 모든 바이오 메디컬 정보(Bio/Medical informatics)의 모든 연구 및 수행에 필요한 과정으로 생물 개체의 전체 유전 서열을 알아내는 시퀀싱 분야, 유전적 변형(Variation)들간의 관계를 분석하는 분야, 유전적 질병 원인 유전 서열을 밝혀내는 의료 분야, 생명 현상의 원인 유전 서열을 밝혀내는 의료 분야 및 특정 화학 물질이 반응하는 단백질 및 유전서열을 밝혀내는 의약 분야에 사용된다.
본 발명의 바람직한 일 실시예에서는, 유전체 분석 솔루션의 전처리 과정에 해당하는 매핑(210) 단계 및 페어링(220) 단계에서 종래의 MAQ의 인덱싱 방법을 개선하여 이용한다.
종래의 MAQ(Mapping and Assembly with Quality)는 게놈 분석(Genome Analyzer) 뿐만 아니라 SOLiD 단편서열도 다룰 수 있는 툴로써, 단편 서열 단위로 매핑을 수행하였다. 또한 매핑시 6개의 시드를 사용하며, 2개의 시드를 짝을 이루어 매핑을 수행하였다.
도 3 은 기존 MAQ 의 인덱싱 방법의 일 실시예를 도시한다.
도 3을 참고하면, 기존의 MAQ에서는 k개의 미스매치를 허용한다면, MAQ은 각 단편서열을 k개 이상의 단편(fragment)으로 나눈다. 예를 들어, 길이가 28인 단편서열에 대해서 2개의 미스매치를 허용한다면, 4(>k=2)개의 단편으로 나눈 후, 시드를 2개씩 조합하여 Combination Seed를 생성하고, 이를 기초로 단편마다 6개의 해쉬값을 생성하여 해쉬 테이블을 만든다, 참조서열을 차례로 스캔하여 6개의 시드 중 하나라도 발견되면 정확한 정렬점수를 계산하여 맵핑할지 결정한다
그러나 본 발명에서는 MAQ을 이용하여 시드 단위로 매핑을 수행할 수 있으며, 또한 사용하는 시드의 개수를 3개로 줄여 종래의 MAQ 방법보다 최소 50% 이상 시간을 단축시킬 수 있다.
기존 MAQ 에서는 시드 조합을 위해 정형화된 패턴을 사용하고, 6개의 Non-continuous 시드를 사용함으로써 속도가 늦었다. 그러나, 본 발명에서 개시하는 일 실시예로서 본 발명은 3개의 시드를 사용하며, 또한 각 시드가 독립적으로 사용되어 Parallel Processing(병행 처리)이 가능하며 속도가 향상된다.
도 4 는 본 발명의 바람직한 일 실시예에서 유전체 참조 서열을 기초로 해쉬테이블을 생성하는 예를 도시한다.
서열길이가 n인 단편서열이 입력되면, 유전체 참조서열의 해쉬테이블은 도 4와 같이 생성이 가능하다. 참조서열의 시작지점으로부터 길이가 n/6인 윈도우(window)(410)를 오른쪽 방향으로 하나의 서열씩 이동하면서 ACGACG, CGACGT, GACGTC.... 과 같은 부서열(sub-string) 이루어진 시드서열 필드(420)를 생성한다. 이 후 각 부서열에 대한 해쉬값필드(430)를 생성하고, 각 시드서열의 시작위치를 기록한 시작위치필드(440)를 포함하는 해쉬테이블을 생성한다.
본 발명의 바람직한 일 실시예에서, 해쉬값은 시드서열 필드(420) 내의 각 부서열에 대해서 하나의 값으로 생성한다. 해쉬값을 생성하는 방법은 염기서열 A, C, G, T에 대해서 각각 2bit의 이진수 00, 01, 10, 11로 치환하여 변환한다. 예를 들어서 CGACGT는 이진수 011000011011의 해쉬값으로 변환된다.
CGACGT 부서열의 경우 해쉬테이블 내의 해쉬값 필드는 011000011011, 시작위치 필드에는 82(411), 88(412),... 이 생성된다(450).
도 5 는 본 발명의 바람직한 일 실시예로서, NGS를 위한 서열 재조합 방법을 도시한다.
서열길이가 n인 단편서열(510)을 6등분으로 분할한다. 6등분으로 나뉘어진 조각 중 앞부분의 3조각을 시드로 이용한다(520). 본 발명의 바람직한 일 실시예에서 단편서열(510)의 앞부분에 위치한 3개의 조각만을 시드로 이용하는 이유는 단편서열은 한 서열 내에서 뒤로 갈수록 정확도가 낮아지고, 앞쪽에 있는 염기서열일 수록 정확도가 높기 때문이다.
이와 같이 생성된 3개의 시드에 대해 각각 시작위치(Offset)(530)을 저장한다. 본 발명의 바람직한 일 실시예에서 시드의 시작위치는 단편서열(510)의 시작지점을 기준으로 설정되며, 첫 번째 시드(시드1)의 위치는 0, 두 번째 시드(시드2)의 위치는 n/6, 세 번째 시드(시드3)의 위치는 2n/6으로 저장된다.
그리고, 생성된 3개의 시드에 대해 해쉬값을 생성한다. 이 후, 도 4의 일 실시예와 같은 해쉬테이블 내에서 각 시드와 같은 서열을 가지는 매핑후보위치를 O(1) 검색시간안에 찾는다.
본 발명의 바람직한 일 실시예에서 제시한 이상의 방식을 이용하여 검색을 수행할 경우, 3개의 시드에 대해서만 검색을 수행하므로 종래의 방식에 비해 검색시간이 절반 이하로 줄어들 수 있다.
매핑후보위치가 검색되면, 각 매핑후보위치에서 입력된 전체 단편서열과 참조서열의 해당 위치를 스미스-워터만(Smith-Waterman) 알고리즘으로 정렬하여 유사도를 측정한다. 검색된 모든 매핑후보위치에서 유사도를 측정한 이후 유사도가 가장 높은 위치를 최적의 위치로 할당하여 배치한다.
도 6은 본 발명의 바람직한 일 실시예로서, NGS를 위한 서열 재조합 장치 구성도를 도시한다.
NGS를 위한 서열 재조합 장치(600)는 분할부(610), 시드생성부(620), 해쉬값생성부(630), 해쉬테이블생성부(640) 및 검색부(650)를 포함한다.
분할부(610)는 서열길이가 n인 단편서열을 6등분한다. 본 발명의 바람직한 일 실시예에서는 단편 서열을 6등분한 경우 품질을 보장하면서 최적의 속도를 지원할 수 있다.
단편서열을 5등분한 경우와 6등분한 경우를 비교하면 아래와 같다.
1) 단편서열을 5등분 한경우
단편서열의 길이가 최대 100bp인 경우, 시드당 필요한 메모리는 10bytes이다.
시드서열: 0byte (해쉬값으로 역변환)
해쉬값: 5byte (4^20 개=2^(8*5)개)
시작위치 : 5byte
-염색체# : 1byte(23개<2^8)
-offset : 4byte(2억4천만 < 2^(8*4)
해쉬테이블 크기 : 10TB
10bytes*4^20=10*(2^30)*2^10=10GB*2^10=10TB
단편서열을 5등분할 경우, 이상에서와 같이 해쉬테이블을 위해 10TB가 요구된다.
2) 단편서열을 6등분 한경우
단편서열의 길이가 최대 100bp인 경우, 시드당 필요한 메모리는 9bytes이다.
시드서열: 0byte (해쉬값으로 역변환)
해쉬값: 4byte (4^15 개=2^(8*4)개)
시작위치 : 5byte
-염색체# : 1byte(23개<2^8)
-offset : 4byte(2억4천만 < 2^(8*4)
해쉬테이블 크기 : 9Gbytes
9bytes*4^15=9*(2^30)=9GB
단편서열을 6등분할 경우, 이상에서와 같이 해쉬테이블을 위해 9GB가 요구된다.
검색부(650)는 3개 시드의 해쉬값과 일치하는 해쉬값을 해쉬테이블에서 검색하여 매핑후보위치를 검색한다. 해쉬테이블은 n/6 크기의 부서열로 구성된 시드서열 필드, 부서열 각각에 대한 해쉬값을 기록된 해쉬값 필드, 부서열의 시작위치를 기록한 시작위치 필드를 포함한다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.
컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피 디스크, 광데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이상 도면과 명세서에서 최적 실시예들이 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다.
그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (14)

  1. 서열길이가 n인 단편서열을 6등분하는 단계;
    참조서열을 n/6 크기의 부서열(sub-string) 단위로 해쉬값을 생성하여 해쉬테이블을 구성하는 단계;
    상기 단편서열을 6등분한 조각들 중 상기 단편서열의 앞부분에 위치한 3조각을 각각 시드로 이용하는 단계;
    상기 3개 시드의 해쉬값을 계산하는 단계;및
    상기 3개 시드의 해쉬값과 일치하는 해쉬값을 상기 해쉬테이블에서 검색하여 매핑후보위치를 검색하는 단계;를 포함하는 것을 특징으로 하는 NGS를 위한 서열 재조합 방법.
  2. 제 1 항에 있어서, 상기 3개의 시드의 시작위치는
    상기 단편서열의 시작지점을 기준으로 설정되며, 첫 번째 시드의 위치는 0, 두 번째 시드의 위치는 n/6, 세 번째 시드의 위치는 2n/6인 것을 특징으로 하는 NGS를 위한 서열 재조합 방법.
  3. 제 1 항에 있어서, 상기 해쉬값은
    염기서열 A, G, C, T 각각에 대해 이진수 00, 01, 10, 11로 치환하여 생성된 값인 것을 특징으로 하는 NGS를 위한 서열 재조합 방법.
  4. 제 1 항에 있어서, 상기 검색하는 단계에서
    상기 3개의 시드 각각에 대한 검색시간은 O(1) 이내인 것을 특징으로 하는 NGS를 위한 서열 재조합 방법.
  5. 제 1 항에 있어서, 상기 검색하는 단계에서
    상기 3개의 시드를 병렬로 동시에 검색이 가능한 것을 특징으로 하는 NGS를 위한 서열 재조합 방법.
  6. 제 1 항에 있어서, 상기 해쉬테이블은
    상기 n/6 크기의 부서열로 구성된 시드서열 필드, 상기 부서열 각각에 대한 해쉬값을 기록된 해쉬값 필드, 상기 부서열의 시작위치를 기록한 시작위치 필드를 포함하는 것을 특징으로 하는 NGS를 위한 서열 재조합 방법.
  7. 제 1 항에 있어서, 각 매핑후보위치에서 입력된 전체 단편서열과 참조서열의 해당 위치를 정렬하여 유사도를 측정하는 단계를 더 포함하는 것을 특징으로 하는 NGS를 위한 서열 재조합 방법.
  8. 서열길이가 n인 단편서열을 6등분하는 분할부;
    상기 단편서열을 6등분한 조각들 중 상기 단편서열의 앞부분에 위치한 3조각을 각각 시드로 사용하는 시드생성부;
    상기 3개 시드의 해쉬값을 계산하는 해쉬값생성부;및
    참조서열을 n/6 크기의 부서열(sub-string) 단위로 해쉬값을 생성하여 해쉬테이블을 구성하는 해쉬테이블생성부;
    상기 3개 시드의 해쉬값과 일치하는 해쉬값을 상기 해쉬테이블에서 검색하여 매핑후보위치를 검색하는 검색부;를 포함하는 것을 특징으로 하는 NGS를 위한 서열 재조합 장치.
  9. 제 8 항에 있어서, 상기 3개의 시드의 시작위치는
    상기 단편서열의 시작지점을 기준으로 설정되며, 첫 번째 시드의 위치는 0, 두 번째 시드의 위치는 n/6, 세 번째 시드의 위치는 2n/6인 것을 특징으로 하는 NGS를 위한 서열 재조합 장치.
  10. 제 8 항에 있어서, 상기 해쉬값은
    염기서열 A, G, C, T 각각에 대해 이진수 00, 01, 10, 11로 치환하여 생성된 값인 것을 특징으로 하는 NGS를 위한 서열 재조합 장치.
  11. 제 8 항에 있어서, 상기 검색하는 단계에서
    상기 3개의 시드 각각에 대한 검색시간은 O(1) 이내인 것을 특징으로 하는 NGS를 위한 서열 재조합 장치.
  12. 제 8 항에 있어서, 상기 검색하는 단계에서
    상기 3개의 시드를 병렬로 동시에 검색이 가능한 것을 특징으로 하는 NGS를 위한 서열 재조합 장치.
  13. 제 8 항에 있어서, 상기 해쉬테이블은
    상기 n/6 크기의 부서열로 구성된 시드서열 필드, 상기 부서열 각각에 대한 해쉬값을 기록된 해쉬값 필드, 상기 부서열의 시작위치를 기록한 시작위치 필드를 포함하는 것을 특징으로 하는 NGS를 위한 서열 재조합 장치.
  14. 제 8 항에 있어서, 각 매핑후보위치에서 입력된 전체 단편서열과 참조서열의 해당 위치를 정렬하여 유사도를 측정하는 단계를 더 포함하는 것을 특징으로 하는 NGS를 위한 서열 재조합 장치.
KR1020110112370A 2011-10-31 2011-10-31 Ngs를 위한 서열 재조합 방법 및 장치 KR101313087B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020110112370A KR101313087B1 (ko) 2011-10-31 2011-10-31 Ngs를 위한 서열 재조합 방법 및 장치
CN201280053889.9A CN103946396B (zh) 2011-10-31 2012-09-11 用于下一代测序的序列重组方法及装置
PCT/KR2012/007273 WO2013065944A1 (ko) 2011-10-31 2012-09-11 Ngs를 위한 서열 재조합 방법 및 장치
US14/355,434 US20140288851A1 (en) 2011-10-31 2012-09-11 Method for sequence recombination and apparatus for ngs

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110112370A KR101313087B1 (ko) 2011-10-31 2011-10-31 Ngs를 위한 서열 재조합 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20130047382A KR20130047382A (ko) 2013-05-08
KR101313087B1 true KR101313087B1 (ko) 2013-09-30

Family

ID=48192257

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110112370A KR101313087B1 (ko) 2011-10-31 2011-10-31 Ngs를 위한 서열 재조합 방법 및 장치

Country Status (4)

Country Link
US (1) US20140288851A1 (ko)
KR (1) KR101313087B1 (ko)
CN (1) CN103946396B (ko)
WO (1) WO2013065944A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101447593B1 (ko) 2013-12-31 2014-10-07 서울대학교산학협력단 차세대 시퀀싱 방법을 이용하여 생물체의 엽록체, 미토콘드리아 또는 핵 리보솜 dna의 완전한 게놈 서열을 해독하는 방법

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101576794B1 (ko) * 2013-01-29 2015-12-11 삼성에스디에스 주식회사 리드 길이를 고려한 염기 서열 정렬 시스템 및 방법
KR101600660B1 (ko) * 2013-05-09 2016-03-07 삼성에스디에스 주식회사 리드의 퀄리티를 고려한 염기 서열 처리 시스템 및 방법
CN106022006B (zh) * 2016-06-02 2018-08-10 广州麦仑信息科技有限公司 一种将基因信息进行二进制表示的存储方法
CN106295250B (zh) * 2016-07-28 2019-03-29 北京百迈客医学检验所有限公司 二代测序短序列快速比对分析方法及装置
CN108052797A (zh) * 2017-12-28 2018-05-18 上海嘉因生物科技有限公司 应用于组织样本中染色体上转录因子结合位点的检测方法
CN108897986B (zh) * 2018-05-29 2020-11-27 中南大学 一种基于蛋白质信息的基因组序列拼接方法
CN108932401B (zh) * 2018-06-07 2021-09-24 江西海普洛斯生物科技有限公司 一种测序样本的标识方法及其应用
CN109841264B (zh) * 2019-01-31 2022-02-18 郑州云海信息技术有限公司 一种序列比对滤波处理方法、系统、装置及可读存储介质
WO2020182175A1 (en) * 2019-03-14 2020-09-17 Huawei Technologies Co., Ltd. Method and system for merging alignment and sorting to optimize

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120056944A (ko) * 2010-11-26 2012-06-05 가천의과학대학교 산학협력단 Ngs 데이터의 고속 압축장치 및 그 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120056944A (ko) * 2010-11-26 2012-06-05 가천의과학대학교 산학협력단 Ngs 데이터의 고속 압축장치 및 그 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Genome research, Vol. 18, No. 11, pp.1851-1858 (2008.11.) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101447593B1 (ko) 2013-12-31 2014-10-07 서울대학교산학협력단 차세대 시퀀싱 방법을 이용하여 생물체의 엽록체, 미토콘드리아 또는 핵 리보솜 dna의 완전한 게놈 서열을 해독하는 방법
WO2015102226A1 (ko) * 2013-12-31 2015-07-09 서울대학교산학협력단 차세대 시퀀싱 방법을 이용하여 생물체의 엽록체, 미토콘드리아 또는 핵 리보솜 dna의 완전한 게놈 서열을 해독하는 방법

Also Published As

Publication number Publication date
US20140288851A1 (en) 2014-09-25
CN103946396B (zh) 2016-08-24
KR20130047382A (ko) 2013-05-08
WO2013065944A1 (ko) 2013-05-10
CN103946396A (zh) 2014-07-23

Similar Documents

Publication Publication Date Title
KR101313087B1 (ko) Ngs를 위한 서열 재조합 방법 및 장치
Alser et al. Technology dictates algorithms: recent developments in read alignment
US11560598B2 (en) Systems and methods for analyzing circulating tumor DNA
US10192026B2 (en) Systems and methods for genomic pattern analysis
Chaisson et al. Mapping single molecule sequencing reads using basic local alignment with successive refinement (BLASR): application and theory
CA2424031C (en) System and process for validating, aligning and reordering genetic sequence maps using ordered restriction map
Tran et al. Objective and comprehensive evaluation of bisulfite short read mapping tools
US10319465B2 (en) Systems and methods for aligning sequences to graph references
US20050079504A1 (en) Method and apparatus for mRNA assembly
US20180247016A1 (en) Systems and methods for providing assisted local alignment
US20100205204A1 (en) Homology retrieval system, homology retrieval apparatus, and homology retrieval method
CN105760706A (zh) 一种二代测序数据的压缩方法
Kearse et al. The Geneious 6.0. 3 read mapper
WO2017000859A1 (zh) 字符序列相似子串的跨越式查找算法及其在生物序列数据库上的查找应用
US9323889B2 (en) System and method for processing reference sequence for analyzing genome sequence
Cheng et al. BitMapperBS: a fast and accurate read aligner for whole-genome bisulfite sequencing
KR101394339B1 (ko) 시드의 길이를 고려한 염기 서열 처리 시스템 및 방법
Esmat et al. A parallel hash‐based method for local sequence alignment
Pockrandt et al. Genmap: Fast and exact computation of genome mappability
Hoyle et al. Charting and tracking the evolution of the SARS CoV-2 coronavirus variants of concern with protein mass spectrometry
KR100856526B1 (ko) 펩티드 질량 지문 추적법을 사용한 알터네이티브스플라이싱 아이소폼을 동정하기 위한 스코어링 알고리즘을포함한 시스템 및 방법과 상기 방법을 수행하기 위한프로그램을 갖는 기록매체
Gudodagi et al. Investigations and Compression of Genomic Data
KR20150026542A (ko) 염기 서열 정렬 시스템 및 방법
Copeland Computational Analysis of High-replicate RNA-seq Data in Saccharomyces Cerevisiae: Searching for New Genomic Features
Denti Algorithms for analyzing genetic variability from Next-Generation Sequencing data

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee