WO2013065944A1 - Ngs를 위한 서열 재조합 방법 및 장치 - Google Patents

Ngs를 위한 서열 재조합 방법 및 장치 Download PDF

Info

Publication number
WO2013065944A1
WO2013065944A1 PCT/KR2012/007273 KR2012007273W WO2013065944A1 WO 2013065944 A1 WO2013065944 A1 WO 2013065944A1 KR 2012007273 W KR2012007273 W KR 2012007273W WO 2013065944 A1 WO2013065944 A1 WO 2013065944A1
Authority
WO
WIPO (PCT)
Prior art keywords
sequence
seed
seeds
hash value
hash
Prior art date
Application number
PCT/KR2012/007273
Other languages
English (en)
French (fr)
Inventor
박민서
김판규
Original Assignee
삼성에스디에스(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스(주) filed Critical 삼성에스디에스(주)
Priority to US14/355,434 priority Critical patent/US20140288851A1/en
Priority to CN201280053889.9A priority patent/CN103946396B/zh
Publication of WO2013065944A1 publication Critical patent/WO2013065944A1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Definitions

  • the present invention relates to the field of sequencing to complete the entire genetic sequence of a biological entity.
  • the present invention relates to indexing and retrieval techniques for short sequence recombination for Next Generation Sequencing (NGS).
  • NGS Next Generation Sequencing
  • DNA sequencing ie, genome sequencing
  • the core of DNA sequencing is to identify individual differences and ethnic characteristics or to identify congenital causes, including chromosomal abnormalities, in diseases related to genetic abnormalities, and to identify genetic defects in complex diseases such as diabetes and hypertension. Is to find.
  • sequencing data is very important because information such as gene expression, gene diversity, genetic variation, genetic disease causes, and interactions thereof can be widely used in the field of molecular diagnosis and treatment.
  • the present invention is to solve the above problems and to provide an indexing technique and a search technique to generate a single complete nucleotide sequence by recombination while ensuring the quality of short fragment sequences obtained from the sequencer.
  • the sequence recombination method for NGS comprises the steps of: dividing the fragment sequence having a sequence length of n into six; Constructing a hash table by generating a hash value in units of n / 6 sub-strings of the reference sequence; Using each of the three fragments located at the front of the fragment sequence as a seed among the fragments divided into six portions; Calculating hash values of the three seeds; and retrieving a mapping candidate position by searching a hash value matching the hash values of the three seeds in the hash table.
  • the division portion for dividing the fragment sequence having a sequence length of n into six Seed generation unit using each of the three pieces located in the front of the fragment sequence of the fragments divided into six pieces of the fragment sequence as a seed;
  • a hash table generation unit configured to construct a hash table by generating a hash value in units of a sub-string of n / 6 size;
  • sequence recombination method and apparatus for the NGS disclosed in the present invention it is possible to shorten the time to complete the entire genome sequence from the blood test, and to enable the rapid genome analysis in diagnosing the disease, thereby reducing the time for identifying the cause of the genetic disease. have.
  • FIG. 1 shows a flowchart for recombining sequence data to complete a genomic sequence.
  • FIG. 2 shows a general schematic of a dielectric analysis solution.
  • FIG 3 illustrates one embodiment of an indexing method of an existing MAQ.
  • FIG. 4 shows an example of generating a hash table based on genomic reference sequences in one preferred embodiment of the present invention.
  • Figure 5 shows a sequence recombination method for NGS, as a preferred embodiment of the present invention.
  • FIG. 6 shows a schematic diagram of a sequence recombination device for NGS, according to a preferred embodiment of the present invention.
  • the sequence recombination apparatus for NGS comprises: a divider for dividing a fragment sequence having a sequence length of n into six; Seed generation unit using each of the three pieces located in the front of the fragment sequence of the fragments divided into six pieces of the fragment sequence as a seed; A hash value generator for calculating hash values of the three seeds; A hash table generation unit configured to construct a hash table by generating a hash value in units of a sub-string of n / 6 size; And a search unit searching for a mapping candidate position by searching a hash value matching the hash values of the three seeds in the hash table.
  • FIG. 1 shows a flowchart for recombining sequence data to complete a genomic sequence.
  • An index for the genome reference sequence is prepared (S110).
  • a hash table is constructed by generating a hash value in units of n / 6 sub-strings of the genome reference sequence.
  • n represents the length of the input sequence data (100). See FIG. 4 for an example of generating a hash value in units of n / 6 sub-strings of the dielectric reference sequence.
  • the sequence data 100 represents a sequence set which is a string consisting of A, G, C, and T within 100 bp in length.
  • the similarity is measured by aligning the corresponding position of the sequence data 100 and the reference sequence without a gap (S120). After performing this operation on the positions of all the searched mapping candidates, a position having the highest similarity is selected as an optimal position (S130). Thereafter, pairs of two sequences to be paired are found, and error search and position correction are performed to complete the genome sequence (S140 and S150).
  • FIG. 2 shows a general schematic of a dielectric analysis solution.
  • Genome analysis solutions are the processes required for all research and performance of all Bio / Medical informatics, including the field of sequencing that identifies the entire genetic sequence of a biological organism, the field of analysis of relationships between genetic variations, and the identification of genetic sequences that cause genetic diseases. It is used in the medical field, in the medical field to identify the genetic sequence of life phenomena, and in the pharmaceutical field to identify the proteins and genetic sequences to which specific chemicals react.
  • mapping method 210 and the pairing 220 step corresponding to the pretreatment of the dielectric analysis solution are improved and used.
  • mapping and Assembly with Quality is a tool that can handle not only the Genome Analyzer but also the SOLiD fragment sequence.
  • six seeds were used for mapping, and mapping was performed by pairing two seeds.
  • FIG 3 illustrates one embodiment of an indexing method of an existing MAQ.
  • the mapping may be performed in units of seeds using the MAQ, and the time may be shortened by at least 50% by reducing the number of seeds used to three.
  • the speed was slowed by using a standard pattern for seed combination and using 6 non-continuous seeds.
  • the present invention uses three seeds, and each seed is independently used to allow parallel processing and improve speed.
  • FIG. 4 shows an example of generating a hash table based on genomic reference sequences in one preferred embodiment of the present invention.
  • a hash table of the genome reference sequence can be generated as shown in FIG. 4.
  • a seed sequence field 420 consisting of sub-strings such as ACGACG, CGACGT, GACGTC .... while moving window 410 of length n / 6 one sequence to the right from the beginning of the reference sequence.
  • a hash value field 430 is generated for each department sequence, and a hash table including a start position field 440 for recording a start position of each seed sequence is generated.
  • the hash value is generated as one value for each department string in the seed sequence field 420.
  • the hash value generation method converts the base sequences A, C, G, and T into two bits of binary 00, 01, 10, and 11, respectively.
  • CGACGT is converted to a hash value of binary 011000011011.
  • the hash value field in the hash table is 011000011011, and 82 (411), 88 (412), ... are generated in the start position field (450).
  • Figure 5 shows a sequence recombination method for NGS, as a preferred embodiment of the present invention.
  • the fragment sequence 510 having a sequence length of n is divided into six equal parts. Among the pieces divided into six equal parts, the first three pieces are used as seeds (520).
  • the reason for using only three fragments located at the front of the fragment sequence 510 as a seed is that the fragment sequence has a lower accuracy as it goes backward in one sequence, and the higher the sequence accuracy as the front sequence. Because.
  • the start position (Offset) 530 is stored for each of the three seeds generated as described above.
  • the starting position of the seed is set based on the starting point of the fragment sequence 510, the position of the first seed (seed 1) is 0, the position of the second seed (seed 2) is n / 6, the position of the third seed (seed 3) is stored as 2n / 6.
  • mapping candidate position having the same sequence as each seed is found in the O (1) search time in the same hash table as in the embodiment of FIG.
  • the search is performed only for three seeds, so that the search time can be reduced to less than half compared to the conventional method.
  • mapping candidate position When the mapping candidate position is found, the similarity is measured by sorting the entire fragment sequence and the corresponding position of the reference sequence at each mapping candidate position by Smith-Waterman algorithm. After measuring similarity in all the searched mapping candidate positions, the position with the highest similarity is allocated to the optimal position.
  • FIG. 6 shows a schematic diagram of a sequence recombination device for NGS, according to a preferred embodiment of the present invention.
  • the sequence recombination apparatus 600 for the NGS includes a divider 610, a seed generator 620, a hash value generator 630, a hash table generator 640, and a searcher 650.
  • the divider 610 divides the fragment sequence having the sequence length n into six equal parts.
  • the fragment sequence can be divided into six equal parts to ensure optimal quality while ensuring quality.
  • the memory required per seed is 10bytes.
  • Seed sequence 0 bytes (inverted to hash value)
  • Chromosome # 1byte (23 pieces ⁇ 2 ⁇ 8)
  • Hashtable Size 10TB
  • the memory required per seed is 9 bytes.
  • Seed sequence 0 bytes (inverted to hash value)
  • Chromosome # 1byte (23 pieces ⁇ 2 ⁇ 8)
  • Hashtable Size 9Gbytes
  • the search unit 650 searches the hash table for hash values matching the hash values of the three seeds to search the mapping candidate positions.
  • the hash table includes a seed sequence field composed of n / 6 size department sequences, a hash value field recording hash values for each department string, and a start position field recording a start position of the department string.
  • the invention can also be embodied as computer readable code on a computer readable recording medium.
  • Computer-readable recording media include all kinds of recording devices that store data that can be read by a computer system.
  • Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage, and the like.
  • the computer readable recording medium can also be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Immunology (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 NGS를 위한 서열 재조합 방법 및 장치에 관한 것이다. 본 발명의 바람직한 일 실시예에서는 서열길이가 n인 단편서열을 6등분 한 후 앞부분의 3조각만을 시드로 활용하여 참조서열을 기초로 생성된 해쉬테이블을 검색하여 매칭후보위치를 검색한다.

Description

NGS를 위한 서열 재조합 방법 및 장치
본 발명은 생물 개체의 전체 유전 서열을 완성하는 시퀀싱 분야에 관한 것이다. 상세히, 본 발명은 NGS(Next Generation Sequencing)를 위해 짧은 서열 재조합하기 위한 인덱싱 및 검색 기술에 관한 것이다.
DNA 염기서열 정보의 해독, 즉 게놈시퀀싱(genome sequencing)의 핵심은 개인차 및 민족적 특성을 파악하거나 유전자 이상과 관련된 질환에서 염색체 이상을 포함한 선천성 원인의 규명과 당뇨병, 고혈압과 같은 복합질병의 유전자 결함을 찾기 위한 것이다.
또한 서열 데이터(Sequencing Data)는 유전자 발현, 유전자 다양성, 유전적 variation, 유전적 질병원인 및 그 상호작용 등의 정보들을 분자진단과 치료영역에서 폭넓게 활용할 수 있어 매우 중요하다.
유전 연구에서 전통적으로 사용되던 긴 서열을 생산하는 Sanger 시퀀싱 방법은 실험과정에 소요되는 시간이나 비용 및 그 응용성이 우수한 짧은 서열을 생산하는 NGS 기술로 빠르게 대체되고 있다. 또한 정확도에 초점을 맞춘 다양한 NGS 서열재조합 프로그램들이 개발되었다.
최근에는 NGS 비용이 과거 HGP에 비해 1/1,520,000 수준으로 떨어짐으로 인해 단편 서열로 사용할 수 있는 데이터의 양이 많아지게 되었다. 대량데이터를 처리하기 위한 방법으로 SOAP2와 같은 방식이 개발되었으나, SOAP2의 경우 특정 길이에 대해서는 빠른 속도를 보이지만 품질을 보장하지 못하는 문제가 있다. 이로 인해 짧은 대용량의 단편서열의 품질을 보장하면서도 빠른시간에 처리하고자 하는 요구가 높아지고 있다.
본 발명은 이상의 문제를 해결하기 위한 것으로 시퀀서로부터 획득한 짧은 단편 서열들의 품질을 보장하면서 재조합하여 하나의 전체 염기서열을 생성하는 인덱싱 기법 및 탐색 기법을 제시하고자 한다.
본 발명의 바람직한 일 실시예로서, NGS를 위한 서열 재조합 방법은 서열길이가 n인 단편서열을 6등분하는 단계; 참조서열을 n/6 크기의 부서열(sub-string) 단위로 해쉬값을 생성하여 해쉬테이블을 구성하는 단계; 상기 단편서열을 6등분한 조각들 중 상기 단편서열의 앞부분에 위치한 3조각을 각각 시드로 이용하는 단계; 상기 3개 시드의 해쉬값을 계산하는 단계;및 상기 3개 시드의 해쉬값과 일치하는 해쉬값을 상기 해쉬테이블에서 검색하여 매핑후보위치를 검색하는 단계;를 포함한다.
본 발명의 또 다른 바람직한 일 실시예로서, 서열길이가 n인 단편서열을 6등분하는 분할부; 상기 단편서열을 6등분한 조각들 중 상기 단편서열의 앞부분에 위치한 3조각을 각각 시드로 사용하는 시드생성부; 상기 3개 시드의 해쉬값을 계산하는 해쉬값생성부; 참조서열을 n/6 크기의 부서열(sub-string) 단위로 해쉬값을 생성하여 해쉬테이블을 구성하는 해쉬테이블생성부; 및 상기 3개 시드의 해쉬값과 일치하는 해쉬값을 상기 해쉬테이블에서 검색하여 매핑후보위치를 검색하는 검색부;를 포함한다.
본 발명에서는 시퀀서로부터 얻어진 짧은 단편 서열들을 재조합하여, 하나의 염기 서열을 만들 때, 품질을 보장하면서 속도를 개선시키는 효과가 있다.
본 발명에 개시된 NGS를 위한 서열 재조합 방법 및 장치를 통해 혈액검사로부터 전체 유전체 서열을 완성하는 시간을 단축시킬 수 있으며, 질병 진단시 빠른 유전체 분석이 가능하게 하여 유전적 질병원인을 밝히는 시간을 줄일 수 있다.
도 1 은 서열 데이터를 재조합하여 유전체 서열을 완성하는 흐름도를 도시한다.
도 2 는 유전체 분석 솔루션의 일반적인 구성도를 도시한다.
도 3 은 기존 MAQ 의 인덱싱 방법의 일 실시예를 도시한다.
도 4 는 본 발명의 바람직한 일 실시예에서 유전체 참조 서열을 기초로 해쉬테이블을 생성하는 예를 도시한다.
도 5 는 본 발명의 바람직한 일 실시예로서, NGS를 위한 서열 재조합 방법을 도시한다.
도 6은 본 발명의 바람직한 일 실시예로서, NGS를 위한 서열 재조합 장치 구성도를 도시한다.
NGS를 위한 서열 재조합 장치는 서열길이가 n인 단편서열을 6등분하는 분할부; 상기 단편서열을 6등분한 조각들 중 상기 단편서열의 앞부분에 위치한 3조각을 각각 시드로 사용하는 시드생성부; 상기 3개 시드의 해쉬값을 계산하는 해쉬값생성부; 참조서열을 n/6 크기의 부서열(sub-string) 단위로 해쉬값을 생성하여 해쉬테이블을 구성하는 해쉬테이블생성부; 및 상기 3개 시드의 해쉬값과 일치하는 해쉬값을 상기 해쉬테이블에서 검색하여 매핑후보위치를 검색하는 검색부;를 포함한다.
이하에서, 도면을 참조하여 본 발명의 실시예에 대하여 상세히 설명하기로 한다. 도면들 중 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 참조번호들 및 부호들로 나타내고 있음에 유의해야 한다.
하기에서 본 발명을 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.
또한, 본 발명에 보다 더 충실하도록 하기 위해서, 본 발명의 취지를 벗어나지 않는 범위 내에서 당업자 수준의 변경이나 변형이 있을 수 있음을 명기하는 바이다.
도 1 은 서열 데이터를 재조합하여 유전체 서열을 완성하는 흐름도를 도시한다.
유전체 참조 서열에 대한 인덱스를 작성한다(S110). 인덱스를 작성하기 위해 본 발명의 바람직한 일 실시예에서는 유전체 참조서열을 n/6 크기의 부서열(sub-string) 단위로 해쉬값을 생성하여 해쉬테이블을 구성한다. 이 때, n 은 입력되는 서열데이터(100)의 길이를 나타낸다. 유전체 참조서열을 n/6 크기의 부서열(sub-string) 단위로 해쉬값을 생성하는 예는 도 4를 참고한다.
본 발명의 바람직한 일 실시예에서, 서열데이터(100)는 100bp 길이 이내의 A, G, C, T로 이루어진 문자열인 서열 집합을 나타낸다.
이 후, 서열 데이터(100)를 6등분한 후, 6등분한 조각들 중 서열 데이터(100)의 앞부분에 위치한 3조각을 시드로 이용하며, 3개의 시드(Seed) 대해 해쉬값을 생성한다. 시드의 해쉬값이 생성되면 해쉬테이블 내에서 매칭되는 해쉬값을 검색하여 매핑후보의 위치를 검색한다(S110). 해쉬값을 생성하는 방법 및 해쉬테이블을 생성하는 실시예는 도 4를 참고한다.
매핑후보의 위치가 검색되면, 서열데이터(100)와 참조 서열의 해당위치를 갭없이 정렬하여 유사도를 측정한다(S120). 검색된 모든 매핑후보의 위치에 대해서 이 작업을 수행한 이후, 유사도가 가장 높은 위치를 최적의 위치로 선택한다(S130). 이후 짝을 이루는 두 서열의 짝을 찾고, 에러 검색 및 위치 보정을 수행하여 유전체 서열을 완성한다(S140, S150).
도 2 는 유전체 분석 솔루션의 일반적인 구성도를 도시한다.
유전체 분석 솔루션은 모든 Bio/Medical informatics의 모든 연구 및 수행에 필요한 과정으로 생물 개체의 전체 유전 서열을 알아내는 시퀀싱 분야, 유전적 Variation들간의 관계를 분석하는 분야, 유전적 질병 원인 유전 서열을 밝혀내는 의료 분야, 생명 현상의 원인 유전 서열을 밝혀내는 의료 분야 및 특정 화학 물질이 반응하는 단백질 및 유전서열을 밝혀내는 의약 분야에 사용된다.
본 발명의 바람직한 일 실시예에서는, 유전체 분석 솔루션의 전처리 과정에 해당하는 매핑(210) 단계 및 페어링(220) 단계에서 종래의 MAQ의 인덱싱 방법을 개선하여 이용한다.
종래의 MAQ(Mapping and Assembly with Quality)는 Genome Analyzer 뿐만 아니라 SOLiD 단편서열도 다룰 수 있는 툴로써, 단편 서열 단위로 매핑을 수행하였다. 또한 매핑시 6개의 시드를 사용하며, 2개의 시드를 짝을 이루어 매핑을 수행하였다.
도 3 은 기존 MAQ 의 인덱싱 방법의 일 실시예를 도시한다.
도 3을 참고하면, 기존의 MAQ에서는 k개의 미스매치를 허용한다면, MAQ은 각 단편서열을 k개 이상의 단편(fragment)으로 나눈다. 예를 들어, 길이가 28인 단편서열에 대해서 2개의 미스매치를 허용한다면, 4(>k=2)개의 단편으로 나눈 후, 시드를 2개씩 조합하여 Combination Seed를 생성하고, 이를 기초로 단편마다 6개의 해쉬값을 생성하여 해쉬 테이블을 만든다, 참조서열을 차례로 스캔하여 6개의 시드 중 하나라도 발견되면 정확한 정렬점수를 계산하여 맵핑할지 결정한다
그러나 본 발명에서는 MAQ을 이용하여 시드 단위로 매핑을 수행할 수 있으며, 또한 사용하는 시드의 개수를 3개로 줄여 종래의 MAQ 방법보다 최소 50% 이상 시간을 단축시킬 수 있다.
기존 MAQ 에서는 시드 조합을 위해 정형화된 패턴을 사용하고, 6개의 Non-continuous 시드를 사용함으로써 속도가 늦었다. 그러나, 본 발명에서 개시하는 일 실시예로서 본 발명은 3개의 시드를 사용하며, 또한 각 시드가 독립적으로 사용되어 Parallel Processing이 가능하며 속도가 향상된다.
도 4 는 본 발명의 바람직한 일 실시예에서 유전체 참조 서열을 기초로 해쉬테이블을 생성하는 예를 도시한다.
서열길이가 n인 단편서열이 입력되면, 유전체 참조서열의 해쉬테이블은 도 4와 같이 생성이 가능하다. 참조서열의 시작지점으로부터 길이가 n/6인 window(410)를 오른쪽 방향으로 하나의 서열씩 이동하면서 ACGACG, CGACGT, GACGTC.... 과 같은 부서열(sub-string) 이루어진 시드서열 필드(420)를 생성한다. 이 후 각 부서열에 대한 해쉬값필드(430)를 생성하고, 각 시드서열의 시작위치를 기록한 시작위치필드(440)를 포함하는 해쉬테이블을 생성한다.
본 발명의 바람직한 일 실시예에서, 해쉬값은 시드서열 필드(420) 내의 각 부서열에 대해서 하나의 값으로 생성한다. 해쉬값을 생성하는 방법은 염기서열 A, C, G, T에 대해서 각각 2bit의 이진수 00, 01, 10, 11로 치환하여 변환한다. 예를 들어서 CGACGT는 이진수 011000011011의 해쉬값으로 변환된다.
CGACGT 부서열의 경우 해쉬테이블 내의 해쉬값 필드는 011000011011, 시작위치 필드에는 82(411), 88(412),... 이 생성된다(450).
도 5 는 본 발명의 바람직한 일 실시예로서, NGS를 위한 서열 재조합 방법을 도시한다.
서열길이가 n인 단편서열(510)을 6등분으로 분할한다. 6등분으로 나뉘어진 조각 중 앞부분의 3조각을 시드로 이용한다(520). 본 발명의 바람직한 일 실시예에서 단편서열(510)의 앞부분에 위치한 3개의 조각만을 시드로 이용하는 이유는 단편서열은 한 서열 내에서 뒤로 갈수록 정확도가 낮아지고, 앞쪽에 있는 염기서열일 수록 정확도가 높기 때문이다.
이와 같이 생성된 3개의 시드에 대해 각각 시작위치(Offset)(530)을 저장한다. 본 발명의 바람직한 일 실시예에서 시드의 시작위치는 단편서열(510)의 시작지점을 기준으로 설정되며, 첫 번째 시드(시드1)의 위치는 0, 두 번째 시드(시드2)의 위치는 n/6, 세 번째 시드(시드3)의 위치는 2n/6으로 저장된다.
그리고, 생성된 3개의 시드에 대해 해쉬값을 생성한다. 이 후, 도 4의 일 실시예와 같은 해쉬테이블 내에서 각 시드와 같은 서열을 가지는 매핑후보위치를 O(1) 검색시간안에 찾는다.
본 발명의 바람직한 일 실시예에서 제시한 이상의 방식을 이용하여 검색을 수행할 경우, 3개의 시드에 대해서만 검색을 수행하므로 종래의 방식에 비해 검색시간이 절반 이하로 줄어들 수 있다.
매핑후보위치가 검색되면, 각 매핑후보위치에서 입력된 전체 단편서열과 참조서열의 해당 위치를 스미스-워터만(Smith-Waterman) 알고리즘으로 정렬하여 유사도를 측정한다. 검색된 모든 매핑후보위치에서 유사도를 측정한 이후 유사도가 가장 높은 위치를 최적의 위치로 할당하여 배치한다.
도 6은 본 발명의 바람직한 일 실시예로서, NGS를 위한 서열 재조합 장치 구성도를 도시한다.
NGS를 위한 서열 재조합 장치(600)는 분할부(610), 시드생성부(620), 해쉬값생성부(630), 해쉬테이블생성부(640) 및 검색부(650)를 포함한다.
분할부(610)는 서열길이가 n인 단편서열을 6등분한다. 본 발명의 바람직한 일 실시예에서는 단편 서열을 6등분한 경우 품질을 보장하면서 최적의 속도를 지원할 수 있다.
단편서열을 5등분한 경우와 6등분한 경우를 비교하면 아래와 같다.
1) 단편서열을 5등분 한경우
단편서열의 길이가 최대 100bp인 경우, 시드당 필요한 메모리는 10bytes이다.
시드서열: 0byte (해쉬값으로 역변환)
해쉬값: 5byte (4^20 개=2^(8*5)개)
시작위치 : 5byte
-염색체# : 1byte(23개<2^8)
-offset : 4byte(2억4천만 < 2^(8*4)
해쉬테이블 크기 : 10TB
10bytes*4^20=10*(2^30)*2^10=10GB*2^10=10TB
단편서열을 5등분할 경우, 이상에서와 같이 해쉬테이블을 위해 10TB가 요구된다.
2) 단편서열을 6등분 한경우
단편서열의 길이가 최대 100bp인 경우, 시드당 필요한 메모리는 9bytes이다.
시드서열: 0byte (해쉬값으로 역변환)
해쉬값: 4byte (4^15 개=2^(8*4)개)
시작위치 : 5byte
-염색체# : 1byte(23개<2^8)
-offset : 4byte(2억4천만 < 2^(8*4)
해쉬테이블 크기 : 9Gbytes
9bytes*4^15=9*(2^30)=9GB
단편서열을 6등분할 경우, 이상에서와 같이 해쉬테이블을 위해 9GB가 요구된다.
검색부(650)는 3개 시드의 해쉬값과 일치하는 해쉬값을 해쉬테이블에서 검색하여 매핑후보위치를 검색한다. 해쉬테이블은 n/6 크기의 부서열로 구성된 시드서열 필드, 부서열 각각에 대한 해쉬값을 기록된 해쉬값 필드, 부서열의 시작위치를 기록한 시작위치 필드를 포함한다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.
컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피 디스크, 광데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이상 도면과 명세서에서 최적 실시예들이 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다.
그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (14)

  1. 서열길이가 n인 단편서열을 6등분하는 단계;
    참조서열을 n/6 크기의 부서열(sub-string) 단위로 해쉬값을 생성하여 해쉬테이블을 구성하는 단계;
    상기 단편서열을 6등분한 조각들 중 상기 단편서열의 앞부분에 위치한 3조각을 각각 시드로 이용하는 단계;
    상기 3개 시드의 해쉬값을 계산하는 단계;및
    상기 3개 시드의 해쉬값과 일치하는 해쉬값을 상기 해쉬테이블에서 검색하여 매핑후보위치를 검색하는 단계;를 포함하는 것을 특징으로 하는 NGS를 위한 서열 재조합 방법.
  2. 제 1 항에 있어서, 상기 3개의 시드의 시작위치는
    상기 단편서열의 시작지점을 기준으로 설정되며, 첫 번째 시드의 위치는 0, 두 번째 시드의 위치는 n/6, 세 번째 시드의 위치는 2n/6인 것을 특징으로 하는 NGS를 위한 서열 재조합 방법.
  3. 제 1 항에 있어서, 상기 해쉬값은
    염기서열 A, G, C, T 각각에 대해 이진수 00, 01, 10, 11로 치환하여 생성된 값인 것을 특징으로 하는 NGS를 위한 서열 재조합 방법.
  4. 제 1 항에 있어서, 상기 검색하는 단계에서
    상기 3개의 시드 각각에 대한 검색시간은 O(1) 이내인 것을 특징으로 하는 NGS를 위한 서열 재조합 방법.
  5. 제 1 항에 있어서, 상기 검색하는 단계에서
    상기 3개의 시드를 병렬로 동시에 검색이 가능한 것을 특징으로 하는 NGS를 위한 서열 재조합 방법.
  6. 제 1 항에 있어서, 상기 해쉬테이블은
    상기 n/6 크기의 부서열로 구성된 시드서열 필드, 상기 부서열 각각에 대한 해쉬값을 기록된 해쉬값 필드, 상기 부서열의 시작위치를 기록한 시작위치 필드를 포함하는 것을 특징으로 하는 NGS를 위한 서열 재조합 방법.
  7. 제 1 항에 있어서, 각 매핑후보위치에서 입력된 전체 단편서열과 참조서열의 해당 위치를 정렬하여 유사도를 측정하는 단계를 더 포함하는 것을 특징으로 하는 NGS를 위한 서열 재조합 방법.
  8. 서열길이가 n인 단편서열을 6등분하는 분할부;
    상기 단편서열을 6등분한 조각들 중 상기 단편서열의 앞부분에 위치한 3조각을 각각 시드로 사용하는 시드생성부;
    상기 3개 시드의 해쉬값을 계산하는 해쉬값생성부;및
    참조서열을 n/6 크기의 부서열(sub-string) 단위로 해쉬값을 생성하여 해쉬테이블을 구성하는 해쉬테이블생성부;
    상기 3개 시드의 해쉬값과 일치하는 해쉬값을 상기 해쉬테이블에서 검색하여 매핑후보위치를 검색하는 검색부;를 포함하는 것을 특징으로 하는 NGS를 위한 서열 재조합 장치.
  9. 제 8 항에 있어서, 상기 3개의 시드의 시작위치는
    상기 단편서열의 시작지점을 기준으로 설정되며, 첫 번째 시드의 위치는 0, 두 번째 시드의 위치는 n/6, 세 번째 시드의 위치는 2n/6인 것을 특징으로 하는 NGS를 위한 서열 재조합 장치.
  10. 제 8 항에 있어서, 상기 해쉬값은
    염기서열 A, G, C, T 각각에 대해 이진수 00, 01, 10, 11로 치환하여 생성된 값인 것을 특징으로 하는 NGS를 위한 서열 재조합 장치.
  11. 제 8 항에 있어서, 상기 검색하는 단계에서
    상기 3개의 시드 각각에 대한 검색시간은 O(1) 이내인 것을 특징으로 하는 NGS를 위한 서열 재조합 장치.
  12. 제 8 항에 있어서, 상기 검색하는 단계에서
    상기 3개의 시드를 병렬로 동시에 검색이 가능한 것을 특징으로 하는 NGS를 위한 서열 재조합 장치.
  13. 제 8 항에 있어서, 상기 해쉬테이블은
    상기 n/6 크기의 부서열로 구성된 시드서열 필드, 상기 부서열 각각에 대한 해쉬값을 기록된 해쉬값 필드, 상기 부서열의 시작위치를 기록한 시작위치 필드를 포함하는 것을 특징으로 하는 NGS를 위한 서열 재조합 장치.
  14. 제 8 항에 있어서, 각 매핑후보위치에서 입력된 전체 단편서열과 참조서열의 해당 위치를 정렬하여 유사도를 측정하는 단계를 더 포함하는 것을 특징으로 하는 NGS를 위한 서열 재조합 장치.
PCT/KR2012/007273 2011-10-31 2012-09-11 Ngs를 위한 서열 재조합 방법 및 장치 WO2013065944A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US14/355,434 US20140288851A1 (en) 2011-10-31 2012-09-11 Method for sequence recombination and apparatus for ngs
CN201280053889.9A CN103946396B (zh) 2011-10-31 2012-09-11 用于下一代测序的序列重组方法及装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020110112370A KR101313087B1 (ko) 2011-10-31 2011-10-31 Ngs를 위한 서열 재조합 방법 및 장치
KR10-2011-0112370 2011-10-31

Publications (1)

Publication Number Publication Date
WO2013065944A1 true WO2013065944A1 (ko) 2013-05-10

Family

ID=48192257

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2012/007273 WO2013065944A1 (ko) 2011-10-31 2012-09-11 Ngs를 위한 서열 재조합 방법 및 장치

Country Status (4)

Country Link
US (1) US20140288851A1 (ko)
KR (1) KR101313087B1 (ko)
CN (1) CN103946396B (ko)
WO (1) WO2013065944A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022006A (zh) * 2016-06-02 2016-10-12 广州麦仑信息科技有限公司 一种将基因信息进行二进制表示的存储方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101576794B1 (ko) * 2013-01-29 2015-12-11 삼성에스디에스 주식회사 리드 길이를 고려한 염기 서열 정렬 시스템 및 방법
KR101600660B1 (ko) * 2013-05-09 2016-03-07 삼성에스디에스 주식회사 리드의 퀄리티를 고려한 염기 서열 처리 시스템 및 방법
KR101447593B1 (ko) * 2013-12-31 2014-10-07 서울대학교산학협력단 차세대 시퀀싱 방법을 이용하여 생물체의 엽록체, 미토콘드리아 또는 핵 리보솜 dna의 완전한 게놈 서열을 해독하는 방법
CN106295250B (zh) * 2016-07-28 2019-03-29 北京百迈客医学检验所有限公司 二代测序短序列快速比对分析方法及装置
CN108052797A (zh) * 2017-12-28 2018-05-18 上海嘉因生物科技有限公司 应用于组织样本中染色体上转录因子结合位点的检测方法
CN108897986B (zh) * 2018-05-29 2020-11-27 中南大学 一种基于蛋白质信息的基因组序列拼接方法
CN108932401B (zh) * 2018-06-07 2021-09-24 江西海普洛斯生物科技有限公司 一种测序样本的标识方法及其应用
CN109841264B (zh) * 2019-01-31 2022-02-18 郑州云海信息技术有限公司 一种序列比对滤波处理方法、系统、装置及可读存储介质
WO2020182175A1 (en) * 2019-03-14 2020-09-17 Huawei Technologies Co., Ltd. Method and system for merging alignment and sorting to optimize

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101253700B1 (ko) * 2010-11-26 2013-04-12 가천대학교 산학협력단 Ngs 데이터의 고속 압축장치 및 그 방법

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BAO, E. ET AL.: "SEED: efficient clustering of next-generation sequences", BIOINFORMATICS, vol. 27, no. 18, 15 September 2011 (2011-09-15), pages 2502 - 2509 *
LI, H. ET AL.: "Mapping short DNA sequencing reads and calling variants using mapping quality scores", GENOME RES., vol. 18, no. 11, November 2008 (2008-11-01), pages 1851 - 1858, XP001503357, DOI: doi:10.1101/GR.078212.108 *
PHILIPPE, N. ET AL.: "Querying large read collections in main memory: a versatile data structure", BMC BIOINFORMATICS, vol. 12, no. 242, 17 January 2011 (2011-01-17) *
ZHAO, Y. ET AL.: "RAPSearch2: a fast and memory-efficient protein similarity search tool for next-generation sequencing data", BIOINFORMATICS, vol. 28, no. 1, 1 January 2012 (2012-01-01), pages 125 - 126 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022006A (zh) * 2016-06-02 2016-10-12 广州麦仑信息科技有限公司 一种将基因信息进行二进制表示的存储方法

Also Published As

Publication number Publication date
KR101313087B1 (ko) 2013-09-30
US20140288851A1 (en) 2014-09-25
CN103946396B (zh) 2016-08-24
KR20130047382A (ko) 2013-05-08
CN103946396A (zh) 2014-07-23

Similar Documents

Publication Publication Date Title
WO2013065944A1 (ko) Ngs를 위한 서열 재조합 방법 및 장치
Kim et al. HISAT: a fast spliced aligner with low memory requirements
CN112530519B (zh) 一种检测样本中微生物和耐药基因的方法和系统
US7424371B2 (en) Nucleic acid analysis
KR102371953B1 (ko) 서열 정렬 방법 및 시스템
KR102446941B1 (ko) 서열 변이체 검출 방법 및 시스템
US20160259880A1 (en) Systems and methods for genomic pattern analysis
CN104302781A (zh) 一种检测染色体结构异常的方法及装置
WO2011071209A1 (ko) 히든 마코브 모델을 이용한 식물 저항성 유전자 동정 및 분류를 위한 시스템 및 방법
US20160092630A1 (en) Accurate and fast mapping of reads to genome
WO2014069769A1 (ko) 리드 전체를 고려한 염기 서열 정렬 시스템 및 방법
CN110211633B (zh) Mgmt基因启动子甲基化的检测方法、测序数据的处理方法及处理装置
WO2021025219A1 (ko) 유전적 구성비를 이용한 질병 또는 표현형의 위험도 예측 장치 및 방법
CN111321209A (zh) 一种用于循环肿瘤dna测序数据双端矫正的方法
Kanchan et al. Computational metagenomics: Current status and challenges
CN107862177B (zh) 一种区分鲤群体的单核苷酸多态性分子标记集的构建方法
Achouri et al. VODKA2: a fast and accurate method to detect non-standard viral genomes from large RNA-seq data sets
WO2023158253A1 (ko) 핵산서열 분석 기반 유전자 변이 해석 방법
WO2019031867A1 (ko) 앰플리콘 기반 차세대 염기서열 분석기법에서 프라이머 서열을 제거하여 분석의 정확도를 높이는 방법
WO2014119914A1 (ko) 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
WO2020184816A1 (ko) 신약 후보 물질 도출을 위한 데이터 처리 방법
Halperin et al. FramePlus: aligning DNA to protein sequences
WO2019117353A1 (ko) 분산 처리에 기반한 마이크로 rna 분석 시스템
Gudodagi et al. Investigations and Compression of Genomic Data
CN110534158A (zh) 一种基因序列比对方法、装置、服务器及介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12845416

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 14355434

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 12845416

Country of ref document: EP

Kind code of ref document: A1