WO2014069764A1 - 염기 서열 정렬 시스템 및 방법 - Google Patents

염기 서열 정렬 시스템 및 방법 Download PDF

Info

Publication number
WO2014069764A1
WO2014069764A1 PCT/KR2013/007276 KR2013007276W WO2014069764A1 WO 2014069764 A1 WO2014069764 A1 WO 2014069764A1 KR 2013007276 W KR2013007276 W KR 2013007276W WO 2014069764 A1 WO2014069764 A1 WO 2014069764A1
Authority
WO
WIPO (PCT)
Prior art keywords
sequence
fragment
mapping
read
alignment
Prior art date
Application number
PCT/KR2013/007276
Other languages
English (en)
French (fr)
Inventor
박민서
Original Assignee
삼성에스디에스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사 filed Critical 삼성에스디에스 주식회사
Publication of WO2014069764A1 publication Critical patent/WO2014069764A1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Definitions

  • Embodiments of the invention relate to techniques for analyzing the base sequence of a genome.
  • NGS Next Generation Sequencing
  • S Next Generation Sequencing
  • various NGS sequence recombination programs have been developed with a focus on accuracy.
  • recent advances in next-generation sequencing technology have resulted in less than half the cost of creating fragment sequences, which has resulted in a large amount of data that can be used to quickly and accurately process large, short sequences. Skills needed.
  • the first step in sequence recombination is to map reads to the correct position of the reference sequence via a nucleotide sequence alignment algorithm.
  • the problem here is that even with individuals of the same species, there may be differences in genomic sequences due to various genetic variations. Errors in sequencing can also lead to differences in nucleotide sequences. Therefore, the sequence alignment algorithm must effectively consider these differences and variations to increase the mapping accuracy.
  • Embodiments of the present invention are to provide a base sequence alignment means that can ensure the mapping accuracy and at the same time improve the complexity of the mapping to increase the processing speed.
  • a nucleotide sequence alignment system includes a fragment sequence generation unit that generates a plurality of fragment sequences from reads, and matches a reference sequence among the generated plurality of fragment sequences.
  • a filtering unit constituting a candidate fragment sequence set including only fragment sequences to be divided, a mapping number calculator for dividing the reference sequence into a plurality of sections, calculating a total mapping number of the candidate fragment sequences for each section, and a calculated And selecting an interval in which the total number of mappings is equal to or greater than a reference number and performing global alignment on the reads with respect to the selected interval.
  • the base sequence alignment method for solving the above problems, in the fragment sequence generation unit, generating a plurality of fragment (fragment) sequence from the read, the filtering unit, the generated plurality Constructing a candidate fragment sequence set including only a fragment sequence matching a reference sequence among the fragment sequences, and in the mapping number calculation unit, dividing the reference sequence into a plurality of sections, and for each of the sections, Calculating a total number of mappings, and selecting, by the aligning unit, a section in which the calculated total number of mappings is equal to or greater than a reference number, and performing global alignment on the reads with respect to the selected section.
  • the seed fragment sequence
  • alignment of the read may improve accuracy compared to an algorithm considering only a part of the read.
  • global alignment can be further speeded up by performing global alignment on fragment sequences that are likely to form combinations. It is possible to reduce the number of unnecessary global sorts by configuring it so as not to perform global sort repeatedly around the corresponding position.
  • FIG. 1 is a view for explaining the nucleotide sequence alignment method 100 according to an embodiment of the present invention.
  • FIG. 2 is a diagram illustrating a process of calculating a minimum error estimate in step 108 of the nucleotide sequence alignment method 100 according to an embodiment of the present invention.
  • FIG 3 is a view for explaining the fragment sequence generation process in step 112 of the nucleotide sequence alignment method 100 according to an embodiment of the present invention.
  • FIG. 4 is a diagram illustrating a process of selecting a mapping target section in a reference sequence according to an embodiment of the present invention.
  • FIG. 5 is an exemplary diagram for describing a method for reducing an unnecessary number of global alignments during global alignment according to an embodiment of the present invention.
  • FIG. 6 is a block diagram illustrating a nucleotide sequence alignment system 600 according to an embodiment of the present invention.
  • read sequence (or “referred to as” lead “for short) is short-length nucleotide sequence data output from a genome sequencer.
  • the length of the read is generally composed of about 35-500bp (base pair) according to the type of genome sequencer, and in the case of DNA base, it is generally expressed by alphabet letters of A, C, G, and T.
  • Reference sequence means the base sequence to which reference is made to generate the entire base sequence from the reads. In sequencing, the entire nucleotide sequence is completed by mapping a large amount of reads output from the genome sequencer with reference to the reference sequence.
  • the reference sequence may be a predetermined sequence (for example, the entire nucleotide sequence of a human) in nucleotide sequence analysis, or may be used as a reference sequence a nucleotide sequence generated in the genome sequencer.
  • Base is the minimum unit that makes up the reference sequence and read.
  • the DNA base may be composed of four types of alphabet letters A, C, G, and T, each of which is referred to as a base.
  • the DNA base is represented by four bases, as is the read.
  • a "fragment sequence” is a sequence that becomes a unit when comparing reads to reference sequences for mapping of reads. Theoretically, in order to map a read to a reference sequence, the mapping position of the read should be calculated by comparing the entire read from the first part of the reference sequence sequentially. However, such a method requires too much time and computing power to map one read, so that the mapping candidate position of the entire read is found by first mapping the fragment sequence, which is actually a fragment consisting of parts of the read, to the reference sequence. The entire read is mapped to the candidate position.
  • the nucleotide sequence alignment method 100 includes a series of processes for determining a mapping (or alignment) position in the reference sequence of the read by comparing the read output from the genome sequencer with the reference sequence. it means.
  • mEB minimum error bound
  • the reason why the mEB value is the minimum error estimate is not a review of the number of all errors that may occur in the read, but when an error occurs in a certain part, a new match is performed after that. This is because it only checks for one position. That is, the mEB value may be the minimum value of errors that may occur in the corresponding read, and more errors may be generated at other positions of the target sequence.
  • the minimum error estimate of the lead is calculated through the above process, it is determined whether the calculated minimum error estimate exceeds the preset maximum error tolerance (MaxError) (110). The sort is determined to have failed, and the sort ends.
  • the maximum error tolerance (MaxError) was set to 3 and the minimum error estimate of the remaining reads was calculated, resulting in a total of 844,891 reads exceeding the maximum error tolerance. appear. That is, as a result of performing step 108, the alignment requirement by about 42.2% could be reduced.
  • the corresponding read is aligned through the following process.
  • a plurality of fragment sequences are generated from the read (112), and a candidate fragment sequence set including only the fragment sequence matching the reference sequence among the generated plurality of fragment sequences (114). Thereafter, the reference sequence is divided into a plurality of sections, the total mapping number of the candidate fragment sequences is calculated for each section (116), a section having a total mapping number greater than or equal to the reference number is selected according to the calculation result, and the selected section Global alignment for the read is performed with respect to 118. In this case, when the number of errors of the read as a result of the global sorting exceeds a preset maximum error tolerance (MaxError), it is determined that the sorting fails, otherwise the sorting is successful (120).
  • MaxError maximum error tolerance
  • This step is to generate a plurality of small fragment fragment sequences from the read in order to perform alignment of the read in earnest.
  • the fragment sequences are generated by reading the read value by the set fragment size while moving from the first base to the last base by the set shift size.
  • the read length is 75bp (base pair), the maximum error tolerance of the read 3bp, the fragment size (fragment size) of 15bp, the shift size (shift size) is shown in the embodiment . That is, the fragment sequence is generated by moving rightward by 4bp from the first base of the read.
  • the movement interval, the size of the fragment sequence, and the like may be appropriately determined in consideration of values such as the length of the read, the maximum error tolerance of the read, and the like.
  • the scope of the present invention is not limited to the size and shift interval of a specific fragment sequence.
  • the candidate fragment sequence set (sub-candidate) is formed through a filtering process to exclude fragment sequences that do not match the reference sequence among the generated fragment sequences. That is, an attempt is made to match the generated fragment sequences with the reference sequence, and as a result, the candidate fragment sequence set is replaced with fragment sequences (candidate fragment sequences) whose number of inconsistent bases is less than or equal to a preset tolerance. Will be constructed. In this case, when the allowance is 0, the candidate fragment sequence set includes only fragment sequences that match and match the reference sequence.
  • the fragment sequences containing the error are not matched with the reference sequence, and are not affected by the error 17-31, 37-51, 41-55 and 45- Only four fragment sequences of 59 match the reference sequence. In this case, therefore, the candidate fragment sequence set includes only the four fragment sequences described above.
  • reference sequences eg, human genomes
  • reference sequences generally comprise a plurality of repeat sequences. Since these overlapping sequences are distributed at various positions of the reference sequence and repeatedly include the same nucleotide sequence, some fragment sequences may cause coincident matching at too many positions when mapping with the reference sequence. However, such overlapping sequences can adversely affect the complexity and accuracy of the entire alignment algorithm if too many mappings are generated in some fragment sequences, so in this case it is necessary to reduce the number of overlapping positions using appropriate methods. There is.
  • the size of the corresponding fragment sequence until the mapping duplication number becomes less than or equal to the set value It may further include expanding the.
  • the number of mapping positions in the reference sequence of each of the generated candidate fragment sequences is calculated, and a value for which the calculated mapping overlap number (the number of mapping positions in the reference sequence of the corresponding fragment sequence) is set.
  • the size of the selected fragment sequence is expanded until the number of mapping overlaps in the reference sequence is less than or equal to the set value.
  • the size expansion of the selected fragment sequence may be performed by adding a base in the read corresponding to the position at the beginning or the end of the selected fragment sequence.
  • mapping result for the fragment sequence has 65 mapping duplications in the reference sequence exceeding the reference value of 50, the length of the fragment sequence is extended by 1bp until the mapping duplication falls below the reference value as follows. .
  • the set value is also a value that can be appropriately determined according to the characteristics of the reference sequence, read and fragment sequence, etc.
  • the present invention is not limited to the specific duplicate number set value range It should be noted that
  • the reference sequence is first divided into a plurality of sections having the same size, and the following values are calculated for each divided section.
  • the (A, B) value of the interval becomes (1, 15), where 1 is Total number of candidate fragment sequences mapped to the interval, 15 is the total mapping length of candidate fragment sequences mapped).
  • the (A, B) value of that interval becomes (1, 15).
  • the fragment sequence of 41-55 is mapped to the second section again, the (A, B) value of the corresponding section is updated to (2, 19), for the following reason.
  • First value 2 Total number of candidate fragment sequences mapped to the interval
  • Second value 19 total mapping length taking into account overlapping intervals of the first mapped 37-51 and the subsequently mapped 41-55
  • mapping target section When the mapping number and the mapping length of each section are calculated through the above process, a section having a mapping number greater than or equal to the set reference number is selected as the mapping target section.
  • a section that is greater than or equal to the set reference length among the sections in which the total mapping number is greater than or equal to the reference number may be selected as a mapping target section.
  • the reference number should be at least 2, since the reason that only one fragment sequence is mapped is very low likelihood that leads are mapped when the basic unit of mapping is a fragment sequence. Details of the reference length will be described later.
  • mapping target section selection process is a diagram illustrating a mapping target section selection process according to an embodiment of the present invention. As shown, it is assumed that the reference sequence is divided into four sections from sections 1 to 4, and the mapping number and mapping length of each section are calculated as follows.
  • the sections satisfying the reference number and the reference length are sections 3 and 4, and thus, in this step, sections corresponding to the sections 3 and 4 are determined. It is selected as the mapping target section.
  • all corresponding sections become mapping target sections, and global alignment is performed in all of the plurality of sections included in the mapping target sections.
  • the mapping number or the mapping length of each section included in the mapping target section may be compared with each other, and global sorting may be sequentially performed from the section having the large number or the mapping length.
  • the number of mapping between the interval 3 and the interval 4 is the same as 2, but since the mapping length value is greater than the interval 4, in this case, global alignment may be performed from the interval 4.
  • mapping target section When the mapping target section is selected in this way, candidate fragment sequences mapped to the corresponding mapping target section among candidate fragment sequences are selected as final candidate fragment sequences, and each of the selected final candidate fragment sequences is selected.
  • Complete the sort on the reads by performing a global sort on the reads at the mapping location of.
  • candidate fragment sequences mapped to interval 4 in the embodiment of FIG. 4 are three of 37-51, 41-55, and 45-59, the three candidate fragment sequences become final candidates.
  • Global alignment of reads is performed at the mapping positions in the corresponding intervals.
  • the mapping target section is divided into a plurality of subsections, and then, in the case of a subsection in which a global alignment is performed, it is configured to be recorded. Subsequently, in the global sorting for the corresponding subdivision, it is determined whether the global sorting has been performed previously in the subdivision by using the recorded information, and the global sorting is performed only if the global sorting has not been performed as a result of the determination. Done.
  • mapping target interval is divided into five subsections, 37-51 and 41-55 of the three final candidates are mapped to the second subsection, and 45-59 to the fourth subsection.
  • global alignment is performed in the second subsection for the fragment sequence of 37-51, global alignment is not performed for 41-55 belonging to the same subsection regardless of the result, and vice versa.
  • global alignment is only performed for the combination of 37-51 / 45-59 or 41-55 / 45-59.
  • a long time is required for global alignment, and thus, the time required for the electrothermal alignment may be reduced.
  • the reference length can be calculated in the following manner.
  • T is determined according to the values of f and s. That is, the performance of the algorithm changes depending on how the values of f and s are changed.
  • the H value should satisfy the following range.
  • f selects a larger value among the following two conditions. Essential conditions must also be met and additional conditions are considered where possible.
  • f must be at least 15, since the number of mapping positions in the reference sequence increases rapidly when the length of the fragment sequence is 14 or less.
  • Table 1 below shows the average frequency of appearance of fragment sequences in the human genome according to fragment sequence length.
  • the frequency of each fragment sequence is 10 or more, but in the case of 15, the frequency decreases to 3 or less.
  • duplication of the fragment sequence can be greatly reduced as compared with the case of configuring the length of the fragment sequence to 15 or less.
  • f should have a value of 16 or less.
  • s is fixed to 4 and then f and H are determined.
  • H is the reference length
  • L is the length of the read
  • f is the length of the fragment sequence
  • e is the maximum number of errors in the read
  • s is the shift interval of each fragment sequence.
  • Base sequence alignment system 600 is a device for performing the above-described nucleotide sequence alignment method, fragment sequence generation unit 602, filtering unit 604, mapping number calculation unit 606 , Alignment 608 and fragment sequence extension 610.
  • the fragment sequence generator 602 generates a plurality of fragment sequences from reads obtained from the genome sequencer. As described above, the fragment sequence generation unit 602 generates the fragment sequences by reading the value of the read by the set size while moving by the set interval from the first base of the read.
  • the filtering unit 604 configures a candidate fragment sequence set including only a fragment sequence matching the reference sequence among the generated plurality of fragment sequences.
  • the fragment sequence matched with the reference sequence means a fragment sequence having a number of bases that are inconsistent as a result of an exact matching with the reference sequence.
  • the mapping number calculator 606 divides the reference sequence into a plurality of sections, and calculates a mapping position of the candidate fragment sequences for each section and a total mapping number of the candidate fragment sequences for each section.
  • the alignment unit 608 selects a section in which the total number of mappings calculated by the mapping number calculator 606 is greater than or equal to a reference number, and performs global alignment on the reads for the selected section. Specifically, the alignment unit 608 performs global alignment on the read based on the mapping position in the reference sequence of the candidate fragment sequence mapped to the selected section of the candidate fragment sequences.
  • the alignment unit 608 divides the selected section (mapping target section) into a plurality of subsections, and determines whether global alignment has been previously performed in the subsection to which the position in the reference sequence to which the global alignment is to be performed belongs.
  • the method may be configured to reduce the number of unnecessary global alignments by performing the global alignment only when the global alignment is not previously performed as a result of the determination.
  • the fragment sequence expansion unit 610 calculates a mapping overlap number in the reference sequence of each of the candidate fragment sequences generated by the filtering unit 604, and calculates a fragment sequence whose calculated mapping overlap number exceeds a set value. Select and extend the size of the selected fragment sequence until the number of mapping overlaps in the reference sequence is less than or equal to the set value. At this time, the fragment sequence expansion unit 610 performs the expansion by adding a base in the read corresponding to the position at the beginning or the end of the selected fragment sequence.
  • an embodiment of the present invention may include a computer readable recording medium including a program for performing the methods described herein on a computer.
  • the computer-readable recording medium may include program instructions, local data files, local data structures, etc. alone or in combination.
  • the media may be those specially designed and constructed for the purposes of the present invention, or they may be of the kind well-known and available to those skilled in the computer software arts.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical recording media such as CD-ROMs, DVDs, magnetic-optical media such as floppy disks, and ROM, RAM, flash memory, and the like.
  • Hardware devices specifically configured to store and execute program instructions are included.
  • Examples of program instructions may include high-level language code that can be executed by a computer using an interpreter as well as machine code such as produced by a compiler.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

염기 서열 정렬 시스템 및 방법이 개시된다. 본 발명의 일 실시예에 따른 염기 서열 정렬 시스템은, 리드로부터 복수 개의 단편(fragment) 서열들을 생성하는 단편 서열 생성부, 생성된 상기 복수 개의 단편 서열들 중 참조 서열과 매칭되는 단편 서열만을 포함하는 후보 단편 서열 집합을 구성하는 필터링부, 상기 참조 서열을 복수 개의 구간으로 분할하고, 상기 각 구간 별 상기 후보 단편 서열들의 총 맵핑 개수를 계산하는 맵핑 개수 계산부, 및 계산된 상기 총 맵핑 개수가 기준 개수 이상인 구간을 선택하고, 선택된 구간에 대하여 상기 리드에 대한 전역 정렬(global alignment)을 수행하는 정렬부를 포함한다.

Description

염기 서열 정렬 시스템 및 방법
본 발명의 실시예들은 유전체의 염기 서열을 분석하기 위한 기술과 관련된다.
저렴한 비용과 빠른 데이터 생산으로 인해 대용량의 짧은 서열을 생산하는 차세대 시퀀싱(NGS; Next Generation Sequencing)이 전통적인 생거(Sanger) 시퀀싱 방식을 빠르게 대체하고 있다. 또한 다양한 NGS 서열재조합 프로그램들이 정확도에 초점을 맞추어 개발되었다. 그러나, 최근 차세대 시퀸싱 기술이 발전함에 따라 단편 서열을 만들어 내는 비용이 예전의 절반 이하가 되었고, 이에 따라 사용할 수 있는 데이터의 양이 많아지게 되어서, 대용량의 짧은 서열들을 빠른 시간에 정확하게 처리하기 위한 기술이 필요하게 되었다.
서열 재조합의 첫 번째 단계는 염기 서열 정렬(alignment) 알고리즘을 통해 리드를 참조 서열의 정확한 위치에 맵핑(mapping)하는 것이다. 여기서의 문제점은 같은 종의 개체라 할지라도 다양한 유전적 변이로 인해 유전체 서열에 차이가 있을 수 있다는 점이다. 또한 시퀀싱 과정에서의 오류로 인해서도 염기 서열에 차이가 생길 수 있다. 따라서 염기 서열 정렬 알고리즘은 이러한 차이와 변이를 효과적으로 고려해서 맵핑 정확도를 높이지 않으면 안 된다.
결론적으로, 유전체 정보의 분석을 진행하기 위해서는, 될 수 있는 한 많은 수의 정확한 전체 유전체 정보 데이터가 필요하다. 또 이를 위해서는 무엇보다도 뛰어난 정확도와 큰 처리량을 갖는 염기 서열 정렬 알고리즘을 개발하는 것이 선행되어야 한다. 그러나 종래의 방법들은 이러한 요구 조건들을 만족시키는 데 한계가 있었다.
본 발명의 실시예들은 맵핑 정확도를 보장하는 동시에 맵핑 시의 복잡도를 개선하여 처리 속도를 높일 수 있는 염기 서열 정렬 수단을 제공하는 데 그 목적이 있다.
상기 과제를 해결하기 위한 본 발명의 일 실시예에 따른 염기 서열 정렬 시스템은, 리드로부터 복수 개의 단편(fragment) 서열들을 생성하는 단편 서열 생성부, 생성된 상기 복수 개의 단편 서열들 중 참조 서열과 매칭되는 단편 서열만을 포함하는 후보 단편 서열 집합을 구성하는 필터링부, 상기 참조 서열을 복수 개의 구간으로 분할하고, 상기 각 구간 별 상기 후보 단편 서열들의 총 맵핑 개수를 계산하는 맵핑 개수 계산부, 및 계산된 상기 총 맵핑 개수가 기준 개수 이상인 구간을 선택하고, 선택된 구간에 대하여 상기 리드에 대한 전역 정렬(global alignment)을 수행하는 정렬부를 포함한다.
한편, 상기 과제를 해결하기 위한 본 발명의 일 실시예에 따른 염기 서열 정렬 방법은, 단편 서열 생성부에서, 리드로부터 복수 개의 단편(fragment) 서열들을 생성하는 단계, 필터링부에서, 생성된 상기 복수 개의 단편 서열들 중 참조 서열과 매칭되는 단편 서열만을 포함하는 후보 단편 서열 집합을 구성하는 단계, 맵핑 개수 계산부에서, 상기 참조 서열을 복수 개의 구간으로 분할하고, 상기 각 구간 별로 상기 후보 단편 서열들의 총 맵핑 개수를 계산하는 단계, 및 정렬부에서, 계산된 상기 총 맵핑 개수가 기준 개수 이상인 구간을 선택하고, 선택된 구간에 대하여 상기 리드에 대한 전역 정렬(global alignment)을 수행하는 단계를 포함한다.
본 발명의 실시예들에 따를 경우 리드의 정렬 시 리드의 특정 영역만을 고려하는 것이 아니라 리드 전체를 고려하여 시드(단편 서열)를 선택하므로 리드의 일부분만을 고려하는 알고리즘에 비해 정확도를 향상할 수 있다.
또한 단편 서열 별로 참조 서열 내에서의 반복수를 제한하고, 이를 초과하는 시드에 대해서는 시드의 길이를 확장함으로써 맵핑의 정확도를 높임과 동시에 속도 또한 향상할 수 있는 효과가 있다.
또한 참조 서열을 복수 개의 영역으로 나눈 뒤, 이 중 리드가 맵핑될 가능성이 높은 특정 영역을 선택하고, 해당 영역 내에서만 전역 정렬(Global Alignment)을 수행함으로써 전역 정렬 시간을 대폭 감소시킬 수 있다.
아울러 리드에서 도출된 단편 서열들의 맵핑 위치와 조합을 찾는 복잡한 과정 대신, 조합을 구성할 가능성이 높은 단편 서열에 대해 바로 전역 정렬을 수행함으로써 전역 정렬 속도를 더욱 높일 수 있으며, 전역 정렬 위치를 기억하여 두었다가 해당 위치 주변에서는 반복하여 전역 정렬을 수행하지 않도록 구성함으로써 불필요한 전역 정렬 횟수를 감소시킬 수 있는 장점이 있다.
도 1은 본 발명의 일 실시예에 따른 염기 서열 정렬 방법(100)을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 염기 서열 정렬 방법(100)의 108 단계에서의 최소 에러 추정치 계산 과정을 예시하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 염기 서열 정렬 방법(100)의 112 단계에서의 단편 서열 생성 과정을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 참조 서열 내에서의 맵핑 대상 구간 선택 과정을 예시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 전역 정렬 시 불필요한 전역 정렬 횟수를 감소시키기 위한 방법을 설명하기 위한 예시도이다.
도 6은 본 발명의 일 실시예에 따른 염기 서열 정렬 시스템(600)을 도시한 블록도이다.
이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.
본 발명을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
본 발명의 기술적 사상은 청구범위에 의해 결정되며, 이하의 실시예는 본 발명의 기술적 사상을 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 효율적으로 설명하기 위한 일 수단일 뿐이다.
본 발명의 실시예들을 상세히 설명하기 앞서, 먼저 본 발명에서 사용되는 용어들에 대하여 설명하면 다음과 같다.
먼저, "리드(read) 서열"(또는 줄여서 "리드"로 지칭)이란 게놈 시퀀서(genome sequencer)에서 출력되는 짧은 길이의 염기 서열 데이터이다. 리드의 길이는 게놈 시퀀서의 종류에 따라 일반적으로 35~500bp(base pair) 정도로 다양하게 구성되며, 일반적으로 DNA 염기의 경우 A, C, G, T의 알파벳 문자로 표현된다.
"참조 서열(reference sequence)"이란 상기 리드들로부터 전체 염기 서열을 생성하는 데 참조가 되는 염기 서열을 의미한다. 염기 서열 분석에서는 게놈 시퀀서에서 출력되는 다량의 리드들을 참조 서열을 참조하여 맵핑함으로써 전체 염기 서열을 완성하게 된다. 본 발명에서 상기 참조 서열은 염기 서열 분석 시 미리 설정된 서열(예를 들어 인간의 전체 염기 서열 등)일 수도 있으며, 또는 게놈 시퀀서에서 만들어진 염기 서열을 참조 서열로 사용할 수도 있다.
"베이스(base)"는 참조 서열 및 리드를 구성하는 최소 단위이다. 전술한 바와 같이 DNA 염기의 경우 A, C, G 및 T의 네 종류의 알파벳 문자로 구성될 수 있으며, 이들 각각을 베이스라 표현한다. 다시 말해 DNA 염기의 경우 4개의 베이스로 표현되며, 이는 리드 또한 마찬가지이다.
"단편(fragment) 서열"(또는 시드(seed))이란 리드의 맵핑을 위하여 리드와 참조 서열을 비교할 때의 단위가 되는 시퀀스이다. 이론적으로 리드를 참조 서열에 맵핑하기 위해서는 리드 전체를 참조 서열의 가장 첫 부분부터 순차적으로 비교해 나가면서 리드의 맵핑 위치를 계산하여야 한다. 그러나 이와 같은 방법의 경우 하나의 리드를 맵핑하는 데 너무 많은 시간 및 컴퓨팅 파워가 요구되므로, 실제로는 리드의 일부분으로 구성된 조각인 단편 서열을 먼저 참조 서열에 맵핑함으로써 전체 리드의 맵핑 후보 위치를 찾아 내고 해당 후보 위치에 전체 리드를 맵핑(Global Alignment)하게 된다.
도 1은 본 발명의 일 실시예에 따른 염기 서열 정렬 방법(100)을 설명하기 위한 도면이다. 본 발명의 실시예에서, 염기 서열 정렬 방법(100)이란 게놈 시퀀서(genome)에서 출력되는 리드를 참조 서열과 비교하여 리드의 상기 참조 서열에서의 맵핑(또는 정렬) 위치를 결정하는 일련의 과정을 의미한다.
먼저, 게놈 시퀀서(genome sequencer)로부터 리드가 입력되면(102), 리드 전체와 상기 참조 서열과의 일치 정합(exact matching)을 시도한다(104). 만약 상기 시도 결과 리드 전체에 대한 일치 정합이 성공한 경우에는 이후의 정렬 단계를 수행하지 않고 정렬에 성공한 것으로 판단한다(106). 인간의 염기 서열을 대상으로 한 실험 결과, 게놈 시퀀서에서 출력되는 100만 개의 리드를 인간의 염기 서열에 일치 정합할 경우 총 200만회의 정렬 중(정방향 시퀀스 100만회, 역상보(reverse complement) 방향 시퀀스 100만회) 231,564회의 일치 정합이 발생되는 것으로 나타났다. 따라서 상기 104 단계의 수행 결과 약 11.6%만큼의 정렬 소요량을 감소시킬 수 있었다.
그러나, 이와 달리 상기 106 단계에서 해당 리드가 일치 정합되지 않는 것으로 판단되는 경우에는 해당 리드를 상기 참조 서열에 정렬했을 때 나타날 수 있는 최소 에러 추정치(mEB; minimum Error Bound)를 계산한다(108).
도 2는 상기 108 단계에서의 최소 에러 추정치 계산 과정을 예시하기 위한 도면이다. 먼저, 도시된 바와 같이 최초 최소 에러 추정치를 0으로 설정하고(mEB = 0) 리드의 가장 첫 번째 베이스부터 오른쪽으로 한 베이스씩 이동하면서 일치 정합을 시도한다. 이때 상기 리드의 특정 베이스(도면에서 왼쪽에서 첫번째 화살표)에서부터 더 이상 매칭이 불가능하다고 가정하자. 이 경우는 리드의 정합 시작 위치부터 현재 위치 사이의 구간 어딘가에서 에러가 발생한 것을 의미한다. 따라서 이 경우에는 최소 에러 추정치를 1만큼 증가시키고(mEB = 1), 다음 위치에서 새로 일치 정합을 시작한다. 이후 또 다시 일치 정합이 불가능하다고 판단되는 경우에는, 일치 정합을 새로 시작한 위치부터 현재 위치 사이의 구간 어디에서 다시 에러가 발생한 것이므로, 최소 에러 추정치를 다시 1만큼 증가시키고(mEB = 2), 다음 위치에서 새로 일치 정합을 시작한다. 이와 같은 과정을 거쳐 리드의 끝까지 도달한 경우의 최소 에러 추정치(도면에서 mEB = 3)가 해당 리드에서 발생할 수 있는 에러의 개수가 된다. 이때 상기 mEB 값이 최소 에러 추정치인 이유는 리드에서 에러가 발생할 수 있는 모든 에러의 수를 검토한 것이 아니라, 일정 부분에서 에러가 발생하면 그 이후부터 새로 일치 정합을 수행하는 방식으로, 대상 서열의 한 위치(position)에 대해서만 검사하기 때문이다. 즉, 상기 mEB 값은 해당 리드에서 발생할 수 있는 에러의 최소값이 될 수 있으며, 대상 서열의 다른 위치에서는 더 많은 에러가 나올 수 있다.
상기와 같은 과정을 거쳐 리드의 최소 에러 추정치가 계산되면, 계산된 최소 에러 추정치가 기 설정된 최대 에러 허용치(MaxError)를 초과하는지의 여부를 판단하고(110), 초과하는 경우 해당 리드에 대한 정렬이 실패한 것으로 판단하여 정렬을 종료한다. 전술한 인간의 염기 서열을 대상으로 한 실험에서, 최대 에러 허용치(MaxError)를 3으로 하고 나머지 리드들의 최소 에러 추정치를 계산한 결과, 총 844,891회에 해당하는 리드들이 상기 최대 에러 허용치를 초과하는 것으로 나타났다. 즉, 상기 108 단계의 수행 결과 약 42.2%만큼의 정렬 소요량을 감소시킬 수 있었다.
그러나 이와 달리 상기 110 단계에서의 판단 결과, 계산된 최소 에러 추정치가 상기 최대 에러 허용치 이하인 경우에는 다음과 같은 과정을 거쳐 해당 리드에 대한 정렬을 수행한다.
먼저, 상기 리드로부터 복수 개의 단편(fragment) 서열들을 생성하고(112), 생성된 상기 복수 개의 단편 서열들 중 상기 참조 서열과 매칭되는 단편 서열만을 포함하는 후보 단편 서열 집합을 구성한다(114). 이후 상기 참조 서열을 복수 개의 구간으로 분할하고, 상기 각 구간 별로 상기 후보 단편 서열들의 총 맵핑 개수를 계산하며(116), 상기 계산 결과에 따라 총 맵핑 개수가 기준 개수 이상인 구간을 선택하고, 선택된 구간에 대하여 상기 리드에 대한 전역 정렬(global alignment)을 수행하게 된다(118). 이때 상기 전역 정렬의 결과 리드의 에러 개수가 기 설정된 최대 에러 허용치(MaxError)를 초과하는 경우에는 정렬 실패로, 그렇지 않은 경우에는 정렬에 성공한 것으로 판단된다(120).
이하에서는 상기 112 단계 내지 118 단계의 구체적인 과정을 상세히 설명한다.
리드로부터 복수 개의 단편 서열 생성(112)
본 단계는 본격적으로 리드의 정렬을 수행하기 위하여 리드로부터 복수 개의 작은 조각인 단편 서열을 생성하는 단계이다. 본 단계에서는, 상기 리드의 첫 번째 베이스부터 마지막 베이스까지 설정된 간격(shift size) 만큼 이동하면서 설정된 크기(fragment size)만큼 리드의 값을 읽음으로써 상기 단편 서열들을 생성하게 된다.
도 3은 상기 112 단계에서의 단편 서열 생성 과정을 설명하기 위한 도면이다. 도시된 실시예에서는 리드의 길이가 75bp(base pair), 리드의 최대 에러 허용치가 3bp, 단편 서열의 크기(fragment size)가 15bp, 이동 간격(shift size)가 4bp인 경우의 실시예를 나타낸 것이다. 즉, 리드의 첫 번째 베이스부터 4bp씩 오른쪽으로 이동하면서 단편 서열을 생성하게 된다. 다만, 도시된 실시예의 경우 단지 예시적인 것으로서, 예컨대 상기 이동 간격, 단편 서열의 크기 등은 리드의 길이, 리드의 최대 에러 허용치 등의 값을 고려하여 적절하게 정해질 수 있다. 다시 말해 본 발명의 권리범위는 특정한 단편 서열의 크기 및 이동 간격에 한정된 것은 아님에 유의한다.
생성된 단편 서열의 필터링 및 확장(114)
상기와 같은 과정을 거쳐 단편 서열들이 생성되면, 다음으로 생성된 단편 서열 중 참조 서열과 매칭되지 않는 단편 서열들을 제외하는 필터링 과정을 거쳐 후보 단편 서열 집합(sub-candidate)을 구성한다. 즉, 생성된 단편 서열들과 상기 참조 서열과의 일치 정합(exact matching)을 시도하고, 그 결과 불일치하는 베이스의 수가 기 설정된 허용치 이하인 단편 서열들(후보 단편 서열들)로 상기 후보 단편 서열 집합을 구성하게 된다. 이때, 상기 허용치가 0인 경우, 상기 후보 단편 서열 집합에는 상기 참조 서열과 일치 정합되는 단편 서열들만이 포함된다.
예를 들어, 도 3에 도시된 실시예에서, 상기 리드의 15번째, 34번째 및 61번째 자리에서 에러가 발생하였다고 가정하자(도면에서 점선으로 표시). 이 경우 상기 에러를 포함하는 단편 서열들(도면에서 회색으로 표시)의 경우에는 참조 서열과의 일치 정합이 되지 않으며, 에러의 영향을 받지 않는 17-31, 37-51, 41-55 및 45-59의 4개의 단편 서열들만이 참조 서열과 일치 정합된다. 따라서 이 경우 상기 후보 단편 서열 집합에는 상술한 4개의 단편 서열들만이 포함된다.
한편, 일반적으로 참조 서열(예를 들어 인간의 유전체)은 다수의 중복 시퀀스(repeat sequence)를 포함한다. 이러한 중복 시퀀스는 참조 서열의 여러 위치에 분포하며, 동일한 염기 서열을 반복적으로 포함하고 있기 때문에 일부 단편 서열들의 경우 참조 서열과의 맵핑 시 너무 많은 위치에서 일치 정합이 발생하게 된다. 그러나 이와 같은 중복 시퀀스로 인해 일부 단편 서열들에서 너무 많은 수의 맵핑이 생성될 경우 전체 정렬 알고리즘의 복잡도 및 정확도에 악영향을 끼치므로, 이 경우 적절한 방법을 이용하여 맵핑되는 위치의 중복수를 줄일 필요가 있다.
이를 위하여, 본 단계에서는 후보 단편 서열들 중 상기 참조 서열에서의 맵핑 중복수가 기 설정된 값(예를 들어 50개)을 초과할 경우 상기 맵핑 중복수가 상기 설정된 값 이하가 될 때까지 해당 단편 서열의 크기를 확장하는 단계를 더 포함할 수 있다.
구체적으로, 본 단계에서는 생성된 상기 후보 단편 서열들 각각의 상기 참조 서열에서의 맵핑 위치의 개수를 계산하고, 계산된 맵핑 중복수(해당 단편 서열의 참조 서열에서의 맵핑 위치의 개수)가 설정된 값을 초과하는 단편 서열을 선택한 뒤, 상기 참조 서열에서의 맵핑 중복수가 상기 설정된 값 이하가 될 때까지 선택된 단편 서열의 크기를 확장하게 된다. 이때 상기 선택된 단편 서열의 크기 확장은, 상기 선택된 단편 서열의 처음 또는 끝 부분에, 해당 위치에 대응되는 상기 리드에서의 베이스를 추가함으로써 수행될 수 있다.
이를 예를 들어 설명하면 다음과 같다. 예를 들어, 다음과 같이 리드로부터 단편 서열이 생성되었다고 가정하자.
리드: A T T G C C T C A G T
단편 서열: T T G C (리드에서 밑줄 친 부분)
만약 상기 단편 서열에 대한 맵핑 결과 참조 서열에서의 맵핑 중복수가 기준치인 50개를 초과하는 65개일 경우에는, 아래와 같이 상기 맵핑 중복수가 기준치 이하로 떨어질 때까지 상기 단편 서열의 길이를 1bp씩 확장하게 된다.
T T G C (65 맵핑 위치)
T T G C C (54 맵핑 위치)
T T G C C T (27 맵핑 위치)
위의 예시의 경우, 리드를 참조하여 2개의 베이스를 추가하였을 경우 맵핑 중복수가 설정값 이하로 떨어지므로, 최종 단편 서열은 최초 생성된 값보다 2bp 확장된 T T G C C T 가 된다. 한편, 전술한 다른 예에서와 마찬가지로, 상기 설정값 또한 참조 서열, 리드 및 단편 서열의 특성 등에 따라서 적절하게 정해질 수 있는 값으로서 본 발명은 특정한 중복수 설정값에 그 권리범위가 한정되는 것은 아님에 유의하여야 한다.
인간의 염기 서열을 대상으로 한 실험에서, 100만 개의 리드에서 단편 서열의 길이 15bp, 시프트 간격 4bp로 단편 서열들을 생성한 후 생성된 단편 서열들을 참조 서열에 매칭할 경우, 기준치를 50으로 할 때 총 15,547,856개의 단편 서열 중 약 77%의 단편 서열이 50개 이하의 맵핑을 가지는 것으로 나타났다. 즉, 실험 결과 기준치를 50으로 할 경우 77%의 단편 서열은 이를 그대로 활용할 수 있으며, 나머지 23%의 단편 서열들은 전술한 방법에 따른 단편 서열 확장이 필요한 것으로 나타났다.
참조 서열의 각 구간별 맵핑 개수 계산(116)
상술한 과정을 통하여 후보 단편 서열 집합(sub-candidate)이 구성되면, 원칙적으로 이들 후보 단편 서열 집합들의 상기 참조 서열 내에서의 맵핑 위치들을 이용하여 리드를 참조 서열에 맵핑하는 것이 가능하다. 그러나 이 경우 후보 단편 서열들의 각 맵핑 위치의 모든 조합들을 고려하여야 하기 때문에 리드의 맵핑을 위한 계산의 복잡도가 매우 높아지게 된다. 예를 들어, 후보 단편 서열 집합에 포함된 후보 단편 서열이 4개이고, 각각의 후보 단편 서열들의 참조 서열에서의 맵핑 위치의 개수가 각각 3, 6, 24, 49개일 경우, 21,168(=3*6*24*49)개의 조합을 모두 조사하여야 한다. 본 발명에서는 이와 같은 계산의 복잡도를 줄이기 위해 참조 서열을 복수 개의 구간으로 분할하고, 이 중 맵핑 가능성이 높은 구간에 대해서만 전역 정렬을 수행하는 방법을 이용하게 된다.
즉, 본 발명에서는 먼저 참조 서열을 동일한 크기를 가지는 복수 개의 구간으로 분할하고, 분할된 각 구간 별로 다음의 값을 계산한다.
A: 해당 구간에 맵핑되는 후보 단편 서열의 총 개수(맵핑 개수)
B: 해당 구간에 맵핑되는 상기 후보 단편 서열의 총 맵핑 길이
예를 들어, 도 3에 도시된 실시예에서 17-31의 단편 서열이 분할된 첫 번째 구간에 맵핑될 경우 해당 구간의 (A, B) 값은 (1, 15)가 된다(이때, 1은 해당 구간에 맵핑되는 후보 단편 서열의 총 개수, 15는 맵핑되는 후보 단편 서열의 총 맵핑 길이). 동일한 방식으로, 37-51의 단편 서열이 두 번째 구간에 맵핑된 경우 해당 구간의 (A, B) 값은 (1, 15)가 된다. 이후 41-55의 단편 서열이 다시 상기 두 번째 구간에 맵핑될 경우 해당 구간의 (A, B) 값은 (2, 19)로 업데이트되며 그 이유는 다음과 같다.
첫 번째 값 2: 해당 구간에 맵핑되는 후보 단편 서열의 총 개수
두 번째 값 19: 최초 맵핑된 37-51 및 이후에 맵핑된 41-55의 오버랩되는 구간을 고려한 총 맵핑 길이
맵핑 대상 구간 선택 및 전역 정렬(Global Alignment)(118)
상기와 같은 과정을 거쳐 각 구간별 맵핑 개수 및 맵핑 길이가 계산되면, 이 중 맵핑 개수가 설정된 기준 개수 이상인 구간을 맵핑 대상 구간으로 선택한다. 또한, 상기 기준 개수 이상이 구간이 복수 개인 경우에는, 상기 총 맵핑 개수가 기준 개수 이상인 구간 중 상기 총 맵핑 길이가 설정된 기준 길이 이상인 구간을 맵핑 대상 구간으로 선택할 수 있다. 이때 상기 기준 개수는 적어도 2 이상이어야 하며, 그 이유는 맵핑의 기본 단위가 단편 서열임을 고려할 때 단편 서열이 하나만 맵핑되는 구간은 리드가 맵핑될 가능성이 매우 낮기 때문이다. 상기 기준 길이의 상세한 사항에 대해서는 후술한다.
도 4는 본 발명의 일 실시예에 따른 맵핑 대상 구간 선택 과정을 예시한 도면이다. 도시된 바와 같이, 참조 서열이 구간 1부터 4까지 까지 4개의 구간으로 분할되고, 각 구간의 맵핑 개수 및 맵핑 길이가 아래와 같이 계산되었다고 가정하자.
구간 1 = (1,15)
구간 2 = (0, 0)
구간 3 = (2,23)
구간 4 = (2,27)
이때, 상기 기준 개수가 2개로, 기준 길이가 22로 설정될 경우 상기 기준 개수 및 기준 길이를 만족하는 구간은 구간 3 및 4가 되며, 이에 따라 본 단계에서는 상기 구간 3 및 4에 해당하는 구간을 맵핑 대상 구간으로 선택하게 된다. 이때, 만약 상기 기준 개수 및 기준 길이를 만족하는 구간이 복수 개일 경우에는 해당하는 모든 구간이 맵핑 대상 구간이 되며, 맵핑 대상 구간에 포함된 복수 개의 구간 모두에서 전역 정렬이 수행된다. 이 경우에는 정렬 속도를 높이기 위하여 맵핑 대상 구간에 포함된 각 구간들의 맵핑 개수 또는 맵핑 길이를 서로 비교하고, 맵핑 개수 또는 맵핑 길이가 큰 구간부터 순차적으로 전역 정렬을 수행할 수 있다. 맵핑 개수 또는 맵핑 길이가 클 경우 해당 구간에서 리드가 맵핑될 가능성이 높기 때문이다. 예를 들어, 상기 실시예에서 구간 3 및 구간 4의 맵핑 개수는 2로 동일하나, 맵핑 길이 값은 구간 4가 3에 비해 크므로, 이 경우 구간 4부터 전역 정렬을 수행할 수 있다.
이와 같이 맵핑 대상 구간이 선택되면, 다음으로 후보 단편 서열(sub-candidate) 중 해당 맵핑 대상 구간에 맵핑되는 후보 단편 서열들을 최종 후보 단편 서열(candidate)로 선정하고, 선정된 최종 후보 단편 서열들 각각의 맵핑 위치에서 리드에 대한 전역 정렬을 수행함으로써 리드에 대한 정렬을 완료한다.
예를 들어, 상기 도 4의 실시예에서 구간 4에 맵핑되는 후보 단편 서열들이 37-51, 41-55, 45-59의 3개라고 가정하면, 상기 3개의 후보 단편 서열들이 최종 후보가 되며, 이들의 해당 구간 내 맵핑 위치에서 리드의 전역 정렬을 수행하게 된다.
한편, 상기 최종 후보 단편 서열에 대한 전역 정렬 시에는, 전역 정렬에 소요되는 시간을 줄이기 위하여 한 번 전역 정렬을 수행한 참조 서열에서의 위치를 기억하여 두었다가 그와 가까운 위치에서는 반복하여 여러 번 전역 정렬이 수행되지 않도록 한다. 구체적으로, 본 단계에서는 상기 맵핑 대상 구간을 복수 개의 소구간으로 분할한 뒤, 전역 정렬이 수행된 소구간의 경우 이를 기록하여 두도록 구성된다. 이후, 해당 소구간에 대한 전역 정렬 시에는 상기 기록된 정보를 이용하여 해당 소구간에서 전역 정렬이 기 수행되었는지의 여부를 판단하고, 상기 판단 결과 전역 정렬이 기 수행되지 않은 경우에만 전역 정렬을 수행하게 된다.
이를 예를 들어 설명하면 도 5와 같다. 도시된 바와 같이 맵핑 대상 구간이 5개의 소구간으로 나뉘어지고, 상기 3개의 최종 후보 중 37-51, 41-55는 두번째 소구간에, 45-59는 4번째 소구간에 맵핑된다고 가정하자. 이 경우 만약 37-51의 단편 서열에 대하여 2번째 소구간에서 전역 정렬이 수행될 경우, 그 결과에 관계 없이 동일한 소구간에 속한 41-55에 대해서는 전역 정렬이 수행되지 않으며, 이는 그 반대의 경우도 마찬가지이다. 따라서 도시된 실시예의 경우, 전역 정렬은 37-51/45-59 또는 41-55/45-59의 조합에 대해서만 실시되게 된다. 본 발명에서와 같이 참조 서열 전체가 아닌 맵핑 대상 구간 내에서만 전역 정렬이 수행된다고 하더라도 전역 정렬을 위해서는 시간이 많이 소요되므로, 이와 같은 과정을 통할 경우 전열 정렬에 소요되는 시간을 줄일 수 있다.
기준 길이 계산
상기 실시예에서, 기준 길이는 다음과 같은 방식으로 계산될 수 있다.
먼저, f를 단편 서열의 크기, s를 단편 서열을 생성하기 위한 리드 내에서의 이동 간격, L을 리드의 길이, e를 리드에서 허용되는 최대 에러의 개수, H를 기준 길이라 할 때, 리드에서 에러의 영향을 받지 않는 영역의 길이 T 는 아래 수식과 같이 구할 수 있다.
T = L - f*e - s
이때, L과 e는 본 발명의 수행 시 미리 결정되어 있는 값이므로, f, s값에 따라 T가 결정된다. 즉, f와 s값을 어떻게 변화시키느냐에 따라 알고리즘의 성능이 변화하게 된다.
먼저, H 값을 결정할 때는 아래의 두 가지 조건을 고려한다. 이 중 필수 조건은 반드시 충족해야 하며, 추가 조건은 가능한 경우에 고려한다.
- 필수 조건: 맵핑의 기본 단위가 단편 서열이기 때문에, 기준 길이는 아무리 작더라도 적어도 오버랩되는 2개 이상의 단편 서열을 포함할 수 있는 크기여야 한다. 만약 도 2에서와 같이 f=15, s=4인 경우 오버랩되는 2개의 단편 서열들의 최소 길이는 15+4=19가 되므로, 적어도 H 값은 19 이상이어야 한다. 또한, 상기 H 값은 적어도 2개의 단편 서열이 포함되도록 설정되어야 하므로 최소한 f + s 보다는 크거나 같아야 한다. 후술할 바와 같이, f 값은 최소 15 이상이어야 하므로, s값을 그 최소값인 1로 가정할 경우 H는 최소한 16 (=15 + 1) 이상의 값이 된다.
- 추가 조건: 이상적인 상황을 가정했을 때, H = T 로 설정하고 T 이상의 시퀀스가 맵핑된 구간을 찾으면 주어진 에러에 대한 모든 맵핑을 찾을 수 있다. 그러나 전술한 바와 같이 참조 서열 자체에 중복이 많을 경우 상황에 따라 단편 서열의 길이를 확장하여야 할 경우가 발생할 수 있다. 따라서 이를 고려하여 H 값을 정할 때는 T보다 약간 작은 T s 를 사용하는 것이 맵핑률 측면에서 유리하다. 만약 H = T로 가정할 경우, H = L - f*e - s가 되며, 이 중 e를 최소값인 1로 가정할 경우(e가 0인 경우는 참조 서열과 일치 정합되는 경우이므로 전술한 104 단계에서 맵핑이 완료됨), H = L - f - s가 된다. 이 값이 기준 길이의 최대값이 된다. 만약 L = 75bp, f = 15bp, s = 1로 가정할 경우, H의 최대값은 75 - 15 -1 = 59가 된다.
정리하면, 상기 H 값은 다음의 범위를 만족하여야 한다.
f + s <= H <= L - (f + s)
다음으로, f 값은 아래 두 가지 조건을 만족하는 값 중에서 큰 값을 고른다. 역시 필수 조건은 반드시 충족해야 하며, 추가 조건은 가능한 경우에 고려한다.
- 필수 조건: f는 15 이상이어야 하며, 그 이유는 단편 서열의 길이가 14 이하일 경우 참조 서열 내에서의 맵핑 위치의 개수가 급격히 증가하기 때문이다.
아래의 표 1은 단편 서열 길이에 따른 인간 유전체 내에서의 단편 서열의 평균 등장 빈도를 나타낸 것이다.
표 1
단편 서열의 길이 평균 등장 빈도
10 2,726.1919
11 681.9731
12 170.9185
13 42.7099
14 10.6470
15 2.6617
16 0.6654
17 0.1664
상기 표에서 알 수 있는 바와 같이, 단편 서열의 길이가 14 이하일 경우에는 단편 서열 별 빈도가 10 이상이나, 15일 경우에는 3 이하로 감소하는 것을 알 수 있다. 즉, 단편 서열의 길이를 15 이상으로 구성할 경우 14 이하로 구성할 경우에 비해 단편 서열의 중복을 대폭 감소시킬 수 있다.
- 추가 조건: f = L/(e+2) 을 만족하여야 하며, 이는 T의 길이를 단편 서열 2개의 크기 이상으로 보장하기 위함이다.
예를 들어, L=100, e=4일 때 f는 16 이하의 값을 가져야 한다.
위의 조건을 정리하여, f와 s, H를 결정하는 방법을 정리하면 다음과 같다.
- s는 4로 고정한 뒤, f와 H를 결정한다.
- 15 ≤ f ≤ L/(e+2) 범위 내에서 가장 큰 값을 f 로 결정한다. (단, 반드시 f = 15)
- H 는 아래 식을 이용해 결정한다.
H = L - f * e - 2s 또는 H = f + s 에서 계산되는 값 중 큰 값
(이때, H는 기준 길이, L은 리드의 길이, f는 단편 서열의 길이, e는 리드의 최대 에러 개수, s는 각 단편 서열들의 이동 간격)
예 1) L = 75, e = 3일 때,
f = 15~15이므로 15,
s = 4,
H = 75 - 3*15 - 2*4 = 22가 된다.
예 2) L = 100, e = 4일 때,
f = 15~16이므로 16,
s = 4,
H = 100 - 4*16 - 2*4 = 36 - 8 = 28가 된다.
예 3) L = 75, e = 4일 때
f = 15~12이지만, 15 이상이어야 하므로 15,
s = 4,
H = 75 - 4*15 - 2*4 = 15 - 8 = 7이지만, f + s = 19 이므로, 결과적으로 H = 19가 된다.
도 6은 본 발명의 일 실시예에 따른 염기 서열 정렬 시스템(600)의 블록도이다. 본 발명의 일 실시예에 따른 염기 서열 정렬 시스템(600)은 전술한 염기 서열 정렬 방법을 수행하기 위한 장치로서, 단편 서열 생성부(602), 필터링부(604), 맵핑 개수 계산부(606), 정렬부(608) 및 단편 서열 확장부(610)를 포함한다.
단편 서열 생성부(602)는 게놈 시퀀서로부터 얻어진 리드로부터 복수 개의 단편(fragment) 서열들을 생성한다. 전술한 바와 같이, 단편 서열 생성부(602)는 상기 리드의 첫 번째 베이스부터 설정된 간격만큼 이동하면서 설정된 크기만큼 상기 리드의 값을 읽음으로써 상기 단편 서열들을 생성하게 된다.
필터링부(604)는 생성된 상기 복수 개의 단편 서열들 중 상기 참조 서열과 매칭되는 단편 서열만을 포함하는 후보 단편 서열 집합을 구성한다. 이때, 상기 참조 서열과 매칭되는 단편 서열은, 상기 참조 서열과의 일치 정합(exact matching) 결과 불일치하는 베이스의 수가 설정된 개수 이하인 단편 서열을 의미한다.
맵핑 개수 계산부(606)는 상기 참조 서열을 복수 개의 구간으로 분할하고, 상기 각 구간 별로 상기 후보 단편 서열들의 맵핑 위치 및 각 구간 별 상기 후보 단편 서열들의 총 맵핑 개수를 계산한다.
정렬부(608)는 맵핑 개수 계산부(606)에 의하여 분할된 구간 중 계산된 상기 총 맵핑 개수가 기준 개수 이상인 구간을 선택하고, 선택된 구간에 대하여 상기 리드에 대한 전역 정렬을 수행한다. 구체적으로, 정렬부(608)는 상기 후보 단편 서열 중 상기 선택된 구간에 맵핑되는 후보 단편 서열의 상기 참조 서열 내에서의 맵핑 위치에 기초하여 상기 리드에 대한 전역 정렬을 수행한다.
또한 정렬부(608)는 상기 선택된 구간(맵핑 대상 구간)을 복수 개의 소구간으로 분할하고, 상기 전역 정렬을 수행하려는 상기 참조 서열 내 위치가 속한 소구간에서 전역 정렬이 기 수행되었는지의 여부를 판단하며, 상기 판단 결과 전역 정렬이 기 수행되지 않은 경우에만 상기 전역 정렬을 수행함으로써 불필요한 전역 정렬의 횟수를 감소시키도록 구성될 수 있다.
단편 서열 확장부(610)는 상기 필터링부(604)에서 생성된 상기 후보 단편 서열들 각각의 상기 참조 서열에서의 맵핑 중복수를 계산하고, 계산된 상기 맵핑 중복수가 설정된 값을 초과하는 단편 서열을 선택하며, 상기 참조 서열에서의 맵핑 중복수가 상기 설정된 값 이하가 될 때까지 선택된 단편 서열의 크기를 확장한다. 이때, 단편 서열 확장부(610)는 상기 선택된 단편 서열의 처음 또는 끝 부분에, 해당 위치에 대응되는 상기 리드에서의 베이스를 추가함으로써 상기 확장을 수행한다.
한편, 본 발명의 실시예는 본 명세서에서 기술한 방법들을 컴퓨터상에서 수행하기 위한 프로그램을 포함하는 컴퓨터 판독 가능 기록매체를 포함할 수 있다. 상기 컴퓨터 판독 가능 기록매체는 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야에서 통상의 지식을 가진 자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광 기록 매체, 플로피 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
이상에서 대표적인 실시예를 통하여 본 발명에 대하여 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다.
그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
<부호의 설명>
600: 염기 서열 정렬 시스템
602: 단편 서열 생성부
604: 필터링부
606: 맵핑 개수 계산부
608: 정렬부
610: 단편 서열 확장부

Claims (20)

  1. 리드로부터 복수 개의 단편(fragment) 서열들을 생성하는 단편 서열 생성부;
    생성된 상기 복수 개의 단편 서열들 중 참조 서열과 매칭되는 단편 서열만을 포함하는 후보 단편 서열 집합을 구성하는 필터링부;
    상기 참조 서열을 복수 개의 구간으로 분할하고, 상기 각 구간 별 상기 후보 단편 서열들의 총 맵핑 개수를 계산하는 맵핑 개수 계산부; 및
    계산된 상기 총 맵핑 개수가 기준 개수 이상인 구간을 선택하고, 선택된 구간에 대하여 상기 리드에 대한 전역 정렬(global alignment)을 수행하는 정렬부를 포함하는 염기 서열 정렬 시스템.
  2. 청구항 1에 있어서,
    상기 단편 서열 생성부는, 상기 리드의 첫 번째 베이스부터 설정된 간격만큼 이동하면서 설정된 크기만큼 상기 리드의 값을 읽음으로써 상기 단편 서열들을 생성하는, 염기 서열 정렬 시스템.
  3. 청구항 1에 있어서,
    상기 참조 서열과 매칭되는 단편 서열은, 상기 참조 서열과의 일치 정합(exact matching) 결과 불일치하는 베이스의 수가 설정된 개수 이하인 단편 서열인, 염기 서열 정렬 시스템.
  4. 청구항 1에 있어서,
    상기 후보 단편 서열들 각각의 상기 참조 서열에서의 맵핑 중복수를 계산하고, 계산된 상기 맵핑 중복수가 설정된 값을 초과하는 단편 서열을 선택하며, 상기 참조 서열에서의 맵핑 위치의 개수가 상기 설정된 값 이하가 될 때까지 선택된 단편 서열의 크기를 확장하는 단편 서열 확장부를 더 포함하는, 염기 서열 정렬 시스템.
  5. 청구항 4에 있어서,
    상기 단편 서열 확장부는, 상기 선택된 단편 서열의 처음 또는 끝 부분에, 해당 위치에 대응되는 상기 리드에서의 베이스를 추가하는, 염기 서열 정렬 시스템.
  6. 청구항 1에 있어서,
    상기 정렬부는, 상기 후보 단편 서열 중 상기 선택된 구간에 맵핑되는 후보 단편 서열을 선택하고, 선택된 각각의 후보 단편 서열의 상기 참조 서열 내에서의 맵핑 위치에서 상기 리드에 대한 전역 정렬을 수행하는, 염기 서열 정렬 시스템.
  7. 청구항 6에 있어서,
    상기 정렬부는, 상기 선택된 구간을 복수 개의 소구간으로 분할하고, 상기 전역 정렬을 수행하려는 상기 참조 서열 내 위치가 속한 소구간에서 전역 정렬이 기 수행되었는지의 여부를 판단하며, 상기 판단 결과 전역 정렬이 기 수행되지 않은 경우에만 상기 전역 정렬을 수행하는, 염기 서열 정렬 시스템.
  8. 청구항 1에 있어서,
    상기 맵핑 개수 계산부는, 상기 총 맵핑 개수와 함께 상기 각 구간 별 상기 후보 단편 서열들의 총 맵핑 길이를 계산하며,
    상기 정렬부는, 상기 총 맵핑 개수가 기준 개수 이상인 구간 중 상기 총 맵핑 길이가 설정된 기준 길이 이상이 구간을 선택하고, 선택된 구간에 대하여 상기 리드에 대한 전역 정렬을 수행하는, 염기 서열 정렬 시스템.
  9. 청구항 8에 있어서,
    상기 정렬부는, 상기 선택된 구간이 복수 개인 경우, 각 구간 별 총 맵핑 개수 또는 총 맵핑 길이에 따라 순차적으로 상기 리드에 대한 전역 정렬을 수행하는, 염기 서열 정렬 시스템.
  10. 청구항 8에 있어서,
    상기 기준 개수는 적어도 2 이상인, 염기 서열 정렬 시스템.
  11. 청구항 8에 있어서,
    상기 기준 길이는 다음의 수학식
    H = L - f * e - 2s
    (이때, H는 기준 길이, L은 리드의 길이, f는 단편 서열의 길이, e는 리드의 최대 에러 개수, s는 각 단편 서열들의 이동 간격)
    또는, H = f + s
    에서 계산되는 값 중 큰 값인, 염기 서열 정렬 시스템.
  12. 청구항 11에 있어서,
    상기 기준 길이는 다음의 수학식
    f + s <= H <= L - (f + s)
    을 만족하는, 염기 서열 정렬 시스템.
  13. 청구항 8에 있어서,
    상기 기준 길이는 16 이상 59 이하인, 염기 서열 정렬 시스템.
  14. 단편 서열 생성부에서, 리드로부터 복수 개의 단편(fragment) 서열들을 생성하는 단계;
    필터링부에서, 생성된 상기 복수 개의 단편 서열들 중 참조 서열과 매칭되는 단편 서열만을 포함하는 후보 단편 서열 집합을 구성하는 단계;
    맵핑 개수 계산부에서, 상기 참조 서열을 복수 개의 구간으로 분할하고, 상기 각 구간 별로 상기 후보 단편 서열들의 총 맵핑 개수를 계산하는 단계; 및
    정렬부에서, 계산된 상기 총 맵핑 개수가 기준 개수 이상인 구간을 선택하고, 선택된 구간에 대하여 상기 리드에 대한 전역 정렬(global alignment)을 수행하는 단계를 포함하며,
    상기 참조 서열과 매칭되는 단편 서열은, 상기 참조 서열과의 일치 정합(exact matching) 결과 불일치하는 베이스의 수가 설정된 개수 이하인 단편 서열인, 염기 서열 정렬 방법.
  15. 청구항 14에 있어서,
    상기 단편 서열들을 생성하는 단계는, 상기 리드의 첫 번째 베이스부터 설정된 간격만큼 이동하면서 설정된 크기만큼 상기 리드의 값을 읽음으로써 상기 단편 서열들을 생성하는, 염기 서열 정렬 방법.
  16. 청구항 14에 있어서,
    상기 후보 단편 서열 집합을 구성하는 단계는,
    단편 서열 확장부에서, 생성된 상기 후보 단편 서열들 각각의 상기 참조 서열에서의 맵핑 중복수를 계산하는 단계;
    상기 단편 서열 확장부에서, 계산된 상기 맵핑 중복수가 설정된 값을 초과하는 단편 서열을 선택하는 단계; 및
    상기 단편 서열 확장부에서, 상기 참조 서열에서의 맵핑 중복수가 상기 설정된 값 이하가 될 때까지 선택된 단편 서열의 크기를 확장하는 단계를 더 포함하며,
    상기 선택된 단편 서열의 크기를 확장하는 단계는, 상기 선택된 단편 서열의 처음 또는 끝 부분에, 해당 위치에 대응되는 상기 리드에서의 베이스를 추가하도록 구성되는, 염기 서열 정렬 방법.
  17. 청구항 14에 있어서,
    상기 전역 정렬을 수행하는 단계는, 상기 후보 단편 서열 중 상기 선택된 구간에 맵핑되는 후보 단편 서열을 선택하고, 선택된 각각의 후보 단편 서열의 상기 참조 서열 내에서의 맵핑 위치에서 상기 리드에 대한 전역 정렬을 수행하되,
    상기 전역 정렬을 수행하는 단계는, 상기 선택된 구간을 복수 개의 소구간으로 분할하는 단계; 및 상기 전역 정렬을 수행하려는 상기 참조 서열 내 위치가 속한 소구간에서 전역 정렬이 기 수행되었는지의 여부를 판단하는 단계를 더 포함하며,
    상기 판단 결과 전역 정렬이 기 수행되지 않은 경우에만 상기 전역 정렬을 수행하는, 염기 서열 정렬 방법.
  18. 청구항 14에 있어서,
    상기 총 맵핑 개수를 계산하는 단계는, 상기 각 구간 별 상기 후보 단편 서열들의 총 맵핑 길이를 계산하는 단계를 더 포함하며,
    상기 전역 정렬을 수행하는 단계는, 상기 총 맵핑 개수가 기준 개수 이상인 구간 중 상기 총 맵핑 길이가 설정된 기준 길이 이상이 구간을 선택하고, 선택된 구간에 대하여 상기 리드에 대한 전역 정렬을 수행하는, 염기 서열 정렬 방법.
  19. 청구항 18에 있어서,
    상기 전역 정렬을 수행하는 단계는, 상기 선택된 구간이 복수 개인 경우, 각 구간 별 총 맵핑 개수 또는 총 맵핑 길이에 따라 순차적으로 상기 리드에 대한 전역 정렬을 수행하는, 염기 서열 정렬 방법.
  20. 청구항 18에 있어서,
    상기 기준 길이는 16 이상 59 이하인, 염기 서열 정렬 방법.
PCT/KR2013/007276 2012-10-29 2013-08-13 염기 서열 정렬 시스템 및 방법 WO2014069764A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2012-0120448 2012-10-29
KR20120120448A KR101508816B1 (ko) 2012-10-29 2012-10-29 염기 서열 정렬 시스템 및 방법

Publications (1)

Publication Number Publication Date
WO2014069764A1 true WO2014069764A1 (ko) 2014-05-08

Family

ID=50548107

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2013/007276 WO2014069764A1 (ko) 2012-10-29 2013-08-13 염기 서열 정렬 시스템 및 방법

Country Status (4)

Country Link
US (1) US20140121991A1 (ko)
KR (1) KR101508816B1 (ko)
CN (1) CN103793627B (ko)
WO (1) WO2014069764A1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101508817B1 (ko) * 2012-10-29 2015-04-08 삼성에스디에스 주식회사 염기 서열 정렬 시스템 및 방법
KR101480897B1 (ko) * 2012-10-29 2015-01-12 삼성에스디에스 주식회사 염기 서열 정렬 시스템 및 방법
CN107403075B (zh) * 2017-08-02 2021-04-27 深圳市真迈生物科技有限公司 比对方法、装置及系统
US11482304B2 (en) 2017-08-02 2022-10-25 Genemind Biosciences Company Limited Alignment methods, devices and systems
CN113789249A (zh) 2018-01-23 2021-12-14 深圳市真迈生物科技有限公司 承载模块、核酸加载装置及用途
CN109841264B (zh) * 2019-01-31 2022-02-18 郑州云海信息技术有限公司 一种序列比对滤波处理方法、系统、装置及可读存储介质
CN110517727B (zh) * 2019-08-23 2022-03-08 苏州浪潮智能科技有限公司 序列比对方法及系统
CN110797085B (zh) * 2019-10-25 2022-07-08 浪潮(北京)电子信息产业有限公司 一种基因数据的查询方法、系统、设备及存储介质
CN110942809B (zh) * 2019-11-08 2022-06-10 浪潮电子信息产业股份有限公司 一种序列比对的Seed处理方法、系统、装置及可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005096208A1 (ja) * 2004-03-31 2005-10-13 Bio-Think Tank Co., Ltd. 塩基配列検索装置及び塩基配列検索方法
US8239140B2 (en) * 2006-08-30 2012-08-07 The Mitre Corporation System, method and computer program product for DNA sequence alignment using symmetric phase only matched filters
CN101748213B (zh) * 2008-12-12 2013-05-08 深圳华大基因研究院 一种环境微生物检测方法和系统
CN101984445B (zh) * 2010-03-04 2012-03-14 深圳华大基因科技有限公司 一种基于聚合酶链式反应产物测序序列分型的实现方法和系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
LANGMEAD ET AL.: "Fast gapped-read alignment with Bowtie 2", NATURE METHODS, vol. 9, no. 4, April 2012 (2012-04-01), pages 357 - 359 *
LI ET AL.: "A survey of sequence alignment algorithms for next-generation sequencing", BRIEFINGS IN BIOINFORMATICS, V, vol. 11, no. 5, 2010, pages 473 - 483 *
LI ET AL.: "Mapping short DNA sequencing reads and calling variants using mapping quality scores", GENOME RESEARCH, vol. 18, no. 11, 2008, pages 1851 - 1858 *
PARK, TAE WON E ET AL.: "Method for Time Efficient Processing of Next Generation Sequencing Reads Using Hitting Set Problem", JOURNAL OF KISSE: COMPUTER SYSTEMS AND THEORY, vol. 38, no. 6, 2011, pages 275 - 280 *
RIZK ET AL.: "GASSST: global alignment short sequence search tool", BIOINFORMATICS, vol. 26, no. 20, 2010, pages 2534 - 2540 *

Also Published As

Publication number Publication date
CN103793627B (zh) 2017-03-01
KR101508816B1 (ko) 2015-04-07
CN103793627A (zh) 2014-05-14
KR20140054675A (ko) 2014-05-09
US20140121991A1 (en) 2014-05-01

Similar Documents

Publication Publication Date Title
WO2014069764A1 (ko) 염기 서열 정렬 시스템 및 방법
WO2014069769A1 (ko) 리드 전체를 고려한 염기 서열 정렬 시스템 및 방법
Pevzner et al. Fragment assembly with double-barreled data
WO2014183270A1 (zh) 一种检测染色体结构异常的方法及装置
WO2018058959A1 (zh) Sql审核方法、装置、服务器及存储设备
WO2013065944A1 (ko) Ngs를 위한 서열 재조합 방법 및 장치
Frangeul et al. CAAT-Box, contigs-assembly and annotation tool-box for genome sequencing projects
WO2014069767A1 (ko) 염기 서열 정렬 시스템 및 방법
WO2017086675A1 (ko) 대사 이상 질환 진단 장치 및 그 방법
WO2022039316A1 (ko) 치과용 3차원 데이터 위치 정렬 자동화 방법 및 이를 컴퓨터에서 실행시키기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체
WO2018236120A1 (ko) 네거티브 마커를 이용한 유사 종 식별 방법 및 장치
Belbasi et al. The minimizer Jaccard estimator is biased and inconsistent
CN113205857B (zh) 基因组性染色体非同源区域的鉴定方法和装置
WO2022164236A1 (en) Method and system for searching target node related to queried entity in network
WO2018151384A1 (ko) 통신 데이터 모델링 방법
Fasulo et al. Efficiently detecting polymorphisms during the fragment assembly process
WO2014069770A1 (ko) 중복을 고려한 염기 서열 재조합 시스템 및 방법
WO2014119848A1 (en) System for recombining genome sequence in consideration of read length and method thereof
WO2014181937A1 (en) System and method for aligning genome sequence in consideration of read quality
KR101584857B1 (ko) 염기 서열 정렬 시스템 및 방법
WO2016080695A1 (ko) 음향 정보에 기초한 사용자 다수 행위 인식 방법
JP2013183737A (ja) シードの長さを考慮した塩基配列処理システム及び方法
WO2013078623A1 (zh) 核酸序列组装中的补洞方法及其装置
WO2020145591A1 (ko) 자연 언어 기반 블록 체인 스마트 계약 생성방법 및 그를 위한 장치
WO2014069766A1 (ko) 염기 서열 재조합 시스템 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13850876

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 27/08/2015)

122 Ep: pct application non-entry in european phase

Ref document number: 13850876

Country of ref document: EP

Kind code of ref document: A1