KR102111731B1 - Method and apparatus for analyzing nucleic acid sequence - Google Patents
Method and apparatus for analyzing nucleic acid sequence Download PDFInfo
- Publication number
- KR102111731B1 KR102111731B1 KR1020180018687A KR20180018687A KR102111731B1 KR 102111731 B1 KR102111731 B1 KR 102111731B1 KR 1020180018687 A KR1020180018687 A KR 1020180018687A KR 20180018687 A KR20180018687 A KR 20180018687A KR 102111731 B1 KR102111731 B1 KR 102111731B1
- Authority
- KR
- South Korea
- Prior art keywords
- sequence
- target
- mismatch
- bulge
- bases
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
핵산 시퀀스를 분석하는 방법 및 장치는, 벌지(bulge)가 존재하는 제1 쿼리 시퀀스의 정보 및 잠재적 오프-타겟(off-target) 사이트의 타겟 시퀀스의 정보를 획득하고, 제1 쿼리 시퀀스를 벌지가 존재하지 않는 시퀀스로 가정하기 위하여 벌지의 염기를 벌지 양단의 염기들 사이에 삽입한 제2 쿼리 시퀀스로 제1 쿼리 시퀀스를 변환하고, 변환된 제2 쿼리 시퀀스와 타겟 시퀀스의 염기 자리들이 일치된 상태에서의 제1 미스매치 결과 및 염기 자리들이 불일치된 상태에서의 제2 미스매치 결과를 획득하고, 획득된 제1 및 제2 미스매치 결과들과 미리 정의된 미스매치 임계 개수를 비교함으로써 타겟 시퀀스를 온-타겟(on-target) 사이트인지 또는 오프-타겟 사이트인지 판별하기 위한 후보로 선택할 것인지를 판단한다.A method and apparatus for analyzing a nucleic acid sequence acquires information of a first query sequence in which a bulge exists and information of a target sequence of a potential off-target site, and the bulge In order to assume a non-existent sequence, the first query sequence is transformed into a second query sequence in which the base of the bulge is inserted between the bases at both ends of the bulge, and the base positions of the converted second query sequence and the target sequence are matched. The target sequence is obtained by acquiring a second mismatch result in a state where the first mismatch result and base sites are inconsistent, and comparing the obtained first and second mismatch results with a predefined mismatch threshold number. It is determined whether to select as a candidate for determining whether it is an on-target site or an off-target site.
Description
핵산 시퀀스를 분석하는 방법 및 장치에 관하고, 구체적으로 벌지가 존재하는 핵산 시퀀스들 간의 미스매치를 분석하는 방법 및 장치에 관한다.It relates to a method and apparatus for analyzing nucleic acid sequences, and specifically to a method and apparatus for analyzing mismatches between nucleic acid sequences in which bulges are present.
특정 DNA 위치나 분자 물질에 서열특이적으로 결속하는 짧은 RNA(short guidingRNA or small interfering RNA 등)를 이용하여 DNA 교정이나 유전자발현을 조절하는 방법들은 유전공학분야에서 광범위하게 활용되고 있다. 핵산 시퀀스들 간의 예상치 못한 오프-타겟 사이트에 대한 결속은 유전공학을 이용한 진단/치료 분야에서 막대한 실패 비용과 부작용을 야기할 수 있다. 효과적인 오프-타겟 사이트에 대한 결속 여부 예측으로 사전에 오프-타겟 사이트들을 배제시킬 수 있다면 유전체 분석 기술에 있어서 기능 최대화와 부작용 최소화에 중요한 기여를 할 수 있다.Methods for regulating DNA or gene expression using short RNA (short guiding RNA or small interfering RNA) that are sequence-specifically bound to a specific DNA position or molecular material have been widely used in the field of genetic engineering. Unexpected binding of off-target sites between nucleic acid sequences can lead to enormous failure costs and side effects in the field of diagnosis / treatment using genetic engineering. If the off-target sites can be excluded in advance by predicting whether to bind to the off-target site effectively, it can make an important contribution to maximizing functions and minimizing side effects in the genome analysis technology.
핵산 시퀀스를 분석하는 방법 및 장치를 제공하는데 있다. 해결하려는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.Disclosed is a method and apparatus for analyzing nucleic acid sequences. The technical problem to be solved is not limited to the technical problems as described above, and other technical problems may exist.
유전체 상에서는 특정 조건을 만족하는 미스매치 계산 대상인 시퀀스 후보들(즉, 타겟 시퀀스)은 수천만 개가 존재할 수 있다. 그러므로, 결속을 목표로 하는 온-타겟(on-target) 사이트의 시퀀스(즉, 쿼리 시퀀스)와 수천만 개의 시퀀스 후보들(타겟 시퀀스들) 사이의 미스매치를 계산하는 것은, 처리 시간이 오래 걸릴 뿐만 아니라, 처리 속도 또한 느리다.In the genome, tens of millions of sequence candidates (ie, target sequences) that are mismatch calculation targets satisfying a specific condition may exist. Therefore, calculating the mismatch between a sequence of on-target sites (ie, a query sequence) targeting binding and tens of millions of sequence candidates (target sequences) not only takes a long time to process. , The processing speed is also slow.
일 측면에 따르면, 핵산 시퀀스를 분석하는 방법은 벌지(bulge)가 존재하는 제1 쿼리 시퀀스의 정보 및 잠재적 오프-타겟(off-target) 사이트의 타겟 시퀀스의 정보를 획득하는 단계; 상기 제1 쿼리 시퀀스를 상기 벌지가 존재하지 않는 시퀀스로 가정하기 위하여 상기 벌지의 염기를 상기 벌지 양단의 염기들 사이에 삽입한 제2 쿼리 시퀀스로 상기 제1 쿼리 시퀀스를 변환하는 단계; 상기 변환된 제2 쿼리 시퀀스와 상기 타겟 시퀀스의 염기 자리들이 일치된 상태에서의 제1 미스매치 결과 및 상기 염기 자리들이 불일치된 상태에서의 제2 미스매치 결과를 획득하는 단계; 상기 획득된 제1 및 제2 미스매치 결과들과 미리 정의된 미스매치 임계 개수를 비교함으로써, 상기 타겟 시퀀스를 온-타겟(on-target) 사이트인지 또는 오프-타겟 사이트인지 판별하기 위한 후보로 선택할 것인지를 판단하는 단계를 포함한다.According to one aspect, a method of analyzing a nucleic acid sequence includes obtaining information of a first query sequence in which a bulge exists and information of a target sequence of a potential off-target site; Converting the first query sequence into a second query sequence in which the base of the bulge is inserted between bases at both ends of the bulge in order to assume the first query sequence as a sequence in which the bulge does not exist; Obtaining a first mismatch result in which the base positions of the converted second query sequence and the target sequence are matched and a second mismatch result in which the base positions are mismatched; By comparing the obtained first and second mismatch results with a predefined number of mismatch thresholds, the target sequence is selected as a candidate for determining whether it is an on-target site or an off-target site. And determining whether or not.
또한, 상기 벌지는 상기 제1 쿼리 시퀀스에서 1개일 수 있다.Also, the bulge may be one in the first query sequence.
또한, 상기 제1 미스매치 결과는 상기 염기 자리들이 일치한 상태에서, 상기 제2 쿼리 시퀀스에 포함된 상기 벌지의 염기의 제1 측에 위치한 염기들과 상기 타겟 시퀀스의 염기들 사이의 미스매치 염기 개수에 대응한다.In addition, the first mismatch result is a mismatch base between bases located on the first side of the base of the bulge included in the second query sequence and bases of the target sequence, with the base positions coinciding. Corresponds to the number.
또한, 상기 염기 자리들이 불일치한 상태는 상기 타겟 시퀀스에 대해 상기 제2 쿼리 시퀀스가 상기 제1 측으로 염기 1개만큼 어긋나게 정렬된 상태에 해당하고, 상기 제2 미스매치 결과는 상기 제2 쿼리 시퀀스에서 상기 벌지의 염기의 제2 측에 위치한 염기들과 상기 타겟 시퀀스의 염기들 사이의 미스매치 염기 개수에 대응한다.Also, a state in which the base positions are mismatched corresponds to a state in which the second query sequence is misaligned by one base to the first side with respect to the target sequence, and the second mismatch result is in the second query sequence. Corresponds to the number of mismatch bases between bases located on the second side of the base of the bulge and bases of the target sequence.
또한, 상기 제1 측이 상기 타겟 시퀀스의 5' 방향인 경우, 상기 제2 측은 상기 타겟 시퀀스의 3' 방향이고, 상기 제1 측이 상기 3' 방향인 경우, 상기 제2 측은 상기 5' 방향일 수 있다.Further, when the first side is the 5 'direction of the target sequence, the second side is the 3' direction of the target sequence, and when the first side is the 3 'direction, the second side is the 5' direction Can be
또한, 상기 핵산 시퀀스는 복수의 잠재적 오프-타겟 사이트들을 포함하고, 상기 방법은 상기 복수의 잠재적 오프-타겟 사이트들 각각의 타겟 시퀀스에 대한 상기 제1 및 제2 미스매치 결과들에 기초하여, 상기 복수의 잠재적 오프-타겟 사이트들의 타겟 시퀀스들 중에서 상기 온-타겟 사이트인지 또는 상기 오프-타겟 사이트인지를 판별하기 위한 상기 후보를 선별하는 단계를 더 포함한다.In addition, the nucleic acid sequence comprises a plurality of potential off-target sites, and the method is based on the first and second mismatch results for the target sequence of each of the plurality of potential off-target sites, And selecting the candidate for determining whether it is the on-target site or the off-target site among target sequences of a plurality of potential off-target sites.
또한, 상기 선별하는 단계는 상기 복수의 잠재적 오프-타겟 사이트들의 상기 타겟 시퀀스들 중에서 상기 미스매치 임계 개수를 초과하는 미스매치 염기 개수를 갖는 타겟 시퀀스들을 프루닝함으로써 상기 후보를 선별하고, 상기 미스매치 염기 개수는 상기 제1 미스매치 결과와 상기 제2 미스매치 결과를 합한 값에 해당한다.In addition, the screening step selects the candidate by pruning target sequences having a number of mismatch bases exceeding the mismatch threshold number among the target sequences of the plurality of potential off-target sites, and the mismatch The number of bases corresponds to the sum of the first mismatch result and the second mismatch result.
또한, 상기 제1 쿼리 시퀀스는 CRISPR Cas9 시스템을 위한 sgRNA의 핵산 시퀀스에 대응한다.In addition, the first query sequence corresponds to the nucleic acid sequence of sgRNA for the CRISPR Cas9 system.
또한, 상기 타겟 시퀀스에 포함된 염기 개수는 상기 제1 쿼리 시퀀스에 포함된 염기 개수와 동일하다.Also, the number of bases included in the target sequence is the same as the number of bases included in the first query sequence.
다른 측면에 따르면, 핵산 시퀀스를 분석하는 장치는 벌지(bulge)가 존재하는 제1 쿼리 시퀀스의 정보 및 잠재적 오프-타겟(off-target) 사이트의 타겟 시퀀스의 정보를 저장하는 메모리; 및 상기 메모리로부터 상기 제1 쿼리 시퀀스의 정보 및 상기 타겟 시퀀스의 정보를 획득하고, 상기 제1 쿼리 시퀀스를 상기 벌지가 존재하지 않는 시퀀스로 가정하기 위하여 상기 벌지의 염기를 상기 벌지 양단의 염기들 사이에 삽입한 제2 쿼리 시퀀스로 상기 제1 쿼리 시퀀스를 변환하고, 상기 변환된 제2 쿼리 시퀀스와 상기 타겟 시퀀스의 염기 자리들이 일치된 상태에서의 제1 미스매치 결과 및 상기 염기 자리들이 불일치된 상태에서의 제2 미스매치 결과를 획득하고, 상기 획득된 제1 및 제2 미스매치 결과들과 미리 정의된 미스매치 임계 개수를 비교함으로써 상기 타겟 시퀀스를 온-타겟(on-target) 사이트인지 또는 오프-타겟 사이트인지 판별하기 위한 후보로 선택할 것인지를 판단하는 프로세서를 포함한다.According to another aspect, an apparatus for analyzing a nucleic acid sequence includes a memory for storing information of a first query sequence in which a bulge is present and information of a target sequence at a potential off-target site; And base information of the bulge between bases of both ends of the bulge in order to obtain information of the first query sequence and information of the target sequence from the memory, and to assume the first query sequence as a sequence in which the bulge does not exist. The first query sequence is converted into the second query sequence inserted in the first mismatch result in which the base positions of the converted second query sequence and the target sequence are matched, and the base positions are inconsistent. Whether the target sequence is an on-target site or off by acquiring a second mismatch result at and comparing the obtained first and second mismatch results with a predefined number of mismatch thresholds It includes a processor that determines whether to select as a candidate for determining whether it is a target site.
또한, 상기 벌지는 상기 제1 쿼리 시퀀스에서 1개일 수 있다.Also, the bulge may be one in the first query sequence.
또한, 상기 제1 미스매치 결과는 상기 염기 자리들이 일치한 상태에서, 상기 제2 쿼리 시퀀스에 포함된 상기 벌지의 염기의 제1 측에 위치한 염기들과 상기 타겟 시퀀스의 염기들 사이의 미스매치 염기 개수에 대응한다.In addition, the first mismatch result is a mismatch base between bases located on the first side of the base of the bulge included in the second query sequence and bases of the target sequence, with the base positions coinciding. Corresponds to the number.
또한, 상기 염기 자리들이 불일치한 상태는 상기 타겟 시퀀스에 대해 상기 제2 쿼리 시퀀스가 상기 제1 측으로 염기 1개만큼 어긋나게 정렬된 상태에 해당하고, 상기 제2 미스매치 결과는 상기 제2 쿼리 시퀀스에서 상기 벌지의 염기의 제2 측에 위치한 염기들과 상기 타겟 시퀀스의 염기들 사이의 미스매치 염기 개수에 대응한다.Also, a state in which the base positions are mismatched corresponds to a state in which the second query sequence is misaligned by one base to the first side with respect to the target sequence, and the second mismatch result is in the second query sequence. Corresponds to the number of mismatch bases between bases located on the second side of the base of the bulge and bases of the target sequence.
또한, 상기 제1 측이 상기 타겟 시퀀스의 5' 방향인 경우, 상기 제2 측은 상기 타겟 시퀀스의 3' 방향이고, 상기 제1 측이 상기 3' 방향인 경우, 상기 제2 측은 상기 5' 방향일 수 있다.Further, when the first side is the 5 'direction of the target sequence, the second side is the 3' direction of the target sequence, and when the first side is the 3 'direction, the second side is the 5' direction Can be
또한, 상기 핵산 시퀀스는 복수의 잠재적 오프-타겟 사이트들을 포함하고, 상기 프로세서는 상기 복수의 잠재적 오프-타겟 사이트들 각각의 타겟 시퀀스에 대한 상기 제1 및 제2 미스매치 결과들에 기초하여, 상기 복수의 잠재적 오프-타겟 사이트들의 타겟 시퀀스들 중에서 상기 온-타겟 사이트인지 또는 상기 오프-타겟 사이트인지를 판별하기 위한 상기 후보를 선별한다.In addition, the nucleic acid sequence includes a plurality of potential off-target sites, and the processor is based on the first and second mismatch results for the target sequence of each of the plurality of potential off-target sites, The candidate for determining whether it is the on-target site or the off-target site is selected from target sequences of a plurality of potential off-target sites.
또한, 상기 프로세서는 상기 복수의 잠재적 오프-타겟 사이트들의 상기 타겟 시퀀스들 중에서 상기 미스매치 임계 개수를 초과하는 미스매치 염기 개수를 갖는 타겟 시퀀스들을 프루닝함으로써 상기 후보를 선별하고, 상기 미스매치 염기 개수는 상기 제1 미스매치 결과와 상기 제2 미스매치 결과를 합한 값에 해당한다.In addition, the processor selects the candidate by pruning target sequences having a number of mismatch bases exceeding the mismatch threshold number among the target sequences of the plurality of potential off-target sites, and the number of mismatch bases Is the sum of the first mismatch result and the second mismatch result.
또한, 상기 제1 쿼리 시퀀스는 CRISPR Cas9 시스템을 위한 sgRNA의 핵산 시퀀스에 대응한다.In addition, the first query sequence corresponds to the nucleic acid sequence of sgRNA for the CRISPR Cas9 system.
또한, 상기 타겟 시퀀스에 포함된 염기 개수는 상기 제1 쿼리 시퀀스에 포함된 염기 개수와 동일하다. Also, the number of bases included in the target sequence is the same as the number of bases included in the first query sequence.
상기된 바에 따르면, 두 핵산 시퀀스들의 한쪽 끝 단(특정 단백질의 바인딩 도메인 위치)이 서로 고정된 상태로 결속하는 성질을 이용하는 유전공학분야 기술에서 결속 정도를 측정하기 위한 미스매치 처리 속도를 향상시킬 수 있다. 특히 두 핵산 시퀀스들 간에 벌지(bulge)가 존재하는 미스매치 계산 속도를 향상시킴으로써, 유전체 빅데이터와 같은 대량 핵산 시퀀스들 간에 미스매치 계산을 빠른 시간 내에 가능케 할 수 있다.According to the above, it is possible to improve the mismatch processing speed for measuring the degree of binding in the field of genetic engineering using the property that one end of two nucleic acid sequences (binding domain position of a specific protein) is fixed to each other. have. In particular, by improving the speed of mismatch calculation in which a bulge exists between two nucleic acid sequences, mismatch calculation between large nucleic acid sequences such as genomic big data can be enabled in a short time.
도 1은 일 실시예에 따른 시퀀스 분석 장치의 하드웨어 구성을 도시한 블록도이다.
도 2는 일 실시예에 따른 오프-타겟 사이트와 온-타겟 사이트를 설명하기 위한 도면이다.
도 3은 일 실시예에 따른 벌지가 존재하는 sgRNA의 결속을 설명하기 위한 도면이다.
도 4a 및 도 4b는 일 실시예들에 따라 sgRNA의 쿼리 시퀀스에 벌지가 없는 경우와 벌지가 있는 경우 각각의 미스매치 개수 판단의 러닝 타임을 설명하기 위한 도면들이다.
도 5는 일 실시예에 따라 벌지가 존재하는 sgRNA 시퀀스와 DNA 시퀀스 간의 미스매치를 계산하는 방식을 설명하기 위한 도면이다.
도 6 및 도 7은 일 실시예에 따라 핵산 시퀀스들 간의 실제 미스매치 결과를 분석하기 위한 첫 번째 전처리 과정 및 두 번째 전처리 과정을 설명하기 위한 도면이다.
도 8은 일 실시예에 따라 도 6 및 도 7에서 수행되는 전처리 과정들에 의해 온-타겟 사이트를 판별하기 위한(또는 오프-타겟 사이트를 판별하기 위한) 후보군이 감소될 수 있음을 나타내는 도면이다.
도 9는 일 실시예에 따른 핵산 시퀀스를 분석하는 방법의 흐름도이다.1 is a block diagram showing a hardware configuration of a sequence analysis device according to an embodiment.
2 is a diagram for explaining an off-target site and an on-target site according to an embodiment.
3 is a view for explaining the binding of sgRNA with bulges present according to an embodiment.
4A and 4B are diagrams for explaining the running time of each mismatch number determination when there is no bulge and when there is bulge in the query sequence of sgRNA according to one embodiment.
5 is a diagram for explaining a method of calculating a mismatch between a sgRNA sequence and a DNA sequence in which a bulge is present, according to an embodiment.
6 and 7 are diagrams for explaining a first pre-processing process and a second pre-processing process for analyzing actual mismatch results between nucleic acid sequences according to an embodiment.
FIG. 8 is a diagram illustrating that a candidate group for determining an on-target site (or for determining an off-target site) may be reduced by preprocessing performed in FIGS. 6 and 7 according to an embodiment. .
9 is a flowchart of a method for analyzing a nucleic acid sequence according to an embodiment.
실시 예들에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.The terminology used in the embodiments has been selected for general terms that are currently widely used while considering functions in the present invention, but this may vary according to the intention or precedent of a person skilled in the art or the appearance of new technologies. In addition, in certain cases, some terms are arbitrarily selected by the applicant, and in this case, their meanings will be described in detail in the description of the applicable invention. Therefore, the terms used in the present invention should be defined based on the meanings of the terms and the contents of the present invention, not simply the names of the terms.
명세서 전체에서 어떤 부분이 어떤 구성요소를 “포함”한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 “…부”, “…모듈” 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.When a certain part of the specification “includes” a certain component, this means that other components may be further included instead of excluding the other component, unless specifically stated to the contrary. Also, “… Wealth ”,“… The term “module” means a unit that processes at least one function or operation, which may be implemented in hardware or software, or a combination of hardware and software.
아래에서는 첨부한 도면을 참고하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art to which the present invention pertains may easily practice. However, the present invention can be implemented in many different forms and is not limited to the embodiments described herein.
이하에서는 도면을 참조하여 본 발명의 실시 예들을 상세히 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
도 1은 일 실시예에 따른 시퀀스 분석 장치의 하드웨어 구성을 도시한 블록도이다.1 is a block diagram showing a hardware configuration of a sequence analysis device according to an embodiment.
도 1을 참고하면, 시퀀스 분석 장치(10)는 프로세서(110) 및 메모리(120)를 포함한다. 프로세서(110)는 미스매치 판단부(112) 및 후보 시퀀스 선별부(114)를 포함할 수 있다.Referring to FIG. 1, the
도 1에 도시된 시퀀스 분석 장치(10)에는 본 실시예와 관련된 구성요소들만이 도시되어 있다. 따라서, 도 1에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 시퀀스 분석 장치(10)에 더 포함될 수 있음을 본 실시예와 관련된 기술분야에서 통상의 지식을 가진 자라면 이해할 수 있다.In the
시퀀스 분석 장치(10)는 벌지(bulge)가 존재하는 핵산 시퀀스들 간의 미스매치를 분석하여 실제 오프-타겟 사이트 또는 실제 온-타겟 사이트의 타겟 시퀀스 후보들을 예측하는 유전체 분석 장치에 해당할 수 있다. The
종래 유전공학분야 기술들에서 소개된 핵산 시퀀스들 간의 미스매치 처리는 대부분 핵산 시퀀스에 발생된 벌지를 고려하지 않고 수행되고 있다. 또한, 벌지를 고려하여 미스매치 처리를 수행하는 경우라 할지라도, 모든 비교 대상인 후보 핵산 시퀀스들에 대하여 비효율적인 Edit Distance 알고리즘 방식의 계산 방법을 이용할 뿐이어서, 유전체와 같은 빅데이터를 대상으로 하기에는 처리 시간 또는 처리 속도가 느릴 수 밖에 없었다. 다시 말하면, 유전체 상에는 미스매치 계산을 수행할 후보군이 너무 방대하기 때문에, 모든 후보 핵산 시퀀스들의 후보군에 대한 Edit Distance 알고리즘의 적용은 매우 비효율적일 수 있다.Mismatch processing between nucleic acid sequences introduced in conventional genetic engineering techniques is mostly performed without considering the bulge generated in the nucleic acid sequence. In addition, even in the case of performing mismatch processing in consideration of bulge, an inefficient Edit Distance algorithm method is used for all candidate nucleic acid sequences to be compared, and processing is performed to target big data such as genomes. Time or processing was forced to be slow. In other words, since the candidate group for performing mismatch calculation on the genome is too large, the application of the Edit Distance algorithm to the candidate group of all candidate nucleic acid sequences can be very inefficient.
한편, 짧은 핵산 시퀀스들 간의 결속을 이용하는 유전공학에서는 2개 이상의 벌지가 존재하는 경우가 극히 드물다는 점이 알려져 있다. 이에 따라, 본 실시예의 시퀀스 분석 장치(10)는 벌지가 전혀 없거나 또는 1개의 벌지 만을 고려하여 미스매치 처리를 수행함으로써, 본격적인 오프-타겟 사이트(또는 온-타겟 사이트)의 후보군의 타겟 시퀀스들의 미스매치 계산 전에 후보군 내 타겟 시퀀스들의 개수를 상당수 감소시킬 수 있다. 오프-타겟 사이트와 온-타겟 사이트에 대해 설명하면 다음과 같다.On the other hand, it is known that it is extremely rare that two or more bulges exist in genetic engineering using binding between short nucleic acid sequences. Accordingly, the
도 2는 일 실시예에 따른 오프-타겟 사이트와 온-타겟 사이트를 설명하기 위한 도면이다.2 is a diagram for explaining an off-target site and an on-target site according to an embodiment.
도 2를 참고하면, sgRNA(small guidingRNA, short guidingRNA 또는 single guideRNA)(210)는 DNA(220)(구체적으로, 이중나선 DNA의 어느 한 가닥)에 결속될 수 있다. 이때, sgRNA(210)는 특이적(specific) 단백질 및 다른 종류의 단백질과 결합될 수 있다. 예를 들어, 특이적 단백질은 Cas9일 수 있고, 이 경우에 sgRNA(210)는 CRISPR Cas9 시스템을 위한 것일 수 있다. 다만, 본 실시예에 따른 sgRNA(210)의 제작은 이 종류로만 한정되지 않는다. sgRNA(210)의 크기는 예를 들어, 20개의 뉴클레오티드들(nts)의 길이일 수 있으나, 본 실시예는 이에 제한되지 않는다.Referring to FIG. 2, sgRNA (small guidingRNA, short guidingRNA, or single guideRNA) 210 may be bound to DNA 220 (specifically, one strand of double-stranded DNA). In this case, the
도 2에 도시된 바와 같이, sgRNA(210)를 결속시키고자 하는 DNA(220)의 부분은 온-타겟 사이트(235)에 해당되고, 의도치 않게 sgRNA(210)가 결속되는 DNA(220)의 부분은 1개 이상 염기의 미스매치가 발생된 부분으로서, 오프-타겟 사이트(233)에 해당된다. NGG 시퀀스는 PAM(protospacer adjacent motif)에 해당된다.As shown in Figure 2, the portion of the
본 실시예에 따른 시퀀스 분석 장치(도 1의 10)는, DNA(220) 상에서 sgRNA(210)가 결속될 수 있는 오프-타겟 사이트(233)의 후보군의 풀(pool)을 줄이는 기술에 관한다. 선별된 오프-타겟 사이트(233)의 후보군은 결국, 최종적인 미스매치 계산의 후보군일 수 있다.The sequence analysis device according to the present embodiment (10 in FIG. 1) relates to a technique for reducing the pool of candidate groups of the off-
다시 도 1을 참고하면, 메모리(120)는 벌지가 존재하는 제1 쿼리(query) 시퀀스의 정보 및 잠재적 오프-타겟 사이트(potential off-target site)의 타겟 시퀀스의 정보를 저장한다. 이와 같은 정보들은 외부의 시퀀싱 장치(예를 들어, High Content Cell Imaging 장치, High Content Screening 장치 또는 High Throughput Screening 장치 등의 이미지 분석 장치들)로부터 수신된 것이거나, 외부의 핵산 시퀀스 저장 데이터베이스(DB)로부터 수신된 것이거나, 또는 시퀀스 분석 장치(10) 자체를 이용하여 획득된 핵산 시퀀스 정보들일 수 있다.Referring back to FIG. 1, the
메모리(120)는 시퀀스 분석 장치(10) 내에서 처리되는 각종 데이터들을 저장하기 위한 RAM(random access memory), ROM(read-only memory), EEPROM(electrically erasable programmable read-only memory) 등의 다양한 종류들의 메모리를 포함할 수 있다.The
프로세서(110)는 시퀀스 분석 장치(10)의 전반적인 동작을 제어하는 하드웨어이다. 프로세서(110)는 적어도 하나의 프로세서, 마이크로프로세서, 마이크로컨트롤러 등과 같은 프로세싱 유닛과 메모리 유닛의 조합으로 구현된 집적 회로 또는 프로세싱 모듈에 해당할 수 있고, 예를 들어 CPU(central processing unit), GPU(graphic processing unit) 등에 해당할 수 있다.The
프로세서(110)의 미스매치 판단부(112)는 메모리(120)로부터, 벌지가 존재하는 제1 쿼리 시퀀스의 정보 및 잠재적 오프-타겟 사이트의 타겟 시퀀스의 정보를 획득한다. 여기서, 벌지는 제1 쿼리 시퀀스에서 1개인 것으로 가정하나, 본 실시예는 이에 제한되지 않을 수 있다. 먼저, 벌지에 대해서는 도 3을 참고하여 설명하도록 한다.The
도 3은 일 실시예에 따른 벌지가 존재하는 sgRNA의 결속을 설명하기 위한 도면이다. 도 3을 참고하면, sgRNA(310)가 DNA(220) 상에 결속될 때, 1개의 염기에 대한 벌지(312)가 발생될 수 있다. 20nts의 sgRNA(310)에 1개의 벌지(312)가 발생한 경우, sgRNA(310)와 상보적인 19nts의 DNA(220) 내 어느 일부 시퀀스에 결속될 수 있다. 이와 같은 현상은 벌지로 인한 미스매치에 해당된다.3 is a view for explaining the binding of sgRNA with bulges present according to an embodiment. Referring to FIG. 3, when
벌지를 갖는 제1 쿼리 시퀀스는 CRISPR Cas9 시스템을 위한 sgRNA의 핵산 시퀀스에 대응할 수 있으나, 이에 제한되지 않고 다른 종류의 시스템을 sgRNA의 핵산 시퀀스 또는 다른 목적의 gRNA (guide RNA)에 대응할 수도 있다.The first query sequence having a bulge may correspond to the nucleic acid sequence of sgRNA for the CRISPR Cas9 system, but is not limited thereto, and other types of systems may correspond to the nucleic acid sequence of sgRNA or other target gRNA (guide RNA).
DNA(220) 상의 타겟 시퀀스는 게놈 일부 또는 사용자에 의해 정의된 시퀀스일 수 있다.The target sequence on
다시 도 1을 참고하면, 미스매치 판단부(112)는 획득된 정보들에 기초하여, 제1 쿼리 시퀀스를 상기 벌지가 존재하지 않는 시퀀스로 가정하기 위하여 벌지의 염기를 벌지 양단의 염기들 사이에 삽입한 제2 쿼리 시퀀스로 제1 쿼리 시퀀스를 변환한다. 그리고 나서, 미스매치 판단부(112)는 변환된 제2 쿼리 시퀀스와 타겟 시퀀스의 염기 자리들이 일치된 상태에서의 제1 미스매치 결과 및 염기 자리들이 불일치된 상태에서의 제2 미스매치 결과를 획득한다.Referring back to FIG. 1, the
제1 미스매치 결과는 염기 자리들이 일치한 상태에서, 제2 쿼리 시퀀스에 포함된 벌지의 염기의 제1 측에 위치한 염기들과 타겟 시퀀스의 염기들 사이의 미스매치 염기 개수에 대응한다.The first mismatch result corresponds to the number of mismatch bases between bases located on the first side of the base of the bulge included in the second query sequence and bases of the target sequence, with the base positions coincident.
제2 미스매치 결과는 제2 쿼리 시퀀스에서 벌지의 염기의 제2 측에 위치한 염기들과 타겟 시퀀스의 염기들 사이의 미스매치 염기 개수에 대응한다. 이때, 염기 자리들이 불일치한 상태는 타겟 시퀀스에 대해 제2 쿼리 시퀀스가 제1 측으로 염기 1개만큼 어긋나게 정렬된 상태에 해당한다.The second mismatch result corresponds to the number of mismatch bases between the bases located on the second side of the base of the bulge and the bases of the target sequence in the second query sequence. At this time, the state in which the base positions are inconsistent corresponds to a state in which the second query sequence with respect to the target sequence is misaligned by one base to the first side.
제1 측과 제2 측의 방향은 핵산 시퀀스에서 서로 반대 방향을 의미하고, 구체적으로 제1 측이 타겟 시퀀스의 5' 방향인 경우 제2 측은 타겟 시퀀스의 3' 방향이고, 제1 측이 3' 방향인 경우 제2 측은 5' 방향일 수 있다.The directions of the first side and the second side mean opposite directions in the nucleic acid sequence, and specifically, when the first side is the 5 'direction of the target sequence, the second side is the 3' direction of the target sequence, and the first side is 3 In the 'direction, the second side may be in the 5' direction.
후보 시퀀스 선별부(114)는 획득된 제1 및 제2 미스매치 결과들과 미리 정의된 미스매치 임계 개수를 비교함으로써, 타겟 시퀀스를 온-타겟(on-target) 사이트인지 또는 오프-타겟 사이트인지 판별하기 위한 후보로 선택할 것인지를 판단한다.The
시퀀스 분석 장치(10)는 복수의 잠재적 오프-타겟 사이트들의 타겟 시퀀스들을 분석하는 장치로서, 앞서 설명된 바와 같이 본격적인 오프-타겟 사이트(또는 온-타겟 사이트)의 후보군의 타겟 시퀀스들의 미스매치 계산 전에 후보군 내에서 불필요하다고 고려되는 타겟 시퀀스들을 프루닝(pruning)할 수 있다.The
즉, 후보 시퀀스 선별부(114)는 복수의 잠재적 오프-타겟 사이트들 각각의 타겟 시퀀스에 대한 제1 및 제2 미스매치 결과들에 기초하여, 복수의 잠재적 오프-타겟 사이트들의 타겟 시퀀스들 중에서 온-타겟 사이트인지 또는 오프-타겟 사이트인지를 판별하기 위한 후보를 선별한다. 이때, 후보 시퀀스 선별부(114)는 복수의 잠재적 오프-타겟 사이트들의 타겟 시퀀스들 중에서 미스매치 임계 개수를 초과하는 미스매치 염기 개수를 갖는 타겟 시퀀스들을 프루닝함으로써 후보를 선별할 수 있다. 여기서, 미스매치 염기 개수는 제1 미스매치 결과와 제2 미스매치 결과를 합한 값에 해당한다.That is, the
이로써, 후보 시퀀스 선별부(114)에 의해 최종적으로 선별된 후보의 타겟 시퀀스들만으로 잠재적 오프-타겟 사이트들이 실제 오프-타겟 사이트(또는 온-타겟 사이트)인지 판단하므로, 미스매치 계산을 수행할 처리 대상의 감소를 통해 프로세서(110)의 미스매치 계산의 성능(처리 속도, 처리 시간 등)이 효율화될 수 있다.Accordingly, since only potential target sequences of candidates finally selected by the
도 4a 및 도 4b는 일 실시예들에 따라 sgRNA의 쿼리 시퀀스에 벌지가 없는 경우와 벌지가 있는 경우 각각의 미스매치 개수 판단의 러닝 타임을 설명하기 위한 도면들이다.4A and 4B are diagrams for explaining the running time of each mismatch number determination when there is no bulge and when there is bulge in the query sequence of sgRNA according to one embodiment.
도 4a를 참고하면, 벌지가 없이 결속된 sgRNA와 DNA 간에 미스매치의 계산은, Big-O notation (대문자 O 표기법)에 따라, O(1)의 러닝 타임이 소요된다. 여기서, O(1)은 컨스턴트 타임(constant time)으로서, 미스매치된 염기 개수에 관계없이 동일할 수 있다. 구체적으로, 벌지가 없는 두 핵산 시퀀스 간의 미스매치 계산은 핵산 시퀀스의 이진(binary) 표현형 간의 비트 연산(bitwise operation) 과 population count 알고리즘에 기초하고, 이에 따라 앞서 설명된 바와 같이 러닝 타임은 O(1)일 수 있다.Referring to FIG. 4A, calculation of mismatch between sgRNA and DNA bound without bulge takes a running time of O (1) according to Big-O notation (uppercase O notation). Here, O (1) is a constant time, and may be the same regardless of the number of mismatched bases. Specifically, the mismatch calculation between two nucleic acid sequences without bulge is based on a bitwise operation and a population count algorithm between binary phenotypes of a nucleic acid sequence, and accordingly the running time is O (1) as described above. ).
하지만, 도 4b를 참고하면, 1개의 벌지(염기 'C')가 발생되어 결속된 sgRNA와 DNA 간에 미스매치의 계산은 벌지가 없는 경우와 같다(O(1)). 그러나, 벌지는 sgRNA의 핵산 시퀀스 상의 어느 위치에도 존재 가능하기에 이 핵산 시퀀스 상의 각 위치에 벌지가 존재하는 경우마다 미스매치 계산을 수행하여야 한다. 따라서, 이때의 미스매치 계산의 러닝 타임은 Big-O notation에 따라 O(n)만큼 소요될 수 있다. 여기서, n은 핵산 시퀀스의 길이(즉, nts)를 의미한다. 따라서, 벌지가 발생된 경우, 미스매치의 계산 시간은 벌지가 없는 경우에 비해 급격히 증가할 수 있다.However, referring to FIG. 4B, the calculation of a mismatch between the bound sgRNA and DNA due to the occurrence of one bulge (base 'C') is the same as the case without bulge (O (1)). However, since bulges can be present at any position on the nucleic acid sequence of the sgRNA, mismatch calculations must be performed whenever bulges are present at each position on the nucleic acid sequence. Therefore, the running time of mismatch calculation at this time may take as much as O (n) according to Big-O notation. Here, n means the length (ie, nts) of the nucleic acid sequence. Therefore, when bulge occurs, the mismatch calculation time may increase rapidly compared to the case where there is no bulge.
벌지가 존재하는 두 핵산 시퀀스들 간의 미스매치 계산은 Edit Distance 알고리즘이 사용되므로, 러닝 타임은 O(n)이다.Since the Edit Distance algorithm is used for mismatch calculation between two nucleic acid sequences with bulges, the running time is O (n).
DNA 상에는 PAM domain이 수백, 수천만 곳에 존재할 수 있고, 이들의 대부분 오프-타겟 사이트의 후보군이다. 따라서, 각각의 PAM domain에서 1개의 벌지가 발생된 것으로 가정하면, 각각의 PAM domain에서는 O(n)의 러닝 타임이 소요되므로, PAM domain의 개수가 k인 경우에는 모두 k * O(n)의 러닝 타임이 소요될 수 있다.On the DNA, PAM domains can exist in hundreds or tens of millions of places, most of which are candidates for off-target sites. Therefore, assuming that one bulge has occurred in each PAM domain, since each PAM domain takes a running time of O (n), when the number of PAM domains is k, all of k * O (n) Running time may be required.
따라서, 오프-타겟 사이트 후보군 내 타겟 시퀀스들의 개수인 k를 줄일 수 있다면, 전체 러닝 타임이 줄어들 수 있다.Therefore, if the number k of target sequences in the off-target site candidate group can be reduced, the total running time can be reduced.
유전공학분야에서 오프-타겟 사이트의 예측에 있어 종래에는 벌지를 갖는 핵산 시퀀스의 미스매치 분석에 러닝 타임(예를 들어, Big-O notation에 따른 O(n))이 많이 소요되어 유전체수준의 대량 시퀀스에 대한 미스매치 계산이 비효율적이었다.In the field of genetic engineering, a mismatch analysis of a nucleic acid sequence having a bulge in the prediction of an off-target site in the prior art takes a lot of running time (for example, O (n) according to Big-O notation), resulting in a large amount of genome level. Mismatch calculations for sequences were inefficient.
하지만, 본 실시예에 따르면, 매우 드문 경우인 벌지가 2개 이상 존재하는 결속 경우들을 제외하고, 사용자가 원하는 수준을 넘어서는 미스매치 염기 개수를 갖는 타겟 시퀀스들을 본격적인 미스매치 계산 전에 비교적 간단하고 빠른 사전 미스매치(pre-mismatch) 처리를 통해 제외시킴으로써, 대량 후보군에서의 처리 효율을 증대시킬 수 있다. 즉, 앞서 설명된 k의 값을 줄일 수 있기 때문에 실제 오프-타겟 사이트의 타겟 시퀀스에 대한 미스매치 분석에 소요되는 처리 속도 또는 처리 시간이 감소할 수 있다.However, according to the present embodiment, a relatively simple and fast dictionary of target sequences having mismatched base number exceeding a user's desired level before full-scale mismatch calculation, except for the binding cases in which two or more bulges, which are very rare cases, exist. By excluding through pre-mismatch processing, it is possible to increase the processing efficiency in a large number of candidate groups. That is, since the value of k described above can be reduced, the processing speed or processing time required for mismatch analysis of the target sequence of the actual off-target site may be reduced.
도 5는 일 실시예에 따라 벌지가 존재하는 sgRNA 시퀀스와 DNA 시퀀스 간의 미스매치를 계산하는 방식을 설명하기 위한 도면이다.5 is a diagram for explaining a method of calculating a mismatch between a sgRNA sequence and a DNA sequence in which a bulge is present, according to an embodiment.
sgRNA 시퀀스(510)와 DNA 시퀀스(520)는 모두 설명의 편의를 위한 예시적인 임의 시퀀스에 해당한다. 또한, 도 5에서는 sgRNA 시퀀스(510)의 염기들과 DNA 시퀀스(520)의 염기들은 염기 기호 A, C, T, G를 이용하여 미스매치 분석이 수행되는 것으로 설명되나, 프로세서(110)는 각 시퀀스를 각 염기 기호에 대응하는 이진수로 미리 변환하고, 이진화된 값들에 대한 비교를 통해 시퀀스들 간의 미스매치 분석을 수행할 수 있음을 당해 기술분야의 통상의 기술자라면 이해할 수 있다.Both the
도 5를 참고하면, sgRNA 시퀀스(510)는 1개의 염기 A의 벌지가 존재하는 핵산 시퀀스로서, 벌지로 인하여 총 길이는 5nts일 수 있다. DNA 시퀀스(520)는 총 6nts의 핵산 시퀀스이다. 즉, sgRNA 시퀀스(510)에 벌지가 존재하지 않는다고 가정하면, sgRNA 시퀀스(510)와 DNA 시퀀스(520) 각각에 포함된 염기 개수는 동일하다. 한편, 도 5의 sgRNA 시퀀스(510)는 앞서 설명된 제1 쿼리 시퀀스에 해당하고, DNA 시퀀스(520)는 앞서 설명된 타겟 시퀀스에 해당한다.Referring to FIG. 5, the
sgRNA 시퀀스(510)와 DNA 시퀀스(520)의 미스매치 계산은 sgRNA 시퀀스(510)의 벌지로 인하여, 총 5자리에서 수행될 수 있다. 각 자리에서의 미스매치는 '11010'로 출력되므로, 미스매치 결과에 해당하는 미스매치 염기 개수는 3이다.Mismatch calculation of the
하지만, 앞서 설명된 바와 같이, sgRNA 시퀀스(510)에는 벌지가 존재하므로, 미스매치 염기 개수인 3은 sgRNA 시퀀스(510)와 DNA 시퀀스(520)의 실제 미스매치 결과와는 차이가 있을 수 있다. 따라서, 본 실시예에 따른 시퀀스 분석 장치(도 1의 10)는 보다 정확한 미스매치 결과, 즉 실제 미스매치 결과를 획득하기 위하여, 두 단계의 전처리 과정들을 수행할 수 있다.However, as described above, since bulges exist in the
도 6 및 도 7은 일 실시예에 따라 핵산 시퀀스들 간의 실제 미스매치 결과를 분석하기 위한 첫 번째 전처리 과정 및 두 번째 전처리 과정을 설명하기 위한 도면이다.6 and 7 are diagrams for explaining a first pre-processing process and a second pre-processing process for analyzing actual mismatch results between nucleic acid sequences according to an embodiment.
도 6 및 도 7에서는 설명의 편의를 위하여 도 5의 핵산 시퀀스들(sgRNA 시퀀스(510) 및 DNA 시퀀스(520))을 예로 들어 설명하겠으나, 도 6 및 도 7의 전처리 과정들은 다른 염기들을 갖는 핵산 시퀀스들이나, 다른 길이들의 핵산 시퀀스들에 대해서도 동일한 방식으로 적용이 가능하다.6 and 7 will be described by taking the nucleic acid sequences of FIG. 5 (
도 6을 참고하면, 첫 번째 전처리 과정에서는 우선, 프로세서(110)의 미스매치 판단부(112)는 벌지가 존재하는 제1 쿼리 시퀀스(도 5에 도시된 sgRNA 시퀀스(510))를 벌지가 존재하지 않는 시퀀스로 가정하기 위하여 벌지의 염기를 벌지 양단의 염기들(G 및 T) 사이에 삽입한 제2 쿼리 시퀀스(610)로 제1 쿼리 시퀀스(도 5에 도시된 sgRNA 시퀀스(510))를 변환한다.Referring to FIG. 6, in the first pre-processing process, first, the
프로세서(110)의 미스매치 판단부(112)는 변환된 제2 쿼리 시퀀스(610)와 타겟 시퀀스(DNA 시퀀스(520))의 염기 자리들이 일치된 상태에서의 제1 미스매치 결과를 획득한다. 제1 미스매치 결과는 염기 자리들이 일치한 상태에서, 제2 쿼리 시퀀스(610)에 포함된 벌지의 염기의 제1 측에 위치한 염기들과 타겟 시퀀스(DNA 시퀀스(520))의 염기들 사이의 미스매치 염기 개수에 대응한다.The
구체적으로, 미스매치 판단부(112)는 제2 쿼리 시퀀스(610, sgRNA(ACGATG 서열)) 에서 벌지의 염기 A(615)의 제1 측(도 6에서 우측) 시퀀스 TG의 미스매치 개수(m1) 및 벌지의 염기 A(615)를 포함한 제2 측(도 6에서 좌측) 시퀀스 ACGA의 미스매치 개수(k1)를 계산한다. 이때, 첫 번째 전처리 과정에서 미스매치 계산의 러닝 타임은 O(1)일 것이다.Specifically, the
첫 번째 전처리 과정에서 미스매치 계산의 결과, m1 = 1, k1 = 3이 획득될 수 있다. 여기서, 제1 미스매치 결과는 m1의 값을 의미하고, 따라서 제1 미스매치 결과(m1)는 1이다.As a result of mismatch calculation in the first preprocessing process, m1 = 1 and k1 = 3 may be obtained. Here, the first mismatch result means the value of m1, and thus the first mismatch result (m1) is 1.
다음으로 도 7을 참고하면, 두 번째 전처리 과정에서 프로세서(110)의 미스매치 판단부(112)는 먼저, 타겟 시퀀스(DNA 시퀀스(520))에 대해 제2 쿼리 시퀀스(610)를 제1 측(도 7에서 우측)으로 염기 1개만큼 어긋나게 정렬된 상태로 이동시킨다. 그리고, 프로세서(110)는 염기 자리들이 불일치된 상태에서의 제2 미스매치 결과를 획득한다. 제2 미스매치 결과는 제2 쿼리 시퀀스(610)에서 벌지의 염기의 제2 측에 위치한 염기들과 타겟 시퀀스(DNA 시퀀스(520))의 염기들 사이의 미스매치 염기 개수에 대응한다.Next, referring to FIG. 7, in the second pre-processing process, the
구체적으로, 미스매치 판단부(112)는 1개의 벌지를 고려하여 제2 쿼리 시퀀스(610, sgRNA(ACGATG 서열))을 한 염기 위치만큼 이동시킨다. 여기서, 이동은 상대적인 것으로서, 타겟 시퀀스(DNA 시퀀스(520), CCAGAG 시퀀스)가 제2 측(도 7에서 좌측)으로 이동된 것일 수도 있다.Specifically, the
도 7을 참고하면, 미스매치 판단부(112)는 불일치 정렬된 제2 쿼리 시퀀스(610, sgRNA(ACGATG 서열))에서 벌지의 염기 A(615)의 제2 측(도 7에서 좌측) 시퀀스 ACG의 미스매치 개수(m2) 및 벌지의 염기 A(615)를 포함한 제1 측(도 7에서 우측) 시퀀스 AT의 미스매치 개수(k2)를 계산한다. 이때, 두 번째 전처리 과정에서 미스매치 계산의 러닝 타임도 O(1)일 것이다.Referring to FIG. 7, the
두 번째 전처리 과정에서 미스매치 계산의 결과, m2 = 2, k2 = 1이 획득될 수 있다. 여기서, 제2 미스매치 결과는 m2의 값을 의미하고, 따라서 제2 미스매치 결과(m2)는 2이다.As a result of mismatch calculation in the second preprocessing process, m2 = 2 and k2 = 1 may be obtained. Here, the second mismatch result means the value of m2, so the second mismatch result (m2) is 2.
즉, 프로세서(110)의 미스매치 판단부(112)는 실제 미스매치 염기 개수를 판단하기 위한 전처리 결과로서, 제1 미스매치 결과(m1) 및 제2 미스매치 결과(m2)를 획득한다.That is, the
첫 번째 및 두 번째 전처리 과정들로부터 유도될 수 있는 수학식은 0≤m1+k1+m2+k2-n≤(n-1)와 같다. 여기서, 0≤k1+k2≤n 이므로, 0≤m1+m2≤(n-1)이다.The equation that can be derived from the first and second preprocessing processes is equal to 0≤m1 + k1 + m2 + k2-n≤ (n-1). Here, since 0≤k1 + k2≤n, 0≤m1 + m2≤ (n-1).
프로세서(도 1의 110)의 후보 시퀀스 선별부(도 1의 114)는 획득된 제1 미스매치 결과(m1) 및 제2 미스매치 결과(m2)와 미리 정의된 미스매치 임계 개수(T)를 비교함으로써, 타겟 시퀀스(DNA 시퀀스(520))를 온-타겟 사이트인지(또는 오프-타겟 사이트인지) 판별하기 위한 후보로 선택할 것인지를 판단한다.The candidate sequence selector of the processor (110 of FIG. 1) (114 of FIG. 1) obtains the obtained first mismatch result (m1) and the second mismatch result (m2) and the predefined mismatch threshold number (T). By comparison, it is determined whether to select a target sequence (DNA sequence 520) as a candidate for determining whether it is an on-target site (or an off-target site).
여기서, 미리 정의된 미스매치 임계 개수(T)는 미스매치가 발생된 오프-타겟 사이트 후보군 중에서 미스매치 염기 개수가 T개 이하인 것만을 필터링하고자 하여 사용자가 미리 정의한 값에 해당한다. 이에 따라, 후보 시퀀스 선별부(114)는 제1 미스매치 결과(m1)와 제2 미스매치 결과(m2)를 합한 값(m1+m2)의 값과 T의 값을 비교하여 m1+m2 ≤T 의 조건을 만족하는 타겟 시퀀스만 온-타겟 사이트인지(또는 오프-타겟 사이트인지) 판별하기 위한 후보로 선택한다.Here, the predefined mismatch threshold number (T) corresponds to a value predefined by the user in order to filter only the number of mismatch bases that is T or less among the off-target site candidate groups in which mismatch has occurred. Accordingly, the
결국, 후보 시퀀스 선별부(114)는 복수의 잠재적 오프-타겟 사이트들의 타겟 시퀀스들 중에서 위와 같은 조건(m1+m2≤T)을 만족하는 타겟 시퀀스만을 선택하므로, 앞서 도 4a 및 도 4b에서 설명된 k의 값이 감소될 수 있고, 이에 따라 벌지가 발생된 후보군의 처리에 대한 전체 러닝 타임이 감소될 수 있다.As a result, the
한편, 도 6 및 도 7에서 설명된 제1 측과 제2 측의 방향은 실제 핵산 시퀀스에서는 서로 반대 방향으로서, 구체적으로 제1 측이 핵산 시퀀스의 5' 방향인 경우 제2 측은 핵산 시퀀스의 3' 방향이고, 제1 측이 3' 방향인 경우 제2 측은 5' 방향일 수 있다. Meanwhile, the directions of the first side and the second side described in FIGS. 6 and 7 are opposite directions to each other in an actual nucleic acid sequence. Specifically, when the first side is a 5 'direction of the nucleic acid sequence, the second side is 3 of the nucleic acid sequence. In the 'direction, when the first side is the 3' direction, the second side may be the 5 'direction.
도 8은 일 실시예에 따라 도 6 및 도 7에서 수행되는 전처리 과정들에 의해 온-타겟 사이트를 판별하기 위한(또는 오프-타겟 사이트를 판별하기 위한) 후보군이 감소될 수 있음을 나타내는 도면이다.FIG. 8 is a diagram illustrating that a candidate group for determining an on-target site (or for determining an off-target site) may be reduced by preprocessing performed in FIGS. 6 and 7 according to an embodiment. .
도 8을 참고하면, 전체 잠재적 오프-타겟 사이트들의 타겟 시퀀스들 중에서 앞서 도 6 및 도 7에서 설명된 m1+m2≤T 의 조건을 만족하지 못하는 타겟 시퀀스들을 프루닝(제거)하기 위한 의 전처리 과정을 수행함으로써, 온-타겟 사이트를 판별하기 위한(또는 오프-타겟 사이트를 판별하기 위한) 후보군이 감소될 수 있다.Referring to FIG. 8, among the target sequences of all potential off-target sites, a pre-processing process for pruning (removing) target sequences that do not satisfy the conditions of m1 + m2 ≦ T described in FIGS. 6 and 7 above By performing, candidate groups for determining an on-target site (or for determining an off-target site) can be reduced.
DNA 상의 전체 PAM domain의 개수(즉, 후보군 내 타겟 시퀀스 개수)가 k인 경우, 종래에는 벌지를 고려하여 k*O(n)의 러닝 타임이 소요되었으나, 본 실시예에 따르면 k의 개수를 감소시킬 수 있으므로, 보다 빠른 온-타겟 사이트(또는 오프-타겟 사이트)의 판별이 가능해 진다.When the total number of PAM domains on the DNA (that is, the number of target sequences in the candidate group) is k, the running time of k * O (n) was taken in consideration of bulge, but the number of k is reduced according to the present embodiment. Because it can be, faster on-target site (or off-target site) discrimination is possible.
아래 표 1은 본 실시예에 의해 구현된 러닝 타임의 효과를 설명하기 위한 표이다.Table 1 below is a table for explaining the effect of the running time implemented by the present embodiment.
본 실시예는 짧은 핵산 시퀀스들 간에 결속 원리를 이용한 유전공학 전반에서, 특히 빅데이터 수준의 대량의 비교 후보군에 대한 미스매치 계산의 경우에 광범위하게 활용이 가능할 수 있다. 즉, 핵산 시퀀스들 간의 미스매치 계산 속도의 향상 기술은 비교 후보군이 대량으로 존재하는 유전체 같은 빅데이터에서 필수적일 수 있다. 본 실시예에 따른 시퀀스 분석 장치(도 1의 10)는 미스매치 계산에 있어서 중요한 요소인 벌지를 고려하고, 특히 벌지가 1개인 경우에도 효율적인 프루닝 절차(전처리 과정)를 거쳐 미스매치 계산 속도를 향상시킬 수 있다.The present embodiment may be widely used in genetic engineering using a binding principle between short nucleic acid sequences, particularly in the case of mismatch calculation for a large number of comparison candidates at the level of big data. That is, a technique for improving the speed of mismatch calculation between nucleic acid sequences may be essential in big data such as genomes in which a large number of candidates for comparison exist. The sequence analysis device according to the present embodiment (10 in FIG. 1) considers bulge, which is an important factor in mismatch calculation, and particularly, even when there is one bulge, the speed of mismatch calculation is performed through an efficient pruning procedure (pre-processing process). Can be improved.
표 1에서 1개의 벌지를 고려한 Cas-OFFinder (CPU only) 케이스 외에, 1개의 벌지를 고려한 Cas-OFFinder (GPU) 케이스에서는 GPU를 이용하여 속도향상을 시도하였으나, GPU를 사용했음에도 불구하고 비교적 느린 계산 속도로 처리된다. 본 실시예에 따른 시퀀스 분석 장치(10) 벌지를 1개 포함한 경우에 효율적 프루닝 절차를 거쳐 계산속도를 향상시킴으로써, CPU만 사용한 경우는 물론 Cas-OFFinder (GPU) 케이스의 GPU를 사용한 경우보다도 괄목할만한 계산 속도 향상을 보인다.In Table 1, in addition to the Cas-OFFinder (CPU only) case considering one bulge, in the Cas-OFFinder (GPU) case considering one bulge, an attempt was made to improve speed using a GPU, but the calculation was relatively slow despite the use of a GPU. Speed. When the
도 9는 일 실시예에 따른 핵산 시퀀스를 분석하는 방법의 흐름도이다.9 is a flowchart of a method for analyzing a nucleic acid sequence according to an embodiment.
도 9를 참고하면, 핵산 시퀀스 분석 방법은 앞서 설명된 도면들의 시퀀스 분석 장치(10)에서 시계열적으로 처리되는 단계들로 구성된다. 따라서, 이하에서 생략된 내용이라 하더라도 앞서 설명된 도면들의 시퀀스 분석 장치(10)에 관하여 기술된 내용들은 도 9의 방법에도 적용될 수 있다.Referring to FIG. 9, the nucleic acid sequence analysis method is composed of steps that are processed in time series in the
901 단계에서, 프로세서(110)는 벌지(bulge)가 존재하는 제1 쿼리 시퀀스의 정보 및 잠재적 오프-타겟(off-target) 사이트의 타겟 시퀀스의 정보를 획득한다.In
902 단계에서, 프로세서(110)는 제1 쿼리 시퀀스를 벌지가 존재하지 않는 시퀀스로 가정하기 위하여 벌지의 염기를 벌지 양단의 염기들 사이에 삽입한 제2 쿼리 시퀀스로 제1 쿼리 시퀀스를 변환한다.In
903 단계에서, 프로세서(110)는 변환된 제2 쿼리 시퀀스와 타겟 시퀀스의 염기 자리들이 일치된 상태에서의 제1 미스매치 결과 및 염기 자리들이 불일치된 상태에서의 제2 미스매치 결과를 획득한다.In
904 단계에서, 프로세서(110)는 획득된 제1 및 제2 미스매치 결과들과 미리 정의된 미스매치 임계 개수를 비교함으로써, 타겟 시퀀스를 온-타겟(on-target) 사이트인지 또는 오프-타겟 사이트인지 판별하기 위한 후보로 선택할 것인지를 판단한다.In
한편, 상술한 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 방법에서 사용된 데이터의 구조는 컴퓨터로 읽을 수 있는 기록매체에 여러 수단을 통하여 기록될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 램, USB, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.Meanwhile, the above-described method may be implemented as a program executable on a computer, and may be implemented on a general-purpose digital computer that operates the program using a computer-readable recording medium. In addition, the structure of data used in the above-described method may be recorded on a computer-readable recording medium through various means. The computer-readable recording medium includes a storage medium such as a magnetic storage medium (eg, ROM, RAM, USB, floppy disk, hard disk, etc.), optical reading media (eg, CD-ROM, DVD, etc.). do.
본 실시예와 관련된 기술 분야에서 통상의 지식을 가진 자는 상기된 기재의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 방법들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.Those of ordinary skill in the art related to the present embodiment will understand that it may be implemented in a modified form without departing from the essential characteristics of the above-described substrate. Therefore, the disclosed methods should be considered in terms of explanation, not limitation. The scope of the present invention is shown in the claims rather than the foregoing description, and all differences within the equivalent range should be interpreted as being included in the present invention.
Claims (18)
상기 시퀀스 분석 장치에 구비된 프로세서에 의해, 벌지(bulge)가 존재하는 제1 쿼리 시퀀스의 정보 및 잠재적 오프-타겟(off-target) 사이트의 타겟 시퀀스의 정보를 메모리로부터 획득하는 단계;
상기 프로세서에 의해, 상기 제1 쿼리 시퀀스를 상기 벌지가 존재하지 않는 시퀀스로 가정하기 위하여 상기 벌지의 염기를 상기 벌지 양단의 염기들 사이에 삽입한 제2 쿼리 시퀀스로 상기 제1 쿼리 시퀀스를 변환하는 단계;
상기 프로세서에 의해, 상기 변환된 제2 쿼리 시퀀스와 상기 타겟 시퀀스의 염기 자리들이 일치된 상태에서의 제1 미스매치 결과 및 상기 염기 자리들이 불일치된 상태에서의 제2 미스매치 결과를 획득하는 단계;
상기 프로세서에 의해, 상기 획득된 제1 및 제2 미스매치 결과들과 미리 정의된 미스매치 임계 개수를 비교함으로써, 상기 타겟 시퀀스를 온-타겟(on-target) 사이트인지 또는 오프-타겟 사이트인지 판별하기 위한 후보로 선택할 것인지를 판단하는 단계를 포함하는, 방법.In the method of analyzing a nucleic acid sequence using a sequence analysis device,
Acquiring information of a first query sequence in which a bulge exists and information of a target sequence of a potential off-target site from a memory by a processor provided in the sequence analysis device;
Converting the first query sequence by the processor into a second query sequence in which the base of the bulge is inserted between the bases at both ends of the bulge in order to assume that the first query sequence is a sequence in which the bulge does not exist. step;
Obtaining, by the processor, a first mismatch result in which the base positions of the converted second query sequence and the target sequence are matched and a second mismatch result in which the base positions are mismatched;
The processor determines whether the target sequence is an on-target site or an off-target site by comparing the obtained first and second mismatch results with a predefined number of mismatch thresholds. And determining whether to select as a candidate for doing so.
상기 벌지는 상기 제1 쿼리 시퀀스에서 1개인, 방법.According to claim 1,
Wherein the bulge is one in the first query sequence.
상기 제1 미스매치 결과는
상기 염기 자리들이 일치한 상태에서, 상기 제2 쿼리 시퀀스에 포함된 상기 벌지의 염기의 제1 측에 위치한 염기들과 상기 타겟 시퀀스의 염기들 사이의 미스매치 염기 개수에 대응하는, 방법.According to claim 1,
The first mismatch result is
With the base positions coinciding, the method corresponds to the number of mismatched bases between bases located on the first side of the base of the bulge included in the second query sequence and bases of the target sequence.
상기 염기 자리들이 불일치한 상태는
상기 타겟 시퀀스에 대해 상기 제2 쿼리 시퀀스가 상기 제1 측으로 염기 1개만큼 어긋나게 정렬된 상태에 해당하고,
상기 제2 미스매치 결과는
상기 제2 쿼리 시퀀스에서 상기 벌지의 염기의 제2 측에 위치한 염기들과 상기 타겟 시퀀스의 염기들 사이의 미스매치 염기 개수에 대응하는, 방법.The method of claim 3,
The base sites are inconsistent
The second query sequence with respect to the target sequence corresponds to a state that is misaligned by one base to the first side,
The second mismatch result is
A method corresponding to the number of mismatched bases between bases located on the second side of the base of the bulge and bases of the target sequence in the second query sequence.
상기 제1 측이 상기 타겟 시퀀스의 5' 방향인 경우, 상기 제2 측은 상기 타겟 시퀀스의 3' 방향이고,
상기 제1 측이 상기 3' 방향인 경우, 상기 제2 측은 상기 5' 방향인, 방법.The method of claim 4,
When the first side is the 5 'direction of the target sequence, the second side is the 3' direction of the target sequence,
If the first side is the 3 'direction, the second side is the 5' direction.
상기 핵산 시퀀스는 복수의 잠재적 오프-타겟 사이트들을 포함하고,
상기 판단하는 단계는
상기 복수의 잠재적 오프-타겟 사이트들 각각의 타겟 시퀀스에 대한 상기 제1 및 제2 미스매치 결과들과 상기 미스매치 임계 개수를 비교함으로써, 상기 복수의 잠재적 오프-타겟 사이트들의 타겟 시퀀스들 중에서 상기 온-타겟 사이트인지 또는 상기 오프-타겟 사이트인지를 판별하기 위한 상기 후보를 선별하는, 방법.According to claim 1,
The nucleic acid sequence comprises a plurality of potential off-target sites,
The determining step
By comparing the first and second mismatch results and the number of mismatch thresholds for the target sequence of each of the plurality of potential off-target sites, the on among the target sequences of the plurality of potential off-target sites -Screening the candidate for determining whether it is a target site or the off-target site.
상기 선별하는 단계는
상기 복수의 잠재적 오프-타겟 사이트들의 상기 타겟 시퀀스들 중에서 상기 미스매치 임계 개수를 초과하는 미스매치 염기 개수를 갖는 타겟 시퀀스들을 프루닝함으로써 상기 후보를 선별하고,
상기 미스매치 염기 개수는
상기 제1 미스매치 결과와 상기 제2 미스매치 결과를 합한 값에 해당하는, 방법.The method of claim 6,
The screening step
Selecting the candidate by pruning target sequences having a mismatch base number exceeding the mismatch threshold number among the target sequences of the plurality of potential off-target sites,
The number of mismatch bases
The method corresponds to the sum of the first mismatch result and the second mismatch result.
상기 제1 쿼리 시퀀스는
CRISPR Cas9 시스템을 위한 sgRNA의 핵산 시퀀스에 대응하는, 방법.According to claim 1,
The first query sequence
A method corresponding to the nucleic acid sequence of sgRNA for the CRISPR Cas9 system.
상기 타겟 시퀀스에 포함된 염기 개수는
상기 제1 쿼리 시퀀스에 포함된 염기 개수와 동일한, 방법.According to claim 1,
The number of bases included in the target sequence is
Method equal to the number of bases included in the first query sequence.
상기 메모리로부터 상기 제1 쿼리 시퀀스의 정보 및 상기 타겟 시퀀스의 정보를 획득하고, 상기 제1 쿼리 시퀀스를 상기 벌지가 존재하지 않는 시퀀스로 가정하기 위하여 상기 벌지의 염기를 상기 벌지 양단의 염기들 사이에 삽입한 제2 쿼리 시퀀스로 상기 제1 쿼리 시퀀스를 변환하고, 상기 변환된 제2 쿼리 시퀀스와 상기 타겟 시퀀스의 염기 자리들이 일치된 상태에서의 제1 미스매치 결과 및 상기 염기 자리들이 불일치된 상태에서의 제2 미스매치 결과를 획득하고, 상기 획득된 제1 및 제2 미스매치 결과들과 미리 정의된 미스매치 임계 개수를 비교함으로써 상기 타겟 시퀀스를 온-타겟(on-target) 사이트인지 또는 오프-타겟 사이트인지 판별하기 위한 후보로 선택할 것인지를 판단하는 프로세서를 포함하는, 핵산 시퀀스를 분석하는 장치.A memory for storing information of a first query sequence in which a bulge exists and information of a target sequence of a potential off-target site; And
The base of the bulge is interposed between bases of both ends of the bulge in order to obtain information of the first query sequence and information of the target sequence from the memory, and to assume the first query sequence as the sequence in which the bulge does not exist Convert the first query sequence to the inserted second query sequence, and the first mismatch result in which the base positions of the converted second query sequence and the target sequence are matched and the base positions are inconsistent Whether the target sequence is an on-target site or off-by obtaining a second mismatch result of and comparing the obtained first and second mismatch results with a predefined number of mismatch thresholds. And a processor that determines whether to select as a candidate for determining whether it is a target site.
상기 벌지는 상기 제1 쿼리 시퀀스에서 1개인, 장치.The method of claim 10,
The bulge is one in the first query sequence.
상기 제1 미스매치 결과는
상기 염기 자리들이 일치한 상태에서, 상기 제2 쿼리 시퀀스에 포함된 상기 벌지의 염기의 제1 측에 위치한 염기들과 상기 타겟 시퀀스의 염기들 사이의 미스매치 염기 개수에 대응하는, 장치.The method of claim 10,
The first mismatch result is
With the base positions coinciding, the device corresponds to the number of mismatched bases between bases located on the first side of the base of the bulge included in the second query sequence and bases of the target sequence.
상기 염기 자리들이 불일치한 상태는
상기 타겟 시퀀스에 대해 상기 제2 쿼리 시퀀스가 상기 제1 측으로 염기 1개만큼 어긋나게 정렬된 상태에 해당하고,
상기 제2 미스매치 결과는
상기 제2 쿼리 시퀀스에서 상기 벌지의 염기의 제2 측에 위치한 염기들과 상기 타겟 시퀀스의 염기들 사이의 미스매치 염기 개수에 대응하는, 장치.The method of claim 12,
The base sites are inconsistent
The second query sequence with respect to the target sequence corresponds to a state that is misaligned by one base to the first side,
The second mismatch result is
An apparatus corresponding to the number of mismatched bases between bases located on the second side of the base of the bulge and bases of the target sequence in the second query sequence.
상기 제1 측이 상기 타겟 시퀀스의 5' 방향인 경우, 상기 제2 측은 상기 타겟 시퀀스의 3' 방향이고,
상기 제1 측이 상기 3' 방향인 경우, 상기 제2 측은 상기 5' 방향인, 장치.The method of claim 13,
When the first side is the 5 'direction of the target sequence, the second side is the 3' direction of the target sequence,
When the first side is the 3 'direction, the second side is the 5' direction.
상기 핵산 시퀀스는 복수의 잠재적 오프-타겟 사이트들을 포함하고,
상기 프로세서는
상기 복수의 잠재적 오프-타겟 사이트들 각각의 타겟 시퀀스에 대한 상기 제1 및 제2 미스매치 결과들과 상기 미스매치 임계 개수를 비교함으로써, 상기 복수의 잠재적 오프-타겟 사이트들의 타겟 시퀀스들 중에서 상기 온-타겟 사이트인지 또는 상기 오프-타겟 사이트인지를 판별하기 위한 상기 후보를 선별하는, 장치.The method of claim 10,
The nucleic acid sequence comprises a plurality of potential off-target sites,
The processor
By comparing the first and second mismatch results and the number of mismatch thresholds for the target sequence of each of the plurality of potential off-target sites, the on among the target sequences of the plurality of potential off-target sites A device for selecting the candidate for determining whether it is a target site or the off-target site.
상기 프로세서는
상기 복수의 잠재적 오프-타겟 사이트들의 상기 타겟 시퀀스들 중에서 상기 미스매치 임계 개수를 초과하는 미스매치 염기 개수를 갖는 타겟 시퀀스들을 프루닝함으로써 상기 후보를 선별하고,
상기 미스매치 염기 개수는
상기 제1 미스매치 결과와 상기 제2 미스매치 결과를 합한 값에 해당하는, 장치.The method of claim 15,
The processor
Selecting the candidate by pruning target sequences having a mismatch base number exceeding the mismatch threshold number among the target sequences of the plurality of potential off-target sites,
The number of mismatch bases
The device corresponds to a sum of the first mismatch result and the second mismatch result.
상기 제1 쿼리 시퀀스는
CRISPR Cas9 시스템을 위한 sgRNA의 핵산 시퀀스에 대응하는, 장치.The method of claim 10,
The first query sequence
Device corresponding to the nucleic acid sequence of sgRNA for the CRISPR Cas9 system.
상기 타겟 시퀀스에 포함된 염기 개수는
상기 제1 쿼리 시퀀스에 포함된 염기 개수와 동일한, 장치.The method of claim 10,
The number of bases included in the target sequence is
Device equal to the number of bases included in the first query sequence.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20170020718 | 2017-02-15 | ||
KR1020170020718 | 2017-02-15 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20180094498A KR20180094498A (en) | 2018-08-23 |
KR102111731B1 true KR102111731B1 (en) | 2020-05-15 |
Family
ID=63454895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180018687A KR102111731B1 (en) | 2017-02-15 | 2018-02-14 | Method and apparatus for analyzing nucleic acid sequence |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102111731B1 (en) |
-
2018
- 2018-02-14 KR KR1020180018687A patent/KR102111731B1/en active IP Right Grant
Non-Patent Citations (2)
Title |
---|
D. Kim 외, "Digenome-seq: Genome-wide profiling of CRISPR-Cas9 off target effects in human cells", Nature Methods, 2015.02. |
Y. Lin 외, "CRISPR/Acs9 systems have off-target activity with insertions or deletions (후략)", Nucleic Acids Research, 2014.05. |
Also Published As
Publication number | Publication date |
---|---|
KR20180094498A (en) | 2018-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Edgar | UNOISE2: improved error-correction for Illumina 16S and ITS amplicon sequencing | |
Carøe et al. | Single‐tube library preparation for degraded DNA | |
Wang et al. | FMLRC: Hybrid long read error correction using an FM-index | |
US20200399719A1 (en) | Systems and methods for analyzing viral nucleic acids | |
Rumble et al. | SHRiMP: accurate mapping of short color-space reads | |
EP3482329B1 (en) | A computer-implemented and reference-free method for identifying variants in nucleic acid sequences | |
CN110692101A (en) | Method for aligning targeted nucleic acid sequencing data | |
Johnson et al. | Best practices in designing, sequencing, and identifying random DNA barcodes | |
EP3063293B1 (en) | Nucleic acid copy number determination based on fragment estimates | |
Hackenberg et al. | The biased distribution of Alus in human isochores might be driven by recombination | |
CN108664767B (en) | Primer sequence processing method, device, equipment and storage medium for sequencing library building | |
Alkhateeb et al. | Zseq: an approach for preprocessing next-generation sequencing data | |
KR102111731B1 (en) | Method and apparatus for analyzing nucleic acid sequence | |
KR102347463B1 (en) | Method and appartus for detecting false positive variants in nucleic acid sequencing analysis | |
Li et al. | A novel algorithm for identifying low-complexity regions in a protein sequence | |
Huh et al. | Functional conservation of sequence determinants at rapidly evolving regulatory regions across mammals | |
Alipanahi et al. | Disentangled long-read de Bruijn graphs via optical maps | |
AlEisa et al. | K-mer spectrum-based error correction algorithm for next-generation sequencing data | |
US10443090B2 (en) | Method and apparatus for detecting translocation | |
AU2019253000B2 (en) | Determination of frequency distribution of nucleotide sequence variants | |
Ben-Bassat et al. | CRISPR detection from short reads using partial overlap graphs | |
Hampton et al. | Probabilistic models of biological enzymatic polymerization | |
CN115775591B (en) | Primer design method, device, equipment and readable storage medium | |
CN113449533B (en) | Bar code sequence-based read length comparison method and device | |
CN110066862B (en) | Repeated DNA sequence identification method based on high-throughput sequencing reading |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |