KR102111731B1 - Method and apparatus for analyzing nucleic acid sequence - Google Patents

Method and apparatus for analyzing nucleic acid sequence Download PDF

Info

Publication number
KR102111731B1
KR102111731B1 KR1020180018687A KR20180018687A KR102111731B1 KR 102111731 B1 KR102111731 B1 KR 102111731B1 KR 1020180018687 A KR1020180018687 A KR 1020180018687A KR 20180018687 A KR20180018687 A KR 20180018687A KR 102111731 B1 KR102111731 B1 KR 102111731B1
Authority
KR
South Korea
Prior art keywords
sequence
target
mismatch
bulge
bases
Prior art date
Application number
KR1020180018687A
Other languages
Korean (ko)
Other versions
KR20180094498A (en
Inventor
이영조
황우창
이정준
Original Assignee
서울대학교산학협력단
주식회사 툴젠
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단, 주식회사 툴젠 filed Critical 서울대학교산학협력단
Publication of KR20180094498A publication Critical patent/KR20180094498A/en
Application granted granted Critical
Publication of KR102111731B1 publication Critical patent/KR102111731B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

핵산 시퀀스를 분석하는 방법 및 장치는, 벌지(bulge)가 존재하는 제1 쿼리 시퀀스의 정보 및 잠재적 오프-타겟(off-target) 사이트의 타겟 시퀀스의 정보를 획득하고, 제1 쿼리 시퀀스를 벌지가 존재하지 않는 시퀀스로 가정하기 위하여 벌지의 염기를 벌지 양단의 염기들 사이에 삽입한 제2 쿼리 시퀀스로 제1 쿼리 시퀀스를 변환하고, 변환된 제2 쿼리 시퀀스와 타겟 시퀀스의 염기 자리들이 일치된 상태에서의 제1 미스매치 결과 및 염기 자리들이 불일치된 상태에서의 제2 미스매치 결과를 획득하고, 획득된 제1 및 제2 미스매치 결과들과 미리 정의된 미스매치 임계 개수를 비교함으로써 타겟 시퀀스를 온-타겟(on-target) 사이트인지 또는 오프-타겟 사이트인지 판별하기 위한 후보로 선택할 것인지를 판단한다.A method and apparatus for analyzing a nucleic acid sequence acquires information of a first query sequence in which a bulge exists and information of a target sequence of a potential off-target site, and the bulge In order to assume a non-existent sequence, the first query sequence is transformed into a second query sequence in which the base of the bulge is inserted between the bases at both ends of the bulge, and the base positions of the converted second query sequence and the target sequence are matched. The target sequence is obtained by acquiring a second mismatch result in a state where the first mismatch result and base sites are inconsistent, and comparing the obtained first and second mismatch results with a predefined mismatch threshold number. It is determined whether to select as a candidate for determining whether it is an on-target site or an off-target site.

Figure 112018016515944-pat00001
Figure 112018016515944-pat00001

Description

핵산 시퀀스를 분석하는 방법 및 장치 {Method and apparatus for analyzing nucleic acid sequence}Method and apparatus for analyzing nucleic acid sequence

핵산 시퀀스를 분석하는 방법 및 장치에 관하고, 구체적으로 벌지가 존재하는 핵산 시퀀스들 간의 미스매치를 분석하는 방법 및 장치에 관한다.It relates to a method and apparatus for analyzing nucleic acid sequences, and specifically to a method and apparatus for analyzing mismatches between nucleic acid sequences in which bulges are present.

특정 DNA 위치나 분자 물질에 서열특이적으로 결속하는 짧은 RNA(short guidingRNA or small interfering RNA 등)를 이용하여 DNA 교정이나 유전자발현을 조절하는 방법들은 유전공학분야에서 광범위하게 활용되고 있다. 핵산 시퀀스들 간의 예상치 못한 오프-타겟 사이트에 대한 결속은 유전공학을 이용한 진단/치료 분야에서 막대한 실패 비용과 부작용을 야기할 수 있다. 효과적인 오프-타겟 사이트에 대한 결속 여부 예측으로 사전에 오프-타겟 사이트들을 배제시킬 수 있다면 유전체 분석 기술에 있어서 기능 최대화와 부작용 최소화에 중요한 기여를 할 수 있다.Methods for regulating DNA or gene expression using short RNA (short guiding RNA or small interfering RNA) that are sequence-specifically bound to a specific DNA position or molecular material have been widely used in the field of genetic engineering. Unexpected binding of off-target sites between nucleic acid sequences can lead to enormous failure costs and side effects in the field of diagnosis / treatment using genetic engineering. If the off-target sites can be excluded in advance by predicting whether to bind to the off-target site effectively, it can make an important contribution to maximizing functions and minimizing side effects in the genome analysis technology.

핵산 시퀀스를 분석하는 방법 및 장치를 제공하는데 있다. 해결하려는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.Disclosed is a method and apparatus for analyzing nucleic acid sequences. The technical problem to be solved is not limited to the technical problems as described above, and other technical problems may exist.

유전체 상에서는 특정 조건을 만족하는 미스매치 계산 대상인 시퀀스 후보들(즉, 타겟 시퀀스)은 수천만 개가 존재할 수 있다. 그러므로, 결속을 목표로 하는 온-타겟(on-target) 사이트의 시퀀스(즉, 쿼리 시퀀스)와 수천만 개의 시퀀스 후보들(타겟 시퀀스들) 사이의 미스매치를 계산하는 것은, 처리 시간이 오래 걸릴 뿐만 아니라, 처리 속도 또한 느리다.In the genome, tens of millions of sequence candidates (ie, target sequences) that are mismatch calculation targets satisfying a specific condition may exist. Therefore, calculating the mismatch between a sequence of on-target sites (ie, a query sequence) targeting binding and tens of millions of sequence candidates (target sequences) not only takes a long time to process. , The processing speed is also slow.

일 측면에 따르면, 핵산 시퀀스를 분석하는 방법은 벌지(bulge)가 존재하는 제1 쿼리 시퀀스의 정보 및 잠재적 오프-타겟(off-target) 사이트의 타겟 시퀀스의 정보를 획득하는 단계; 상기 제1 쿼리 시퀀스를 상기 벌지가 존재하지 않는 시퀀스로 가정하기 위하여 상기 벌지의 염기를 상기 벌지 양단의 염기들 사이에 삽입한 제2 쿼리 시퀀스로 상기 제1 쿼리 시퀀스를 변환하는 단계; 상기 변환된 제2 쿼리 시퀀스와 상기 타겟 시퀀스의 염기 자리들이 일치된 상태에서의 제1 미스매치 결과 및 상기 염기 자리들이 불일치된 상태에서의 제2 미스매치 결과를 획득하는 단계; 상기 획득된 제1 및 제2 미스매치 결과들과 미리 정의된 미스매치 임계 개수를 비교함으로써, 상기 타겟 시퀀스를 온-타겟(on-target) 사이트인지 또는 오프-타겟 사이트인지 판별하기 위한 후보로 선택할 것인지를 판단하는 단계를 포함한다.According to one aspect, a method of analyzing a nucleic acid sequence includes obtaining information of a first query sequence in which a bulge exists and information of a target sequence of a potential off-target site; Converting the first query sequence into a second query sequence in which the base of the bulge is inserted between bases at both ends of the bulge in order to assume the first query sequence as a sequence in which the bulge does not exist; Obtaining a first mismatch result in which the base positions of the converted second query sequence and the target sequence are matched and a second mismatch result in which the base positions are mismatched; By comparing the obtained first and second mismatch results with a predefined number of mismatch thresholds, the target sequence is selected as a candidate for determining whether it is an on-target site or an off-target site. And determining whether or not.

또한, 상기 벌지는 상기 제1 쿼리 시퀀스에서 1개일 수 있다.Also, the bulge may be one in the first query sequence.

또한, 상기 제1 미스매치 결과는 상기 염기 자리들이 일치한 상태에서, 상기 제2 쿼리 시퀀스에 포함된 상기 벌지의 염기의 제1 측에 위치한 염기들과 상기 타겟 시퀀스의 염기들 사이의 미스매치 염기 개수에 대응한다.In addition, the first mismatch result is a mismatch base between bases located on the first side of the base of the bulge included in the second query sequence and bases of the target sequence, with the base positions coinciding. Corresponds to the number.

또한, 상기 염기 자리들이 불일치한 상태는 상기 타겟 시퀀스에 대해 상기 제2 쿼리 시퀀스가 상기 제1 측으로 염기 1개만큼 어긋나게 정렬된 상태에 해당하고, 상기 제2 미스매치 결과는 상기 제2 쿼리 시퀀스에서 상기 벌지의 염기의 제2 측에 위치한 염기들과 상기 타겟 시퀀스의 염기들 사이의 미스매치 염기 개수에 대응한다.Also, a state in which the base positions are mismatched corresponds to a state in which the second query sequence is misaligned by one base to the first side with respect to the target sequence, and the second mismatch result is in the second query sequence. Corresponds to the number of mismatch bases between bases located on the second side of the base of the bulge and bases of the target sequence.

또한, 상기 제1 측이 상기 타겟 시퀀스의 5' 방향인 경우, 상기 제2 측은 상기 타겟 시퀀스의 3' 방향이고, 상기 제1 측이 상기 3' 방향인 경우, 상기 제2 측은 상기 5' 방향일 수 있다.Further, when the first side is the 5 'direction of the target sequence, the second side is the 3' direction of the target sequence, and when the first side is the 3 'direction, the second side is the 5' direction Can be

또한, 상기 핵산 시퀀스는 복수의 잠재적 오프-타겟 사이트들을 포함하고, 상기 방법은 상기 복수의 잠재적 오프-타겟 사이트들 각각의 타겟 시퀀스에 대한 상기 제1 및 제2 미스매치 결과들에 기초하여, 상기 복수의 잠재적 오프-타겟 사이트들의 타겟 시퀀스들 중에서 상기 온-타겟 사이트인지 또는 상기 오프-타겟 사이트인지를 판별하기 위한 상기 후보를 선별하는 단계를 더 포함한다.In addition, the nucleic acid sequence comprises a plurality of potential off-target sites, and the method is based on the first and second mismatch results for the target sequence of each of the plurality of potential off-target sites, And selecting the candidate for determining whether it is the on-target site or the off-target site among target sequences of a plurality of potential off-target sites.

또한, 상기 선별하는 단계는 상기 복수의 잠재적 오프-타겟 사이트들의 상기 타겟 시퀀스들 중에서 상기 미스매치 임계 개수를 초과하는 미스매치 염기 개수를 갖는 타겟 시퀀스들을 프루닝함으로써 상기 후보를 선별하고, 상기 미스매치 염기 개수는 상기 제1 미스매치 결과와 상기 제2 미스매치 결과를 합한 값에 해당한다.In addition, the screening step selects the candidate by pruning target sequences having a number of mismatch bases exceeding the mismatch threshold number among the target sequences of the plurality of potential off-target sites, and the mismatch The number of bases corresponds to the sum of the first mismatch result and the second mismatch result.

또한, 상기 제1 쿼리 시퀀스는 CRISPR Cas9 시스템을 위한 sgRNA의 핵산 시퀀스에 대응한다.In addition, the first query sequence corresponds to the nucleic acid sequence of sgRNA for the CRISPR Cas9 system.

또한, 상기 타겟 시퀀스에 포함된 염기 개수는 상기 제1 쿼리 시퀀스에 포함된 염기 개수와 동일하다.Also, the number of bases included in the target sequence is the same as the number of bases included in the first query sequence.

다른 측면에 따르면, 핵산 시퀀스를 분석하는 장치는 벌지(bulge)가 존재하는 제1 쿼리 시퀀스의 정보 및 잠재적 오프-타겟(off-target) 사이트의 타겟 시퀀스의 정보를 저장하는 메모리; 및 상기 메모리로부터 상기 제1 쿼리 시퀀스의 정보 및 상기 타겟 시퀀스의 정보를 획득하고, 상기 제1 쿼리 시퀀스를 상기 벌지가 존재하지 않는 시퀀스로 가정하기 위하여 상기 벌지의 염기를 상기 벌지 양단의 염기들 사이에 삽입한 제2 쿼리 시퀀스로 상기 제1 쿼리 시퀀스를 변환하고, 상기 변환된 제2 쿼리 시퀀스와 상기 타겟 시퀀스의 염기 자리들이 일치된 상태에서의 제1 미스매치 결과 및 상기 염기 자리들이 불일치된 상태에서의 제2 미스매치 결과를 획득하고, 상기 획득된 제1 및 제2 미스매치 결과들과 미리 정의된 미스매치 임계 개수를 비교함으로써 상기 타겟 시퀀스를 온-타겟(on-target) 사이트인지 또는 오프-타겟 사이트인지 판별하기 위한 후보로 선택할 것인지를 판단하는 프로세서를 포함한다.According to another aspect, an apparatus for analyzing a nucleic acid sequence includes a memory for storing information of a first query sequence in which a bulge is present and information of a target sequence at a potential off-target site; And base information of the bulge between bases of both ends of the bulge in order to obtain information of the first query sequence and information of the target sequence from the memory, and to assume the first query sequence as a sequence in which the bulge does not exist. The first query sequence is converted into the second query sequence inserted in the first mismatch result in which the base positions of the converted second query sequence and the target sequence are matched, and the base positions are inconsistent. Whether the target sequence is an on-target site or off by acquiring a second mismatch result at and comparing the obtained first and second mismatch results with a predefined number of mismatch thresholds It includes a processor that determines whether to select as a candidate for determining whether it is a target site.

또한, 상기 벌지는 상기 제1 쿼리 시퀀스에서 1개일 수 있다.Also, the bulge may be one in the first query sequence.

또한, 상기 제1 미스매치 결과는 상기 염기 자리들이 일치한 상태에서, 상기 제2 쿼리 시퀀스에 포함된 상기 벌지의 염기의 제1 측에 위치한 염기들과 상기 타겟 시퀀스의 염기들 사이의 미스매치 염기 개수에 대응한다.In addition, the first mismatch result is a mismatch base between bases located on the first side of the base of the bulge included in the second query sequence and bases of the target sequence, with the base positions coinciding. Corresponds to the number.

또한, 상기 염기 자리들이 불일치한 상태는 상기 타겟 시퀀스에 대해 상기 제2 쿼리 시퀀스가 상기 제1 측으로 염기 1개만큼 어긋나게 정렬된 상태에 해당하고, 상기 제2 미스매치 결과는 상기 제2 쿼리 시퀀스에서 상기 벌지의 염기의 제2 측에 위치한 염기들과 상기 타겟 시퀀스의 염기들 사이의 미스매치 염기 개수에 대응한다.Also, a state in which the base positions are mismatched corresponds to a state in which the second query sequence is misaligned by one base to the first side with respect to the target sequence, and the second mismatch result is in the second query sequence. Corresponds to the number of mismatch bases between bases located on the second side of the base of the bulge and bases of the target sequence.

또한, 상기 제1 측이 상기 타겟 시퀀스의 5' 방향인 경우, 상기 제2 측은 상기 타겟 시퀀스의 3' 방향이고, 상기 제1 측이 상기 3' 방향인 경우, 상기 제2 측은 상기 5' 방향일 수 있다.Further, when the first side is the 5 'direction of the target sequence, the second side is the 3' direction of the target sequence, and when the first side is the 3 'direction, the second side is the 5' direction Can be

또한, 상기 핵산 시퀀스는 복수의 잠재적 오프-타겟 사이트들을 포함하고, 상기 프로세서는 상기 복수의 잠재적 오프-타겟 사이트들 각각의 타겟 시퀀스에 대한 상기 제1 및 제2 미스매치 결과들에 기초하여, 상기 복수의 잠재적 오프-타겟 사이트들의 타겟 시퀀스들 중에서 상기 온-타겟 사이트인지 또는 상기 오프-타겟 사이트인지를 판별하기 위한 상기 후보를 선별한다.In addition, the nucleic acid sequence includes a plurality of potential off-target sites, and the processor is based on the first and second mismatch results for the target sequence of each of the plurality of potential off-target sites, The candidate for determining whether it is the on-target site or the off-target site is selected from target sequences of a plurality of potential off-target sites.

또한, 상기 프로세서는 상기 복수의 잠재적 오프-타겟 사이트들의 상기 타겟 시퀀스들 중에서 상기 미스매치 임계 개수를 초과하는 미스매치 염기 개수를 갖는 타겟 시퀀스들을 프루닝함으로써 상기 후보를 선별하고, 상기 미스매치 염기 개수는 상기 제1 미스매치 결과와 상기 제2 미스매치 결과를 합한 값에 해당한다.In addition, the processor selects the candidate by pruning target sequences having a number of mismatch bases exceeding the mismatch threshold number among the target sequences of the plurality of potential off-target sites, and the number of mismatch bases Is the sum of the first mismatch result and the second mismatch result.

또한, 상기 제1 쿼리 시퀀스는 CRISPR Cas9 시스템을 위한 sgRNA의 핵산 시퀀스에 대응한다.In addition, the first query sequence corresponds to the nucleic acid sequence of sgRNA for the CRISPR Cas9 system.

또한, 상기 타겟 시퀀스에 포함된 염기 개수는 상기 제1 쿼리 시퀀스에 포함된 염기 개수와 동일하다. Also, the number of bases included in the target sequence is the same as the number of bases included in the first query sequence.

상기된 바에 따르면, 두 핵산 시퀀스들의 한쪽 끝 단(특정 단백질의 바인딩 도메인 위치)이 서로 고정된 상태로 결속하는 성질을 이용하는 유전공학분야 기술에서 결속 정도를 측정하기 위한 미스매치 처리 속도를 향상시킬 수 있다. 특히 두 핵산 시퀀스들 간에 벌지(bulge)가 존재하는 미스매치 계산 속도를 향상시킴으로써, 유전체 빅데이터와 같은 대량 핵산 시퀀스들 간에 미스매치 계산을 빠른 시간 내에 가능케 할 수 있다.According to the above, it is possible to improve the mismatch processing speed for measuring the degree of binding in the field of genetic engineering using the property that one end of two nucleic acid sequences (binding domain position of a specific protein) is fixed to each other. have. In particular, by improving the speed of mismatch calculation in which a bulge exists between two nucleic acid sequences, mismatch calculation between large nucleic acid sequences such as genomic big data can be enabled in a short time.

도 1은 일 실시예에 따른 시퀀스 분석 장치의 하드웨어 구성을 도시한 블록도이다.
도 2는 일 실시예에 따른 오프-타겟 사이트와 온-타겟 사이트를 설명하기 위한 도면이다.
도 3은 일 실시예에 따른 벌지가 존재하는 sgRNA의 결속을 설명하기 위한 도면이다.
도 4a 및 도 4b는 일 실시예들에 따라 sgRNA의 쿼리 시퀀스에 벌지가 없는 경우와 벌지가 있는 경우 각각의 미스매치 개수 판단의 러닝 타임을 설명하기 위한 도면들이다.
도 5는 일 실시예에 따라 벌지가 존재하는 sgRNA 시퀀스와 DNA 시퀀스 간의 미스매치를 계산하는 방식을 설명하기 위한 도면이다.
도 6 및 도 7은 일 실시예에 따라 핵산 시퀀스들 간의 실제 미스매치 결과를 분석하기 위한 첫 번째 전처리 과정 및 두 번째 전처리 과정을 설명하기 위한 도면이다.
도 8은 일 실시예에 따라 도 6 및 도 7에서 수행되는 전처리 과정들에 의해 온-타겟 사이트를 판별하기 위한(또는 오프-타겟 사이트를 판별하기 위한) 후보군이 감소될 수 있음을 나타내는 도면이다.
도 9는 일 실시예에 따른 핵산 시퀀스를 분석하는 방법의 흐름도이다.
1 is a block diagram showing a hardware configuration of a sequence analysis device according to an embodiment.
2 is a diagram for explaining an off-target site and an on-target site according to an embodiment.
3 is a view for explaining the binding of sgRNA with bulges present according to an embodiment.
4A and 4B are diagrams for explaining the running time of each mismatch number determination when there is no bulge and when there is bulge in the query sequence of sgRNA according to one embodiment.
5 is a diagram for explaining a method of calculating a mismatch between a sgRNA sequence and a DNA sequence in which a bulge is present, according to an embodiment.
6 and 7 are diagrams for explaining a first pre-processing process and a second pre-processing process for analyzing actual mismatch results between nucleic acid sequences according to an embodiment.
FIG. 8 is a diagram illustrating that a candidate group for determining an on-target site (or for determining an off-target site) may be reduced by preprocessing performed in FIGS. 6 and 7 according to an embodiment. .
9 is a flowchart of a method for analyzing a nucleic acid sequence according to an embodiment.

실시 예들에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.The terminology used in the embodiments has been selected for general terms that are currently widely used while considering functions in the present invention, but this may vary according to the intention or precedent of a person skilled in the art or the appearance of new technologies. In addition, in certain cases, some terms are arbitrarily selected by the applicant, and in this case, their meanings will be described in detail in the description of the applicable invention. Therefore, the terms used in the present invention should be defined based on the meanings of the terms and the contents of the present invention, not simply the names of the terms.

명세서 전체에서 어떤 부분이 어떤 구성요소를 “포함”한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 “…부”, “…모듈” 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.When a certain part of the specification “includes” a certain component, this means that other components may be further included instead of excluding the other component, unless specifically stated to the contrary. Also, “… Wealth ”,“… The term “module” means a unit that processes at least one function or operation, which may be implemented in hardware or software, or a combination of hardware and software.

아래에서는 첨부한 도면을 참고하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art to which the present invention pertains may easily practice. However, the present invention can be implemented in many different forms and is not limited to the embodiments described herein.

이하에서는 도면을 참조하여 본 발명의 실시 예들을 상세히 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

도 1은 일 실시예에 따른 시퀀스 분석 장치의 하드웨어 구성을 도시한 블록도이다.1 is a block diagram showing a hardware configuration of a sequence analysis device according to an embodiment.

도 1을 참고하면, 시퀀스 분석 장치(10)는 프로세서(110) 및 메모리(120)를 포함한다. 프로세서(110)는 미스매치 판단부(112) 및 후보 시퀀스 선별부(114)를 포함할 수 있다.Referring to FIG. 1, the sequence analysis device 10 includes a processor 110 and a memory 120. The processor 110 may include a mismatch determination unit 112 and a candidate sequence selection unit 114.

도 1에 도시된 시퀀스 분석 장치(10)에는 본 실시예와 관련된 구성요소들만이 도시되어 있다. 따라서, 도 1에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 시퀀스 분석 장치(10)에 더 포함될 수 있음을 본 실시예와 관련된 기술분야에서 통상의 지식을 가진 자라면 이해할 수 있다.In the sequence analysis apparatus 10 shown in FIG. 1, only components related to the present embodiment are illustrated. Therefore, it can be understood by those skilled in the art related to the present embodiment that other general-purpose components other than those shown in FIG. 1 may be further included in the sequence analysis device 10.

시퀀스 분석 장치(10)는 벌지(bulge)가 존재하는 핵산 시퀀스들 간의 미스매치를 분석하여 실제 오프-타겟 사이트 또는 실제 온-타겟 사이트의 타겟 시퀀스 후보들을 예측하는 유전체 분석 장치에 해당할 수 있다. The sequence analysis apparatus 10 may correspond to a genome analysis apparatus that predicts actual off-target sites or target sequence candidates of actual on-target sites by analyzing mismatches between nucleic acid sequences in which bulges exist.

종래 유전공학분야 기술들에서 소개된 핵산 시퀀스들 간의 미스매치 처리는 대부분 핵산 시퀀스에 발생된 벌지를 고려하지 않고 수행되고 있다. 또한, 벌지를 고려하여 미스매치 처리를 수행하는 경우라 할지라도, 모든 비교 대상인 후보 핵산 시퀀스들에 대하여 비효율적인 Edit Distance 알고리즘 방식의 계산 방법을 이용할 뿐이어서, 유전체와 같은 빅데이터를 대상으로 하기에는 처리 시간 또는 처리 속도가 느릴 수 밖에 없었다. 다시 말하면, 유전체 상에는 미스매치 계산을 수행할 후보군이 너무 방대하기 때문에, 모든 후보 핵산 시퀀스들의 후보군에 대한 Edit Distance 알고리즘의 적용은 매우 비효율적일 수 있다.Mismatch processing between nucleic acid sequences introduced in conventional genetic engineering techniques is mostly performed without considering the bulge generated in the nucleic acid sequence. In addition, even in the case of performing mismatch processing in consideration of bulge, an inefficient Edit Distance algorithm method is used for all candidate nucleic acid sequences to be compared, and processing is performed to target big data such as genomes. Time or processing was forced to be slow. In other words, since the candidate group for performing mismatch calculation on the genome is too large, the application of the Edit Distance algorithm to the candidate group of all candidate nucleic acid sequences can be very inefficient.

한편, 짧은 핵산 시퀀스들 간의 결속을 이용하는 유전공학에서는 2개 이상의 벌지가 존재하는 경우가 극히 드물다는 점이 알려져 있다. 이에 따라, 본 실시예의 시퀀스 분석 장치(10)는 벌지가 전혀 없거나 또는 1개의 벌지 만을 고려하여 미스매치 처리를 수행함으로써, 본격적인 오프-타겟 사이트(또는 온-타겟 사이트)의 후보군의 타겟 시퀀스들의 미스매치 계산 전에 후보군 내 타겟 시퀀스들의 개수를 상당수 감소시킬 수 있다. 오프-타겟 사이트와 온-타겟 사이트에 대해 설명하면 다음과 같다.On the other hand, it is known that it is extremely rare that two or more bulges exist in genetic engineering using binding between short nucleic acid sequences. Accordingly, the sequence analysis apparatus 10 of the present embodiment does not have any bulges or performs mismatch processing in consideration of only one bulge, so that the target sequences of candidate sequences of a full-scale off-target site (or on-target site) are missed It is possible to significantly reduce the number of target sequences in the candidate group before calculating the match. The off-target site and the on-target site are as follows.

도 2는 일 실시예에 따른 오프-타겟 사이트와 온-타겟 사이트를 설명하기 위한 도면이다.2 is a diagram for explaining an off-target site and an on-target site according to an embodiment.

도 2를 참고하면, sgRNA(small guidingRNA, short guidingRNA 또는 single guideRNA)(210)는 DNA(220)(구체적으로, 이중나선 DNA의 어느 한 가닥)에 결속될 수 있다. 이때, sgRNA(210)는 특이적(specific) 단백질 및 다른 종류의 단백질과 결합될 수 있다. 예를 들어, 특이적 단백질은 Cas9일 수 있고, 이 경우에 sgRNA(210)는 CRISPR Cas9 시스템을 위한 것일 수 있다. 다만, 본 실시예에 따른 sgRNA(210)의 제작은 이 종류로만 한정되지 않는다. sgRNA(210)의 크기는 예를 들어, 20개의 뉴클레오티드들(nts)의 길이일 수 있으나, 본 실시예는 이에 제한되지 않는다.Referring to FIG. 2, sgRNA (small guidingRNA, short guidingRNA, or single guideRNA) 210 may be bound to DNA 220 (specifically, one strand of double-stranded DNA). In this case, the sgRNA 210 may be combined with a specific protein and other types of proteins. For example, the specific protein can be Cas9, in which case sgRNA 210 can be for the CRISPR Cas9 system. However, the production of sgRNA 210 according to this embodiment is not limited to this type. The size of the sgRNA 210 may be, for example, 20 nucleotides (nts) in length, but this embodiment is not limited thereto.

도 2에 도시된 바와 같이, sgRNA(210)를 결속시키고자 하는 DNA(220)의 부분은 온-타겟 사이트(235)에 해당되고, 의도치 않게 sgRNA(210)가 결속되는 DNA(220)의 부분은 1개 이상 염기의 미스매치가 발생된 부분으로서, 오프-타겟 사이트(233)에 해당된다. NGG 시퀀스는 PAM(protospacer adjacent motif)에 해당된다.As shown in Figure 2, the portion of the DNA 220 to be bound to the sgRNA 210 corresponds to the on-target site 235, and unintentionally the DNA 220 to which the sgRNA 210 is bound The portion is a portion where one or more base mismatches are generated, and corresponds to the off-target site 233. The NGG sequence corresponds to a PAM (protospacer adjacent motif).

본 실시예에 따른 시퀀스 분석 장치(도 1의 10)는, DNA(220) 상에서 sgRNA(210)가 결속될 수 있는 오프-타겟 사이트(233)의 후보군의 풀(pool)을 줄이는 기술에 관한다. 선별된 오프-타겟 사이트(233)의 후보군은 결국, 최종적인 미스매치 계산의 후보군일 수 있다.The sequence analysis device according to the present embodiment (10 in FIG. 1) relates to a technique for reducing the pool of candidate groups of the off-target site 233 on which the sgRNA 210 can be bound on the DNA 220. . The candidate group of the selected off-target site 233 may eventually be the candidate group of the final mismatch calculation.

다시 도 1을 참고하면, 메모리(120)는 벌지가 존재하는 제1 쿼리(query) 시퀀스의 정보 및 잠재적 오프-타겟 사이트(potential off-target site)의 타겟 시퀀스의 정보를 저장한다. 이와 같은 정보들은 외부의 시퀀싱 장치(예를 들어, High Content Cell Imaging 장치, High Content Screening 장치 또는 High Throughput Screening 장치 등의 이미지 분석 장치들)로부터 수신된 것이거나, 외부의 핵산 시퀀스 저장 데이터베이스(DB)로부터 수신된 것이거나, 또는 시퀀스 분석 장치(10) 자체를 이용하여 획득된 핵산 시퀀스 정보들일 수 있다.Referring back to FIG. 1, the memory 120 stores information of a first query sequence in which bulge exists and information of a target sequence of a potential off-target site. Such information is received from an external sequencing device (for example, image analysis devices such as a High Content Cell Imaging device, a High Content Screening device, or a High Throughput Screening device), or an external nucleic acid sequence storage database (DB) It may be received from, or may be nucleic acid sequence information obtained using the sequence analysis device 10 itself.

메모리(120)는 시퀀스 분석 장치(10) 내에서 처리되는 각종 데이터들을 저장하기 위한 RAM(random access memory), ROM(read-only memory), EEPROM(electrically erasable programmable read-only memory) 등의 다양한 종류들의 메모리를 포함할 수 있다.The memory 120 includes various types of random access memory (RAM), read-only memory (ROM), and electrically erasable programmable read-only memory (EEPROM) for storing various data processed in the sequence analysis device 10 Memory.

프로세서(110)는 시퀀스 분석 장치(10)의 전반적인 동작을 제어하는 하드웨어이다. 프로세서(110)는 적어도 하나의 프로세서, 마이크로프로세서, 마이크로컨트롤러 등과 같은 프로세싱 유닛과 메모리 유닛의 조합으로 구현된 집적 회로 또는 프로세싱 모듈에 해당할 수 있고, 예를 들어 CPU(central processing unit), GPU(graphic processing unit) 등에 해당할 수 있다.The processor 110 is hardware that controls the overall operation of the sequence analysis device 10. The processor 110 may correspond to an integrated circuit or processing module implemented as a combination of a processing unit and a memory unit such as at least one processor, microprocessor, microcontroller, and the like, for example, a central processing unit (CPU), GPU ( graphic processing unit).

프로세서(110)의 미스매치 판단부(112)는 메모리(120)로부터, 벌지가 존재하는 제1 쿼리 시퀀스의 정보 및 잠재적 오프-타겟 사이트의 타겟 시퀀스의 정보를 획득한다. 여기서, 벌지는 제1 쿼리 시퀀스에서 1개인 것으로 가정하나, 본 실시예는 이에 제한되지 않을 수 있다. 먼저, 벌지에 대해서는 도 3을 참고하여 설명하도록 한다.The mismatch determination unit 112 of the processor 110 obtains information of a first query sequence in which bulge exists and information of a target sequence of a potential off-target site from the memory 120. Here, it is assumed that there is one bulge in the first query sequence, but this embodiment may not be limited thereto. First, the bulge will be described with reference to FIG. 3.

도 3은 일 실시예에 따른 벌지가 존재하는 sgRNA의 결속을 설명하기 위한 도면이다. 도 3을 참고하면, sgRNA(310)가 DNA(220) 상에 결속될 때, 1개의 염기에 대한 벌지(312)가 발생될 수 있다. 20nts의 sgRNA(310)에 1개의 벌지(312)가 발생한 경우, sgRNA(310)와 상보적인 19nts의 DNA(220) 내 어느 일부 시퀀스에 결속될 수 있다. 이와 같은 현상은 벌지로 인한 미스매치에 해당된다.3 is a view for explaining the binding of sgRNA with bulges present according to an embodiment. Referring to FIG. 3, when sgRNA 310 is bound on DNA 220, bulge 312 for one base may be generated. When one bulge 312 is generated in 20 nts of sgRNA 310, it may be bound to some sequence in 19 nts of DNA 220 that is complementary to sgRNA 310. This phenomenon is a mismatch due to bulge.

벌지를 갖는 제1 쿼리 시퀀스는 CRISPR Cas9 시스템을 위한 sgRNA의 핵산 시퀀스에 대응할 수 있으나, 이에 제한되지 않고 다른 종류의 시스템을 sgRNA의 핵산 시퀀스 또는 다른 목적의 gRNA (guide RNA)에 대응할 수도 있다.The first query sequence having a bulge may correspond to the nucleic acid sequence of sgRNA for the CRISPR Cas9 system, but is not limited thereto, and other types of systems may correspond to the nucleic acid sequence of sgRNA or other target gRNA (guide RNA).

DNA(220) 상의 타겟 시퀀스는 게놈 일부 또는 사용자에 의해 정의된 시퀀스일 수 있다.The target sequence on DNA 220 may be a portion of the genome or a sequence defined by the user.

다시 도 1을 참고하면, 미스매치 판단부(112)는 획득된 정보들에 기초하여, 제1 쿼리 시퀀스를 상기 벌지가 존재하지 않는 시퀀스로 가정하기 위하여 벌지의 염기를 벌지 양단의 염기들 사이에 삽입한 제2 쿼리 시퀀스로 제1 쿼리 시퀀스를 변환한다. 그리고 나서, 미스매치 판단부(112)는 변환된 제2 쿼리 시퀀스와 타겟 시퀀스의 염기 자리들이 일치된 상태에서의 제1 미스매치 결과 및 염기 자리들이 불일치된 상태에서의 제2 미스매치 결과를 획득한다.Referring back to FIG. 1, the mismatch determination unit 112, based on the obtained information, in order to assume the first query sequence as the sequence in which the bulge does not exist, the base of the bulge between the bases of the bulge ends. The first query sequence is converted into the inserted second query sequence. Then, the mismatch determination unit 112 obtains the first mismatch result in which the base positions of the converted second query sequence and the target sequence are matched, and the second mismatch result in which the base positions are mismatched. do.

제1 미스매치 결과는 염기 자리들이 일치한 상태에서, 제2 쿼리 시퀀스에 포함된 벌지의 염기의 제1 측에 위치한 염기들과 타겟 시퀀스의 염기들 사이의 미스매치 염기 개수에 대응한다.The first mismatch result corresponds to the number of mismatch bases between bases located on the first side of the base of the bulge included in the second query sequence and bases of the target sequence, with the base positions coincident.

제2 미스매치 결과는 제2 쿼리 시퀀스에서 벌지의 염기의 제2 측에 위치한 염기들과 타겟 시퀀스의 염기들 사이의 미스매치 염기 개수에 대응한다. 이때, 염기 자리들이 불일치한 상태는 타겟 시퀀스에 대해 제2 쿼리 시퀀스가 제1 측으로 염기 1개만큼 어긋나게 정렬된 상태에 해당한다.The second mismatch result corresponds to the number of mismatch bases between the bases located on the second side of the base of the bulge and the bases of the target sequence in the second query sequence. At this time, the state in which the base positions are inconsistent corresponds to a state in which the second query sequence with respect to the target sequence is misaligned by one base to the first side.

제1 측과 제2 측의 방향은 핵산 시퀀스에서 서로 반대 방향을 의미하고, 구체적으로 제1 측이 타겟 시퀀스의 5' 방향인 경우 제2 측은 타겟 시퀀스의 3' 방향이고, 제1 측이 3' 방향인 경우 제2 측은 5' 방향일 수 있다.The directions of the first side and the second side mean opposite directions in the nucleic acid sequence, and specifically, when the first side is the 5 'direction of the target sequence, the second side is the 3' direction of the target sequence, and the first side is 3 In the 'direction, the second side may be in the 5' direction.

후보 시퀀스 선별부(114)는 획득된 제1 및 제2 미스매치 결과들과 미리 정의된 미스매치 임계 개수를 비교함으로써, 타겟 시퀀스를 온-타겟(on-target) 사이트인지 또는 오프-타겟 사이트인지 판별하기 위한 후보로 선택할 것인지를 판단한다.The candidate sequence selector 114 compares the obtained first and second mismatch results with a predefined number of mismatch thresholds, thereby determining whether the target sequence is an on-target site or an off-target site. It is determined whether to select as a candidate for discrimination.

시퀀스 분석 장치(10)는 복수의 잠재적 오프-타겟 사이트들의 타겟 시퀀스들을 분석하는 장치로서, 앞서 설명된 바와 같이 본격적인 오프-타겟 사이트(또는 온-타겟 사이트)의 후보군의 타겟 시퀀스들의 미스매치 계산 전에 후보군 내에서 불필요하다고 고려되는 타겟 시퀀스들을 프루닝(pruning)할 수 있다.The sequence analysis device 10 is a device for analyzing target sequences of a plurality of potential off-target sites, as described above, before mismatch calculation of target sequences of candidate groups of a full-fledged off-target site (or on-target site) Pruning of target sequences considered unnecessary within the candidate group may be performed.

즉, 후보 시퀀스 선별부(114)는 복수의 잠재적 오프-타겟 사이트들 각각의 타겟 시퀀스에 대한 제1 및 제2 미스매치 결과들에 기초하여, 복수의 잠재적 오프-타겟 사이트들의 타겟 시퀀스들 중에서 온-타겟 사이트인지 또는 오프-타겟 사이트인지를 판별하기 위한 후보를 선별한다. 이때, 후보 시퀀스 선별부(114)는 복수의 잠재적 오프-타겟 사이트들의 타겟 시퀀스들 중에서 미스매치 임계 개수를 초과하는 미스매치 염기 개수를 갖는 타겟 시퀀스들을 프루닝함으로써 후보를 선별할 수 있다. 여기서, 미스매치 염기 개수는 제1 미스매치 결과와 제2 미스매치 결과를 합한 값에 해당한다.That is, the candidate sequence selector 114 comes from among target sequences of a plurality of potential off-target sites based on first and second mismatch results for the target sequence of each of the plurality of potential off-target sites. -Candidates are selected to determine whether they are target sites or off-target sites. At this time, the candidate sequence selector 114 may select a candidate by pruning target sequences having a number of mismatch bases exceeding a mismatch threshold number among target sequences of a plurality of potential off-target sites. Here, the number of mismatch bases corresponds to the sum of the first mismatch result and the second mismatch result.

이로써, 후보 시퀀스 선별부(114)에 의해 최종적으로 선별된 후보의 타겟 시퀀스들만으로 잠재적 오프-타겟 사이트들이 실제 오프-타겟 사이트(또는 온-타겟 사이트)인지 판단하므로, 미스매치 계산을 수행할 처리 대상의 감소를 통해 프로세서(110)의 미스매치 계산의 성능(처리 속도, 처리 시간 등)이 효율화될 수 있다.Accordingly, since only potential target sequences of candidates finally selected by the candidate sequence selector 114 determine whether the potential off-target sites are actual off-target sites (or on-target sites), processing targets to perform mismatch calculation Through the reduction of the performance of the mismatch calculation of the processor 110 (processing speed, processing time, etc.) can be efficient.

도 4a 및 도 4b는 일 실시예들에 따라 sgRNA의 쿼리 시퀀스에 벌지가 없는 경우와 벌지가 있는 경우 각각의 미스매치 개수 판단의 러닝 타임을 설명하기 위한 도면들이다.4A and 4B are diagrams for explaining the running time of each mismatch number determination when there is no bulge and when there is bulge in the query sequence of sgRNA according to one embodiment.

도 4a를 참고하면, 벌지가 없이 결속된 sgRNA와 DNA 간에 미스매치의 계산은, Big-O notation (대문자 O 표기법)에 따라, O(1)의 러닝 타임이 소요된다. 여기서, O(1)은 컨스턴트 타임(constant time)으로서, 미스매치된 염기 개수에 관계없이 동일할 수 있다. 구체적으로, 벌지가 없는 두 핵산 시퀀스 간의 미스매치 계산은 핵산 시퀀스의 이진(binary) 표현형 간의 비트 연산(bitwise operation) 과 population count 알고리즘에 기초하고, 이에 따라 앞서 설명된 바와 같이 러닝 타임은 O(1)일 수 있다.Referring to FIG. 4A, calculation of mismatch between sgRNA and DNA bound without bulge takes a running time of O (1) according to Big-O notation (uppercase O notation). Here, O (1) is a constant time, and may be the same regardless of the number of mismatched bases. Specifically, the mismatch calculation between two nucleic acid sequences without bulge is based on a bitwise operation and a population count algorithm between binary phenotypes of a nucleic acid sequence, and accordingly the running time is O (1) as described above. ).

하지만, 도 4b를 참고하면, 1개의 벌지(염기 'C')가 발생되어 결속된 sgRNA와 DNA 간에 미스매치의 계산은 벌지가 없는 경우와 같다(O(1)). 그러나, 벌지는 sgRNA의 핵산 시퀀스 상의 어느 위치에도 존재 가능하기에 이 핵산 시퀀스 상의 각 위치에 벌지가 존재하는 경우마다 미스매치 계산을 수행하여야 한다. 따라서, 이때의 미스매치 계산의 러닝 타임은 Big-O notation에 따라 O(n)만큼 소요될 수 있다. 여기서, n은 핵산 시퀀스의 길이(즉, nts)를 의미한다. 따라서, 벌지가 발생된 경우, 미스매치의 계산 시간은 벌지가 없는 경우에 비해 급격히 증가할 수 있다.However, referring to FIG. 4B, the calculation of a mismatch between the bound sgRNA and DNA due to the occurrence of one bulge (base 'C') is the same as the case without bulge (O (1)). However, since bulges can be present at any position on the nucleic acid sequence of the sgRNA, mismatch calculations must be performed whenever bulges are present at each position on the nucleic acid sequence. Therefore, the running time of mismatch calculation at this time may take as much as O (n) according to Big-O notation. Here, n means the length (ie, nts) of the nucleic acid sequence. Therefore, when bulge occurs, the mismatch calculation time may increase rapidly compared to the case where there is no bulge.

벌지가 존재하는 두 핵산 시퀀스들 간의 미스매치 계산은 Edit Distance 알고리즘이 사용되므로, 러닝 타임은 O(n)이다.Since the Edit Distance algorithm is used for mismatch calculation between two nucleic acid sequences with bulges, the running time is O (n).

DNA 상에는 PAM domain이 수백, 수천만 곳에 존재할 수 있고, 이들의 대부분 오프-타겟 사이트의 후보군이다. 따라서, 각각의 PAM domain에서 1개의 벌지가 발생된 것으로 가정하면, 각각의 PAM domain에서는 O(n)의 러닝 타임이 소요되므로, PAM domain의 개수가 k인 경우에는 모두 k * O(n)의 러닝 타임이 소요될 수 있다.On the DNA, PAM domains can exist in hundreds or tens of millions of places, most of which are candidates for off-target sites. Therefore, assuming that one bulge has occurred in each PAM domain, since each PAM domain takes a running time of O (n), when the number of PAM domains is k, all of k * O (n) Running time may be required.

따라서, 오프-타겟 사이트 후보군 내 타겟 시퀀스들의 개수인 k를 줄일 수 있다면, 전체 러닝 타임이 줄어들 수 있다.Therefore, if the number k of target sequences in the off-target site candidate group can be reduced, the total running time can be reduced.

유전공학분야에서 오프-타겟 사이트의 예측에 있어 종래에는 벌지를 갖는 핵산 시퀀스의 미스매치 분석에 러닝 타임(예를 들어, Big-O notation에 따른 O(n))이 많이 소요되어 유전체수준의 대량 시퀀스에 대한 미스매치 계산이 비효율적이었다.In the field of genetic engineering, a mismatch analysis of a nucleic acid sequence having a bulge in the prediction of an off-target site in the prior art takes a lot of running time (for example, O (n) according to Big-O notation), resulting in a large amount of genome level. Mismatch calculations for sequences were inefficient.

하지만, 본 실시예에 따르면, 매우 드문 경우인 벌지가 2개 이상 존재하는 결속 경우들을 제외하고, 사용자가 원하는 수준을 넘어서는 미스매치 염기 개수를 갖는 타겟 시퀀스들을 본격적인 미스매치 계산 전에 비교적 간단하고 빠른 사전 미스매치(pre-mismatch) 처리를 통해 제외시킴으로써, 대량 후보군에서의 처리 효율을 증대시킬 수 있다. 즉, 앞서 설명된 k의 값을 줄일 수 있기 때문에 실제 오프-타겟 사이트의 타겟 시퀀스에 대한 미스매치 분석에 소요되는 처리 속도 또는 처리 시간이 감소할 수 있다.However, according to the present embodiment, a relatively simple and fast dictionary of target sequences having mismatched base number exceeding a user's desired level before full-scale mismatch calculation, except for the binding cases in which two or more bulges, which are very rare cases, exist. By excluding through pre-mismatch processing, it is possible to increase the processing efficiency in a large number of candidate groups. That is, since the value of k described above can be reduced, the processing speed or processing time required for mismatch analysis of the target sequence of the actual off-target site may be reduced.

도 5는 일 실시예에 따라 벌지가 존재하는 sgRNA 시퀀스와 DNA 시퀀스 간의 미스매치를 계산하는 방식을 설명하기 위한 도면이다.5 is a diagram for explaining a method of calculating a mismatch between a sgRNA sequence and a DNA sequence in which a bulge is present, according to an embodiment.

sgRNA 시퀀스(510)와 DNA 시퀀스(520)는 모두 설명의 편의를 위한 예시적인 임의 시퀀스에 해당한다. 또한, 도 5에서는 sgRNA 시퀀스(510)의 염기들과 DNA 시퀀스(520)의 염기들은 염기 기호 A, C, T, G를 이용하여 미스매치 분석이 수행되는 것으로 설명되나, 프로세서(110)는 각 시퀀스를 각 염기 기호에 대응하는 이진수로 미리 변환하고, 이진화된 값들에 대한 비교를 통해 시퀀스들 간의 미스매치 분석을 수행할 수 있음을 당해 기술분야의 통상의 기술자라면 이해할 수 있다.Both the sgRNA sequence 510 and the DNA sequence 520 correspond to exemplary arbitrary sequences for convenience of explanation. In addition, in FIG. 5, the bases of the sgRNA sequence 510 and the bases of the DNA sequence 520 are described as performing mismatch analysis using the base symbols A, C, T, G, but the processor 110 is configured to Those skilled in the art can understand that a sequence can be pre-converted to a binary number corresponding to each base symbol, and mismatch analysis between sequences can be performed by comparing binary values.

도 5를 참고하면, sgRNA 시퀀스(510)는 1개의 염기 A의 벌지가 존재하는 핵산 시퀀스로서, 벌지로 인하여 총 길이는 5nts일 수 있다. DNA 시퀀스(520)는 총 6nts의 핵산 시퀀스이다. 즉, sgRNA 시퀀스(510)에 벌지가 존재하지 않는다고 가정하면, sgRNA 시퀀스(510)와 DNA 시퀀스(520) 각각에 포함된 염기 개수는 동일하다. 한편, 도 5의 sgRNA 시퀀스(510)는 앞서 설명된 제1 쿼리 시퀀스에 해당하고, DNA 시퀀스(520)는 앞서 설명된 타겟 시퀀스에 해당한다.Referring to FIG. 5, the sgRNA sequence 510 is a nucleic acid sequence in which a bulge of one base A is present, and the total length may be 5nts due to the bulge. DNA sequence 520 is a total of 6nts nucleic acid sequence. That is, assuming that there is no bulge in the sgRNA sequence 510, the number of bases included in each of the sgRNA sequence 510 and the DNA sequence 520 is the same. Meanwhile, the sgRNA sequence 510 of FIG. 5 corresponds to the first query sequence described above, and the DNA sequence 520 corresponds to the target sequence described above.

sgRNA 시퀀스(510)와 DNA 시퀀스(520)의 미스매치 계산은 sgRNA 시퀀스(510)의 벌지로 인하여, 총 5자리에서 수행될 수 있다. 각 자리에서의 미스매치는 '11010'로 출력되므로, 미스매치 결과에 해당하는 미스매치 염기 개수는 3이다.Mismatch calculation of the sgRNA sequence 510 and the DNA sequence 520 may be performed in a total of 5 digits due to the bulge of the sgRNA sequence 510. Since the mismatch at each digit is output as '11010', the number of mismatch bases corresponding to the mismatch result is 3.

하지만, 앞서 설명된 바와 같이, sgRNA 시퀀스(510)에는 벌지가 존재하므로, 미스매치 염기 개수인 3은 sgRNA 시퀀스(510)와 DNA 시퀀스(520)의 실제 미스매치 결과와는 차이가 있을 수 있다. 따라서, 본 실시예에 따른 시퀀스 분석 장치(도 1의 10)는 보다 정확한 미스매치 결과, 즉 실제 미스매치 결과를 획득하기 위하여, 두 단계의 전처리 과정들을 수행할 수 있다.However, as described above, since bulges exist in the sgRNA sequence 510, the number of mismatched bases 3 may be different from the actual mismatch result of the sgRNA sequence 510 and the DNA sequence 520. Accordingly, the sequence analysis apparatus (10 in FIG. 1) according to the present embodiment may perform two steps of pre-processing processes in order to obtain more accurate mismatch results, that is, actual mismatch results.

도 6 및 도 7은 일 실시예에 따라 핵산 시퀀스들 간의 실제 미스매치 결과를 분석하기 위한 첫 번째 전처리 과정 및 두 번째 전처리 과정을 설명하기 위한 도면이다.6 and 7 are diagrams for explaining a first pre-processing process and a second pre-processing process for analyzing actual mismatch results between nucleic acid sequences according to an embodiment.

도 6 및 도 7에서는 설명의 편의를 위하여 도 5의 핵산 시퀀스들(sgRNA 시퀀스(510) 및 DNA 시퀀스(520))을 예로 들어 설명하겠으나, 도 6 및 도 7의 전처리 과정들은 다른 염기들을 갖는 핵산 시퀀스들이나, 다른 길이들의 핵산 시퀀스들에 대해서도 동일한 방식으로 적용이 가능하다.6 and 7 will be described by taking the nucleic acid sequences of FIG. 5 (sgRNA sequence 510 and DNA sequence 520) as an example for convenience of description, but the pretreatments of FIGS. 6 and 7 have nucleic acids having different bases. The same applies to sequences or nucleic acid sequences of different lengths.

도 6을 참고하면, 첫 번째 전처리 과정에서는 우선, 프로세서(110)의 미스매치 판단부(112)는 벌지가 존재하는 제1 쿼리 시퀀스(도 5에 도시된 sgRNA 시퀀스(510))를 벌지가 존재하지 않는 시퀀스로 가정하기 위하여 벌지의 염기를 벌지 양단의 염기들(G 및 T) 사이에 삽입한 제2 쿼리 시퀀스(610)로 제1 쿼리 시퀀스(도 5에 도시된 sgRNA 시퀀스(510))를 변환한다.Referring to FIG. 6, in the first pre-processing process, first, the mismatch determination unit 112 of the processor 110 exists in the first query sequence in which the bulge exists (the sgRNA sequence 510 shown in FIG. 5). The first query sequence (the sgRNA sequence 510 shown in FIG. 5) is used as the second query sequence 610 in which the base of the bulge is inserted between the bases G and T at both ends of the bulge in order to assume a non-sequence sequence. To convert.

프로세서(110)의 미스매치 판단부(112)는 변환된 제2 쿼리 시퀀스(610)와 타겟 시퀀스(DNA 시퀀스(520))의 염기 자리들이 일치된 상태에서의 제1 미스매치 결과를 획득한다. 제1 미스매치 결과는 염기 자리들이 일치한 상태에서, 제2 쿼리 시퀀스(610)에 포함된 벌지의 염기의 제1 측에 위치한 염기들과 타겟 시퀀스(DNA 시퀀스(520))의 염기들 사이의 미스매치 염기 개수에 대응한다.The mismatch determination unit 112 of the processor 110 obtains a first mismatch result in which the base positions of the converted second query sequence 610 and the target sequence (DNA sequence 520) are matched. The first mismatch result is between the bases located on the first side of the base of the bulge included in the second query sequence 610 and the bases of the target sequence (DNA sequence 520) while the base positions are identical. Corresponds to the number of mismatch bases.

구체적으로, 미스매치 판단부(112)는 제2 쿼리 시퀀스(610, sgRNA(ACGATG 서열)) 에서 벌지의 염기 A(615)의 제1 측(도 6에서 우측) 시퀀스 TG의 미스매치 개수(m1) 및 벌지의 염기 A(615)를 포함한 제2 측(도 6에서 좌측) 시퀀스 ACGA의 미스매치 개수(k1)를 계산한다. 이때, 첫 번째 전처리 과정에서 미스매치 계산의 러닝 타임은 O(1)일 것이다.Specifically, the mismatch determination unit 112 has the number of mismatches (m1) of the sequence TG of the first side (right in FIG. 6) of the base A 615 of the bulge in the second query sequence (610, sgRNA (ACGATG sequence)) ) And the number of mismatches (k1) of the sequence ACGA of the second side (left in FIG. 6) including base A 615 of the bulge. At this time, the running time of mismatch calculation in the first preprocessing process will be O (1).

첫 번째 전처리 과정에서 미스매치 계산의 결과, m1 = 1, k1 = 3이 획득될 수 있다. 여기서, 제1 미스매치 결과는 m1의 값을 의미하고, 따라서 제1 미스매치 결과(m1)는 1이다.As a result of mismatch calculation in the first preprocessing process, m1 = 1 and k1 = 3 may be obtained. Here, the first mismatch result means the value of m1, and thus the first mismatch result (m1) is 1.

다음으로 도 7을 참고하면, 두 번째 전처리 과정에서 프로세서(110)의 미스매치 판단부(112)는 먼저, 타겟 시퀀스(DNA 시퀀스(520))에 대해 제2 쿼리 시퀀스(610)를 제1 측(도 7에서 우측)으로 염기 1개만큼 어긋나게 정렬된 상태로 이동시킨다. 그리고, 프로세서(110)는 염기 자리들이 불일치된 상태에서의 제2 미스매치 결과를 획득한다. 제2 미스매치 결과는 제2 쿼리 시퀀스(610)에서 벌지의 염기의 제2 측에 위치한 염기들과 타겟 시퀀스(DNA 시퀀스(520))의 염기들 사이의 미스매치 염기 개수에 대응한다.Next, referring to FIG. 7, in the second pre-processing process, the mismatch determination unit 112 of the processor 110 firstly determines the second query sequence 610 for the target sequence (DNA sequence 520). (Right in FIG. 7) is shifted to a state that is misaligned by one base. Then, the processor 110 obtains a second mismatch result in a state where base sites are mismatched. The second mismatch result corresponds to the number of mismatch bases between bases located on the second side of the base of the bulge in the second query sequence 610 and bases of the target sequence (DNA sequence 520).

구체적으로, 미스매치 판단부(112)는 1개의 벌지를 고려하여 제2 쿼리 시퀀스(610, sgRNA(ACGATG 서열))을 한 염기 위치만큼 이동시킨다. 여기서, 이동은 상대적인 것으로서, 타겟 시퀀스(DNA 시퀀스(520), CCAGAG 시퀀스)가 제2 측(도 7에서 좌측)으로 이동된 것일 수도 있다.Specifically, the mismatch determination unit 112 moves the second query sequence 610 (sgRNA (ACGATG sequence)) by one base position in consideration of one bulge. Here, the movement is relative, and the target sequence (DNA sequence 520, CCAGAG sequence) may be moved to the second side (left in FIG. 7).

도 7을 참고하면, 미스매치 판단부(112)는 불일치 정렬된 제2 쿼리 시퀀스(610, sgRNA(ACGATG 서열))에서 벌지의 염기 A(615)의 제2 측(도 7에서 좌측) 시퀀스 ACG의 미스매치 개수(m2) 및 벌지의 염기 A(615)를 포함한 제1 측(도 7에서 우측) 시퀀스 AT의 미스매치 개수(k2)를 계산한다. 이때, 두 번째 전처리 과정에서 미스매치 계산의 러닝 타임도 O(1)일 것이다.Referring to FIG. 7, the mismatch determination unit 112 is the second side (left in FIG. 7) sequence ACG of the base A 615 of the bulge in the mismatched second query sequence (610, sgRNA (ACGATG sequence)) The number of mismatches (m2) and the number of mismatches (k2) of the sequence AT of the first side (right in FIG. 7) including base A 615 of the bulge is calculated. At this time, the running time of mismatch calculation in the second pre-processing process will also be O (1).

두 번째 전처리 과정에서 미스매치 계산의 결과, m2 = 2, k2 = 1이 획득될 수 있다. 여기서, 제2 미스매치 결과는 m2의 값을 의미하고, 따라서 제2 미스매치 결과(m2)는 2이다.As a result of mismatch calculation in the second preprocessing process, m2 = 2 and k2 = 1 may be obtained. Here, the second mismatch result means the value of m2, so the second mismatch result (m2) is 2.

즉, 프로세서(110)의 미스매치 판단부(112)는 실제 미스매치 염기 개수를 판단하기 위한 전처리 결과로서, 제1 미스매치 결과(m1) 및 제2 미스매치 결과(m2)를 획득한다.That is, the mismatch determination unit 112 of the processor 110 obtains a first mismatch result (m1) and a second mismatch result (m2) as a preprocessing result for determining the actual number of mismatch bases.

첫 번째 및 두 번째 전처리 과정들로부터 유도될 수 있는 수학식은 0≤m1+k1+m2+k2-n≤(n-1)와 같다. 여기서, 0≤k1+k2≤n 이므로, 0≤m1+m2≤(n-1)이다.The equation that can be derived from the first and second preprocessing processes is equal to 0≤m1 + k1 + m2 + k2-n≤ (n-1). Here, since 0≤k1 + k2≤n, 0≤m1 + m2≤ (n-1).

프로세서(도 1의 110)의 후보 시퀀스 선별부(도 1의 114)는 획득된 제1 미스매치 결과(m1) 및 제2 미스매치 결과(m2)와 미리 정의된 미스매치 임계 개수(T)를 비교함으로써, 타겟 시퀀스(DNA 시퀀스(520))를 온-타겟 사이트인지(또는 오프-타겟 사이트인지) 판별하기 위한 후보로 선택할 것인지를 판단한다.The candidate sequence selector of the processor (110 of FIG. 1) (114 of FIG. 1) obtains the obtained first mismatch result (m1) and the second mismatch result (m2) and the predefined mismatch threshold number (T). By comparison, it is determined whether to select a target sequence (DNA sequence 520) as a candidate for determining whether it is an on-target site (or an off-target site).

여기서, 미리 정의된 미스매치 임계 개수(T)는 미스매치가 발생된 오프-타겟 사이트 후보군 중에서 미스매치 염기 개수가 T개 이하인 것만을 필터링하고자 하여 사용자가 미리 정의한 값에 해당한다. 이에 따라, 후보 시퀀스 선별부(114)는 제1 미스매치 결과(m1)와 제2 미스매치 결과(m2)를 합한 값(m1+m2)의 값과 T의 값을 비교하여 m1+m2 ≤T 의 조건을 만족하는 타겟 시퀀스만 온-타겟 사이트인지(또는 오프-타겟 사이트인지) 판별하기 위한 후보로 선택한다.Here, the predefined mismatch threshold number (T) corresponds to a value predefined by the user in order to filter only the number of mismatch bases that is T or less among the off-target site candidate groups in which mismatch has occurred. Accordingly, the candidate sequence selector 114 compares the value of the value (m1 + m2) and the value of T, which is the sum of the first mismatch result (m1) and the second mismatch result (m2), and m1 + m2 ≤ T Only a target sequence that satisfies the condition of is selected as a candidate for determining whether it is an on-target site (or an off-target site).

결국, 후보 시퀀스 선별부(114)는 복수의 잠재적 오프-타겟 사이트들의 타겟 시퀀스들 중에서 위와 같은 조건(m1+m2≤T)을 만족하는 타겟 시퀀스만을 선택하므로, 앞서 도 4a 및 도 4b에서 설명된 k의 값이 감소될 수 있고, 이에 따라 벌지가 발생된 후보군의 처리에 대한 전체 러닝 타임이 감소될 수 있다.As a result, the candidate sequence selector 114 selects only a target sequence that satisfies the above condition (m1 + m2≤T) among target sequences of a plurality of potential off-target sites, and thus described in FIGS. 4A and 4B. The value of k can be reduced, and accordingly, the total running time for the processing of the candidate group where the bulge has occurred can be reduced.

한편, 도 6 및 도 7에서 설명된 제1 측과 제2 측의 방향은 실제 핵산 시퀀스에서는 서로 반대 방향으로서, 구체적으로 제1 측이 핵산 시퀀스의 5' 방향인 경우 제2 측은 핵산 시퀀스의 3' 방향이고, 제1 측이 3' 방향인 경우 제2 측은 5' 방향일 수 있다. Meanwhile, the directions of the first side and the second side described in FIGS. 6 and 7 are opposite directions to each other in an actual nucleic acid sequence. Specifically, when the first side is a 5 'direction of the nucleic acid sequence, the second side is 3 of the nucleic acid sequence. In the 'direction, when the first side is the 3' direction, the second side may be the 5 'direction.

도 8은 일 실시예에 따라 도 6 및 도 7에서 수행되는 전처리 과정들에 의해 온-타겟 사이트를 판별하기 위한(또는 오프-타겟 사이트를 판별하기 위한) 후보군이 감소될 수 있음을 나타내는 도면이다.FIG. 8 is a diagram illustrating that a candidate group for determining an on-target site (or for determining an off-target site) may be reduced by preprocessing performed in FIGS. 6 and 7 according to an embodiment. .

도 8을 참고하면, 전체 잠재적 오프-타겟 사이트들의 타겟 시퀀스들 중에서 앞서 도 6 및 도 7에서 설명된 m1+m2≤T 의 조건을 만족하지 못하는 타겟 시퀀스들을 프루닝(제거)하기 위한 의 전처리 과정을 수행함으로써, 온-타겟 사이트를 판별하기 위한(또는 오프-타겟 사이트를 판별하기 위한) 후보군이 감소될 수 있다.Referring to FIG. 8, among the target sequences of all potential off-target sites, a pre-processing process for pruning (removing) target sequences that do not satisfy the conditions of m1 + m2 ≦ T described in FIGS. 6 and 7 above By performing, candidate groups for determining an on-target site (or for determining an off-target site) can be reduced.

DNA 상의 전체 PAM domain의 개수(즉, 후보군 내 타겟 시퀀스 개수)가 k인 경우, 종래에는 벌지를 고려하여 k*O(n)의 러닝 타임이 소요되었으나, 본 실시예에 따르면 k의 개수를 감소시킬 수 있으므로, 보다 빠른 온-타겟 사이트(또는 오프-타겟 사이트)의 판별이 가능해 진다.When the total number of PAM domains on the DNA (that is, the number of target sequences in the candidate group) is k, the running time of k * O (n) was taken in consideration of bulge, but the number of k is reduced according to the present embodiment. Because it can be, faster on-target site (or off-target site) discrimination is possible.

아래 표 1은 본 실시예에 의해 구현된 러닝 타임의 효과를 설명하기 위한 표이다.Table 1 below is a table for explaining the effect of the running time implemented by the present embodiment.

방식system 쿼리 시퀀스 당 처리 소요시간Processing time per query sequence 본 실시예 (CPU only)This Example (CPU only) 0.4 sec0.4 sec Cas-OFFinder (CPU only)Cas-OFFinder (CPU only) 60.0 sec60.0 sec Cas-OFFinder (GPU)Cas-OFFinder (GPU) 3.01 sec3.01 sec

본 실시예는 짧은 핵산 시퀀스들 간에 결속 원리를 이용한 유전공학 전반에서, 특히 빅데이터 수준의 대량의 비교 후보군에 대한 미스매치 계산의 경우에 광범위하게 활용이 가능할 수 있다. 즉, 핵산 시퀀스들 간의 미스매치 계산 속도의 향상 기술은 비교 후보군이 대량으로 존재하는 유전체 같은 빅데이터에서 필수적일 수 있다. 본 실시예에 따른 시퀀스 분석 장치(도 1의 10)는 미스매치 계산에 있어서 중요한 요소인 벌지를 고려하고, 특히 벌지가 1개인 경우에도 효율적인 프루닝 절차(전처리 과정)를 거쳐 미스매치 계산 속도를 향상시킬 수 있다.The present embodiment may be widely used in genetic engineering using a binding principle between short nucleic acid sequences, particularly in the case of mismatch calculation for a large number of comparison candidates at the level of big data. That is, a technique for improving the speed of mismatch calculation between nucleic acid sequences may be essential in big data such as genomes in which a large number of candidates for comparison exist. The sequence analysis device according to the present embodiment (10 in FIG. 1) considers bulge, which is an important factor in mismatch calculation, and particularly, even when there is one bulge, the speed of mismatch calculation is performed through an efficient pruning procedure (pre-processing process). Can be improved.

표 1에서 1개의 벌지를 고려한 Cas-OFFinder (CPU only) 케이스 외에, 1개의 벌지를 고려한 Cas-OFFinder (GPU) 케이스에서는 GPU를 이용하여 속도향상을 시도하였으나, GPU를 사용했음에도 불구하고 비교적 느린 계산 속도로 처리된다. 본 실시예에 따른 시퀀스 분석 장치(10) 벌지를 1개 포함한 경우에 효율적 프루닝 절차를 거쳐 계산속도를 향상시킴으로써, CPU만 사용한 경우는 물론 Cas-OFFinder (GPU) 케이스의 GPU를 사용한 경우보다도 괄목할만한 계산 속도 향상을 보인다.In Table 1, in addition to the Cas-OFFinder (CPU only) case considering one bulge, in the Cas-OFFinder (GPU) case considering one bulge, an attempt was made to improve speed using a GPU, but the calculation was relatively slow despite the use of a GPU. Speed. When the sequence analysis apparatus 10 according to the present embodiment includes one bulge, it improves the calculation speed through an efficient pruning procedure, so that it is remarkable than the case of using only the CPU and using the GPU of the Cas-OFFinder (GPU) case. It shows a significant improvement in calculation speed.

도 9는 일 실시예에 따른 핵산 시퀀스를 분석하는 방법의 흐름도이다.9 is a flowchart of a method for analyzing a nucleic acid sequence according to an embodiment.

도 9를 참고하면, 핵산 시퀀스 분석 방법은 앞서 설명된 도면들의 시퀀스 분석 장치(10)에서 시계열적으로 처리되는 단계들로 구성된다. 따라서, 이하에서 생략된 내용이라 하더라도 앞서 설명된 도면들의 시퀀스 분석 장치(10)에 관하여 기술된 내용들은 도 9의 방법에도 적용될 수 있다.Referring to FIG. 9, the nucleic acid sequence analysis method is composed of steps that are processed in time series in the sequence analysis device 10 of the above-described drawings. Therefore, even if it is omitted below, the contents described with respect to the sequence analysis device 10 of the above-described drawings can also be applied to the method of FIG. 9.

901 단계에서, 프로세서(110)는 벌지(bulge)가 존재하는 제1 쿼리 시퀀스의 정보 및 잠재적 오프-타겟(off-target) 사이트의 타겟 시퀀스의 정보를 획득한다.In step 901, the processor 110 obtains information of a first query sequence in which a bulge exists and information of a target sequence of a potential off-target site.

902 단계에서, 프로세서(110)는 제1 쿼리 시퀀스를 벌지가 존재하지 않는 시퀀스로 가정하기 위하여 벌지의 염기를 벌지 양단의 염기들 사이에 삽입한 제2 쿼리 시퀀스로 제1 쿼리 시퀀스를 변환한다.In step 902, the processor 110 converts the first query sequence into a second query sequence in which the base of the bulge is inserted between bases at both ends of the bulge in order to assume that the first query sequence is a sequence in which the bulge does not exist.

903 단계에서, 프로세서(110)는 변환된 제2 쿼리 시퀀스와 타겟 시퀀스의 염기 자리들이 일치된 상태에서의 제1 미스매치 결과 및 염기 자리들이 불일치된 상태에서의 제2 미스매치 결과를 획득한다.In step 903, the processor 110 obtains a first mismatch result in which the base positions of the converted second query sequence and the target sequence are matched and a second mismatch result in which the base positions are mismatched.

904 단계에서, 프로세서(110)는 획득된 제1 및 제2 미스매치 결과들과 미리 정의된 미스매치 임계 개수를 비교함으로써, 타겟 시퀀스를 온-타겟(on-target) 사이트인지 또는 오프-타겟 사이트인지 판별하기 위한 후보로 선택할 것인지를 판단한다.In step 904, the processor 110 compares the obtained first and second mismatch results with a predefined number of mismatch thresholds, thereby determining whether the target sequence is an on-target site or an off-target site. It is determined whether to select as a candidate for cognitive discrimination.

한편, 상술한 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 방법에서 사용된 데이터의 구조는 컴퓨터로 읽을 수 있는 기록매체에 여러 수단을 통하여 기록될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 램, USB, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.Meanwhile, the above-described method may be implemented as a program executable on a computer, and may be implemented on a general-purpose digital computer that operates the program using a computer-readable recording medium. In addition, the structure of data used in the above-described method may be recorded on a computer-readable recording medium through various means. The computer-readable recording medium includes a storage medium such as a magnetic storage medium (eg, ROM, RAM, USB, floppy disk, hard disk, etc.), optical reading media (eg, CD-ROM, DVD, etc.). do.

본 실시예와 관련된 기술 분야에서 통상의 지식을 가진 자는 상기된 기재의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 방법들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.Those of ordinary skill in the art related to the present embodiment will understand that it may be implemented in a modified form without departing from the essential characteristics of the above-described substrate. Therefore, the disclosed methods should be considered in terms of explanation, not limitation. The scope of the present invention is shown in the claims rather than the foregoing description, and all differences within the equivalent range should be interpreted as being included in the present invention.

Claims (18)

시퀀스 분석 장치를 이용하여 핵산 시퀀스를 분석하는 방법에 있어서,
상기 시퀀스 분석 장치에 구비된 프로세서에 의해, 벌지(bulge)가 존재하는 제1 쿼리 시퀀스의 정보 및 잠재적 오프-타겟(off-target) 사이트의 타겟 시퀀스의 정보를 메모리로부터 획득하는 단계;
상기 프로세서에 의해, 상기 제1 쿼리 시퀀스를 상기 벌지가 존재하지 않는 시퀀스로 가정하기 위하여 상기 벌지의 염기를 상기 벌지 양단의 염기들 사이에 삽입한 제2 쿼리 시퀀스로 상기 제1 쿼리 시퀀스를 변환하는 단계;
상기 프로세서에 의해, 상기 변환된 제2 쿼리 시퀀스와 상기 타겟 시퀀스의 염기 자리들이 일치된 상태에서의 제1 미스매치 결과 및 상기 염기 자리들이 불일치된 상태에서의 제2 미스매치 결과를 획득하는 단계;
상기 프로세서에 의해, 상기 획득된 제1 및 제2 미스매치 결과들과 미리 정의된 미스매치 임계 개수를 비교함으로써, 상기 타겟 시퀀스를 온-타겟(on-target) 사이트인지 또는 오프-타겟 사이트인지 판별하기 위한 후보로 선택할 것인지를 판단하는 단계를 포함하는, 방법.
In the method of analyzing a nucleic acid sequence using a sequence analysis device,
Acquiring information of a first query sequence in which a bulge exists and information of a target sequence of a potential off-target site from a memory by a processor provided in the sequence analysis device;
Converting the first query sequence by the processor into a second query sequence in which the base of the bulge is inserted between the bases at both ends of the bulge in order to assume that the first query sequence is a sequence in which the bulge does not exist. step;
Obtaining, by the processor, a first mismatch result in which the base positions of the converted second query sequence and the target sequence are matched and a second mismatch result in which the base positions are mismatched;
The processor determines whether the target sequence is an on-target site or an off-target site by comparing the obtained first and second mismatch results with a predefined number of mismatch thresholds. And determining whether to select as a candidate for doing so.
제 1 항에 있어서,
상기 벌지는 상기 제1 쿼리 시퀀스에서 1개인, 방법.
According to claim 1,
Wherein the bulge is one in the first query sequence.
제 1 항에 있어서,
상기 제1 미스매치 결과는
상기 염기 자리들이 일치한 상태에서, 상기 제2 쿼리 시퀀스에 포함된 상기 벌지의 염기의 제1 측에 위치한 염기들과 상기 타겟 시퀀스의 염기들 사이의 미스매치 염기 개수에 대응하는, 방법.
According to claim 1,
The first mismatch result is
With the base positions coinciding, the method corresponds to the number of mismatched bases between bases located on the first side of the base of the bulge included in the second query sequence and bases of the target sequence.
제 3 항에 있어서,
상기 염기 자리들이 불일치한 상태는
상기 타겟 시퀀스에 대해 상기 제2 쿼리 시퀀스가 상기 제1 측으로 염기 1개만큼 어긋나게 정렬된 상태에 해당하고,
상기 제2 미스매치 결과는
상기 제2 쿼리 시퀀스에서 상기 벌지의 염기의 제2 측에 위치한 염기들과 상기 타겟 시퀀스의 염기들 사이의 미스매치 염기 개수에 대응하는, 방법.
The method of claim 3,
The base sites are inconsistent
The second query sequence with respect to the target sequence corresponds to a state that is misaligned by one base to the first side,
The second mismatch result is
A method corresponding to the number of mismatched bases between bases located on the second side of the base of the bulge and bases of the target sequence in the second query sequence.
제 4 항에 있어서,
상기 제1 측이 상기 타겟 시퀀스의 5' 방향인 경우, 상기 제2 측은 상기 타겟 시퀀스의 3' 방향이고,
상기 제1 측이 상기 3' 방향인 경우, 상기 제2 측은 상기 5' 방향인, 방법.
The method of claim 4,
When the first side is the 5 'direction of the target sequence, the second side is the 3' direction of the target sequence,
If the first side is the 3 'direction, the second side is the 5' direction.
제 1 항에 있어서,
상기 핵산 시퀀스는 복수의 잠재적 오프-타겟 사이트들을 포함하고,
상기 판단하는 단계는
상기 복수의 잠재적 오프-타겟 사이트들 각각의 타겟 시퀀스에 대한 상기 제1 및 제2 미스매치 결과들과 상기 미스매치 임계 개수를 비교함으로써, 상기 복수의 잠재적 오프-타겟 사이트들의 타겟 시퀀스들 중에서 상기 온-타겟 사이트인지 또는 상기 오프-타겟 사이트인지를 판별하기 위한 상기 후보를 선별하는, 방법.
According to claim 1,
The nucleic acid sequence comprises a plurality of potential off-target sites,
The determining step
By comparing the first and second mismatch results and the number of mismatch thresholds for the target sequence of each of the plurality of potential off-target sites, the on among the target sequences of the plurality of potential off-target sites -Screening the candidate for determining whether it is a target site or the off-target site.
제 6 항에 있어서,
상기 선별하는 단계는
상기 복수의 잠재적 오프-타겟 사이트들의 상기 타겟 시퀀스들 중에서 상기 미스매치 임계 개수를 초과하는 미스매치 염기 개수를 갖는 타겟 시퀀스들을 프루닝함으로써 상기 후보를 선별하고,
상기 미스매치 염기 개수는
상기 제1 미스매치 결과와 상기 제2 미스매치 결과를 합한 값에 해당하는, 방법.
The method of claim 6,
The screening step
Selecting the candidate by pruning target sequences having a mismatch base number exceeding the mismatch threshold number among the target sequences of the plurality of potential off-target sites,
The number of mismatch bases
The method corresponds to the sum of the first mismatch result and the second mismatch result.
제 1 항에 있어서,
상기 제1 쿼리 시퀀스는
CRISPR Cas9 시스템을 위한 sgRNA의 핵산 시퀀스에 대응하는, 방법.
According to claim 1,
The first query sequence
A method corresponding to the nucleic acid sequence of sgRNA for the CRISPR Cas9 system.
제 1 항에 있어서,
상기 타겟 시퀀스에 포함된 염기 개수는
상기 제1 쿼리 시퀀스에 포함된 염기 개수와 동일한, 방법.
According to claim 1,
The number of bases included in the target sequence is
Method equal to the number of bases included in the first query sequence.
벌지(bulge)가 존재하는 제1 쿼리 시퀀스의 정보 및 잠재적 오프-타겟(off-target) 사이트의 타겟 시퀀스의 정보를 저장하는 메모리; 및
상기 메모리로부터 상기 제1 쿼리 시퀀스의 정보 및 상기 타겟 시퀀스의 정보를 획득하고, 상기 제1 쿼리 시퀀스를 상기 벌지가 존재하지 않는 시퀀스로 가정하기 위하여 상기 벌지의 염기를 상기 벌지 양단의 염기들 사이에 삽입한 제2 쿼리 시퀀스로 상기 제1 쿼리 시퀀스를 변환하고, 상기 변환된 제2 쿼리 시퀀스와 상기 타겟 시퀀스의 염기 자리들이 일치된 상태에서의 제1 미스매치 결과 및 상기 염기 자리들이 불일치된 상태에서의 제2 미스매치 결과를 획득하고, 상기 획득된 제1 및 제2 미스매치 결과들과 미리 정의된 미스매치 임계 개수를 비교함으로써 상기 타겟 시퀀스를 온-타겟(on-target) 사이트인지 또는 오프-타겟 사이트인지 판별하기 위한 후보로 선택할 것인지를 판단하는 프로세서를 포함하는, 핵산 시퀀스를 분석하는 장치.
A memory for storing information of a first query sequence in which a bulge exists and information of a target sequence of a potential off-target site; And
The base of the bulge is interposed between bases of both ends of the bulge in order to obtain information of the first query sequence and information of the target sequence from the memory, and to assume the first query sequence as the sequence in which the bulge does not exist Convert the first query sequence to the inserted second query sequence, and the first mismatch result in which the base positions of the converted second query sequence and the target sequence are matched and the base positions are inconsistent Whether the target sequence is an on-target site or off-by obtaining a second mismatch result of and comparing the obtained first and second mismatch results with a predefined number of mismatch thresholds. And a processor that determines whether to select as a candidate for determining whether it is a target site.
제 10 항에 있어서,
상기 벌지는 상기 제1 쿼리 시퀀스에서 1개인, 장치.
The method of claim 10,
The bulge is one in the first query sequence.
제 10 항에 있어서,
상기 제1 미스매치 결과는
상기 염기 자리들이 일치한 상태에서, 상기 제2 쿼리 시퀀스에 포함된 상기 벌지의 염기의 제1 측에 위치한 염기들과 상기 타겟 시퀀스의 염기들 사이의 미스매치 염기 개수에 대응하는, 장치.
The method of claim 10,
The first mismatch result is
With the base positions coinciding, the device corresponds to the number of mismatched bases between bases located on the first side of the base of the bulge included in the second query sequence and bases of the target sequence.
제 12 항에 있어서,
상기 염기 자리들이 불일치한 상태는
상기 타겟 시퀀스에 대해 상기 제2 쿼리 시퀀스가 상기 제1 측으로 염기 1개만큼 어긋나게 정렬된 상태에 해당하고,
상기 제2 미스매치 결과는
상기 제2 쿼리 시퀀스에서 상기 벌지의 염기의 제2 측에 위치한 염기들과 상기 타겟 시퀀스의 염기들 사이의 미스매치 염기 개수에 대응하는, 장치.
The method of claim 12,
The base sites are inconsistent
The second query sequence with respect to the target sequence corresponds to a state that is misaligned by one base to the first side,
The second mismatch result is
An apparatus corresponding to the number of mismatched bases between bases located on the second side of the base of the bulge and bases of the target sequence in the second query sequence.
제 13 항에 있어서,
상기 제1 측이 상기 타겟 시퀀스의 5' 방향인 경우, 상기 제2 측은 상기 타겟 시퀀스의 3' 방향이고,
상기 제1 측이 상기 3' 방향인 경우, 상기 제2 측은 상기 5' 방향인, 장치.
The method of claim 13,
When the first side is the 5 'direction of the target sequence, the second side is the 3' direction of the target sequence,
When the first side is the 3 'direction, the second side is the 5' direction.
제 10 항에 있어서,
상기 핵산 시퀀스는 복수의 잠재적 오프-타겟 사이트들을 포함하고,
상기 프로세서는
상기 복수의 잠재적 오프-타겟 사이트들 각각의 타겟 시퀀스에 대한 상기 제1 및 제2 미스매치 결과들과 상기 미스매치 임계 개수를 비교함으로써, 상기 복수의 잠재적 오프-타겟 사이트들의 타겟 시퀀스들 중에서 상기 온-타겟 사이트인지 또는 상기 오프-타겟 사이트인지를 판별하기 위한 상기 후보를 선별하는, 장치.
The method of claim 10,
The nucleic acid sequence comprises a plurality of potential off-target sites,
The processor
By comparing the first and second mismatch results and the number of mismatch thresholds for the target sequence of each of the plurality of potential off-target sites, the on among the target sequences of the plurality of potential off-target sites A device for selecting the candidate for determining whether it is a target site or the off-target site.
제 15 항에 있어서,
상기 프로세서는
상기 복수의 잠재적 오프-타겟 사이트들의 상기 타겟 시퀀스들 중에서 상기 미스매치 임계 개수를 초과하는 미스매치 염기 개수를 갖는 타겟 시퀀스들을 프루닝함으로써 상기 후보를 선별하고,
상기 미스매치 염기 개수는
상기 제1 미스매치 결과와 상기 제2 미스매치 결과를 합한 값에 해당하는, 장치.
The method of claim 15,
The processor
Selecting the candidate by pruning target sequences having a mismatch base number exceeding the mismatch threshold number among the target sequences of the plurality of potential off-target sites,
The number of mismatch bases
The device corresponds to a sum of the first mismatch result and the second mismatch result.
제 10 항에 있어서,
상기 제1 쿼리 시퀀스는
CRISPR Cas9 시스템을 위한 sgRNA의 핵산 시퀀스에 대응하는, 장치.
The method of claim 10,
The first query sequence
Device corresponding to the nucleic acid sequence of sgRNA for the CRISPR Cas9 system.
제 10 항에 있어서,
상기 타겟 시퀀스에 포함된 염기 개수는
상기 제1 쿼리 시퀀스에 포함된 염기 개수와 동일한, 장치.
The method of claim 10,
The number of bases included in the target sequence is
Device equal to the number of bases included in the first query sequence.
KR1020180018687A 2017-02-15 2018-02-14 Method and apparatus for analyzing nucleic acid sequence KR102111731B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20170020718 2017-02-15
KR1020170020718 2017-02-15

Publications (2)

Publication Number Publication Date
KR20180094498A KR20180094498A (en) 2018-08-23
KR102111731B1 true KR102111731B1 (en) 2020-05-15

Family

ID=63454895

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180018687A KR102111731B1 (en) 2017-02-15 2018-02-14 Method and apparatus for analyzing nucleic acid sequence

Country Status (1)

Country Link
KR (1) KR102111731B1 (en)

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
D. Kim 외, "Digenome-seq: Genome-wide profiling of CRISPR-Cas9 off target effects in human cells", Nature Methods, 2015.02.
Y. Lin 외, "CRISPR/Acs9 systems have off-target activity with insertions or deletions (후략)", Nucleic Acids Research, 2014.05.

Also Published As

Publication number Publication date
KR20180094498A (en) 2018-08-23

Similar Documents

Publication Publication Date Title
Edgar UNOISE2: improved error-correction for Illumina 16S and ITS amplicon sequencing
Carøe et al. Single‐tube library preparation for degraded DNA
Wang et al. FMLRC: Hybrid long read error correction using an FM-index
US20200399719A1 (en) Systems and methods for analyzing viral nucleic acids
Rumble et al. SHRiMP: accurate mapping of short color-space reads
EP3482329B1 (en) A computer-implemented and reference-free method for identifying variants in nucleic acid sequences
CN110692101A (en) Method for aligning targeted nucleic acid sequencing data
Johnson et al. Best practices in designing, sequencing, and identifying random DNA barcodes
EP3063293B1 (en) Nucleic acid copy number determination based on fragment estimates
Hackenberg et al. The biased distribution of Alus in human isochores might be driven by recombination
CN108664767B (en) Primer sequence processing method, device, equipment and storage medium for sequencing library building
Alkhateeb et al. Zseq: an approach for preprocessing next-generation sequencing data
KR102111731B1 (en) Method and apparatus for analyzing nucleic acid sequence
KR102347463B1 (en) Method and appartus for detecting false positive variants in nucleic acid sequencing analysis
Li et al. A novel algorithm for identifying low-complexity regions in a protein sequence
Huh et al. Functional conservation of sequence determinants at rapidly evolving regulatory regions across mammals
Alipanahi et al. Disentangled long-read de Bruijn graphs via optical maps
AlEisa et al. K-mer spectrum-based error correction algorithm for next-generation sequencing data
US10443090B2 (en) Method and apparatus for detecting translocation
AU2019253000B2 (en) Determination of frequency distribution of nucleotide sequence variants
Ben-Bassat et al. CRISPR detection from short reads using partial overlap graphs
Hampton et al. Probabilistic models of biological enzymatic polymerization
CN115775591B (en) Primer design method, device, equipment and readable storage medium
CN113449533B (en) Bar code sequence-based read length comparison method and device
CN110066862B (en) Repeated DNA sequence identification method based on high-throughput sequencing reading

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant