KR102029197B1

KR102029197B1 - 딥러닝을 이용한 rna-가이드 뉴클레아제의 활성 예측 시스템

Info

Publication number: KR102029197B1
Application number: KR1020170144237A
Authority: KR
Inventors: 김형범; 윤성로; 김희권; 민선우; 송명재; 정수빈
Original assignee: 연세대학교 산학협력단; 서울대학교산학협력단
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2019-10-08
Also published as: KR20190048926A

Abstract

본 발명은 RNA-가이드 뉴클레아제의 활성을 예측하는 RNA-가이드 뉴클레아제의 활성 예측 시스템, 상기 시스템을 구축하는 방법, 상기 시스템을 이용하여 RNA-가이드 뉴클레아제의 활성을 예측하는 방법, 및 상기 시스템 및 방법을 컴퓨터로 실행하기 위한 프로그램이 기록된 컴퓨터 판독 가능 기록 매체에 관한 것이다.

Description

딥러닝을 이용한 RNA-가이드 뉴클레아제의 활성 예측 시스템 {A deep-learning based system for evaluating the RNA-guided nuclease activity using deep-learning}

본 발명은 RNA-가이드 뉴클레아제의 활성을 예측하는 RNA-가이드 뉴클레아제의 활성 예측 시스템, 상기 시스템을 구축하는 방법, 및 상기 시스템을 이용하여 RNA-가이드 뉴클레아제의 활성을 예측하는 방법에 관한 것이다. 또한, 상기 시스템 및 방법을 컴퓨터로 실행하기 위한 프로그램이 기록된 컴퓨터 판독 가능 기록 매체에 관한 것이다.

유전자 가위 (programmable nuclease)는 세포 및 개체의 유전체 교정에 널리 사용되며, 특히, CRISPR/Cas (clustered regularly interspaced short palindromic repeats and CRISPR-associated protein) 시스템은 미생물의 후천 면역체계로 외부 유전자를 인식하여 가수분해하는 기능을 가지므로, 효과적으로 유전체를 교정할 수 있는 수단으로서 많은 연구가 이루어 지고 있다(한국 등록 특허 제10-1656236호).

CRISPR-Cas 원핵 면역 시스템 유래의 RNA-가이드 뉴클레아제 (RNA-guided nuclease)는 유전체를 교정할 수 있는 수단을 제공해주며, 그 중 Cpf1은 적은 비-표적(off-target) 효과를 유발하며, 짧은 가이드 RNA를 필요로 하는 장점이 있어, 복합적인(multiplex) 유전체 편집을 가능케 한다. 그러나, 일부 표적 부위에서는 Cpf1의 활성이 유전체 편집을 수행할 수 있을 만큼 높지 않아, 다수의 표적 서열에서의 Cpf1 활성을 탐색 해야 할 필요성이 대두되고 있다. 특정 표적 부위에서의 Cpf1 활성을 예측하는 정확한 in silico 방법은 Cpf1-기반의 유전체 편집을 보다 발전시킬 것으로 기대된다.

본 발명자들은 in vivo 조건에서 고처리량 방식 (high-throughput manner)으로 RNA-가이드 뉴클레아제의 활성을 평가할 수 있고, 표적 서열 구성만을 고려하여 AsCpf1의 활성을 예측할 수 있는 알고리즘을 개발한 바 있으나(Kim, H.K. et al. In vivo high-throughput profiling of CRISPR-Cpf1 activity. Nat Methods 14, 153-159; 2017), 표적 서열 외에, 염색질 접근성도 내인성 표적 부위에서의 Cpf1 활성에 영향을 미치므로, 정확성이 제한되는 문제점이 있었다.

이에, 본 발명자들은 높은 정확도로 표적 부위에서의 Cpf1의 활성을 예측할 수 있는 in silico 방법을 개발하고자 노력하였으며, 그 결과, 15,000 개의 표적 서열 및 이의 인델 빈도의 방대한 데이터에 근거한 딥-러닝 방법을 통해 Cpf1의 활성 예측 시스템을 개발하였을 뿐만 아니라, 염색질 접근성을 고려하여 정확성이 보다 증대된 RNA-가이드 뉴클레아제의 활성 예측 시스템을 개발하여 본 발명을 완성하였다.

본 발명의 하나의 목적은,

RNA-가이드 뉴클레아제의 활성 데이터를 입력받는 정보 입력부;

상기 정보 입력부에서 입력 받은 데이터를 이용하여 활성 예측 모델을 생성하는 활성 예측 모델 생성부;

RNA-가이드 뉴클레아제의 후보 표적 서열을 입력받는 후보 서열 입력부; 및

상기 후보 서열 입력부에 입력된 후보 표적 서열을 상기 활성 예측 모델 생성부에서 생성된 활성 예측 모델에 적용하여 RNA-가이드 뉴클레아제의 활성을 예측하는 활성 예측부를 포함하는,

RNA-가이드 뉴클레아제의 활성 예측 시스템을 제공하는 것이다.

본 발명의 다른 하나의 목적은,

(a) 표적 서열에서의 RNA-가이드 뉴클레아제의 활성 데이터를 수득하여 활성 데이터 세트를 수득하는 단계; 및

(b) 상기 활성 데이터 세트를 이용하여 컨볼루션 신경망 (convolutional neural network, CNN) 기반 딥 러닝을 수행하여 RNA-가이드 뉴클레아제의 활성 예측 시스템을 구축하는 단계를 포함하는 RNA-가이드 뉴클레아제의 활성 예측 시스템을 구축하는 방법을 제공하는 것이다.

본 발명의 또 다른 하나의 목적은,

RNA-가이드 뉴클레아제의 후보 표적 서열을 설계하는 단계; 및

상기 설계된 RNA-가이드 뉴클레아제의 후보 표적 서열을 상기 RNA-가이드 뉴클레아제 활성 예측 모델에 적용하여 RNA-가이드 뉴클레아제의 활성을 예측하는 단계를 포함하는,

RNA-가이드 뉴클레아제의 활성 예측 방법을 제공하는 것이다.

본 발명의 또 다른 하나의 목적은,

상기 방법을 컴퓨터로 실행하기 위한 프로그램이 기록된 컴퓨터 판독가능 기록매체를 제공하는 것이다.

본 발명에서 개시된 각각의 설명 및 실시형태는 각각의 다른 설명 및 실시 형태에도 적용될 수 있다. 즉, 본 발명에서 개시된 다양한 요소들의 모든 조합이 본 발명의 범주에 속한다. 또한, 하기 기술된 구체적인 서술에 의하여 본 발명의 범주가 제한된다고 볼 수 없다.

상기 목적을 달성하기 위해 본 발명을 구현하는 하나의 양태는 RNA-가이드 뉴클레아제의 활성 예측 시스템을 제공하는 것이다.

하나의 구체적인 양태로서,

상기 시스템은 RNA-가이드 뉴클레아제의 활성 데이터를 입력받는 정보 입력부;

본 발명자들은 고-처리량(high-throughput) 실험을 통해, 19,255개의 방대한 데이터 세트를 구성하였으며, 이를 이용하여 신경망 모델 (neural network model)을 구축하였다. 그 결과, 표적 서열의 구성을 기반으로 Cpf1의 활성을 예측할 수 있는 시스템(Seq-deepCpf1으로 명명)을 완성하였다.

더 나아가, 표적 서열의 구성뿐만 아니라, Cpf1의 표적 서열에서의 염색질 접근성을 고려하여 상기 시스템을 발전시켰으며, 염색질 접근성을 고려한 시스템(DeepCfp1으로 명명)이 Cpf1의 활성을 보다 높은 정확성으로 예측할 수 있음을 확인하였다.

본 발명자들은 상기 구축된 RNA-가이드 뉴클레아제 활성 예측 시스템이 기존의 알려진 기계 학습 (machine learning) 기반 알고리즘에 비해, 우수한 성능을 가지는 것을 확인하였다.

본 발명에서, 용어 "RNA-가이드 뉴클레아제"는 목적하는 유전체 상의 특정 위치를 인식하여 절단할 수 있는 뉴클레아제로서, 특히 가이드 RNA에 의해 표적 특이성을 갖는 뉴클레아제를 말한다. 상기 RNA-가이드 뉴클레아제는 이에 제한되는 것은 아니나, Cas9 (CRISPR-Associated Protein 9) 및 Cpf1 등이 포함될 수 있다.

상기 RNA-가이드 뉴클레아제는 인간 세포를 비롯한 동식물 세포의 유전체에서 특정 염기서열을 인식해 이중나선절단 (double strand break, DSB)을 일으킬 수 있으며, nick을 형성할 수 있다 (nickase 활성). 상기 이중나선절단은 DNA의 이중 나선을 잘라 둔단 (blunt end) 또는 점착종단 (cohesive end)을 만드는 것을 모두 포함한다. DSB는 세포 내에서 상동재조합 (homologous recombination) 또는 비상동재접합 (non-homologous end-joining, NHEJ) 기작에 의해 효율적으로 수선되는데 이 과정에 연구자가 원하는 변이를 표적 장소에 도입할 수 있다. 상기 RNA-가이드 뉴클레아제는 인공적인, 혹은 조작된 비자연적으로 발생된 (non-naturally occurring)것일 수 있다.

본 발명에서 용어 "Cpf1"은 CRISPR 시스템의 뉴클레아제로서, Cpf1의 유전자 가위로서의 역할은 최근에서야 보고되었다 (Cell, 2015, 163(3): 759-71). 상기 Cpf1은 단일 RNA에 의해 구동되는 뉴클레아제로, tracrRNA가 필요 없고 Cas9에 비해 상대적으로 크기가 작은 특징을 가진다. 또한, 티민 (thymine)이 풍부한 PAM (protospacer-adjacent motif) 서열을 이용하며 DNA의 이중 사슬을 잘라 점착종단 (cohesive end)을 만드는 것으로 알려져 있다.

상기 Cpf1은 이에 제한되는 것은 아니나, 특히 캔디다투스 파세이박터 (Candidatus Paceibacter), 라치노스피라 (Lachnospira) 속, 뷰티리비브리오 (Butyrivibrio) 속, 페레그리니박테리아 (Peregrinibacteria), 액시도미노코쿠스 (Acidominococcus) 속, 포르파이로모나스 (Porphyromonas) 속, 프레보텔라 (Prevotella) 속, 프란시셀라 (Francisella) 속, 캔디다투스 메타노플라스마 (Candidatus Methanoplasma), 또는 유박테리움 (Eubacterium) 속 유래일 수 있다. 그러나, 상술한 RNA-가이드 뉴클레아제의 활성을 갖는 한, 상기 기술된 예에 본 발명이 제한되는 것은 아니다. 본 발명에서 상기 Cpf1 단백질은 재조합 단백질일 수 있다.

상기 용어 "재조합"은, 예컨대 세포, 핵산, 단백질 또는 벡터 등을 언급하며 사용될 때, 이종 (heterologous) 핵산 또는 단백질의 도입 또는 천연형 (native) 핵산 또는 단백질의 변경, 또는 변형된 세포로부터 유래한 세포에 의해 변형된 세포, 핵산, 단백질, 또는 벡터를 나타낸다. 따라서, 예컨대, 재조합 Cpf1 단백질은 인간 코돈 표 (human codon table)를 이용하여 Cpf1 단백질을 암호화하는 서열을 재구성함으로써 만들 수 있다.

상기 Cpf1 단백질은 상기 단백질이 핵 내에서 작용할 수 있게 하는 형태일 수 있고, 세포 내로 도입되기에 용이한 형태일 수 있다. 그 예로 Cpf1 단백질은 세포 침투 펩타이드 또는 단백질 전달 도메인 (protein transduction domain)과 연결될 수 있다. 상기 단백질 전달 도메인은 폴리-아르기닌 또는 HIV 유래의 TAT 단백질일 수 있으나, 이에 제한되지 않는다. 세포 침투 펩타이드 또는 단백질 전달 도메인은 상기 기술된 예 외에도 다양한 종류가 당업계에 공지되어 있으므로, 당업자는 상기 예에 제한되지 않고 다양한 예를 본 발명에 적용할 수 있다.

또한, 상기 Cpf1 단백질을 코딩하는 핵산은 추가적으로 핵 위치 신호 (nuclear localization signal, NLS) 서열을 포함할 수 있다. 따라서, 상기 Cpf1 단백질을 코딩하는 핵산을 포함하는 발현 카세트는 상기 Cpf1 단백질을 발현시키기 위한 프로모터 서열 등 조절 서열 외에도 NLS 서열을 포함할 수 있다. 그러나 이에 제한되지 않는다.

Cpf1 단백질은 분리 및/또는 정제에 유리한 태그와 연결될 수 있다. 그 예로, His 태그, Flag 태그, S 태그 등과 같은 작은 펩타이드 태그, 또는 GST (Glutathione S-transferase) 태그, MBP (Maltose binding protein) 태그 등을 목적에 따라 연결할 수 있으나, 이에 제한되지 않는다.

본 발명의 용어, RNA-가이드 뉴클레아제의 “활성”은 표적 서열에서 RNA-가이드 뉴클레아제, 구체적으로 Cpf1이 유전자를 절단 또는 편집하는 활성(뉴클레아제 활성)을 의미한다. 또한, 본 발명에서 용어, “활성 데이터”는 특정 표적 서열에서 보이는 RNA-가이드 뉴클레아제, 예컨대 Cpf1의 활성으로부터, 해당 표적 서열과 Cpf1의 관계를 추출 및 학습할 수 있는 데이터에 해당하며, 본 발명의 시스템은 상기 활성 데이터를 이용하여 활성 예측 모델을 생성한다.

구체적으로, 상기 RNA-가이드 뉴클레아제의 활성 데이터는 RNA-가이드 뉴클레아제에 의한 표적 서열에서의 인델 빈도로 나타내지는 것일 수 있으나, RNA-가이드 뉴클레아제가 표적 서열에서 나타내는 활성을 나타낼 수 있다면, 데이터의 형태, 종류, 크기 등은 제한되지 않는다.

한편, RNA-가이드 뉴클레아제의 활성 데이터는 기존의 공지된 활성 데이터 일 수도 있고, 또는, 당업자가 적절히 채택할 수 있는 임의의 방법으로 직접 수득한 활성 데이터일 수 있으며, 본 발명의 목적상, RNA-가이드 뉴클레아제의 활성을 예측할 수 있는 활성 예측 모델을 생성할 수 있는 데이터라면, 데이터가 수득되는 방법은 제한되지 않는다.

구체적으로, 상기 RNA-가이드 뉴클레아제의 활성 데이터는

(a) 가이드 RNA를 코딩하는 염기서열 및 상기 가이드 RNA가 목적하는 타겟 염기서열을 포함하는 올리고뉴클레오티드를 포함하는 세포 라이브러리에 RNA-가이드 뉴클레아제를 도입하는 단계;

(b) 상기 RNA-가이드 뉴클레아제가 도입된 세포 라이브러리로부터 수득한 DNA를 이용하여 딥 시퀀싱을 수행하는 단계; 및

(c) 상기 딥 시퀀싱으로 수득한 데이터로부터 각 표적 서열의 인델 빈도를 검출하는 단계를 통해 수득된 것일 수 있으나, 상기 활성 데이터를 수득할 수 있는 방법이라면 당업계에 공지된 임의의 방법으로 수득할 수 있다.

본 발명의 용어, “인델”은 RNA-가이드 뉴클레아제의 활성에 의해 표적 서열에서 나타나는 삽입(insertion) 및 결실(deletion)된 변이를 의미하는 것으로, RNA-가이드 뉴클레아제가 DNA의 이중 나선을 절단하는 경우 상동재조합 (homologous recombination) 또는 비상동재접합 (non-homologous end-joining, NHEJ) 기작에 의해 수선되는 과정에서 표적 서열에 도입되는 것일 수 있다. 상기 인델 빈도를 통해 RNA-가이드 뉴클레아제의 활성을 측정할 수 있다.

본 발명의 용어, "가이드 RNA (guide RNA)"는 표적 DNA 특이적인 RNA를 의미하며, 표적 서열과 전부 또는 일부 상보적으로 결합하여 RNA-가이드 뉴클레아제가 표적 서열을 절단할 수 있다.

통상적으로 가이드 RNA는 두 개의 RNA, 즉, crRNA (CRISPR RNA) 및 tracrRNA (trans-activating crRNA)를 구성요소로 포함하는 이중 RNA (dual RNA); 또는 표적 DNA 내 서열과 전부 또는 일부 상보적인 서열을 포함하는 제1 부위 및 RNA-가이드 뉴클레아제와 상호작용하는 서열을 포함하는 제2 부위를 포함하는 형태를 말하나, RNA-가이드 뉴클레아제가 표적 서열에서 활성을 가질 수 있는 형태라면 제한 없이 본 발명의 범위에 포함될 수 있다. 일례로, 상기 가이드 RNA를 Cpf1에 적용할 경우 가이드 RNA는 crRNA일 수 있고, Cas, 특히 Cas9에 적용할 경우에는 crRNA 및 tracrRNA를 구성요소로 포함하는 이중 RNA 형태 또는 crRNA 및 tracrRNA의 주요 부분이 융합된 형태인 단일-사슬 가이드 RNA (single-chain guide RNA; sgRNA) 형태일 수 있다. 그러나, 이에 제한되는 것은 아니며, 상기 가이드 RNA가 crRNA의 주요 부분 또는 표적 DNA의 전부 또는 일부 상보적인 부분을 포함하는 경우라면 어떠한 형태의 가이드 RNA도 본 발명에서 사용될 수 있다.

상기 가이드 RNA, 구체적으로 crRNA는 표적 DNA 내 서열과 전부 또는 일부 상보적인 서열을 포함하며, crRNA의 업스트림 부위, 구체적으로 crRNA의 5' 말단에 하나 이상의 추가의 뉴클레오티드를 포함할 수 있다. 상기 추가의 뉴클레오티드는 구아닌 (guanine, G)일 수 있으나, 이에 제한되는 것은 아니다.

또한, 상기 가이드 RNA는 RNA-가이드 뉴클레아제가 부착되는 것을 돕는 스캐폴드 서열을 포함할 수 있다.

본 발명의 용어, "표적 서열” 또는 “타겟 서열”은 RNA-가이드 뉴클레아제가 표적으로 할 것으로 예상되는 염기서열을 의미한다. 구체적으로, RNA-가이드 뉴클레아제가 가이드 RNA를 통해 표적으로 할 것으로 예상되는 서열로서, RNA-가이드 뉴클레아제가 활성을 나타내는 것으로 알려진 서열일 수 있고, 또는 본 발명의 시스템을 이용하는 당업자가 분석하고자 하는 서열을 임의로 설계한 서열일 수도 있으나, RNA-가이드 뉴클레아제가 활성을 갖거나, 또는 가질 것으로 예상되어 분석하고자 하는 서열이라면, 본 발명의 범주에 제한 없이 포함될 수 있다.

본 발명에서, RNA-가이드 뉴클레아제의 활성 데이터는, 가이드 RNA를 코딩하는 염기서열 및 상기 가이드 RNA가 목적하는 표적 서열을 포함하는 올리고뉴클레오티드를 포함하는 세포 라이브러리에 RNA-가이드 뉴클레아제를 도입함으로써, 수득될 수 있으나, 이에 제한되지 않는다.

한편, 상기 올리고뉴클레오티드는 바코드 서열을 더 포함할 수 있다.

본 발명의 용어, "올리고뉴클레오티드 (oligonucleotide)"는 수 내지 수백 개의 뉴클레오티드가 포스포다이에스터 결합으로 연결된 물질을 말하며, 본 발명의 목적상 상기 올리고뉴클레오티드는 이중나선 DNA일 수 있다. 본 발명에서 사용되는 상기 올리고뉴클레오티드는 20 내지 300 bp, 구체적으로, 50 내지 200 bp, 보다 구체적으로, 100 내지 180 bp의 길이를 가질 수 있다. 본 발명에서 상기 올리고뉴클레오티드는 가이드 RNA 코딩 염기서열 및 표적 염기서열을 포함한다. 또한, 상기 올리고뉴클레오티드는 PCR 증폭될 수 있도록 프라이머가 결합될 수 있는 추가의 서열을 포함할 수 있다.

상기 올리고뉴클레오티드는 구체적으로 100 내지 200 개의 염기서열로 이루어진 것일 수 있으나, 이에 제한되는 것은 아니고, 사용되는 RNA-가이드 뉴클레아제의 종류, 분석 목적 등에 따라 당업자에 의해 적절히 조절될 수 있다.

상기 표적 서열은 10 내지 100 bp, 구체적으로는 20 내지 50 bp, 보다 더 구체적으로는 23 내지 34 bp의 길이를 가질 수 있으나, 특별히 이에 제한되는 것은 아니다.

또한, 상기 가이드 RNA 코딩 서열은 10 내지 100 bp, 구체적으로는 15 내지 50 bp, 보다 더 구체적으로는 20 내지 30 bp의 길이를 가질 수 있으나, 특별히 이에 제한되는 것은 아니다.

또한, 상기 바코드 서열은 각 올리고뉴클레오티드를 식별하도록 하기 위한 뉴클레오티드 서열을 의미한다. 본원에서 상기 바코드 서열은 2 이상의 반복 뉴클레오티드 (AA, TT, CC, GG)를 포함하지 않는 것일 수 있으나, 각 올리고뉴클레오티드를 식별하도록 설계된 것이라면 특별히 이에 제한되는 것은 아니다. 복수의 올리고뉴클레오티드들에 있어, 상기 바코드 서열은 각 올리고뉴클레오티드가 식별될 수 있도록 적어도 2 개의 염기가 다르도록 설계된 것일 수 있다. 상기 바코드 서열은 5 내지 50 bp의 길이를 가질 수 있으나, 특별히 이에 제한되지 않는다.

구체적으로 가이드 RNA 서열 및 표적 서열을 포함하는 단일 올리고뉴클레오티드에서 가이드 RNA는 이와 인접하게 존재하는 표적 염기서열에 Cis-acting 할 수 있다. 즉, 상기 가이드 RNA는 인접한 표적 염기서열의 절단 여부를 확인하기 위해 설계된 것일 수 있다.

상기 올리고뉴클레오티드는 세포에 도입되어 염색체 내에 통합 (integration)되는 것일 수 있다.

본 발명의 용어, "라이브러리"는 특성이 다른 동종의 물질이 2종 이상 포함된 집단 (pool or population)을 의미한다. 따라서, 올리고뉴클레오티드 라이브러리는 염기서열이 다른 2 종 이상의 올리고뉴클레오티드, 예컨대 가이드 RNA, 및/또는 표적 서열이 다른 2종의 올리고뉴클레오티드를 포함하는 집단일 수 있고, 세포 라이브러리는 특성이 다른 2 종 이상의 세포, 구체적으로 본 발명의 목적상 각각의 세포가 포함하는 올리고뉴클레오티드가 다른, 예컨대 도입된 가이드 RNA, 및/또는 표적 서열, 또는 종류가 다른 세포들의 집단일 수 있다.

본 발명의 용어, “벡터”는 상기 올리고뉴클레오티드를 세포 내에 전달할 수 있도록 하는 매개체, 예컨대 유전적 작제물을 의미하는 것으로, 본 발명에서 벡터는 각각의 가이드 RNA 코딩 염기서열 및 표적 염기서열을 포함하는 올리고뉴클레오티드를 포함할 수 있다. 상기 벡터는 바이러스 벡터 또는 플라스미드 벡터일 수 있고, 바이러스 벡터는 구체적으로 렌티 바이러스 벡터 또는 레트로바이러스 벡터 등이 사용될 수 있으나, 이에 제한되는 것은 아니고 당업자는 본 발명의 목적을 달성할 수 있는 한 공지된 벡터를 자유롭게 사용할 수 있다.

구체적으로, 상기 벡터는 개체의 세포 내에 존재하는 경우 삽입물, 즉 올리고뉴클레오티드가 발현될 수 있도록 삽입물에 작동가능하게 연결된 필수적인 조절 요소를 포함할 수 있다.

상기 벡터는 표준적인 재조합 DNA 기술을 이용하여 제조 및 정제될 수 있다. 상기 벡터의 종류는 원핵세포 및 진핵세포 등 목적하는 세포에서 작용할 수 있도록 하는 한, 특별히 한정되지 않는다. 벡터는 프로모터, 개시코돈, 및 종결코돈 터미네이터를 포함할 수 있다. 그 외에 시그널 펩타이드를 코드하는 DNA, 및/또는 인핸서 서열, 및/또는 원하는 유전자의 5'측 및 3'측의 비번역 영역, 및/또는 선택마커 영역, 및/또는 복제가능단위 등을 적절하게 포함할 수도 있다.

본 발명자들은 가이드 RNA 코딩 서열(20 nt), 바코드(20 nt), 및 표적 서열(34 nt)을 포함하는 올리고뉴클레오티드를 설계 하였으며, 이를 포함하는 렌티 바이러스 벡터를 제조하였다. 이후, 상기 렌티 바이러스 벡터로 형질전환된 세포 라이브러리를 제조하였으며, 상기 세포 라이브러리에 AsCpf1을 도입하여 AsCpf1 활성을 유도하였다 (실시예 1).

상기 벡터를 라이브러리를 제조하기 위한 세포에 전달하는 방법은 당업계에 공지된 다양한 방법을 이용하여 달성될 수 있다. 예컨대, 칼슘 포스페이트-DNA 공침전법, DEAE-덱스트란-매개 트랜스펙션법, 폴리브렌-매개 형질감염법, 전기충격법, 미세주사법, 리포좀 융합법, 리포펙타민 및 원형질체 융합법 등의 당 분야에 공지된 여러 방법에 의해 수행될 수 있다. 또한, 바이러스 벡터를 이용하는 경우, 감염(infection)을 수단으로 하여 바이러스 입자를 사용하여 목적물, 즉 벡터를 세포 내로 전달시킬 수 있다. 아울러, 유전자 밤바드먼트 등에 의해 벡터를 세포 내로 도입할 수 있다.

상기 도입된 벡터는 세포 내에서 벡터 자체로 존재하거나, 염색체 내에 통합될 수 있으나, 특별히 이에 제한되는 것은 아니다.

본원에서 제조된 세포 라이브러리는 가이드 RNA-표적 서열을 포함하는 올리고뉴클레오티드가 도입된 세포 집단을 말한다. 이때 각각의 세포들은 벡터, 구체적으로 바이러스의 종류 및/또는 수가 다르게 도입된 것일 수 있다.

상기 구축된 세포 라이브러리에 인델을 유도하기 위하여 RNA-가이드 뉴클레아제가 추가로 도입될 수 있다.

상기 뉴클레아제는 도입된 세포가 가지고 있는 가이드 RNA-표적 서열 페어의 종류 및/또는 수에 따라 그 활성 정도가 다르게 나타날 수 있다. 상기 RNA-가이드 뉴클레아제는 플라스미드 벡터 또는 바이러스 벡터를 통해 세포에 전달되거나, RNA-가이드 뉴클레아제 단백질 그 자체로 세포 내에 전달될 수 있으며, 세포 내에서 RNA-가이드 뉴클레아제가 활성을 나타낼 수 있는 한 그 도입 방법에 특별히 제한되지 않는다. 한 예로, 단백질 전달 도메인과 연결된 형태로 RNA-가이드 뉴클레아제 (예, Cas 단백질, Cpf1 단백질) 등이 전달될 수 있으나, 이에 제한되는 것은 아니다. 단백질 전달 도메인은 당업계에 공지된 다양한 종류가 사용될 수 있으며, 상기한 바와 같이 폴리-아르기닌이나 HIV 유래의 TAT 단백질을 들 수 있다. 그러나, 특별히 이에 제한되는 것은 아니다.

또한, 상기 벡터가 도입될 수 있는 세포의 종류는, 벡터의 종류 및/또는 목적하는 세포의 종류에 따라 적절하게 당업자가 선택할 수 있으나, 그 예로, 대장균, 스트렙토미세스, 살모넬라 티피뮤리움 등의 박테리아 세포; 효모 세포; 피치아 파스토리스 등의 균류세포; 드로조필라, 스포도프테라 Sf9 세포 등의 곤충 세포; CHO(중국 햄스터 난소 세포, chinese hamster ovary cells), SP2/0(마우스 골수종), 인간 림프아구(human lymphoblastoid), COS, NSO(마우스 골수종), 293T, 보우 멜라노마 세포, HT-1080, BHK(베이비 햄스터 신장세포, baby hamster kidney cells), HEK(인간 배아신장 세포, human embryonic kidney cells), PERC.6(인간망막세포) 등의 동물 세포; 또는 식물 세포가 될 수 있다.

상기 세포 라이브러리에서는 도입된 가이드 RNA 및 표적 서열을 포함하는 올리고뉴클레오티드, 및 RNA-가이드 뉴클레아제에 의해 뉴클레아제 활성이 나타날 수 있다. 즉, 도입된 표적 서열에 대하여 RNA-가이드 뉴클레아제에 의한 DNA 절단이 일어날 수 있으며, 이에 따라 인델 (indel)이 나타날 수 있다.

상기 활성 데이터는 RNA-가이드 뉴클레아제 활성 데이터는 RNA-가이드 뉴클레아제가 도입된 세포라이브러리 중, RNA-가이드 뉴클레아제의 활성이 나타난 세포로부터 DNA 서열을 수득하고, 상기 수득된 데이터로부터 인델 빈도를 산출한 것일 수 있다. 이러한 DNA 수득은 당업계에 공지된 다양한 DNA 분리방법을 이용하여 수행될 수 있다.

세포 라이브러리를 구성하는 각각의 세포들은 도입된 표적 서열에서 인델이 발생한 것으로 예상되므로, 표적 서열의 염기를 서열 분석하여 인델 빈도를 검출할 수 있다. 예컨대, 딥 시퀀싱 (deep sequencing), 또는 RNA-seq을 수행하여 이에 따른 데이터를 수득할 수 있으나, 인델 빈도 검출을 통한 RNA-가이드 뉴클레아제의 활성 데이터를 얻을 수 있다면, 특정 방법에 제한되지 않는다.

상술한 바와 같이 인델 빈도는 가이드 RNA-표적 서열에 대한 RNA-가이드 뉴클레아제의 활성 정도로 평가될 수 있다.

본 발명에서, RNA-가이드 뉴클레아제 활성 예측 시스템은 상술한 RNA-가이드 뉴클레아제의 활성 데이터를 입력 받는 정보 입력부를 포함한다.

본 발명의 용어, “정보 입력부”는 상술한 RNA-가이드 뉴클레아제의 활성 데이터를 입력 받는 구성 요소로서, 상기 정보 입력부는 본 발명 시스템의 사용자로부터 직접 RNA-가이드 뉴클레아제 활성 데이터를 입력 받거나, 또는 미리 저장된 활성 데이터를 입력 받는 것일 수 있으나, 이에 제한되지 않는다.

본 발명의 시스템은 미리 수득한 RNA-가이드 뉴클레아제의 활성 데이터 또는 공지된 RNA-가이드 뉴클레아제의 활성 데이터가 저장된 저장부를 추가로 포함할 수 있으나, 이에 제한되지 않는다. 상기 저장부를 포함할 경우, 본 발명 시스템의 정보 입력부는 상기 저장부로부터 설정된 크기 또는 범위의 데이터를 입력 받아, RNA-가이드 뉴클레아제의 활성을 예측하는데 이용할 수 있다.

구체적으로, 본 발명의 RNA-가이드 뉴클레아제의 활성 예측 시스템은 RNA-가이드 뉴클레아제의 활성 데이터가 저장된 데이터베이스를 추가로 포함하는 것으로서, 상기 정보 입력부는 상기 데이터베이스로부터 RNA-가이드 뉴클레아제의 활성 데이터를 입력받는 것일 수 있으나, 이에 제한되지 않는다.

본 발명의 RNA-가이드 뉴클레아제 활성 예측 시스템은 상기 정보 입력부에서 입력 받은 데이터를 이용하여 활성 예측 모델을 생성하는 활성 예측 모델 생성부를 포함한다.

본 발명의 용어, “활성 예측 모델 생성부”는 상기 정보 입력부를 통해 입력된 RNA-가이드 뉴클레아제 활성 데이터를 이용하여, 표적 서열 및 인델 빈도 간의 관계를 추출하고 조합하여, 표적 서열과 RNA-가이드 뉴클레아제의 활성 간의 관계를 학습할 수 있는 본 발명 시스템의 구성을 의미한다. 상기 활성 예측 모델 생성부는 학습된 정보를 기반으로 활성 예측 모델을 생성하고, 본 발명 시스템의 사용자는 상기 활성 예측 모델을 통해 RNA-가이드 뉴클레아제의 활성을 예측할 수 있다.

구체적으로, 본 발명의 활성 예측 모델 생성부는 컨볼루션 신경망 (convolutional neural network, CNN)을 기반으로 하여 표적 서열과 인델 빈도 간의 관계를 학습하는 딥-러닝을 수행하는 것일 수 있으나, 이에 제한되지 않는다.

본 발명의 용어, “딥-러닝 (Deep Learning)”은 컴퓨터가 사람처럼 생각하고 배울 수 있도록 하는 인공지능(AI) 기술로서, 인공신경망 이론을 기반으로 복잡한 비선형 문제를 기계가 스스로 학습해결 할 수 있도록 하는 기술이다. 상기 딥-러닝 기술을 이용하여, 사람이 모든 판단 기준을 정해주지 않아도 컴퓨터가 스스로 인지·추론·판단할 수 있게 되고, 음성·이미지 인식과 사진 분석 등에 광범위하게 활용하는 것이 가능하다.

즉, 딥러닝(deep learning)은 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화(abstractions, 다량의 데이터나 복잡한 자료들 속에서 핵심적인 내용 또는 기능을 요약하는 작업)를 시도하는 기계학습(machine learning) 알고리즘의 집합으로 정의될 수 있다.

본 발명의 용어, “컨볼루션 신경망(convolutional neural networks, CNN)”은 제공된 정보의 일부를 표현하는 특징(feature)을 추출하고, 정보의 계층화를 통해 일반화를 이루어 내는 기술을 의미한다.

본 발명자들은, RNA-가이드 뉴클레아제 활성 데이터의 16,292개 데이터 세트에서 15,000개 데이터 세트를 이용하여, 상술한 RNA-가이드 뉴클레아제 활성 데이터에 기반하여 컨볼루션 신경망을 기초로 하는 딥-러닝을 수행하였다. 그 결과, 표적 서열의 정보로부터 RNA-가이드 뉴클레아제의 활성을 예측할 수 있는 모델(Seq-deepCpf1)을 생성하였으며, 중첩 교차 유효성 검증 (nested cross validation, CV)을 통해 상기 모델을 검증하였다(도 1 및 2).

또한, 본 발명의 활성 예측 모델 생성부는 (a) 표적 서열과 인델 빈도 간의 관계를 추출하는 특징 추출 모듈; 및 (b) 상기 특징 추출 모듈에서 추출된 특징을 조합하는 조합 모듈을 포함하는 것일 수 있으나, 이에 제한되지 않는다.

본 발명의 활성 예측 모델 생성부는 입력된 RNA-가이드 뉴클레아제 활성 데이터로부터, 인델 빈도로 나타내어진 RNA-가이드 뉴클레아제 활성 수준과 표적 서열 간의 관계를 추출 및 학습(조합)하여 임의의 표적 서열에 대한 RNA-가이드 뉴클레아제 활성을 예측할 수 있는 모델을 생성할 수 있다.

본 발명의 RNA-가이드 뉴클레아제 활성 예측 시스템은 RNA-가이드 뉴클레아제의 후보 표적 서열을 입력 받는 후보 서열 입력부를 포함한다.

본 발명의 용어, “후보 표적 서열”은 RNA-가이드 뉴클레아제의 활성 수준을 분석 또는 예측하고자 하는 RNA-가이드 뉴클레아제의 표적 염기 서열로서, “후보 서열 입력부”는 상기 후보 표적 서열을 입력 받기 위한 본 발명 시스템의 구성이다.

RNA-가이드 뉴클레아제 활성을 분석 및 예측 하고자 설계된 후보 표적 서열은 상기 후보 서열 입력부에 입력되며, 본 발명의 시스템에 의해 RNA-가이드 뉴클레아제가 상기 후보 표적 서열에 대해 나타내는 RNA-가이드 뉴클레아제 활성을 예측할 수 있다. 상기 후보 표적 서열은 RNA-가이드 뉴클레아제 활성을 확인하고자 하는 개체의 유전체 서열에서 유래한 것일 수 있고, 또는 당업계에 공지된 방법으로 설계 및 합성된 임의의 서열일 수도 있으나, RNA-가이드 뉴클레아제 활성 예측을 위해 본 발명 시스템에 적용될 수 있는 서열이라면, 제한 없이 포함된다.

구체적으로, 상기 후보 표적 서열은 24개 내지 50개, 보다 구체적으로, 27개 내지 50개, 더 구체적으로, 34개 내지 50개의 뉴클레오티드로 구성된 것일 수 있으나, 이에 제한되지 않는다.

또한, 상기 후보 표적 서열은 PAM(protospacer-adjacent motif), 및 프로토스페이서 서열을 포함하는 것일 수 있으나, 이에 제한되지 않는다. 상기 PAM 및 프로토스페이서 서열은 RNA-가이드 뉴클레아제가 표적 서열을 인식하는 과정에 관여하는 서열이다.

본 발명자들은 Seq-deepCpf1에 입력된 후보 표적 서열의 길이에 따른 활성 예측 모델의 성능을 비교 분석하였으며, 그 결과 24bp 내지 50bp, 특히 34bp에서 그 성능이 우수한 것을 확인하였다 (도 4).

본 발명의 RNA-가이드 뉴클레아제 활성 예측 시스템은 상기 후보 서열 입력부에 입력된 후보 표적 서열을 상기 활성 예측 모델 생성부에서 생성된 활성 예측 모델에 적용하여 RNA-가이드 뉴클레아제의 활성을 예측하는 활성 예측부를 포함한다.

본 발명의 용어, “활성 예측부”는 기 설정된 방법으로 구축된 활성 예측 모델에 후보 서열 입력부를 통해 입력된 후보 표적 서열을 적용하여, RNA-가이드 뉴클레아제 활성을 예측하는 구성이다. 본 발명의 활성 예측부는 후보 표적 서열 정보로부터 RNA-가이드 뉴클레아제 활성 수준을 예측할 수 있으나, 예측의 정확성을 높이기 위한 요인, 예를 들어, 염색질 접근성을 추가로 고려할 수 있다.

구체적으로, 상기 활성 예측부는 미리 설정된 방법에 의해 RNA-가이드 뉴클레아제에 의한 후보 표적 서열의 인델 빈도를 예측하는 것일 수 있으나, 이에 제한되지 않는다. 본 발명의 활성 예측부는 인델 빈도 외에도 다른 RNA-가이드 뉴클레아제의 활성을 예측할 수 있는 지표라면, 그 종류나 형태, 예측 방법에 관계 없이 RNA-가이드 뉴클레아제의 활성을 예측하기 위해 이용할 수 있다.

본 발명의 활성 예측부는 입력된 RNA-가이드 뉴클레아제의 후보 표적 서열을 많은 활성 데이터 세트에서 추출된 표적 서열과 인델 빈도의 관계를 학습한 활성 예측 모델에 적용하여, 학습된 표적 서열과 인델 빈도의 관계로부터 상기 후보 표적 서열에 대한 RNA-가이드 뉴클레아제의 활성 수준 (예를 들어, 인델 빈도)을 유추하는 것일 수 있으나, 이에 제한되지 않는다.

본 발명자들은 표적 서열의 정보 만을 고려한 본 발명의 RNA-가이드 뉴클레아제 활성 예측 시스템(Seq-deepCpf1)의 예측 점수와 실제 인델 빈도와 높은 상관 관계를 갖는 것을 확인하였다(도 9).

본 발명의 상기 RNA-가이드 뉴클레아제의 활성 예측 시스템은 상기 후보 표적 서열의 염색질 접근성 정보 입력부; 및 상기 입력된 염색질 접근성 정보를 이용하여 상기 활성 예측부에서 예측된 RNA-가이드 뉴클레아제의 활성을 최적화(fine-tuning)하는 미세 조정부를 추가로 포함할 수 있다.

본 발명의 “미세 조정부”는 본 발명의 RNA-가이드 뉴클레아제 활성 예측 시스템의 정확성을 높이기 위해, 입력된 후보 표적 서열의 서열 정보뿐만 아니라, 염색질 접근성 정보 입력부에서 입력된, RNA-가이드 뉴클레아제의 후보 표적 서열에 대한 염색질 접근성까지 고려하여 활성 예측 모델에서 예측된 RNA-가이드 뉴클레아제의 활성을 최적화하는 구성을 의미한다.

상기 염색질 접근성 정보는 공지된 데이터 베이스, 문헌 등에서 수득하거나, 또는 직접 측정할 수 있으며, 구체적으로 타겟 서열의 DNase I에 대한 민감성으로부터 계산되는 것일 수 있으나, 이에 제한되는 것은 아니다.

본 발명자들은 염색질 접근성까지 고려하여 구축된 본 발명의 RNA-가이드 뉴클레아제 활성 예측 시스템(DeepCpf1)이 우수한 RNA-가이드 뉴클레아제 활성 예측 성능을 나타내는 것을 확인하였을 뿐만 아니라(도 7 및 8), 기존의 공지된 다른 기계-학습 기반 알고리즘에 비해서도 우수한 정확성을 갖는 것을 확인하였다 (도 9 내지 12, 14).

본 발명의 RNA-가이드 뉴클레아제의 활성 예측 시스템은 활성 예측부에서 예측된 RNA-가이드 뉴클레아제의 활성을 출력하는 출력부를 추가로 포함할 수 있다.

상기 출력부가 출력하는 RNA-가이드 뉴클레아제 활성에 대한 정보는, 인델 빈도일 수 있고, 또는 인델 빈도로부터 산출된 수치, 또는 미리 설정된 기준값에 대한 상대적인 수치로 나타낼 수 있으나, RNA-가이드 뉴클레아제 활성에 대한 정보인 이상, 출력되는 신호의 형태나 종류는 제한되지 않는다.

본 발명을 구현하는 다른 하나의 양태는 RNA-가이드 뉴클레아제의 활성 예측 시스템을 구축하는 방법을 제공하는 것이다.

하나의 구체적인 양태로서,

(b) 상기 활성 데이터 세트를 이용하여 컨볼루션 신경망 (convolutional neural network, CNN) 기반 딥 러닝을 수행하여 RNA-가이드 뉴클레아제의 활성 예측 시스템을 구축하는 단계를 포함하는 RNA-가이드 뉴클레아제의 활성 예측 시스템을 구축하는 방법을 제공한다.

본 발명의 RNA-가이드 뉴클레아제의 활성 예측 시스템을 구축하는 방법은 대용량의 RNA-가이드 뉴클레아제의 활성 데이터를 수득하고, 상기 수득된 활성 데이터를 이용하여 딥-러닝을 수행하여, 표적 서열과 RNA-가이드 뉴클레아제의 활성 간의 관계를 학습한 활성 예측 시스템을 구축하는 방법이다.

본 발명자들은 고-처리량 실험을 통해, 대용량의 표적 서열에 대한 RNA-가이드 뉴클레아제인 Cpf1의 활성 데이터를 수득하였다. 상기 수득된 데이터 세트를 이용하여 활성 예측 모델의 교육(트레이닝)을 수행하고, 검증하였다 (도 1). 이와 같은 방법으로 구축된 본 발명의 RNA-가이드 뉴클레아제 활성 예측 시스템은 높은 정확도로 RNA-가이드 뉴클레아제 활성을 예측할 수 있음을 확인하였으며, 기존의 알려진 기계 학습 알고리즘을 능가하는 성능을 보이는 것을 확인하였다 (도 9 및 12).

구체적으로, 상기 활성 데이터를 수득하는 단계는

(1) 가이드 RNA를 코딩하는 염기서열 및 상기 가이드 RNA가 목적하는 타겟 염기서열을 포함하는 올리고뉴클레오티드를 포함하는 세포 라이브러리에 RNA-가이드 뉴클레아제를 도입하는 단계;

(2) 상기 RNA-가이드 뉴클레아제가 도입된 세포 라이브러리로부터 수득한 DNA를 이용하여 딥 시퀀싱을 수행하는 단계; 및

(3) 상기 딥 시퀀싱으로 수득한 데이터로부터 각 표적 서열의 인델 빈도를 검출하는 단계를 포함할 수 있으나, 표적 서열과 RNA-가이드 뉴클레아제의 활성 간의 관계를 유추할 수 있는 데이터를 수득할 수 있는 방법이라면, 제한 없이 포함된다.

보다 구체적으로, 상기 올리고뉴클레오티드는 가이드 RNA 암호화 서열, 바코드 서열, 및 타겟 염기서열을 포함하는 것일 수 있으나, 이에 제한되지 않는다.

또한, 상기 가이드 RNA는 crRNA (CRISPR RNA)를 포함하는 것일 수 있으나, RNA-가이드 뉴클레아제와 표적 서열을 매개하여 뉴클레아제 활성을 유도할 수 있는 것이면, 가이드 RNA의 크기나 서열은 제한되지 않는다.

또한, 본 발명의 RNA-가이드 뉴클레아제의 활성 예측 시스템을 구축하는 방법은 상기 (b) 단계 이후, (c) 중첩 교차 유효성 검사 (nested cross-validation, CV)를 통해 구축된 예측 시스템을 검증하는 단계를 추가로 포함할 수 있고, 더 나아가, 상기 (c) 단계 이후, (d) 표적 서열의 염색질 접근성을 이용하여 상기 구축된 예측 시스템을 조정하는 단계를 추가로 포함할 수 있으나, 이에 제한되지 않는다. 또한, 상기 염색질 접근성은 표적 서열의 DNase I에 대한 민감성으로부터 계산되는 것일 수 있으나, 이에 제한되지 않는다.

본 발명의 RNA-가이드 뉴클레아제 활성 예측 시스템을 구축하는 방법을 통해 구축된 활성 예측 시스템을 당업계의 알려진 방법을 통해 검증할 수 있고, 이를 위한 검증 방법은 본원에서 설명된 바에 한정되지 않는다.

또한, 상술한 바와 같이, 본 발명자들은 서열 정보 외에도, 염색질 접근성을 고려할 경우, RNA-가이드 뉴클레아제의 활성을 보다 정확히 예측할 수 있음을 확인하였으므로, 본 밤령의 RNA-가이드 뉴클레아제 활성 예측 시스템을 구축하는 방법은 상기 염색질 접근성 정보를 이용하여 상기 예측 시스템을 조정하는 단계를 통해, 구축된 RNA-가이드 뉴클레아제 활성 예측 시스템의 정확성을 높일 수 있다.

본 발명을 구현하는 또 다른 하나의 양태는 RNA-가이드 뉴클레아제의 활성 예측 방법을 제공하는 것이다.

하나의 구체적인 양태로서,

상기 설계된 RNA-가이드 뉴클레아제의 후보 표적 서열을 상술한 활성 예측 시스템에 적용하여 RNA-가이드 뉴클레아제의 활성을 예측하는 단계를 포함하는, RNA-가이드 뉴클레아제의 활성 예측 방법을 제공한다.

상술한 본 발명의 RNA-가이드 뉴클레아제 활성 예측 시스템은 RNA-가이드 뉴클레아제의 표적 서열 및 이의 인델 빈도로부터 RNA-가이드 뉴클레아제 활성을 예측할 수 있으므로, RNA-가이드 뉴클레아제 활성을 예측 및 분석하고자 하는 후보 표적 서열을 상기 RNA-가이드 뉴클레아제 활성 예측 모델에 적용하여 RNA-가이드 뉴클레아제의 활성을 예측할 수 있다.

또한, 상기 RNA-가이드 뉴클레아제의 활성 예측 방법은

상기 후보 표적 서열의 염색질 접근성 정보를 수득하는 단계; 및

상기 수득한 염색질 접근성 정보를 이용하여 상기 예측된 RNA-가이드 뉴클레아제의 활성을 최적화(fine-tuning)하는 단계를 추가로 포함할 수 있다.

상술한 바와 같이, 본 발명자들은 표적 서열의 염색질 접근성까지 고려할 때, RNA-가이드 뉴클레아제 활성의 예측을 보다 높은 정확성으로 수행할 수 있음을 확인하였으므로, 염색질 접근성 정보를 이용하여 RNA-가이드 뉴클레아제 활성의 예측을 미세-조정하여 최적화할 수 있다.

본 발명을 구현하는 다른 하나의 양태는 상기 RNA-가이드 뉴클레아제의 활성 예측을 컴퓨터로 실행하기 위한 프로그램이 기록된 컴퓨터 판독가능 기록매체를 제공한다.

구체적으로, 상기 프로그램은 본 발명의 RNA-가이드 뉴클레아제 활성 예측 시스템 또는 본 발명의 RNA-가이드 뉴클레아제의 활성 예측 방법을 컴퓨터 프로그래밍 언어로 구현한 것일 수 있으며, RNA-가이드 뉴클레아제 활성을 예측하는데 이용될 수 있다.

구체적으로, 이용자에 의해 입력된 후보 표적 서열을 RNA-가이드 활성 예측 시스템 또는 활성 예측 방법에 적용하여 상기 후보 표적 서열에서 예상되는 RNA-가이드 뉴클레아제의 활성을 산출하여 이용자에게 그 정보를 제공할 수 있다.

본 발명의 프로그램을 구현할 수 있는 컴퓨터 프로그래밍 언어는 Python, C, C++, 자바(Java), 포트란(Fortran), 비쥬얼 베이직(Visual Basic) 등이 있으나 이에 제한되지 않는다. 상기 프로그램은 USB 메모리, CD-ROM(compact disc read only memory), 하드 디스크, 자기 디스켓, 또는 그와 유사한 매체 또는 기구 등의 기록 매체로 저장될 수 있으며, 내부 또는 외부 네트워크 시스템에 연결될 수 있다. 예를 들면, 컴퓨터 시스템은 HTTP, HTTPS, 또는 XML 프로토콜을 이용하여 GenBank(http://www.ncbi.nlm.nih.gov/nucleotide)와 같은 서열 데이터베이스에 접속하여 표적 유전자 및 상기 유전자의 조절 영역의 핵산서열을 검색할 수 있다.

또한, 본 발명에서 제공되는 프로그램은 온라인 또는 오프라인으로 제공될 수 있다.

본 발명을 구현하는 다른 하나의 양태는 컴퓨터로 구현되는 전자 기기와 결합되어 RNA-가이드 뉴클레아제의 활성 예측 방법 또는 예측 시스템을 실행시키기 위해　기록매체에 저장된　컴퓨터　프로그램을 제공한다.

본 발명은 기존의 기계-학습 기반 예측 방법에 비해 높은 정확도로 RNA-가이드 뉴클레아제의 활성을 예측할 수 있는 시스템을 제공하며, 상기 시스템을 이용한 RNA-가이드 뉴클레아제 활성 예측을 통해, 유전자 교정을 통한 유전자 재조합, 질병 치료 등 광범위한 뉴클레아제를 적용하는 모든 분야에서 매우 유용하게 활용될 수 있다.

도 1은 표적 서열의 구성에 기초하여, 딥-러닝은 Cpf1 활성을 예측하는 작업에 있어서 전통적인 기계 학습 (machine learning)을 능가할 수 있음을 보여주는 도이다.
도 1의 a는 표적 서열 의존 Cpf1 활동 예측을 위한 딥 러닝의 도식적 표현을 나타낸 도이다. 고-처리량 실험을 통해 19,255개(= (15,000 + 1,292) + 2693)의 표적 서열에 대한 Cpf1 활성의 대규모 데이터 세트를 생성하였다(표 3 및 4 참조). 컨볼루션 레이어 및 완전히 연결된 레이어로 구성된 신경망 모델(neural network model)을 구성하고, 상기 데이터 세트를 이용하여 모델을 교육하였다. 그 결과, Seq-deepCpf1이라는 알고리즘을 개발하였으며, 상기 알고리즘은 표적 서열의 구성을 기반으로 Cpf1 활성을 예측할 수 있다.
도 1의 b는 다양한 크기의 데이터 세트에 대해 학습된 Cpf1 활성 예측 모델의 중첩 교차 유효성검증(nested cross-validation)의 결과를 나타낸 도이다. 각 점들은 10 outer fold 결과의 평균을 나타낸다. 각 폴드(fold)의 해당되는 데이터 세트는 가장 큰 데이터 세트인 HT 1-1에서 임의 샘플링을 통해 얻어진, 다른 사이즈를 갖는 트레이닝 데이터 세트의 모든 점들과 동일하다. 실험을 통해 얻어진 인델 빈도와 Seq-deepCpf1 및 다른 기존의 기계 학습 접근법의 예측 점수 간의 스피어만(Spearman) 상관 계수를 5개의 서로 다른 학습 데이터 세트 크기에 대해 플롯하였다. 명확성을 위해, 통계적 유의성 테스트의 결과는 최상의 모델과 2개의 차선(next-best) 모델 사이에서만 나타내었다(L1L2 regression, ****P = 6.5 x 10^-6; Seq-deepCpf1 vs. L2 regression, ****P = 5.5 × 10⁶;Steiger의 테스트는 가장 우수한 성능을 보이는 모델의 Spearman 상관 관계의 통계적 차이를 테스트하기 위해서만 이용하였다.)
도 1의 c는 예측 모델들의 성능을 비교한 도이다. 6개의 다른 모델에 대해, 3개의 독립적 테스트 데이터 세트(HT 1-2, HT 2, HT 3)에서 측정된 인델 빈도 및 예측된 Cpf1 활성 점수 사이의 스피어만(Spearman) 상관 계수를 나타내었다. 각각의 테스트 데이터 세트를 독립적인 실험으로부터 얻었다. 명확성을 위해, 통계적 유의성 테스트의 결과는 최선 및 차선 모델의 쌍에 대해서만 나타내었다 (왼쪽에서 오른쪽; *P = 0.015, *P = 0.026,, n.s. = 유의하지 않음, Steiger 's 테스트).
도 2는 Seq-deepCpf1의 개발을 개략적으로 나타낸 도이다. Seq-deepCpf1은 AsCpf1 인델 빈도 예측을 위한, 컨볼루션 신경망(CNN)에 기반한 end-to-end 딥 러닝 툴이다. Seq-deepCpf1는 다음의 4가지 단계를 이용하여 인델 빈도를 예측한다. (1) one-hot 암호화 입력 레이어는 입력 서열을 4차원 이진법 매트릭스로 변환한다. (2) 컨볼루션 레이어는 학습된 위치 가중치 매트릭스로 간주되는 컨볼루션 필터 세트(각 5개의 길이를 갖는 전체 80개의 필터)를 입력 매트릭스에서 스캔한다. 이후, 정류된 선형 단위(ReLU) 비선형 함수를 적용하고, 풀링 레이어는 비-중첩 윈도우에서의 평균 값을 계산하여 국지적 이동의 불변성을 제공한다. (3) 완전히 연결된 레이어는 선형 변환을 수행하고 ReLU 비-선형 함수를 적용한다. 복수의 비-선형 레이어는 모델이 향상된 추상화 수준으로 계층적 표현을 학습하도록 한다. (4) 출력 레이어는 선형 회귀를 수행하고 AsCpf1 활성을 예측한다.
도 3은 중첩된(nested) 교차 유효성 검사(cross-validation, CV)의 개략도이다. 실험 A에서 얻어진 데이터 세트 HT 1은 임의 샘플링을 통해 HT 1-1 (n = 15,000) 및 HT 1-2 (n = 1,292)으로 나누었다. HT1-2는 본 발명의 모델 훈련에 이용하지 않고 오직 테스트에서만, 즉 모델의 일반화 성능 평가에서만 사용하였다. 본 발명자들은 남은 데이터 세트 HT1-1(n=15,000)를 이용하여 교차 CV를 실시하였다. 이 과정의 내부 루프(inner loop)에서, 본 발명자들은 모델 하이퍼 매개변수의 값을 설정하기 위해 5-배 CV를 수행했다(표 3). 외부 루프(outer loop)에서는, 중첩된 CV 과정의 내부 루프에서 선택된 모델을 학습하고 검증하기 위해 10배 CV를 수행하였다. 외부 CV 인스턴스(instance)의 각 배수에서, 본 발명자들은 훈련 데이터 세트의 크기를 변화시킴으로써 성능 향상을 검증하기 위해 크기가 다른 훈련 데이터 세트 (즉, n = 1000, 2000, 4000, 8000 및 13500)를 임의로 구성했다. 외부 CV 과정의 동일 배수에서의 다른 크기의 모든 훈련 데이터 세트에 대해 고정된 유효성 검증 데이터 세트(n=1,500)를 사용하였다.
도 4는 중첩 교차 유효성 검사를 통한 Seq-deepCpf1에 대한 입력 표적 서열의 적절한 길이를 결정하는 과정을 나타낸 도이다. 도 4의 a는 입력 표적 서열의 길이 후보를 나타낸 도로서, 표적 서열의 예시를 나타낸다. 적색 서열(TTTG)은 TTTV 프로토 스페이서 인접 모티프(PAM)를 나타낸다. 청색(GTA...ATG) 및 녹색(GTC) 서열은 프로토 스페이서를 나타내고; 청색 영역은 crRNA의 20개 뉴클레오티드의 가이드 서열에 결합할 수 있는 반면, 녹색 영역은 crRNA와 헤테로 듀플렉스 (heteroduplex)를 형성하지 않는다. 도 4의 b는 측정된 인델 빈도와 예측된 점수 사이의 Spearman 상관 계수를 나타낸 도이다. 34bp 및 50bp의 표적 서열 길이가 가장 우수한 성능을 나타내었다. 상기 두 길이 중, 34bp를 최종 입력 표적 서열 길이로 선정하였다. 잠재적인 오버피팅(overfitting)의 가능성을 낮추어 적은 수의 파라미터의 단순한 모델을 구축할 수 있기 때문이다. 플롯의 각 열은 표준 박스 플롯을 사용하여 계수의 분포를 보여준다. 박스에서 상단, 중간 및 하단은 각각 25, 50 및 75 백분위 수를 나타내며, 위스커 (whisker)는 10 및 90 백분위 수를 나타낸다.
도 5는 예측 모델의 성능을 나타낸 도이다. 3개의 독립된 고-처리량 실험에서 얻어진 HT 1-1, HT 2, 및 HT 3 데이터 세트를 데이터 세트로서 이용하였다. 예측 모델의 ROC의 AUC(area under the receiver-operating characteristic curves)를 나타내었다. 상위 20%(a), 30%(b), 또는 40%(c)의 인델 빈도를 갖는 가이드 RNA를 활성 가이드 RNA로서 고려하였다.
도 6은 내인성 표적 부위에서의 인델 빈도의 범위를 나타내는 산점도이다. HEK-lenti, HEK-plasmid, 및 HCT-plasmid 데이터 세트는 HEK293T 세포의 148개 부위 (a), HEK293T 세포의 55개 부위 (b), 및 HCT116 세포의 66개 부위(c)에서 얻어진 인델 빈도를 각각 포함한다.
도 7은 염색질 접근성의 고려에 의해 내인성 표적 부위에서의 Cpf1 활성 예측이 향상됨을 확인한 도이다. 도 7의 a는 HEK293T 세포(왼쪽) 및 HCT116 세포(오른쪽)에서 다른 예측 모델과 DeepCpf1의 성능을 비교한 도이다. DeepCpf1 모델은 HEK293T 세포의 내인성 표적 부위에서 Cpf1 유도 indel 빈도 및 염색질 접근성 상태의 데이터 세트(데이터 세트 HEK-lenti, n = 148)를 사용하여 Seq-deepCpf1을 미세 조정함으로써 개발되었다. 막대 그래프는 측정된 indel 빈도 및 예측된 활성 점수 사이의 Spearman 상관 관계를 보여준다. 명확성을 위해, 통계적 유의성 테스트의 결과는 DeepCpf1 vs. Seq-deepCpf1, 및 DeepCpf1 vs. 차선 모델에 대해서만 나타내었다 (왼쪽에서 오른쪽; *P = 0.041, **P = 0.003, *P = 0.031, 및 **P = 0.005; Steiger 테스트). 도 7의 b 및 c는 AsCpf1 및 crRNA를 암호화하는 플라스미드를 HEK293T 세포(b) 및 HCT116 세포(c)로 형질전환 후, 내인성 표적 부위에서의 DeepCpf1 예측 점수와 측정된 인델 빈도 순위 간의 상관 관계를 나타낸다. Spearman 상관 관계(r) 및 P 값(P)를 보여준다. 측정된 인델 빈도의 절대 값을 이용한 그래프는 도 10으로 나타내었다. 도 7의 d는 서로 다른 모델 및 데이터 세트간의 Spearman 상관 계수의 히트맵이다. 표적 서열 및 염색질 접근성을 모두 고려한 8개 모델(즉, 3개의 다른 데이터 세트로 미세-조정된 DeepCpf1 및 HEK-lenti 데이터 세트로 재학습된 5개 기계 학습-기반 모델 및 표적 서열만을 고려한 6개 모델(즉, Seq-deepCpf1 및 5개 기존 기계 학습-기반 모델)을 6개의 독립적인 테스트 데이터 세트를 이용하여 검증했다. 테스트 데이터 세트는 수직으로 정렬되는 반면, 예측 모델은 수평으로 배치된다. 괄호 안에는 분석된 표적 부위의 수, AsCpf1 및 지시 RNA 전달 방법, 및 사용된 세포주를 나타내었다. 각 음영 표시된(cross-hatched) 박스는 자체 훈련 데이터 세트가 포함된 테스트 데이터 세트에 대해 평가된 모델의 Spearman 상관 관계를 나타낸다.
도 8은 DeepCpf1의 개요를 나타낸 도이다. DeepCpf1은 염색질 접근성 정보를 기반으로 Seq-deepCpf1 모델(도 2)을 미세-조정하였다. DeepCpf1 모델에서, 본 발명자들은 추가적인 염색질 접근성 통합 레이어를 회귀 출력 레이어 바로 전에 채택함으로써, 서열 표현을 표적 서열의 염색질 접근성과 통합하였다. DeepCpf1은 40 단위로 완전히 연결된 또 다른 레이어를 사용하여, 1차원 이진법(binary) 염색질 접근성 입력(input)을 최종 완전히 연결된 레이어의 출력 형태와 일치하는 40차원 실제 벡터(real vector)으로 변환한다. 이후, 40차원 duaatorwlf 접근성 및 서열 표현 벡터를 요소 단위의 곱셈을 수행함으로써 통합한다. Seq-deepCpf1과 공유되는 계산 과정은 녹색 배경으로 표시하였다.
도 9은 AsCpf1 및 crRNA를 암호화하는 플라스미드를 HEK293T 세포 (a) 및 HCT116 세포 (b)로 형질전환 한 후 내인성 표적 부위에서 Seq-deepCpf1 예측 점수 및 측정된 인델 빈도 간의 상관 관계를 나타낸 도이다. Spearman 상관관계(r) 및 P 값(P)을 나타내었다.
도 10은 AsCpf1을 코딩하는 플라스미드 및 crRNA를 HEK293T 세포 (a) 및 HCT116 세포에 형질 도입한 후, 내인성 표적 부위에서 DeepCpf1 예측 점수 및 측정된 인델 빈도의 상관 관계를 나타낸 도이다. Spearman 상관관계(r) 및 P 값(P)을 나타내었다.
도 11은 내인성 부위로부터 얻은 인델 빈도 데이터를 이용하는 Cpf1 활성 예측 모델의 유효성을 확인한 결과를 나타낸 도이다. 데이터 세트 HEK-plasmid 및 HCT-plasmid는 AsCpf1 및 지시 RNA를 암호화하는 플라스미드의 형질전환 후, HEK293T 세포 (a)의 55개 위치 및 HCT116 세포 (b)의 66개 위치로부터 각각 수득된 인델 빈도를 포함한다. 표적 서열은 DeepCpf1 점수에 따라 세 개 그룹으로 나누었다 (상위 20%, 중위 40%, 하위 40%). 각 데이터 세트에서, 인델 빈도는 세 그룹 간 유의하게 차이를 나타내었다 (**P <0.01, ***P <0.001, 2개의 샘플 Kolmogorov-Smirnov 테스트). 상자는 25번째, 50번째 및 75번째 백분위 수를 나타내며 위스커(whisker)는 10번째 및 90번째 백분위 수를 나타낸다.
도 12는 예측 모델의 성능을 나타낸 도이다. AsCpf1 및 crRNA를 암호화하는 플라스미드를 HEK293T 세포 및 HCT116 세포에 형질전환한 후, HEK-plasmid 및 HCT-plasmid 데이터 세트를 내인성 표적 부위에서 수득하였다. 상기 수득된 데이터 세트는 테스트 데이터 세트로 이용하였다. 예측 모델의 ROC의 AUC (area under the receiver-operating characteristic curves, AUC of ROC)를 나타내었다. 상위 20% (a), 상위 30% (b), 상위 40% (c)의 인델 빈도에 관여하는 가이드 RNA를 활성 가이드 RNA로서 고려하였다.
도 13은 다양한 CRISPR-Cas9 예측 모델 및 테스트 데이터 세트 간의 Spearman 상관 계수의 히트맵을 나타낸 도이다. 기존의 알려진 Spearman 상관관계의 히트맵(Haeussler, M. et al. Evaluation of off-target and on-target scoring algorithms and integration into the guide RNA selection tool CRISPOR. Genome Biol 17, 148; 2016)을 도 7의 d에서 사용된 것과 동일한 색상 기울기를 사용하여 다시 그렸다. 분석된 표적 부위의 수는 괄호 안에 나타내었다. 음영 처리된 각 칸은 자체 훈련 데이터 세트가 포함된 테스트 데이터 세트에 대해 평가된 모델의 상관관계를 나타낸다.
도 14는 Seq-deepCpf1 및 WOC(Without chromatin accessibility: 염색질 접근성 제외)-deepCpf1의 성능을 비교한 결과를 나타낸 도이다. WOC-deepCpf1- HEK-lenti, -HEK-plasmid 및 -HCT-plasmid 모델을 염색질 접근성 정보가 없는 데이터 세트 HEK-lenti, HEK-plasmid, 및 HCT-plasmid를 사용하여 Seq-deepCpf1 모델을 각각 미세 조정하여 개발했다. 데이터 세트 HEK-lenti, HEK-plasmid, 및 HCT-plasmid는 독립적인 내인성 빈도 데이터 세트이다. 분석된 타겟 부위의 수, AsCpf1 및 지시 RNA 전달 방법 및 세포주를 괄호 안에 나타내었다.

이하에서는, 본 발명을 더욱 상세히 설명한다.

한편, 본원에서 개시되는 각각의 설명 및 실시형태는 각각의 다른 설명 및 실시 형태에도 적용될 수 있다. 즉, 본원에서 개시된 다양한 요소들의 모든 조합이 본 발명의 범주에 속한다. 또한, 하기 기술되는 구체적인 서술에 의하여 본 발명의 범주가 제한된다고 할 수 없다.

또한, 당해 기술분야의 통상의 지식을 가진 자는 통상의 실험만을 사용하여 본 출원에 기재된 본 발명의 특정 양태에 대한 다수의 등가물을 인지하거나 확인할 수 있다. 또한, 이러한 등가물은 본 발명에 포함되는 것으로 의도된다.

본 발명의 실시예에서는 표본 크기를 미리 결정하기 위한 통계적 방법을 사용하지 않았다. 실험은 무작위로 이루어지지 않았으며 본 발명자들은 실험 및 결과 평가 중에 할당(allocation)에 대해 블라인드 되지 않았다.

실시예 1: 재료의 준비

실시예 1-1: 올리고뉴클레오티드

고-처리량(high-throughput) 실험 A 및 B를 위해, Cpf1-데이터베이스를 사용하여 19,565개의 인간 유전자의 암호화 서열로부터 총 67,301개(실험 A: 55,003개; 실험 B: 12,298개)의 Cpf1 표적 (타겟) 서열을 설계 하였다 (http://www.rgenome.net/cpf1-database).

본 발명자들은 대부분의 경우, 각 유전자로부터 3개 또는 4개의 Cpf1 표적 서열을 선택하였다; 유전자 당 선택된 표적 서열의 수는 927개 유전자에서 1개, 893개 유전자에서 2개, 6,461개 유전자에서 3개, 11,255 개 유전자에서 4개, 7개 유전자에서 5개, 9개 유전자에서 6개, 8개 유전자에서 7개, 5개 유전자에서 8개였다.

또한, 본 발명자들은 각각의 올리고뉴클레오티드를 20nt 가이드-RNA-암호화(encoding) 서열, 20nt 바코드 및 34nt 표적 서열을 포함하는, 130개 뉴클레오티드의 전체 길이를 갖도록 설계하였다. 실험의 편의를 위해, 67,301개의 올리고뉴클레오티드를 각각 독립적으로 CustomArray, Inc (Bothell, WA)으로 합성된 임의로 6개의 군(5개 군은 고-처리량 실험 A에 이용; 1개 군은 고-처리량 실험 B에 이용)으로 나누었다.

내인성 표적 부위에서의 인델 빈도 데이터를 구축한 실험에서, 가이드 RNA-암호화 서열, 바코드, 및 표적 서열을 포함하는 223 올리고뉴클레오티드(렌티바이러스 형질도입을 위한 148개 및 일시적 형질주입을 위한 75개)는 Cellemics, Inc (Seoul, South Korea) 또는 Macrogen, Inc (Seoul, South Korea)에 의해 합성되었다.

실시예 1-2: 플라스미드 라이브러리 제작

올리고뉴클레오티드 풀은 Phusion Polymerase (NEB, Ipswich, MA)로 PCR-증폭하였다. Lenti-gRNA-Puro 플라스미드(Addgene;#84752)는 BsmB1 효소(NEB)로 선형화하였다. MEGAquick-spin™ 총 단편 DNA 정제 키트 (total fragment DNA purification kit, iNtRON Biotechnology, 성남, 대한민국)를 이용하여 생성물을 겔-정제하고 NEBuilder HiFi DNA assembly kit (NEB)로 조립했다.

다음으로, 상기에서 조립된 생성물을 MicroPulser (Bio-Rad, Hercules CA)를 통해 전기 감응성(electrocompetent) 세포(Lucigen, Middleton, WI)로 형질전환하고, 상기 형질전환된 세포를 50 μg/ml 카베니실린이 첨가된 Luria-Bertani (LB) 아가 플레이트에 시딩하여 37 ℃에서 16시간 동안 배양하였다.

상기 배양 과정 후, 세포를 회수하기 전에, 라이브러리 범위(coverage)는 전체 콜로니 수/샘플의 crRNA-표적 쌍의 전체 수로 계산하였다. 그 결과, 라이브러리 범위의 결과는 40x - 46x 범위였다. 전체 콜로니를 수득하고 Plasmid Maxiprep kit (Qiagen, Hilden, 독일)를 이용하여 플라스미드를 추출하였다.

실시예 1-3: 렌티바이러스 생산

렌티바이러스 생산을 위해, 전달 플라스미드(관심 유전자를 포함한), psPAX2 및 pMD2.G를 4:3:1의 비율로 혼합하고, 플라스미드 혼합물의 총 18 μg을 Lipofectamine 2000 (Invitrogen, Carlsbad, CA)을 이용하여 80 - 90% 밀도(confluent)의 HEK293 세포(ATCC)에 전달하였다. 형질주입 후 12시간 후에, 세포를 10ml의 성장 배지로 리프레시(refresh)하였다. 최초 형질주입 후 36시간 경과 후 및 60시간 경과 시점에서 바이러스를 포함하는 상층액(또는 배지)를 수집하였다. 2개 배치(batch)의 바이러스를 포함하는 배지를 혼합하고 4 ℃에서 5분 동안 2,100g로 원심분리하였다.

다음으로, 상기 과정에서 얻어진 상층액을 Millex-HV 0.45 μm 저 단백질 결합막(low protein binding membrane, Millipore, Darmstadt, Germany)을 통해 여과하고, 사용시까지 -80 ℃에서 보관하였다. AsCpf1 바이러스 생산 효율을 평가하기 위해, 이들 배치의 냉동 바이러스-포함 배지의 샘플을 해동하고, Lenti-X TM p24 Rapid Titer Kit (Clontech, Mountain View, CA)를 이용하여 제조사의 지침에 따라 바이러스 생산 효율을 측정했다.

실시예 1-4: 세포 라이브러리 생성

6개의 세포 라이브러리는 아래에 기술된 바와 같이 독립적으로 구축하였다.

HEK293T 세포(11k ~ 12k 올리고뉴클레오티드 라이브러리의 각 풀 당 6.0 x 10⁶개의 세포)를 10% 소 태아 혈청 (FBS, Gibco, Waltham MA)을 첨가한 Dulbecco 's modified Eagle's 배지(DMEM)에서 crRNA-암호화 및 표적 서열을 포함하는 상기 렌티 바이러스 벡터로 형질 전환시켰다.

1일 후에, 형질도입 되지 않은 세포를 제거하기 위해 2 μg/ml 퓨로마이신을 5일 동안 처리하였다. 라이브러리를 보존하기 위해, 적어도 각 6.0 x 10⁶개의 세포를 연구기간 동안 유지하였다.

실시예 1-5: 세포 라이브러리로의 Cpf1 전달

10% FBS가 첨가된 DMEM에서 총 6.0 x 10⁶개의 세포를 시딩하고 AsCpf1-암호화 렌티바이러스 벡터를 형질도입하였다.

1일 후에, 형질도입 되지 않은 세포를 제거하기 위해 5일 동안 배양 배지를 20 μg/ml 블라스티시딘 S (InvivoGen) 및 10% FBS가 첨가된 DMEM으로 교환하였다. 모든 단계는 각 세포 라이브러리에 대해 동등하게 반복하였다.

실시예 2: 실험의 방법 및 결과 측정

실시예 2-1: 내인성 부위에서 인델(indel) 빈도의 측정

본 발명자들은 DNase I 민감도의 광대한 범위를 다루는 데이터 세트를 생성하기 위해, 다양한 DNase I 민감도를 가지는 게놈 지역으로부터 141개의 내인성 타겟(표적) 부위를 임의로 선택하였다. 나머지 82개의 표적 부위는 염색체 9, 15, 19, 및 22내에서 임의로 선택된 4개의 게놈 지역으로부터 유래한다.

AsCpf1 및 crRNA (HEK293T 세포에 대해 n = 55 및 HCT116 세포에 대해 n = 66(ATCC); 46개의 표적 서열은 양 실험에서 공유된다)를 암호화하는 플라스미드의 형질주입(transfection) 또는 AsCpf1 및 crRNA (HEK293T 세포에 대해 n = 148)를 암호화하는 렌티바이러스의 형질도입(transduction) 후, 총 223(= 141+82)개의 내인성 부위에서의 인델 빈도를 분석했다.

형질주입에 있어서, AsCpf1(100ng) 및 crRNA(100ng)를 암호화하는 플라스미드를 Lipofectamine 2000 (Invitrogen)을 통해 96-웰 플레이트에서 70 - 80% 밀도의 HEK293T 또는 HCT116 세포에 전달하였다. 다음 날, 배양 배지를 10% FBS 및 2μg/ml 퓨로마이신이 첨가된 DMEM으로 교체하였다. 형질주입 5일 후에, 세포를 회수하고, 딥-시퀸싱을 위해 분석하였다.

형질도입에 있어서, HEK293T 세포를 48-웰 플레이트에 시딩하고, crRNA 및 표적 서열 쌍을 암호화하는 개별적인 렌티바이러스 벡터로 감염시켰다. 형질도입 3일 후에, 형질전환되지 않은 세포에 대해 선택하기 위해 세포를 3-5일 동안 2 μg/ml 퓨로마이신 처리하였다.

다음으로, 세포를 AsCpf1-암호화하는 렌티바이러스로 감염시키고, 세포를 20μg/ml 블라스티시딘 S(InvivoGen, San Diego, CA)로 선택하였다. AsCpf1-암호화하는 렌티바이러스의 형질도입 5일 후, 게놈 DNA를 세포로부터 분리하고 딥-시퀀싱하였다.

실시예 3-2: 딥-시퀀싱의 수행

Wizard Genomic DNA purification kit (Promega, Fitchburg, WI)를 이용하여 세포 라이브러리로부터 게놈 DNA를 추출하였다. 렌티바이러스에 의해 통합된 표적 서열을 Phusion polymerase (NEB)를 이용하여 PCR-증폭시켰다. 라이브러리에 대해 >100x 범위를 달성하기 위해 세포 라이브러리(1.0 x 10⁶ 293T 세포의 게놈 DNA 10μg 가정) 당 총 12μg의 게놈 DNA를 제1 PCR 주형으로 사용하였다.

각 세포 라이브러리에 대해, 본 발명자들은 초기 게놈 DNA 양이 50-μl 반응 당 1μg인, 12개의 분리된 50-μl 반응을 수행하였고, 상기 결과물을 모두 조합하였다.

AsCpf1 및 crRNA-암호화하는 렌티바이러스가 형질도입된 세포에 대해, 100ng의 게놈 DNA를 통합 및 내인성 표적 부위의 PCR 증폭을 위해 이용했다. AsCpf1 및 crRNA 플라스미드가 형질주입된 세포의 내인성 표적 부위를 분석하기 위해, 샘플 당 20ng의 게놈 DNA를 첫번째 PCR에 이용했다. 첫번째 반응으로부터의 PCR 산물을 MEGAquick-spin Total Fragment DNA Purification Kit (iNtRON Biotechnology)로 정제하고 20ng의 정제된 산물은 두 번째 PCR을 위해 일루미나 어댑터 및 바코드 서열로 어닐링하였다.

상기에서 얻어진 산물을 MiSeq 또는 HiSeq(Illumina, San Diego, CA)을 이용하여 분리, 정제, 혼합, 및 분석하였다. PCR에 사용된 프라이머는 다음과 같다 (표 1).

판독(read)의 총 개수, 및 라이브러리 내 백그라운드 인델 빈도를 고려하여 각 고-처리량 실험에 대해 서로 다른 필터링 조건을 이용하였다(표 2).

실시예 2-4: 염색질 접근성의 계산

본 발명자들은 보다 높은 정확도로 Cpf1의 활성을 예측하기 위해, 염색질 접근성을 고려한 시스템을 구축하고자 하였다.

구체적으로, 염색질 접근성을 계산하기 위해 ENCODE(Encyclipedia of DNA Elements)로부터 DNase-seq 좁은 피크 데이터(narrow peak data)를 이용했다. 각 표적 부위에 대해, 27개 염기의 PAM 플러스 프로토스페이서(protospacer) 서열을 bowtie를 이용하여 hg19 인간 참조 게놈에 정렬했다. DNase-seq 좁은 피크와 겹치는 표적 부위만을 DNase I 과민성 표적 부위로 고려하였다.

실시예 2-5: 컨볼루션 신경망의 구축

컨볼루션 신경망(CNN: convolutional neural network)은 일종의 피드-포워드 인공 신경망이다. CNN의 중요한 측면은, CNN은 수동의 특성 공학(manual feature engineering)에 의존하기보다는, 계층적 공간 표현을 배울 수 있다는 점에 있다.

CNN은 세 가지 유형의 레이어를 구성으로서 포함한다. 구체적으로, 상기 레이어는 컨볼루션 레이어(convolution layers), 풀링 레이어(pooling layers), 및 완전히 연결된 레이어(fully connected layers)에 해당한다.

먼저, 컨볼루션 레이어에서, 필터로 불리는 가중치 벡터가 전체 데이터의 하위 영역에 걸쳐 곱해진다. 상기 필터들은 CNN가 데이터 내의 위치에 상관 없이 국부적으로 상관된 패턴들을 발견할 수 있게 해준다.

풀링 레이어는 중첩되지 않은 하위 영역의 최대 또는 평균 서브 샘플링을 수행하여, 국부 전환(local transition)에 불변성을 제공한다.

또한, 완전히 연결된 레이어는 가중 합을 계산하고 비-선형 함수를 적용함으로써, 국부적 특징을 보다 추상적인 특징으로 집계한다.

공간 정보를 분석하기 위해 설계된 CNN은 이미지 인식 및 자연어 처리와 같은 다양한 작업에서 큰 발전을 이루었다. 적절한 CNN 모델 개발을 위해 요구되는 데이터의 양은 각 작업의 목표, 데이터의 복잡성, 및 다른 요인들에 의해 변경될 수 있다. 그러나, 카테고리 별로 약 5,000 개의 표지된 예시가 적합한 수행을 위해 충분하다.

생물정보학에서, CNN은 게놈 서열 분석에 있어서도 큰 성과를 보이고 있다. 게놈 서열 분석의 종래의 접근법은 일반적으로 조절-모티프를 확인하기 위해 하드-코딩된 위치 가중 매트릭스(PWMs)를 만드는 반면, CNN의 초기 컨볼루션 레이어는 PWMs가 하드-코딩되지 않고 오로지 데이터로부터 학습하는 모티프 디텍터에 해당한다. 이전 연구는 CNN은 전사인자의 결합 친화성 및 DNA 서열 접근성의 예측을 포함하는 다양한 응용에서 최신의 방법을 능가할 수 있음을 보여줬다.

실시예 2-6: DeepCpf1 설계

DeepCpf1은 AsCpf1 인델 빈도 예측을 위한 딥 러닝 툴이다. DeepCpf1은 입력된 34bp 표적 서열로부터, AsCpf1 활성과 높은 상관 관계가 있는 회귀 점수를 산출한다. 수동으로 만들어진(hand-crafted) 특성에 크게 의존하는(즉, k-mer 수, 융융 온도, 및 자유 에너지) 이전 접근법과는 달리, DeepCpf1은 CNN을 사용함으로써, 힘든 수동의 특성 공학을 필요로 하지 않는다. DeepCpf1은 AsCpf1 활성 프로파일과 관련된 표적 서열의 유익한 표현을 자동적으로 학습한다.

DeepCpf1은 Theano 및 Keras (http://keras.io) 라이브러리를 사용하여 구현하였다. 도 8는 5 단계로 진행되는 DeepCpf1의 개요를 보여준다.

(1) 제1단계: one-hot 인코딩 입력 레이어는 서열을 이후의 처리를 위한 수(numerical representation)로 전환한다. 이 레이어는 각 위치의 뉴클레오티드를 4-차원 이진법 벡터로 암호화하고, 각 요소는 뉴클레오티드의 유형을 나타낸다: A, C, G, 및 T. 그런 다음 인코딩 레이어는 이진법 벡터를 전체 34bp 표적 서열을 나타내는 4x34 크기의 이진 매트릭스로 연결한다.

(2) 제2단계: 컨볼루션 레이어는 one-hot 인코딩된 매트릭스에 걸치는 길이 5의 80개의 필터로 1차원 컨볼루션 연산을 수행한다. 상기 필터는 4개의 뉴클레오티드 채널을 포함하는 one-hot 인코딩 매트릭스의 한 축 (즉, 서열 길이)을 따라 이동한다. 이 과정은 종래 기술에서 표적 서열을 통해 학습된 PWM을 스캐닝하는 것과 동일하다. 이후, 컨볼루션 레이어는 정류된 선형 단위(ReLU) 비-선형 함수[f(x)=max(0,x)]를 컨볼루션 출력에 적용한다. 풀링 레이어는 각각의 크기 2의 비-중첩창(window)에서 평균을 계산하여, 불변성을 제공하고 매개변수의 수를 줄인다.

(3) 제3단계: DeepCpf1은 각각 80, 40, 및 40 단위로 완전히 연결된 세개의 레이어를 사용한다. 완전히 연결된 레이어의 각 단위는 이전 레이어의 출력을 선형 변환하고, ReLU 비-선형 함수를 적용한다.

복수의 비-선형 레이어는 상기 모델이 추상화 수준의 향상을 통해 데이터의 계층적 표현을 학습하도록 한다.

(4) 제4단계: 염색질 접근성 통합 레이어는 표적 서열의 염색질 접근성을 서열 정보에 통합한다. 상기 레이어는 40 단위의 또 다른 완전히 연결된 레이어를 사용하여 1차원 이진법 염색질 접근성 입력을 최종 완전히 연결된 레이어의 출력 형태와 일치하는 40-차원 실제 벡터(real vector)로 변환한다. 이후, 요소 별 곱셈(element-wise multiplication)을 통해 40-차원 염색질 접근성 및 서열 표현 벡터를 통합한다.

(5) 제5단계: 마지막 단계로, 회귀 출력 레이어는, 염색질 접근성 통합 레이어의 출력을 선형 변환하고 AsCpf1 활성을 예측한다.

실시예 2-7: DeepCpf1 학습(training)

본 발명자들은 다음과 같이 두 단계로 본 발명의 모델을 학습시켰다: (1) 모델 선정 및 전체 아키텍쳐의 전-학습 (본 발명에서 이 단계까지 학습된 모델을 Seq-deepCpf1로 명명한다), 및 (2) 추가적인 염색질 접근성 입력을 고려한 내인성 표적 데이터의 미세-조정(학습 과정의 최종 결과로서, DeepCpf1라고 명명).

두 단계 모두에서, 본 발명자들은 Adam35 optimizer를 사용하여 평균 제곱 오류 손실 함수를 최적화하고 0.3 드롭 아웃 비율의 모델 정규화에 dropout36을 사용했다.

(1) 모델 선정 및 전-학습

먼저, 본 발명자들은 데이터 세트 HT1을 HT1-1(n=15,000) 및 HT1-2 (n=1,292)로 임의로 구분하였다. HT1-1은 모델 선정 및 전-학습(pre-training)에 이용하고, HT1-2는 Seq-deepCpf1의 성능 평가를 위해서만 이용하고, 학습 과정에서는 사용하지 않았다. 모델 선정 과정의 신뢰성을 확인하고자, 본 발명자들은 HT1-1 데이터 세트로 중첩된 교차 검증 (nested cross validation, CV, 도 3)을 수행하였다.

외부 10-배 CV의 각 배수에서, 학습 데이터세트의 다른 크기와 관련된 성능 향상을 평가하기 위해 임의로 다른 크기 (n = 1,000, 2,000, 4,000, 8,000, 및 13,500)로 학습 데이터세트를 구성했다. 매 학습 데이터세트를 내부 5-배 CV에서의 다음 모델 선정 및 선정된 모델의 학습을 위해 사용했다. 참고로 유효성 확인 데이터 세트(n = 1,500)를 외부 CV의 동일한 배수 내에서 크기가 다른 모든 학습 데이터 세트에 대해 고정했다. 내부 CV의 각 배수에서, 각각의 학습 및 유효성 확인 데이터세트를 상이한 하이퍼매개변수 구성을 갖는 180개의 모델 후보를 학습시키고 유효성을 확인하는데 사용했다(즉, 필터 수, 필터 길이, 완전히 연결된 레이어의 수, 및 각 완전히 연결된 레이어에서 단위 수, 표 5).

본 발명의 모델(도 1b)의 예상 성능을 검증한 후, 본 발명자들은 5-배 CV를 사용하여 전제 데이터 세트 HT1-1로 최종 모델 선정을 수행했다. 상이한 하이퍼 매개변수 구성을 갖는 180개의 모델 후보들 중에서, Seq-deepCpf1의 최종 모델로서 최소 평균 유효성 검증 손실을 보인 모델을 선정했다(표 5). 이 후, 본 발명자들은 데이터 세트 HT1-1로 최종 모델(102,681개 자유(free) 파라미터)을 전-학습시켰다. AsCpf1 활성 프로파일과 관련된 표적 서열의 유익한 표현을 학습할 수 있다.

(2) DeepCpf1의 미세-조정

상기 실시예에서 학습된 모델에서 학습된 서열 표현뿐만 아니라, 염색질 접근성을 고려하기 위해, 본 발명자들은 회귀 출력 레이어 바로 앞에 추가적인 염색질 접근성 통합 레이어를 채택했다.

미세-조정 과정에서, 본 발명자들은 평균 제곱 오류 손실 함수를 최적화했고, 마지막 두 개의 레이어에서의 가중치 매개변수만 업데이트했다(121 자유 파라미터). 다른 레이어에서 가중치 매개변수를 고정하면, 본 발명의 DeepCpf1은 초과 맞춤(overfitting)을 피할 수 있고 염색질 접근성 정보와 서열 표현을 통합하는 것을 효과적으로 학습할 수 있다.

실시예 2-8: 기존 기계- 학습 모델과의 비교

DeepCpf1의 예측 성능을 평가하기 위해, 이전에 Cas9 활성 예측에 합리적인 성능을 보인 학습 모델인 L1-정규화 선형 회귀, L2-정규화 선형 회귀, L1L2-정규화 선형 회귀, 및 gradient-boosted regression tree(Boosted RT)와 Cpf1 활성을 예측할 수 있는 로지스틱 회귀 분류 기반 CINDEL의 성능과 DeepCpf1의 성능을 비교했다. CINDEL은 회귀 모델이 아닌, 분류 모델이기 때문에, 본 발명자들은 2진법 표지 (binary label)를 이용하여, 상위 1 내지 20번째 백분위 및 0 내지 나머지를 할당하였다.

뉴클레오티드 서열의 특성화를 위해, 본 발명자들은 이전에 기술된 특징 추출 과정을 이용했고, 이것은 위치-독립적 뉴클레오티드 및 디뉴클레오티드, 위치-의존적 뉴클레오티드 및 디뉴클레오티드, 융융 온도, GC 카운트, 및 최소 자기-접힘 자유 에너지를 포함한다. 상기 모델들은 Keras(http://keras.io) 및 scikit-학습 라이브러리로 구현하였다.

L1-, L2-, L1L2-정규화 선형 회귀, 및 CINDEL에 대해, 본 발명자들은 10-6 및 106 로그 공간(log space) 내에 고르게 분포된 250 지점을 찾아, 정규화 파라미터를 최적화하고자 하였다. Boosted RT에 대해, 본 발명자들은 다음과 같은 하이퍼파라미터로부터 225개 이상의 모델을 찾았다: (염기 추정치 ([50, 100, 150, 200]에서 선택), 개별 회귀 추정치의 최대 깊이([2, 4, 6, 8, 10]에서 선택), 내부 노드의 분리를 위한 샘플의 최소 개수 ([2, 4]에서 선택), 리프(leaf) 노드가 되기 위한 샘플의 최소 개수 ([1, 2]에서 선택), 최선의 분리(split)을 찾기 위해 고려되는 특징의 최대 개수 ([모든 특징, 모든 특징의 제곱근, 모든 특징의 2진법 로그 함수(binary logarithm).

실시예 2-9: 코드의 제공

본 발명에서 데이터 분석을 위해 이용한 모든 커스텀 피아썬 스크립트는 GitHub(https://github.com/MyungjaeSong/Paired-Library)에서 이용 가능하다.

실시예 2-10: 통계의 처리

통계적 의미는 SPSS 통계(version 17.0, IBM) 및 SAS(version 9.2, SAS Inc.)를 이용하여 결정했다.

실시예 2-11: 데이터의 이용

본 발명의 딥-시퀀싱 데이터는 NCBI Sequence Read Archive (SRA; http://www.ncbi.nlm.nih.gov/sra/)에 SRP107920으로 제출하였다.

본 발명자들은 상기 실시예로부터 제조된 구축한, RNA-가이드 뉴클레아제의 활성 예측 시스템을 이용하여, Cpf1 활성 평가를 수행하였다.

실험예 1: Cpf1 활성 데이터의 수집 및 딥-러닝을 통한 예측 모델 생성

딥-러닝을 위한 데이터를 얻고자, 본 발명자들은 HEK293T 세포에서 고-처리 (high-throughput) 방법을 사용하여 인간의 암호화 서열로부터 16,292개 (실험 A), 및 2,963개 (실험 B) 표적 서열에서 대용량 데이터 세트를 얻었다. 표적 서열 및 가이드 RNA 쌍의 렌티 바이러스 라이브러리를 세포에 도입하고, Cpf1을 상기 세포 라이브러리에 도입하여, 가이드 RNA 활성에 기인한 빈도로 통합된 표적 서열에서 삽입 및 결실(indel)을 유도하였다. 상기 인델 빈도는 딥-시퀀싱을 이용하여 측정하였다.

상기 데이터 세트를 얻기 위해, 본 발명자들은 기존에 알려진 23 뉴클레오티드(nt) 가이드 서열 대신에, 20nt 가이드 서열을 이용하였다. 이는, 상기 가이드 RNA 절단은 Cpf1 활성을 완전히 보존하고, 20nt crRNA 가이드 서열의 3'-말단 뉴클레오티드 바깥 쪽은 표적 DNA와 헤테로 이중결합을 형성하지 않기 때문이다.

상기 고-처리량 실험 A 및 B로 HT1 및 HT2 데이터 세트를 생성하였고, 각 세트는 표적 서열 및 해당되는 인델 빈도를 포함한다 (표 3 및 4). 데이터 세트 HT1은 임의의 샘플링(random sampling)을 통해 HT1-1(n=15,000) 및 HT1-2(n=1,292)으로 구분하였다.

표적 서열 구성에 기초하여 AsCpf1 활성을 예측하는 딥러닝-기반 회귀 모델이자, AsCpf1 활성의 잠재적인 분류자(classifier)인, Seq-deepCpf1을 구현하기 위해, 본 발명자들은 CNN(convolutional neural network)에 기반을 둔 end-to-end 딥러닝 체계를 채택했다 (도 1의 a, 및 2).

Cpf1 활성은 타겟 DNA-가이드 RNA-Cpf1 단백질의 상호 작용에 의해 영향을 받을 수 있고, 이는 국지(local)적인 연결성 및 서열 특징에 의해 영향을 받을 수 있기 때문에 본 발명자들은 CNN을 채택하였다.

데이터 세트 HT 1 내지 3은 삽입된(integrated) 표적 서열에서의 인델 빈도를 포함한다. 상기 데이터는 HEK293T 세포에서 수행된 세 개의 독립된 고-처리량 실험을 통해 수득하였다. 실험 A를 통해 수득된 데이터 세트는 임의의 샘플링을 통해 HT 1-1 및 HT 1-2 데이터 세트로 나누었다. HEK-lenti, HEK-plasmid, 및 HCT-plasmid 데이터 세트는 내인성 인간 암호화 및 비-암호화 영역에서의 인델 빈도를 포함한다. HEK-lenti 데이터 세트의 경우, 삽인된 표적 서열 및 해당 내인성 표적 부위 모두에서 인델 빈도를 평가하였다. HEK-lenti, HEK-plasmid, 및 HCT-plasmid 데이터의 생성을 위해서는 다른 전달 방법 및 세포주를 사용하였으며, 이는 표 4에 나타내었다.

Seq-deepCpf1의 모델 선택 및 학습의 일반화 성능을 평가하기 위해 상기 데이터 세트 HT1-1로 중첩 교차 유효성 검사(cross-validation, CV)를 수행하였다(도 3, 표 5).

본 발명자들은 서로 다른 하이퍼매개변수 구성 (hyperparameter configurations)을 갖는 총 180개의 신경망 구조(convolutional neural network architectures)를 연구하였다. 즉, 본 발명자들은 구조의 조합을 생성하기 위해, 각 하이퍼매개변수(즉, 필터 수, 필터 길이, 완전히 연결된 레이어의 수, 및 각 완전히 연결된 레이어에서 단위 수)를 변화시켰다. 다른 사용된 하이퍼매개변수는 다음과 같다(180개 모델에서 고정되었음): 정류 선형 단위 (rectified linear unit, ReLU) 활성 함수, 0.3의 드롭아웃 레이트 (dropout rate), 아담 옵티마이저 (Adam optimizer), 및 평균 제곱 목적 손실 함수 (mean squared objective loss function). 180개 모델 중, 157 모델이 검증 손실 (validation loss)의 최소 평균 값을 나타내었으며, 상기 모델의 하이퍼매개변수 (빨간 색으로 표시) 최종 Seq-DeepCpf1 모델을 선정하는데 이용하였다.

중첩된(nested) CV 동안 서로 다른 입력 타겟(표적) 서열 길이를 평가함으로써, 본 발명자들은 TTTV 프로토 스페이서 (protospacer) 인접 모티브로부터 4bp 인접서열(neighboring sequence) 및 23bp 프로토스페이서 로부터 3bp 인접서열을 포함하는 34bp가 입력 표적 서열로서 적절하다는 것을 확인하였다(도 4). CV를 위한 학습 데이터의 크기가 증가함에 따라, Seq-deepCpf1의 실험적으로 얻은 인델 빈도와 Seq-deepCpf1의 예측된 점수 간의 평균 스피어만(Spearman) 상관 관계 계수는 꾸준히 0.76까지 증가했다(도 1의 b).

실험예 2: Seq-deepCpf1의 성능 검증

본 발명자들은, 상기 실시예에서 구축된 Seq-deepCpf1의 성능을 검증하고자, 기존에 알려진 기계 학습(machine learning) 알고리즘과 Cpf1의 활성을 예측하여 그 결과를 비교하였다.

그 결과, Cas9 활성 예측 방법인 L1 정규화 선형 회귀, L2 정규화 선형 회귀, 및 L1L2 정규화 선형 회귀 및 기울기 증폭 회귀 트리(Boosted RT), 및 Cpf1 활성 예측 방법인 로지스틱 회귀 분류자(CINDEL)와 같은 기존의 기계 학습 알고리즘과 비교할 때, CV에서 Seq-deepCpf1의 Spearman 상관 관계는, 특히 학습 데이터 크기가 충분히 높은 경우, 이러한 기존의 기계 학습 알고리즘 기반 알고리즘의 것보다 유의하게 높았다. CINDEL이 좋지 않은 성능을 나타낸 이유 중 하나는, CINDEL은 모델링 과정에서 자세한 정보를 상실하게 되는, 분류 모델이기 때문이다.

또한, 학습 중에 이용되지 않은 세 가지 다른 AsCpf1 활성의 테스트 데이터 세트(HT 1-2, HT 2, HT 3, 표 3, 및 4)를 사용하여 상기 알고리즘을 평가할 때, Seq-deepCpf1의 Spearman 상관 관계 및 ROC(Receiver Operating Characteristics)의 AUC(area under curve)는 기존의 기계 학습 기반 알고리즘보다 유의하게 높았다(도 1의 c, 도 5).

종합하면, 이러한 결과는 표적 서열 구성에 기초한 AsCpf1 활성의 예측을 위한 기존의 기계 학습 방법보다 딥 러닝이 우위에 있음을 시사한다.

실험예 3: 염색질 접근성을 고려한 DeepCpf1의 개발

본 발명자들은 뉴클레아제 활성을 보다 정확히 하기 위해, 표적 서열뿐만 아니라, 염색질 접근성을 고려하였다.

이를 위해, 본 발명자들은 2개의 상이한 세포주, 즉 HEK293T 및 HCT116의 내인성 부위에서 3개의 독립적인 AsCpf1 활성 데이터 세트를 준비했다(데이터 세트 HEK-lenti, HEK-plasmid, 및 HCT-plasmid; 표 3 및 4, 도 7). 본 발명자들은 ENCODE(Encyclipedia of DNA Elements)에서 이용 가능한 DNase-seq 값의 DNase I 과민성 데이터를 사용하여 이들 세포주에 대한 이원 염색질 접근성 정보(binary chromatin accessibility information) 를 계산했다.

본 발명자들은 데이터 세트 HEK-lenti와 이원 염색질 접근성 정보를 이용하여 Seq-deepCpf1을 미세 조정함으로써, DeepCpf1(도 8)을 개발하였다. 데이터 세트 HEK-plasmid 및 HCT-plasmid 를 테스트 데이터 세트로 사용하여 평가한 결과, 다른 모델 (즉, Seq-deepCpf1, 표적 서열 구성만 고려한 5개 기존 모델, 추가적인 염색질 접근성으로 고려하여 HEK-lenti 데이터 세트로 재학습된(retrained) 5개 기존 모델)에 비해, 내인성 부위에서 뉴클레아제 활성을 예측하기 위한 매우 높은 정확도인, 각각 0.87과 0.77의 Spearman 상관 계수 및 ROC의 AUC 0.89 및 0.91에 도달했고, DeepCpf1은 Seq-deepCpf1에 비해 유의하게 향상된 성능을 보였다(도 7의 a 내지 c, 도 9 내지 12).

실험예 4: DeepCpf1의 성능 검증

본 발명자들은 DeepCpf1의 일반화 성능을 평가하기 위해, 이전에 공개된 다른 데이터 세트(Kleinstiver, B.P. et al., Nat Biotechnol 34, 869-874 (2016); Chari, R., Yeo, N.C., Chavez, A. & Church, G.M., ACS Synth Biol (2017); Kim, D. et al., Nat Biotechnol 34, 863-868 (2016))를 테스트 데이터로 사용하여 DeepCpf1을 평가하였다.

그 결과, 스피어만 상관 관계가 각각 0.61, 0.70 및 0.79 인 것을 확인하였으며(도 7의 d), 이는 본 발명의 DeepCpf1이 우수한 일반화 성능을 제공할 수 있음을 시사한다.

이전에 보고된 Cas9 활성 예측 알고리즘은 독립적인 테스트 데이터 세트를 사용했을 때 Spearman 상관 관계가 0.34 - 0.44 인 것으로 나타난 바 있다(도 13). 비록 Cas9 뉴클레아제 활성 측정 방법은 Cpf1 활성 결정 방법과 다를 수 있으며, Cas9 및 Cpf1의 활성 예측의 직접적 비교는 어려울 수 있음을 고려하더라도, 본 발명에서 개발한 활성 예측 시스템은 이전에 보고된 RNA-가이드 뉴클레아제의 활성 예측 알고리즘에 비해 월등히 우수한 성능을 가짐을 시사한다.

본 발명자들은 또한, 데이터 세트 HEK-plasmid 또는 HCT-plasmid와 같은 다른 학습 데이터 세트로 Seq-deepCpf1을 미세-조정하여, 각각, DeepCpf1- HEK-plasmid 및 DeepCpf1-HCT-plasmid를 개발했다. 상기 모델을 내인성 부위에서 AsCpf1 활성의 5개의 독립적인 데이터 세트(각각의 학습 데이터 세트 HEK-plasmid 또는 HCT-plasmid가 없는)로 테스트 하였을 때, 두 모델 모두 0.60-0.83 범위의 높은 Spearman 상관 계수를 나타내었고(도 7의 d), 이러한 미세-조정은 내인성 부위에서 AsCpf1 활성 예측을 향상시키기 위한 신뢰성 있고 효과적인 접근임을 나타낸다.

또한, 대조군 접근으로서, 본 발명자들은 염색질 접근성을 고려하지 않고 데이터 세트 HEK-lenti, HEK-plasmid 또는 HCT-plasmid를 사용하여 Seq-deepCpf1을 미세 조정하여, WOC(Without chromatin accessibility information)-deepCpf1- HEK-lenti, -HEK-plasmid, 및 -HCT-plasmid로 명명하였다. 상기 세 모델은 Seq-deepCpf1과 유사하게 수행했고(도 14), 이는 염색질 접근성의 고려가 AsCpf1 활성 예측의 정확성을 향상시키는 데 필수적이라는 것을 뒷받침한다.

http://data.snu.ac.kr/DeepCpf1에서, 염색질 접근성 정보를 이용할 수 있는 125개의 세포주에서 AsCpf1 활성의 예측을 정확하게 할 수 있는 본 발명의 예측 시스템을 제공한다. 표 6은 상기 시스템에서 RNA-가이드 뉴클레아제의 활성 예측에 이용될 수 있는 세포주의 정보를 나타낸다.

상기의 결과를 종합하면, AsCpf1 활성의 예측을 위해, 충분한 데이터를 제공하여 예측 모델을 적절히 학습시킨다면, 딥러닝을 통해 기존에 알려진 기계 학습을 통한 예측 알고리즘 보다 우수한 예측 알고리즘을 구축할 수 있음을 확인하였다.

또한, 표적 서열 외에, 염색질 접근성까지 고려할 경우, RNA-가이드 뉴클레아제의 활성 예측의 정확성이 더욱 유의하게 향상되는 것을 확인하였다.

본 발명에서 개발된 RNA-가이드 뉴클레아제의 활성 예측 시스템인 DeepCpf1은 표적 서열뿐만 아니라, 염색질 접근성까지 고려함으로써, 내재적 표적 부위에서 프로그램 할 수 있는 뉴클레아제 활성을 높은 정확도를 예측할 수 있으며, 이는 높은 활성을 갖는 RNA-가이드 뉴클레아제의 설계를 효율적으로 수행하는데 기여할 것으로 예상된다.

이상의 설명으로부터, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 이와 관련하여, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허 청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

<110> Industry-Academic Cooperation Foundation, Yonsei University Seoul National University R&DB Foundation <120> A deep-learning based system for evaluating the RNA-guided nuclease activity using deep-learning <130> KPA170568-KR <160> 332 <170> KoPatentIn 3.0 <210> 1 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 1 atttcttggc tttatatatc ttgtggaaag gacgaaacac cgtaatttct actcttgtag 60 60 <210> 2 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 2 gagtaagctg accgctgaag tacaagtggt agagtagaga tctagttacg ccaagct 57 <210> 3 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 3 acactctttc cctacacgac gctcttccga tctggacgaa acaccgtaat ttctactctt 60 g 61 <210> 4 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 4 gtgactggag ttcagacgtg tgctcttccg atcttcccat gtaagcatgt acggtctag 59 <210> 5 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 5 acactctttc cctacacgac gctcttccga tctaggacga aacaccgtaa tttctactct 60 tg 62 <210> 6 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 6 gtgactggag ttcagacgtg tgctcttccg atctatccca tgtaagcatg tacggtctag 60 60 <210> 7 <211> 63 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 7 acactctttc cctacacgac gctcttccga tctacggacg aaacaccgta atttctactc 60 ttg 63 <210> 8 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 8 gtgactggag ttcagacgtg tgctcttccg atctactccc atgtaagcat gtacggtcta 60 g 61 <210> 9 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 9 acactctttc cctacacgac gctcttccga tcttcatccc atgtaagcat gtacggtcta 60 g 61 <210> 10 <211> 63 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 10 gtgactggag ttcagacgtg tgctcttccg atctaggacg aaacaccgta atttctactc 60 ttg 63 <210> 11 <211> 55 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 11 aatgatacgg cgaccaccga gatctacacb barcdacact ctttccctac acgac 55 <210> 12 <211> 51 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 12 caagcagaag acggcatacg agatbbarcd gtgactggag ttcagacgtg t 51 <210> 13 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 13 acactctttc cctacacgac gctcttccga tctttgctgt ggcagagcca gcg 53 <210> 14 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 14 gtgactggag ttcagacgtg tgctcttccg atctttgctt cactttaatc ctttcttgca 60 g 61 <210> 15 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 15 acactctttc cctacacgac gctcttccga tctctcctgc aagaaaggat taaagtg 57 <210> 16 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 16 gtgactggag ttcagacgtg tgctcttccg atctacctac ctaatagtta cttcctgaag 60 gg 62 <210> 17 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 17 acactctttc cctacacgac gctcttccga tctctcgttc tttccatcaa atagtgtggt 60 g 61 <210> 18 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 18 gtgactggag ttcagacgtg tgctcttccg atctctgcag taattgttac tctgtgtctt 60 cc 62 <210> 19 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 19 acactctttc cctacacgac gctcttccga tctttgagct gacccataaa tacaacagg 59 <210> 20 <211> 58 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 20 gtgactggag ttcagacgtg tgctcttccg atctccctct taactggatc agcaacgg 58 <210> 21 <211> 55 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 21 acactctttc cctacacgac gctcttccga tcttggggtc gccattgtag ttccc 55 <210> 22 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 22 gtgactggag ttcagacgtg tgctcttccg atctgtcaca aagatcagca tcaggcatgg 60 60 <210> 23 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 23 acactctttc cctacacgac gctcttccga tctcgttcac ctgggagggg aag 53 <210> 24 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 24 gtgactggag ttcagacgtg tgctcttccg atcttctgca aagaacttta ttccgagtaa 60 gc 62 <210> 25 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 25 acactctttc cctacacgac gctcttccga tctcccaaaa gacatattca cccagaatcc 60 c 61 <210> 26 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 26 gtgactggag ttcagacgtg tgctcttccg atctcaacat caaggtgtgg gcagggctgc 60 60 <210> 27 <211> 54 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 27 acactctttc cctacacgac gctcttccga tctacctgga gtctgcagag ctgg 54 <210> 28 <211> 58 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 28 gtgactggag ttcagacgtg tgctcttccg atctaagcgg taaacaaagg atagctgg 58 <210> 29 <211> 58 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 29 acactctttc cctacacgac gctcttccga tctccatggg aaacgaatac aggtctcg 58 <210> 30 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 30 gtgactggag ttcagacgtg tgctcttccg atctcttcag aagaaaaacc tccactc 57 <210> 31 <211> 58 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 31 acactctttc cctacacgac gctcttccga tctaactgag aaacagccag agaggaag 58 <210> 32 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 32 gtgactggag ttcagacgtg tgctcttccg atctcatctg atgctgactc agagcgc 57 <210> 33 <211> 50 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 33 acactctttc cctacacgac gctcttccga tctgctgcca ccccctgctc 50 <210> 34 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 34 gtgactggag ttcagacgtg tgctcttccg atctatcaga atgaaaaatc tcacccctcc 60 60 <210> 35 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 35 acactctttc cctacacgac gctcttccga tctgtctccg tgatgggggt gg 52 <210> 36 <211> 65 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 36 gtgactggag ttcagacgtg tgctcttccg atctctgcct tgtaagactt taaatattct 60 gctcc 65 <210> 37 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 37 acactctttc cctacacgac gctcttccga tctaagccat attcagtttt agggaaaagc 60 60 <210> 38 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 38 gtgactggag ttcagacgtg tgctcttccg atctatttcc aagtaagctg caaggaaagc 60 60 <210> 39 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 39 acactctttc cctacacgac gctcttccga tctaagtctt acaaggcaga gtaaagatc 59 <210> 40 <211> 55 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 40 gtgactggag ttcagacgtg tgctcttccg atctgcaggg taaaacaatc ggacc 55 <210> 41 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 41 acactctttc cctacacgac gctcttccga tctcaaccac ctcagaagag ccagattcc 59 <210> 42 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 42 gtgactggag ttcagacgtg tgctcttccg atctctctgt agttatttga gcaatgccac 60 60 <210> 43 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 43 acactctttc cctacacgac gctcttccga tctcagtgaa tatacaggat tggggttgtg 60 60 <210> 44 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 44 gtgactggag ttcagacgtg tgctcttccg atctacaact ggtaaggtgg gcccagg 57 <210> 45 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 45 acactctttc cctacacgac gctcttccga tctcaagcac aaacaaatca ggctaaatcc 60 60 <210> 46 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 46 gtgactggag ttcagacgtg tgctcttccg atctccctga gcttggggga gagttac 57 <210> 47 <211> 54 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 47 acactctttc cctacacgac gctcttccga tcttcctctg gggaaagagt ggcc 54 <210> 48 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 48 gtgactggag ttcagacgtg tgctcttccg atcttgtggg gtcgttcctg atgaaac 57 <210> 49 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 49 acactctttc cctacacgac gctcttccga tctaactggt ttagctagtg catacatgc 59 <210> 50 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 50 gtgactggag ttcagacgtg tgctcttccg atctggtggg agtttctgtt acaggcaac 59 <210> 51 <211> 50 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 51 acactctttc cctacacgac gctcttccga tctgtttggc ttgggcgtcc 50 <210> 52 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 52 gtgactggag ttcagacgtg tgctcttccg atctggtttg gttgttggtg gtgtca 56 <210> 53 <211> 54 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 53 acactctttc cctacacgac gctcttccga tctcagcttc gactccagag gcag 54 <210> 54 <211> 54 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 54 gtgactggag ttcagacgtg tgctcttccg atctctccgg ggatccaagg actc 54 <210> 55 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 55 acactctttc cctacacgac gctcttccga tctaactcct tttcctccct catctg 56 <210> 56 <211> 54 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 56 gtgactggag ttcagacgtg tgctcttccg atctcacacc cggctccttt atga 54 <210> 57 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 57 acactctttc cctacacgac gctcttccga tctaccttcc aaacatctaa tctggttgc 59 <210> 58 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 58 gtgactggag ttcagacgtg tgctcttccg atctgggctg gcgacattcc tc 52 <210> 59 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 59 acactctttc cctacacgac gctcttccga tcttccaggc agcagtgcag ga 52 <210> 60 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 60 gtgactggag ttcagacgtg tgctcttccg atcttctccc ctgtccttcc agc 53 <210> 61 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 61 acactctttc cctacacgac gctcttccga tctagtgtga gggctccgtg ga 52 <210> 62 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 62 gtgactggag ttcagacgtg tgctcttccg atctgaatag ttactcatac ggctggtcc 59 <210> 63 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 63 acactctttc cctacacgac gctcttccga tctacccact cccttcgtag gca 53 <210> 64 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 64 gtgactggag ttcagacgtg tgctcttccg atctgctttc gacatcgggg ctc 53 <210> 65 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 65 acactctttc cctacacgac gctcttccga tctacgactc gctgctggca ctg 53 <210> 66 <211> 54 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 66 gtgactggag ttcagacgtg tgctcttccg atctcgtcca ggacaccggc acta 54 <210> 67 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 67 acactctttc cctacacgac gctcttccga tctgttctgc ttccctgcac tttctc 56 <210> 68 <211> 55 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 68 gtgactggag ttcagacgtg tgctcttccg atctccacag cagaaaggaa tgacc 55 <210> 69 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 69 acactctttc cctacacgac gctcttccga tctaggcctc taggaccagc ctg 53 <210> 70 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 70 gtgactggag ttcagacgtg tgctcttccg atctcctggc tgcctactac atcgac 56 <210> 71 <211> 54 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 71 acactctttc cctacacgac gctcttccga tctccacacg aaccaagagg acgc 54 <210> 72 <211> 51 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 72 gtgactggag ttcagacgtg tgctcttccg atctcgctcg ggccactgga a 51 <210> 73 <211> 51 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 73 acactctttc cctacacgac gctcttccga tctgtaggag aagccagctt c 51 <210> 74 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 74 gtgactggag ttcagacgtg tgctcttccg atctaattta tattaaagaa ctataatgca 60 g 61 <210> 75 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 75 acactctttc cctacacgac gctcttccga tctgtatgtt taggtttcag cttgtatgg 59 <210> 76 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 76 gtgactggag ttcagacgtg tgctcttccg atctgaaaag ttgatctgtc tctgtattac 60 ca 62 <210> 77 <211> 51 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 77 acactctttc cctacacgac gctcttccga tctaccgtga ctgaggccga g 51 <210> 78 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 78 gtgactggag ttcagacgtg tgctcttccg atctgatgag agatgaggta ggtgccc 57 <210> 79 <211> 55 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 79 acactctttc cctacacgac gctcttccga tctcctcctc tgtcctttct tggcc 55 <210> 80 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 80 gtgactggag ttcagacgtg tgctcttccg atctggagga gcggtctaag cataag 56 <210> 81 <211> 55 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 81 acactctttc cctacacgac gctcttccga tctccccaac cacactctgg gaaac 55 <210> 82 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 82 gtgactggag ttcagacgtg tgctcttccg atctcaagga tgccagggcc aag 53 <210> 83 <211> 58 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 83 acactctttc cctacacgac gctcttccga tctgctgcgt tttattacta ttatcgcc 58 <210> 84 <211> 54 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 84 gtgactggag ttcagacgtg tgctcttccg atctagggag ggaagctgca gtag 54 <210> 85 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 85 acactctttc cctacacgac gctcttccga tctagagccc tctgttttga gggtca 56 <210> 86 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 86 gtgactggag ttcagacgtg tgctcttccg atctgagtgt ggggatgaga ggatttg 57 <210> 87 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 87 acactctttc cctacacgac gctcttccga tctcctgctc ttctctcgat gcaactc 57 <210> 88 <211> 54 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 88 gtgactggag ttcagacgtg tgctcttccg atctcacccg caaatcccac tagc 54 <210> 89 <211> 54 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 89 acactctttc cctacacgac gctcttccga tctgatgctg tcggcttcac cttc 54 <210> 90 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 90 gtgactggag ttcagacgtg tgctcttccg atctaatcat ggagcggcgg gca 53 <210> 91 <211> 55 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 91 acactctttc cctacacgac gctcttccga tctcttctta atgatgcgct ggcga 55 <210> 92 <211> 54 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 92 gtgactggag ttcagacgtg tgctcttccg atctctccga gccctcaaca cctg 54 <210> 93 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 93 acactctttc cctacacgac gctcttccga tctccactat gttagggaac acaggca 57 <210> 94 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 94 gtgactggag ttcagacgtg tgctcttccg atctagtcga tggaggcaaa gaaggtg 57 <210> 95 <211> 58 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 95 acactctttc cctacacgac gctcttccga tctggtacac ataatgagtg gtaaccca 58 <210> 96 <211> 54 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 96 gtgactggag ttcagacgtg tgctcttccg atcttctgtg aagcttctgg gctc 54 <210> 97 <211> 49 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 97 acactctttc cctacacgac gctcttccga tctccagctg ggcccgaag 49 <210> 98 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 98 gtgactggag ttcagacgtg tgctcttccg atctggttga ggaattcaga aaagagc 57 <210> 99 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 99 acactctttc cctacacgac gctcttccga tctagatgtg ggtgccctgc tc 52 <210> 100 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 100 gtgactggag ttcagacgtg tgctcttccg atctagacgt gattgcagcc acg 53 <210> 101 <211> 64 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 101 acactctttc cctacacgac gctcttccga tctcatgtag acaagtacat aaaataattg 60 tagg 64 <210> 102 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 102 gtgactggag ttcagacgtg tgctcttccg atctcataac aagaggaata cataaggcac 60 60 <210> 103 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 103 acactctttc cctacacgac gctcttccga tctacaagct cggttccttt ctcaac 56 <210> 104 <211> 55 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 104 gtgactggag ttcagacgtg tgctcttccg atctcgagat tcccccgaag ttctc 55 <210> 105 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 105 acactctttc cctacacgac gctcttccga tctgctccga caaagtcgtg gac 53 <210> 106 <211> 54 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 106 gtgactggag ttcagacgtg tgctcttccg atcttcatct ggcagggaca gacg 54 <210> 107 <211> 54 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 107 acactctttc cctacacgac gctcttccga tctgcaattc caggctccac agag 54 <210> 108 <211> 54 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 108 gtgactggag ttcagacgtg tgctcttccg atctaaccca aaaaccttcc cgga 54 <210> 109 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 109 acactctttc cctacacgac gctcttccga tctgctgtgg gtccgcaaat tg 52 <210> 110 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 110 gtgactggag ttcagacgtg tgctcttccg atcttctgga cgaggctctg gca 53 <210> 111 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 111 acactctttc cctacacgac gctcttccga tctgtgccat ctttgtgtct tggacc 56 <210> 112 <211> 55 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 112 gtgactggag ttcagacgtg tgctcttccg atctccctgt cagaggtctc acctg 55 <210> 113 <211> 58 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 113 acactctttc cctacacgac gctcttccga tcttgggtga atgagaaaat tggggtac 58 <210> 114 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 114 gtgactggag ttcagacgtg tgctcttccg atctgttggt accatggaaa gtagtcaaac 60 60 <210> 115 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 115 acactctttc cctacacgac gctcttccga tctacacatt ccaatctatt ggtgac 56 <210> 116 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 116 gtgactggag ttcagacgtg tgctcttccg atctggattt tgtgttgtag attgtgaag 59 <210> 117 <211> 54 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 117 acactctttc cctacacgac gctcttccga tctgctctct gctctctcct agcc 54 <210> 118 <211> 55 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 118 gtgactggag ttcagacgtg tgctcttccg atctgccctg gggtagcttg ttgag 55 <210> 119 <211> 51 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 119 acactctttc cctacacgac gctcttccga tcttgacgct ggtcccctct c 51 <210> 120 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 120 gtgactggag ttcagacgtg tgctcttccg atcttggtcc atgctctccc cac 53 <210> 121 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 121 acactctttc cctacacgac gctcttccga tctccttgct gaaaacacat gac 53 <210> 122 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 122 gtgactggag ttcagacgtg tgctcttccg atctagctag cattatcaat atctaaagg 59 <210> 123 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 123 acactctttc cctacacgac gctcttccga tctgagatcc tggcgcgaga tg 52 <210> 124 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 124 gtgactggag ttcagacgtg tgctcttccg atctcggaga agatatctga tgtgtactac 60 60 <210> 125 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 125 acactctttc cctacacgac gctcttccga tctgttattt tctcagcaaa atctgcc 57 <210> 126 <211> 55 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 126 gtgactggag ttcagacgtg tgctcttccg atctgaagga attccactcc agtcc 55 <210> 127 <211> 55 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 127 acactctttc cctacacgac gctcttccga tctacctaca gctgtctcta ctggc 55 <210> 128 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 128 gtgactggag ttcagacgtg tgctcttccg atctggttgg aagggaccag ga 52 <210> 129 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 129 acactctttc cctacacgac gctcttccga tctcttcagt aaactatccc acagaaggac 60 60 <210> 130 <211> 50 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 130 gtgactggag ttcagacgtg tgctcttccg atctcccagc ccacgacaga 50 <210> 131 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 131 acactctttc cctacacgac gctcttccga tctggaaacc ctgagacccc ctc 53 <210> 132 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 132 gtgactggag ttcagacgtg tgctcttccg atctggagaa tgagatctat caaagtgag 59 <210> 133 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 133 acactctttc cctacacgac gctcttccga tctaggcccc atcagatcaa cagtaac 57 <210> 134 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 134 gtgactggag ttcagacgtg tgctcttccg atctagtgat tctcagtcca gaagtttctc 60 c 61 <210> 135 <211> 54 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 135 acactctttc cctacacgac gctcttccga tcttcagatc tcacctcctg cgac 54 <210> 136 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 136 gtgactggag ttcagacgtg tgctcttccg atctttctga gggagttatg tggaagg 57 <210> 137 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 137 acactctttc cctacacgac gctcttccga tctagcgagt tgcatggaag agg 53 <210> 138 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> Rever Primer <400> 138 gtgactggag ttcagacgtg tgctcttccg atctagggcc catctggtta gacaatc 57 <210> 139 <211> 63 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 139 acactctttc cctacacgac gctcttccga tctgcaggca ctctttgttc tagggctcta 60 aac 63 <210> 140 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 140 gtgactggag ttcagacgtg tgctcttccg atctaagacg tgactgccat ttgcggagcc 60 a 61 <210> 141 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 141 acactctttc cctacacgac gctcttccga tctgacctta tccagtgacc catgggtgt 59 <210> 142 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 142 gtgactggag ttcagacgtg tgctcttccg atctggatct gatgttctcc tggtggtctg 60 60 <210> 143 <211> 67 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 143 acactctttc cctacacgac gctcttccga tctagcactg cagagagcca taaacaagaa 60 ttatagc 67 <210> 144 <211> 67 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 144 gtgactggag ttcagacgtg tgctcttccg atctcagttg tctgataggt cagtattatt 60 catggcc 67 <210> 145 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 145 acactctttc cctacacgac gctcttccga tcttgcggtg acaggaaagc aggacgcgc 59 <210> 146 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 146 gtgactggag ttcagacgtg tgctcttccg atcttggaaa gaaggccagg cctggccatt 60 g 61 <210> 147 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 147 acactctttc cctacacgac gctcttccga tctccaggcg tccctggggt cagagaggac 60 c 61 <210> 148 <211> 63 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 148 gtgactggag ttcagacgtg tgctcttccg atctcttctg ggagaggcgg ggatcatgga 60 agg 63 <210> 149 <211> 71 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 149 acactctttc cctacacgac gctcttccga tctcctagaa aatatcacaa agtctggcga 60 ttagtgagaa c 71 <210> 150 <211> 72 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 150 gtgactggag ttcagacgtg tgctcttccg atctggcatg acctggtcta gaaactagag 60 tgattaattg aa 72 <210> 151 <211> 58 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 151 acactctttc cctacacgac gctcttccga tctgccgcgt cgccggttta agcgcagt 58 <210> 152 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 152 gtgactggag ttcagacgtg tgctcttccg atcttcggaa gggtttgcta gcggcggag 59 <210> 153 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 153 acactctttc cctacacgac gctcttccga tcttcgggcc ctggccgctc accttgggga 60 60 <210> 154 <211> 64 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 154 gtgactggag ttcagacgtg tgctcttccg atctagaagg cagaaggtcc tgcgctgaga 60 gaag 64 <210> 155 <211> 63 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 155 acactctttc cctacacgac gctcttccga tctgcgaagc tgtccaccca gactaaagcg 60 caa 63 <210> 156 <211> 69 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 156 gtgactggag ttcagacgtg tgctcttccg atctaccaaa tgctctctct taagagagtt 60 tgtaagaat 69 <210> 157 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 157 acactctttc cctacacgac gctcttccga tctcggcttc ccgcctgcgt attcccaagt 60 a 61 <210> 158 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 158 gtgactggag ttcagacgtg tgctcttccg atctcccgag gcttagagcc aaaccgagga 60 a 61 <210> 159 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 159 acactctttc cctacacgac gctcttccga tctacgccac gaccagcgtg ctgcgtcacg 60 60 <210> 160 <211> 65 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 160 gtgactggag ttcagacgtg tgctcttccg atctctcaac cttcttcggc cccttcacca 60 gttca 65 <210> 161 <211> 63 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 161 acactctttc cctacacgac gctcttccga tctacttttg agccctttct ttgcacattt 60 ggg 63 <210> 162 <211> 64 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 162 gtgactggag ttcagacgtg tgctcttccg atctactaca gtgacaaaac agtttgctag 60 agac 64 <210> 163 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 163 acactctttc cctacacgac gctcttccga tctcacttcc ggccaactgc ccgctactt 59 <210> 164 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 164 gtgactggag ttcagacgtg tgctcttccg atctgctgct taatgacttc cagagcgatc 60 ca 62 <210> 165 <211> 63 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 165 acactctttc cctacacgac gctcttccga tctatatttt gagcccttgg aggcattctt 60 tgg 63 <210> 166 <211> 66 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 166 gtgactggag ttcagacgtg tgctcttccg atctaccata ggtctcaaag cgctcttaat 60 atacac 66 <210> 167 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 167 acactctttc cctacacgac gctcttccga tctcctgcga tgactcgacc gcgccaccca 60 60 <210> 168 <211> 65 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 168 gtgactggag ttcagacgtg tgctcttccg atctgccgct gttattatga catcactaga 60 aagct 65 <210> 169 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 169 acactctttc cctacacgac gctcttccga tctgaacagc aggctgggat cagcaaccat 60 60 <210> 170 <211> 58 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 170 gtgactggag ttcagacgtg tgctcttccg atcttctcac ccgccgcggc cctgaagg 58 <210> 171 <211> 58 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 171 acactctttc cctacacgac gctcttccga tcttcgggcc gggcattagg ctccatcg 58 <210> 172 <211> 63 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 172 gtgactggag ttcagacgtg tgctcttccg atctttgttc tcagcccatg caaatgagtt 60 cgg 63 <210> 173 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 173 acactctttc cctacacgac gctcttccga tctctgcgcc gggacagcgg tttctccagc 60 60 <210> 174 <211> 63 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 174 gtgactggag ttcagacgtg tgctcttccg atctcttcga gaaagctggt gggagtcggg 60 tct 63 <210> 175 <211> 58 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 175 acactctttc cctacacgac gctcttccga tcttgggaat cacaagactc aagccgcc 58 <210> 176 <211> 58 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 176 gtgactggag ttcagacgtg tgctcttccg atctgggagc tcttggccct ttactctt 58 <210> 177 <211> 65 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 177 acactctttc cctacacgac gctcttccga tctggctcag cgagactgaa ctaaaagtct 60 cacac 65 <210> 178 <211> 64 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 178 gtgactggag ttcagacgtg tgctcttccg atctcgatgt gtagacatag tgaggagagc 60 ctgc 64 <210> 179 <211> 66 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 179 acactctttc cctacacgac gctcttccga tctctggaat tggactttag gaaagctttg 60 aggcct 66 <210> 180 <211> 69 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 180 gtgactggag ttcagacgtg tgctcttccg atctgactcc atgcagtcca aatattctgc 60 aaattctac 69 <210> 181 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 181 acactctttc cctacacgac gctcttccga tctgaggctc cgccccacga ggcccg 56 <210> 182 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 182 gtgactggag ttcagacgtg tgctcttccg atctccgggt cccccagcag agaatcggca 60 60 <210> 183 <211> 67 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 183 acactctttc cctacacgac gctcttccga tctgacttac agcatgggat atgagactta 60 caaatga 67 <210> 184 <211> 64 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 184 gtgactggag ttcagacgtg tgctcttccg atctatatca atgaccccca tcagaaatcc 60 tgac 64 <210> 185 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 185 acactctttc cctacacgac gctcttccga tctgatttcg tcccccaact ggagccctcc 60 aa 62 <210> 186 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 186 gtgactggag ttcagacgtg tgctcttccg atctctgcct ctgcagagca aacatattgg 60 ct 62 <210> 187 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 187 acactctttc cctacacgac gctcttccga tctttagcca gaagccagtt tctcccgctg 60 c 61 <210> 188 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 188 gtgactggag ttcagacgtg tgctcttccg atctcagcgc agcctgcagt gcttaggctg 60 a 61 <210> 189 <211> 68 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 189 acactctttc cctacacgac gctcttccga tctgttgtag ttaggaggac ctatttacac 60 aggcttcc 68 <210> 190 <211> 71 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 190 gtgactggag ttcagacgtg tgctcttccg atctctactt atcctgcctt atgtacttct 60 tgctttactg g 71 <210> 191 <211> 63 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 191 acactctttc cctacacgac gctcttccga tctggatggg agaagggagt gtccgagaaa 60 agg 63 <210> 192 <211> 65 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 192 gtgactggag ttcagacgtg tgctcttccg atcttctcca gtttcatttc ccaccaccag 60 atggc 65 <210> 193 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 193 acactctttc cctacacgac gctcttccga tcttctggtt ccgcgcagcc tgggcggttc 60 a 61 <210> 194 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 194 gtgactggag ttcagacgtg tgctcttccg atcttaccgg gtgctacaca cacagcggcc 60 60 <210> 195 <211> 63 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 195 acactctttc cctacacgac gctcttccga tctttcagaa gctgtgggct cacgggatca 60 agg 63 <210> 196 <211> 64 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 196 gtgactggag ttcagacgtg tgctcttccg atcttgtggg cgagcttgac gcatattctt 60 tgag 64 <210> 197 <211> 67 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 197 acactctttc cctacacgac gctcttccga tctgtggatc aaggagtggt tttgactttc 60 aagtgtt 67 <210> 198 <211> 66 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 198 gtgactggag ttcagacgtg tgctcttccg atctggacat ttgtgattca cgggaggagg 60 ttcaaa 66 <210> 199 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 199 acactctttc cctacacgac gctcttccga tctcggccct ctcctgggta ttgggtgggc 60 t 61 <210> 200 <211> 64 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 200 gtgactggag ttcagacgtg tgctcttccg atctccaagc cctcattcct aggcaggtct 60 caga 64 <210> 201 <211> 64 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 201 acactctttc cctacacgac gctcttccga tctcccaaag cgagatcttc attagatgca 60 gaca 64 <210> 202 <211> 63 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 202 gtgactggag ttcagacgtg tgctcttccg atctgagcaa gcctttgttg aatgagtcat 60 cgg 63 <210> 203 <211> 71 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 203 acactctttc cctacacgac gctcttccga tctgaacaca cctaccaaaa gttcttcatt 60 tctgtggtaa c 71 <210> 204 <211> 66 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 204 gtgactggag ttcagacgtg tgctcttccg atctcagtca agcagtaaaa gcactctgga 60 ggaact 66 <210> 205 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 205 acactctttc cctacacgac gctcttccga tctcctgcaa tccttccgcg ggatctctt 59 <210> 206 <211> 64 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 206 gtgactggag ttcagacgtg tgctcttccg atcttttata aggtccgagt taggggacgg 60 accc 64 <210> 207 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 207 acactctttc cctacacgac gctcttccga tctgctcacc agctaccagc gctgggagac 60 60 <210> 208 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 208 gtgactggag ttcagacgtg tgctcttccg atctccctcc caaagcccag tctccacaga 60 ga 62 <210> 209 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 209 acactctttc cctacacgac gctcttccga tctggccgct ctcaccgacc tctctcagcc 60 60 <210> 210 <211> 64 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 210 gtgactggag ttcagacgtg tgctcttccg atctgttgct aagagacaca gctggagaga 60 gaag 64 <210> 211 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 211 acactctttc cctacacgac gctcttccga tctcggagag aagtactggc tccgcctctt 60 60 <210> 212 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 212 gtgactggag ttcagacgtg tgctcttccg atcttttact ccatatcctc cgccgccccc 60 60 <210> 213 <211> 65 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 213 acactctttc cctacacgac gctcttccga tctagatgct tcattgatcc cccgcccact 60 aactg 65 <210> 214 <211> 64 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 214 gtgactggag ttcagacgtg tgctcttccg atctccggaa ccggtttggg acttgattcc 60 catt 64 <210> 215 <211> 65 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 215 acactctttc cctacacgac gctcttccga tctgtctttg ggtacactac agcgatggct 60 attga 65 <210> 216 <211> 64 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 216 gtgactggag ttcagacgtg tgctcttccg atctgctggt ctggaactcc tgagatcaag 60 caat 64 <210> 217 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 217 acactctttc cctacacgac gctcttccga tctctgtgtt ggtttgctgc acccattaat 60 t 61 <210> 218 <211> 63 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 218 gtgactggag ttcagacgtg tgctcttccg atctgggaag agttggcttg taggttaaag 60 caa 63 <210> 219 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 219 acactctttc cctacacgac gctcttccga tctggcctta atgttcaact ttttaaatta 60 cc 62 <210> 220 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 220 gtgactggag ttcagacgtg tgctcttccg atctttttcc tagacagttg ttatatgttt 60 ac 62 <210> 221 <211> 50 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 221 acactctttc cctacacgac gctcttccga tctaccatcg cccagtgctg 50 <210> 222 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 222 gtgactggag ttcagacgtg tgctcttccg atctggcttg caagaagagg accctc 56 <210> 223 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 223 acactctttc cctacacgac gctcttccga tcttgacgtt ccatgtttct acattc 56 <210> 224 <211> 58 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 224 gtgactggag ttcagacgtg tgctcttccg atctgcatca aaataccact cagccttc 58 <210> 225 <211> 55 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 225 acactctttc cctacacgac gctcttccga tctatcagca aggatatcat tgccc 55 <210> 226 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 226 gtgactggag ttcagacgtg tgctcttccg atctttccag gtcacattca gctgtc 56 <210> 227 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 227 acactctttc cctacacgac gctcttccga tctccagctg gaggtgattg ag 52 <210> 228 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 228 gtgactggag ttcagacgtg tgctcttccg atctctgcta acactagagt tggagag 57 <210> 229 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 229 acactctttc cctacacgac gctcttccga tcttgattga gaatgtggct tcgctct 57 <210> 230 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 230 gtgactggag ttcagacgtg tgctcttccg atctacctga gctacaccaa ccc 53 <210> 231 <211> 55 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 231 acactctttc cctacacgac gctcttccga tcttggggga tttgatgctc caatg 55 <210> 232 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 232 gtgactggag ttcagacgtg tgctcttccg atctgcttcc ctattctctc attccgc 57 <210> 233 <211> 55 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 233 acactctttc cctacacgac gctcttccga tctcactcac cccatcttcc ctttc 55 <210> 234 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 234 gtgactggag ttcagacgtg tgctcttccg atcttgagat ccaggaggta gtggca 56 <210> 235 <211> 49 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 235 acactctttc cctacacgac gctcttccga tctggagggc ctggccttc 49 <210> 236 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 236 gtgactggag ttcagacgtg tgctcttccg atctggtttc tagggccatt gtcagg 56 <210> 237 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 237 acactctttc cctacacgac gctcttccga tcttttacct ccgctgaacc tagagc 56 <210> 238 <211> 50 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 238 gtgactggag ttcagacgtg tgctcttccg atctcccaca tcctccgccc 50 <210> 239 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 239 acactctttc cctacacgac gctcttccga tcttctcgtg aacatggtgc tgc 53 <210> 240 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 240 gtgactggag ttcagacgtg tgctcttccg atctgaggtg gatggccatc tg 52 <210> 241 <211> 55 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 241 acactctttc cctacacgac gctcttccga tctctgagca cctggaccac tttac 55 <210> 242 <211> 49 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 242 gtgactggag ttcagacgtg tgctcttccg atctggggcg ctgagtcgc 49 <210> 243 <211> 55 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 243 acactctttc cctacacgac gctcttccga tctgccagca tcctcatcag caatg 55 <210> 244 <211> 55 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 244 gtgactggag ttcagacgtg tgctcttccg atctgctcct tactctgtac gcagg 55 <210> 245 <211> 55 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 245 acactctttc cctacacgac gctcttccga tctcctggac aggaaatgtg tcatg 55 <210> 246 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 246 gtgactggag ttcagacgtg tgctcttccg atcttggcta cctcaccctc tcc 53 <210> 247 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 247 acactctttc cctacacgac gctcttccga tctctctgca gacacgtcaa gttcttgag 59 <210> 248 <211> 63 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 248 gtgactggag ttcagacgtg tgctcttccg atcttatcag cttttgccaa gatatgctag 60 aat 63 <210> 249 <211> 54 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 249 acactctttc cctacacgac gctcttccga tctggttcat cagggcagcc ttgc 54 <210> 250 <211> 58 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 250 gtgactggag ttcagacgtg tgctcttccg atctttccta aaactgagcc aggagcgg 58 <210> 251 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 251 acactctttc cctacacgac gctcttccga tctcactcct cagagcacct ttgacat 57 <210> 252 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 252 gtgactggag ttcagacgtg tgctcttccg atctccttct ccacctgctc cttccac 57 <210> 253 <211> 69 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 253 acactctttc cctacacgac gctcttccga tcttagagat ttctagtttg caaaatgtat 60 acaggatcc 69 <210> 254 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 254 gtgactggag ttcagacgtg tgctcttccg atctccagtt caccctctca cactcttac 59 <210> 255 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 255 acactctttc cctacacgac gctcttccga tctttcctgg atgaaaagtg agaagagctg 60 t 61 <210> 256 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 256 gtgactggag ttcagacgtg tgctcttccg atctctcctg cagctgcaga acaaatcaa 59 <210> 257 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 257 acactctttc cctacacgac gctcttccga tcttgctcgc cagaaactac atcctcatg 59 <210> 258 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 258 gtgactggag ttcagacgtg tgctcttccg atcttgacga ggcgttgcca gatgaga 57 <210> 259 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 259 acactctttc cctacacgac gctcttccga tctggcctca gtgtactggg ttgttgt 57 <210> 260 <211> 64 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 260 gtgactggag ttcagacgtg tgctcttccg atctgattag cacagaacag tccaactttg 60 aagc 64 <210> 261 <211> 58 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 261 acactctttc cctacacgac gctcttccga tcttctctgg gtggctctga aaagagcc 58 <210> 262 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 262 gtgactggag ttcagacgtg tgctcttccg atcttggcga agagccctaa gaaggc 56 <210> 263 <211> 63 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 263 acactctttc cctacacgac gctcttccga tctggacagt acttgaatgg gaagacagta 60 act 63 <210> 264 <211> 63 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 264 gtgactggag ttcagacgtg tgctcttccg atcttaatgt gttgttgtaa tgcagttgga 60 cag 63 <210> 265 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 265 acactctttc cctacacgac gctcttccga tctcttgggc cttgagaata gcagctt 57 <210> 266 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 266 gtgactggag ttcagacgtg tgctcttccg atctgctggt gctgttgacc gttaacttat 60 ta 62 <210> 267 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 267 acactctttc cctacacgac gctcttccga tcttccagct tctgctctca gacaagaag 59 <210> 268 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 268 gtgactggag ttcagacgtg tgctcttccg atctgactct gaacctgtcc atttgtccca 60 c 61 <210> 269 <211> 54 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 269 acactctttc cctacacgac gctcttccga tctctctgat gctgggccct gtcc 54 <210> 270 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 270 gtgactggag ttcagacgtg tgctcttccg atctaagcag ccactgtggc ttacct 56 <210> 271 <211> 55 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 271 acactctttc cctacacgac gctcttccga tctactaacc tgacctcgcc ggttt 55 <210> 272 <211> 58 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 272 gtgactggag ttcagacgtg tgctcttccg atctcatcag ctacctaaca gctgccag 58 <210> 273 <211> 55 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 273 acactctttc cctacacgac gctcttccga tctgccaagt caggccaagg tccaa 55 <210> 274 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 274 gtgactggag ttcagacgtg tgctcttccg atctgtgtct ccacagaggc atcatggag 59 <210> 275 <211> 58 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 275 acactctttc cctacacgac gctcttccga tctgttgcca ggcgatgggg aggaggcg 58 <210> 276 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 276 gtgactggag ttcagacgtg tgctcttccg atctcgagag acggaggcgg tcgctctcac 60 60 <210> 277 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 277 acactctttc cctacacgac gctcttccga tctgctggag caaccagtca gggaacggcc 60 t 61 <210> 278 <211> 64 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 278 gtgactggag ttcagacgtg tgctcttccg atctcggcac tcccagtaat tcaattagtc 60 aggt 64 <210> 279 <211> 50 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 279 acactctttc cctacacgac gctcttccga tctcccagtg gtggctgaag 50 <210> 280 <211> 51 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 280 gtgactggag ttcagacgtg tgctcttccg atctctcccc acagtgtccc c 51 <210> 281 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 281 acactctttc cctacacgac gctcttccga tctatccctt tgttgcaggt ttg 53 <210> 282 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 282 gtgactggag ttcagacgtg tgctcttccg atctgtactt tgctggtttt acactt 56 <210> 283 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 283 acactctttc cctacacgac gctcttccga tctaggtgac gcagattcct gca 53 <210> 284 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 284 gtgactggag ttcagacgtg tgctcttccg atctgtttgc tctctctgac ttgactg 57 <210> 285 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 285 acactctttc cctacacgac gctcttccga tctccaagat catgactgag agattgt 57 <210> 286 <211> 58 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 286 gtgactggag ttcagacgtg tgctcttccg atcttgcata actctggaca cactttgg 58 <210> 287 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 287 acactctttc cctacacgac gctcttccga tctcgacaaa ctcactgtgc ctgatg 56 <210> 288 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 288 gtgactggag ttcagacgtg tgctcttccg atctaaagga ggctcctatt ggtcac 56 <210> 289 <211> 54 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 289 acactctttc cctacacgac gctcttccga tctccacagc ataagagact gccc 54 <210> 290 <211> 55 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 290 gtgactggag ttcagacgtg tgctcttccg atctaaggta cttctgggaa gcctg 55 <210> 291 <211> 69 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 291 acactctttc cctacacgac gctcttccga tctgggtagc tttcaaatag ctttaactaa 60 actctccag 69 <210> 292 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 292 gtgactggag ttcagacgtg tgctcttccg atctgctatt gcattgaaag cagcaaagg 59 <210> 293 <211> 63 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 293 acactctttc cctacacgac gctcttccga tctttactca ggggaaacct tccaacactc 60 aac 63 <210> 294 <211> 66 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 294 gtgactggag ttcagacgtg tgctcttccg atctggtggc tttccgagcc tgtgtctgtt 60 gcactt 66 <210> 295 <211> 65 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 295 acactctttc cctacacgac gctcttccga tctaacgatt tctgttcctt gttgatgacc 60 ttggc 65 <210> 296 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 296 gtgactggag ttcagacgtg tgctcttccg atctgatcgg tatgggaggg aaaggtgggc 60 60 <210> 297 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 297 acactctttc cctacacgac gctcttccga tctggggctt ggactctttc tcatgcgtca 60 60 <210> 298 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 298 gtgactggag ttcagacgtg tgctcttccg atctattggc aggaggagga tttgagtccg 60 c 61 <210> 299 <211> 63 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 299 acactctttc cctacacgac gctcttccga tctgaggaag agccactgct ctaattcggt 60 gcc 63 <210> 300 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 300 gtgactggag ttcagacgtg tgctcttccg atctccggaa agaccggcta tcctaagaga 60 aa 62 <210> 301 <211> 63 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 301 acactctttc cctacacgac gctcttccga tctccagcct cagcaaggat gacttccggc 60 tat 63 <210> 302 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 302 gtgactggag ttcagacgtg tgctcttccg atctctcggg cgtttgcgca cctcactagt 60 c 61 <210> 303 <211> 67 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 303 acactctttc cctacacgac gctcttccga tcttcattac tttctcccag cccctaactc 60 cttctgg 67 <210> 304 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 304 gtgactggag ttcagacgtg tgctcttccg atctagagcg tccaatcgga gaccttcggg 60 c 61 <210> 305 <211> 65 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 305 acactctttc cctacacgac gctcttccga tctgagacca ctgtgaagcg ttcttgatat 60 tccct 65 <210> 306 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 306 gtgactggag ttcagacgtg tgctcttccg atcttttccc tccccaccca gtctcggggc 60 60 <210> 307 <211> 69 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 307 acactctttc cctacacgac gctcttccga tctggtagac agaagcaatc tcagaaactg 60 ctttgtgat 69 <210> 308 <211> 74 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 308 gtgactggag ttcagacgtg tgctcttccg atctgtctct gagaattctt ctgtctgggt 60 ttataggaag aaat 74 <210> 309 <211> 63 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 309 acactctttc cctacacgac gctcttccga tctttcactt attggcctcc ccaaaccaac 60 atg 63 <210> 310 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 310 gtgactggag ttcagacgtg tgctcttccg atctggctac actgtaggac gctgccattg 60 gg 62 <210> 311 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 311 acactctttc cctacacgac gctcttccga tcttgctcac cctgggaact tcgctctcga 60 g 61 <210> 312 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 312 gtgactggag ttcagacgtg tgctcttccg atctgccacc tccgctgtac gcaaacacgc 60 a 61 <210> 313 <211> 69 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 313 acactctttc cctacacgac gctcttccga tctagccctc agtaagttgc aatacttaat 60 ttctgcaac 69 <210> 314 <211> 64 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 314 gtgactggag ttcagacgtg tgctcttccg atctgcggga gaagtagatt gaagccagtt 60 gatt 64 <210> 315 <211> 50 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 315 acactctttc cctacacgac gctcttccga tcttcctgcc cccagaccca 50 <210> 316 <211> 50 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 316 gtgactggag ttcagacgtg tgctcttccg atctgggccc cagactcctc 50 <210> 317 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 317 acactctttc cctacacgac gctcttccga tctggcccct cagtgagtgt gg 52 <210> 318 <211> 51 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 318 gtgactggag ttcagacgtg tgctcttccg atctttccag cctggccctg a 51 <210> 319 <211> 48 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 319 acactctttc cctacacgac gctcttccga tctcaccggc agcccctg 48 <210> 320 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 320 gtgactggag ttcagacgtg tgctcttccg atctctgcct accttgggca cc 52 <210> 321 <211> 55 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 321 acactctttc cctacacgac gctcttccga tctgccaaat attgtcaggc tgagc 55 <210> 322 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 322 gtgactggag ttcagacgtg tgctcttccg atctccttct ccccttattc ctcacc 56 <210> 323 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 323 acactctttc cctacacgac gctcttccga tctgccaatt tcccttcttt ctcccc 56 <210> 324 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 324 gtgactggag ttcagacgtg tgctcttccg atctctccaa ttctgaaaat tccttcagtg 60 60 <210> 325 <211> 51 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 325 acactctttc cctacacgac gctcttccga tctgctggtc ctcggccatg g 51 <210> 326 <211> 51 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 326 gtgactggag ttcagacgtg tgctcttccg atctgtggga tggcggagcc a 51 <210> 327 <211> 59 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 327 acactctttc cctacacgac gctcttccga tctccttgac acaaatcact cagcatcct 59 <210> 328 <211> 55 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 328 gtgactggag ttcagacgtg tgctcttccg atctatgcca cactccttcg ccaac 55 <210> 329 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 329 acactctttc cctacacgac gctcttccga tctgatccac ggcgaaccca cag 53 <210> 330 <211> 55 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 330 gtgactggag ttcagacgtg tgctcttccg atcttcaggg gcccactgta tgcca 55 <210> 331 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> Forward Primer <400> 331 acactctttc cctacacgac gctcttccga tcttcagact ggagcccact gatggc 56 <210> 332 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> Reverse Primer <400> 332 gtgactggag ttcagacgtg tgctcttccg atctagtctg tgctgactca gccacc 56

Claims

RNA-가이드 뉴클레아제의 활성 데이터를 입력받는 정보 입력부;
상기 정보 입력부에서 입력 받은 데이터를 이용하여 활성 예측 모델을 생성하는 활성 예측 모델 생성부;
RNA-가이드 뉴클레아제의 후보 표적 서열을 입력받는 후보 서열 입력부;
상기 후보 서열 입력부에 입력된 후보 표적 서열을 상기 활성 예측 모델 생성부에서 생성된 활성 예측 모델에 적용하여 RNA-가이드 뉴클레아제의 활성을 예측하는 활성 예측부;
상기 후보 표적 서열의 염색질 접근성 정보 입력부; 및
상기 입력된 염색질 접근성 정보를 이용하여 상기 활성 예측부에서 예측된 RNA-가이드 뉴클레아제의 활성을 최적화(fine-tuning)하는 미세 조정부를 포함하는 RNA-가이드 뉴클레아제의 활성 예측 시스템으로서,
상기 활성 예측 모델 생성부는 컨볼루션 신경망(convolutional neural network, CNN)을 기반으로 하여 표적 서열과 인델 빈도 간의 관계를 학습하는 딥-러닝을 수행하는 것인,
RNA-가이드 뉴클레아제의 활성 예측 시스템.
제1항에 있어서,
상기 RNA-가이드 뉴클레아제의 활성 데이터는 RNA-가이드 뉴클레아제에 의한 표적 서열에서의 인델 빈도로 나타내지는 것인,
RNA-가이드 뉴클레아제의 활성 예측 시스템.
제2항에 있어서,
상기 RNA-가이드 뉴클레아제의 활성 데이터는
(a) 가이드 RNA를 코딩하는 염기서열 및 상기 가이드 RNA가 목적하는 표적 염기서열을 포함하는 올리고뉴클레오티드를 포함하는 세포 라이브러리에 RNA-가이드 뉴클레아제를 도입하는 단계;
(b) 상기 RNA-가이드 뉴클레아제가 도입된 세포 라이브러리로부터 수득한 DNA를 이용하여 딥 시퀀싱을 수행하는 단계; 및
(c) 상기 딥 시퀀싱으로 수득한 데이터로부터 각 표적 서열의 인델 빈도를 검출하는 단계를 통해 수득된 것인,
RNA-가이드 뉴클레아제의 활성 예측 시스템.
삭제
제1항에 있어서,
상기 활성 예측 모델 생성부는 (a) 표적 서열과 인델 빈도 간의 관계를 추출하는 특징 추출 모듈; 및 (b) 상기 특징 추출 모듈에서 추출된 특징을 조합하는 조합 모듈을 포함하는 것인,
RNA-가이드 뉴클레아제의 활성 예측 시스템.
제1항에 있어서,
상기 활성 예측부는 RNA-가이드 뉴클레아제에 의한 후보 표적 서열의 인델 빈도를 예측하는 것인,
RNA-가이드 뉴클레아제의 활성 예측 시스템.
삭제
제1항에 있어서,
상기 RNA-가이드 뉴클레아제의 활성 예측 시스템은
활성 예측부에서 예측된 RNA-가이드 뉴클레아제의 활성을 출력하는 출력부를 추가로 포함하는 것인,
RNA-가이드 뉴클레아제의 활성 예측 시스템.
제1항에 있어서,
상기 RNA-가이드 뉴클레아제는 Cpf1 단백질인 것인,
RNA-가이드 뉴클레아제의 활성 예측 시스템.
제9항에 있어서,
상기 Cpf1 단백질은 캔디다투스 파세이박터 (Candidatus Paceibacter), 라치노스피라 (Lachnospira) 속, 뷰티리비브리오 (Butyrivibrio) 속, 페레그리니박테리아 (Peregrinibacteria), 액시다미노코쿠스 (Acidaminococcus) 속, 포르파이로모나스 (Porphyromonas) 속, 프레보텔라 (Prevotella) 속, 프란시셀라 (Francisella) 속, 캔디다투스 메타노플라스마 (Candidatus Methanoplasma), 및 유박테리움 (Eubacterium) 속으로 이루어진 군에서 선택되는 하나 이상의 유래인 것인, RNA-가이드 뉴클레아제의 활성 예측 시스템.
제1항에 있어서,
상기 후보 표적 서열은 34개 내지 50개의 뉴클레오티드로 구성된 것인,
RNA-가이드 뉴클레아제의 활성 예측 시스템.
제11항에 있어서,
상기 후보 표적 서열은 PAM, 및 프로토스페이서 서열을 포함하는 것인,
RNA-가이드 뉴클레아제의 활성 예측 시스템.
제1항에 있어서,
상기 RNA-가이드 뉴클레아제의 활성 예측 시스템은 RNA-가이드 뉴클레아제의 활성 데이터가 저장된 데이터베이스를 추가로 포함하는 것으로서,
상기 정보 입력부는 상기 데이터베이스로부터 RNA-가이드 뉴클레아제의 활성 데이터를 입력받는 것인,
RNA-가이드 뉴클레아제의 활성 예측 시스템.
(a) 표적 서열에서의 RNA-가이드 뉴클레아제의 활성 데이터를 수득하여 활성 데이터 세트를 수득하는 단계;
(b) 상기 활성 데이터 세트를 이용하여 컨볼루션 신경망 (convolutional neural network, CNN) 기반 딥 러닝을 수행하여 RNA-가이드 뉴클레아제의 활성 예측 시스템을 구축하는 단계; 및
(c) 표적 서열의 염색질 접근성을 이용하여 상기 구축된 예측 시스템을 조정하는 단계를 포함하는 RNA-가이드 뉴클레아제의 활성 예측 시스템을 구축하는 방법.
제14항에 있어서,
상기 활성 데이터를 수득하는 단계는
(1) 가이드 RNA를 코딩하는 염기서열 및 상기 가이드 RNA가 목적하는 표적 염기서열을 포함하는 올리고뉴클레오티드를 포함하는 세포 라이브러리에 RNA-가이드 뉴클레아제를 도입하는 단계;
(2) 상기 RNA-가이드 뉴클레아제가 도입된 세포 라이브러리로부터 수득한 DNA를 이용하여 딥 시퀀싱을 수행하는 단계; 및
(3) 상기 딥 시퀀싱으로 수득한 데이터로부터 각 표적 서열의 인델 빈도를 검출하는 단계를 포함하는 것인,
RNA-가이드 뉴클레아제의 활성 예측 시스템을 구축하는 방법.
제15항에 있어서,
상기 올리고뉴클레오티드는 가이드 RNA 암호화 서열, 바코드 서열, 및 표적 염기서열을 포함하는 것인,
RNA-가이드 뉴클레아제의 활성 예측 시스템을 구축하는 방법.
제15항에 있어서,
상기 가이드 RNA는 crRNA (CRISPR RNA)를 포함하는 것인,
RNA-가이드 뉴클레아제의 활성 예측 시스템을 구축하는 방법.
제14항에 있어서,
상기 (b) 단계 이후, (c) 중첩 교차 유효성 검사 (nested cross-validation, CV)를 통해 구축된 예측 시스템을 검증하는 단계를 추가로 포함하는,
RNA-가이드 뉴클레아제의 활성 예측 시스템을 구축하는 방법.
삭제
제14항에 있어서,
상기 염색질 접근성은 표적 서열의 DNase I에 대한 민감성으로부터 계산되는 것인,
RNA-가이드 뉴클레아제의 활성 예측 시스템을 구축하는 방법.
RNA-가이드 뉴클레아제의 후보 표적 서열을 설계하는 단계; 및
상기 설계된 RNA-가이드 뉴클레아제의 후보 표적 서열을 제1항 내지 제3항, 제5항 내지 제6항, 및 제8항 내지 제13항 중 어느 한 항의 활성 예측 시스템에 적용하여 RNA-가이드 뉴클레아제의 활성을 예측하는 단계를 포함하는,
RNA-가이드 뉴클레아제의 활성 예측 방법.
삭제
삭제
삭제
삭제
제21항에 따른 방법을 컴퓨터로 실행하기 위한 프로그램이 기록된 컴퓨터 판독가능 기록매체.