KR102026421B1

KR102026421B1 - 시토신 디아미나제에 의한 dna에서의 염기 교정 확인 방법

Info

Publication number: KR102026421B1
Application number: KR1020170117407A
Authority: KR
Inventors: 김대식
Original assignee: 주식회사 툴젠; 서울대학교산학협력단
Priority date: 2016-09-13
Filing date: 2017-09-13
Publication date: 2019-09-27
Also published as: US20200131536A1; JP2019526271A; US11920151B2; EP3530737A4; KR20180029937A; WO2018052247A1; EP3530737A1

Abstract

(1) 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제 (2) 가이드 RNA, 및 (3) 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)을 포함하는, DNA 이중 가닥 절단 (double strand breaks; DSBs)용 조성물, 이를 이용한 시토신 디아미나제에 의한 DNA 이중 가닥 절단 (double strand break) 생성 방법, 시토신 디아미나제에 의하여 염기 교정 (base editing)이 도입된 DNA의 핵산 서열 분석 방법, 및 시토신 디아미나제의 염기 교정 위치, on-target 부위에서의 염기 교정 효율, 비표적 위치 (off-target site), 및/또는 표적 특이성을 확인 (또는 측정 또는 검출)하는 방법이 제공된다.

Description

시토신 디아미나제에 의한 DNA에서의 염기 교정 확인 방법{Method of identifying base editing by cytosine deaminase in DNA}

(1) 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제 (2) 가이드 RNA, 및 (3) 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)을 포함하는, DNA 이중 가닥 절단 (double strand breaks; DSBs)용 조성물, 이를 이용한 시토신 디아미나제에 의한 DNA 이중 가닥 절단 (double strand break) 생성 방법, 시토신 디아미나제에 의하여 염기 교정 (base editing)이 도입된 DNA의 핵산 서열 분석 방법, 및 시토신 디아미나제의 염기 교정 위치, on-target 부위에서의 염기 교정 효율, 비표적 위치 (off-target site), 및/또는 표적 특이성을 확인 (또는 측정 또는 검출)하는 방법과 관련된 것이다.

Cas9-연결된 디아미나제 (Cas9-linked deaminase)는 유전적 장애를 유발하는 점 돌연변이를 교정하거나 인간 및 다른 진핵 세포에 목적하는 단일 뉴클레오타이드 변이를 도입하도록 표적화된 방식(targeted manner)으로 단일 뉴클레오타이드 전환을 가능하게 한다. 그러나, 이러한 RNA-programmable 디아미나제의 유전체 전반(genome-wide)에 걸친 표적 특이성은 아직 많이 알려져 있지 않다.

Programmable 디아미나제는 다음의 4 종류가 보고되어 있다:

1) S. pyogenes에서 유래하는 촉매적으로 결핍된 Cas9 (catalytically-deficient Cas9; dCas9) 또는 D10A Cas9 니케이즈 (nCas9)와, 래트의 시티딘 디아미나아제인 rAPOBEC1를 포함하는 베이스 에디터 (Base Editors; BEs); 2) dCas9 또는 nCas9와, 바다칠성장어(sea lamprey)의 activation-induced cytidine deaminase (AID) ortholog인 PmCDA1 또는 인간 AID를 포함하는 Target-AID; 3) MS2-결합 단백질에 융합된 과활성화된 AID 변이체를 모집하기 위해 MS2 RNA 헤어핀에 연결된 sgRNAs와 dCas9를 포함하는 CRISPR-X; 및 4) 징크-핑거 단백질 또는 transcription activator-like effectors (TALEs)가 시티딘 디아미나제에 융합 된 것.

DNA 결합 모듈과 시티딘 디아미나제 (cytidine deaminase)로 구성된 programmable 디아미나제는 DNA 이중 가닥 절단 (DSBs)을 생성하지 않고 유전체에서 표적화된 뉴클레오타이드 치환 또는 염기 교정(base editing)을 가능하게 한다. 표적 부위에 작은 삽입 또는 결실(indels)을 유도하는 CRISPR-Cas9 및 ZFNs와 같은 programmable 뉴클레아제와 달리, programmable 디아미나제는, 표적 부위에서의 수 개의 뉴클레오타이드 (window of several nucleotides) 내에서, C를 T(U)로 (또는 보다 낮은 빈도로, C를 G 또는 A로 변환) 변환시킨다. programmable 디아미나제는 인간의 세포, 동물 및 식물에서 유전 질환을 유발하는 점 돌연변이를 교정하거나 단일 염기 다형성 (SNP)을 생성할 수 있다.

programmable 디아미나제에 의한 염기 교정(base editing)에 대한 광범위한 관심에도 불구하고, programmable 디아미나제의 유전체 전체에 대한 표적 특이성을 분석할 수 있는 수단이 개발된 바가 없다. 따라서, programmable 디아미나제의 유전체 전체에 대한 표적 특이성을 분석하여, programmable 디아미나제의 염기 교정 효율, 비표적 사이트 (off-target site), 비표적 효과(off-target effect) 등을 분석할 수 있는 수단의 개발이 필요하다.

본 명세서에서는 programmable 디아미나제의 유전체 전체에 대한 표적 특이성을 분석할 수 있는 수단, 및 이를 통하여 programmable 디아미나제의 염기 교정 효율, 비표적 사이트, 비표적 효과 등을 분석할 수 있는 수단이 제공된다.

일 예는 (1) 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제, 또는 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자, 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자를 포함하는 플라스미드, (2) 가이드 RNA, 및 (3) 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)을 포함하는, DNA 이중 가닥 절단 (double strand breaks; DSBs)용 조성물을 제공한다.

다른 예는,

(i) (a) 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제, 또는 (b) 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자, 또는 (c) 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자를 포함하는 플라스미드를 가이드 RNA와 함께 세포에 도입하거나 세포로부터 분리된 DNA에 접촉시키는 단계; 및

(ii) 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)을 처리하는 단계

를 포함하는, DNA 이중 가닥 절단 (double strand break) 생성 방법을 제공한다.

다른 예는,

(i) (a) 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제, 또는 (b) 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자, 또는 (c) 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자를 포함하는 플라스미드를 가이드 RNA와 함께 세포에 도입하거나 세포로부터 분리된 DNA에 접촉시키는 단계;

(ii) 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)을 처리하여 DNA에 이중 가닥 절단을 생성하는 단계; 및

(iii) 상기 절단된 DNA 절편의 핵산 서열을 분석하는 단계

를 포함하는, 상기 시토신 디아미나제에 의하여 염기 교정 (base editing)이 도입된 DNA의 핵산 서열 분석 방법을 제공한다.

다른 예는,

(ii) 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)을 처리하여 DNA에 이중 가닥 절단을 생성하는 단계;

(iii) 상기 절단된 DNA 절편의 핵산 서열을 분석하는 단계; 및

(iv) 상기 분석에 의여 수득된 핵산 서열 데이터(sequence read)에서 상기 이중 가닥 절단 위치를 확인하는 단계

를 포함하는, 시토신 디아미나제의 염기 교정 위치, on-target 부위에서의 염기 교정 효율, 비표적 위치 (off-target site), 및/또는 표적 특이성을 확인 (또는 측정 또는 검출)하는 방법을 제공한다.

본 명세서에서는 Digenome-seq를 수정하여 인간 유전체에서 Cas9 니케이즈(nickase)와 디아미나제 (deaminase)로 구성된 베이스 에디터 (예컨대, Base Editor 3; BE3)의 특이성을 평가하였다. 유전체 DNA를 DNA 변형 효소(DNA-modifying enzymes)의 혼합물 및 BE3으로 시험관내에서 처리하여 우라실 함유 부위에서 DNA 이중 가닥 절단 (DNA double-strand breaks; DSBs)를 생성하는 것을 확인하였다. 본 명세서에서 제공되는 디아미나제를 이용한 DNA 이중 가닥 절단 방법 및 이를 이용한 핵산 서열 분석 방법에 의하여, BE3 비표적 사이트를 전체 유전체 시퀀싱 데이터를 사용하여 계산적으로 확인할 수 있다. 또한, 상기 방법에 의하여, BE3는 고도로 특이적이며, 인간 유전체에서 단지 18±9 위치에서만 시토신-우라실 전환을 유도함을 확인할 수 있다. 한편, 본 명세서에서 제공되는 Digenome-seq(digested-genome sequencing) 방법에 의한 디아미나제를 이용한 DNA 이중 가닥 절단 방법 및 이를 이용한 핵산 서열 분석 방법은 0.1%의 치환 빈도로 BE3 비표적 사이트를 포착하기에 충분히 민감하다. 그 결과, BE3 및 Cas9의 비표적 부위는 많은 경우에 상이하여, 유전체 전반적인 특이성에 대한 독립적인 평가가 필요함을 알 수 있다.

우선, DNA에 이중 가닥 절단을 유발하지 않는 시토신 디아미나제를 이용하여 DNA에 이중 가닥 절단을 생성하는 기술이 제공된다.

일 예는 (1) 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제, 또는 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자, 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자를 포함하는 플라스미드, (2) 가이드 RNA, 및 (3) 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)을 포함하는, DNA 이중 가닥 절단 (double strand breaks; DSBs)용 조성물을 제공한다. 상기 조성물은 시토신 디아미나제를 사용하여 DNA 이중 가닥 절단을 유도하는데 사용될 수 있다.

상기 시토신 디아미나제는 뉴클레오타이드에 존재하는 염기인 시토신 (예컨대, 2중 가닥 DNA 또는 RNA에 존재하는 시토신)을 우라실로 변환 (C-to-U conversion or C-to-U editing)시키는 활성을 갖는 모든 효소를 의미하는 것으로, 표적 부위의 서열 (표적 서열)의 PAM 서열이 존재하는 가닥에 위치하는 시토신을 우라실로 변환시킨다. 일 예에서, 상기 시토신 디아미나제는 인간, 원숭이 등의 영장류, 래트, 마우스 등의 설치류 등과 같은 포유류로부터 유래된 것일 수 있으나, 이에 제한되는 것은 아니다. 예컨대, 상기 시토신 디아미나제는 APOBEC　("apolipoprotein B mRNA editing enzyme, catalytic polypeptide-like") 패밀리에 속하는 효소들 중에서 1종 이상 선택될 수 있으며, 예컨대, 다음으로 이루어진 군에서 1종 이상 선택될 수 있으나, 이에 제한되는 것은 아니다:

APOBEC1: 인간 (Homo sapiens) APOBEC1 (단백질: GenBank Accession Nos. NP_001291495.1, NP_001635.2, NP_005880.2 등; 유전자 (앞에 기재된 단백질 순서대로 이를 암호화 하는 유전자를 기재함): GenBank Accession Nos. NM_001304566.1, NM_001644.4, NM_005889.3 등), 마우스 (Mus musculus) APOBEC1 (단백질: GenBank Accession Nos. NP_001127863.1, NP_112436.1 등; 유전자 (앞에 기재된 단백질 순서대로 이를 암호화 하는 유전자를 기재함): GenBank Accession Nos. NM_001134391.1, NM_031159.3 등);

APOBEC2: 인간 APOBEC2 (단백질: GenBank Accession No. NP_006780.1 등; 유전자: GenBank Accession No. NM_006789.3 등), 마우스 APOBEC2 (단백질: GenBank Accession No. NP_033824.1 등; 유전자: GenBank Accession No. NM_009694.3 등);

APOBEC3B: 인간 APOBEC3B (단백질: GenBank Accession Nos. NP_001257340.1, NP_004891.4 등; 유전자 (mRNA or cDNA, 이하 동일) (앞에 기재된 단백질 순서대로 이를 암호화 하는 유전자를 기재함): GenBank Accession Nos. NM_001270411.1, NM_004900.4 등), 마우스 (Mus musculus) APOBEC3B (단백질: GenBank Accession Nos. NP_001153887.1, NP_001333970.1, NP_084531.1 등; 유전자 (앞에 기재된 단백질 순서대로 이를 암호화 하는 유전자를 기재함): GenBank Accession Nos. NM_001160415.1, NM_001347041.1, NM_030255.3 등);

APOBEC3C: 인간 APOBEC3C (단백질: GenBank Accession No. NP_055323.2 등; 유전자: GenBank Accession No. NM_014508.2 등);

APOBEC3D (including APOBEC3E): 인간 APOBEC3D (단백질: GenBank Accession No. NP_689639.2 등; 유전자: GenBank Accession No. NM_152426.3 등);

APOBEC3F: 인간 APOBEC3F (단백질: GenBank Accession Nos. NP_660341.2, NP_001006667.1 등; 유전자 (앞에 기재된 단백질 순서대로 이를 암호화 하는 유전자를 기재함): NM_145298.5, NM_001006666.1 등);

APOBEC3G: 인간 APOBEC3G (단백질: GenBank Accession Nos. NP_068594.1, NP_001336365.1, NP_001336366.1, NP_001336367.1 등; 유전자 (앞에 기재된 단백질 순서대로 이를 암호화 하는 유전자를 기재함): NM_021822.3, NM_001349436.1, NM_001349437.1, NM_001349438.1 등);

APOBEC3H: 인간 APOBEC3H (단백질: GenBank Accession Nos. NP_001159474.2, NP_001159475.2, NP_001159476.2, NP_861438.3 등; 유전자 (앞에 기재된 단백질 순서대로 이를 암호화 하는 유전자를 기재함): NM_001166002.2, NM_001166003.2, NM_001166004.2, NM_181773.4 등);

APOBEC4 (including APOBEC3E): 인간 APOBEC4 (단백질: GenBank Accession No. NP_982279.1 등; 유전자: GenBank Accession No. NM_203454.2 등); 마우스 APOBEC4 (단백질: GenBank Accession No. NP_001074666.1 등; 유전자: GenBank Accession No. NM_001081197.1 등); 및

Activation-induced cytidine deaminase (AICDA　또는 AID): 인간 AID (단백질: GenBank Accession Nos. NP_001317272.1, NP_065712.1 등; 유전자 (앞에 기재된 단백질 순서대로 이를 암호화 하는 유전자를 기재함): GenBank Accession Nos. NM_001330343.1, NM_020661.3 등); 마우스 AID (단백질: GenBank Accession No. NP_033775.1 등; 유전자: GenBank Accession No. NM_009645.2 등) 등.

본 명세서에 사용된 바로서, 표적 특이적 뉴클레아제는, 유전자 가위 (programmable nuclease)라고도 불리며, 목적하는 유전체 DNA 상의 특정 위치를 인식하여 절단할 수 있는 모든 형태의 엔도뉴클레아제를 통칭한다.

예컨대, 상기 표적 특이적 뉴클레아제는 표적 유전자의 특정 서열을 인식하고 뉴클레오티드 절단 활성을 가져 표적 유전자에서 인델 (insertion and/or deletion, Indel)을 야기할 수 있는 모든 뉴클레아제에서 선택된 1종 이상일 수 있다.

예컨대, 상기 표적 특이적 뉴클레아제는

유전체 상의 특정 표적 서열을 인식하는 도메인인 식물 병원성 유전자에서 유래한 TAL 작동자 (transcription activator-like effector) 도메인과 절단 도메인이 융합된 TALEN (transcription activator-like effector nuclease);

징크-핑거 뉴클레아제 (zinc-finger nuclease);

메가뉴클레아제 (meganuclease);

미생물 면역체계인 CRISPR에서 유래한 RGEN (RNA-guided engineered nuclease; 예컨대, Cas9, Cpf1, 등);

아고 호몰로그 (Ago homolog, DNA-guided endonuclease)

등으로 이루어진 군에서 선택된 1종 이상일 수 있으나, 이에 제한되는 것은 아니다.

일 구체예에서, 상기 표적 특이적 뉴클레아제는 Cas 단백질 (예컨대, Cas9 단백질(CRISPR (Clustered regularly interspaced short palindromic repeats) associated protein 9)), Cpf1 단백질 (CRISPR from Prevotella and Francisella 1) 등과 같은 타입 Ⅱ 및/또는 타입 V의 CRISPR 시스템에 수반되는 엔도뉴클레아제로 이루어진 군에서 선택된 1종 이상일 수 있다. 이 경우, 상기 표적 특이적 뉴클레아제는 유전체 DNA의 표적 부위로 안내하기 위한 표적 DNA 특이적 가이드 RNA를 추가로 포함할 수 있다. 상기 가이드 RNA는 생체 외 (in vitro)에서 전사된(transcribed) 것일 수 있고, 예컨대 올리고뉴클레오티드 이중가닥 또는 플라스미드 주형으로부터 전사된 것일 수 있으나, 이에 제한되지 않는다. 상기 표적 특이적 뉴클레아제는 가이드 RNA에 결합된 리보핵산-단백질 복합체를 형성(RNA-Guided Engineered Nuclease)하여 리보핵산 단백질 (RNP) 형태로 작용할 수 있다.

Cas9 단백질은 CRISPR/Cas 시스템의 주요 단백질 구성 요소로, 활성화된 엔도뉴클레아제 또는 nickase를 형성할 수 있는 단백질이다.

Cas9 단백질 또는 유전자 정보는 NCBI (National Center for Biotechnology Information)의 GenBank와 같은 공지의 데이터 베이스에서 얻을 수 있다. 예컨대, 상기 Cas9 단백질은

스트렙토코커스 sp. (Streptococcus sp.), 예컨대, 스트렙토코커스 피요젠스 (Streptococcus pyogenes) 유래의 Cas9 단백질 (예컨대, SwissProt Accession number Q99ZW2(NP_269215.1) (암호화 유전자: 서열번호 229);

캄필로박터 속, 예컨대, 캄필로박터 제주니 (Campylobacter jejuni) 유래의 Cas9 단백질;

스트렙토코커스 속, 예컨대, 스트렙토코커스 써모필러스 (Streptococcus thermophiles) 또는 스트렙토코커스 아우레우스 (Streptocuccus aureus) 유래의 Cas9 단백질;

네이세리아 메닝기디티스 (Neisseria meningitidis) 유래의 Cas9 단백질;

파스테우렐라 (Pasteurella) 속, 예컨대, 파스테우렐라 물토시다 (Pasteurella multocida) 유래의 Cas9 단백질;

프란시셀라 (Francisella) 속, 예컨대, 프란시셀라 노비시다 (Francisella novicida) 유래의 예컨대 Cas9 단백질

등으로 이루어진 군에서 선택된 하나 이상일 수 있으나, 이에 제한되는 것은 아니다.

Cpf1 단백질은 상기 CRISPR/Cas 시스템과는 구별되는 새로운 CRISPR 시스템의 엔도뉴클레아제로서, Cas9에 비해 상대적으로 크기가 작고 tracrRNA가 필요 없으며, 단일 가이드 RNA에 의해 작용할 수 있다. 또한, 티민 (thymine)이 풍부한 PAM (protospacer-adjacent motif) 서열을 인식하고 DNA의 이중 사슬을 잘라 점착종단 (cohesive end; cohesive double-strand break)을 생성한다.

예컨대, 상기 Cpf1 단백질은 캔디다투스 (Candidatus) 속, 라치노스피라 (Lachnospira) 속, 뷰티리비브리오 (Butyrivibrio) 속, 페레그리니박테리아 (Peregrinibacteria), 액시도미노코쿠스 (Acidominococcus) 속, 포르파이로모나스 (Porphyromonas) 속, 프레보텔라 (Prevotella) 속, 프란시셀라 (Francisella) 속, 캔디다투스 메타노플라스마 (Candidatus Methanoplasma), 또는 유박테리움 (Eubacterium) 속 유래의 것일 수 있고, 예컨대, Parcubacteria bacterium (GWC2011_GWC2_44_17), Lachnospiraceae bacterium (MC2017), Butyrivibrio proteoclasiicus, Peregrinibacteria bacterium (GW2011_GWA_33_10), Acidaminococcus sp. (BV3L6), Porphyromonas macacae, Lachnospiraceae bacterium (ND2006), Porphyromonas crevioricanis, Prevotella disiens, Moraxella bovoculi (237), Smiihella sp. (SC_KO8D17), Leptospira inadai, Lachnospiraceae bacterium (MA2020), Francisella novicida (U112), Candidatus Methanoplasma termitum, Candidatus Paceibacter , Eubacterium eligens 등의 미생물 유래의 것일 수 있으나, 이에 제한되는 것은 아니다 .

상기 표적 특이적 엔도뉴클레아제는 미생물에서 분리된 것 또는 재조합적 방법 또는 합성적 방법 등과 같이 인위적 또는 비자연적 생산된 것(non-naturally occurring)일 수 있다. 일 예에서, 상기 표적 특이적 엔도뉴클레아제 (예컨대, Cas9, Cpf1, 등)은 재조합 DNA에 의하여 만들어진 재조합 단백질일 수 있다. 재조합 DAN(Recombinant DNA; rDNA)는 다양한 유기체로부터 얻어진 이종 또는 동종 유전 물질을 포함하기 위하여 분자 클로닝과 같은 유전자 재조합 방법에 의하여 인공적으로 만들어진 DNA 분자를 의미한다. 예컨대, 재조합 DNA를 적절한 유기체에서 발현시켜 표적 특이적 엔도뉴클레아제를 생산 (in vivo 또는 in vitro)하는 경우, 재조합 DNA는 제조하고자 하는 단백질을 암호화 하는 코돈들 중에서 상기 유기체에 발현하기에 최적화된 코돈을 선택하여 재구성된 뉴클레오타이드 서열을 갖는 것일 수 있다.

상기 불활성화된 표적특이적 엔도뉴클레아제불활성화된 표적특이적 엔도뉴클레아제는 DNA 이중 가닥을 절단하는 엔도뉴클레아제 활성을 상실한 표적특이적 엔도뉴클레아제을 의미하는 것으로, 예컨대, 엔도뉴클레아제 활성을 상실하고 니케이즈 활성을 갖는 불활성화된 표적특이적 엔도뉴클레아제 및 엔도뉴클레아제 활성과 니케이즈 활성을 모두 상실한 불활성화된 표적특이적 엔도뉴클레아제 중에서 선택된 1종 이상일 수 있다. 상기 불활성화된 표적특이적 엔도뉴클레아제가 니케이즈 활성을 갖는 것인 경우, 상기 시토신이 우라실로 변환되는 것과 동시 또는 순서와 무관하게 순차적으로, 시토신이 우라실로 변환된 가닥 또는 그 반대 가닥 (예컨대 반대 가닥)에서 nick이 도입된다 (예컨대, PAM 서열의 5' 말단 방향으로 3번째 뉴클레오타이드와 4번째 뉴클레오타이드 사이에 nick이 도입됨). 이와 같은 표저특이적 엔도뉴클레아제의 변형(돌연변이)는 적어도 촉매 활성을 갖는 아스파르트산 잔기 (catalytic aspartate residue; 예컨대, 스트렙토코커스 피요젠스 유래 Cas9 단백질의 경우 10번째 위치의 아스파르트산 (D10) 잔기 등)가 임의의 다른 아미노산으로 치환된 Cas9의 돌연변이를 포함하는 것일 수 있으며, 상기 다른 아미노산은 알라닌 (alanine)일 수 있지만, 이에 제한되지 않는다.

본 명세서에 사용된 바로서, 상기 '다른 아미노산'은, 알라닌, 이소류신, 류신, 메티오닌, 페닐알라닌, 프롤린, 트립토판, 발린, 아스파라긴산, 시스테인, 글루타민, 글리신, 세린, 트레오닌, 티로신, 아스파르트산, 글루탐산, 아르기닌, 히스티딘, 라이신, 상기 아미노산들의 공지된 모든 변형체 중에서, 야생형 단백질이 원래 변이 위치에 갖는 아미노산을 제외한 아미노산들 중에서 선택된 아미노산을 의미한다.

일 예에서, 상기 불활성화된 표적특이적 엔도뉴클레아제가 변형 Cas9 단백질인 경우, 변형 Cas9 단백질은 스트렙토코커스 피요젠스 (Streptococcus pyogenes) 유래의 Cas9 단백질(예컨대, SwissProt Accession number Q99ZW2(NP_269215.1))에 D10 위치에서의 돌연변이 (예컨대, 다른 아미노산으로의 치환) 가 도입되어 엔도뉴클레아제 활성이 상실되고 니케이즈 활성을 갖는 변형 Cas9, 스트렙토코커스 피요젠스 (Streptococcus pyogenes) 유래의 Cas9 단백질에 D10 위치에서의 돌연변이(예컨대, 다른 아미노산으로의 치환)와 H840 위치에 돌연변이 (예컨대, 다른 아미노산으로의 치환)가 모두 도입되어 엔도뉴클레아제 활성 및 니케이즈 활성을 모두 상실한 변형 Cas9 단백질 등으로 이루어진 군에서 선택된 1종 이상일 수 있다. 예컨대, 상기 CAs9 단백질의 D10 위치에서의 돌연변이는 D10A 돌연변이 (Cas9 단백질의 아미노산 중 10번째 아미노산인 D가 A로 치환된 돌연변이를 의미함; 이하, Cas9에 도입된 돌연변이는 동일한 방법으로 표기됨)일 수 있고, 상기 H840 위치에서의 돌연변이는 H840A 돌연변이일 수 있다.

상기 시토신 디아미나제와 불활성화된 표적특이적 엔도뉴클레아제는 직접 또는 펩타이드 링커를 통하여 서로 융합된 융합 단백질 (예컨대, N-말단에서 C-말단 방향으로 시토신 디아미나제-불활성화된 표적특이적 엔도뉴클레아제 순서로 위치하거나 (즉, 시토신 디아미나제의 C-말단에 불활성화된 표적특이적 엔도뉴클레아제가 융합됨), 불활성화된 표적특이적 엔도뉴클레아제-시토신 디아미나제 순서로 위치가 위치(즉, 불활성화된 표적특이적 엔도뉴클레아제의 C-말단에 시토신 디아미나제가 융합됨)할 수 있음) 형태로 사용(또는 상기 조성물에 포함)되거나 되거나, 정제된 시토신 디아미나제와 불활성화된 표적특이적 엔도뉴클레아제의 혼합물 형태로 사용(또는 상기 조성물에 포함)되거나, 시토신 디아미나제 암호화 유전자와 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자가 모두 포함 (예컨대, 상기 두 유전자는 앞서 설명한 융합 단백질을 암호화하도록 포함됨)된 하나의 플라스미드 형태로 사용(또는 상기 조성물에 포함)되거나, 시토신 디아미나제 암호화 유전자와 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자를 가 각각 별개의 플라스미드에 포함된 시토신 디아미나제 발현 플라스미드와 불활성화된 표적특이적 엔도뉴클레아제 발현 플라스미드의 혼합물 형태로 사용(또는 상기 조성물에 포함)될 수 있다. 일 구체예에서는 N-말단에서 C-말단 방향으로 시토신 디아미나제-불활성화된 표적특이적 엔도뉴클레아제 순서로 위치하는 융합 단백질, 또는 불활성화된 표적특이적 엔도뉴클레아제-시토신 디아미나제 순서로 위치하는 융합 단백질, 또는 상기 융합 단백질을 암호화하도록 시토신 디아미나제 암호화 유전자와 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자가 하나의 플라스미드에 포함된 형태로 사용될 수 있다.

상기 플라스미드는 상기 시토신 디아미나제 암호화 유전자 및/또는 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자를 삽입하고 이를 숙주세포 내에서 발현시킬 수 있는 발현 시스템을 포함하는 모든 플라스미드일 수 있다. 상기 플라스미드는 목적 유전자 발현을 위한 요소 (elements)를 포함하는 것으로, 복제원점 (replication origin), 프로모터, 작동 유전자 (operator), 전사 종결 서열 (terminator) 등을 포함할 수 있고, 숙주 세포의 게놈 내로의 도입을 위한 적절한 효소 부위 (예컨대, 제한 효소 부위) 및/또는 임의로 숙주 세포 내로의 성공적인 도입을 확인하기 위한 선별 마커 및/또는 단백질로의 번역을 위한 리보좀 결합 부위 (ribosome binding site; RBS) 및/또는 전자 조절 인자 등을 추가로 포함할 수 있다. 상기 플라스미드는 당업계에서 사용되는 플라스미드, 예컨대, pcDNA 시리즈, pSC101, pGV1106, pACYC177, ColE1, pKT230, pME290, pBR322, pUC8/9, pUC6, pBD9, pHC79, pIJ61, pLAFR1, pHV14, pGEX 시리즈, pET 시리즈, pUC19 등으로 이루어진 군에서 선택된 1종 이상일 수 있으나, 이에 제한되는 것은 아니다. 상기 숙주세포는 상기 시토신 디아미나제에 의하여 염기 교정 또는 이중 가닥 절단을 도입하고자 하는 세포 (예컨대, 인간 세포 등과 같은 포유류 세포를 포함하는 진핵 세포) 또는 상기 시토신 디아미나제 암호화 유전자 및/또는 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자를 발현하여 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제를 발현할 수 있는 모든 세포 (예컨대, E. coli 등) 들 중에서 선택될 수 있다.

상기 가이드 RNA는 상기 시토신 디아미나제와 불활성화된 표적특이적 엔도뉴클레아제의 혼합물 또는 융합 단백질을 표적 부위로 안내하는 역할을 하는 것으로, CRISPR RNA (crRNA), trans-activating crRNA (tracrRNA), 및 단일 가이드 RNA (single guide RNA; sgRNA)로 이루어진 군에서 선택된 1종 이상일 수 있으며, 구체적으로 crRNA와 tracrRNA가 서로 결합된 이중 가닥 crRNA:tracrRNA 복합체, 또는 crRNA 또는 그 일부와 tracrRNA 또는 그 일부가 올리고뉴클레오타이드 링커로 연결된 단일 가닥 가이드 RNA (sgRNA)일 수 있다.

상기 가이드 RNA의 구체적 서열은 사용된 표적특이적 엔도뉴클레아제 의 종류 또는 그 유래 미생물 등에 따라서 적절히 선택할 수 있으며, 이는 이 발명이 속하는 기술 분야의 통상의 지식을 가진 자가 용이하게 알 수 있는 사항이다.

표적특이적 엔도뉴클레아제로서 Streptococcus pyogenes 유래의 Cas9 단백질을 사용하는 경우, crRNA는 다음의 일반식 1로 표현될 수 있다:

5'-(N_cas9)_l-(GUUUUAGAGCUA)-(X_cas9)_m-3' (일반식 1)

상기 일반식 1에서,

N_cas9는 표적화 서열, 즉 표적 유전자(target gene)의 표적 부위(target site)의 서열에 따라서 결정되는 부위 (즉, 표적 부위의 서열과 혼성화 가능한 서열임)이며, l은 상기 표적화 서열에 포함된 뉴클레오타이드 수를 나타내는 것으로 17 내지 23 또는 18 내지 22의 정수, 예컨대 20일 수 있고;

상기 표적 서열의 3' 방향으로 인접하여 위치하는 연속하는 12개의 뉴클레오타이드(GUUUUAGAGCUA; 서열번호 230)를 포함하는 부위는 crRNA의 필수적 부분이고,

X_cas9는 crRNA의 3' 말단쪽에 위치하는 (즉, 상기 crRNA의 필수적 부분의 3' 방향으로 인접하여 위치하는) m개의 뉴클레오타이드를 포함하는 부위로, m은 8 내지 12의 정수, 예컨대 11일 수 있으며, 상기 m개의 뉴클레오타이드들은 서로 같거나 다를 수 있으며, 각각 독립적으로 A, U, C 및 G로 이루어진 군에서 선택될 수 있다.

일 예에서, 상기 X_cas9는 UGCUGUUUUG(서열번호 231)를 포함할 수 있으나 이에 제한되지 않는다.

또한, 상기 tracrRNA는 다음의 일반식 2로 표현될 수 있다:

5'-(Y_cas9)_p-(UAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC)-3' (일반식 2)

상기 일반식 2에서,

60개의 뉴클레오타이드 (UAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC; 서열번호 232)로 표시된 부위는 tracrRNA의 필수적 부분이고,

Y_cas9는 상기 tracrRNA의 필수적 부분의 5' 말단에 인접하여 위치하는 p개의 뉴클레오타이드를 포함하는 부위로, p는 6 내지 20의 정수, 예컨대 8 내지 19의 정수일 수 있으며, 상기 p개의 뉴클레오타이드들은 서로 같거나 다를 수 있고, A, U, C 및 G로 이루어진 군에서 각각 독립적으로 선택될 수 있다.

또한, sgRNA는 상기 crRNA의 표적화 서열과 필수적 부위를 포함하는 crRNA 부분과 상기 tracrRNA의 필수적 부분 (60개 뉴클레오타이드)를 포함하는 tracrRNA 부분이 올리고뉴클레오타이드 링커를 통하여 헤어핀 구조 (stem-loop 구조)를 형성하는 것일 수 있다 (이 때, 올리고뉴클레오타이드 링커가 루프 구조에 해당함). 보다 구체적으로, 상기 sgRNA는 crRNA의 표적화 서열과 필수적 부분을 포함하는 crRNA 부분과 tracrRNA의 필수적 부분을 포함하는 tracrRNA 부분이 서로 결합된 이중 가닥 RNA 분자에서, crRNA 부위의 3' 말단과 tracrRNA 부위의 5' 말단이 올리고뉴클레오타이드 링커를 통하여 연결된 헤어핀 구조를 갖는 것일 수 있다.

일 예에서, sgRNA는 다음의 일반식 3으로 표현될 수 있다:

5'-(N_cas9)_l-(GUUUUAGAGCUA)-(올리고뉴클레오타이드 링커)-(UAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC)-3' (일반식 3)

상기 일반식 3에서, (N_cas9)_l는 표적화 서열로서 앞서 일반식 1에서 설명한 바와 같다.

상기 sgRNA에 포함되는 올리고뉴클레오타이드 링커는 3 내지 5개, 예컨대 4개의 뉴클레오타이드를 포함하는 것일 수 있으며, 상기 뉴클레오타이드들은 서로 같거나 다를 수 있고, A, U, C 및 G로 이루어진 군에서 각각 독립적으로 선택될 수 있다.

상기 crRNA 또는 sgRNA는 5' 말단 (즉, crRNA의 타겟팅 서열 부위의 5' 말단)에 1 내지 3개의 구아닌(G)을 추가로 포함할 수 있다.

상기 tracrRNA 또는 sgRNA는 tracrRNA의 필수적 부분(60nt)의 3' 말단에 5개 내지 7개의 우라실 (U)을 포함하는 종결부위를 추가로 포함할 수 있다.

상기 가이드 RNA의 표적 서열은 표적 DNA 상의 PAM (Protospacer Adjacent Motif　서열(S. pyogenes Cas9의 경우, 5'-NGG-3' (N은 A, T, G, 또는 C임))의 5'에 인접하여 위치하는 약 17개 내지 약 23개 또는 약 18개 내지 약22개, 예컨대 20개의 연속하는 핵산 서열일 수 있다.

상기 가이드 RNA의 표적 서열과 혼성화 가능한 가이드 RNA의 표적화 서열은 상기 표적 서열이 위치하는 DNA 가닥 (즉, PAM 서열(5'-NGG-3' (N은 A, T, G, 또는 C임)이 위치하는 DNA 가닥)의 상보적인 가닥의 뉴클레오타이드 서열과 50% 이상, 60% 이상, 70% 이상, 80% 이상, 90% 이상, 95% 이상, 99% 이상, 또는 100%의 서열 상보성을 갖는 뉴클레오타이드 서열을 의미하는 것으로, 상기 상보적 가닥의 뉴클레오타이드 서열과 상보적 결합이 가능하다.

본 명세서에서, 표적 부위의 핵산 서열은 표적 유전자의 해당 유전자 부위의 두 개의 DNA 가닥 중 PAM 서열이 위치하는 가닥의 핵산 서열로 표시된다. 이 때, 실제로 가이드 RNA가 결합하는 DNA 가닥은 PAM 서열이 위치하는 가닥의 상보적 가닥이므로, 상기 가이드 RNA에 포함된 표적화 서열은, RNA 특성상 T를 U로 변경하는 것을 제외하고, 표적 부위의 서열과 동일한 핵산 서열을 갖게 된다. 따라서, 본 명세서에서, 가이드 RNA의 표적화 서열과 표적 부위의 서열 (또는 절단 부위의 서열)은 T와 U가 상호 변경되는 것을 제외하고 동일한 핵산 서열로 표시된다.

상기 가이드 RNA는 RNA 형태로 사용 (또는 상기 조성물에 포함)되거나, 이를 암호화하는 DNA를 포함하는 플라스미드 형태로 사용 (또는 상기 조성물에 포함)될 수 있다.

상기 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)은 상기 시토신 디아미나제에 의하여 시토신로부터 변환된 우라실을 제거하고, 및/또는 상기 우라실이 제거된 위치에 DNA 절단을 도입하는 역할을 하는 모든 물질을 포함할 수 있다.

일 예에서, 상기 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)은 우라실 DNA 글라이코실라제 (Uracil DNA glycosylase; UDG), 엔도뉴클레아제 VIII, 및 이들의 조합을 포함한다. 일 예에서, 상기 우라실-특이적 제거 시약은 엔도뉴클레아제 VIII 또는 우라실 DNA 글라이코실라제와 엔도뉴클레아제 VIII의 조합을 포함하는 것일 수 있다.

우라실 DNA 글라이코실라제 (Uracil DNA glycosylase; UDG)는 DNA에 존재하는 우라실 (U)을 제거하여 DNA의 mutagenesis를 방지하는 작용을 하는 효소로서, 우라실의 N-glycosylic bond을 절단함으로써 base-excision repair (BER) pathway를 개시하도록 하는 역할을 하는 모든 효소들 중에서 1종 이상 선택될 수 있다. 예컨대, 상기 우라실 DNA 글라이코실라제는 Escherichia coli 우라실 DNA 글라이코실라제 (예컨대, GenBank Accession Nos. ADX49788.1, ACT28166.1, EFN36865.1, BAA10923.1, ACA76764.1, ACX38762.1, EFU59768.1, EFU53885.1, EFJ57281.1, EFU47398.1, EFK71412.1, EFJ92376.1, EFJ79936.1, EFO59084.1, EFK47562.1, KXH01728.1, ESE25979.1, ESD99489.1, ESD73882.1, ESD69341.1 등), 인간 우라실 DNA 글라이코실라제 (예컨대, GenBank Accession Nos. NP_003353.1, NP_550433.1 등), 마우스 우라실 DNA 글라이코실라제 (예컨대, GenBank Accession Nos. NP_001035781.1, NP_035807.2 등) 등으로 이루어진 군에서 선택된 1종 이상일 수 있으나, 이에 제한되는 것은 아니다.

상기 엔도뉴클레아제 VIII는 상기 우라실이 제거된 뉴클레오타이드를 제거하는 역할을 하는 것으로, 상기 우라실 DNA 글라이코실라제에 의하여 손상된 우라실을 이중 가닥 DNA로부터 제거하는 N-glycosylase 활성과 상기 손상된 우라실 제거로부터 발생한 apurinic site (AP site)의 3' 및 5' 말단을 절단하는 AP-lyase 활성을 모두 갖는 모든 효소들 중에서 1종 이상 선택될 수 있다. 예컨대, 상기 엔도뉴클레아제 VIII는 인간 엔도뉴클레아제 VIII (예컨대, GenBank Accession Nos. BAC06476.1, NP_001339449.1, NP_001243481.1, NP_078884.2, NP_001339448.1 등), 마우스 엔도뉴클레아제 VIII (예컨대, GenBank Accession Nos. BAC06477.1, NP_082623.1 등), Escherichia coli 엔도뉴클레아제 VIII (예컨대, GenBank Accession Nos. OBZ49008.1, OBZ43214.1, OBZ42025.1, ANJ41661.1, KYL40995.1, KMV55034.1, KMV53379.1, KMV50038.1, KMV40847.1, AQW72152.1 등) 등으로 이루어진 군에서 선택된 1종 이상일 수 있으나, 이에 제한되는 것은 아니다.

다른 예에서, 불활성화된 표적특이적 엔도뉴클레아제로서 스트렙토코커스 피요젠스 (Streptococcus pyogenes) 유래의 Cas9 단백질에 D10A 돌연변이와 H840A 돌연변이가 모두 도입된 변형 Cas9 단백질과 같이 엔도뉴클레아제 활성뿐 아니라 니케이즈 활성도 상실된 불활성화된 표적특이적 엔도뉴클레아제를 사용하는 경우, 이중 가닥 절단을 위하여, 한쪽 가닥의 우라실이 제거되어 단일 가닥으로 존재하는 DNA의 단일 가닥 부위를 특이적으로 분해(단일 가닥 부위의 양 말단의 포스포다이에스테르 결합을 절단)하는 엔도뉴클레아제를 추가로 포함할 수 있다. 상기 DNA의 단일 가닥 부위를 특이적으로 분해하는 엔도뉴클레아제는 S1 뉴클레아제 (Aspergillus oryzae 유래; 예컨대, Catalog number M5791 (Promega) 등), 녹두 뉴클레아제 (Mung bean nuclease) 등으로 이루어진 군에서 선택된 1종 이상일 수 있다.

이와 같은 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제 및 우라실-특이적 제거 시약의 처리에 의하여 시토신 디아미나제에 의하여 시토신에서 우라실로 염기 변환 (염기 교정)이 일어난 부위에 이중 가닥 절단이 생성된다 (도 4a 참조). 이와 같이 생성된 DNA 절단 단편은 서로 연장된 말단 (staggered end)를 갖는다. 그 후, 임의로 end repair 과정이 일어날 수 있으며, 이에 의하여 blunted ended DNA 단편 (이중 가닥)이 생성될 수 있다 (도 4a 참조).

다른 예는,

를 포함하는, 시토신 디아미나제를 사용하여 DNA에 이중 가닥 절단 (double strand break)를 생성하는 방법을 제공한다.

이와 같이 시토신 디아미나제를 사용하여 DNA에 이중 가닥 절단을 생성 (또는 도입)함으로써, 유전체 DNA 또는 DNA의 표적 부위에서 시토신 디아미나제에 의하여 염기 교정(base editing, 즉 C에서 U로의 변환)이 일어난 위치, 시토신 디아미나제의 염기 교정 효율 등을 분석할 수 있으며, 이를 통하여, 시토신 디아미나제의 on-target 부위에서의 염기 교정 효율, on-target 서열에 대한 특이성, off-target 서열 등을 확인 (또는 측정)할 수 있다.

다른 예는,

(iii) 상기 절단된 DNA 절편의 핵산 서열을 분석하는 단계

를 포함하는, 시토신 디아미나제에 의하여 염기 교정(base editing)이 도입된 DNA의 핵산 서열 분석 방법을 제공한다.

　다른 예는,

(iii) 상기 절단된 DNA 절편의 핵산 서열을 분석하는 단계; 및

(iv) 상기 분석에 의여 수득된 핵산 서열 데이터에서 상기 이중 가닥 절단 위치를 확인하는 단계

상기 시토신 디아미나제, 불활성화된 표적특이적 엔도뉴클레아제, 플라스미드, 가이드 RNA 및 우라실-특이적 제거 시약은 앞서 설명한 바와 같다.

상기 방법은 세포 내 또는 시험관 내 (in vitro)에서 수행되는 것일 수 있으며, 예컨대, 시험관 내에서 수행되는 것일 수 있다. 보다 구체적으로, 상기 방법의 모든 단계가 시험관 내 (in vitro)에서 수행되거나, 상기 단계 (i)은 세포 내에서 수행되고, 상기 단계 (ii) 이후 단계는 상기 단계 (i)이 수행된 세포에서 추출된 DNA (예컨대, 유전체 DNA)를 사용하여 시험관 내 (in vitro)에서 수행되는 것일 수 있다.

상기 단계 (i)은 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제 (또는 이들의 암호화 유전자)와 가이드 RNA를 세포에 형질감염시키거나, 또는 상기 세포로부터 추출된 DNA에 접촉 (예컨대, 함께 배양)시켜, 가이드 RNA에 의하여 표적화되는 표적 부위 내에서 시토신에서 우라실로의 변환 및 DNA nick 발생을 유도하는 단계이다. 상기 세포는 시토신 디아미나제에 의한 염기 교정을 도입하고자 하는 모든 진핵 세포들 중에서 선택된 것일 수 있으며, 예컨대, 인간 세포를 포함하는 포유 동물 세포들 중에서 선택될 수 있다. 상기 형질감염은 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제를 암호화하는 유전자를 포함하는 플라시미드를 통상적인 모든 수단에 의하여 세포에 도입시킴으로써 수행될 수 있으며, 예컨대, 상기 플라스미드의 세포로의 도입은 전기천공 (electroporation), 리포펙션 등에 의하여 수행될 수 있으나 이에 제한되는 것은 아니다.

일 구체예에서, 상기 단계 (i)은 상기 세포 (시토신 디아미나제에 의한 염기 교정 (염기 교정 위치, 염기 교정 효율 등)을 확인하고자 하는 세포)로부터 추출된 DNA를 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제 (예컨대, 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제를 포함하는 융합 단백질) 및 가이드 RNA와 함께 배양함으로써 수행될 수 있다 (in vitro). 상기 세포로부터 추출된 DNA는 유전체 DNA (genome DNA) 또는 표적 유전자 또는 표적 부위를 포함하는 PCR (polymerase chain reaction) 증폭 산물일 수 있다.

상기 단계 (ii)는 상기 단계 (i)에서 우라실로 변형된 염기를 제거하여 DNA 이중 가닥 절단을 생성하는 단계이다. 보다 구체적으로, 상기 단계 (ii)는 상기 단계 (i)에서 얻어진 반응물에 우라실 DNA 글라이코실라제 (Uracil DNA glycosylase; UDG), 엔도뉴클레아제 VIII, 및 이들의 조합을 처리 (접촉)하는 단계에 의하여 수행될 수 있다. 우라실 DNA 글라이코실라제와 엔도뉴클레아제 VIII를 모두 처리 (접촉)하는 경우, 동시에 처리하거나 순서에 무관하게 순차적으로 처리할 수 있다. 상기 처리 (접촉)하는 단계는 상기 단계 (i)에서 얻어진 반응물을 우라실 DNA 글라이코실라제 및/또는 엔도뉴클레아제 VIII와 함께 배양하는 단계에 의하여 수행될 수 있다.

상기 단계 (ii)의 반응물은, 상기 단계 (i)이 세포 내에서 수행된 경우 (즉 세포를 형질감염시켜 수행된 경우), 상기 형질감염된 세포로부터 분리된 DNA를 포함하는 것일 수 있고, 상기 단계 (i)이 세포로부터 추출 (분리)된 DNA에 대하여 시험관 내 (in vitro) 수행된 것인 경우, 상기 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제 및 가이드 RNA 처리된 분리된 DNA를 포함하는 것일 수 있다.

다른 예에서, 상기 단계 (i)에서 불활성화된 표적특이적 엔도뉴클레아제로서 스트렙토코커스 피요젠스 (Streptococcus pyogenes) 유래의 Cas9 단백질에 D10A 돌연변이와 H840A 돌연변이가 모두 도입된 불활성화된 표적특이적 엔도뉴클레아제를 사용하는 경우, 상기 불활성화된 표적특이적 엔도뉴클레아제는 엔도뉴클레아제 활성뿐 아니라 니케이즈 활성도 상실하였으므로, 이중 가닥 절단을 위하여, 상기 단계 (ii) 이후 및 단계 (iii) 이전에, 한쪽 가닥의 우라실이 제거되어 단일 가닥으로 존재하는 DNA의 단일 가닥 부위를 특이적으로 분해(단일 가닥 부위의 양 말단을 절단)하는 엔도뉴클레아제를 처리하는 단계 (단계 (ii-1))를 추가로 포함할 수 있다 (도 22의 a 참조). 상기 DNA의 단일 가닥 부위를 특이적으로 분해하는 엔도뉴클레아제는 S1 뉴클레아제일 수 있으나 이에 제한되는 것은 아니다.

임의로, 상기 단계 (i) 수행 (또는 완료) 후 단계 (ii) 수행 전에, 단계 (i)에서 사용된 시토신 디아미나제, 불활성화된 표적특이적 엔도뉴클레아제, 및/또는 가이드 RNA를 제거하는 단계를 추가로 포함할 수 있다.

상기 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제는 가이드 RNA와 함께 사용되어 서열 특이성 (specificity)을 가지므로 대부분 표적 위치(on-target)에 작용하지만, 표적 서열 이외의 부위에 표적 서열과 유사한 서열이 어느 정도 존재하는지에 따라 비표적 위치 (off-target site)에 작용하는 부작용이 발생할 수도 있다. 본 명세서에서, 비표적 위치 (off-target site)라 함은 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제의 표적 부위는 아니지만 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제가 활성을 가지는 위치를 말한다. 즉, 표적 위치 이외의, 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제에 의해 염기 교정 및/또는 절단되는 위치를 말한다. 일 예에서, 상기 비표적 위치는 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제에 대한 실제 비표적 위치뿐만 아니라 비표적 위치가 될 가능성이 있는 위치까지 포함하는 개념으로 사용될 수 있다. 상기 비표적 위치는 이에 제한되는 것은 아니나, 시험관 내 (in vitro)에서 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제에 의해 절단되는 표적 위치 이외의 모든 위치를 의미할 수 있다.

시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제가 표적 위치 이외의 위치에서도 활성을 가지는 것은 다양한 원인에 의해 야기될 수 있다. 예컨대, 표적 부위에 대하여 설계된 표적 서열과 뉴클레오타이드 불일치 (mismatch) 수준이 낮아서, 표적 서열과 서열 상동성이 높은 표적 서열 이외의 서열 (비표적 서열)의 경우 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제가 작동할 가능성이 있다. 상기 비표적 서열은 이에 제한되는 것은 아니나, 표적 서열과 1개 내지 6개, 1개 내지 5개, 1개 내지 4개, 1개 내지 3개, 1개 내지 2개, 또는 1개의 뉴클레오타이드 불일치 (mismatch)를 가지는 서열 (유전자 부위)일 수 있다.

불일치 서열에서 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제가 작동하는 경우 유전체 내에서 원치 않는 유전자의 돌연변이를 야기할 수 있어 심각한 문제가 야기될 수 있다. 이에, 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제의 표적 위치에서의 활성 못지 않게 비표적 서열을 정확히 검출하여 분석하는 과정 또한 매우 중요할 수 있으며, 이는 비표적 효과 없이 표적 위치에만 특이적으로 작동하는 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제를 개발하는데 유용하게 사용될 수 있을 것이다.

본 발명의 목적상 상기 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제는 생체 내 (in vivo) 및 시험관 내 (in vitro)에서 활성을 가질 수 있으므로, 시험관 내에서 DNA (예컨대, 유전체 DNA)의 비표적 위치를 검출하는데 사용될 수 있으며, 이를 생체 내에서 적용하였을 때 상기 검출된 비표적 위치 (비표적 서열을 포함하는 유전자상 위치 (부위))와 동일한 위치에도 활성을 가질 것을 예상할 수 있다.

상기 단계 (iii)는 상기 단계 (ii)에서 절단된 DNA 절편의 핵산 서열을 분석하는 단계로서, 통상적인 모든 핵산 서열 분석 방법에 의하여 수행될 수 있다. 예컨대, 상기 단계 (i)에서 사용된 분리된 DNA가 유전체 DNA인 경우, 상기 핵산 서열 분석은 전체 유전체 시퀀싱 (whole genome sequencing)에 의하여 수행될 수 있다. 전체 유전체 시퀀싱을 수행하는 경우, 표적 부위의 서열과 상동성을 가지는 서열을 찾아 비표적 위치일 것으로 예측하는 간접적인 방법과 달리 전체 유전체 수준에서 실질적으로 표적 특이적 뉴클레아제에 의해 절단되는 비표적 위치를 검출할 수 있으므로, 보다 정확하게 비표적 위치를 검출할 수 있다.

본 명세서에 사용된 바로서, "전체 유전체 시퀀싱 (whole genome sequencing; WGS)"은 차세대 시퀀싱 (next generation sequencing)에 의한 전장 유전체 시퀀싱을 10 X, 20 X, 40 X 형식으로 여러 배수로 유전체를 읽는 방법을 의미한다. "차세대 시퀀싱"은 칩 (Chip) 기반 및 PCR 기반 페어드엔드 (paired end) 형식으로 전장 유전체를 조각내고, 상기 조각을 화학적인 반응 (hybridization)에 기초하여 초고속으로 시퀀싱을 수행하는 기술을 의미한다.

상기 단계 (iv)는 상기 단계 (iii)에서 수득한 염기서열 데이터 (sequence read)에서 DNA가 절단된 위치를 확인 (또는 결정)하는 단계로서, 시퀀싱 데이터를 분석하여 표적 위치 (on-target site)와 비표적 위치(off-target site)를 간편하게 검출할 수 있다. 상기 염기서열 데이터로부터 DNA가 절단된 특정 위치를 결정하는 것은 다양한 접근 방법으로 수행될 수 있으며, 본 명세서에서는 상기 위치를 결정하기 위한 여러 가지의 합리적인 방법들을 제공한다. 그러나 이는 본 발명의 기술적 사상에 포함되는 예시에 불과하며, 본 발명의 범위가 이들 방법에 의해 제한되는 것은 아니다.

예컨대, 상기 절단된 위치를 결정하기 위한 일례로서, 전체 유전체 시퀀싱을 통해 수득한 염기서열 데이터를 유전체 상의 위치에 따라 정렬하였을 경우, 5' 말단이 수직 정렬된 위치가 DNA가 절단된 위치를 의미할 수 있다. 상기 염기서열 데이터를 유전체 상의 위치에 따라 정렬하는 단계는 분석 프로그램 (예를 들어, BWA/GATK 또는 ISAAC 등)을 이용하여 수행할 수 있다. 본 명세서에 사용된 바로서, 상기 용어 "수직 정렬"이란, BWA/GATK 또는 ISAAC 등의 프로그램으로 전체 유전체 시퀀싱 결과를 분석할 때, 인접한 왓슨 가닥 (Watson strand)과 크릭 가닥 (Crick strand) 각각에 대해, 2 개 이상의 염기서열 데이터의 5' 말단이 유전체 상의 동일한 위치 (nucleotide position)에서 시작되는 배열을 말한다. 이로 인하여, 상기 단계 (ii)에서 절단되어 동일한 5' 말단을 갖게 되는 DNA 단편들이 각각 시퀀싱되어 나타나게 된다.

즉, 상기 단계 (ii)에서의 절단이 표적 위치 및 비표적 위치에서 일어나는 경우, 염기서열 데이터를 정렬하게 되면 공통적으로 절단된 부위는 각각 그 위치가 5' 말단으로 시작되므로 수직 정렬되나, 절단되지 않은 부위에는 5' 말단이 존재하지 않으므로 정렬 시 스태거드 (staggered) 방식으로 배열될 수 있다. 따라서, 수직 정렬된 위치를 상기 단계 (ii)에서 절단된 부위로 볼 수 있으며, 이는 곧 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제의 표적 위치 또는 비표적 위치를 의미하는 것일 수 있다.

상기 "정렬"은 표준 염기서열 (reference genome)로 염기서열 데이터를 맵핑한 뒤, 유전체에서 동일 위치를 가지는 염기들을 각 위치에 맞게 배열하는 것을 의미한다. 따라서, 염기서열 데이터를 상기와 같은 방식으로 정렬할 수 있다면 어떠한 컴퓨터 프로그램도 이용될 수 있으며, 이는 당업계에 이미 알려진 공지의 프로그램이거나 또는 목적에 맞게 제작된 프로그램들 중에서 선택될 수 있다. 일 실시예에서는 ISAAC를 이용하여 정렬을 수행하였으나, 이에 제한되는 것은 아니다.

정렬 결과, 상기 설명한 바와 같은 5' 말단이 수직 정렬된 위치를 찾는 등의 방법을 통해 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제에 의해 DNA가 절단된 위치를 결정할 수 있고, 상기 절단된 위치가 표적 위치 (on-target site)가 아니라면, 비표적 위치 (off-target site)로 판단할 수 있다. 다시 말해, 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제의 표적 위치로 설계한 염기 서열과 동일한 서열은 표적 위치이고, 상기 염기 서열과 동일하지 않은 서열은 비표적 위치로 볼 수 있다. 이는 상기 기술한 비표적 위치의 정의상 자명한 것이다. 상기 비표적 위치는 특히, 표적 위치의 서열과 상동성을 가지는 서열로 구성된 것일 수 있고, 구체적으로 표적 위치와 1 개 이상의 뉴클레오타이드 불일치 (mismatch)를 가지는 서열, 더욱 구체적으로 표적 위치(표적 서열)와 1개 내지 6개, 1개 내지 5개, 1개 내지 4개, 1개 내지 3개, 1개 내지 2개, 또는 1개 1 내지 6 개의 뉴클레오타이드 불일치를 가지는 것일 수 있으나, 이에 특별히 제한되는 것은 아니고 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제가 절단할 수 있는 위치라면 본 발명의 범위에 포함될 수 있다.

다른 예에서, 5' 말단이 수직 정렬된 위치를 찾는 방법 이외에도, 5' 말단 플롯에서 이중 피크 패턴을 보이는 경우 그 위치가 표적 위치가 아니라면 비표적 위치로 판단할 수 있다. 유전체 DNA 내의 각 위치에 대하여 동일한 염기의 5' 말단을 구성하고 있는 뉴클레오타이드 수를 세어 그래프를 그릴 경우, 특정 위치에서 이중 피크 패턴이 나타나게 되는데, 상기 이중 피크는 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제에 의해 절단된 이중 가닥의 각각의 가닥에 의해 나타나는 것이기 때문이다.

따라서, 상기 비표적 위치 확인 방법은, 상기 단계 (iv) 이후에, 상기 절단된 위치가 표적 위치 (on-target site)가 아닌 경우, 비표적 위치 (off-target site)로 판단하는 단계를 추가로 포함할 수 있다.

일 실시예에서, 유전체 DNA에 대하여 상기 단계 (i) 및 (ii)를 수행하여 이중 가닥 절단한 뒤, 전체 유전체 분석 (단계 (iii)) 수행 후, 이를 ISAAC로 정렬하여 절단된 위치에서는 수직 정렬, 절단되지 않은 위치에서는 스태거드 방식으로 정렬되는 패턴을 확인하여, 이를 5' 말단 플롯으로 나타내었을 때 절단 부위에서 이중 피크의 독특한 패턴이 나타날 수 있다.

나아가 이에 제한되는 것은 아니나, 구체적인 일례로 왓슨 가닥 (Watson strand)과 크릭 가닥 (Crick strand)에 해당하는 염기서열 데이터 (sequence read)가 각각 두 개 이상씩 수직으로 정렬되는 위치를 비표적 위치인 것으로 판단할 수 있고, 또한 20 % 이상의 염기서열 데이터가 수직으로 정렬되고, 각각의 왓슨 가닥 및 크릭 가닥에서 동일한 5' 말단을 가진 염기서열 데이터의 수가 10 이상인 위치가 비표적 위치, 즉 절단되는 위치인 것으로 판단할 수 있다.

상기한 방법은 단계 (iii) 및 (iv)의 과정은 Digenome-seq (digested-genome sequencing일 수 있으며, 보다 구체적인 내용은 한국 특허공개 제10-2016-0058703호에 기재되어 있다 (상기 문헌은 본 발명에 참조로서 포함된다).

앞서 설명한 방법에 의하여, 시토신 디아미나제의 염기 교정 위치 (즉, 이중 가닥 절단 위치), on-target 부위에서의 염기 교정 효율 또는 표적 특이성 (즉, on-target 부위에서의 염기 교정 빈도/전체 염기 교정 빈도), 및/또는 비표적 위치 (off-target site; 시토신 디아미나제의 염기 교정 위치로 확인된 위치 중 on-target 위치가 아닌 위치)를 확인 (또는 측정 또는 검출)할 수 있다.

상기 비표적 위치 확인(검출)은 시험관 내 (in vitro)에서 시티딘 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제를 유전체 DNA에 처리하여 수행될 수 있다. 이에 상기 방법을 통해 확인(검출)된 비표적 위치에 대하여 실질적으로 생체 내 (in vivo)에서도 비표적 효과가 나타나는지 확인해볼 수 있다. 다만 이는 추가적인 검증 과정에 불과하므로 본 발명의 범위에 필수적으로 수반되는 단계는 아니며, 필요에 따라 추가적으로 수행될 수 있는 단계에 불과하다.

본 명세서에 사용된 바로서, 용어 "비표적 효과 (off-target effect)"는 비표적 위치 (off-target site)에서 염기 교정 및/또는 이중 가닥 절단이 일어나는 수준을 의미하기 위한 것일 수 있다. 용어 "인델(Insertion and/or deletion; Indel)"은 DNA의 염기 배열에서 일부 염기가 중간에 삽입되거나 (insertion) 및/또는 결실된 (deletion) 변이를 총칭한다.

다른 예에서, 시토신 디아미나제의 염기 교정 위치, on-target 부위에서의 염기 교정 효율, 비표적 위치 (off-target site), 및/또는 표적 특이성을 확인 (또는 측정 또는 검출)하는 방법은 상기 설명한 Digenome-seq 방법 이외의 방법으로 수행할 수 있다.

예컨대, 시토신 디아미나제의 염기 교정 위치, on-target 부위에서의 염기 교정 효율, 비표적 위치 (off-target site), 및/또는 표적 특이성을 확인 (또는 측정 또는 검출)하는 방법은 circle-seq 방법에 의할 수 있으며, 구체적으로, 다음의 단계를 포함할 수 있다 (도 20a 참조):

(i) 세포로부터 추출된 유전체 DNA를 단편화 및 원형화시키는 단계

(ii) 상기 원형화된 DNA 절편에 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제를 처리한 후, 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)을 처리하여 원형화된 DNA 절편에 이중 가닥 절단을 생성하는 단계; 및

(iii) 상기 이중 가닥 절단이 생성된 DNA 절편을 이용하여 라이브러리를 구축하고, 차세대 유전체 시퀀싱 (NGS)을 수행하는 단계

를 포함할 수 있다. 상기 단계 (ii)의 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제는 가이드 RNA와 함께 사용될 수 있다.

다른 예에서, 시토신 디아미나제의 염기 교정 위치, on-target 부위에서의 염기 교정 효율, 비표적 위치 (off-target site), 및/또는 표적 특이성을 확인 (또는 측정 또는 검출)하는 방법은 Bless 방법에 의할 수 있으며, 구체적으로, 다음의 단계를 포함할 수 있다 (도 20b 참조):

(i) (a) 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제, 또는 (b) 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자, 또는 (c) 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자를 포함하는 플라스미드를 세포 또는 세포로부터 분리된 유전체 DNA에 접촉시키는 단계;

(iii) 상기 절단된 DNA 절편 말단에 표지한 후, 이를 포획하는 단계;

(iv) 상기 포획된 DNA 절편을 증폭하고, 차세대 유전체 시퀀싱 (NGS)을 수행하는 단계

를 포함할 수 있다. 상기 단계 (i)의 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제, 또는 이를 암호화하는 유전자 또는 이를 포함하는 플라스미드는 가이드 RNA 또는 가이드 RNA를 암호화하는 DNA를 포함하는 플라스미드와 함께 사용될 수 있다.

다른 예에서, 시토신 디아미나제의 염기 교정 위치, on-target 부위에서의 염기 교정 효율, 비표적 위치 (off-target site), 및/또는 표적 특이성을 확인 (또는 측정 또는 검출)하는 방법은 DSBCapture 방법에 의할 수 있으며, 구체적으로, 다음의 단계를 포함할 수 있다 (도 20c 참조):

(iii) 상기 절단된 DNA 절편에 대하여 end repair 및 adaptor ligation을 수행하는 단계;

(iv) 상기 (iii)에서 얻어진 DNA 절편을 증폭하고, 차세대 유전체 시퀀싱 (NGS)을 수행하는 단계

본 명세서에서 제공되는 시티딘 디아미나제를 이용한 DNA 이중 가닥 절단 방법 및 이를 이용한 핵산 서열 분석 기술에 의하여, 시티딘 디아미나제의 염기 교정 위치, on-target 부위에서의 염기 교정 효율 또는 표적 특이성, 및/또는 비표적 위치를 보다 정확하고 효율적으로 확인할 수 있다.

도 1a는 HEK293T 세포의 7 가지 내재적 표적 부위 (EMX1, FANCF, HEK2, RNF2, HEK3, HEK4, HBB) 에서 BE1 (APOBEC1-dCas9), BE2 (APOBEC1-dCas9-UGI) 및 BE3 (APOBEC1-nCas9-UGI)(참고예 1 참조)으로 얻은 염기 교정 효율을 나타낸다.
도 1b는 HEK293T 세포 내 7 개의 내재적 표적 부위에서 표적 심층 시퀀싱에 의해 측정된 Cas9 뉴클레아제-유도 돌연변이 빈도를 보여준다.
도 1c는 7 개의 내재적 표적 지점에서 indel 빈도 또는 염기 교정 효율의 순위를 대표적으로 보여주는 그래프이다.
도 2a은 표적 부위 및 이와 1 내지 4개의 미스매치를 갖는 sgRNA 및, BE3 또는 Cas9를 암호화하는 플라스미드를 HEK293T 세포에 공동 형질감염시키고, 3개의 내재적 부위 (endogenous sites; EMX1)에서의 돌연변이 빈도를 측정한 결과이다.
도 2b는 표적 부위 및 이와 1 내지 4개의 미스매치를 갖는 sgRNA 및, BE3 또는 Cas9를 암호화하는 플라스미드를 HEK293T 세포에 공동 형질감염시키고, 3개의 내재적 부위 (endogenous sites; HBB)에서의 돌연변이 빈도를 측정한 결과이다.
도 2c는 표적 부위 및 이와 1 내지 4개의 미스매치를 갖는 sgRNA 및, BE3 또는 Cas9를 암호화하는 플라스미드를 HEK293T 세포에 공동 형질감염시키고, 3개의 내재적 부위 (endogenous sites; RNF2)에서의 돌연변이 빈도를 측정한 결과이다.
도 3a는 EMX1 부위에서의 Cas9 뉴클레아제와 관련된 indel 빈도와 BE3와 관련된 염기 교정 빈도를 보여주는 그래프이다.
도 3b는 HBB 부위에서의 Cas9 뉴클레아제와 관련된 indel 빈도와 BE3와 관련된 염기 교정 빈도를 보여주는 그래프이다.
도 3c는 RNF2 부위에서의 Cas9 뉴클레아제와 관련된 indel 빈도와 BE3와 관련된 염기 교정 빈도를 보여주는 그래프이다.
도 4a는 BE3 Digenome-seq의 개요를 모식적으로 보여준다.
도 4b는 BE3 및/또는 USER를 처리한 경우, 절단된 PCR 산물을 보여주는 전기영동 사진이다.
도 4c는 B3에 의한 C 대 U 전환 및 USER에 의한 DNA 절단 결과를 보여주는 Sanger 시퀀싱 결과이다.
도 4d는 EMX1의 표적 사이트에서의 sequence read의 직선 정렬을 나타내는 IGV 이미지이다.
도 5는 6개의 다른 표적 sites에서의 sequence read의 직선 정렬을 나타내는 IGV 이미지이다.
도 6a (EMX1) 및 6b (HBB)는 손상되지 않은 유전체 DNA (회색; 중앙부로부터 첫 번째 layer)와 BE3 및 USER (파란색; 중앙부로부터 2 번째 layer) 또는 Cas9 (빨간색; 중앙부로부터 3 번째 layer; 도 6b에만 있음)로 분해된 유전체 DNA로 얻은 DNA 절단 점수를 나타내는 Genome-wide circus plot로서, 화살표는 타겟 사이트를 나타낸다.
도 6c (EMX1) 및 6d (HBB)는 Digenome-capture sites(표 2-8)에서 DNA 서열을 사용하여 WebLogo를 통해 얻은 서열 로고 (DNA 분해 점수> 2.5)를 나타낸다.
도 6e (EMX1) 및 6f (HBB)는 표적 심부 시퀀싱을 이용하여 결정된 Cas9 매개 indel 빈도와 BE3 매개 치환 빈도의 Scatterplot를 나타내는 것으로, 원으로 표시된 점들은 BE3에 의해 확인되었지만 Cas9에 의해 유효한 효과가 없는 비표적 사이트를 나타낸다.
도 6g (EMX1) 및 6h (HBB)는 표적 심부 시퀀싱에 의해 HEK293T 세포에서 확인 된 BE3 비표적 사이트를 보여주는 것으로, PAM 서열은 3' 말단의 마지막 3개 뉴클레오타이드이고, mismatched base는 소문자로 표시하였으며, 대시(-)는 RNA bulges를 나타낸다 (Error bars indicate s.e.m. (n = 3)).
도 7은 Cas9 뉴클레아제- 및 base editor-처리 유전체 DNA의 Digenome-seq에 의해 확인된 DNA 절단 점수가 2.5 이상인 부위의 수를 보여주는 벤 다이어그램이다.
도 8은 DNA 절단 점수의 범위에 대한 총 사이트 수 (■)와 10 개 이하의 mismatches (□)가 있는 PAM 함유 사이트 수를 보여주는 그래프이다.
도 9는 Cas9 nuclease- 및 Base editor- 처리 유전체 DNA의 Digenome-seq에 의해 확인 된 0.1 이상의 DNA 절단 점수를 갖는 PAM-포함 상동성 부위의 수를 보여주는 벤다이어그램이다.
도 10은 Digenome-seq에 의해 포획된 상동성 부위의 비율을 보여주는 것으로, 막대는 표적(표적) 부위와 6 nt까지 다른 상동성 부위의 수를 나타내고, 사각형 (BE3)과 삼각형 (Cas9)은 미스매치 숫자의 범위에 대해 Digenome-seq 포획 사이트의 비율을 나타낸다.
도 11a 및 11b는 Digenome 1.0 (11a) 및 Digenome 2.0 (11b)에 의해 확인 된 BE3-와 Cas9-관련 사이트의 수 사이의 상관관계를 보여주는 그래프이다.
도 12a 및 12b는 Digenome 1.0 (a) 또는 Digenome 2.0 (b)에 의해 확인 된 BE3 관련 사이트의 수와 6 개 이하의 미스매치가있는 사이트의 수 사이의 상관 관계를 보여주는 그래프이다.
도 13은 positions 4-9에 시토신이 없는 Cas9에만 관련된 Digenome-포획된 비표적 사이트를 예시적으로 보여준다.
도 14a 내지 14c는 3 개의 다른 Cas9 뉴클레아제와 관련된 Digenome-captured 사이트의 염기 교정 효율을 보여준다.
도 15a 내지 15c는 Digenome-음성 사이트에서 3 가지 서로 다른 BE3 디아미나제의 염기 교정 효율을 보여준다.
도 16a는 기존 sgRNA (gX19 sgRNA), 절단된 (truncated) sgRNA (gX18 또는 gX17 sgRNA) 및 연장(extended) sgRNA (gX20 또는 ggX20 sgRNA)를 도식적으로 보여준다.
도 16b는 HEK293T 세포의 HBB 표적 사이트 및 비표적 사이트의 염기 교정 빈도를 표적 심독 시퀀싱으로 측정한 결과를 보여준다.
도 17은 변형된 sgRNA를 사용하여 BE3 비표적 효과를 감소시킬 수 있음을 보여주는 것으로, 17a는 기존의 sgRNA (GX19 sgRNA)와 변형된 sgRNA (GX17 sgRNA, gX18 sgRNA, gX20 sgRNA 및 ggX20 sgRNA)의 개략적으로 보여주고, 도 17b는 HEK293T 세포에서 표적 심층 시퀀싱에 의해 EMX1 표적 사이트 및 비표적 사이트에서 측정된 염기 교정 효율(빈도)를 보여준다.
도 18a는 플라스미드 rAPOBEC1-XTEN-dCas9-NLS의 개열지도이다.
도 18b는 플라스미드 rAPOBEC1-XTEN-dCas9-UGI-NLS의 개열지도이다.
도 18c는 플라스미드 rAPOBEC1-XTEN-Cas9n-UGI-NLS의 개열지도이다.
도 19는 Cas9 expression plasmid의 개열지도이다.
도 20은 His6-rAPOBEC1-XTEN-dCas9을 코딩하는 플라스미드 pET28b-BE1의 개열지도이다.
도 21a 내지 21c는 Digenome-seq 이외의 방법으로 전체 유전체에서의 베이스 에디터의 비표적 사이트를 프로파일링하는 방법을 모식적으로 보여주는 것으로, 21a는 circle-seq, 21b는 Bless, 21c는 DSBCapture를 이용한 방법을 각각 보여준다.
도 22는 BE1(rAPOBEC1-dCas9)-매개 이중 가닥 절단(double strand breaks; DSBs) 과정 및 결과를 보여주는 것으로, (a)는 BE1 (rAPOBEC1-dCas9), USER 효소, 및 S1 뉴클레아제를 이용하여 DSB를 도입하는 과정을 모식적으로 보여주며, (b)는 BE1/sgRNA, USER 효소, 및 S1 뉴클레아제 처리 후의 PCR 증폭 산물에서의 BE1-매개 DSB 결과를 보여주는 전기영동 사진이다.

이하 본 발명을 다음의 실시예에 의하여 보다 구체적으로 설명하고자 한다. 그러나 이들은 본 발명을 예시하기 위한 것일 뿐이며, 본 발명의 범위가 이들 실시예에 의하여 제한되는 것은 아니다.

[ 참고예 ]

1. 세포 배양 및 형질감염

HEK293T 세포 (ATCC CRL-11268)를 10%(w/v) FBS 및 1%(w/v) 페니실린/스트렙토 마이신 (Welgene)으로 보충된 DMEM (Dulbecco Modified Eagle Medium) 배지에서 유지시켰다. HEK293T 세포 (1.5x10⁵)를 24- 웰 플레이트에 접종하고, Lipofectamine 2000 (Invitrogen)을 사용하여 sgRNA plasmid (500 ng)와, Base Editor plasmid (Addgene plasmid #73019 (Expresses BE1 with C-terminal NLS in mammalian cells; rAPOBEC1-XTEN-dCas9-NLS; 도 18a), #73020 (Expresses BE2 in mammalian cells; rAPOBEC1-XTEN-dCas9-UGI-NLS; 도 18b), #73021 (Expresses BE3 in mammalian cells; rAPOBEC1-XTEN-Cas9n-UGI-NLS; 도 18c)) (1.5㎍) 또는 Cas9 expression plasmid (Addgene plasmid #43945; 도 19)를 형질감염시켰다 (at ~80% confluency). 형질감염 후 72 시간 후에 DNeasy Blood & Tissue Kit (Qiagen)을 사용하여 유전체 DNA를 분리하였다. 상기 세포에 대하여 마이코플라스마 오염 여부를 테스트하지 않았다.

하기하는 실시예에 사용된 sgRNA는 표적 부위 서열 (표적 서열; on-target 서열; 표 1-8 참조) 중 5' 말단의 PAM 서열 (5'-NGG-3' (N은 A, T, G, 또는 C임))을 제외한 서열에서 T를 U로 바꾼 서열을 아래의 일반식 3의 표적화 서열 '(N_cas9)_l'로 하여 제작된 것을 사용하였다:

5'-(N_cas9)_l-(GUUUUAGAGCUA)-(GAAA)-(UAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC)-3' (일반식 3; 올리고뉴클레오타이드 링커: GAAA).

2. 단백질 정제

His6-rAPOBEC1-XTEN-dCas9 단백질을 코딩하는 플라스미드(pET28b-BE1; Expresses BE1 with N-terminal His6 tag in E. Coli; 도 20)는 David Liu (Addgene plasmid #73018)로부터 제공받았다. 또한, 상기 His6-rAPOBEC1-XTEN-dCas9 단백질을 코딩하는 플라스미드 pET28b-BE1에서 site directed mutagenesis를 이용하여 dCas9의 A840을 H840로 치환하여, His6-rAPOBEC1-nCas9 단백질 (BE3 delta UGI; UGI 도메인을 결여한 BE3 변이형)을 코딩하는 플라스미드(pET28b-BE3 delta UGI)를 제작하였다.

Rosetta 발현 세포 (Novagen, catalog number: 70954-3CN)를 상기 준비된 pET28b-BE1 또는 pET28b-BE3 delta UGI로 형질 전환시키고, 100 ㎍/ml kanamycin 과 50 mg/ml carbenicilin을 포함하는 Luria-Bertani (LB) brot에서 37 조건으로 밤새 배양하였다. pET28b-BE1 또는 pET28b-BE3 delta UGI을 함유하는 Rosetta 세포를 밤새 배양한 배양물 10ml를 100㎍/ml kanamycin 및 50mg/ml carbenicilin을 함유하는 400ml LB broth에 접종하고 OD600이 0.5-0.6에 도달 할 때까지 30 조건에서 배양하였다. 상기 배양된 세포를 1 시간 동안 16 로 냉각시키고, 0.5 mM IPTG(Isopropyl β-D-1-thiogalactopyranoside)를 보충하여, 14-18 시간 동안 배양하였다.

단백질 정제를 위해, 세포를 4 에서 10 분 동안 5000xg에서 원심 분리하여 수확하고, 리소자임 (Sigma) 및 프로테아제 억제제 (Roche complete, EDTA-free)보충된 용해 완충액 (50 mM NaH2PO4, 300 mM NaCl, 1 mM DTT 및 10 mM imidazole, pH 8.0) 5 ml 에서 초음파 처리하여 용해시켰다. 상기 얻어진 세포 반응물을 4 에서 13,000 rpm로 30분 동안 원심분리하여 얻어진 용해성 세포 용해물을 Ni-NTA 아가로즈 레진(Qiagen)과 함께 4 에서 1 시간 동안 배양하였다. 세포 용해물/Ni-NTA 혼합물을 컬럼에 적용하고 완충액 (50 mM NaH2PO4, 300 mM NaCl 및 20 mM 이미다졸, pH 8.0)으로 세척하였다. BE3 단백질을 용출 완충액 (50 mM NaH2PO4, 300 mM NaCl 및 250 mM 이미다졸, pH 8.0)으로 용출시켰다. 용출된 단백질을 저장 완충액 (20 mM HEPES-KOH (pH 7.5), 150 mM KCl, 1 mM DTT 및 20% 글리세롤)으로 버퍼 교체하여 저장하고 원심 분리 필터 유닛 (Millipore)을 사용하여 농축시켜, rAPOBEC1-XTEN-dCas9 단백질과 rAPOBEC1-nCas9을 정제하였다.

3. PCR 증폭산물의 탈아민화 및 USER 처리

우선, EMX1 사이트를 포함하는 PCR 증폭 산물 (10 ㎍)을 37 에서 1 시간 동안 100 ㎕의 반응 부피에서 정제된 rAPOBEC1-nCas9 단백질 (4 ㎍)과 EMX1 특이성 sgRNA (3 ㎍)와 함께 배양하였다. 그 후, 상기 배양물을 37 에서 30 분 동안 USER (Uracil-Specific Excision Reagent) (6 units) (New England Biolabs; https://www.neb.com/products/m5505-user-enzyme; Uracil DNA glycosylase (UDG) 및 DNA glycosylase-lyase Endonuclease VIII 혼합물과 50 mM KCl, 5 mM NaCl, 10 mM Tris-HCl (pH 7.4), 0.1 mM EDTA, 1 mM DTT, 175 mg/ml BSA 및 50%(w/v) glycerol 포함)와 함께 배양한 다음, 아가로즈 젤 전기 영동을 수행하였다.

4. 유전체 DNA의 탈아민화 및 USER 처리

유전체 DNA는 제조자의 지시에 따라 DNeasy Blood & Tissue Kit (Qiagen)을 사용하여 HEK293T 세포로부터 정제(추출)하였다. 유전체 DNA (10 ㎍)를 상기 참고예 2에서 정제된 rAPOBEC1-nCas9 단백질 (300 nM)과 sgRNA (900 nM)와 함께 500 ㎕의 반응 용량으로 37 에서 8 시간 동안 완충액 (100 mM NaCl, 40 mM) Hris-HCl, 10 mM MgCl2, 및 100 ㎍/ml BSA, pH 7.9)에서 배양하였다. RNase A (50 ㎍/mL)를 사용하여 sgRNA를 제거한 후, 우라실 함유 유전체 DNA를 DNeasy Blood & Tissue Kit (Qiagen)로 정제하였다. 정제된 genomic DNA (2 ㎍)를 USER (6 Unit)와 함께 37 에서 100 ㎕의 반응 용량으로 3 시간 동안 배양한 다음, DNeasy Blood & Tissue Kit (Qiagen)로 다시 정제하였다. 표적 부위를 SUN-PCR 블렌드를 사용하여 PCR 증폭시키고 생거 (Sanger) 서열 분석을 수행하여 BE3-매개 시토신 탈아민화 및 USER-매개 DNA 절단을 확인하였다.

5. 전체 유전체 및 digenome의 시퀀싱

Covaris 시스템 (Life Technologies)을 사용하여 400-500 bp 범위로 유전체 DNA (1 ㎍)를 단편화하고 End Repair Mix (Thermo Fischer)를 사용하여 blunt-ended 시켰다. 단편화된 DNA를 어댑터로 연결하여 라이브러리를 생성 한 다음, Macrogen에서 HiSeq X Ten Sequencer (Illumina)를 사용하여 WGS(whole genome sequencing)를 수행하였다.

6. 표적 심층 시퀀싱 (Targeted deep sequencing)

deep sequencing 라이브러리 생성을 위해, 표적과 잠재적인 비표적 부위를 KAPA HiFi HotStart PCR 키트 (KAPA Biosystems # KK2501)로 증폭시켰다. 풀링된 PCR 증폭물을 TruSeq HT Dual Index 시스템 (Illumina)이 장착된 MiniSeq (Illumina) 또는 Illumina Miseq(LAS Inc. 한국)을 사용하여 시퀀싱하였다.

실시예 1. 인간 세포에서 BE3-관련 염기 교정 효율과 Cas9 -관련 indel 빈도의 비교

HEK293T 세포의 7 개의 유전체 유전자좌(EMX1, FANCF, HEK2, RNF2, HEK3, HEK4, HBB)에서, 세 가지 다른 형태의 BE의 단일 염기 치환 빈도에 의해 정의된 염기 교정 (base editing) 효율을 구하여, Cas9 뉴클레아제의 표적 부위에서의 indel 빈도에 의해 정의된 유전체 교정 효율과 비교하였다 (도 1a, b). 도 1a는 HEK293T 세포의 7 가지 내재적 표적 부위(EMX1, FANCF, HEK2, RNF2, HEK3, HEK4, HBB)에서 BE1 (APOBEC1-dCas9), BE2 (APOBEC-dCas9-UGI) 및 BE3 (APOBEC-nCas9-UGI)(참고예 1 참조)으로 얻은 염기 교정 효율을 나타낸다. 염기 교정 효율은 표적 심층 시퀀싱(targeted deep sequencing)으로 측정하였다 (참고예 6 참조). BE3 [APOBEC-nCas9-UGI (uracil DNA glycosylase inhibitor), 29±6%]이 BE1 (APOBEC1-dCas9, 5±1%)와 BE2 (APOBEC-dCas9-UGI, 8±2%)보다 우수한 효율을 나타내었다. 도 1b는 HEK293T 세포 내 7 개의 내재적 표적 부위에서 표적 심층 시퀀싱에 의해 측정된 Cas9 뉴클레아제-유도 돌연변이 빈도를 보여준다 (참고예 1의 Cas9 expression plasmid (Addgene plasmid #43945; 도 19)를 사용하여 얻어진 결과임). 이러한 결과는 BE3 활성이 Cas9 뉴클레아제 활성과 독립적임을 확인시켜 주는 것이다.

도 1c는 7 개의 내재적 표적 지점(on target site; 표 2~8 참조)에서 indel 빈도 또는 염기 교정 효율의 순위를 대표적으로 보여주는 그래프이다. 도 1c에서 보여지는 바와 같이, 활성 순위 분석 결과, 특정 sgRNA는 Cas9과 함께 작용할 때는 활성이 낮지만 BE3와 함께 작용할때는 높은 활성을 나타내는 한편, 그 반대의 상관성을 나타내는 sgRNA도 존재하였다.

실시예 2. mismatched sgRNAs에 대한 BE3와 Cas9의 관용 (tolerance)

BE3 디아미나제의 특이성을 평가하기 위하여, BE3가 small guide RNA (sgRNAs)에서의 미스매치 (mismatch)를 관용할 수 있는지 여부를 세포 내에서 조사하였다. 이를 위해, 1 내지 4개의 미스매치를 갖는 sgRNA 및, BE3 또는 Cas9를 암호화하는 플라스미드 (참고예 1 참조)를 HEK293T 세포에 공동 형질감염시키고, 3개의 내재적 부위 (endogenous sites; EMX1, HBB, RNF2)에서의 돌연변이 빈도를 측정하였다.

사용된 1 내지 4개의 미스매치를 갖는 sgRNA의 표적 부위 (PAM 서열 (굵은 글씨) 포함)를 아래의 표 1에 정리하였다:

서열번호	EMX1 mismatched sgRNAs	서열번호	HBB mismatched sgRNAs	서열번호	RNF2 mismatched sgRNAs
1	GgactCGAGCAGAAGAAGAAGGG	32	GccatCCCACAGGGCAGTAACGG	63	GctgcCTTAGTCATTACCTGAGG
2	GAGTttagGCAGAAGAAGAAGGG	33	GTTGttttACAGGGCAGTAACGG	64	GTCActccAGTCATTACCTGAGG
3	GAGTCCGAatgaAAGAAGAAGGG	34	GTTGCCCCgtgaGGCAGTAACGG	65	GTCATCTTgactATTACCTGAGG
4	GAGTCCGAGCAGggagAGAAGGG	35	GTTGCCCCACAGaatgGTAACGG	66	GTCATCTTAGTCgccgCCTGAGG
5	GAGTCCGAGCAGAAGAgaggGGG	36	GTTGCCCCACAGGGCAacggCGG	67	GTCATCTTAGTCATTAttcaAGG
6	GAactCGAGCAGAAGAAGAAGGG	37	GTcatCCCACAGGGCAGTAACGG	68	GTtgcCTTAGTCATTACCTGAGG
7	GAGTCtagGCAGAAGAAGAAGGG	38	GTTGCtttACAGGGCAGTAACGG	69	GTCATtccAGTCATTACCTGAGG
8	GAGTCCGAatgGAAGAAGAAGGG	39	GTTGCCCCgtgGGGCAGTAACGG	70	GTCATCTTgacCATTACCTGAGG
9	GAGTCCGAGCAaggGAAGAAGGG	40	GTTGCCCCACAaaaCAGTAACGG	71	GTCATCTTAGTtgcTACCTGAGG
10	GAGTCCGAGCAGAAaggGAAGGG	41	GTTGCCCCACAGGGtgaTAACGG	72	GTCATCTTAGTCATcgtCTGAGG
11	GAGTCCGAGCAGAAGAAaggGGG	42	GTTGCCCCACAGGGCAGcggCGG	73	GTCATCTTAGTCATTACtcaAGG
12	GAacCCGAGCAGAAGAAGAAGGG	43	GTcaCCCCACAGGGCAGTAACGG	74	GTtgTCTTAGTCATTACCTGAGG
13	GAGTttGAGCAGAAGAAGAAGGG	44	GTTGttCCACAGGGCAGTAACGG	75	GTCActTTAGTCATTACCTGAGG
14	GAGTCCagGCAGAAGAAGAAGGG	45	GTTGCCttACAGGGCAGTAACGG	76	GTCATCccAGTCATTACCTGAGG
15	GAGTCCGAatAGAAGAAGAAGGG	46	GTTGCCCCgtAGGGCAGTAACGG	77	GTCATCTTgaTCATTACCTGAGG
16	GAGTCCGAGCgaAAGAAGAAGGG	47	GTTGCCCCACgaGGCAGTAACGG	78	GTCATCTTAGctATTACCTGAGG
17	GAGTCCGAGCAGggGAAGAAGGG	48	GTTGCCCCACAGaaCAGTAACGG	79	GTCATCTTAGTCgcTACCTGAGG
18	GAGTCCGAGCAGAAagAGAAGGG	49	GTTGCCCCACAGGGtgGTAACGG	80	GTCATCTTAGTCATcgCCTGAGG
19	GAGTCCGAGCAGAAGAgaAAGGG	50	GTTGCCCCACAGGGCAacAACGG	81	GTCATCTTAGTCATTAttTGAGG
20	GAGTCCGAGCAGAAGAAGggGGG	51	GTTGCCCCACAGGGCAGTggCGG	82	GTCATCTTAGTCATTACCcaAGG
21	GgGTCCGAGCAGAAGAAGAAGGG	52	GcTGCCCCACAGGGCAGTAACGG	83	GcCATCTTAGTCATTACCTGAGG
22	GAGcCCGAGCAGAAGAAGAAGGG	53	GTTaCCCCACAGGGCAGTAACGG	84	GTCgTCTTAGTCATTACCTGAGG
23	GAGTCtGAGCAGAAGAAGAAGGG	54	GTTGCtCCACAGGGCAGTAACGG	85	GTCATtTTAGTCATTACCTGAGG
24	GAGTCCGgGCAGAAGAAGAAGGG	55	GTTGCCCtACAGGGCAGTAACGG	86	GTCATCTcAGTCATTACCTGAGG
25	GAGTCCGAGtAGAAGAAGAAGGG	56	GTTGCCCCAtAGGGCAGTAACGG	87	GTCATCTTAaTCATTACCTGAGG
26	GAGTCCGAGCAaAAGAAGAAGGG	57	GTTGCCCCACAaGGCAGTAACGG	88	GTCATCTTAGTtATTACCTGAGG
27	GAGTCCGAGCAGAgGAAGAAGGG	58	GTTGCCCCACAGGaCAGTAACGG	89	GTCATCTTAGTCAcTACCTGAGG
28	GAGTCCGAGCAGAAGgAGAAGGG	59	GTTGCCCCACAGGGCgGTAACGG	90	GTCATCTTAGTCATTgCCTGAGG
29	GAGTCCGAGCAGAAGAAaAAGGG	60	GTTGCCCCACAGGGCAGcAACGG	91	GTCATCTTAGTCATTACtTGAGG
30	GAGTCCGAGCAGAAGAAGAgGGG	61	GTTGCCCCACAGGGCAGTAgCGG	92	GTCATCTTAGTCATTACCTaAGG
31	GAGTCCGAGCAGAAGAAGAAGGG (on target sequence)	62	GTTGCCCCACAGGGCAGTAACGG (on target sequence)	93	GTCATCTTAGTCATTACCTGAGG (on target sequence)

(표 1에서, 소문자로 표시된 염기 위치는 on-target 서열에 대한 mismatched 사이트를 의미함)

상기 표 1의 미스매치 서열 및 표적 서열에서 얻어진 결과 (Indel 빈도와 시토신 전환 빈도)를 도 2a 내지 2c에 나타내었다 (2a: EMX1, 2b: HBB 및 2c: RNF2; Error bars indicate s.e.m. (n=3)). 도 2a 내지 2c에서 'Cn'으로 표시된 것은 미스매치 서열 또는 표적 서열에서 5' 발단부터 n번째에 위치하는 시토신(C)의 변이 (다른 염기로 치환 또는 결실) 비율을 나타낸다. Indel 빈도와 시토신 전환 빈도 (base editing frequency)는 표적 심층 시퀀싱 (참고예 6)을 사용하여 측정하였다. 상기 표적 심층 시퀀싱에 사용된 프라이머는 다음과 같다:

EMX1

1st PCR

Forward(5'→3'):

AGTGTTGAGGCCCCAGTG (서열번호 94);

Reverse(5'→3'):

GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCAGCAGCAAGCAGCACTCT (서열번호 95);

2nd PCR

Forward(5'→3'):

ACACTCTTTCCCTACACGACGCTCTTCCGATCTGGGCCTCCTGAGTTTCTCAT (서열번호 96);

Reverse(5'→3')

GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCAGCAGCAAGCAGCACTCT (서열번호 97);

HBB

1st PCR

Forward(5'→3'):

GGCAGAGAGAGTCAGTGCCTA (서열번호 98);

Reverse(5'→3'):

GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCAGGGCTGGGCATAAAAGT (서열번호 99);

2nd PCR

Forward(5'→3'):

ACACTCTTTCCCTACACGACGCTCTTCCGATCTGTCTCCACATGCCCAGTTTC (서열번호 100);

Reverse(5'→3')

GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCAGGGCTGGGCATAAAAGT (서열번호 101);

RNF2

1st PCR

Forward(5'→3'):

CCATAGCACTTCCCTTCCAA (서열번호 102);

Reverse(5'→3'):

GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGCCAACATACAGAAGTCAGGAA (서열번호 103);

2nd PCR

Forward(5'→3'):

ACACTCTTTCCCTACACGACGCTCTTCCGATCTATTTCCAGCAATGTCTCAGG (서열번호 104);

Reverse(5'→3')

GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGCCAACATACAGAAGTCAGGAA (서열번호 105).

또한, EMX1 (도 3a) 부위, HBB 부위 (도 3b), 및 RNF2 부위 (도 3c)에서의 Cas9 뉴클레아제와 관련된 indel 빈도와 BE3와 관련된 염기 교정 빈도를 mismatched sgRNAs (표 1 참조)를 사용하여 측정하여, 그 결과를 도 3a 내지 3c에 나타내었다. 도 3a 내지 3c에서 보여지는 바와 같이, 전반적으로, Cas9 유도 indel 빈도와 BE3 유도 치환 빈도 간 통계적으로 유의미한 상관관계 (3개의 부위에서 각각 R ² = 0.70, 0.83, 및 0.72)가 있다.

BE3 디아미나제와 Cas9 뉴클레아제는 거의 모든 위치에서의 1개 뉴클레오타이드 (1-nt)의 미스매치 및 PAM-원위 영역 (protospacer-adjacent motif(PAM)-distal region)에서의 2개 뉴클레오타이드 (2-nt) 미스매치에 대해서는 관용을 보였으나, PAM-근위 영역 또는 PAM-원위 영역에서의 3-nt 또는 4-nt 미스매치에 대해서는 관용을 나타내지 못한다. 그러나, 2 개 또는 3 개의 미스매치를 갖는 일부 sgRNA (도 2a-2c에서 별표로 표시)는 BE3와 함께 사용하는 경우 높은 활성을 나타내는 반면, Cas9와 함께 사용하는 경우에는 활성이 우수하지 않았으며, 그 반대도 마찬가지였다. 예를 들어, EMX1 부위에서, 완전히 일치하는 sgRNA 또는 3-nt 미스매치 sgRNA를 BE3와 함께 사용하는 경우 비교 가능한 정도의 빈도 차이(33% vs. 14%)로 치환을 유도하는 반면, 동일한 완전 일치 또는 3-nt 미스매치 sgRNA를 Cas9와 함께 사용하는 경우에는 광범위하게 다른 indel 빈도를 나타내었다 (50% vs. 2%) (도 2a). 반대로, 2 개의 2-nt 미스매치를 갖는 sgRNA를 BE3와 함께 사용하는 경우에 활성이 낮은 반면 (치환 빈도 <1%), 동일한 미스매치를 갖는 sgRNA를 Cas9와 함께 사용하는 경우에는 활성이 높았다 (indel 빈도> 10%) (도 2a). 이러한 결과는 미스매치를 갖는 sgRNA에 대한 Cas9 뉴클레아제와 BE3 디아미나제의 내성이 다를 수 있으며, BE3와 Cas9가 유전체 내에서 분리된 세트의 비표적 부위를 가질 수 있음을 암시한다. 따라서, RNA-programmable 디아미나제의 유전체-전체 특이성을 프로파일링하는 방법이 필요하다.

실시예 3. 인간 유전체에서 BE3 비표적 sites를 확인하기 위한 Digenome - seq

유전체 전체에 걸쳐 Cas9 뉴클레아제가 DSB를 유도하는 비표적 위치를 확인하기 위한 방법으로, GUIDE-seq (Tsai, S.Q. et al. GUIDE-seq enables genome-wide profiling of 비표적 cleavage by CRISPR-Cas nucleases. Nature biotechnology 33, 187-197 (2015)), HTGTS (Frock, R.L. et al. Genome-wide detection of DNA double-stranded breaks induced by engineered nucleases. Nature biotechnology (2014)), BLESS (Ran, F.A. et al. In vivo genome editing using Staphylococcus aureus Cas9. Nature 520, 186-191 (2015)), 및 IDLV capture (Wang, X. et al. Unbiased detection of 비표적 cleavage by CRISPR-Cas9 and TALENs using integrase-defective lentiviral vectors. Nature biotechnology 33, 175-178 (2015)) 등과 같은 몇 가지 상이한 세포 기반 방법들이 개발되었다. deaminases가 DSB를 생성하지 않기 때문에, 적어도 현재의 형태로는, 상기 방법들 중 어느 것도 programmable deaminases의 유전체 전체 특이성(genome-wide specificities)을 평가하는 데에 적합하지 않다. 적절한 효소를 사용하여 시험관내(in vitro)에서 탈아민화된, 우라실 함유 위치(deaminated, uracil-containing sites)에서 DSB를 생성할 수 있으며, 이때 발생한 DNA 절단 위치는 Cas9와 Cpf1 뉴클레아제의 유전체 전체 특이성을 평가하는데 사용되는 시험관내 방법인 Digenome-seq (digested-genome sequencing; 참조문헌: Kim, D., Kim, S., Kim, S., Park, J. & Kim, J.S. Genome-wide target specificities of CRISPR-Cas9 nucleases revealed by multiplex Digenome-seq. Genome research 26, 406-415 (2016); Kim, D. et al. Genome-wide analysis reveals specificities of Cpf1 endonucleases in human cells. Nature biotechnology 34, 863-868 (2016); Kim, D. et al. Digenome-seq: genome-wide profiling of CRISPR-Cas9 비표적 effects in human cells. Nature methods 12, 237-243, 231 p following 243 (2015))을 통해 확인할 수 있을 것으로 예측된다.

이러한 예측을 확인하기 위하여, 표적 서열을 포함하는 PCR 증폭산물(amplicon)을, 시험관내에서, (1) UGI 도메인이 없는 BE3의 유도체인 재조합 rAPOBEC1-nCas9 단백질 (참고예 2)과 이의 sgRNA와 함께 배양하여, C로부터 U로의 전환 (C-to-U conversions) 및 Watson and Crick strands에서의 절단(nick)을 각각 유도한 후, (2) E. coli Uracil DNA glycosylase (UDG)와 DNA glycosylase-lyase Endonuclease VIII의 혼합물인 USER (Uracil-Specific Excision Reagent)와 함께 배양하여 우라실 위치에서의 틈새(gap)를 생성하여 composite DSB를 발생시켰다 (도 4a 참조). 다음으로, Digenome-seq를 사용하여 BE3 디아미나제의 유전체 전체 표적 특이성을 평가할 수 있는지 여부를 조사하였다. HEK293T 세포로부터 정제된 인간 유전체 DNA를 7 시간 동안 각각 3 회의 BE3 리보뉴클레오타이드 (RNP) (300 nM rAPOBEC1-nCas9 단백질 (참고예 2) 및 900 nM sgRNA)와 함께 배양 한 다음, 3 시간 동안 사용자와 함께 배양 하였다 (도 4a 참조).

도 4a는 이와 같은 BE3 Digenome-seq의 개요를 보여준다. E . coli Uracil DNA glycosylase (UDG)와 DNA glycosylase-lyase Endonuclease VIII의 혼합물인 USER에 의해 BE3-매개 우라실 함유 부위가 절단되는 것을 확인할 수 있다. 도 4b는 BE3 및/또는 USER를 처리한 경우, 절단된 PCR 산물을 보여주는 전기영동 사진이다. 도 4b에 나타난 바와 같이, PCR 증폭산물은 BE3과 USER와 함께 배양할 때 절단됨을 확인할 수 있다.

BE3에 의해 유도 된 C 대 U 전환 및 USER에 의한 우라실 제거는 Sanger 시퀀싱에 의해 확인하였다 (도 4c 참조). 도 4c는 B3에 의한 C 대 U 전환 및 USER에 의한 DNA 절단 결과를 보여주는 Sanger 시퀀싱 결과이다. 각 유전체 DNA 샘플을 end repair 및 adaptor ligation한 후, 전체 유전체 시퀀싱 (WGS)을 수행하였다 (도 4a 참조).

인간 참조 유전체 (human reference genome; hg19)에 대한 서열 정렬 (sequence alignment) 후, 통합 유전체 뷰어 (Integrative Genomics Viewer; IGV)를 사용하여 표적 위치에서의 정렬 패턴을 모니터링하여 그 결과를 도 4d 및 도 5에 나타니었다. 도 4d는 EMX1의 표적 사이트에서의 sequence read의 직선 정렬을 나타내는 IGV 이미지이고, 도 5는 6개의 다른 표적 sites에서의 sequence read의 직선 정렬을 나타내는 IGV 이미지이다. 도 4d 및 도 5에 나타난 바와 같이, 시험관내에서 생성된 DSB와 관련된 시그니처 패턴이 7 개의 표적 위치 모두에서 관찰되었다.

실시예 4. Digenome - seq에 의하여 밝혀진 유전체 전체의 BE3 비표적 사이트

인간 유전체에서 BE3 비표적 위치를 확인하기 위하여, 5' 말단이 정해진 위치에 정렬된 서열 리드의 개수(number of sequence reads)를 기반으로 DNA 절단 점수를 유전체의 각 nt 위치에 할당하고, 발명자들의 이전 연구(Kim, D., Kim, S., Kim, S., Park, J. & Kim, J.S. Genome-wide target specificities of CRISPR-Cas9 nucleases revealed by multiplex Digenome-seq. Genome research 26, 406-415 (2016))에서 동일한 7 sgRNA 세트와 함께 사용되는 Cas9 뉴클레아제의 비표적 위치를 확인하기 위하여 사용된 컷오프 값인 2.5 이상의 점수를 갖는 위치를 모두 나열하였다 (도 6a-d 및 표 2-8).

각 뉴클레오티드의 위치 i (즉 유전체 DNA 상의 뉴클레오타이드 위치)에 DNA 절단 점수를 다음의 수식으로 산출하였다:

상기 수식에서 염기서열 데이터의 수는 뉴클레오타이드 리드 수를 의미하고, 시퀀싱 깊이는 특정 위치에서의 시퀀싱 리드수를 의미하며, C 값은 1로 하였다.

Digenome-captured sites (cleavage site + PAM) 및 DNA 절단 스코어(DNA cleavage score)를 아래의 표 2 내지 8에 나타내었다:

(On target: EMX1_4)

EMX1
ID	Chr	Position	DNA cleavage Score	DNA seq at a cleavage sites	SEQ ID NO	Bulge
EMX1_1	chr15	44109763	30.53	GAGTCtaAGCAGAAGAAGAAGAG	106	x
EMX1_2	chr11	62365273	26.44	GAaTCCaAGCAGAAGAAGAgAAG	107	x
EMX1_3	chr5	9227162	23.66	aAGTCtGAGCAcAAGAAGAATGG	108	x
EMX1_4	chr2	73160998	14.55	GAGTCCGAGCAGAAGAAGAAGGG	31	x
EMX1_5	chr4	131662222	11.14	GAaTCCaAG-AGAAGAAGAATGG	109	RNA bulge
EMX1_6	chr8	128801258	9.60	GAGTCCtAGCAGgAGAAGAAGAG	110	x
EMX1_7	chr19	24250503	8.35	GAGTCCaAGCAGtAGAgGAAGGG	111	x
EMX1_8	chr1	4515013	8.12	GtGTCCtAG-AGAAGAAGAAGGG	112	RNA bulge
EMX1_9	chr1	23720618	5.96	aAGTCCGAGgAGAgGAAGAAAGG	113	x
EMX1_10	chr2	219845072	5.47	GAGgCCGAGCAGAAGAAagACGG	114	x
EMX1_11	chr8	102244551	4.70	agtTCCaAGCAGAAGAAGcATGG	115	x
EMX1_12	chr3	45605387	3.11	GAGTCCacaCAGAAGAAGAAAGA	116	x
EMX1_13	chr16	12321159	3.01	GAGTCCaAG-AGAAGAAGtgAGG	117	RNA bulge
EMX1_14	chr9	111348573	1.56	GAGTCCttG-AGAAGAAGgAAGG	118	RNA bulge
EMX1_15	chr3	5031614	1.50	GAaTCCaAGCAGgAGAAGAAGGA	119	x
EMX1_16	chr14	31216733	1.34	GtacCaGAG-AGAAGAAGAgAGG	120	RNA bulge
EMX1_17	chr14	48932119	1.16	GAGTCCcAGCAaAAGAAGAAAAG	121	x
EMX1_18	chr11	107812992	1.04	aAGTCCaAGt-GAAGAAGAAAGG	122	RNA bulge
EMX1_19	chr12	106646090	1.03	aAGTCCatGCAGAAGAgGAAGGG	123	x
EMX1_20	chr2	71969823	0.80	GAGTCCtAG-AGAAGAAaAAGGG	124	RNA bulge
EMX1_21	chr3	145057362	0.48	GAGTCCct-CAGgAGAAGAAAGG	125	RNA bulge
EMX1_22	chr6	9118799	0.45	acGTCtGAGCAGAAGAAGAATGG	126	x
EMX1_23	chr1	59750259	0.27	GAGTtCcAGaAGAAGAAGAAGAG	127	x
EMX1_24	chr11	79484079	0.22	GAGTCCtAa-AGAAGAAGcAGGG	128	RNA bulge
EMX1_25	chr9	135663403	0.21	cAGTCCaAaCAGAAGAgGAATGG	129	x

(On target sequence: FANCF_2)

FANCF
ID	Chr	Position	DNA Cleavage Score	DNA seq at a cleavage sites	SEQ ID NO	Bulge
FANCF_1	chr10	73463135	13.34	tGAATCCCaTCTcCAGCACCAGG	130	x
FANCF_2	chr11	22647338	7.04	GGAATCCCTTCTGCAGCACCTGG	131	x
FANCF_3	chr10	43410030	6.53	GGAgTCCCTcCTaCAGCACCAGG	132	x
FANCF_4	chr10	37953199	5.67	GGAgTCCCTcCTaCAGCACCAGG	133	x
FANCF_5	chr11	47554037	5.13	GGAATCCCTTCTaCAGCAtCCTG	134	x
FANCF_6	chr16	49671025	3.00	GGAgTCCCTcCTGCAGCACCTGA	135	x
FANCF_7	chr18	8707528	1.26	GGAAcCCCgTCTGCAGCACCAGG	136	x
FANCF_8	chr7	44076496	0.95	GtctcCCCTTCTGCAGCACCAGG	137	x
FANCF_9	chr9	113162294	0.46	aaAATCCCTTCcGCAGCACCTAG	138	x
FANCF_10	chr15	49119756	0.42	tGtATttCTTCTGCctCAggCTG	139	x
FANCF_11	chr2	54853314	0.39	GGAATatCTTCTGCAGCcCCAGG	140	x
FANCF_12	chr8	21374810	0.37	GagtgCCCTgaaGCctCAgCTGG	141	x
FANCF_13	chrX	86355179	0.35	accATCCCTcCTGCAGCACCAGG	142	x
FANCF_14	chr3	35113165	0.20	tGAATCCtaaCTGCAGCACCAGG	143	x
FANCF_15	chr10	3151994	0.13	ctctgtCCTTCTGCAGCACCTGG	144	x

(On target sequence: RNF2_1)

RNF2
ID	Chr	Position	DNA Cleavage Score	DNA seq at a cleavage sites	SEQ ID NO	Bulge
RNF2_1	chr1	185056773	27.66	GTCATCTTAGTCATTACCTGAGG	93	x

(On target sequence: HBB_1)

HBB
ID	Chr	Position	DNA Cleavage Score	DNA seq at a cleavage sites	SEQ ID NO	Bulge
HBB_1	chr11	5248214	17.68	CTTGCCCCACAGGGCAGTAACGG	145	x
HBB_2	chr17	8370252	13.64	tTgctCCCACAGGGCAGTAAACG	146	x
HBB_3	chr12	124803834	10.88	gcTGCCCCACAGGGCAGcAAAGG	147	x
HBB_4	chrX	75006256	2.34	gTgGCCCCACAGGGCAGgAATGG	148	x
HBB_5	chr12	93549201	0.55	aTTGCCCCACgGGGCAGTgACGG	149	x
HBB_6	chr10	95791920	0.27	acTctCCCACAaGGCAGTAAGGG	150	x
HBB_7	chr9	104595883	0.18	tcaGCCCCACAGGGCAGTAAGGG	151	x

(On target sequence: HEK2_2)

HEK2
ID	Chr	Position	DNA Cleavage Score	DNA seq at a cleavage sites	SEQ ID NO	Bulge
HEK2_1	chr4	90522183	18.27	GAACACAAtGCATAGAtTGCCGG	152	x
HEK2_2	chr5	87240613	7.54	GAACACAAAGCATAGACTGCGGG	153	x
HEK2_3	chr2	19844956	0.93	aActcCAAAGCATAtACTGCTGG	154	x

(On target sequence: HEK3_2)

HEK3
ID	Chr	Position	DNA Cleavage Score	DNA seq at a cleavage sites	SEQ ID NO	Bulge
HEK3_1	chr1	47005705	29.27	aGCtCAGACTGAGCAaGTGAGGG	155	x
HEK3_2	chr9	110184636	11.38	GGCCCAGACTGAGCACGTGATGG	156	x
HEK3_3	chr19	882560	10.90	GGCCCAGA--GAGCACGTGtGGG	157	RNA bulge
HEK3_4	chr15	79749930	3.03	caCCCAGACTGAGCACGTGcTGG	158	x
HEK3_5	chr17	34954539	2.10	GGCCCa-ACTGAGCAaGTGATGG	159	RNA bulge
HEK3_6	chrX	114764149	1.66	aGaCCAGACTGAGCAaGaGAGGG	160	x
HEK3_7	chr6	73097166	0.15	GGCCactcaTGgcCACaTacTGG	161	x

(On target sequence: HEK4_1)

HEK4
ID	Chr	Position	DNA Cleavage Score	DNA seq at a cleavage sites	SEQ ID NO	Bulge
HEK4_1	chr20	31349772	19.26	GGCACTGCGGCTGGAGGTGGGGG	162	x
HEK4_2	chr6	160517881	15.45	GGCACTGCtGCTGGgGGTGGTGG	163	x
HEK4_3	chr6	168787137	15.37	GGCACTGCa-CTGGAGGTtGTGG	164	RNA bulge
HEK4_4	chr19	33382081	13.83	GGCtCTGCGGCTGGAGGgGGTGG	165	x
HEK4_5	chr20	60080553	12.71	aGCACTGCaGaTGGAGGaGGCGG	166	x
HEK4_6	chr5	141232853	10.87	GGCACTGCGGCaGGgaGgaGGGG	167	x
HEK4_7	chr20	60010562	10.51	tGCACTGCGGCcGGAGGaGGTGG	168	x
HEK4_8	chr13	70136736	8.76	GGCACT-gGGCTGaAGGTaGAGG	169	RNA bulge
HEK4_9	chr20	1151854	8.41	GGCACTGtGGCTGcAGGTGGAGG	170	x
HEK4_10	chr15	71686928	7.70	tGCtCTGCGGCaGGAGGaGGAGG	171	x
HEK4_11	chr7	1397398	6.71	aGCACTGCaGCTGGgaGTGGAGG	172	x
HEK4_12	chr20	45343010	6.57	GGCACTGaGGgTGGAGGTGGGGG	173	x
HEK4_13	chr8	20854500	5.57	GGCACTGgGGCTGGAGacGGGGG	174	x
HEK4_14	chr7	54561437	5.40	aGgACTGCGGCTGGgGGTGGTGG	175	x
HEK4_15	chr15	60790561	5.29	GGCACTGCaaCTGGAaGTGaTGG	176	x
HEK4_16	chr13	27629410	4.40	GGCACTGgGGtTGGAGGTGGGGG	177	x
HEK4_17	chr7	110143150	3.69	GcCACTGCaGCTaGAGGTGGAGG	178	x
HEK4_18	chr7	139244406	3.59	GcCACTGCGaCTGGAGGaGGGGG	179	x
HEK4_19	chr19	2474643	3.56	GGCACTG-GGCTGGAGGcGGGGG	180	RNA bulge
HEK4_20	chr2	6961255	3.17	aGCtCTGCGGCaGGAGtTGGAGG	181	x
HEK4_21	chr17	75429280	2.90	GaCACcaCGGCTGGAGaTGGTGG	182	x
HEK4_22	chr7	17979717	2.66	GcactgGCaGCcGGAGGTGGTGG	183	DNA bulge
HEK4_23	chr9	5020590	2.64	tGCACTGCaGCTGcAGGTGGAGG	184	x
HEK4_24	chrX	122479548	2.52	GGCACTG-GGCTGGAGaTGGAGG	185	RNA bulge
HEK4_25	chr12	104739608	2.48	ccttCTGCGGCTGGAaGTGGTGG	186	x
HEK4_26	chr17	40693638	2.38	GcactgcaGGCaGGAGGTGaGTG	187	DNA bulge
HEK4_27	chr8	144781301	2.38	GaCACTGCaGCTGGAGGTGGGGT	188	x
HEK4_28	chr9	74103955	2.36	GGCACTGCaGCaGGgGaTGGGGG	189	x
HEK4_29	chr18	37194558	2.31	GGCACTGCGGgTGGAGGcGGGGG	190	x
HEK4_30	chr20	60895671	2.12	GGCACaGCaGCTGGAGGTGcTGG	191	x
HEK4_31	chr12	113935460	1.63	GGCcCTGCGGCTGGAGaTatGGG	192	x
HEK4_32	chrX	70597642	1.57	GaCACTGC-tCTGGAGGTGGTGG	193	RNA bulge
HEK4_33	chr15	41044242	1.31	GGCgCTGCGGCgGGAGGTGGAGG	194	x
HEK4_34	chr17	176302	1.18	tGCACTGtGGCTGGAGaTGGGGG	195	x
HEK4_35	chr10	77103119	1.15	GGCAtcaCGGCTGGAGGTGGAGG	196	x
HEK4_36	chr7	134872032	0.93	aGCACTGtGGCTGGgGGaGGCGG	197	x
HEK4_37	chr9	133039175	0.86	GtCACTGCaGCTGGAGGaGGGGG	198	x
HEK4_38	chr10	73435248	0.79	GtaACTGCGGCTGGcGGTGGTGG	199	x
HEK4_39	chr14	21993455	0.78	GGtACaGCGGCTGGgGGaGGCGG	200	x
HEK4_40	chr17	29815563	0.59	GGCgCTGCGGCcGGAGGTGGGGC	201	x
HEK4_41	chr16	50300346	0.56	aGCACTGtGGCTGGgGGaGGGGG	202	x
HEK4_42	chr11	78127584	0.53	tGCACTGCaGCTGGAGGcaaCGG	203	x
HEK4_43	chr19	1295086	0.52	GaCACTGaGGCaGGAGGTGGGGG	204	x
HEK4_44	chr2	162283033	0.51	GGCAtctgGGCTGGgGGTaGGGG	205	x
HEK4_45	chr20	24376056	0.47	GGCACTGaGaCcaGAGGTGGTGG	206	x
HEK4_46	chr16	1029977	0.42	GGCACTGCaGacGGAGGTGtGGG	207	x
HEK4_47	chr19	47503406	0.39	GGCACTG-GGCTGGAGGgGaGAG	208	RNA bulge
HEK4_48	chr2	231467380	0.39	GGCACTGCaGCTGGgGGTtGGTG	209	x
HEK4_49	chr10	13692636	0.38	GGCACTGgGGCTGGgGGaGGGGG	210	x
HEK4_50	chr1	32471659	0.34	GGCACTtCaGCTGGAGGcaGAGG	211	x
HEK4_51	chr17	8634933	0.33	GGCACat-GGaTGGAGGTGGAGG	212	RNA bulge
HEK4_52	chr6	83388605	0.30	aGCACTGtGG-TGGAGGTGGAGG	213	RNA bulge
HEK4_53	chr10	27700491	0.29	GGCACTG-GGtTGGgGGTGGTGG	214	RNA bulge
HEK4_54	chr1	143662284	0.27	GGCACat-GGCTGGgGGTGGTGG	215	RNA bulge
HEK4_55	chr16	49777696	0.22	tGCACTGCGaCTGGAGGgaGAGG	216	x
HEK4_56	chr19	38616186	0.19	GGCACTGaGaCTGGgGGTGGGGG	217	x
HEK4_57	chr10	126752487	0.18	GGCACTGCaGCctGgGGgtGGGG	218	x
HEK4_58	chr16	28266968	0.17	GGCtCTtCGGCTGGAGGTaGCGG	219	x
HEK4_59	chr2	149886210	0.15	GaCACTG-GGCTGGAGGTtGCGG	220	RNA bulge
HEK4_60	chr20	37471343	0.15	aGCACTGtGcCTGGgGGTGGGGG	221	x
HEK4_61	chr12	53453556	0.13	tGgACTGCGGCTGGAGagGGAGG	222	x
HEK4_62	chr15	30501337	0.13	GGCACTG-GGCTGGAtGTGGTGG	223	RNA bulge
HEK4_63	chr5	139284047	0.12	GGCACTGaGGCTGcAGGcGGCGG	224	x
HEK4_64	chr8	119227145	0.12	GGCACaatGGCTGGAGGTGaAGG	225	x
HEK4_65	chr14	95761249	0.11	GGCACTctGGCTGGAGcTGGGGG	226	x
HEK4_66	chr3	23651529	0.11	GGCACaGCaGgTGGAGGTGGAGG	227	x
HEK4_67	chr12	9287415	0.10	GGCtCTGCaGCcaGgGGTGGAGG	228	x

(표 2 내지 표 8에서 소문자로 표시된 염기는 on-target 서열에 대한 mismatched base를 나타낸다)

도 6a 및 6b는 손상되지 않은 유전체 DNA (회색; 중앙부로부터 첫 번째 layer)와 BE3 및 USER (파란색; 중앙부로부터 2 번째 layer) 또는 Cas9 (빨간색; 중앙부로부터 3 번째 layer; 도 6b에만 있음)로 분해된 유전체 DNA로 얻은 DNA 절단 점수를 나타내는 Genome-wide circus plot로서, 화살표는 타겟 사이트를 나타낸다. 도 6c 및 6d는 Digenome-capture sites(표 2-8)에서 DNA 서열을 사용하여 WebLogo를 통해 얻은 서열 로고 (DNA 분해 점수> 2.5)를 나타내고, 도 6e 및 6f는 표적 심부 시퀀싱을 이용하여 결정된 Cas9 매개 indel 빈도와 BE3 매개 치환 빈도의 Scatterplot를 나타내는 것으로, 원으로 표시된 점들은 BE3에 의해 확인되었지만 Cas9에 의해 유효한 효과가 없는 비표적 사이트를 나타낸다. 도 6g 및 6h는 표적 심부 시퀀싱에 의해 HEK293T 세포에서 확인 된 BE3 비표적 사이트를 보여주는 것으로, PAM 서열은 3' 말단의 마지막 3개 뉴클레오타이드이고, mismatched base는 소문자로 표시하였으며, 대시(-)는 RNA bulges를 나타낸다 (Error bars indicate s.e.m. (n = 3)).

상기 심부 시퀀싱에 사용된 프라이머를 아래의 표 9 내지 표 15에 정리하였다:

RNF2
ID	1st PCR		2nd PCR
	Forward (5'to3')	Reverse (5'to3')	Forward (5'to3')	Reverse (5'to3')
RNF2_1 (on target)	CCATAGCACTTCCCTTCCAA	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGCCAACATACAGAAGTCAGGAA	ACACTCTTTCCCTACACGACGCTCTTCCGATCTATTTCCAGCAATGTCTCAGG	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGCCAACATACAGAAGTCAGGAA

HBB
ID	1st PCR		2nd PCR
ID	Forward (5'to3')	Reverse (5'to3')	Forward (5'to3')	Reverse (5'to3')
HBB_1 (on target)	GGCAGAGAGAGTCAGTGCCTA	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCAGGGCTGGGCATAAAAGT	ACACTCTTTCCCTACACGACGCTCTTCCGATCTGTCTCCACATGCCCAGTTTC	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCAGGGCTGGGCATAAAAGT
HBB_2	ACACTCTTTCCCTACACGACGCTCTTCCGATCTCCTACAGCCTGCGAGGAATA	GTGGGTGTCCTGGGTTGTT	ACACTCTTTCCCTACACGACGCTCTTCCGATCTCCTACAGCCTGCGAGGAATA	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCACCTGGAGGCTAGGCACT
HBB_3	CCCACACAGGTTTTCTCCTC	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCTAGGCCTTCACCTGGAACC	ACACTCTTTCCCTACACGACGCTCTTCCGATCTCTTCCCTAGACCTGCCTCCT	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCTAGGCCTTCACCTGGAACC
HBB_4	ACACTCTTTCCCTACACGACGCTCTTCCGATCTTTGTGTAACAGCCACTCACCA	CAGAAAATAAAGCAGCTGACTCAC	ACACTCTTTCCCTACACGACGCTCTTCCGATCTTTGTGTAACAGCCACTCACCA	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCCTGGCAAAAGTGTTTGGAT
HBB_5	TTTGCATTCCTTTTAGCTTCTTTT	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGCTACCACGGTGACAGTAACA	ACACTCTTTCCCTACACGACGCTCTTCCGATCTATGGCTGTTATTCAGGGAAA	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGCTACCACGGTGACAGTAACA
HBB_6	ACACTCTTTCCCTACACGACGCTCTTCCGATCTTCCACTTTGTTAGTCAGGAGATTC	AAATGGTAAAAAGAAACTCAAATGC	ACACTCTTTCCCTACACGACGCTCTTCCGATCTTCCACTTTGTTAGTCAGGAGATTC	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGGATACCACTGGGCTTCTGA
HBB_7	TTCAAATCTGGAAAATAATCTATCACC	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTATTTCCAGGCTATGCTTCCA	ACACTCTTTCCCTACACGACGCTCTTCCGATCTTTTCATACCCTTTCCCGTTC	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTATTTCCAGGCTATGCTTCCA

HEK2
ID	1st PCR		2nd PCR
ID	Forward (5'to3')	Reverse (5'to3')	Forward (5'to3')	Reverse (5'to3')
HEK2_1	ACACTCTTTCCCTACACGACGCTCTTCCGATCTCGTACTATGCAAGCCACATTG	TTTTCTTGTGAAACAGAAATGTCA	ACACTCTTTCCCTACACGACGCTCTTCCGATCTCGTACTATGCAAGCCACATTG	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAATGCTCCCACACCATTTTT
HEK2_2 (on target)	ACACTCTTTCCCTACACGACGCTCTTCCGATCTAGGACGTCTGCCCAATATGT	TTCCCAAGTGAGAAGCCAGT	ACACTCTTTCCCTACACGACGCTCTTCCGATCTAGGACGTCTGCCCAATATGT	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAAAATTGTCCAGCCCCATCT
HEK2_3	ATTTACAAAACTTAGGAGAATCAAAGG	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCAGCTGCTGTTATCCTTCCTC	ACACTCTTTCCCTACACGACGCTCTTCCGATCTTCAAAGGAAAAGCAACGTGA	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCAGCTGCTGTTATCCTTCCTC

HEK3
ID	1st PCR		2nd PCR
ID	Forward (5'to3')	Reverse (5'to3')	Forward (5'to3')	Reverse (5'to3')
HEK3_1	GCAGTTGCTTGACTAGAGGTAGC	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGTGATGTGGGAGGTTCCTG	ACACTCTTTCCCTACACGACGCTCTTCCGATCTTCCAGATTCCTGGTCCAAAG	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGTGATGTGGGAGGTTCCTG
HEK3_2 (on target)	AAGGCATGGATGAGAGAAGC	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCTCCCTAGGTGCTGGCTTC	ACACTCTTTCCCTACACGACGCTCTTCCGATCTAAACGCCCATGCAATTAGTC	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCTCCCTAGGTGCTGGCTTC
HEK3_3	CTCAGGAGGCTGAGGTAGGA	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTACGTGTCTGCGGTTAGCAG	ACACTCTTTCCCTACACGACGCTCTTCCGATCTAGGAAGATGAGGCTGCAGTG	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTACGTGTCTGCGGTTAGCAG
HEK3_4	TTATGCGGCAAAACAAAATG	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTCGTCGCTGACAATTTCTGA	ACACTCTTTCCCTACACGACGCTCTTCCGATCTGATCTCATCCCCTGTTGACC	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTCGTCGCTGACAATTTCTGA
HEK3_5	TGTTATCAACTGGGGGTTGC	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTCCTTCATGGACTGGTAGGC	ACACTCTTTCCCTACACGACGCTCTTCCGATCTAGAGGGGCATCTCGTGTAGA	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTCCTTCATGGACTGGTAGGC
HEK3_6	ACACTCTTTCCCTACACGACGCTCTTCCGATCTTGTGTGCATGGTTCATCTCC	AAGCTATGATGTGATGTGACTGG	ACACTCTTTCCCTACACGACGCTCTTCCGATCTTGTGTGCATGGTTCATCTCC	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCATGGTGTCTCACCCCTGTA
HEK3_7	GCCATGATCCTCGTGATTTT	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTACTTACCGAAGGCAGGGACT	ACACTCTTTCCCTACACGACGCTCTTCCGATCTTCTCATGCTGTCTTGGATAAACA	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTACTTACCGAAGGCAGGGACT

도 7은 Cas9 뉴클레아제- 및 base editor-처리 유전체 DNA의 Digenome-seq에 의해 확인된 DNA 절단 점수가 2.5 이상인 부위의 수를 보여주는 벤 다이어그램이다.

상기 결과에서 알 수 있는 바와 같이, 7 개의 표적 유전자에 대하여 BE3 디아미나제와 USER를 함께 사용하는 경우, 시험관 내에서, 단 1-24 (8±3) 위치에서 인간 유전체 DNA를 절단하였으며, 이는 다중 Digenome-seq 분석(Kim, D., Kim, S., Kim, S., Park, J. & Kim, J.S. Genome-wide target specificities of CRISPR-Cas9 nucleases revealed by multiplex Digenome-seq. Genome research 26, 406-415 (2016))에서 동일한 sgRNA 세트와 함께 사용되는 Cas9 뉴클레아제의 절단 위치 (70±30 위치)보다 훨씬 적은 수준이다 (도 7). 즉, BE3는 Cas9보다 비표적 사이트를 절단할 잠재성이 낮다고 할 수 있다. Digenome으로 확인 된 위치를 비교하여 얻은 서열 로고(Sequence logos)는 PAM-원위 영역과 PAM-근위 영역 모두 BE3 디아미나제의 특이성에 기여하는 것으로 확인되었다 (도 6c, d).

잠재적인 비표적 위치를 보다 포괄적으로 식별하기 위해 컴퓨터 프로그램을 개선하였다 (Digenome 2.0이라고 함). 이를 보다 상세히 설명하면 다음과 같다: DNA 절단 점수가 0.0001에서 10 사이의 컷오프 값 이상인 위치의 개수와, 상기 컷오프 값 이상의 점수를 갖는 위치들 중에서, 표적 위치와 비교한, 10 이하의 미스매치를 가지며 PAM (5'-NGN-3' 또는 5'-NNG-3')을 가지고 있는 후보군의 개수를 계산하였다 (도 8). 도 8은 DNA 절단 점수의 범위에 대한 총 사이트 수 (■)와 10 개 이하의 mismatches (□)가 있는 PAM 함유 사이트 수를 보여주는 그래프이다. 이는 손상되지 않은 인간 유전체 DNA (왼쪽)와 BE3 및 USER (오른쪽)에 의해 분해된 유전체 DNA에 대하여 전체 유전체 시퀀싱 (whole genome sequencing )을 수행하여 얻어진 결과이다. 도 8에 나타난 바와 같이, BE3와 USER로 처리되지 않아서 손상되지 않은 유전체 DNA를 음성대조군으로 사용하여 얻은 WGS 데이터가 컷오프 점수가 0.1인 경우 false-positive sites를 생성하지 않았으므로, 컷오프 점수 0.1을 선택하였다 (도 8). 이러한 결과에 기초하여, Digenome 2.0에 의한 비표적 위치 결정에서는 DNA cleavage score가 0.1 이상이며 10 이하의 미스매치를 가지고 PAM (5'-NGN-3' 또는 5'-NNG-3') 을 가지고 있는 site를 비표적 위치로 결정한다. 한편, Digenome 1.0에 의한 비표적 위치 결정에서는 DNA cleavage score가 2.5 이상인 site를 비표적 위치 후보군으로 결정한다.

Digenome 2.0을 사용하여, 이전의 연구(Kim, D., Kim, S., Kim, S., Park, J. & Kim, J.S. Genome-wide target specificities of CRISPR-Cas9 nucleases revealed by multiplex Digenome-seq. Genome Res (2016))에서 놓쳤으나 EMX1에 특이적인 Cas9를 사용하여 HTGTS 및 GUIDE-seq에 의해 캡쳐된 두 개의 사이트를 포함하여, 추가적인 BE3- 및 Cas9-관련 DNA 절단 위치를 확인할 수 있다. 도 9는 Cas9 nuclease- 및 Base editor- 처리 유전체 DNA의 Digenome-seq에 의해 확인 된 0.1 이상의 DNA 절단 점수를 갖는 PAM-포함 상동성 부위의 수를 보여주는 벤다이어그램이다. BE3 디아미나제는 in vitro에서 1-67 (18±9) 위치에서 염기 전환을 유도하는 반면, Cas9 뉴클레아제는 30-241 (90±30) 위치에서 유전체 DNA를 절단하였다.

실시예 5. Digenome - seq에 의하여 포획된 상동성 부위 (homologous sites)의 비율

도 7및 도 9에 나타난 BE3-관련 위치 및 Cas9-관련 위치를 보다 상세히 조사하였다. 도 10은 Digenome-seq에 의해 포획된 상동성 부위의 비율을 보여주는 것으로, 막대는 표적(표적) 부위와 6 nt까지 다른 상동성 부위의 수를 나타내고, 사각형 (BE3)과 삼각형 (Cas9)은 미스매치 숫자의 범위에 대해 Digenome-seq 포획 사이트의 비율을 나타낸다. 도 10에 나타난 바와 같이, mismatch의 개수와 관계없이, Cas9를 사용하는 경우와 비교하여, BE3를 사용하는 경우에 Digenome-seq에 의해 확인되는 homologous sites가 더 적었다.

도 11a 및 11b는 Digenome 1.0 (11a) 및 Digenome 2.0 (11b)에 의해 확인 된 BE3-와 Cas9-관련 사이트의 수 사이의 상관관계를 보여주는 그래프이다. 도 11a 및 11b에 나타난 바와 같이, Cas9-관련 위치와 BE3-관련 위치의 개수 사이에 통계적으로 유의한 상관 관계가 확인되었다 (R ² =0.97 (Score>2.5, Digenome 1.0) 또는 0.86 (Digenome 2.0)). 이러한 결과는 sgRNA가 Cas9 특이성과 BE3 특이성 모두의 1차적 결정 인자 (primary determinants)임을 제안한다.

또한, 도 12a 및 12b는 Digenome 1.0 (a) 또는 Digenome 2.0 (b)에 의해 확인 된 BE3 관련 사이트의 수와 6 개 이하의 미스매치가있는 사이트의 수 사이의 상관 관계를 보여준다. 도 12a 및 12b에 나타난 바와 같이, BE3 관련 Digenome 포획 부위의 수와 인간 유전체에서 6 이하의 미스매치를 갖는 상동성 부위(homologous 사이트) ("orthogonality")의 수 사이에 강한 상관 관계 [R2 = 0.94 (Digenome 1.0) 또는 0.95 (Digenome 2.0)]가 있음을 확인하였다. 특히 흥미로운 것은 BE3 단독 또는 Cas9 단독과 관련 있다는 것이다. 흥미롭게도, DNA-gRNA 경계면에서 각각 RNA 또는 DNA bulge를 생산하는 각각의 표적 사이트와 비교했을 때, BE3 단독과 관련된 사이트의 69% (=18/26)가 일부가 결실되거나 연장된 뉴클레오타이드(missing or extra nucleotides)를 가지고 있다 (표 1). 대조적으로, 이러한 bulge-type 비표적 sites는 Cas9 관련 부위에서는 드문 경우이다. Cas9와 관련된 사이트의 4% (=25/647)만 일부 결실되거나 연장된 뉴클레오타이드를 갖는 것으로 나타났다.

도 13은 positions 4-9에 시토신이 없는 Cas9에만 관련된 Digenome-포획된 비표적 사이트의 예를 보여준다. Cas9 단독과 관련된 사이트의 13% (=73/548)는 BE3 매개 deamination의 창(window) (도 13)인, positions 4-8 (5'에서 3'방향으로 1-20로 번호 매겨짐)의 위치에 시토신을 갖지 않는다.

Digenome-seq에 의해 확인된 BE3-관련 사이트에서 비표적 효과를 확인하기 위하여, HEK293T 세포에서 표적 심부 시퀀싱(targeted deep sequencing)을 수행하고 BE3 유도 치환 빈도와 Cas9 유도 indel 빈도를 측정하여, 앞서 설명한 도 6e 내지 6h 및 다음의 표 16에 나타내었다.

[표 16]

Digenome-seq에 의하여 포획된 표적 부위 및 비표적 부위에서의 Cas9 및 BE3의 돌연변이 빈도

7 개의 sgRNA를 사용하여 확인 된 총 75 개의 사이트를 분석하고, 7개의 표적 sites 모두를 포함하여, 시퀀싱 오류 (일반적으로 0.1 ~ 2 %의 범위 내)로 인한 노이즈 수준을 초과하는 빈도를 갖는 50 개 사이트에서 BE3 유도 점 돌연변이를 관찰하였다 (유효성 검사 비율은 67%). BE3는 background noise 수준보다 낮은 빈도를 갖는 다른 BE3-관련 Digenome-양성 부위에서 여전히 돌연변이를 유도할 수 있다. 중요한 점은, base editing이 0.1 %의 빈도로 검출되는 BE3 비표적 sites를 확인할 수 있으며, 이는 Digenome-seq은 매우 민감한 방법이라는 것을 보여 준다. Cas9 뉴클레아제는 Cas9와 BE3 모두와 연관된 사이트의 70 % (= 44/63)에서 indels을 검출 가능한 정도로 유도하지만, BE3 단독과 관련된 12 개의 각각의 사이트에서는 이러한 활성을 나타내지 않았다 (표 2-8).

도 14a 내지 14c는 3 개의 다른 Cas9 뉴클레아제와 관련된 Digenome-captured 사이트의 염기 교정 효율을 보여준다. 도 14a 내지 14c에 나타난 바와 같이, BE3은 3 개의 상이한 Cas9 뉴클레아제 단독과 관련된 24 개의 Digenome-양성 부위에서 검출 가능한 치환을 야기하지 않았다. 또한, 도 15a 내지 15c는 Digenome-음성 사이트에서 3 가지 서로 다른 BE3 디아미나제의 염기 교정 효율을 보여준다. 도 15a 내지 15c에 나타난 바와 같이, 상기 3개의 BE3 디아미나제는 Cas-OFFinder(Bae, S., Park, J. & Kim, J.S. Cas-OFFinder: A fast and versatile algorithm that searches for potential 비표적 sites of Cas9 RNA-guided endonucleases. Bioinformatics (2014))를 사용하여 식별된 ≤ 3 개 미스매치를 갖는 28 개 Digenome 음성 사이트에서 base editing을 유도하지 못하였다 (도 15a-15c). BE3 유도 치환의 빈도는 Cas9 매개 indels 빈도와 높은 상관성을 나타내었다 [R² = 0.92 (EMX1) 또는 0.89 (HBB)] (도 6e, f). 그럼에도 불구하고, BE3에 의해 검증되지만 Cas9에 의해서는 검증되지 않은 비표적 사이트가 다수 존재한다. 이러한 유효성이 확인된 BE3 독점 오프 타겟 사이트 (BE3-exclusive 비표적 sites) 중 64 % (= 7/11)는 이들 각각의 표적 sites와 비교하여 일부 결실된 뉴클레오타이드를 갖는다. 이러한 결과는 Cas9와 BE3의 비표적 사이트가 많은 부위에서 서로 중첩되지만, Cas9 단독 또는 BE3 단독과는 서로 배타적으로 관련된 비표적 사이트가 있다는 것을 보여준다 (도 10).

실시예 6. 변형 sgRNA를 통한 BE3 비표적 효과의 감소

BE3 비표적 효과를 줄이기 위해, 기존의 sgRNA (gX19 또는 GX19; g 및 G는 각각 mismatched 및 matched 구아닌을 의미함)을 truncated sgRNAs (gX₁₈ 또는 gX₁₇에서 종결됨) 또는 5' 말단에 하나 또는 2개의 구아닌을 추가로 포함하는 연장 (extended) sgRNA (gX20 또는 ggX20이라고 칭함)로 대체하고 HEK293T 세포에서의 표적 및 비표적 base-editing 빈도를 측정하여 그 결과를 도 16 내지 도 17 및 표 17에 나타내었다.

[표 17]

변형 sgRNA를 통한 BE3 비표적 효과 분석

도 16a는 기존 sgRNA (gX19 sgRNA), 절단된 (truncated) sgRNA (gX18 또는 gX17 sgRNA) 및 연장(extended) sgRNA (gX20 또는 ggX20 sgRNA)를 도식적으로 보여준다. 도 16b는 HEK293T 세포의 HBB 표적 사이트 및 비표적 사이트의 염기 교정 빈도를 표적 심독 시퀀싱으로 측정한 결과를 보여준다. 특이성 비율 (specificity ratio)은 표적 (on-target) 위치에서의 염기 교정 빈도를 표적 밖(off-target)의 위치에서의 염기 교정 빈도로 나누어 계산하였다. heatmap은 기존의 sgRNA와 비교하여 변형 된 sgRNA의 상대적 특이성을 나타낸다.

도 17은 변형된 sgRNA를 사용하여 BE3 비표적 효과를 감소시킬 수 있음을 보여주는 것으로, 17a는 기존의 sgRNA (GX19 sgRNA)와 변형된 sgRNA (GX17 sgRNA, gX18 sgRNA, gX20 sgRNA 및 ggX20 sgRNA)의 개략적으로 보여주고, 도 17b는 HEK293T 세포에서 표적 심층 시퀀싱에 의해 EMX1 표적 사이트 및 비표적 사이트에서 측정된 염기 교정 효율(빈도)를 보여주는 결과이다.

도 16a, 16b, 17a, 및 17b에 나타난 바와 같이, Truncated sgRNAs는 많은 위치에서 비표적 효과를 감소시켰지만, 5' 말단에 미스매치를 갖는 사이트에서는 비표적 효과가 악화되었다 (도 16b 및 도 17b에서 별표로 표시됨). 연장 sgRNA는 표적 효과는 유지하면서 거의 모든 사이트에서 비표적 효과를 감소시켰다. 흥미롭게도, 연장된 sgRNA 중 일부는 기존의 sgRNA보다 표적 부위에서 보다 높은 활성을 나타내었다 (표 17). 감쇄된(attenuated) Cas9 변이체의 사용 또는 플라스미드보다는 BE3 RNP를 전달함으로써 base editing 의 유전체-전체 특이성을 보다 향상시킬 수 있다.

요약하면, 미스매치 sgRNAs, Digenome-seq 및 표적 심층 시퀀싱을 사용하여 얻은 결과는 BE3 디아미나제가 고도로 특이적으로 in vitro에서의 C-U 전환 및 인간 세포에서 인간 유전체의 제한된 개수의 위치에서의 base editing을 촉매하는 것으로 나타났다. 또한 BE3 및 Cas9 오프 타겟 사이트가 항상 일치하는 것은 아니며, 따라서 각 유전자 편집 도구에 대해서 독립적인 평가가 이루어져야 함을 확인하였다. 우리는 우리의 결과와 방법이 연구 및 의학에서 RNA 유도 프로그램 가능한 디아미나제의 광범위한 사용을 촉진할 것으로 기대한다.

실시예 7. BE1 (rAPOBEC1-dCas9)-매개 이중 가닥 절단 (DSBs)

표적 서열 (ENX1 on-target 서열; 서열번호 31)을 함유하는 PCR amplicon을 in vitro에서 BE1 (rAPOBEC1-dCas9; 실시예 2)와 sgRNA (서열번호 31를 표적화하는 sgRNA)와 함께 배양하여 표적 서열 내 시토신을 우라실로 변환시켰다. rAPOBEC1에 의해 변환된 Uracil은 USER (Uracil-Specific Excision Reagent) Enzyme (New England Biolabs)를 처리하여 제거하였다. 그 후, S1 뉴클레아제 (Catalog #M5761; Promega)를 처리하여 단일 가닥 DNA 부위의 phophodiester 결합을 절단하여 시토신이 제거 된 부위에서 DSB를 생성하였다 (도 22의 a).

상기 반응이 완료된 PCR ampicon을 전기영동한 결과, BE1/sgRNA, USER 및 S1 Nuclease 처리에 의해 절단 생성되었음이 확인되었다 (도 22의 b).

이상의 설명으로부터, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 이와 관련하여, 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허 청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

<110> TOOLGEN INCORPORATED Seoul National University R&DB Foundation <120> Method of identifying base editing by cytosine deaminase in DNA <130> DPP20173771KR <150> US 62/393,682 <151> 2016-09-13 <150> US 62/445,310 <151> 2017-01-12 <160> 232 <170> KopatentIn 2.0 <210> 1 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of EMX1 mismatched sgRNAs (off-target sequence) <400> 1 ggactcgagc agaagaagaa ggg 23 <210> 2 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of EMX1 mismatched sgRNAs (off-target sequence) <400> 2 gagtttaggc agaagaagaa ggg 23 <210> 3 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of EMX1 mismatched sgRNAs (off-target sequence) <400> 3 gagtccgaat gaaagaagaa ggg 23 <210> 4 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of EMX1 mismatched sgRNAs (off-target sequence) <400> 4 gagtccgagc agggagagaa ggg 23 <210> 5 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of EMX1 mismatched sgRNAs (off-target sequence) <400> 5 gagtccgagc agaagagagg ggg 23 <210> 6 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of EMX1 mismatched sgRNAs (off-target sequence) <400> 6 gaactcgagc agaagaagaa ggg 23 <210> 7 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of EMX1 mismatched sgRNAs (off-target sequence) <400> 7 gagtctaggc agaagaagaa ggg 23 <210> 8 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of EMX1 mismatched sgRNAs (off-target sequence) <400> 8 gagtccgaat ggaagaagaa ggg 23 <210> 9 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of EMX1 mismatched sgRNAs (off-target sequence) <400> 9 gagtccgagc aagggaagaa ggg 23 <210> 10 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of EMX1 mismatched sgRNAs (off-target sequence) <400> 10 gagtccgagc agaaagggaa ggg 23 <210> 11 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of EMX1 mismatched sgRNAs (off-target sequence) <400> 11 gagtccgagc agaagaaagg ggg 23 <210> 12 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of EMX1 mismatched sgRNAs (off-target sequence) <400> 12 gaacccgagc agaagaagaa ggg 23 <210> 13 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of EMX1 mismatched sgRNAs (off-target sequence) <400> 13 gagtttgagc agaagaagaa ggg 23 <210> 14 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of EMX1 mismatched sgRNAs (off-target sequence) <400> 14 gagtccaggc agaagaagaa ggg 23 <210> 15 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of EMX1 mismatched sgRNAs (off-target sequence) <400> 15 gagtccgaat agaagaagaa ggg 23 <210> 16 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of EMX1 mismatched sgRNAs (off-target sequence) <400> 16 gagtccgagc gaaagaagaa ggg 23 <210> 17 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of EMX1 mismatched sgRNAs (off-target sequence) <400> 17 gagtccgagc aggggaagaa ggg 23 <210> 18 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of EMX1 mismatched sgRNAs (off-target sequence) <400> 18 gagtccgagc agaaagagaa ggg 23 <210> 19 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of EMX1 mismatched sgRNAs (off-target sequence) <400> 19 gagtccgagc agaagagaaa ggg 23 <210> 20 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of EMX1 mismatched sgRNAs (off-target sequence) <400> 20 gagtccgagc agaagaaggg ggg 23 <210> 21 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of EMX1 mismatched sgRNAs (off-target sequence) <400> 21 gggtccgagc agaagaagaa ggg 23 <210> 22 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of EMX1 mismatched sgRNAs (off-target sequence) <400> 22 gagcccgagc agaagaagaa ggg 23 <210> 23 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of EMX1 mismatched sgRNAs (off-target sequence) <400> 23 gagtctgagc agaagaagaa ggg 23 <210> 24 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of EMX1 mismatched sgRNAs (off-target sequence) <400> 24 gagtccgggc agaagaagaa ggg 23 <210> 25 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of EMX1 mismatched sgRNAs (off-target sequence) <400> 25 gagtccgagt agaagaagaa ggg 23 <210> 26 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of EMX1 mismatched sgRNAs (off-target sequence) <400> 26 gagtccgagc aaaagaagaa ggg 23 <210> 27 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of EMX1 mismatched sgRNAs (off-target sequence) <400> 27 gagtccgagc agaggaagaa ggg 23 <210> 28 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of EMX1 mismatched sgRNAs (off-target sequence) <400> 28 gagtccgagc agaaggagaa ggg 23 <210> 29 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of EMX1 mismatched sgRNAs (off-target sequence) <400> 29 gagtccgagc agaagaaaaa ggg 23 <210> 30 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of EMX1 mismatched sgRNAs (off-target sequence) <400> 30 gagtccgagc agaagaagag ggg 23 <210> 31 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of EMX1 mismatched sgRNAs (on-target sequence) <400> 31 gagtccgagc agaagaagaa ggg 23 <210> 32 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of HBB mismatched sgRNAs (off-target sequence) <400> 32 gccatcccac agggcagtaa cgg 23 <210> 33 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of HBB mismatched sgRNAs (off-target sequence) <400> 33 gttgttttac agggcagtaa cgg 23 <210> 34 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of HBB mismatched sgRNAs (off-target sequence) <400> 34 gttgccccgt gaggcagtaa cgg 23 <210> 35 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of HBB mismatched sgRNAs (off-target sequence) <400> 35 gttgccccac agaatggtaa cgg 23 <210> 36 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of HBB mismatched sgRNAs (off-target sequence) <400> 36 gttgccccac agggcaacgg cgg 23 <210> 37 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of HBB mismatched sgRNAs (off-target sequence) <400> 37 gtcatcccac agggcagtaa cgg 23 <210> 38 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of HBB mismatched sgRNAs (off-target sequence) <400> 38 gttgctttac agggcagtaa cgg 23 <210> 39 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of HBB mismatched sgRNAs (off-target sequence) <400> 39 gttgccccgt ggggcagtaa cgg 23 <210> 40 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of HBB mismatched sgRNAs (off-target sequence) <400> 40 gttgccccac aaaacagtaa cgg 23 <210> 41 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of HBB mismatched sgRNAs (off-target sequence) <400> 41 gttgccccac agggtgataa cgg 23 <210> 42 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of HBB mismatched sgRNAs (off-target sequence) <400> 42 gttgccccac agggcagcgg cgg 23 <210> 43 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of HBB mismatched sgRNAs (off-target sequence) <400> 43 gtcaccccac agggcagtaa cgg 23 <210> 44 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of HBB mismatched sgRNAs (off-target sequence) <400> 44 gttgttccac agggcagtaa cgg 23 <210> 45 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of HBB mismatched sgRNAs (off-target sequence) <400> 45 gttgccttac agggcagtaa cgg 23 <210> 46 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of HBB mismatched sgRNAs (off-target sequence) <400> 46 gttgccccgt agggcagtaa cgg 23 <210> 47 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of HBB mismatched sgRNAs (off-target sequence) <400> 47 gttgccccac gaggcagtaa cgg 23 <210> 48 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of HBB mismatched sgRNAs (off-target sequence) <400> 48 gttgccccac agaacagtaa cgg 23 <210> 49 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of HBB mismatched sgRNAs (off-target sequence) <400> 49 gttgccccac agggtggtaa cgg 23 <210> 50 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of HBB mismatched sgRNAs (off-target sequence) <400> 50 gttgccccac agggcaacaa cgg 23 <210> 51 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of HBB mismatched sgRNAs (off-target sequence) <400> 51 gttgccccac agggcagtgg cgg 23 <210> 52 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of HBB mismatched sgRNAs (off-target sequence) <400> 52 gctgccccac agggcagtaa cgg 23 <210> 53 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of HBB mismatched sgRNAs (off-target sequence) <400> 53 gttaccccac agggcagtaa cgg 23 <210> 54 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of HBB mismatched sgRNAs (off-target sequence) <400> 54 gttgctccac agggcagtaa cgg 23 <210> 55 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of HBB mismatched sgRNAs (off-target sequence) <400> 55 gttgccctac agggcagtaa cgg 23 <210> 56 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of HBB mismatched sgRNAs (off-target sequence) <400> 56 gttgccccat agggcagtaa cgg 23 <210> 57 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of HBB mismatched sgRNAs (off-target sequence) <400> 57 gttgccccac aaggcagtaa cgg 23 <210> 58 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of HBB mismatched sgRNAs (off-target sequence) <400> 58 gttgccccac aggacagtaa cgg 23 <210> 59 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of HBB mismatched sgRNAs (off-target sequence) <400> 59 gttgccccac agggcggtaa cgg 23 <210> 60 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of HBB mismatched sgRNAs (off-target sequence) <400> 60 gttgccccac agggcagcaa cgg 23 <210> 61 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of HBB mismatched sgRNAs (off-target sequence) <400> 61 gttgccccac agggcagtag cgg 23 <210> 62 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of HBB mismatched sgRNAs (on-target sequence) <400> 62 gttgccccac agggcagtaa cgg 23 <210> 63 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of RNF2 mismatched sgRNAs (off-target sequence) <400> 63 gctgccttag tcattacctg agg 23 <210> 64 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of RNF2 mismatched sgRNAs (off-target sequence) <400> 64 gtcactccag tcattacctg agg 23 <210> 65 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of RNF2 mismatched sgRNAs (off-target sequence) <400> 65 gtcatcttga ctattacctg agg 23 <210> 66 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of RNF2 mismatched sgRNAs (off-target sequence) <400> 66 gtcatcttag tcgccgcctg agg 23 <210> 67 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of RNF2 mismatched sgRNAs (off-target sequence) <400> 67 gtcatcttag tcattattca agg 23 <210> 68 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of RNF2 mismatched sgRNAs (off-target sequence) <400> 68 gttgccttag tcattacctg agg 23 <210> 69 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of RNF2 mismatched sgRNAs (off-target sequence) <400> 69 gtcattccag tcattacctg agg 23 <210> 70 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of RNF2 mismatched sgRNAs (off-target sequence) <400> 70 gtcatcttga ccattacctg agg 23 <210> 71 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of RNF2 mismatched sgRNAs (off-target sequence) <400> 71 gtcatcttag ttgctacctg agg 23 <210> 72 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of RNF2 mismatched sgRNAs (off-target sequence) <400> 72 gtcatcttag tcatcgtctg agg 23 <210> 73 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of RNF2 mismatched sgRNAs (off-target sequence) <400> 73 gtcatcttag tcattactca agg 23 <210> 74 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of RNF2 mismatched sgRNAs (off-target sequence) <400> 74 gttgtcttag tcattacctg agg 23 <210> 75 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of RNF2 mismatched sgRNAs (off-target sequence) <400> 75 gtcactttag tcattacctg agg 23 <210> 76 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of RNF2 mismatched sgRNAs (off-target sequence) <400> 76 gtcatcccag tcattacctg agg 23 <210> 77 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of RNF2 mismatched sgRNAs (off-target sequence) <400> 77 gtcatcttga tcattacctg agg 23 <210> 78 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of RNF2 mismatched sgRNAs (off-target sequence) <400> 78 gtcatcttag ctattacctg agg 23 <210> 79 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of RNF2 mismatched sgRNAs (off-target sequence) <400> 79 gtcatcttag tcgctacctg agg 23 <210> 80 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of RNF2 mismatched sgRNAs (off-target sequence) <400> 80 gtcatcttag tcatcgcctg agg 23 <210> 81 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of RNF2 mismatched sgRNAs (off-target sequence) <400> 81 gtcatcttag tcattatttg agg 23 <210> 82 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of RNF2 mismatched sgRNAs (off-target sequence) <400> 82 gtcatcttag tcattaccca agg 23 <210> 83 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of RNF2 mismatched sgRNAs (off-target sequence) <400> 83 gccatcttag tcattacctg agg 23 <210> 84 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of RNF2 mismatched sgRNAs (off-target sequence) <400> 84 gtcgtcttag tcattacctg agg 23 <210> 85 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of RNF2 mismatched sgRNAs (off-target sequence) <400> 85 gtcattttag tcattacctg agg 23 <210> 86 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of RNF2 mismatched sgRNAs (off-target sequence) <400> 86 gtcatctcag tcattacctg agg 23 <210> 87 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of RNF2 mismatched sgRNAs (off-target sequence) <400> 87 gtcatcttaa tcattacctg agg 23 <210> 88 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of RNF2 mismatched sgRNAs (off-target sequence) <400> 88 gtcatcttag ttattacctg agg 23 <210> 89 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of RNF2 mismatched sgRNAs (off-target sequence) <400> 89 gtcatcttag tcactacctg agg 23 <210> 90 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of RNF2 mismatched sgRNAs (off-target sequence) <400> 90 gtcatcttag tcattgcctg agg 23 <210> 91 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of RNF2 mismatched sgRNAs (off-target sequence) <400> 91 gtcatcttag tcattacttg agg 23 <210> 92 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of RNF2 mismatched sgRNAs (off-target sequence) <400> 92 gtcatcttag tcattaccta agg 23 <210> 93 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Target sequence of RNF2 mismatched sgRNAs (on-target sequence) <400> 93 gtcatcttag tcattacctg agg 23 <210> 94 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> Forward primer for 1st PCR of EMX1 <400> 94 agtgttgagg ccccagtg 18 <210> 95 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> Reverse primer for 1st PCR of EMX1 <400> 95 gtgactggag ttcagacgtg tgctcttccg atctcagcag caagcagcac tct 53 <210> 96 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> Forward primer for 2nd PCR of EMX1 <400> 96 acactctttc cctacacgac gctcttccga tctgggcctc ctgagtttct cat 53 <210> 97 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> Reverse primer for 2nd PCR of EMX1 <400> 97 gtgactggag ttcagacgtg tgctcttccg atctcagcag caagcagcac tct 53 <210> 98 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> Forward primer for 1st PCR of HBB <400> 98 ggcagagaga gtcagtgcct a 21 <210> 99 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> Reverse primer for 1st PCR of HBB <400> 99 gtgactggag ttcagacgtg tgctcttccg atctcagggc tgggcataaa agt 53 <210> 100 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> Forward primer for 2nd PCR of HBB <400> 100 acactctttc cctacacgac gctcttccga tctgtctcca catgcccagt ttc 53 <210> 101 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> Reverse primer for 2nd PCR of HBB <400> 101 gtgactggag ttcagacgtg tgctcttccg atctcagggc tgggcataaa agt 53 <210> 102 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> Forward primer for 1st PCR of RNF2 <400> 102 ccatagcact tcccttccaa 20 <210> 103 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> Reverse primer for 1st PCR of RNF2 <400> 103 gtgactggag ttcagacgtg tgctcttccg atctgccaac atacagaagt caggaa 56 <210> 104 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> Forward primer for 2nd PCR of RNF2 <400> 104 acactctttc cctacacgac gctcttccga tctatttcca gcaatgtctc agg 53 <210> 105 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> Reverse primer for 2nd PCR of RNF2 <400> 105 gtgactggag ttcagacgtg tgctcttccg atctgccaac atacagaagt caggaa 56 <210> 106 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of EMX1 <400> 106 gagtctaagc agaagaagaa gag 23 <210> 107 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of EMX1 <400> 107 gaatccaagc agaagaagag aag 23 <210> 108 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of EMX1 <400> 108 aagtctgagc acaagaagaa tgg 23 <210> 109 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of EMX1 <400> 109 gaatccaaga gaagaagaat gg 22 <210> 110 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of EMX1 <400> 110 gagtcctagc aggagaagaa gag 23 <210> 111 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of EMX1 <400> 111 gagtccaagc agtagaggaa ggg 23 <210> 112 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of EMX1 <400> 112 gtgtcctaga gaagaagaag gg 22 <210> 113 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of EMX1 <400> 113 aagtccgagg agaggaagaa agg 23 <210> 114 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of EMX1 <400> 114 gaggccgagc agaagaaaga cgg 23 <210> 115 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of EMX1 <400> 115 agttccaagc agaagaagca tgg 23 <210> 116 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of EMX1 <400> 116 gagtccacac agaagaagaa aga 23 <210> 117 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of EMX1 <400> 117 gagtccaaga gaagaagtga gg 22 <210> 118 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of EMX1 <400> 118 gagtccttga gaagaaggaa gg 22 <210> 119 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of EMX1 <400> 119 gaatccaagc aggagaagaa gga 23 <210> 120 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of EMX1 <400> 120 gtaccagaga gaagaagaga gg 22 <210> 121 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of EMX1 <400> 121 gagtcccagc aaaagaagaa aag 23 <210> 122 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of EMX1 <400> 122 aagtccaagt gaagaagaaa gg 22 <210> 123 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of EMX1 <400> 123 aagtccatgc agaagaggaa ggg 23 <210> 124 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of EMX1 <400> 124 gagtcctaga gaagaaaaag gg 22 <210> 125 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of EMX1 <400> 125 gagtccctca ggagaagaaa gg 22 <210> 126 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of EMX1 <400> 126 acgtctgagc agaagaagaa tgg 23 <210> 127 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of EMX1 <400> 127 gagttccaga agaagaagaa gag 23 <210> 128 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of EMX1 <400> 128 gagtcctaaa gaagaagcag gg 22 <210> 129 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of EMX1 <400> 129 cagtccaaac agaagaggaa tgg 23 <210> 130 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of FANCF <400> 130 tgaatcccat ctccagcacc agg 23 <210> 131 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of FANCF <400> 131 ggaatccctt ctgcagcacc tgg 23 <210> 132 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of FANCF <400> 132 ggagtccctc ctacagcacc agg 23 <210> 133 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of FANCF <400> 133 ggagtccctc ctacagcacc agg 23 <210> 134 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of FANCF <400> 134 ggaatccctt ctacagcatc ctg 23 <210> 135 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of FANCF <400> 135 ggagtccctc ctgcagcacc tga 23 <210> 136 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of FANCF <400> 136 ggaaccccgt ctgcagcacc agg 23 <210> 137 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of FANCF <400> 137 gtctcccctt ctgcagcacc agg 23 <210> 138 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of FANCF <400> 138 aaaatccctt ccgcagcacc tag 23 <210> 139 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of FANCF <400> 139 tgtatttctt ctgcctcagg ctg 23 <210> 140 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of FANCF <400> 140 ggaatatctt ctgcagcccc agg 23 <210> 141 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of FANCF <400> 141 gagtgccctg aagcctcagc tgg 23 <210> 142 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of FANCF <400> 142 accatccctc ctgcagcacc agg 23 <210> 143 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of FANCF <400> 143 tgaatcctaa ctgcagcacc agg 23 <210> 144 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of FANCF <400> 144 ctctgtcctt ctgcagcacc tgg 23 <210> 145 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HBB (on-target site) <400> 145 cttgccccac agggcagtaa cgg 23 <210> 146 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HBB <400> 146 ttgctcccac agggcagtaa acg 23 <210> 147 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HBB <400> 147 gctgccccac agggcagcaa agg 23 <210> 148 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HBB <400> 148 gtggccccac agggcaggaa tgg 23 <210> 149 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HBB <400> 149 attgccccac ggggcagtga cgg 23 <210> 150 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HBB <400> 150 actctcccac aaggcagtaa ggg 23 <210> 151 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HBB <400> 151 tcagccccac agggcagtaa ggg 23 <210> 152 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK2 <400> 152 gaacacaatg catagattgc cgg 23 <210> 153 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK2 (on-target site) <400> 153 gaacacaaag catagactgc ggg 23 <210> 154 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK2 <400> 154 aactccaaag catatactgc tgg 23 <210> 155 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK3 <400> 155 agctcagact gagcaagtga ggg 23 <210> 156 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK3 (on-target site) <400> 156 ggcccagact gagcacgtga tgg 23 <210> 157 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK3 <400> 157 ggcccagaga gcacgtgtgg g 21 <210> 158 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK3 <400> 158 cacccagact gagcacgtgc tgg 23 <210> 159 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK3 <400> 159 ggcccaactg agcaagtgat gg 22 <210> 160 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK3 <400> 160 agaccagact gagcaagaga ggg 23 <210> 161 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK3 <400> 161 ggccactcat ggccacatac tgg 23 <210> 162 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 (on-target site) <400> 162 ggcactgcgg ctggaggtgg ggg 23 <210> 163 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 163 ggcactgctg ctgggggtgg tgg 23 <210> 164 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 164 ggcactgcac tggaggttgt gg 22 <210> 165 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 165 ggctctgcgg ctggaggggg tgg 23 <210> 166 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 166 agcactgcag atggaggagg cgg 23 <210> 167 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 167 ggcactgcgg cagggaggag ggg 23 <210> 168 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 168 tgcactgcgg ccggaggagg tgg 23 <210> 169 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 169 ggcactgggc tgaaggtaga gg 22 <210> 170 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 170 ggcactgtgg ctgcaggtgg agg 23 <210> 171 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 171 tgctctgcgg caggaggagg agg 23 <210> 172 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 172 agcactgcag ctgggagtgg agg 23 <210> 173 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 173 ggcactgagg gtggaggtgg ggg 23 <210> 174 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 174 ggcactgggg ctggagacgg ggg 23 <210> 175 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 175 aggactgcgg ctgggggtgg tgg 23 <210> 176 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 176 ggcactgcaa ctggaagtga tgg 23 <210> 177 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 177 ggcactgggg ttggaggtgg ggg 23 <210> 178 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 178 gccactgcag ctagaggtgg agg 23 <210> 179 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 179 gccactgcga ctggaggagg ggg 23 <210> 180 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 180 ggcactgggc tggaggcggg gg 22 <210> 181 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 181 agctctgcgg caggagttgg agg 23 <210> 182 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 182 gacaccacgg ctggagatgg tgg 23 <210> 183 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 183 gcactggcag ccggaggtgg tgg 23 <210> 184 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 184 tgcactgcag ctgcaggtgg agg 23 <210> 185 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 185 ggcactgggc tggagatgga gg 22 <210> 186 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 186 ccttctgcgg ctggaagtgg tgg 23 <210> 187 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 187 gcactgcagg caggaggtga gtg 23 <210> 188 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 188 gacactgcag ctggaggtgg ggt 23 <210> 189 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 189 ggcactgcag caggggatgg ggg 23 <210> 190 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 190 ggcactgcgg gtggaggcgg ggg 23 <210> 191 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 191 ggcacagcag ctggaggtgc tgg 23 <210> 192 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 192 ggccctgcgg ctggagatat ggg 23 <210> 193 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 193 gacactgctc tggaggtggt gg 22 <210> 194 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 194 ggcgctgcgg cgggaggtgg agg 23 <210> 195 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 195 tgcactgtgg ctggagatgg ggg 23 <210> 196 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 196 ggcatcacgg ctggaggtgg agg 23 <210> 197 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 197 agcactgtgg ctgggggagg cgg 23 <210> 198 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 198 gtcactgcag ctggaggagg ggg 23 <210> 199 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 199 gtaactgcgg ctggcggtgg tgg 23 <210> 200 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 200 ggtacagcgg ctgggggagg cgg 23 <210> 201 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 201 ggcgctgcgg ccggaggtgg ggc 23 <210> 202 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 202 agcactgtgg ctgggggagg ggg 23 <210> 203 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 203 tgcactgcag ctggaggcaa cgg 23 <210> 204 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 204 gacactgagg caggaggtgg ggg 23 <210> 205 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 205 ggcatctggg ctgggggtag ggg 23 <210> 206 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 206 ggcactgaga ccagaggtgg tgg 23 <210> 207 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 207 ggcactgcag acggaggtgt ggg 23 <210> 208 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 208 ggcactgggc tggaggggag ag 22 <210> 209 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 209 ggcactgcag ctgggggttg gtg 23 <210> 210 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 210 ggcactgggg ctgggggagg ggg 23 <210> 211 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 211 ggcacttcag ctggaggcag agg 23 <210> 212 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 212 ggcacatgga tggaggtgga gg 22 <210> 213 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 213 agcactgtgg tggaggtgga gg 22 <210> 214 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 214 ggcactgggt tgggggtggt gg 22 <210> 215 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 215 ggcacatggc tgggggtggt gg 22 <210> 216 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 216 tgcactgcga ctggagggag agg 23 <210> 217 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 217 ggcactgaga ctgggggtgg ggg 23 <210> 218 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 218 ggcactgcag cctgggggtg ggg 23 <210> 219 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 219 ggctcttcgg ctggaggtag cgg 23 <210> 220 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 220 gacactgggc tggaggttgc gg 22 <210> 221 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 221 agcactgtgc ctgggggtgg ggg 23 <210> 222 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 222 tggactgcgg ctggagaggg agg 23 <210> 223 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 223 ggcactgggc tggatgtggt gg 22 <210> 224 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 224 ggcactgagg ctgcaggcgg cgg 23 <210> 225 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 225 ggcacaatgg ctggaggtga agg 23 <210> 226 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 226 ggcactctgg ctggagctgg ggg 23 <210> 227 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 227 ggcacagcag gtggaggtgg agg 23 <210> 228 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Digenome-captured site of HEK4 <400> 228 ggctctgcag ccaggggtgg agg 23 <210> 229 <211> 4107 <212> DNA <213> Artificial Sequence <220> <223> Gene encoding Streptococcus pyogenes Cas9 <400> 229 atggacaaga agtacagcat cggcctggac atcggtacca acagcgtggg ctgggccgtg 60 atcaccgacg agtacaaggt gcccagcaag aagttcaagg tgctgggcaa caccgaccgc 120 cacagcatca agaagaacct gatcggcgcc ctgctgttcg acagcggcga gaccgccgag 180 gccacccgcc tgaagcgcac cgcccgccgc cgctacaccc gccgcaagaa ccgcatctgc 240 tacctgcagg agatcttcag caacgagatg gccaaggtgg acgacagctt cttccaccgc 300 ctggaggaga gcttcctggt ggaggaggac aagaagcacg agcgccaccc catcttcggc 360 aacatcgtgg acgaggtggc ctaccacgag aagtacccca ccatctacca cctgcgcaag 420 aagctggtgg acagcaccga caaggccgac ctgcgcctga tctacctggc cctggcccac 480 atgatcaagt tccgcggcca cttcctgatc gagggcgacc tgaaccccga caacagcgac 540 gtggacaagc tgttcatcca gctggtgcag acctacaacc agctgttcga ggagaacccc 600 atcaacgcca gcggcgtgga cgccaaggcc atcctgagcg cccgcctgag caagagccgc 660 cgcctggaga acctgatcgc ccagctgccc ggcgagaaga agaacggcct gttcggcaac 720 ctgatcgccc tgagcctggg cctgaccccc aacttcaaga gcaacttcga cctggccgag 780 gacgccaagc tgcagctgag caaggacacc tacgacgacg acctggacaa cctgctggcc 840 cagatcggcg accagtacgc cgacctgttc ctggccgcca agaacctgag cgacgccatc 900 ctgctgagcg acatcctgcg cgtgaacacc gagatcacca aggcccccct gagcgccagc 960 atgatcaagc gctacgacga gcaccaccag gacctgaccc tgctgaaggc cctggtgcgc 1020 cagcagctgc ccgagaagta caaggagatc ttcttcgacc agagcaagaa cggctacgcc 1080 ggctacatcg acggcggcgc cagccaggag gagttctaca agttcatcaa gcccatcctg 1140 gagaagatgg acggcaccga ggagctgctg gtgaagctga accgcgagga cctgctgcgc 1200 aagcagcgca ccttcgacaa cggcagcatc ccccaccaga tccacctggg cgagctgcac 1260 gccatcctgc gccgccagga ggacttctac cccttcctga aggacaaccg cgagaagatc 1320 gagaagatcc tgaccttccg catcccctac tacgtgggcc ccctggcccg cggcaacagc 1380 cgcttcgcct ggatgacccg caagagcgag gagaccatca ccccctggaa cttcgaggag 1440 gtggtggaca agggcgccag cgcccagagc ttcatcgagc gcatgaccaa cttcgacaag 1500 aacctgccca acgagaaggt gctgcccaag cacagcctgc tgtacgagta cttcaccgtg 1560 tacaacgagc tgaccaaggt gaagtacgtg accgagggca tgcgcaagcc cgccttcctg 1620 agcggcgagc agaagaaggc catcgtggac ctgctgttca agaccaaccg caaggtgacc 1680 gtgaagcagc tgaaggagga ctacttcaag aagatcgagt gcttcgacag cgtggagatc 1740 agcggcgtgg aggaccgctt caacgccagc ctgggcacct accacgacct gctgaagatc 1800 atcaaggaca aggacttcct ggacaacgag gagaacgagg acatcctgga ggacatcgtg 1860 ctgaccctga ccctgttcga ggaccgcgag atgatcgagg agcgcctgaa gacctacgcc 1920 cacctgttcg acgacaaggt gatgaagcag ctgaagcgcc gccgctacac cggctggggc 1980 cgcctgagcc gcaagcttat caacggcatc cgcgacaagc agagcggcaa gaccatcctg 2040 gacttcctga agagcgacgg cttcgccaac cgcaacttca tgcagctgat ccacgacgac 2100 agcctgacct tcaaggagga catccagaag gcccaggtga gcggccaggg cgacagcctg 2160 cacgagcaca tcgccaacct ggccggcagc cccgccatca agaagggcat cctgcagacc 2220 gtgaaggtgg tggacgagct ggtgaaggtg atgggccgcc acaagcccga gaacatcgtg 2280 atcgagatgg cccgcgagaa ccagaccacc cagaagggcc agaagaacag ccgcgagcgc 2340 atgaagcgca tcgaggaggg catcaaggag ctgggcagcc agatcctgaa ggagcacccc 2400 gtggagaaca cccagctgca gaacgagaag ctgtacctgt actacctgca gaacggccgc 2460 gacatgtacg tggaccagga gctggacatc aaccgcctga gcgactacga cgtggaccac 2520 atcgtgcccc agagcttcct gaaggacgac agcatcgaca acaaggtgct gacccgcagc 2580 gacaagaacc gcggcaagag cgacaacgtg cccagcgagg aggtggtgaa gaagatgaag 2640 aactactggc gccagctgct gaacgccaag ctgatcaccc agcgcaagtt cgacaacctg 2700 accaaggccg agcgcggcgg cctgagcgag ctggacaagg ccggcttcat caagcgccag 2760 ctggtggaga cccgccagat caccaagcac gtggcccaga tcctggacag ccgcatgaac 2820 accaagtacg acgagaacga caagctgatc cgcgaggtga aggtgatcac cctgaagagc 2880 aagctggtga gcgacttccg caaggacttc cagttctaca aggtgcgcga gatcaacaac 2940 taccaccacg cccacgacgc ctacctgaac gccgtggtgg gcaccgccct gatcaagaag 3000 taccccaagc tggagagcga gttcgtgtac ggcgactaca aggtgtacga cgtgcgcaag 3060 atgatcgcca agagcgagca ggagatcggc aaggccaccg ccaagtactt cttctacagc 3120 aacatcatga acttcttcaa gaccgagatc accctggcca acggcgagat ccgcaagcgc 3180 cccctgatcg agaccaacgg cgagaccggc gagatcgtgt gggacaaggg ccgcgacttc 3240 gccaccgtgc gcaaggtgct gagcatgccc caggtgaaca tcgtgaagaa gaccgaggtg 3300 cagaccggcg gcttcagcaa ggagagcatc ctgcccaagc gcaacagcga caagctgatc 3360 gcccgcaaga aggactggga ccccaagaag tacggcggct tcgacagccc caccgtggcc 3420 tacagcgtgc tggtggtggc caaggtggag aagggcaaga gcaagaagct gaagagcgtg 3480 aaggagctgc tgggcatcac catcatggag cgcagcagct tcgagaagaa ccccatcgac 3540 ttcctggagg ccaagggcta caaggaggtg aagaaggacc tgatcatcaa gctgcccaag 3600 tacagcctgt tcgagctgga gaacggccgc aagcgcatgc tggccagcgc cggcgagctg 3660 cagaagggca acgagctggc cctgcccagc aagtacgtga acttcctgta cctggccagc 3720 cactacgaga agctgaaggg cagccccgag gacaacgagc agaagcagct gttcgtggag 3780 cagcacaagc actacctgga cgagatcatc gagcagatca gcgagttcag caagcgcgtg 3840 atcctggccg acgccaacct ggacaaggtg ctgagcgcct acaacaagca ccgcgacaag 3900 cccatccgcg agcaggccga gaacatcatc cacctgttca ccctgaccaa cctgggcgcc 3960 cccgccgcct tcaagtactt cgacaccacc atcgaccgca agcgctacac cagcaccaag 4020 gaggtgctgg acgccaccct gatccaccag agcatcaccg gtctgtacga gacccgcatc 4080 gacctgagcc agctgggcgg cgactaa 4107 <210> 230 <211> 12 <212> RNA <213> Artificial Sequence <220> <223> Synthetic (Essential part of crRNA) <400> 230 guuuuagagc ua 12 <210> 231 <211> 10 <212> RNA <213> Artificial Sequence <220> <223> Synthetic (3' end part of crRNA) <400> 231 ugcuguuuug 10 <210> 232 <211> 60 <212> RNA <213> Artificial Sequence <220> <223> Synthetic (Essential part of tracrRNA) <400> 232 uagcaaguua aaauaaggcu aguccguuau caacuugaaa aaguggcacc gagucggugc 60

Claims

(1) 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제; 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자; 또는 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자를 포함하는 플라스미드, (2) 가이드 RNA, 및 (3) 우라실-특이적 제거 시약을 포함하고,
상기 불활성화된 표적특이적 엔도뉴클레아제는 DNA 이중 가닥을 절단하는 엔도뉴클레아제 활성을 상실하고 니케이즈 활성을 갖는 것이고,
상기 우라실-특이적 제거 시약은 우라실 DNA 글라이코실라제 및 엔도뉴클레아제 VIII을 포함하며,
유전체 DNA에 이중가닥 절단을 유도하는 것을 특징으로 하는,
시토신 디아미나제에 의하여 염기 교정(base editing)이 도입된 유전체 DNA의 핵산 서열 분석용 조성물.
제1항에 있어서, 상기 불활성화된 표적특이적 엔도뉴클레아제는 DNA 이중 가닥을 절단하는 엔도뉴클레아제 활성을 상실하고 니케이즈 활성을 갖는 Cas9 단백질 또는 Cpf1 단백질인, 시토신 디아미나제에 의하여 염기 교정이 도입된 유전체 DNA의 핵산 서열 분석용 조성물.
제2항에 있어서, 상기 불활성화된 표적특이적 엔도뉴클레아제는 스트렙토코커스 피요젠스 (Streptococcus pyogenes) 유래의 Cas9 단백질에 아미노산 잔기 D10이 다른 아미노산으로 치환된 돌연변이가 도입된 것인, 시토신 디아미나제에 의하여 염기 교정이 도입된 유전체 DNA의 핵산 서열 분석용 조성물.
제1항에 있어서,
시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제는 융합 단백질 형태이거나,
상기 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자는 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제를 포함하는 융합 단백질을 암호화하는 유전자인,
시토신 디아미나제에 의하여 염기 교정이 도입된 유전체 DNA의 핵산 서열 분석용 조성물.
제1항에 있어서,
상기 불활성화된 표적특이적 엔도뉴클레아제는 스트렙토코커스 피요젠스 (Streptococcus pyogenes) 유래의 Cas9 단백질에 아미노산 잔기 D10가 다른 아미노산으로 치환된 돌연변이와 아미노산 잔기 H840이 다른 아미노산으로 치환된 돌연변이가 모두 도입된 것이고,
상기 조성물은 DNA의 단일 가닥 부위를 특이적으로 절단하는 엔도뉴클레아제를 추가로 포함하는 것인,
시토신 디아미나제에 의하여 염기 교정이 도입된 유전체 DNA의 핵산 서열 분석용 조성물.
제1항 내지 제5항 중 어느 한 항에 있어서, 상기 가이드 RNA는 crRNA와 tracrRNA가 서로 결합된 이중 가닥 crRNA:tracrRNA 복합체, 또는 단일 가닥 가이드 RNA (sgRNA)인, 시토신 디아미나제에 의하여 염기 교정이 도입된 유전체 DNA의 핵산 서열 분석용 조성물.
삭제
(i) (a) 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제, 또는 (b) 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자, 또는 (c) 시토신 디아미나제 암호화 유전자 및 불활성화된 표적특이적 엔도뉴클레아제 암호화 유전자를 포함하는 플라스미드를 가이드 RNA와 함께 세포에 도입하거나 세포로부터 분리된 유전체 DNA에 접촉시키는 단계;
(ii) 우라실-특이적 제거 시약 (Uracil-Specific Excision Reagent; USER)을 처리하여 DNA에 이중 가닥 절단을 생성하는 단계; 및
(iii) 상기 절단된 DNA 절편의 핵산 서열을 분석하는 단계
를 포함하고
상기 단계 (i)에서 사용된 불활성화된 표적특이적 엔도뉴클레아제는 DNA 이중 가닥을 절단하는 엔도뉴클레아제 활성을 상실하고 니케이즈 활성을 갖는 것이고,
상기 단계 (ii)에서 사용된 우라실-특이적 제거 시약은 우라실 DNA 글라이코실라제 및 엔도뉴클레아제 VIII을 포함하며,
상기 단계 (iii)의 핵산 서열 분석은 전체 유전체 시퀀싱에 의하여 수행되고,
상기 단계들은 시험관 내 (in vitro)에서 수행되는 것인,
시토신 디아미나제에 의하여 염기 교정(base editing)이 도입된 유전체 DNA의 핵산 서열 분석 방법.
제8항에 있어서,
(iv) 상기 분석에 의하여 수득된 핵산 서열 데이터에서 이중 가닥 절단 위치를 확인하는 단계
를 추가로 포함하고,
상기 단계는 시험관 내 (in vitro)에서 수행되고,
상기 시토신 디아미나제에 의하여 염기 교정이 도입된 유전체 DNA의 핵산 서열 분석은 시토신 디아미나제의 염기 교정 위치 확인을 위한 것인, 방법.
제8항에 있어서,
(iv) 상기 분석에 의하여 수득된 핵산 서열 데이터에서 이중 가닥 절단 위치를 확인하는 단계
를 추가로 포함하고,
상기 단계는 시험관 내 (in vitro)에서 수행되고,
상기 시토신 디아미나제에 의하여 염기 교정이 도입된 유전체 DNA의 핵산 서열 분석은 시토신 디아미나제의 비표적 위치 (off-target site) 확인을 위한 것인, 방법.
제8항 내지 제10항 중 어느 한 항에 있어서, 상기 불활성화된 표적특이적 엔도뉴클레아제는 DNA 이중 가닥을 절단하는 엔도뉴클레아제 활성을 상실하고 니케이즈 활성을 갖는 Cas9 단백질 또는 Cpf1 단백질인, 방법.
제8항 내지 제10항 중 어느 한 항에 있어서, 상기 불활성화된 표적특이적 엔도뉴클레아제는 스트렙토코커스 피요젠스 (Streptococcus pyogenes) 유래의 Cas9 단백질에 아미노산 잔기 D10이 다른 아미노산으로 치환된 돌연변이가 도입된 것인, 방법.
제8항 내지 제10항 중 어느 한 항에 있어서,
시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제는 융합 단백질 형태이거나,
상기 시토신 디아미나제 암호화 유전자 및 Cas9 단백질 암호화 유전자는 시토신 디아미나제 및 불활성화된 표적특이적 엔도뉴클레아제를 포함하는 융합 단백질을 암호화하는 유전자인,
방법.
제8항 내지 제10항 중 어느 한 항에 있어서,
상기 불활성화된 표적특이적 엔도뉴클레아제는 스트렙토코커스 피요젠스 (Streptococcus pyogenes) 유래의 Cas9 단백질에 아미노산 잔기 D10가 다른 아미노산으로 치환된 돌연변이와 아미노산 잔기 H840이 다른 아미노산으로 치환된 돌연변이가 모두 도입된 것이고,
상기 단계 (ii) 이후에, DNA의 단일 가닥 부위를 특이적으로 절단하는 엔도뉴클레아제를 처리하는 단계를 추가로 포함하는,
방법.
제8항 내지 제10항 중 어느 한 항에 있어서, 상기 가이드 RNA는 crRNA와 tracrRNA가 서로 결합된 이중 가닥 crRNA:tracrRNA 복합체, 또는 단일 가닥 가이드 RNA (sgRNA)인, 방법.
제9항 또는 제10항에 있어서, 상기 단계 (iv)는 하기의 수식에 의하여 계산된 절단 점수가 0.1 이상인 핵산 서열에 대하여 수행하는 것인, 방법:

(상기 수식에서 염기서열 데이터의 수는 뉴클레오타이드 리드 수를 의미하고, 시퀀싱 깊이는 특정 위치에서의 시퀀싱 리드수를 의미하며, C 값은 1임).
제16항에 있어서, 절단점수가 0.1 이상이며 10 이하의 미스매치를 가지고 PAM을 가지고 있는 위치를 비표적 위치(off-target site)로 결정하는 것을 특징으로 하는, 방법.
제9항 또는 제10항에 있어서, 상기 단계 (iv)는 하기의 수식에 의하여 계산된 절단 점수가 2.5 이상인 핵산 서열에 대하여 수행하는 것인, 방법:

(상기 수식에서 염기서열 데이터의 수는 뉴클레오타이드 리드 수를 의미하고, 시퀀싱 깊이는 특정 위치에서의 시퀀싱 리드수를 의미하며, C 값은 1임).
제10항에 있어서, 상기 단계 (iv) 이후에,
상기 절단 위치가 표적 위치 (on-target site)가 아닌 경우, 비표적 위치 (off-target site)로 판단하는 단계를 추가로 포함하는, 방법.
제10항에 있어서,
상기 단계 (iv)에서 확인된 절단 위치는 수득한 염기서열 데이터를 정렬하여 5' 말단이 수직 정렬된 위치, 또는 5' 말단 플롯에서 이중 피크 패턴을 보이는 위치인 것인, 방법.
제20항에 있어서, 상기 정렬은 표준 염기서열 (reference genome)로 염기서열 데이터를 맵핑한 뒤, BWA/GATK 또는 ISAAC을 이용하여 수행되는 것인, 방법.
제20항에 있어서, 왓슨 가닥 (Watson strand)과 크릭 가닥 (Crick strand)에 해당하는 염기서열 데이터 (sequence read)가 각각 두 개 이상씩 수직으로 정렬되는 위치를 비표적 위치인 것으로 판단하는 단계를 추가로 포함하는, 방법.
제20항에 있어서, 20 % 이상의 염기서열 데이터가 수직으로 정렬되고, 각각의 왓슨 가닥 및 크릭 가닥에서 동일한 5' 말단을 가진 염기서열 데이터의 수가 10 이상인 위치가 비표적 위치인 것으로 판단하는 단계를 추가로 포함하는, 방법.