KR101828933B1 - 유전체에서 유전자 가위의 비표적 위치를 검출하는 방법 - Google Patents

유전체에서 유전자 가위의 비표적 위치를 검출하는 방법 Download PDF

Info

Publication number
KR101828933B1
KR101828933B1 KR1020150159945A KR20150159945A KR101828933B1 KR 101828933 B1 KR101828933 B1 KR 101828933B1 KR 1020150159945 A KR1020150159945 A KR 1020150159945A KR 20150159945 A KR20150159945 A KR 20150159945A KR 101828933 B1 KR101828933 B1 KR 101828933B1
Authority
KR
South Korea
Prior art keywords
target
seq
digenome
positions
rgen
Prior art date
Application number
KR1020150159945A
Other languages
English (en)
Other versions
KR20160058703A (ko
Inventor
김진수
김대식
배상수
Original Assignee
기초과학연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 기초과학연구원 filed Critical 기초과학연구원
Publication of KR20160058703A publication Critical patent/KR20160058703A/ko
Application granted granted Critical
Publication of KR101828933B1 publication Critical patent/KR101828933B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • G06F19/20
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/16Primer sets for multiplex assays

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Medicinal Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Enzymes And Modification Thereof (AREA)

Abstract

본 발명은 유전체에서 유전자 가위의 비표적 위치 (off-target site)를 검출하는 방법에 관한 것으로서, 구체적으로는 시험관 내 (in vitro)에서 분리된 유전체에 유전자 가위를 처리하여 유전체를 절단한 뒤, 이를 전체 유전체 시퀀싱 (whole genome sequencing)하여 데이터 분석을 통해 비표적 위치를 검출하는 방법 (Digenome-seq), 및 상기 방법을 이용하여 비표적 효과를 최소화하는 RGEN의 표적 위치 선별 방법에 관한 것이다.
본 발명의 Digenome-seq는 고도의 재현성으로 유전체 수준에서 유전자 가위의 비표적 위치를 검출할 수 있어, 표적 특이성이 높은 유전자 가위의 제작 및 이를 위한 연구에 사용될 수 있다.

Description

유전체에서 유전자 가위의 비표적 위치를 검출하는 방법 {Method for detecting genome-wide off-target sites of programmable nucleases}
본 발명은 유전체에서 유전자 가위의 비표적 위치 (off-target site)를 검출하는 방법에 관한 것으로서, 구체적으로는 시험관 내 (in vitro)에서 분리된 유전체 (cell-free genomic DNA)에 유전자 가위를 처리하여 유전체를 절단한 뒤, 이를 전체 유전체 시퀀싱 (whole genome sequencing)하여 데이터 분석을 통해 비표적 위치를 검출하는 방법, 및 상기 방법을 이용하여 비표적 효과를 최소화하는 RGEN의 표적 위치 선별 방법에 관한 것이다.
ZFN (zinc finger nuclease), TALEN (transcriptional activator-like effector nuclease), 및 제2형 CRISPR / Cas (clustered regularly interspaced repeat / CRISPR-associated) 원핵생물 획득 면역 시스템 유래 RGEN (RNA-guided engineered nuclease) 등 유전자 가위 (programmable nucleases)는 배양된 세포 및 개체의 유전체 교정에 널리 사용되고 있다. 상기 유전자 가위를 이용한 유전체 교정 기술은 생명과학, 생명공학 및 의학분야 등에서 다양한 목적으로 이용될 수 있는 매우 유용한 기술이다. 예를 들어, 줄기세포 또는 체세포에서 표적화된 유전자 변형을 일으킴으로써 다양한 유전적 질환 또는 후천적 질환에 대한 유전자/세포 치료가 가능해졌다. 다만, 상기 유전자 가위들은 표적 위치 (on-target site) 뿐만 아니라 이와 상동성을 가지는 비표적 위치 (off-target site)에도 돌연변이를 일으킬 수 있다 (Nucleic acids research, 2013, 41(20): 9584-9592).
대표적인 일례로, S. pyogenes 유래 Cas9 단백질 및 sgRNA (small guide RNA)로 구성되는 RGEN은 sgRNA와 혼성화 되는 20-bp (base pair) 서열 및 Cas9에 의해 인식되는 PAM (protospacer-adjacent motif) 서열인 5'-NGG-3'으로 구성되는 23-bp의 표적 DNA 서열을 인식하지만, 일부 뉴클레오티드 서열이 일치하지 않는 경우에도 작동될 수 있다 (Genome Res, 2014, 24: 132-141). 나아가, RGEN은 sgRNA 서열과 비교하여 추가 염기서열을 가지거나 (DNA bulge) 또는 하나의 염기가 없는 (RNA bulge) 비표적 DNA 서열도 절단할 수 있다. 이와 유사하게 ZFN과 TALEN도 일부 염기가 다른 서열을 절단할 수 있다. 이는 유전체에 유전자 가위를 적용할 경우 표적 위치 이외에 상당한 수의 비표적 위치를 가질 수 있다는 것을 시사한다.
비표적 DNA 절단은 전암유전자 (proto-oncogene) 및 암억제유전자 (tumor suppressor gene)와 같이 원치 않는 유전자에서 돌연변이를 야기할 수 있고, 전위 (translocation), 결실 (deletion), 및 역위 (inversion)와 같은 유전체 재조합을 증가시킬 수 있어, 연구 분야 및 의학 분야 등에서 유전자 가위를 이용하는데 심각한 문제가 된다 (Proc Natl Acad Sci, 2009, 106: 10620-10625). 이에, 유전자 가위의 비표적 효과를 감소시키기 위해 다양한 전략이 보고되고는 있으나, 전체 유전체 수준에서 비표적 효과 없이 표적 위치에만 특이적으로 작동하는 유전자 가위는 아직까지 보고된 바 없다. 이러한 문제점을 다루기 위해, 유전자 가위의 특이성을 유전체 수준에서 확인할 수 있는 방법을 개발하는 것이 중요하다.
본 발명자들은 유전체 수준에서 유전자 가위의 표적 및 비표적 위치를 검출하고 분석할 수 있는 시스템을 개발하기 위해 예의 노력한 결과, 유전체를 유전자 가위로 절단한 뒤 전체 유전체 시퀀싱 (whole genome sequencing, WGS)을 수행하여 유전자 가위의 비표적 위치를 검출할 수 있는 방법 (Digenome-seq, nuclease-digested genomic DNA sequencing)을 개발하여 본 발명을 완성하였다.
본 발명의 하나의 목적은 (a) 분리된 유전체 (genomic) DNA를 표적 특이적 유전자 가위 (programmable nuclease)로 절단하는 단계; (b) 상기 절단된 DNA에 대한 전체 유전체 시퀀싱 (whole genome sequencing)을 수행하는 단계; 및 (c) 상기 시퀀싱으로 수득한 염기서열 데이터 (sequence read)에서 상기 절단된 위치를 결정하는 단계를 포함하는, 유전자 가위의 비표적 위치 (off-target site)를 검출하는 방법을 제공하는 것이다.
본 발명의 다른 목적은 플라스미드 (plasmid)를 주형으로 하여 시험관 내 (in vitro) 전사된 가이드 RNA를 세포에 도입하는 단계를 포함하는, 유전체 교정에서 비표적 효과를 감소시키는 방법을 제공하는 것이다.
상기 목적을 달성하기 위한 하나의 양태로서, 본 발명은 (a) 분리된 유전체 (genomic) DNA를 표적 특이적 유전자 가위 (programmable nuclease)로 절단하는 단계; (b) 상기 절단된 DNA에 대한 전체 유전체 시퀀싱 (whole genome sequencing)을 수행하는 단계; 및 (c) 상기 시퀀싱으로 수득한 염기서열 데이터 (sequence read)에서 상기 절단된 위치를 결정하는 단계를 포함하는, 유전자 가위의 비표적 위치 (off-target site)를 검출하는 방법을 제공한다. 본 발명자들은 상기 방법을 "Digenome-seq"으로 명명하였으며, 이는 뉴클레아제에 의해 절단된 유전체 시퀀싱 (nuclease-digested genomic DNA sequencing)을 의미한다.
유전체 교정 / 유전자 교정 기술은, 인간 세포를 비롯한 동식물 세포의 유전체 염기서열에 표적지향형 변이를 도입할 수 있는 기술로서, 특정 유전자를 낙아웃 (knock-out) 또는 낙인 (knock-in)하거나, 단백질을 생성하지 않는 비-코딩 DNA 서열에도 변이를 도입할 수 있다. 본 발명의 방법은 상기 유전체 교정 / 유전자 교정 기술에 사용되는 유전자 가위의 비표적 위치를 검출하는 것으로, 이는 표적 위치에만 특이적으로 작동하는 유전자 가위를 개발하는데 유용하게 이용될 수 있다.
(a) 단계는 분리된 유전체 (genomic) DNA를 표적 특이적 유전자 가위 (programmable nuclease)로 절단하는 단계로서, 다시 말해 분리된 유전체 DNA를 시험관 내 (in vitro)에서 특정 표적에 특이적으로 작용하는 유전자 가위를 이용하여 절단하는 단계이다. 다만 유전자 가위는 표적 특이적으로 제작하였더라도 특이성에 따라 다른 부위, 즉 비표적 위치 또한 절단할 수 있다. 따라서 결과적으로 상기 (a) 단계에 의해, 사용된 표적 특이적 유전자 가위가 유전체 DNA에 대하여 활성을 가질 수 있는 위치인 표적 위치 및 다수의 비표적 위치를 절단함으로써 특정 위치가 절단된 유전체 DNA를 얻을 수 있다. 상기 유전체 DNA의 종류는 특별히 제한되지 않으며, 야생형 세포 또는 형질전환된 세포의 유전체 DNA일 수 있다. 또한, 상기 형질전환된 세포는 Digenome-seq의 목적에 따라 특정 유전자 가위를 발현하도록 형질전환된 것일 수 있다.
본 발명에서 용어 "유전자 가위 (programmable nuclease)"는 목적하는 유전체 상의 특정 위치를 인식하여 절단할 수 있는 모든 형태의 뉴클레아제를 말한다. 이에 제한되는 것은 아니나, 특히 유전체 상의 특정 표적 서열을 인식하는 도메인인 식물 병원성 유전자에서 유래한 TAL 작동자 (transcription activator-like effector) 도메인과 절단 도메인이 융합된 TALEN (transcription activator-like effector nuclease), 징크-핑거 뉴클레아제 (zinc-finger nuclease), 메가뉴클레아제 (meganuclease), 미생물 면역체계인 CRISPR에서 유래한 RGEN (RNA-guided engineered nuclease), Cpf1, 아고 호몰로그 (Ago homolog, DNA-guided endonuclease) 등이 포함될 수 있다.
상기 유전자 가위는 인간 세포를 비롯한 동식물 세포의 유전체에서 특정 염기서열을 인식해 이중나선절단 (double strand break, DSB)을 일으킨다. 상기 이중나선절단은 DNA의 이중 나선을 잘라 둔단 (blunt end) 또는 점착종단 (cohesive end)을 만드는 것을 모두 포함한다. DSB는 세포 내에서 상동재조합 (homologous recombination) 또는 비상동재접합 (non-homologous end-joining, NHEJ) 기작에 의해 효율적으로 수선되는데 이 과정에 연구자가 원하는 변이를 표적 장소에 도입할 수 있다. 상기 유전자 가위는 인공적인, 혹은 조작된 비자연적으로 발생된 (non-naturally occurring)것일 수 있다.
본 발명에서 용어 "표적 위치 (on-target site)"란, 상기 유전자 가위를 이용하여 변이를 도입하고자 하는 위치를 의미하며, 그 목적에 따라 임의로 선택될 수 있는 것으로 특정 유전자 내부에 존재할 수 있을 뿐만 아니라 단백질을 생성하지 않는 비-코딩 DNA 서열일 수도 있다.
상기 유전자 가위는 서열 특이성 (specificity)을 가지므로 표적 위치에 작용하는 것이나, 표적 서열에 따라 비표적 위치 (off-target site)에 작용할 수도 있다. 본 발명에서 용어, "비표적 위치 (off-target site)"는 유전자 가위의 표적 서열과 동일하지 않은 서열을 가지는 위치에 상기 유전자 가위가 활성을 가지는 위치를 말한다. 즉, 유전자 가위에 의해 절단되는 표적 위치 이외의 위치를 말한다. 특히, 본 발명에서의 비표적 위치는 특정 유전자 가위에 대한 실제 비표적 위치뿐만 아니라 비표적 위치가 될 가능성이 있는 위치까지 포함하는 개념으로, 상기 비표적 위치는 이에 제한되는 것은 아니나, 시험관 내 (in vitro)에서 유전자 가위에 의해 절단되는 위치일 수 있다.
유전자 가위가 표적 위치 이외의 위치에서도 활성을 가지는 것은 다양한 원인에 의해 야기될 수 있는 현상이나, 특히 표적 위치에 대하여 설계된 표적 서열과 뉴클레오티드 불일치 (mismatch)를 가지는, 표적 위치와 서열 상동성이 높은 비표적 서열의 경우 유전자 가위가 작동할 가능성이 있다. 상기 비표적 위치는 이에 제한되는 것은 아니나, 표적 서열과 1 이상의 뉴클레오티드 불일치 (mismatch)를 가지는 위치일 수 있다.
이는 유전체 내에서 원치 않는 유전자의 돌연변이를 야기할 수 있어 상기 유전자 가위를 사용하는데 심각한 문제가 될 수 있다. 이에, 유전자 가위의 표적 위치에서의 활성 못지 않게 비표적 위치를 정확히 검출하여 분석하는 과정 또한 매우 중요할 수 있으며, 이는 비표적 효과 없이 표적 위치에만 특이적으로 작동하는 유전자 가위를 개발하는데 유용하게 사용될 수 있을 것이다.
상기 유전자 가위는 메가뉴클레아제 (meganuclease), ZFN (zinc finger nuclease), TALEN (transcription activator-like effector nuclease), RGEN (RNA-guided engineered nuclease), 및 Cpf1으로 이루어진 군에서 선택되는 것일 수 있으나 이에 제한되는 것은 아니며, 표적 유전자의 특정 서열을 인식하고 뉴클레오티드 절단 활성을 가져 표적 유전자에서 인델 (insertion and deletion, Indel)을 야기할 수 있는 것이라면 본 발명의 범위에 모두 포함될 수 있다.
상기 메가뉴클레아제는 이에 제한되는 것은 아니나, 자연-발생 메가뉴클레아제일 수 있고 이들은 15 - 40 개 염기쌍 절단 부위를 인식하는데, 이는 통상 4 개의 패밀리로 분류된다: LAGLIDADG 패밀리, GIY-YIG 패밀리, His-Cyst 박스 패밀리, 및 HNH 패밀리. 예시적인 메가뉴클레아제는 I-SceI, I-CeuI, PI-PspI, PI-SceI, I-SceIV, I-CsmI, I-PanI, I-SceII, I-PpoI, I-SceIII, I-CreI, I-TevI, I-TevII 및 I-TevIII를 포함한다.
자연-발생 메가뉴클레아제, 주로 LAGLIDADG 패밀리로부터 유래하는 DNA 결합 도메인을 이용하여 식물, 효모, 초파리 (Drosophila), 포유동물 세포 및 마우스에서 위치-특이적 게놈 변형이 촉진되었으나, 이런 접근법은 메가뉴클레아제 표적 서열이 보존된 상동성 유전자의 변형 (Monet et al. (1999) Biochem. Biophysics. Res. Common. 255: 88-93)으로, 표적 서열이 도입되는 사전-조작된 게놈의 변형에는 한계가 있었다. 따라서, 의학적으로나 생명공학적으로 관련된 부위에서 신규한 결합 특이성을 나타내도록 메가뉴클레아제를 조작하려는 시도가 있었다. 또한, 메가뉴클레아제로부터 유래하는 자연-발생된 또는 조작된 DNA 결합 도메인이 이종성 뉴클레아제 (예, FokI)로부터 유래하는 절단 도메인에 작동 가능하게 연결되었다.
상기 ZFN은 선택된 유전자, 및 절단 도메인 또는 절단 하프-도메인의 표적 부위에 결합하도록 조작된 징크-핑거 단백질을 포함한다. 상기 ZFN은 징크-핑거 DNA 결합 도메인 및 DNA 절단 도메인을 포함하는 인공적인 제한효소일 수 있다. 여기서, 징크-핑거 DNA 결합 도메인은 선택된 서열에 결합하도록 조작된 것일 수 있다. 예를 들면, Beerli et al. (2002) Nature Biotechnol. 20:135-141; Pabo et al. (2001) Ann. Rev. Biochem. 70:313-340; Isalan et al, (2001) Nature Biotechnol. 19: 656-660; Segal et al. (2001) Curr. Opin. Biotechnol. 12:632-637; Choo et al. (2000) Curr. Opin. Struct. Biol. 10:411-416이 본 명세서 참고자료로서 포함될 수 있다. 자연 발생된 징크 핑거 단백질과 비교하여, 조작된 징크 핑거 결합 도메인은 신규한 결합 특이성을 가질 수 있다. 조작 방법은 합리적 설계 및 다양한 타입의 선택을 포함하나 이에 국한되지는 않는다. 합리적 설계는, 예를 들어 삼중 (또는 사중) 뉴클레오티드 서열, 및 개별 징크 핑거 아미노산 서열을 포함하는 데이터베이스의 이용을 포함하며, 이때 각 삼중 또는 사중 뉴클레오티드 서열은 특정 삼중 또는 사중 서열에 결합하는 징크 핑거의 하나 이상의 서열과 연합된다.
표적 서열의 선택, 융합 단백질 (및 그것을 암호화하는 폴리뉴클레오티드)의 설계 및 구성은 당업자에 공지되어 있으며, 참고자료로 미국특허출원 공개 2005/0064474 및 2006/0188987의 전문에 상세하게 설명되며, 상기 공개특허의 전문이 본 발명의 참고자료로서 본 명세서에 포함된다. 또한, 이러한 참고문헌 및 당업계의 다른 문헌에 개시된 대로, 징크 핑거 도메인 및/또는 다중-핑거 징크 핑거 단백질들이 임의의 적절한 링커 서열, 예를 들면 5 개 이상의 아미노산 길이의 링커를 포함하는 링커에 의해 함께 연결될 수 있다. 6 개 이상의 아미노산 길이의 링커 서열의 예는 미국등록특허 6,479,626; 6,903,185; 7,153,949을 참고한다. 여기 설명된 단백질들은 단백질의 각 징크 핑거 사이에 적절한 링커의 임의의 조합을 포함할 수 있다.
또한, ZFN과 같은 뉴클레아제는 뉴클레아제 활성 부분 (절단 도메인, 절단 하프-도메인)을 포함한다. 주지된 대로, 예를 들면 징크 핑거 DNA 결합 도메인과 상이한 뉴클레아제로부터의 절단 도메인과 같이, 절단 도메인은 DNA 결합 도메인에 이종성일 수 있다. 이종성 절단 도메인은 임의의 엔도뉴클레아제나 엑소뉴클레아제로부터 얻어질 수 있다. 절단 도메인이 유래할 수 있는 예시적인 엔도뉴클레아제는 제한 엔도뉴클레아제 및 메가뉴클레아제를 포함하나 이에 한정되지는 않는다.
유사하게, 절단 하프-도메인은, 상기 제시된 바와 같이, 절단 활성을 위하여 이량체화를 필요로 하는 임의의 뉴클레아제 또는 그것의 일부로부터 유래될 수 있다. 융합 단백질이 절단 하프-도메인을 포함하는 경우, 일반적으로 2 개의 융합 단백질이 절단에 필요하다. 대안으로, 2 개의 절단 하프-도메인을 포함하는 단일 단백질이 이용될 수도 있다. 2 개의 절단 하프-도메인은 동일한 엔도뉴클레아제 (또는 그것의 기능적 단편들)로부터 유래할 수도 있고, 또는 각 절단 하프-도메인이 상이한 엔도뉴클레아제 (또는 그것의 기능적 단편들)로부터 유래할 수도 있다. 또한, 2 개의 융합 단백질의 표적 부위는, 2 개의 융합 단백질과 그것의 각 표적 부위의 결합에 의해 절단-하프 도메인들이 서로에 대해 공간적으로 배향되어 위치됨으로써, 절단 하프-도메인이, 예를 들어 이량체화에 의해 기능성 절단 도메인을 형성할 수 있도록 하는 관계로 배치되는 것이 바람직하다. 따라서, 일 구현예에서, 3 - 8 개 뉴클레오티드 또는 14 - 18 개 뉴클레오티드에 의해 표적 부위의 이웃 가장자리가 분리된다. 그러나, 임의의 정수의 뉴클레오티드 또는 뉴클레오티드 쌍이 2 개의 표적 부위 사이에 개재될 수 있다 (예, 2 내지 50 개 뉴클레오티드 쌍 또는 그 이상). 일반적으로, 절단 부위는 표적 부위 사이에 놓인다.
제한 엔도뉴클레아제 (제한 효소)는 많은 종에 존재하며, DNA에 서열-특이적으로 결합하여(표적 부위에서), 바로 결합 부위나 그 근처에서 DNA를 절단할 수 있다. 어떤 제한 효소 (예, Type IIS)는 인식 부위로부터 제거된 부위에서 DNA를 절단하며, 분리 가능한 결합과 절단 가능한 도메인을 가진다. 예를 들면, Type IIS 효소 FokI은 한 가닥 상의 인식 부위로부터 9 개 뉴클레오티드에서 그리고 나머지 한 가닥 상의 인식 부위로부터 13 개 뉴클레오티드에서 DNA의 이중가닥 절단을 촉매한다. 따라서, 한 구현예에서, 융합 단백질은 최소 1 개의 Type IIS 제한 효소로부터의 절단 도메인 (또는 절단 하프-도메인)과 하나 이상의 아연-핑거 결합 도메인 (조작될 수도 있고 그렇지 않을 수도 있는)을 포함한다.
본 발명의 용어 "TALEN"은 DNA의 타켓 영역을 인식 및 절단할 수 있는 뉴클레아제를 가리킨다. TALEN은 TALE 도메인 및 뉴클레오티드 절단 도메인을 포함하는 융합 단백질을 가리킨다. 본 발명에서, "TAL 이펙터 뉴클레아제" 및 "TALEN"이라는 용어는 호환이 가능하다. TAL 이펙터는 크산토모나스 (Xanthomonas) 박테리아가 다양한 식물 종에 감염될 때 이들의 타입 Ⅲ 분비 시스템을 통해 분비되는 단백질로 알려져 있다. 상기 단백질은 숙주 식물 내의 프로모터 서열과 결합하여 박테리아 감염을 돕는 식물 유전자의 발현을 활성화시킬 수 있다. 상기 단백질은 34 개 이하의 다양한 수의 아미노산 반복으로 구성된 중심 반복 도메인을 통해 식물 DNA 서열을 인식한다. 따라서, TALE은 게놈 엔지니어링의 도구를 위한 신규 플랫폼이 될 수 있을 것으로 여겨진다. 다만 게놈-교정 활성을 갖는 기능 TALEN을 제작하기 위해서 다음과 같이 현재까지 알려지지 않았던 소수의 주요 매개변수가 정의되어야 한다. i) TALE의 최소 DNA-결합 도메인, ii) 하나의 타켓 영역을 구성하는 2 개의 절반-자리 사이의 스페이서의 길이, 및 iii) FokI 뉴클레아제 도메인을 dTALE에 연결하는 링커 또는 융합 접합 (fusion junction).
본 발명의 TALE 도메인은 하나 이상의 TALE-반복 모듈을 통해 서열-특이적 방식으로 뉴클레오티드에 결합하는 단백질 도메인을 가리킨다. 상기 TALE 도메인은 적어도 하나의 TALE-반복 모듈, 보다 구체적으로는 1 내지 30 개의 TALE-반복 모듈을 포함하나 이에 한정되지 않는다. 본 발명에서, "TAL 이펙터 도메인" 및 "TALE 도메인"이라는 용어는 호환가능하다. 상기 TALE 도메인은 TALE-반복 모듈의 절반을 포함할 수 있다. 상기 TALEN과 관련하여 국제공개특허 WO/2012/093833호 또는 미국공개특허 2013-0217131호에 개시된 내용 전문이 본 명세서에 참고자료로서 포함된다.
본 발명에서 용어, "RGEN"은 표적 DNA 특이적 가이드 RNA 및 Cas 단백질을 구성요소로 포함하는 뉴클레아제를 의미한다.
본 발명에서 상기 RGEN은 표적 DNA 특이적 가이드 RNA 및 분리된 Cas 단백질의 형태로 시험관 내에서 분리된 유전체 DNA에 적용될 수 있으나, 이에 제한되지 않는다.
상기 가이드 RNA는 생체 외 (in vitro) 전사된(transcribed) 것일 수 있고, 특히 올리고뉴클레오티드 이중가닥 또는 플라스미드 주형으로부터 전사된 것일 수 있으나, 이에 제한되지 않는다.
본 발명에서 용어, "Cas 단백질"은 CRISPR/Cas 시스템의 주요 단백질 구성 요소로, 활성화된 엔도뉴클레아제 또는 nickase를 형성할 수 있는 단백질이다.
상기 Cas 단백질은 crRNA (CRISPR RNA) 및 tracrRNA (trans-activating crRNA)와 복합체를 형성하여 이의 활성을 나타낼 수 있다.
Cas 단백질 또는 유전자 정보는 NCBI (National Center for Biotechnology Information)의 GenBank와 같은 공지의 데이터 베이스에서 얻을 수 있다. 구체적으로, 상기 Cas 단백질은 Cas9 단백질일 수 있다. 또한, 상기 Cas 단백질은 스트렙토코커스 (Streptococcus) 속, 보다 구체적으로 스트렙토코커스 피요젠스 (Streptococcus pyogens) 유래의 Cas 단백질, 보다 구체적으로 Cas9 단백질일 수 있다. 또한, 상기 Cas 단백질은 네이세리아 (Neisseria) 속, 보다 구체적으로 네이세리아 메닝기티디스 (Neisseria meningitidis) 유래의 Cas 단백질, 보다 구체적으로 Cas9 단백질일 수 있다. 또한, 상기 Cas 단백질은 파스테우렐라 (Pasteurella) 속, 보다 구체적으로 파스테우렐라 물토시다 (Pasteurella multocida) 유래의 Cas 단백질, 보다 구체적으로 Cas9 단백질일 수 있다. 또한, 상기 Cas 단백질은 프란시셀라 (Francisella) 속, 보다 구체적으로 프란시셀라 노비시다 (Francisella novicida) 유래의 Cas 단백질, 보다 구체적으로 Cas9 단백질일 수 있다.또한, 상기 Cas 단백질은 캄필로박터 속 (Campylobacter) 속, 보다 구체적으로 캄필로박터 제주니 (Campylobacter jejuni) 유래의 Cas 단백질, 보다 구체적으로 Cas9 단백질일 수 있다. 그러나, 상기 기술된 예에 본 발명이 제한되는 것은 아니다.
또한, 상기 Cas 단백질은 천연형 단백질 외에도 가이드 RNA와 협동하여 활성화된 엔도뉴클레아제 또는 nickase로 작용할 수 있는 변이체를 모두 포함하는 개념으로 본 발명에서 사용된다. 상기 Cas9 단백질의 변이체는 촉매적 아스파라긴산 잔기 (catalytic aspartate residue)가 임의의 다른 아미노산으로 변경된 Cas9의 돌연변이 형태일 수 있다. 구체적으로, 다른 아미노산은 알라닌 (alanine)일 수 있지만, 이에 제한되지 않는다.
본 발명에서 상기 Cas 단백질은 재조합 단백질일 수 있다.
상기 용어 "재조합"은, 예컨대 세포, 핵산, 단백질 또는 벡터 등을 언급하며 사용될 때, 이종 (heterologous) 핵산 또는 단백질의 도입 또는 천연형 (native) 핵산 또는 단백질의 변경, 또는 변형된 세포로부터 유래한 세포에 의해 변형된 세포, 핵산, 단백질, 또는 벡터를 나타낸다. 따라서, 예컨대, 재조합 Cas 단백질은 인간 코돈 표 (human codon table)를 이용하여 Cas 단백질을 암호화하는 서열을 재구성함으로써 만들 수 있다.
상기 Cas 단백질 또는 이를 코딩하는 핵산은 Cas 단백질이 핵 내에서 작용할 수 있게 하는 형태일 수 있다.
상기 분리된 Cas 단백질은 또한 세포 내로 도입되기에 용이한 형태일 수 있다. 그 예로 Cas 단백질은 세포 침투 펩타이드 또는 단백질 전달 도메인 (protein transduction domain)과 연결될 수 있다. 상기 단백질 전달 도메인은 폴리-아르기닌 또는 HIV 유래의 TAT 단백질일 수 있으나, 이에 제한되지 않는다. 세포 침투 펩타이드 또는 단백질 전달 도메인은 상기 기술된 예 외에도 다양한 종류가 당업계에 공지되어 있으므로, 당업자는 상기 예에 제한되지 않고 다양한 예를 본 발명에 적용할 수 있다.
또한, 상기 Cas 단백질을 코딩하는 핵산은 추가적으로 핵 위치 신호 (nuclear localization signal, NLS) 서열을 포함할 수 있다. 따라서, 상기 Cas 단백질을 코딩하는 핵산을 포함하는 발현 카세트는 상기 Cas 단백질을 발현시키기 위한 프로모터 서열 등 조절 서열 외에도 NLS 서열을 포함할 수 있다. 그러나, 이에 제한되지 않는다.
Cas 단백질은 분리 및/또는 정제에 유리한 태그와 연결될 수 있다. 그 예로, His 태그, Flag 태그, S 태그 등과 같은 작은 펩타이드 태그, 또는 GST (Glutathione S-transferase) 태그, MBP (Maltose binding protein) 태그 등을 목적에 따라 연결할 수 있으나, 이에 제한되지 않는다.
본 발명에서 용어, "가이드 RNA (guide RNA)"는 표적 DNA 특이적인 RNA를 의미하며, Cas 단백질과 결합하여 Cas 단백질을 표적 DNA로 인도할 수 있다.
본 발명에서 가이드 RNA는 두 개의 RNA, 즉, crRNA (CRISPR RNA) 및 tracrRNA (trans-activating crRNA)를 구성요소로 포함하는 이중 RNA (dual RNA); 또는 표적 DNA 내 서열과 상보적인 서열을 포함하는 제1 부위 및 Cas 단백질과 상호작용하는 서열을 포함하는 제2 부위를 포함하는 형태, 보다 구체적으로 crRNA 및 tracrRNA의 주요 부분이 융합된 형태인 단일-사슬 가이드 RNA (single-chain guide RNA; sgRNA)일 수 있다.
상기 sgRNA는 표적 DNA 내 서열과 상보적인 서열을 가지는 부분 (이를 Spacer region, Target DNA recognition sequence, base pairing region 등으로도 명명함) 및 Cas 단백질 결합을 위한 hairpin 구조를 포함할 수 있다. 보다 구체적으로, 표적 DNA 내 서열과 상보적인 서열을 가지는 부분, Cas 단백질 결합을 위한 hairpin 구조 및 Terminator 서열을 포함할 수 있다. 상기 기술된 구조는 5' 에서 3' 순으로 순차적으로 존재하는 것일 수 있다. 그러나, 이에 제한되는 것은 아니다.
상기 가이드 RNA가 crRNA 및 tracrRNA의 주요 부분 및 표적 DNA의 상보적인 부분을 포함하는 경우라면 어떠한 형태의 가이드 RNA도 본 발명에서 사용될 수 있다.
상기 crRNA는 표적 DNA와 혼성화된 것일 수 있다.
RGEN은 Cas 단백질 및 dual RNA로 구성되거나, Cas 단백질 및 sgRNA로 구성될 수 있으나, 이에 제한되지 않는다.
상기 가이드 RNA, 구체적으로 crRNA 또는 sgRNA는 표적 DNA 내 서열과 상보적인 서열을 포함하며, crRNA 또는 sgRNA의 업스트림 부위, 구체적으로 sgRNA 또는 dualRNA의 crRNA의 5' 말단에 하나 이상의 추가의 뉴클레오티드를 포함할 수 있다. 상기 추가의 뉴클레오티드는 구아닌 (guanine, G)일 수 있으나, 이에 제한되는 것은 아니다.
본 발명의 목적상 상기 RGEN은 생체 내 (in vivo), 그리고 시험관 내 (in vitro)에서 뉴클레아제 활성을 가질 수 있다. 따라서, 시험관 내에서 유전체 DNA의 비표적 위치를 검출하는데 사용될 수 있으며, 이를 생체 내에서 적용하였을 때 상기 검출된 비표적 위치와 동일한 위치에도 활성을 가질 것을 예상할 수 있다.
상기 유전체 DNA는 비형질전환 세포 또는 표적 특이적 유전자 가위가 뉴클레아제 활성을 갖도록 형질전환된 세포로부터 분리된 것일 수 있으며, 유전자 가위의 비표적 위치를 검출하고자 하는 목적에 따라 그 유래에 제한 없이 사용될 수 있다.
본 발명에서 용어 "Cpf1"은 상기 CRISPR/Cas 시스템과는 구별되는 새로운 CRISPR 시스템의 유전자 가위로서, Cpf1의 유전자 가위로서의 역할은 최근에서야 보고되었다 (Cell, 2015, 163(3): 759-71). 상기 Cpf1은 단일 RNA에 의해 구동되는 유전자 가위로, tracrRNA가 필요 없고 Cas9에 비해 상대적으로 크기가 작은 특징을 가진다. 또한, 티민 (thymine)이 풍부한 PAM (protospacer-adjacent motif) 서열을 이용하며 DNA의 이중 사슬을 잘라 점착종단 (cohesive end)을 만든다. 상기 Cpf1은 이에 제한되는 것은 아니나, 특히 캔디다투스 파세이박터 (Candidatus Paceibacter), 라치노스피라 (Lachnospira) 속, 뷰티리비브리오 (Butyrivibrio) 속, 페레그리니박테리아 (Peregrinibacteria), 액시도미노코쿠스 (Acidominococcus) 속, 포르파이로모나스 (Porphyromonas) 속, 프레보텔라 (Prevotella) 속, 프란시셀라 (Francisella) 속, 캔디다투스 메타노플라스마 (Candidatus Methanoplasma), 또는 유박테리움 (Eubacterium) 속 유래일 수 있다.
본 발명의 구체적인 일 실시예에서는 HBB 유전자를 표적으로 한 RGEN을 시험관 내 (in vitro)에서 분리된 유전체 DNA에 처리한 결과 표적 위치 및 일부 비표적 예상 위치가 절단되고, 생체 내 (in vivo)에서는 상기 부위에 인델 (insertion and deletion, Indel)이 유도되는 것을 확인하였다 (도 1). 그러나 모든 비표적 예상 위치가 절단되는 것은 아니었다.
(b) 단계는 상기 (a) 단계를 통해 절단된 DNA를 이용해 전체 유전체 시퀀싱 (whole genome sequencing, WGS)을 수행하는 단계로서, 표적 위치의 서열과 상동성을 가지는 서열을 찾아 비표적 위치일 것으로 예측하는 간접적인 방법과 달리 전체 유전체 수준에서 실질적으로 유전자 가위에 의해 절단되는 비표적 위치를 검출하기 위해 수행되는 것이다.
본 발명에서 용어 "전체 유전체 시퀀싱 (whole genome sequencing)"은 차세대 시퀀싱 (next generation sequencing)에 의한 전장 유전체 시퀀싱을 10 X, 20 X, 40 X 형식으로 여러 배수로 유전체를 읽는 방법을 의미한다. "차세대 시퀀싱"은 칩 (Chip) 기반, 그리고 PCR 기반 페어드엔드 (paired end) 형식으로 전장 유전체를 조각내고, 상기 조각을 화학적인 반응 (hybridization)에 기초하여 초고속으로 시퀀싱을 수행하는 기술을 의미한다.
(c) 단계는 상기 전체 유전체 시퀀싱으로 수득한 염기서열 데이터 (sequence read)에서 DNA가 절단된 위치를 결정하는 단계로서, 시퀀싱 데이터를 분석하여 유전자 가위의 표적 위치 및 비표적 위치를 간편하게 검출할 수 있다. 상기 염기서열 데이터로부터 DNA가 절단된 특정 위치를 결정하는 것은 다양한 접근 방법으로 수행될 수 있으며, 본 발명에서는 상기 위치를 결정하기 위한 여러 가지의 합리적인 방법들을 제공한다. 그러나 이는 본 발명의 기술적 사상에 포함되는 예시에 불과하며, 본 발명의 범위가 이들 방법에 의해 제한되는 것은 아니다.
예컨대, 상기 절단된 위치를 결정하기 위한 일례로서, 전체 유전체 시퀀싱을 통해 수득한 염기서열 데이터를 분석 프로그램 (예를 들어,BWA/GATK 또는 ISAAC)을 이용하여 유전체 상의 위치에 따라 정렬하였을 경우, 5' 말단이 수직 정렬된 위치가 DNA가 절단된 위치를 의미할 수 있다. 다시 말해, 본 발명에서 용어 "수직 정렬"이란, BWA/GATK 또는 ISAAC 등의 프로그램으로 전체 유전체 시퀀싱 결과를 분석할 때, 인접한 왓슨 가닥 (Watson strand)과 크릭 가닥 (Crick strand) 각각에 대해, 2 개 이상의 염기서열 데이터의 5' 말단이 유전체 상의 동일한 위치 (nucleotide position)에서 시작되는 배열을 말한다. 이는, 유전자 가위에 의해 잘려 동일한 5' 말단을 갖게 되는 DNA 단편들이 각각 시퀀싱되어 나타나게 되는 것이다.
즉, 유전자 가위가 표적 위치 및 비표적 위치에 뉴클레아제 활성을 가져 상기 부위들을 절단하는 경우 염기서열 데이터를 정렬하게 되면 공통적으로 절단된 부위는 각각 그 위치가 5' 말단으로 시작되므로 수직 정렬되나, 절단되지 않은 부위에는 5' 말단이 존재하지 않으므로 정렬 시 스태거드 (staggered) 방식으로 배열될 수 있다. 이에, 수직 정렬된 위치를 유전자 가위에 의해 절단된 부위로 볼 수 있으며, 이는 곧 유전자 가위의 표적 위치 또는 비표적 위치를 의미하는 것일 수 있다.
상기 정렬은 표준 염기서열 (reference genome)로 염기서열 데이터를 맵핑한 뒤, 유전체에서 동일 위치를 가지는 염기들을 각 위치에 맞게 배열하는 것을 의미한다. 따라서, 염기서열 데이터를 상기와 같은 방식으로 정렬할 수 있다면 어떠한 컴퓨터 프로그램도 이용될 수 있으며, 이는 당업계에 이미 알려진 공지의 프로그램이거나 또는 목적에 맞게 제작된 프로그램일 수 있다. 본 발명의 일 실시예에서는 ISAAC를 이용하여 정렬을 수행하였으나, 이에 제한되는 것은 아니다.
정렬 결과, 상기 설명한 바와 같이 5' 말단이 수직 정렬된 위치를 찾는 등의 방법을 통해 유전자 가위에 의해 DNA가 절단된 위치를 결정할 수 있고, 상기 절단된 위치가 표적 위치 (on-target site)가 아니라면, 비표적 위치 (off-target site)로 판단할 수 있다. 다시 말해, 유전자 가위의 표적 위치로 설계한 염기 서열과 동일한 서열은 표적 위치이고, 상기 염기 서열과 동일하지 않은 서열은 비표적 위치로 볼 수 있다. 이는 상기 기술한 비표적 위치의 정의상 자명한 것이다. 상기 비표적 위치는 특히, 표적 위치의 서열과 상동성을 가지는 서열로 구성된 것일 수 있고, 구체적으로 표적 위치와 1 개 이상의 뉴클레오티드 불일치 (mismatch)를 가지는 서열, 더욱 구체적으로 표적 위치와 1 내지 6 개의 뉴클레오티드 불일치를 가지는 것일 수 있으나, 이에 특별히 제한되는 것은 아니고 유전자 가위가 절단할 수 있는 위치라면 본 발명의 범위에 포함될 수 있다. 이때, 상기 표적 위치는 가이드 RNA와 상보적인 15 내지 30 뉴클레오티드 서열일 수 있고, 추가적으로 뉴클레아제가 인식하는 서열 (예컨대, Cas9의 경우 Cas9이 인식하는 PAM 서열)을 포함할 수 있다.
비표적 위치는 5' 말단이 수직 정렬된 위치를 찾는 방법 이외에도, 5' 말단 플롯에서 이중 피크 패턴을 보이는 경우 그 위치가 표적 위치가 아니라면 비표적 위치로 판단할 수 있다. 유전체 내의 각 위치에 대하여 동일한 염기의 5' 말단을 구성하고 있는 뉴클레오티드 수를 세어 그래프를 그릴 경우, 특정 위치에서 이중 피크 패턴이 나타나게 되는데, 상기 이중 피크는 유전자 가위에 의해 절단된 이중 가닥의 각각의 가닥에 의해 나타나는 것이기 때문이다.
본 발명의 구체적인 일 실시예에서는 유전체 DNA를 RGEN으로 절단한 뒤, 전체 유전체 분석 후 이를 ISAAC로 정렬하여 절단된 위치에서는 수직 정렬, 절단되지 않은 위치에서는 스태거드 방식으로 정렬되는 패턴을 확인하였으며, 이를 5' 말단 플롯으로 나타내었을 때 절단 부위에서 이중 피크의 독특한 패턴이 나타나는 것을 확인하였다 (도 2 내지 도 4).
나아가 이에 제한되는 것은 아니나, 구체적인 일례로 왓슨 가닥 (Watson strand)과 크릭 가닥 (Crick strand)에 해당하는 염기서열 데이터 (sequence read)가 각각 두 개 이상씩 수직으로 정렬되는 위치를 비표적 위치인 것으로 판단할 수 있고, 또한 20 % 이상의 염기서열 데이터가 수직으로 정렬되고, 각각의 왓슨 가닥 및 크릭 가닥에서 동일한 5' 말단을 가진 염기서열 데이터의 수가 10 이상인 위치가 비표적 위치, 즉 절단되는 위치인 것으로 판단할 수 있다.
본 발명의 구체적인 일 실시예에서는, 양쪽 가닥에서 동일한 5' 말단을 가진 염기서열 데이터의 수가 10 이상이고, 적어도 19 %의 염기서열 데이터가 수직으로 정렬되는 위치를 검색하였으며, 그 결과 상기 위치는 기존에 검증된 표적 및 비표적 위치를 포함한 125 개의 위치를 검출함으로써 Digenome-seq가 고도의 재현성을 가짐을 확인하였다 (도 5 내지 도 7).
본 발명의 다른 구체적인 일 실시예에서는, 다른 표적 유전자인 VEGF-A에 대하여도 Digenome-seq로 비표적 위치를 검출할 수 있다는 것을 확인하였으며 (도 8 내지 도 10), 또 다른 구체적인 일 실시예에서는, Digenome-seq가 RGEN이 아닌 ZFN의 비표적 위치 또한 검출할 수 있음을 확인하였다 (도 24). 결론적으로 상기 결과들을 통해 본 발명의 Digenome-seq는 표적 위치 및 유전자 가위의 종류에 제한되지 않고 유전자 가위의 비표적 위치를 검출할 수 있는 방법임을 알 수 있다.
상기 비표적 위치는 시험관 내 (in vitro)에서 유전자 가위를 유전체 DNA에 처리하여 수행되는 것이다. 이에 상기 방법을 통해 검출된 비표적 위치에 대하여 실질적으로 생체 내 (in vivo)에서도 비표적 효과가 나타나는지 확인해볼 수 있다. 다만 이는 추가적인 검증 과정에 불과하므로 본 발명의 범위에 필수적으로 수반되는 단계는 아니며, 필요에 따라 추가적으로 수행될 수 있는 단계에 불과하다. 본 발명에서 용어, "비표적 효과 (off-target effect)"는 비표적 위치 (off-target site)와는 구별되는 개념이다. 즉, 상기 설명한 바와 같이 본 발명에서 비표적 위치라는 개념은 유전자 가위가 작동할 수 있는 위치 중 표적 위치가 아닌 위치를 의미하는 것으로, 뉴클레아제에 의해 절단되는 위치를 말하는 것이나, 비표적 효과는 세포 내 비표적 위치에서 유전자 가위에 의해 인델 (Insertion and deletion)이 나타나는 효과를 의미한다. 본 발명에서 용어 "인델"은 DNA의 염기 배열에서 일부 염기가 중간에 삽입되거나 (insertion) 결실된 (deletion) 변이를 총칭한다. 또한, 유전자 가위에 의해 상기 인델이 일어난 비표적 위치를 비표적 인델 위치라고 한다. 결론적으로, 본 발명의 비표적 위치는 비표적 인델 위치를 포함하는 개념으로 볼 수 있으며, 유전자 가위가 활성을 가질 수 있는 가능성이 있는 위치로 족하며, 반드시 유전자 가위에 의한 인델이 확인되어야 하는 것은 아니다. 한편, 본 발명에서의 비표적 위치는 비표적 후보 위치 (candidate off-target site)로, 비표적 인델 위치는 검증된 비표적 위치 (validated off-target site)로도 명명된다.
구체적으로 상기 검증 과정은, 이에 제한되는 것은 아니나 상기 비표적 위치에 대한 유전자 가위가 발현된 세포로부터 유전체 DNA를 분리하고, 상기 DNA의 비표적 위치에서 인델을 확인하여 비표적 위치에서의 비표적 효과를 확인하는 것일 수 있다. 이는, T7E1 분석, Cel-I 효소를 이용한 돌연변이 검출 분석 또는 표적화 딥시퀀싱 (targeted deep sequencing) 등 당업계에 공지된 인델 확인 방법을 수행하여 비표적 효과를 확인하는 것일 수 있다. 상기 비표적 효과를 확인하는 단계는 비표적 위치에서 인델이 일어났는지를 직접적으로 확인하는 것일 수 있다. 다만, 이러한 생체 내 검증 과정에서 인델이 일어나지 않았다고 하더라도, 이는 검출할 수 있는 수준 이하의 빈도로 인델이 일어날 경우까지 확인한 것은 아니므로 어디까지나 보조적인 수단으로 보아야 한다.
상기 기술한 것과 같이 수직 정렬된 위치를 확인하거나, 또는 5' 말단 플롯에서 이중 피크를 확인하는 것만으로도 비표적 위치를 충분히 검출할 수 있고 이는 고도의 재현성을 가지는 것이나, 불균일 절단 패턴 또는 낮은 시퀀싱 깊이 (depth)를 가지는 일부 위치가 누락될 수 있다는 문제가 있다. 이에 본 발명자들은 염기서열 데이터의 정렬 패턴을 기반으로 하여, 각 뉴클레오티드의 위치에 DNA 절단 점수를 산출하는 수식을 개발 (도 11)하였으며, 이는 다음과 같다:
Figure 112015110962728-pat00001
상기 수식을 통해 기존의 Digenome-seq에서는 검출되지 않았던 다수의 추가적인 위치를 검출할 수 있으며, 이를 통해 거짓-양성 위치를 손쉽게 걸러낼 수 있다. 상기 수식에서 C 값은 당업자가 임의의 상수를 적용할 수 있는 것으로 본 발명의 실시예에 의해 제한되는 것은 아니다. 특히, 이에 제한되는 것은 아니나 예컨대 C 값을 100으로 하여 상기 산출된 점수가 25,000 점 이상인 경우 비표적 위치로 판단할 수 있다. 다만, 상기 점수의 기준은 목적에 따라 당업자에 의해 적절히 조정, 변경될 수 있다.
본 발명의 구체적인 일 실시예에서는 기존의 Digenome-seq 방식에 상기 DNA 절단 점수를 도입하여 비표적 위치를 검출하였고, 그 결과 단순히 수직 정렬 위치를 찾는 방식에 비하여 추가적인 위치를 검출할 수 있었고 이는 고도의 재현성을 가지는 것임을 확인하였다 (도 12 및 도 13). 본 발명의 다른 구체적인 일 실시예에서는 RGEN의 sgRNA에 있어서, 플라스미드 주형을 통해 전사된 것과 올리고뉴클레오티드 이중 가닥을 통해 전사된 것을 비교하여 플라스미드 주형에서 전사된 sgRNA를 사용한 경우 검출된 비표적 위치는 표적 위치와 더욱 고도로 상동성을 가지는 것을 확인하였다 (도 14, 표 1 및 표 2).
나아가 본 발명의 Digenome-seq는 복수의 유전자 가위를 이용하여 수행될 수도 있으며, 본 발명자들은 이를 "복합 Digenome-seq"로 명명하였다. 이 경우, 상기 유전자 가위는 2 개 이상, 구체적으로 2 내지 100 개의 표적에 대한 유전자 가위를 혼합한 것일 수 있으나, 이에 제한되는 것은 아니다.
상기 복합 Digenome-seq의 경우 각각의 유전자 가위에 의해 유전체 DNA가 절단되므로 절단 위치가 어느 유전자 가위에 의해 절단되었는지를 확인하는 것이 중요하다. 이는 표적 위치와의 편집 거리 (edit distance)에 따라 비표적 위치를 분류함으로써 달성될 수 있으며, 비표적 위치의 염기 서열이 표적 위치와 상동성을 가진다는 것을 전제로 한다. 이를 통해 각각의 유전자 가위에 대한 표적 및 비표적 위치가 명확하게 구분될 수 있다.
본 발명의 구체적인 일 실시예에서는 Digenome-seq에 11 개의 각기 다른 표적 위치에 대한 sgRNA를 사용한 복합 Digenome-seq를 수행하였으며, 확인된 964 개의 위치를 표적 위치와의 편집 거리 (edit distance)에 따라 분류하여 각각의 표적 위치에 대한 비표적 위치를 확인하였다 (도 15 내지 도 19).
다른 구체적인 일 실시예에서는 100 개의 각기 다른 표적 위치에 대한 sgRNA를 사용하여 복합 Digenome-seq를 수행하였으며, 이 경우에도 특별히 제한되지 않고 비표적 위치를 확인할 수 있었다 (도 23). 이를 통해 본 발명의 Digenome-seq는 표적 위치의 수에 제한 없이 적용 가능함을 확인하였다.
본 발명의 구체적인 일 실시예에서는 특정 위치를 표적으로 하는 RGEN (RNA-guided engineered nuclease)에 대하여, 전체 유전체에서 Digenome-seq를 통해 검출된 비표적 위치 중 표적 위치와의 뉴클레오티드 불일치가 6 개 이하인 상동성 위치가 13,000 개 이하이고, 뉴클레오티드 불일치가 2 개 이하인 상동성 위치를 가지지 않는 경우, 상기 특정 위치를 RGEN의 표적 위치로 선별하는 것이 비표적 효과를 최소화할 수 있음을 확인하였다. 이는 본 발명의 Digenome-seq를 이용하여 표적 위치를 선별하는 바람직한 기준을 확립해가는 과정을 보여주는 일례로서, Digenome-seq를 통해 유전자 가위의 비표적 효과를 최소화 시킬 수 있을 것으로 기대된다.
본 발명의 다른 구체적 일 실시예에서는 표적 위치의 서열과 상동성을 가지는 위치의 수는 뉴클레오티드 불일치 수준이 증가할 수록 Digenome-seq를 통해 적은 비율로 검출되는 것을 확인하였다 (도 16).
이는 RGEN의 표적 위치를 선별함에 있어서, 표적 서열과 유전체 내에서 상동성을 가지는 뉴클레오티드 서열이 적을 수록, 특히 고도의 상동성을 가지는 뉴클레오티드 서열이 적을 수록 상대적으로 더욱 특이적이기 때문이다. 이를 통해 선별된 RGEN의 표적 위치는 비표적 효과가 최소화된 것일 수 있다.
또 다른 양태로서, 본 발명은 플라스미드 (plasmid)를 주형으로 하여 시험관 내 (in vitro) 전사된 가이드 RNA를 세포에 도입하는 단계를 포함하는, 유전체 교정에서 비표적 효과를 감소시키는 방법을 제공한다.
상기 비표적 효과 감소는, 플라스미드를 주형으로 사용하는 경우 벌지-형 (bulge-type) 비표적 위치에 인델이 발생하는 것을 막는 것에 의한 것으로 파악된다. 즉, 가이드 RNA를 시험관 내 전사 과정을 통해 제조하는 경우 올리고뉴클레오티드 이중가닥을 주형으로 사용하면 벌지-형 비표적 위치가 많이 검출되나 플라스미드 주형을 사용하면 대부분의 벌지-형 비표적 위치가 사라지므로, Digenome-seq에 있어서뿐만 아니라 RGEN을 이용하여 유전체 DNA를 절단하고 인델을 유도함에 있어서도 올리고뉴클레오 이중가닥 대신 플라스미드를 주형으로 하여 비표적 효과를 감소시킬 수 있다. 이는, 올리고뉴클레오티드에 (n-1)mer라고 불리우는 failed sequence들이 포함되기 때문인 것으로 파악된다.
본 발명의 Digenome-seq는 고도의 재현성으로 유전체 수준에서 유전자 가위의 비표적 위치를 검출할 수 있어, 표적 특이성이 높은 유전자 가위의 제작 및 이를 위한 연구에 사용될 수 있다.
도 1은 시험관 내 (in vitro)에서 RGEN-매개 유전체 DNA 절단에 관한 것이다. (a) 시험관 내 RGEN-매개 유전체 DNA 절단의 모식도이다. (b) 표적 위치 및 네 개의 잠재적 비표적 위치에서 HBB를 표적으로 하는 RGEN에 의해 유전체 DNA가 절단되는지 확인한 것이다. 1X 반응에서, Cas9 단백질 (40 ug, 300 nM) 및 sgRNA (30 ug, 900 nM)를 8 ㎍의 HAP1 유전체 DNA와 8 시간 동안 반응시켰다. Cas9 및 sgRNA는 10 배 내지 10,000 배까지 점차적으로 희석하였다. 절단되지 않은 DNA를 qPCR로 측정하였다. (하단) 표적 위치 및 네 개의 잠재적 비표적 위치의 DNA 서열을 나타낸 것이다. 일치하지 않는 뉴클레오티드를 빨간색으로 표시하였고 팸 서열은 파란색으로 표시하였다. (c) 표적 위치 및 잠재적 비표적 위치에서 T7E1 분석으로 RGEN에 의한 돌연변이 빈도를 측정한 것이다. (d) 인델 (indel) 빈도를 측정하기 위해 표적화 딥시퀀싱 (deep sequencing)을 수행한 것이다.
도 2는 비표적 위치를 찾기 위한 RGEN으로 유도된 Digenome-seq에 관한 것이다. (a) 비표적 위치를 확인하기 위한 뉴클레아제-절단 전체 유전체 시퀀싱 (whole genome sequencing, WGS)의 모식도를 나타낸 것이다. 비형질전환 또는 RGEN 형질전환 세포에서 분리한 유전체 DNA를 RGEN으로 절단하고, WGS를 수행하였다. 염기서열 데이터 (sequence read)를 표준 염기서열 (reference genome, hg19)에 대해 정렬하고, IGV 프로그램을 이용하여 시각화하였다. 정방향 염기서열 데이터는 주황색, 역방향 염기서열 데이터는 하늘색으로 표시하였다. 빨간 삼각형 및 수직 점선은 절단 위치를 나타낸다. (b) 표적 위치에서 HBB 특이적 RGEN을 이용하여 얻은 대표적인 IGV 데이터이다. 인델은 화살표로 표시하였다. (c) 뉴클레오티드 위치에 따른 동일한 5' 말단을 가지는 염기서열 데이터의 절대적 및 상대적 숫자를 나타낸 것이다.
도 3은 비표적 위치를 찾기 위한 RGEN으로 유도된 Digenome-seq에 관한 것이다. (a-d) 잠재적 비표적 위치인 (a) OT1, (b) OT3, (c) OT7, 및 (d) OT12에서 HBB 특이적 RGEN을 이용하여 얻은 대표적인 IGV 데이터이다. 인델은 (a) 화살표 또는 (b) 상자로 표시하였다.
도 4는 유전체 상의 특정 위치에서의 5' 말단 개수에 대한 플롯 (plot)을 나타낸 것이다. (a) 뉴클레아제 절단 위치에서의 IGV 데이터를 나타낸 것이다. (b, c) (b) OT1 및 (c) OT3 위치에서 뉴클레오티드 위치에 따른 동일한 5' 말단을 가지는 염기서열 데이터의 절대적 및 상대적 숫자를 보여주는 5' 말단 플롯을 나타낸 것이다.
도 5는 Digenome-Seq로 확인되고 표적 딥시퀀싱으로 검증된 HBB RGEN의 비표적 위치를 나타낸 것이다. (a) 비형질전환 또는 RGEN 형질전환 세포에서 HBB RGEN을 이용하여 Digenome-seq로 확인된 표적 위치와 비표적 위치의 수를 보여주는 밴다이어그램이다. (b) 표적 위치와 Digenome-seq로 확인된 위치를 비교한 히트맵 (heatmap)을 나타낸 것이다. (c) Digenome-seq로 확인된 위치에서 DNA 서열을 이용하여 WebLogo를 통해 얻은 서열 로고 (logo)를 나타낸 것이다. (d) Digenome-Seq 및 표적화 딥시퀀싱 결과를 요약한 것이다. N.D.는 확인되지 않았음을 의미한다. (e) 표적화 딥시퀀싱으로 검증된 비표적 위치이다. 파란색 막대는 비형질전환 HAP1 세포, 빨간색 막대는 HBB RGEN 형질전환 HAP1 세포를 이용하여 얻은 인델 빈도를 나타낸 것이다. (좌측) 표적 위치 및 비표적 위치의 DNA 서열을 나타낸 것이다. 불일치 염기는 빨간색으로 나타내었고, PAM 서열은 파란색으로 나타내었다. (우측) P 값은 Fisher exact test로 계산하였다.
도 6은 온전한 유전체 서열에서 확인된 거짓 양성 위치를 나타낸 것이다. (a-c) HAP1 세포에서 자연적으로 발생하는 인델로 나타나는 거짓 양성 위치 주변의 대표적인 IGV 데이터이다.
도 7은 새롭게 검증된 비표적 위치에서 HBB RGEN으로 유도된 인델 서열을 나타낸 것이다. (a, b) 표적화 딥시퀀싱으로 비표적 인델을 검출하였다. 삽입된 뉴클레오티드는 붉은색으로, PAM 서열은 파란색으로 나타내었다.
도 8은 Digenome-Seq로 확인된 VEGF -A RGEN의 비표적 위치를 나타낸 것이다. (a) VEGF-A 비표적 위치 중 하나에서 5' 말단의 개수에 대한 플롯을 나타낸 것이다. (b) 표적 위치와 Digenome-seq로 확인된 위치를 비교한 히트맵이다. 주어진 위치에서 어두운 빨간색은 100 %, 어두운 파란색은 0 % 일치하는 것을 나타낸다. (c) Digenome-seq로 확인된 위치에서 DNA 서열을 이용하여 WebLogo를 통해 얻은 서열 로고를 나타낸 것이다. (d) Digenome-Seq 및 표적 딥시퀀싱 결과를 요약한 것이다. N.D.는 확인되지 않았음을 의미한다. (e) 표적화 딥시퀀싱으로 검증된 비표적 위치를 나타낸 것이다. 파란색 막대는 비형질전환 HAP1 세포, 빨간색 막대는 VEGF -A RGEN 형질전환 HAP1 세포를 이용하여 얻은 인델 빈도를 나타낸다. (좌측) 표적 위치 및 비표적 위치의 DNA 서열을 나타낸 것이다. 불일치 염기는 빨간색, PAM 서열은 파란색으로 나타냈다. (우측) P 값은 Fisher exact test로 계산하였다.
도 9는 VEGF -A RGEN의 비표적 위치를 확인하기 위한 RGEN 유도 Digenome-seq를 나타낸 것이다. (a-d) (a) 표적 위치 및 (b-d) 비표적 위치에서 뉴클레오티드 위치에 따른 동일한 5' 말단을 가지는 염기서열 데이터의 절대적 및 상대적 숫자를 보여주는 5' 말단 플롯을 나타낸 것이다.
도 10은 새롭게 검증된 비표적 위치에서 VEGF -A RGEN으로 유도된 인델 서열을 나타낸 것이다. (a-d) 비표적 인델은 표적화 딥시퀀싱으로 검출하였다. 삽입된 뉴클레오티드는 빨간색, PAM 서열은 파란색으로 나타냈다.
도 11 Digenome-seq 분석에 대한 시험관 내 DNA 절단 점수 부여 시스템을 나타낸 것이다.
도 12은 향상된 Digenome-seq 분석을 나타낸 것이다. (a) 시험관 내 DNA 절단 점수의 유전체 수준 Circos 플롯을 나타낸 것이다. 인간 유전체 DNA (빨간색) 및 RGEN으로 절단된 유전체 DNA (녹색)를 이용하여 전체 유전체 시퀀싱 (whole genome sequencing, WGS)을 수행하였다. (b) 올리고뉴클레오티드 이중가닥 또는 플라스미드로부터 전사된 sgRNA를 이용한 Digenome-seq의 모식도를 나타낸 것이다. (c) 올리고뉴클레오티드 이중가닥 또는 플라스미드로부터 전사된 sgRNA를 이용하여 얻은 서열 로고를 나타낸 것이다.
도 13는 시험관 내 DNA 절단 점수 부여 시스템의 재현성을 나타낸 것이다.
도 14는 올리고뉴클레오티드 이중가닥으로부터 전사된 sgRNA를 이용한 Digenome-seq로 확인된 벌지-형 (bulge-type) 비표적 위치를 나타낸 것이다.
도 15은 복합 (multiplex) Digenome-seq를 나타낸 것이다. (a) 복합 Digenome-seq의 모식도를 나타낸 것이다. (b) 단일 및 복합 Digenome-seq 분석에 의해 확인된 시험관 내 절단 위치의 숫자를 밴다이어그램으로 나타낸 것이다. (C) 단일 또는 복합 Digenome-seq로 얻은 X 염색체 상 시험관 내 DNA 절단 점수를 나타낸 것이다.
도 16은 복합 Digenome-seq로 확인된 위치를 분석한 것이다. (a) Digenome-seq, GUIDE-seq 및 HTGTS로 확인한 위치의 숫자를 밴다이어그램으로 나타낸 것이다. (b) 총 불일치 수 (상단) 및 시드 부위 (seed region)에서의 불일치 수 (하단)에 따른 Digenome-seq로 확인된 위치의 비율을 나타낸 것이다. (c) 인간 유전체에서 6 뉴클레오티드 이하의 불일치를 가지는 위치의 수 및 Digenome-seq로 확인된 위치의 수를 스캐터플롯 (scatterplot)으로 나타낸 것이다 (상단). 11 개의 RGEN 표적 위치를 G1 (인간 유전체에서 6 뉴클레오티드 이하의 불일치를 가지는 위치가 13,000 개 미만) 및 G2 (인간 유전체에서 6 뉴클레오티드 이하의 불일치를 가지는 위치가 16,000 개 이상)의 두 그룹으로 나누었다 (하단). 오류 막대는 SEM을 나타낸다. P 값은 Student's t-test로 계산하였다. (d) GUIDE-seq로 확인된 위치의 수 및 Digenome-seq로 확인된 위치의 수를 스캐터플롯으로 나타내었다.
도 17은 GUIDE-seq 양성 위치의 수 및 인간 유전체에서 6 뉴클레오티드 이하의 불일치를 가지는 상동성 위치의 수 사이의 상관관계가 부족함을 나타낸 것이다.
도 18는 HTGTS 및 GUIDE-seq로는 확인되었으나 Digenome-seq로는 확인되지 않은 두 EMX1 비표적 위치를 나타낸 것이다.
도 19은 Digenome-seq 및 CHIP-seq로 확인된 위치의 갯수를 밴다이어그램으로 나타낸 것이다.
도 20은 RNF2-특이적 sgRNA로 형질전환된 HeLa 세포에서 확인된 표적 및 비표적 위치에서의 인델 빈도를 log scale로 나타낸 것이다.
도 21는 비표적 위치에서 표적화 딥시퀀싱 (deep sequencing)을 이용하여 인델 빈도를 확인한 것이다. (a) 일반적인 sgRNA (gX19 sgRNA) 및 변형된 sgRNA (ggX20 sgRNA)를 모식적으로 나타낸 것이다. (b-d) NGS로 검증된 (b) EMX1, (c) HEK293-3, 및 (d) RNF2 sgRNA의 표적 및 비표적 위치에서 인델 빈도를 나타낸 것이다. (e-g) (e) EMX1, (f) HEK293-3, 및 (g) RNF2 sgRNA의 표적 위치에서의 인델 빈도를 비표적 위치에서의 인델 빈도로 나누어 계산한 특이성비 (specificity ratios)를 나타낸 것이다.
도 22은 NGS로 검증된 비표적 위치 및 NGS로 검증되지 않은 비표적 위치를 분석한 것이다. (a-c) (a) 전체 20-nt 서열 또는 (b 및 c) 10-nt 시드 서열에서 나타난 불일치에 따른 비표적 위치에서의 상대적 인델 빈도 (log scale) 플롯을 나타낸 것이다. NGS로 확인한 위치 (a)는 검증된 위치 (b) 및 검증되지 않은 위치 (c)의 두 그룹으로 나누었다.
도 23는 100 개의 표적 위치에 대한 Digenome-seq를 수행한 결과를 나타낸 것이다. (a)는 시험 과정을 모식적으로 나타낸 것이고, (b)는 Digenome-seq를 기반으로 비표적 위치를 예측하는 프로그램과 다른 프로그램 (Crop-it)을 비교한 결과를 나타낸 것이다.
도 24는 Digenome-seq을 통해 ZFN (zinc finger nuclease)의 비표적 효과를 유전체 수준에서 확인한 것이다. (a) ZFN-224 처리 전/후 표적 위치의 대표적인 IGV 사진이다. (b) 미처리 유전체 DNA (빨간색), ZFN-224 (WT FokI)로 절단한 DNA (녹색), 및 ZFN-224 (KK/EL FokI)로 절단한 DNA (파란색)의 유전체 수준에서 시험관 내 DNA 절단 점수를 보여주는 Circos 플롯을 나타낸 것이다. (c-d) ZFN-224 (WT FokI) 또는 ZFN-224 (KK/EL FokI)에서의 비표적 후보 위치를 이용하여 얻은 서열 로고 (sequence logo)를 나타낸 것이다.
도 25는 ZFN의 Digenome-seq에서 비표적 위치를 검출한 결과를 나타낸 것이다. (a) ZFN-224 (KK/EL FokI)의 비표적 후보 위치에서 표적화 딥시퀀싱을 이용하여 인델 빈도를 측정한 것이다. (b-c) Digenome-seq, ILDV, 및 시험관 내 선발로 검출한 (b) 비표적 후보 위치 및 (c) 검증된 표적 위치의 수를 나타낸 밴다이어그램이다.
이하 본 발명을 실시예에 의해 보다 상세하게 설명한다. 그러나 이들 실시예는 본 발명을 예시적으로 설명하기 위한 것으로 본 발명의 범위가 이들 실시예에 의해 제한되는 것은 아니다.
실시예 1: Cas9 및 시험관 내 ( in vitro ) sgRNA
재조합 Cas9 단백질은 대장균 (E. coli)에서 정제하거나 Toolgen (South Korea)에서 구입하였다. sgRNA는 T7 RNA 중합효소를 이용하여 시험관 내 전사로 합성하였다. 구체적으로, sgRNA 주형을 반응 완충액 (40 mM Tris-HCl, 6 mM MgCl2, 10 mM DTT, 10 mM NaCl, 2 mM spermidine, NTP, 및 RNase inhibitor)에서 T7 RNA 중합효소와 함께 37 ℃에서 8 시간 동안 반응시켰다. 전사된 sgRNA에서 주형 DNA를 제거하기 위해 DNaseI과 함께 인큐베이션한 뒤 PCR purification kit (Macrogen)를 이용하여 정제하였다.
실시예 2: 세포 배양 및 형질전환 조건
HeLa 세포는 10 % FBS를 함유하는 DMEM 배지로 배양하였다. lipofectamine 2000 (Life Technologies)을 이용하여 Cas9 발현 플라스미드 (500 ng) 및 sgRNA를 코딩하는 플라스미드 (500 ng)를 8 x 104 개의 HeLa 세포에 도입하였다. 48 시간 후 제조사의 지침에 따라 DNeasy Tissue kit (Qiagen)로 유전체 DNA를 분리하였다.
실시예 3: 유전체 DNA의 시험관 내 절단
DNeasy Tissue kit (Qiagen)를 이용하여 HAP1 세포로부터 유전체 DNA를 정제하였다. Digenome-seq를 위해 유전체 DNA의 시험관 내 절단을 수행하였다. 구체적으로, RNP (ribonucleoprotein)를 형성하기 위해 상온에서 10 분간 Cas9 단백질 및 sgRNA를 인큐베이션하였다. 그 다음 상기 RNP 복합체와 유전체 DNA를 37 ℃에서 8 시간 동안 반응 완충액 (100 mM NaCl, 50 mM Tris-HCl, 10 mM MgCl2, 및 100 ㎍/ml BSA)에서 반응시켰다. sgRNA를 분해하기 위해 상기 과정에서 절단된 유전체 DNA에 RNase A (50 ug/mL)를 처리하고, DNeasy Tissue kit (Qiagen)로 다시 정제하였다.
실시예 4: 전체 유전체 시퀀싱 (whole genome sequencing) 및 Digenome - seq (digested genome sequencing)
전체 유전체 시퀀싱 (whole genome sequencing, WGS)을 위해, 절단된 DNA를 소니케이터 (sonicator)로 파쇄하고 라이브러리를 만들기 위해 어댑터 (adaptor)와 라이게이션 (ligation)하였다. 상기 라이브러리를 이용하여 Macrogen (South Korea)에서 Illumina HiSeq X Ten Sequencer로 WGS를 수행하였다. 그 다음 인간 표준 염기서열 (reference genome) hg19에 대해 서열 파일을 정렬시키기 위해 Isaac을 사용하였다. 절단 점수 부여 시스템을 사용하여 DNA 절단 위치를 확인하였다.
복합 Digenome-seq의 경우, 검출 위치 결과를 편집 거리 (edit distance)에 따라 11 개의 그룹으로 분류하였다. 상기 시험관 내 RGEN 절단 위치를 검출하는데 사용된 컴퓨터 프로그램 및 Digenome 검출 위치 분류에 사용된 컴퓨터 프로그램은 별도로 제작하였다.
실시예 5: 표적화 딥시퀀싱 (deep sequencing)
Phusion 중합효소 (New England biolabs)를 이용하여 표적 위치 및 잠재적 비표적 위치를 증폭하였다. NaOH로 PCR 증폭 산물을 변성시키고 Illumina MiSeq를 이용하여 페어드엔드 (paired-end) 시퀀싱을 수행한 뒤, 인델 (insertion and deletion, Indel) 빈도를 계산하였다.
실험예 1: 시험관 내 ( in vitro )에서 RGEN을 이용한 유전체 DNA의 절단
유전자 가위의 비표적 위치를 검출할 수 있는 방법을 개발하기 위하여, 본 발명자들은 대표적으로 RGEN (RNA-guided engineered nuclease)을 이용하여 실험을 수행하였다. 다만, 이는 본 발명의 기술을 설명하기 위한 일 실시예에 불과한 것으로 적용될 수 있는 유전자 가위의 종류가 RGEN으로 한정되는 것은 아니다. 본 발명의 유전체에서 유전자 가위의 비표적 위치를 검출하는 방법은 시험관 내에서 유전체를 특정 표적에 대한 유전자 가위로 절단한 뒤, 전체 유전체 시퀀싱 (whole genome sequencing, WGS)을 수행하고 이를 분석하여 상기 유전자 가위의 비표적 위치를 검출하는 것으로, 본 발명자들은 이를 Digenome-seq (nuclease-digested genomic DNA sequencing)으로 명명하였다.
본 발명자들은 Digenome-seq에 의해 대규모 세포 집단에서 유전자 가위로 유도된 비표적 위치를 확인할 수 있을 것으로 생각했다.
시험관 내 (in vitro)에서 고농도의 RGEN을 유전체에 처리하여 비표적 DNA 서열을 효과적으로 절단할 수 있었고, 이를 통해 5' 말단이 동일한 다수의 DNA 절편을 생산하였다. 상기 RGEN으로 절단된 DNA 절편은 뉴클레아제 절단 위치가 수직으로 정렬된 염기서열 데이터 (sequence read)를 만들었다. 대조적으로, RGEN으로 절단되지 않은 염기서열 데이터는 스태거드 방식 (staggered manner)으로 정렬되었다. 비표적 위치에 대응하는 수직 정렬을 가지는 염기서열 데이터를 찾기 위해 컴퓨터 프로그램을 개발하였다.
먼저, 본 발명자들은 시험관 내 유전체에서 RGEN이 잠재적 비표적 DNA 서열을 효과적으로 절단할 수 있는지 확인하였다. 이를 위해 RGEN의 표적 위치와 고도의 상동성을 가지는 위치 (OT1 위치로 명명)에서 비표적 돌연변이를 유도할 수 있는 HBB 유전자-특이적 RGEN을 선택하였다. 상기 위치에 더해, 상기 RGEN의 표적 위치와 세 개의 뉴클레오티드가 차이나는 세 종류의 다른 잠재적 비표적 위치 (OT3, OT7 및 OT12 위치로 명명)도 분석하였다.
0.03 nM 내지 300 nM 범위의 농도의 HBB 특이적 sgRNA와 함께 미리 인큐베이션시킨 Cas9 단백질을 이용하여 야생형 HAP1 세포에서 분리된 유전체 DNA를 절단하였다 (도 1a). 그 다음 상기 위치에서 DNA 절단을 확인하기 위해 정량적 PCR을 이용하였다. HBB 표적 위치 및 OT1 위치 모두 아주 낮은 RGEN 농도에서도 거의 완전히 절단되었다 (도 1b). 반면에, OT3 위치는 고농도 RGEN에서만 완전히 절단되었으며, 나머지 두 위치인 OT7 및 OT12에서는 최고 농도에서도 거의 절단되지 않았다.
다음으로, HAP1 세포에 상기 RGEN을 형질전환시킨 뒤, 상기 위치에서 유도된 인델 (insertion and deletion, Indel)을 검출하기 위해 T7 엔도뉴클레아제 I (T7E1) 및 표적화 딥시퀀싱 (targeted deep sequencing)을 이용하였다.
T7E1 분석을 위해, 제조사의 지침에 따라 DNeasy Tissue kit (Qiagen)를 이용하여 유전체 DNA를 분리하고, 표적 위치를 PCR로 증폭시켰다. 그 다음, 증폭된 PCR 산물을 서모사이클러 (thermocycler)를 이용하여 열로 변성시키고 천천히 냉각시켰다. 냉각된 산물을 37 ℃에서 20 분 동안 T7 엔도뉴클레아제 I (ToolGen)과 인큐베이션하고, 아가로스 겔 전기영동으로 크기 별로 분리하였다.
표적화 딥시퀀싱을 위해, 표적 위치 또는 비표적 위치를 포괄하는 유전체 DNA 조각을 Phusion 중합효소 (New England biolabs)를 이용하여 증폭하였다. Illumina MiSeq를 이용하여 PCR 증폭 산물을 페어드엔드 (paired-end) 시퀀싱하였다.
결과 해석에 있어, PAM (protospacer-adjacent motif) 서열에서 3-bp 상류에 위치한 인델은 RGEN으로 유도된 돌연변이로 간주하였다. 기대했던 대로, HBB RGEN은 HBB 표적 및 OT1 비표적 위치에서 높은 활성을 나타냈고, 각각 71 % 및 55 % 빈도 (T7E1)로 인델을 만들었다 (도 1c). OT3 위치는 3.2 % (T7E1) 또는 4.3 % (딥시퀀싱)의 빈도로 비표적 인델이 유도되었다 (도 1c 및 도 1d). 한편, 시험관 내에서 거의 절단이 되지 않았던 다른 잠재적 두 비표적 위치에서는, T7E1 (검출 제한, ~1 %) 및 딥시퀀싱 (검출 제한, ~0.1 %)에 의해 인델이 검출되지 않았다. OT7 위치는 시드 부위 (seed region, PAM 서열의 10- 내지 12-nt 상류)에서 뉴클레오티드 불일치가 없었으나 시험관 내 또는 세포 내에서 절단이 일어나지 않았으며, 이로부터 PAM-디스탈 부위 (distal region)의 중요성을 알 수 있었다.
상기 결과는 RGEN이 시험관 내에서 비표적 DNA 서열을 절단할 수 있으나 세포 내에서는 종종 동일한 위치에 인델을 유도할 수 없다는 기존 결과와도 일치하는 것이다. 따라서, RGEN은 세포 내에서 보다 시험관 내에서 더욱 표적 특이성이 떨어진다. 이는, 세포 내 RGEN에 의해 일어나는 대부분의 DNA 이중나선 절단 (double strand break, DSB)이 NHEJ (non-homologous end-joining) 또는 HR (homologous recombination)로 고쳐지기 때문인 것으로 파악된다.
실험예 2: 염기서열 데이터 분석
시험관 내에서 RGEN을 이용하여 유전체 DNA를 절단한 경우, 절단 위치에서 수직 정렬된 염기서열 데이터 (sequence read)를 만들 수 있는지 확인하기 위해 네 종류의 유전체 DNA 세트를 이용하여 전체 유전체 시퀀싱 (whole genome sequencing, WGS)을 수행하였다.
RGEN 형질전환 또는 비형질전환 (mock-transfected) HPA1 세포로부터 분리한 유전체 DNA를 300 nM Cas9과 HBB 유전자를 표적하는 900nM sgRNA 으로 시험관 내에서 완전히 절단하였다. 이와 함께, 상기 세포들로부터 분리된 유전체 DNA를 이용하여 시험관 내 RGEN 절단 없이 WGS를 수행하였다 (도 2a). 표준 염기서열 (reference genome)로 염기서열 데이터를 맵핑한 뒤, 표적 위치 및 네 개의 상동성 위치에서 서열 배열 패턴을 관찰하기 위해 IGV (intergrative genomics viewer)를 이용하였다.
먼저, 대조군 HAP1 세포로부터 분리된 Digenome (digested genome)을 조사하였을 때, 표적 위치, OT1 및 OT3 위치에서 수직 정렬의 일반적이지 않은 패턴이 관찰되었으며 (도 2b, 3a 및 3b), 절단 위치를 포괄하는 염기서열 데이터는 거의 나타나지 않았다. 이와 대조적으로, RGEN을 처리하지 않은 온전한 유전체에서는 상기 위치에서 수직 정렬이 관찰되지 않았다. OT7 및 OT12 위치에서는, 대부분의 염기서열 데이터가 잠재적 절단 위치 (PAM 서열에서 3-bp 상류)를 포괄하였으며, 결과적으로 스태거드 정렬이 나타났다 (도 3c 및 3d).
다음으로, RGEN으로 형질전환한 세포로부터 분리된 Digenome과 이에 대응하는 온전한 유전체를 비교하였다. 다섯 개의 모든 위치에서, 온전한 유전체는 일반적인 패턴의 스태거드 정렬을 보였다 (도 2b 및 도 3). 대조적으로 표적 위치 및 OT-1 위치에서 Digenome은 수직 정렬 및 스태거드 정렬 패턴을 모두 보였다. 상기 두 위치에서, 스태거드 정렬에 대응하는 거의 모든 염기서열 데이터는 인델을 포함하였다 (도 2b, 3a 및 3b). 즉, RGEN은 그들 자신에 의해 유도되는 인델 서열을 절단하지 못했다. 한편, T7E1 및 딥시퀀싱 결과와 비슷하게, OT7 및 OT12에서 절단 위치를 포괄하는 염기서열 데이터에서는 인델이 발견되지 않았다. OT3 위치에서는 Digenome이 소수의 절단 위치를 포괄하는 염기서열 데이터를 가지면서, 전체적으로는 스트레이트 정렬 패턴을 보였다. 특히, 한 염기서열 데이터에서는 RGEN에 의해 유도된 인델이 확인되었다 (도 3b).
상기 결과는 Digenome-Seq이 극소수의 비표적 돌연변이를 확인하기에 충분할 정도로 민감성을 가지며, 염기서열 데이터가 수직 정렬된 패턴이 시험관 내에서 RGEN 절단의 독특한 특징이라는 것을 시사한다.
실험예 3: 단일 뉴클레오티드 수준에서 5' 말단 플롯
유전체 수준에서 잠재적 RGEN 비표적 위치를 확인하기 위해, 염기서열 데이터의 수직 정렬을 찾기 위한 컴퓨터 프로그램을 개발하였다. 먼저, 단일 뉴클레오티드 수준에서 HBB의 표적 위치 및 검증된 두 개의 비표적 위치 (OT1 및 OT3) 근처의 뉴클레오티드 위치에서 시작되는 5' 말단을 가지는 염기서열 데이터의 수를 표시하였다 (도 4a). 왓슨 가닥 (Watson strand) 및 크릭 가닥 (Crick strand) 모두가 서열분석 되었으므로, 각각의 가닥에 대응하는 거의 동일한 수의 염기서열 데이터가 절단 위치에서 서로 바로 옆에서 관찰되어 이중 피크를 만들 것으로 추측하였다. 예측했던 대로, Digenome은 상기 세 개의 절단 위치 (표적 위치, OT1 및 OT3)에서 이중 피크를 만들었다 (도 2c, 4b 및 4c). 시험관 내에서 RGEN을 처리하지 않은 온전한 유전체는 상기 위치에서 이중 피크 패턴을 생성하지 않았다.
다음으로, 상기 접근 방식을 전체 RGEN 형질전환 Digenome, 비형질전환 Digenome, 온전한 RGEN 형질전환 유전체 및 온전한 비형질전환 유전체에 적용하였다. 먼저, sgRNA가 없는 조건 또는 RGEN 농도가 100 배 낮은 조건 (3 nM Cas9)으로 시험관 내에서 비형질전환 유전체 DNA에 Cas9 단백질을 처리하고, WGS 및 Digenome 분석을 수행하였다. 양쪽 가닥에서 동일한 5' 말단을 가진 염기서열 데이터의 수가 10 이상이며, 적어도 19 %의 염기서열 데이터가 수직으로 정렬되는 위치를 검색하였다. 표적 위치 및 두 개의 검증된 비표적 위치를 포함하여, 비형질전환 Digenome에 3 nM RGEN을 처리한 경우 17 개, 300 nM RGEN을 처리한 경우 78 개의 위치를 확인하였다 (도 5a). 이들은 5' 말단 플롯에서 이중 피크 패턴을 보였고, IGV 이미지에서 수직 정렬을 보였다. 상기 위치 중, 3 nM RGEN을 처리한 Digenome에서 하나, 300 nM RGEN을 처리한 Digenome에서 두 개의 위치는 자연적으로 발생하는 인델의 결과로 거짓 양성이다. 또한, RGEN 형질전환 Digenome에서는 검증된 3 개의 표적 및 비표적 위치를 포함하여 총 125 개의 위치에서 상기 패턴이 관찰되었다. 한편, 상기 세 개의 Digenome에서 검증되지 않은 OT7 및 OT12 위치는 이중 피크 패턴을 보이지 않았다. 나아가, 상기 세 개의 Digenome에서 대부분의 위치는 공통적으로 확인되었는데, 이는 Digenome-Seq가 고도의 재현성을 가짐을 시사하는 것이다.
구체적으로, 비형질전환 Digenome (3 nM RGEN)에서 발견된 16 개 중 15 개 (94 %)의 후보 위치 (하나의 거짓 양성 제외)는 다른 두 Digenome에서도 확인되었다. 또한, 비형질전환 Digenome (300 nM)에서 발견된 76 개 중 74 개 (97 %)의 후보 위치가 RGEN 형질전환 Digenome에서도 발견되었다 (도 5a). RGEN 형질전환 Digenome에서 검증된 세 절단 위치를 제외하고, 나머지 122 개의 위치는 RGEN 형질전환 Digenome에서 인델이 나타나지 않았는데, 이는 상기 후보 위치에서는 돌연변이가 거의 일어나지 않는다는 것을 시사한다. 한편, 온전한 유전체에서 두 위치, 온전한 RGEN 형질전환 유전체에서 세 위치, 그리고 Cas9 (300 nM) 단독 처리 비형질전환 유전체에서 하나의 위치에서 이중 피크 패턴이 관찰되었는데, 상기 세 개의 온전한 유전체에서 확인된 모든 위치는 표준 염기서열 대비 HAP1 유전체에서 자연적으로 일어나는 인델의 결과로 나타난 거짓 양성이다 (도 6a 내지 6c). 따라서, 이중 피크 패턴 또는 염기서열 데이터의 수직 정렬은 Digenome에서 발견되는 독특한 특징으로 볼 수 있다.
다음으로, 20-bp 표적 위치 서열과 RGEN 형질전환 및 비형질전환 Digenome에서 확인된 74 개의 공통적인 위치의 DNA 서열을 비교한 결과, 20 개의 뉴클레오티드의 5' 말단에서 하나를 제외한 모든 염기가 보존된 것을 확인하였다 (도 5b). 나아가, 표적 서열이 아닌 다른 74 개의 위치에서 DNA 서열을 비교하여 얻은 서열 로고 (sequence logo) 또는 드노보 모티프 (de novo motif)는 5' 말단의 처음 두 개의 뉴클레오티드를 제외하고 모든 위치에서 표적 서열과 완전히 부합하였다 (도 5c). 또한, 이중 피크 위치 중 70 개 (95 %)는 절단 예상 위치로부터 정확히 3 뉴클레오티드 하류에 5'-NGG-3' PAM 서열을 가졌다. 오직 6.25 % (= 1/16)의 위치가 우연히 PAM이 나타난 것으로 예상된다. 두 위치는 5'-NAG-3' PAM을 포함한다. 어떤 위치는 DNA 또는 RNA 벌지 (bulge) 또는 일반적이지 않은 PAM인 5'-NGA-3' 형태로 표적 위치에 부합했다. 5'-NGA-3'이 세포에서 PAM으로 작용할 수 있을지는 불분명하나, 본 발명의 강력한 시험관 내 절단 조건에서 RGEN이 상기 위치를 절단했을 것으로 파악된다. 다른 위치는 표적 서열과 서열 상동성을 가지지 않았는데, 이는 그 위치가 거짓 양성임을 시사하는 것이다.
또한, 상동성 위치에서 뉴클레오티드 불일치가 적을 수록 Digenome-seq로 검출될 가능성이 높다는 것을 확인하였다. 즉, 표적 위치와 비교하여 3 뉴클레오티드가 다른 상동성 위치 15 개 중 7 개 (47 %) 및 4 뉴클레오티드가 다른 상동성 위치 142 개 중 14 개 (10 %)가 Digenome-seq로 검출되었다. 또한, 5 뉴클레오티드가 다른 1,191 위치 중 15 개 (1.2 %), 6 뉴클레오티드가 다른 7,896 위치 중 하나 (0.013 %)가 검출되었다 (도 5d).
종합하면, 상기 결과는 이중 피크 패턴의 대부분은 시험관 내에서 RGEN 절단에 의해 야기되는 것이고 Digenome-Seq를 통해 유전체 수준에서 뉴클레아제 절단 위치를 찾을 수 있다는 것을 시사한다.
실험예 4: 딥시퀀싱으로 후보 위치에서 비표적 효과 (off-target effect)를 확인
상기 두 가지 Digenome에서 확인된 74 개의 공통 위치에서 비표적 효과를 입증하기 위해 딥시퀀싱을 수행하였다 (도 5e). 나아가, 표적 위치와 3 뉴클레오티드가 다르고, Digenome-Seq로 검출되지 않은 기타 8 개의 위치도 시험하였다. 상기 8 개의 위치에서는 적어도 0.1 % 빈도로 비표적 인델이 검출되지 않았으며 이는 음성 대조군보다 큰 값이다 (Fisher exact test, p < 0.01) (도 5d). 인델은 0.11 % 내지 87 %의 빈도로 74 개의 위치 중 이미 검증된 표적 위치, OT1 및 OT3 위치를 포함한 총 5 개의 위치에서 관찰되었다 (도 5e, 7a 및 7b). 새롭게 검증된 다른 두 개의 비표적 위치 중에서, HBB_48에서는 0.11 % 빈도로, HBB_75에서는 2.2 % 빈도로 인델이 검출되었다. 상기 두 위치는 표적 위치와 3 뉴클레오티드가 달랐다. 표적 위치와 5' 말단에서 하나의 뉴클레오티드가 다른 20-nt sgRNA 서열과 비교하여 HBB_48 위치는 3 개의 뉴클레오티드, HBB_75 위치에서는 2 개의 뉴클레오티드가 일치하지 않았다. 20-nt sgRNA 서열과 비교하여 상기 검증된 비표적 위치는 DNA 또는 RNA 벌지를 가지고 있지 않았고 5'-NGA-3' 또는 5'-NAG-3'과 같이 일반적이지 않은 PAM 서열을 가지지도 않았다. 상기 두 개의 새로운 비표적 위치 및 기타 세 개의 위치가 각각의 세 Digenome에서 공통적으로 확인되었다. 상기 결과를 통해 Digenome-Seq가 유전체 수준의 뉴클레아제 비표적 효과를 확인할 수 있는 민감하고 재현 가능한 방법임을 알 수 있다.
실험예 5: VEGF -A 특이적 RGEN에 대한 Digenome - seq
다음으로, 본 발명자들은 HBB 유전자 이외에 다른 유전자에서도 Digenome-seq가 적용 가능한지를 확인하고자 하였다. VEGF -A 위치에서 표적 돌연변이를 일으키고 추가적으로 네 개의 상동성 위치에서 비표적 돌연변이를 야기하는 다른 RGEN에 대한 Digenome-Seq를 수행하였다. 표적 위치 및 이미 검증된 네 개의 비표적 위치를 포함하는 총 81 개의 위치에서 이중 피크 패턴을 확인하였다 (도 8a 및 도 9). 상기 81 개의 위치에서 모든 DNA 서열이 일반적인 5'-NGG-3' PAM 서열을 포함하는 것을 확인하였다. 표적 서열과 상기 서열들을 비교하여 모든 뉴클레오티드 위치가 일치되는 것을 확인하였다. 나아가, 드노보 모티프를 얻기 위해 상기 서열들을 서로 비교하였다: 결과 서열 로고 또한 거의 모든 뉴클레오티드 위치에서 표적 서열과 일치했는데, 이는 20-nt sgRNA 서열에서 모든 뉴클레오티드가 RGEN의 특이성에 기여하는 것을 시사한다 (도 8b 및 8c).
그 다음 Digenome-seq으로 확인된 81 개의 위치 및 Digenome-seq에서 확인되지는 않았으나 표적 위치와 3 개 이하의 뉴클레오티드가 차이 나는 28 개의 위치에서 표적 및 비표적 효과를 확인하기 위해 표적화 딥시퀀싱을 이용하였다. 상기 RGEN은 HAP1 세포에서 매우 활성화되었으며, 표적 위치에서 87 %의 빈도, 이미 검증된 네 개의 비표적 위치에서 0.32 % 내지 79 %의 빈도로 인델을 생성했다. 또한, 0.065 ± 0.021 % 내지 6.4 ± 1.2 % 빈도로 인델이 유도된 네 개의 비표적 위치를 추가적으로 확인하였다 (도 8e 및 도 10). RGEN을 이용하여 얻은 상기 위치에서의 인델 빈도는 공벡터 대조군을 이용한 경우 보다 상당히 증가하였다 (Fisher exact test, p < 0.01). 상기 비표적 위치는 20-nt 표적 서열과 1 내지 6 뉴클레오티드가 불일치하고, PAM 프록시말 시드 부위 (proximal seed region)에서 최소 하나의 불일치를 포함한다. 인간 유전체에서 6-nt 불일치를 가지는 위치는 13,892 개이나, Digenome-seq에 의해 확인된 위치는 단 6 개이며 (0.043 %), 이들 중 딥시퀀싱으로 검증된 위치는 오직 한 개이다 (도 8d 및 8e). 현재까지 표적 위치와 6 개의 뉴클레오티드 불일치를 갖는 RGEN 비표적 위치는 보고된 바 없다. Digenome-Seq로 확인된 81 개 중 40 개의 위치가 20-nt 표적 서열과 비교하여 뉴클레오티드가 결실되거나 추가적인 뉴클레오티드를 포함하나, DNA 또는 RNA 벌지를 포함하는 비표적 위치는 존재하지 않았다. Digenome-Seq로 확인되지 않은 모든 위치에서, RGEN으로 얻은 인델 빈도는 0.05 % 이하이거나, 공벡터 대조군을 사용하여 얻은 것보다 낮거나 통계적으로 차이가 없었다.
상기 실험예 1 내지 5를 통해 본 발명의 Digenome-seq는 유전자 가위의 비표적 위치를 검출하는데 매우 고도의 재현성을 가지는 방법이라는 것을 알 수 있었다.
실험예 6: 향상된 Digenome - seq
먼저, 본 발명자들은 인간 유전체에 대한 WGS (whole genome sequencing) 데이터를 이용하여 시험관 내 절단 위치를 확인할 수 있는 점수 부여 시스템을 개발하였다. 상기 실험예 1 내지 5에서 확인한 Digenome-seq 분석은 고도의 재현성을 가지나, 불균일 절단 패턴 또는 낮은 시퀀싱 깊이 (depth)를 가지는 일부 위치가 누락될 수 있다는 문제가 있다. 본 발명자들은 Cas9 단백질이 블런트 말단에 하나 또는 두 개의 뉴클레오티드 오버행 (overhang)을 만드는 경우를 추정함으로써 상기 위치들을 확인할 수 있다는 것을 알게 되었다. 이에, 염기서열 데이터의 정렬 패턴을 기반으로 하여, 각 뉴클레오티드 위치에 DNA 절단 점수를 부여하였다 (도 11). 상기 프로그램을 통해 기존의 Digenome-seq에서는 검출되지 않았던 다수의 추가적인 위치를 검출하였다. 절단 점수의 유전체 수준 플롯 (plot)은 절단되지 않은 유전체 DNA에서 거짓 양성 위치가 거의 발견되지 않는다는 것을 보여준다 (도 12a): 전체 유전체에서 확인된 소수의 거짓 양성 위치는 유전체 DNA에서 자연적으로 발생하는 인델 (insertion and deletion, Indel)을 포함하는데, 이는 쉽게 걸러낼 수 있다. 두 독립적인 Digenome-seq 분석에서 볼 수 있는 것과 같이, 인간 유전체에 대한 절단 점수는 고도의 재현성을 가진다 (R 2 = 0.89) (도 13).
본 발명자들은 또한 Digenome-seq 분석에서 플라스미드 주형을 통해 전사된 sgRNA는 올리고뉴클레오티드 이중 가닥을 사용하여 전사된 것에서 검출되는, 표적 위치에서 뉴클레오티드가 결손된 어떠한 거짓 양성의 벌지-형 (bulge-type) 비표적 위치도 절단하지 않는다는 것을 확인하였다 (도 12b 및 도 14). 이는, 올리고뉴클레오티드 이중 가닥에서 전사된 sgRNA는 합성에 실패한 올리고뉴클레오티드로부터 전사된 불완전한 분자를 포함하여 균일 성분이 아니기 때문인 것으로 파악된다. 결과적으로, 플라스미드 주형에서 전사된 sgRNA를 이용하여 확인된 절단 위치는 올리고뉴클레오티드 주형에서 전사된 sgRNA를 이용하여 확인한 경우 보다 표적 위치와 더욱 고도로 상동성을 가지며 (표 1 및 표 2), 이는 절단 위치 주변의 DNA 서열을 서로 비교하여 얻은 시퀀스 로고 (sequence logo)에서 확인할 수 있다 (도 12c).
Figure 112015110962728-pat00002
Figure 112015110962728-pat00003
Figure 112015110962728-pat00004
따라서, 본 발명의 절단 점수 부여 시스템을 이용하여 거짓 음성 위치 수를 상당히 감소시킬 수 있고, 플라스미드 주형에서 전사된 sgRNA를 이용하여 거짓 양성 위치의 수를 상당히 감소시킬 수 있다.
실험예 7: 복합 Digenome - seq
다른 방법들과는 달리, Digenome-seq는 뉴클레아제의 수에 비례하여 시퀀싱 깊이를 증가시키지 않고 복합적으로 사용될 수 있다. 본 발명자들은 IDLV 검출 및 기타 방법에 비해 더욱 민감성을 가지는 GUIDE-seq를 이용하여 개별적으로 분석된 10 개의 sgRNA를 선정하였다. 본 발명자들은 Cas9 단백질, 10 개의 sgRNA, 및 HBB 유전자를 표적으로 하는 하나의 추가적인 sgRNA의 혼합물로 인간 유전체 DNA를 절단하였고, 두 가지 독립적인 WGS 분석을 수행하였다 (도 15a). 그 다음, 상기 점수 부여 시스템을 이용하여 유전체 수준에서 시험관 내 절단 위치를 규명하였다. 그 결과, 인간 유전체에서 총 964 개의 위치를 확인하였다 (표 3 내지 표 12). 그 다음 상기 위치를 표적 위치와의 편집 거리 (edit distance)에 따라 분류하였다 (도 15a 및 표 3 내지 표 12).
Figure 112015110962728-pat00005
Figure 112015110962728-pat00006
Figure 112015110962728-pat00007
Figure 112015110962728-pat00008
Figure 112015110962728-pat00009
Figure 112015110962728-pat00010
Figure 112015110962728-pat00011
Figure 112015110962728-pat00012
Figure 112015110962728-pat00013
Figure 112015110962728-pat00014
Figure 112015110962728-pat00015
Figure 112015110962728-pat00016
Figure 112015110962728-pat00017
Figure 112015110962728-pat00018
Figure 112015110962728-pat00019
Figure 112015110962728-pat00020
Figure 112015110962728-pat00021
Figure 112015110962728-pat00022
Figure 112015110962728-pat00023
Figure 112015110962728-pat00024
Figure 112015110962728-pat00025
Figure 112015110962728-pat00026
Figure 112015110962728-pat00027
Figure 112015110962728-pat00028
Figure 112015110962728-pat00029
GUIDE-seq 및 다른 방법은 표적 위치와 상동성이 부족한 90 % 정도의 검출 위치를 제거하는 필터링 단계가 요구되나, 복합 Digenome-seq는 위치를 필터링 하지 않고 편집 거리를 기반으로 정렬할 수 있다. 상기 964 개의 위치는 11 개의 그룹으로 명확하게 구분되었다. 나아가, 시험관 내 절단 위치에 대한 각 11 개의 그룹은 11 개의 표적 서열 중 하나와 고도의 상동성을 가졌다. 따라서, 각 그룹 내에서 서열을 비교하여 얻은 드노보 모티프 (de novo motif) 또는 서열 로고 (sequence logo)는 거의 모든 뉴클레오티드 위치에서 표적 서열과 부합하였다 (도 15a). 상기 결과는, 비록 Cas9에 의해 인식되는 PAM (protospacer-adjacent motif) 서열 및 PAM-프록시말 (proximal) 10-nt “시드 (seed)” 부위 보다는 덜 하지만, 23-nt 표적 서열에서 5'-말단의 10-nt 부위가 RGEN의 특이성에 기여하는 것임을 의미한다. 나아가, 상기 11 RGEN으로 절단되는 964 개의 위치 중 한 개를 제외한 모든 위치가 5'-NGG-3'의 PAM 서열 또는 5'-NNG-3'/5'-NGN-3'의 PAM 유사 서열을 가지고 있는 것을 확인하였다. 따라서, 복합 Digenome-seq는 상동성 서열에 대한 프로그램 검색 없이도 시험관 내 절단 위치를 정확히 찾아낼 수 있고 간편하며, 복수의 유전자 가위에 적용될 수 있다는 점에서, GUIDE-seq 및 HTGTS 등 기존에 알려진 다른 방법에 비해 많은 장점을 가진다.
다음으로, 각 sgRNA가 표적 및 비표적 위치를 절단할 수 있는지를 확인하였다. HBB-특이적 sgRNA를 고농도 (900 nM)로 Cas9 (300 nM)과 함께 처리했을 때 절단된 30 개의 위치 중 17 개의 위치 (= 57 %)는 동일한 sgRNA를 낮은 농도 (82 nM)로 이용하여 복합 Digenome-seq를 수행한 경우에도 검출되었다 (도 15b 및 16c). 상기 결과는 11 개의 sgRNA 각각이 서로 독립적으로 자신의 표적 및 비표적 위치로 Cas9을 인도할 수 있음을 시사하며, 이로 인해 Digenome-seq가 복합성을 가짐을 알 수 있다.
실험예 8: 시험관 내 절단 위치
상기 11 개의 sgRNA는 유전체 수준에서 넓은 범위의 특이성을 보였다; 인간 유전체에서 sgRNA 하나 당 절단 위치의 숫자는 13 내지 302 개로 나타났다 (도 16a 및 표 3 내지 표 12). 기대했던 대로, Cas-OFFinder를 이용하여 인간 유전체에서 확인된 표적 위치 모두, 그리고 상기 각각의 표적 위치와 1 또는 2 개의 뉴클레오티드 불일치를 가지는 위치의 대부분이 복합 Digenome-seq를 수행하였을 때 검출되었다 (도 16b). 그러나, 3 이상의 뉴클레오티드 불일치를 가지는 위치는 거의 검출되지 않았다. 즉, Digenome-seq로 검출된 위치의 비율은 뉴클레오티드 불일치 수가 3에서 6으로 증가하면서 기하급수적으로 감소하였다 (도 16b). 또한, 시드 부위 (seed region)에서 2 이상의 뉴클레오티드 불일치를 가지는 위치는 0 또는 1 개의 불일치를 가지는 위치보다도 시험관 내에서 절단되지 않았다 (P < 0.01, Student's t-test).
한편, Digenome-seq로 검출된 위치의 수 및 인간 유전체에서 6 이하의 뉴클레오티드 불일치를 가지는 상동성 위치 (“orthogonality”로 정의됨)의 수가 상당한 상관관계 (R 2 = 0.93)를 가지는 것을 확인하였다 (도 16c). 즉, 인간 유전체에서 16,000 개 이상의 상동성 위치를 가지는 5 개의 sgRNA가 시험관 내에서 63 개 이상 (sgRNA 당 평균 161 개)을 절단하는데 비해, 13,000 개 미만의 상동성 위치를 가지는 6 개의 sgRNA는 시험관 내에서 46 개 이하 (sgRNA 당 평균 28 개)를 절단하여 상대적으로 더욱 특이적임을 알 수 있었다 (P < 0.01, Student's t-test) (도 16c). 상기 결과는 GUIDE-seq 양성 위치의 수 및 인간 유전체에 대한 표적 위치의 orthogonality 사이에서 관찰되는 상관관계 부족 (R 2 = 0.29)과는 대조적이다 (도 17). 그러나, 세포 내에서 10 개 이하의 위치를 절단하는, GUIDE-seq로 확인된 5 개의 가장 특이적인 sgRNA는 Digenome-seq로 확인된 가장 특이적인 sgRNA와 일치하였다.
상기 결과는 인간 유전체에서 뉴클레오티드 불일치가 6 개 이하인 상동성 위치가 13,000 개 보다 적고, 뉴클레오티드 불일치가 2 개 이하인 상동성 위치가 없는 특정 위치가 비표적 효과를 최소화하는데 바람직하다는 것을 시사한다. 이와 관련하여 본 발명에서 시험한 4 개 유전자에 대해 5'-NGG-3' PAM 서열을 포함하는 1715 개의 표적 가능한 위치 중, 368 개의 위치 (= 21.5 %)가 상기 개념에 부합한다 (표 13).
Figure 112015110962728-pat00030
실험예 9: Digenome - seq vs. 기타 방법
평균적으로, 복합 Digenome-seq는 기존에 GUIDE-seq로 검출한 위치 중 80 ± 8 %의 위치를 성공적으로 규명하였다 (도 16a). 예를 들어, VEGFA 1, RNF2, 및 HEK293-3 위치에 특이적인 세 개의 sgRNA를 이용하여 GUIDE-seq로 검출한 모든 위치가 Digenome-seq로도 확인되었다. 또한, 복합 Digenome-seq는 GUIDE-seq로는 검출되지 않았던 총 703 개의 새로운 위치 (sgRNA 당 평균 70 개)를 검출했다 (도 16a). 결과적으로, GUIDE-seq는 복합 Digenome-seq로 검출한 위치의 25 ± 6 %를 검출한 것이다. RNF2 특이적 sgRNA는 Digenome-seq의 장점을 보여 주는 좋은 사례이다. 선행연구에 따르면 두 번의 독립적인 GUIDE-seq 분석을 했으나 이 sgRNA에 대한 비표적 위치를 검출할 수 없었다. 그러나 Digenome-seq는 표적 위치에 더해 12 개의 절단 위치를 규명하였다. 나아가, Digenome-seq 양성 위치의 수 및 GUIDE-양성 위치의 수 사이에 상관관계 부족 (R 2 = 0.20)을 관찰하였다 (도 16d).
Digenome-seq는 10 개의 sgRNA 중 9 개에 대해 GUIDE-seq 보다도 많은 비표적 위치 후보를 얻을 수 있으나, 이는 포괄적인 결과는 아니다. 즉, HBB sgRNA는 GUIDE-seq로 분석되지 않았다. 전체적으로, GUIDE-seq는 Digenome-seq에서 검출되지 않은 총 168 개의 위치를 검출하였다.
한편, VEGFA 1 및 EMX1 위치를 표적으로 하는 두 개의 sgRNA에 대해서는 HTGTS도 함께 수행하였다 (도 16a). 다른 두 방법 (GUIDE-seq 및 HTGTS) 중 적어도 하나에 의해 검출된 대부분의 위치 (VEGFA 1은 40 개 중 31 개, EMX1은 19 개 중 17 개) 역시 Digenome-seq로 규명되었으나, VEGFA 1은 9 개, EMX1은 2 개가 검출되지 않았다. 이는, 상기 위치 중 일부가 PCR 프라이머에 의한 인위적 결과 (artifact) 또는 GUIDE-seq 및 HTGTS가 가지는 내재적 한계점인 자연적으로 발생한 DSB로부터 발생되는 거짓 양성이기 때문인 것으로 파악된다. 그러나, 상기 위치에서 대부분, 특히 다른 두 방법에서 공통적으로 확인된 두 개의 EMX1 비표적 위치는 상기 특정 위치에서의 낮은 시퀀싱 깊이 (depth) (도 18) 또는 저농도 (82 nM)의 sgRNA 때문에 복합 Digenome-seq에서 확인되지 않은 것이다. 이러한 문제점은 평균 시퀀싱 깊이를 증가시키기 위해 WGS를 여러 차례 수행하고, 단일 분석에서 고농도의 sgRNA를 사용하여 수득한 염기서열 데이터와 병합함으로써 극복할 수 있다.
VEGFA 2 특이적 sgRNA는 Digenome-seq가 GUIDE-seq 보다 더 많은 후보 위치를 검출할 수 있다는 규칙에서 유일하게 예외적인 경우이다. 즉, GUIDE-seq는 Digenome-seq에서 검출되지 않았던 122 개의 위치를 확인하였다. 상기 표적 서열은 시토신 스트레치 (cytosine stretch)로 이루어진 일반적이지 않은 서열이다. 단독 중합체 (homopolymer) 위치에서 WGS로 얻은 다 수의 염기서열 데이터는 지도 작성 프로그램에서 제거될 수 있다. 반면, GUIDE-seq는 검출된 올리고뉴클레오티드 위치를 증폭시키기 위해 PCR을 사용하므로 상기 위치들을 검출할 수 있을 것이다.
다음으로, ChiP-seq (chromatin immunoprecipitation sequencing)으로 검출한 것과 본 발명에서 확인된 절단 위치를 비교하였다. 먼저, 본 발명에서 사용된 네 개의 sgRNA에 대해 ChiP-seq를 수행하였다. Digenome-seq로 확인된 대다수의 Cas9-절단 위치 (288 개, 98 %)에는 dCas9이 결합하지 않았다 (도 19). 상기 결과는 Cas9의 DNA 결합은 DNA 절단과는 분리되는 개념이며, dCas9을 이용한 ChiP-seq는 비록 dCas9 기반 전사인자 및 에피게놈 (epigenome) 조절자의 특이성을 조사하는데 유용하지만, Cas9 RGEN의 유전체 수준 특이성을 분석하는데는 부적절하다는 것을 시사하는 것이다.
실험예 10: 세포 내 비표적 위치의 확인
다음으로, NGS (next-generation sequencing) 플랫폼을 이용하여, Digenome-seq 및 GUIDE-seq에서 확인된 위치 (표 14 내지 표 23) 중 일부 위치에 대해 각각의 sgRNA와 Cas9 단백질이 인간 세포 내에서 비표적 인델을 유도할 수 있는지를 확인하였다.
Figure 112015110962728-pat00031
Figure 112015110962728-pat00032
Figure 112015110962728-pat00033
Figure 112015110962728-pat00034
Figure 112015110962728-pat00035
Figure 112015110962728-pat00036
Figure 112015110962728-pat00037
Figure 112015110962728-pat00038
Figure 112015110962728-pat00039
Figure 112015110962728-pat00040
Digenome-seq 및 GUIDE-seq에서 공통적으로 검출되는 132 개의 위치 중 116 개의 위치 (= 88 %)에서 시퀀싱 에러에 의해 야기되는 백그라운드 노이즈 수준 이상으로 인델이 검출되었다. 반면에, Digenome-seq에서만 검출된 위치 및 GUIDE-seq에서만 검출된 위치의 대부분은 표적화 딥시퀀싱으로 인델이 확인되지 않았다. 즉, Digenome-seq에서만 검출된 127 개의 위치 중 21 개 (= 17 %), GUIDE-seq에서만 검출된 45 개의 위치 중 23 개 (= 51 %)가 노이즈 수준 이상으로 인델이 유도되어, 두 방법 모두 포괄적인 방법이 아니라는 것을 확인하였다. 검증된 위치의 대부분에서 인델 빈도는 1 % 미만으로, 대응하는 표적 위치에서 확인된 것보다 훨씬 낮은 수준을 보였다. 예를 들어, RNF2 표적 sgRNA는 본 발명에서 검증된 표적 위치 및 두 개의 비표적 위치에서 인델을 유도하였는데, 이들은 각각 68 %, 0.25 %, 및 0.09 %의 빈도를 보였다 (도 20). 이를 통해 NGS에서 확인되지 않은 위치에서는 인델이 노이즈 수준 보다 낮은 빈도 (위치에 따라 0.001 % 내지 4 %)로 유도될 수 있음을 알 수 있었다.
비표적 효과를 감소시키기 위해, 5' 말단에 추가로 두 개의 구아닌을 포함하는 sgRNA (ggX20 sgRNA로 명명)를 사용하였다 (도 21a). 상기 변형된 sgRNA는 대응하는 GX19 sgRNA 보다 598 배까지 더 특이성을 보였다 (도 21b 내지 22g). RNF2 특이적 ggX20 sgRNA는 노이즈 수준 이상의 비표적 인델이 검출되지 않았다 (도 21d).
실험예 11: 비표적 위치에서 인델 빈도
NGS로 검증된 비표적 위치 (= 160) 및 검증되지 않은 비표적 위치 (= 144)에서의 인델 빈도를 통해 구체적으로 비표적 효과를 확인하고자 하였다. 불일치 뉴클레오티드 수 및 표적 위치 대비 비표적 위치에서의 인델 빈도의 플롯에서 2 이하의 뉴클레오티드 불일치를 가지는 비표적 위치는 세포 내에서 효과적으로 절단되는 것을 확인하였고 (평균 인델 빈도 = 5.38 %), 3 개 이상의 뉴클레오티드 불일치를 가지는 경우 잘 절단되지 않는 것을 확인하였다 (평균 인델 빈도 = 0.14 % 이하) (도 22a). 표적 위치에서 인델 빈도는 60 ± 7 %로 나타났다. 검증되거나 검증되지 않은 위치에서 뉴클레오티드 불일치는 PAM-디스탈 및 PAM-프록시말 부위에 거의 고르게 분포되어 있었다. 3 이상의 뉴클레오티드 불일치를 가지는 검증되거나 검증되지 않은 위치는 PAM-디스탈 부위가 시드 부위만큼 중요했다 (도 22b 및 23c). 즉, 시드 부위에서 0 또는 1 개의 뉴클레오티드 불일치를 가지는 위치에서 인델 빈도는 2 이상의 불일치를 가지는 위치만큼 낮았다.
상기 결과를 통해 유전체에서 잠재적 비표적 위치의 수, Digenome-seq로 확인된 위치의 비 (도 16a), 및 상기 위치의 평균 인델 빈도 (도 20a)로부터 산출되는 비표적 점수 (표 24)를 계산할 수 있다.
인간 유전체에서 EMX1 표적 서열 (5'-GAGTCCGAGCAGAAGAAGAANGG-3')에 대한 비표적 점수 계산
불일치 뉴클레오티드 수 시드 부위에서 불일치 뉴클레오티드 수 잠재적 비표적 위치 수a Digenome-seq로 확인된 비율b 평균 인델 빈도c 잠재적 비표적 위치 수 x Digenome-seq로 확인된 비율 x 평균 인델 빈도
0 - 1 1.0 0.0 0.0
1 or 2 - 1 1.0 0.15 0.15
3 0 7 0.56 0.030 0.12
1 7 0.44 0.0077 0.024
2 4 0.12 0.0030 0.0014
3 0 0.0020 0.00010 0.0
4 0 68 0.22 0.030 0.45
1 73 0.062 0.0039 0.018
2 115 0.010 0.00088 0.0010
3 16 0.0013 0.00088 0.000018
4 4 0.0 0.0 0.0
5 0 136 0.010 0.00067 0.00091
1 674 0.010 0.00067 0.0045
2 888 0.0015 0.00067 0.00089
3 521 0.00025 0.00067 0.000087
4 91 0.0 0.0 0.0
5 3 0.0 0.0 0.0
6 0 426 0.0067 0.00026 0.00074
1 2641 0.0017 0.00026 0.0012
2 5673 0.000047 0.00026 0.000069
3 4954 0.000047 0.00026 0.000061
4 1846 0.0 0.0 0.0
5 197 0.0 0.0 0.0
6 10 0.0 0.0 0.0
비표적 점수: 0.77
a Cas-OFFinder를 이용하여 얻음
b 도 16b와 같이 확인
c 표적화 딥시퀀싱으로 확인 (도 22a).
상기 결과를 요약하면, 본 발명자들은 유전자 가위 (programmable nuclease)의 비표적 위치를 검출할 수 있는 Digenome-seq 방법을 개발하였으며, 이는 기존의 다른 방법들에 비하여 고도의 재현성을 가지며 편리하게 비표적 위치를 검출할 수 있다. 나아가, 본 발명자들은 시험관 내 DNA 절단 점수 부여 시스템을 개발하고 합성 올리고뉴클레오티드 이중가닥 보다는 플라스미드 주형에서 전사된 sgRNA를 이용하여, 거짓 양성 및 거짓 음성 위치 수를 감소시킬 수 있는 향상된 Digenome-seq를 개발하였다. 또한, 11 개의 sgRNA 혼합물을 이용하여 유전체 DNA를 절단함으로써 복합 Digenome-seq를 수행하였고, 이를 통해 GUIDE-seq에서 검출되지 않았던, sgRNA 당 평균 70 개의 추가적인 절단 위치를 확인하였다. RGEN 형질전환 인간 세포에서 상기 위치 중 다수에서 비표적 인델이 유도되었다. 이에, 수 백개의 비표적 위치에서 인델 빈도, 뉴클레오티드 불일치 수, 및 불일치 위치를 조사하여, RGEN 특이성에 있어서 PAM-디스탈 부위가 시드 부위만큼 중요하다는 것을 확인하였다. 또한, 시드 부위에서 두 개 이상의 뉴클레오티드 불일치를 가지는 위치는 전체 불일치 뉴클레오티드 수가 없거나 하나 있는 것에 비해 시험관 내에서 절단되지 않는 것을 확인하였다.
실험예 12: 대규모 복합 Digenome - seq
본 발명자들은 복합 Digenome-seq의 표적을 대규모로 확장한 경우에도 비표적 위치를 효과적으로 검출할 수 있는지 확인하고자 하였다.
구체적으로, 총 100 개의 각기 다른 표적 위치에 대한 복합 Digenome-seq을 수행하였다. 표적 서열을 100 개로 확장했음에도 불구하고, Digenome-seq를 통해 상기 100 개의 표적에 대한 비표적 위치를 효과적으로 검출할 수 있었다.
이에, 컴퓨터 프로그램을 통해 표적 위치에 대한 6 개 이하의 뉴클레오티드 불일치를 가지는 위치를 구한 후, 이 부분을 RGEN에 의해 절단된 위치와 절단되지 않은 위치로 분류하였다. 그 다음, 인공 신경망 (Neural network)에 기반을 둔 기계 학습 (machine learning)을 통해서 절단된 위치의 서열과 절단되지 않은 위치의 서열의 차이를 분석하였고, 이를 통해 표적위치에 대한 비표적 위치를 예측할 수 있는 프로그램을 제작하였다. 상기 프로그램을 통해 기존에 개발된 다른 프로그램(crop-it)과 비교해 볼 때 더 많은 수의 비표적 위치를 검출할 수 있음을 알 수 있었다 (도 23).
실험예 13: ZFN에 대한 Digenome - seq
나아가, 본 발명자들은 동일한 접근 방법으로 RGEN 대신 ZFN의 비표적 위치 또한 검출할 수 있음을 확인하고자 하였다.
RGEN과 마찬가지로 ZFN 단백질을 시험관 내 (in vitro)에서 분리된 유전체 (cell-free genomic DNA)에 처리하여 절단한 후 WGS을 수행하였다. ZFN의 경우 이를 IGV를 통해 표적위치를 보았을 때 수직정렬이 일어남을 확인 하였고 (도 24a), 전체 유전체 수준에서 절단 점수를 부여하였다 (도 24b). 시험관내 절단 위치 주변의 DNA 서열을 비교하여 얻은 서열 로고 (sequence logo)는 대부분의 위치에서 표적 서열과 부합하는 것을 확인하였다 (도 24c 및 도 24d). Digenome-seq 결과로 나온 표적위치와 비표적 위치 후보 중 뉴클레오티드 불일치 지역이 4개 이하인 부분에 대해 ZFN을 통해 형질전환 시킨 후 표적화 딥시퀀싱 (targeted deep sequencing)을 수행하였다 (표 25).
Figure 112015110962728-pat00041
그 결과, 62 개의 비표적 위치 후보 중 35 개의 표적 및 비표적 위치에서 인델이 있는 것을 확인하였으며, 구체적으로 0.028 %에서 5.9 %까지 유도됨을 확인 할 수 있었다 (표 25). 이는 Digenome-seq 방법이 ZFN의 비표적위치 또한 예측할 수 있음을 보여준다. FokI 위치에 변형 (KK 또는 EL)을 시켜서 만든 ZFN의 경우 특이성이 증가하는 것을 볼 수 있었다 (도 24). 이처럼 FokI이 변형된 ZFN을 통해서 Digenome-seq을 수행하였을 때에도 총 16 개의 비표적 위치 후보를 찾을 수 있었다. FokI이 변형된 ZFN을 이용해서 형질전환 시킨 세포에서도 16 개의 비표적 위치 후보 중 15 개의 위치에서 인델이 일어남을 확인할 수 있었고 이는 기존의 다른 방법 (ILDV, In vitro selection)에 비해 많은 수의 비표적 위치를 찾을 수 있음을 확인할 수 있었다 (도 25).
결론적으로, 상기 결과는 본 발명의 Digenome-seq가 RGEN, ZFN 뿐만 아니라 표적 위치 및 비표적 위치를 가질 수 있는 어떠한 유전자 가위 (programmable nuclease)에도 적용될 수 있음을 시사하는 것이다.
이상의 설명으로부터, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 이와 관련하여, 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허 청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (26)

  1. (a) 분리된 유전체 (genomic) DNA를 표적 특이적 유전자 가위 (programmable nuclease)로 절단하는 단계;
    (b) 상기 절단된 DNA에 대한 전체 유전체 시퀀싱 (whole genome sequencing)을 수행하는 단계; 및
    (c) 상기 시퀀싱으로 수득한 염기서열 데이터 (sequence read)에서 상기 절단된 위치를 결정하는 단계를 포함하고,
    상기 절단된 위치는 수득한 염기서열 데이터 (sequence read)를 정렬하여 5' 말단이 수직 정렬된 위치, 또는 5' 말단 플롯에서 이중 피크 패턴을 보이는 위치인,
    유전자 가위의 비표적 위치 (off-target site)를 검출하는 방법.
  2. 제1항에 있어서, 상기 절단된 위치가 표적 위치 (on-target site)가 아닌 경우, 비표적 위치 (off-target site)로 판단하는 단계를 추가로 포함하는 것인, 방법.
  3. 삭제
  4. 제1항에 있어서, 상기 유전체 DNA는 표적 특이적 유전자 가위가 발현되는 세포 또는 발현되지 않는 세포로부터 분리된 것인, 방법.
  5. 제1항에 있어서, 상기 정렬은 표준 염기서열 (reference genome)로 염기서열 데이터를 맵핑한 뒤, BWA/GATK 또는 ISAAC을 이용하여 수행되는 것인, 방법.
  6. 제1항에 있어서, 왓슨 가닥 (Watson strand)과 크릭 가닥 (Crick strand)에 해당하는 염기서열 데이터 (sequence read)가 각각 두 개 이상씩 수직으로 정렬되는 위치를 비표적 위치인 것으로 판단하는 단계를 추가로 포함하는 것인, 방법.
  7. 제1항에 있어서, 20 % 이상의 염기서열 데이터가 수직으로 정렬되고, 각각의 왓슨 가닥 및 크릭 가닥에서 동일한 5' 말단을 가진 염기서열 데이터의 수가 10 이상인 위치가 비표적 위치인 것으로 판단하는 단계를 추가로 포함하는 것인, 방법.
  8. 제1항에 있어서, 분리된 유전체 DNA는 유전자 가위가 발현된 세포로부터 분리된 것이고, 상기 DNA의 비표적 위치에서 인델 (Insertion and deletion)을 확인하여 비표적 효과를 확인하는 단계를 추가로 포함하는 것인, 방법.
  9. 제8항에 있어서, 상기 인델을 확인하는 것은 상기 비표적 위치에 대한 T7E1 분석, Cel-I 효소를 이용한 돌연변이 검출 분석 또는 표적화 딥시퀀싱 (targeted deep sequencing)을 수행하여 이루어지는 것인, 방법.
  10. 제1항에 있어서, 상기 비표적 위치는 표적 위치와 1 개 이상의 뉴클레오티드 불일치 (mismatch)를 가지는 것인, 방법.
  11. 제1항에 있어서, 상기 비표적 위치는 표적 위치와 1 내지 6 개의 뉴클레오티드 불일치 (mismatch)를 가지는 것인, 방법.
  12. 제1항에 있어서, 상기 (c) 단계는 절단된 각각의 위치에 하기 식을 적용하여 절단 점수를 산출하여 수행되는 것인, 유전자 가위의 비표적 위치 (off-target site)를 검출하는 방법.
    Figure 112015110962728-pat00042

  13. 제12항에 있어서, 상기 식에서 상수 C가 100일 때 산출된 점수가 25,000 점 이상인 경우 비표적 위치로 판단하는 단계를 추가로 포함하는 것인, 방법.
  14. 제1항에 있어서, 상기 유전자 가위는 2 개 이상의 표적에 대한 유전자 가위를 혼합한 것인, 방법.
  15. 제1항에 있어서, 상기 유전자 가위는 2 내지 100 개의 표적에 대한 유전자 가위를 혼합한 것인, 방법.
  16. 제14항에 있어서, 표적 위치와의 편집 거리 (edit distance)에 따라 비표적 위치를 분류하는 단계를 추가로 포함하는 것인, 방법.
  17. 제1항에 있어서, 상기 유전자 가위는 메가뉴클레아제 (meganuclease), ZFN (zinc finger nuclease), TALEN (transcription activator-like effector nuclease), RGEN (RNA-guided engineered nuclease) 및 Cpf1으로 이루어진 군에서 선택되는 것인, 방법.
  18. 제17항에 있어서, 상기 RGEN은 표적 유전자의 특정 서열에 특이적으로 결합하는 가이드 RNA 및 Cas 단백질을 포함하는 것인, 방법.
  19. 제18항에 있어서, 상기 가이드 RNA는 올리고뉴클레오티드 이중가닥 또는 플라스미드 주형으로부터 전사된 것인, 방법.
  20. 제18항에 있어서, 상기 가이드 RNA는 crRNA 및 tracrRNA를 포함하는 이중 RNA (dualRNA) 또는 단일-사슬 가이드 RNA 형태인 것인, 방법.
  21. 제18항에 있어서, 상기 Cas 단백질은 Cas9 단백질 또는 이의 변이체인 것인, 방법.
  22. 제18항에 있어서, 상기 Cas 단백질은 스트렙토코커스 (Streptococcus) 속, 네이세리아 (Neisseria) 속, 파스테우렐라 (Pasteurella) 속, 프란시셀라 (Francisella) 속 및 캄필로박터 (Campylobacter) 속으로 이루어진 군에서 선택되는 하나의 유래인 것인, 방법.
  23. 제18항에 있어서, 상기 메가뉴클레아제는 I-SceI, I-CeuI, Pi-PspI 및 Pi-SceI로 이루어지는 군에서 선택되는 것인, 방법.
  24. 제18항에 있어서, 상기 Cpf1은 캔디다투스 파세이박터 (Candidatus Paceibacter), 라치노스피라 (Lachnospira) 속, 뷰티리비브리오 (Butyrivibrio) 속, 페레그리니박테리아 (Peregrinibacteria), 액시도미노코쿠스 (Acidominococcus) 속, 포르파이로모나스 (Porphyromonas) 속, 프레보텔라 (Prevotella) 속, 프란시셀라 (Francisella) 속, 캔디다투스 메타노플라스마 (Candidatus Methanoplasma), 또는 유박테리움 (Eubacterium) 속으로 이루어진 군에서 선택되는 하나의 유래인 것인, 방법.
  25. 플라스미드 (plasmid)를 주형으로 하여 시험관 내 (in vitro) 전사된 가이드 RNA를 세포에 도입하는 단계를 포함하는, 유전체 교정에서 비표적 효과를 감소시키는 방법.
  26. 제25항에 있어서, 상기 비표적 효과 감소는, 벌지-형 (bulge-type) 비표적 위치에 인델이 발생하는 것을 막는 것에 의한 것인, 방법.
KR1020150159945A 2014-11-14 2015-11-13 유전체에서 유전자 가위의 비표적 위치를 검출하는 방법 KR101828933B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201462079945P 2014-11-14 2014-11-14
US62/079,945 2014-11-14
KR20150135702 2015-09-24
KR1020150135702 2015-09-24

Publications (2)

Publication Number Publication Date
KR20160058703A KR20160058703A (ko) 2016-05-25
KR101828933B1 true KR101828933B1 (ko) 2018-02-14

Family

ID=55954673

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150159945A KR101828933B1 (ko) 2014-11-14 2015-11-13 유전체에서 유전자 가위의 비표적 위치를 검출하는 방법

Country Status (5)

Country Link
EP (1) EP3219810B1 (ko)
JP (1) JP6621820B2 (ko)
KR (1) KR101828933B1 (ko)
CN (1) CN107109486B (ko)
WO (1) WO2016076672A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220039188A (ko) 2020-09-22 2022-03-29 (주)지플러스생명과학 신규한 crispr 연관 단백질 및 이의 용도
KR20220039189A (ko) 2020-09-22 2022-03-29 (주)지플러스생명과학 신규한 crispr 연관 단백질 및 인핸서를 포함하는 유전체 편집용 조성물, 및 이의 용도
WO2022124839A1 (ko) * 2020-12-09 2022-06-16 재단법인 아산사회복지재단 온-타겟 활성이 유지되고 오프-타겟 활성이 감소된 가이드 rna 및 이의 용도

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3613852A3 (en) 2011-07-22 2020-04-22 President and Fellows of Harvard College Evaluation and improvement of nuclease cleavage specificity
US9163284B2 (en) 2013-08-09 2015-10-20 President And Fellows Of Harvard College Methods for identifying a target site of a Cas9 nuclease
US9359599B2 (en) 2013-08-22 2016-06-07 President And Fellows Of Harvard College Engineered transcription activator-like effector (TALE) domains and uses thereof
US9526784B2 (en) 2013-09-06 2016-12-27 President And Fellows Of Harvard College Delivery system for functional nucleases
US9228207B2 (en) 2013-09-06 2016-01-05 President And Fellows Of Harvard College Switchable gRNAs comprising aptamers
US9388430B2 (en) 2013-09-06 2016-07-12 President And Fellows Of Harvard College Cas9-recombinase fusion proteins and uses thereof
US20150166985A1 (en) 2013-12-12 2015-06-18 President And Fellows Of Harvard College Methods for correcting von willebrand factor point mutations
CA2956224A1 (en) 2014-07-30 2016-02-11 President And Fellows Of Harvard College Cas9 proteins including ligand-dependent inteins
US20190225955A1 (en) 2015-10-23 2019-07-25 President And Fellows Of Harvard College Evolved cas9 proteins for gene editing
WO2018027078A1 (en) 2016-08-03 2018-02-08 President And Fellows Of Harard College Adenosine nucleobase editors and uses thereof
AU2017308889B2 (en) 2016-08-09 2023-11-09 President And Fellows Of Harvard College Programmable Cas9-recombinase fusion proteins and uses thereof
US11542509B2 (en) 2016-08-24 2023-01-03 President And Fellows Of Harvard College Incorporation of unnatural amino acids into proteins using base editing
JP2019526271A (ja) 2016-09-13 2019-09-19 ツールゲン インコーポレイテッドToolgen Incorporated シトシンデアミナーゼによるdnaでの塩基編集確認方法
KR20240007715A (ko) 2016-10-14 2024-01-16 프레지던트 앤드 펠로우즈 오브 하바드 칼리지 핵염기 에디터의 aav 전달
WO2018097657A1 (ko) * 2016-11-25 2018-05-31 주식회사 툴젠 크로마틴 dna를 이용한 유전체 서열분석 방법 및 유전체 교정 확인 방법
WO2018119359A1 (en) 2016-12-23 2018-06-28 President And Fellows Of Harvard College Editing of ccr5 receptor gene to protect against hiv infection
JP2020505062A (ja) * 2017-01-17 2020-02-20 インスティテュート フォー ベーシック サイエンスInstitute For Basic Science Dna一本鎖切断による塩基編集非標的位置確認方法
EP3592853A1 (en) 2017-03-09 2020-01-15 President and Fellows of Harvard College Suppression of pain by gene editing
WO2018165629A1 (en) 2017-03-10 2018-09-13 President And Fellows Of Harvard College Cytosine to guanine base editor
IL269458B2 (en) 2017-03-23 2024-02-01 Harvard College Nucleic base editors that include nucleic acid programmable DNA binding proteins
WO2018209320A1 (en) 2017-05-12 2018-11-15 President And Fellows Of Harvard College Aptazyme-embedded guide rnas for use with crispr-cas9 in genome editing and transcriptional activation
US11732274B2 (en) 2017-07-28 2023-08-22 President And Fellows Of Harvard College Methods and compositions for evolving base editors using phage-assisted continuous evolution (PACE)
US11319532B2 (en) 2017-08-30 2022-05-03 President And Fellows Of Harvard College High efficiency base editors comprising Gam
EP3697906A1 (en) 2017-10-16 2020-08-26 The Broad Institute, Inc. Uses of adenosine base editors
CN107967411B (zh) * 2017-11-21 2021-09-10 南方科技大学 一种脱靶位点的检测方法、装置及终端设备
US20220306699A1 (en) * 2018-06-27 2022-09-29 Altius Institute For Biomedical Sciences Nucleic Acid Binding Domains and Methods of Use Thereof
EP3628748A1 (en) 2018-09-25 2020-04-01 Albert-Ludwigs-Universität Freiburg Method for characterization of modifications caused by the use of designer nucleases
CN109295186B (zh) * 2018-09-30 2023-10-03 中山大学 一种基于全基因组测序检测腺嘌呤单碱基编辑系统脱靶效应的方法及其在基因编辑中的应用
MX2021011426A (es) 2019-03-19 2022-03-11 Broad Inst Inc Metodos y composiciones para editar secuencias de nucleótidos.
DK3812472T3 (da) 2019-10-21 2023-02-20 Univ Freiburg Albert Ludwigs Virkelig uvildig in vitro-undersøgelse til profilering af off-target-aktivitet af en eller flere målspecifikke programmerbare nukleaser i celler (abnoba-seq)
CN111028885B (zh) * 2019-12-31 2023-05-30 西南民族大学 一种检测牦牛rna编辑位点的方法及装置
JP2023525304A (ja) 2020-05-08 2023-06-15 ザ ブロード インスティテュート,インコーポレーテッド 標的二本鎖ヌクレオチド配列の両鎖同時編集のための方法および組成物
CN111893170B (zh) * 2020-08-07 2022-08-19 珠海舒桐医疗科技有限公司 一种在全基因组范围内体外检测CRISPR-Cas脱靶效应的方法
WO2023132704A1 (ko) * 2022-01-07 2023-07-13 주식회사 툴젠 유전자 편집 과정에서 발생 가능한 오프 타겟을 예측하는 방법
KR20230149744A (ko) 2022-04-19 2023-10-27 서울대학교산학협력단 태그멘테이션을 이용한 벡터 삽입위치 검출 및 클론 정량 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6158170B2 (ja) * 2011-04-27 2017-07-12 アミリス, インコーポレイテッド ゲノム修飾のための方法
WO2013169398A2 (en) * 2012-05-09 2013-11-14 Georgia Tech Research Corporation Systems and methods for improving nuclease specificity and activity
CN110669746B (zh) * 2012-10-23 2024-04-16 基因工具股份有限公司 用于切割靶dna的组合物及其用途
CA3161835A1 (en) * 2013-03-15 2014-09-25 The General Hospital Corporation Rna-guided targeting of genetic and epigenomic regulatory proteins to specific genomic loci

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
논문1*
논문2*

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220039188A (ko) 2020-09-22 2022-03-29 (주)지플러스생명과학 신규한 crispr 연관 단백질 및 이의 용도
KR20220039189A (ko) 2020-09-22 2022-03-29 (주)지플러스생명과학 신규한 crispr 연관 단백질 및 인핸서를 포함하는 유전체 편집용 조성물, 및 이의 용도
WO2022124839A1 (ko) * 2020-12-09 2022-06-16 재단법인 아산사회복지재단 온-타겟 활성이 유지되고 오프-타겟 활성이 감소된 가이드 rna 및 이의 용도

Also Published As

Publication number Publication date
EP3219810A4 (en) 2018-03-28
CN107109486B (zh) 2021-08-13
EP3219810B1 (en) 2022-01-05
CN107109486A (zh) 2017-08-29
KR20160058703A (ko) 2016-05-25
EP3219810A1 (en) 2017-09-20
JP6621820B2 (ja) 2019-12-18
JP2017533724A (ja) 2017-11-16
WO2016076672A1 (ko) 2016-05-19

Similar Documents

Publication Publication Date Title
KR101828933B1 (ko) 유전체에서 유전자 가위의 비표적 위치를 검출하는 방법
US11920181B2 (en) Nuclease profiling system
US10501794B2 (en) Genomewide unbiased identification of DSBs evaluated by sequencing (GUIDE-seq)
US10738303B2 (en) Comprehensive in vitro reporting of cleavage events by sequencing (CIRCLE-seq)
KR20180029937A (ko) 시토신 디아미나제에 의한 dna에서의 염기 교정 확인 방법
US11352666B2 (en) Method for detecting off-target sites of programmable nucleases in a genome
KR102067810B1 (ko) 크로마틴 dna를 이용한 유전체 서열분석 방법 및 유전체 교정 확인 방법
Kim Genome-wide CRISPR/Cas9 off-target profiling via Digenome-seq
CN111690724A (zh) 一种检测双链断裂产生试剂活性的方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant