KR20230051095A - 유전자 편집을 위한 TaRGET 시스템 및 이의 용도 - Google Patents

유전자 편집을 위한 TaRGET 시스템 및 이의 용도 Download PDF

Info

Publication number
KR20230051095A
KR20230051095A KR1020220128219A KR20220128219A KR20230051095A KR 20230051095 A KR20230051095 A KR 20230051095A KR 1020220128219 A KR1020220128219 A KR 1020220128219A KR 20220128219 A KR20220128219 A KR 20220128219A KR 20230051095 A KR20230051095 A KR 20230051095A
Authority
KR
South Korea
Prior art keywords
sequence
seq
cas12f1
protein
rna
Prior art date
Application number
KR1020220128219A
Other languages
English (en)
Inventor
김용삼
김도연
Original Assignee
주식회사 진코어
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 진코어 filed Critical 주식회사 진코어
Publication of KR20230051095A publication Critical patent/KR20230051095A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/85Vectors or expression systems specially adapted for eukaryotic hosts for animal cells
    • C12N15/86Viral vectors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • C12N15/902Stable introduction of foreign DNA into chromosome using homologous recombination
    • C12N15/907Stable introduction of foreign DNA into chromosome using homologous recombination in mammalian cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/10Transferases (2.)
    • C12N9/12Transferases (2.) transferring phosphorus containing groups, e.g. kinases (2.7)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Wood Science & Technology (AREA)
  • Organic Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Zoology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Plant Pathology (AREA)
  • Biophysics (AREA)
  • Virology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Cell Biology (AREA)
  • Mycology (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)

Abstract

본 발명은 새로운 초소형 유전자 편집 단백질인 Cas12f1 변이체 단백질 또는 이의 동족체 단백질 및 이를 포함하는 초소형 유전자 편집 시스템(Hypercompact TaRGET system)에 관한 것으로, 상기 초소형 유전자 편집 시스템은 유전자 편집 효율이 증가되었을 뿐만 아니라, 하나의 AAV 벡터에 패키징할 수 있어 세포 내의 표적 부위에 효율적으로 전달될 수 있는 효과가 있다.
본 발명의 핵산 편집을 위한 초소형 유전자 편집 시스템은 다양한 표적 유전자 및 핵산 형태에 적용가능한 유전자 편집 단백질 선택의 폭을 넓히고, 기존의 세포 내 전달이 어려운 큰 사이즈의 유전자 편집 시스템을 대체할 차세대 유전자 편집 시스템으로서, 핵산 편집을 통한 유전질환의 치료 및 연구 등에 유용하게 이용될 수 있다.

Description

유전자 편집을 위한 TaRGET 시스템 및 이의 용도{Novel genome editing TaRGET system and uses thereof}
본 발명은 크기가 작은 Cas12f1 변이체 또는 이의 동족체 및 엔지니어링된 가이드 RNA를 이용하여 개발된 초소형 유전자 편집 기술인 TaRGET(Tiny nuclease-augment RNA-based Genome Editing Technology) 시스템에 관한 것이다. 특히, 기존의 Cas 엔도뉴클레아제와 비교하여 크기는 더 작으면서도 절단 효율이 개선된 Cas12f1 변이체 또는 이의 동족체 및 상기 변이체와 엔지니어링된 가이드 RNA를 이용한 유전자 편집 시스템에 관한 것이다.
생명체의 유전정보를 필요에 따라 자유롭게 교정하는 유전자 편집(Genome Editing) 기술은 박테리아, 효모, 식물 및 인간을 포함한 동물 세포 등에서 유전체가 원하는 유전정보를 갖도록 하는 변경을 가능하게 한다. 현재 유전자 편집 기술은 세포 엔지니어링(cell engineering), 모델 동물 제작, 형질전환 식물체 제작 및 암, 유전 질환, 감염 질환 등의 유전자 치료에의 이용 등 새로운 첨단 바이오 분야의 산업을 창출해 낼 핵심 기술로 평가받고 있다. 이에 따라, 유전자 편집 기술은 최근 급격하게 발전하고 있으며, 다양한 연구가 진행 중이다.
유전자 편집은 표적 유전자 또는 표적 핵산 서열을 정확히 찾고 그 부위를 자르거나 변형시킬 수 있는 유전자 편집 시스템을 통해 수행되며 CRISPR/Cas 시스템이 대표적이다. 상기 유전자 편집 시스템은 Cas 엔도뉴클레아제(endonuclease)가 표적 유전자 서열을 인식하는 CRISPR RNA(crRNA)와 복합체를 형성한 것이며 경우에 따라 상기 Cas 엔도뉴클레아제에 결합하는 transactivating CRISPR RNA(tracrRNA)가 추가될 수 있다. 상기 crRNA와 tracrRNA를 링커로 연결한 싱글 가이드 RNA(single guide RNA, sgRNA) 형태가 주로 이용되고, 이 가이드 RNA는 유전자 편집 크리스퍼 시스템의 Cas 엔도뉴클레아제(endonuclease)가 자르거나 변형시켜야 할 표적 유전자의 이중가닥 DNA 염기서열로 정확하게 안내하는 역할을 한다. 표적 유전자 부위에 위치한 Cas 엔도뉴클레아제(endonuclease)는 표적 유전자 서열과 이웃하고 있는 프로토스페이서 인접 모티프(protospacer adjacent motif, PAM)를 인식한 후, 표적 핵산 서열의 내부 또는 외부 염기서열(base pair, bp)을 절단하거나 변형시키게 된다.
유전자 편집(Genome editing technology) 시스템에 의해 절단된 표적 핵산은 상동재조합(Homology directed repair, HDR) 또는 비상동말단연결(non-homologous end joining, NHEJ) 과정의 DNA 복구기작을 통해 복구가 일어난다. 비상동말단연결(NHEJ)의 DNA 복구기작을 통해서는 절단된 DNA 부위 사이에 무작위적 염기의 삽입(insertion) 또는 결실(deletion)이 일어나게 되고(insertion and deletion, indel), 그 결과 유전자의 코딩 부분에서 틀이동 변이(frameshift mutation) 또는 조기종결 변이(premature mutation)가 발생하여 표적 유전자가 제거(Knock-out)된다. 한편, 상동재조합(HDR)의 DNA 복구기작은 절단된 DNA를 복구하기 위하여 공여자 DNA(Donor DNA)를 필요로 하는데, 이 공여자 DNA의 서열을 주형으로 하여 내부의 목적 유전자의 서열이 정교하게 교체됨으로써, 유전자 편집이 완성된다(Jinek, M. et al., 2012).
자연계에는 다양한 종류의 유전자 편집 시스템 예를 들면, 크리스퍼(CRISPR/Cas) 시스템이 존재하고, 현재도 계속 새로운 크리스퍼 유전자가 발견되고 있다. 크리스퍼 유전자 편집 시스템(CRISPR Genome editing technology)의 유전자 편집을 위한 핵산분해효소인 Cas 단백질을 포함하는 단백질 복합체의 Cas 유전자 구성 및 개수에 따라, Class 1 과 Class 2로 크게 구분된다. Class 1은 type I, type III 및 type IV Cas 핵산분해 단백질을 포함하고, type II, type V 및 type VI Cas 핵산분해 단백질은 Class 2로 분류된다(Koonin et al., 2017, Makarova et al., 2020). 이 중 Class 2 CRISPR/Cas 시스템은 그 이펙터 복합체(effector complex)가 멀티 도메인을 가진 커다란 단일 단백질을 포함하는 것이 특징이다. 현재까지 가장 활발하게 연구되고 있는 스트렙토코커스 피오게네스(Streptococcus pyogenes) 유래의 Cas9(type II)와 유전자 편집 용도로 활발하게 연구되고 있는 CRISPR/Cpf1(type V)은 대표적인 Class 2의 핵산분해 단백질이다(Chylinski et al., 2014, Shmakov et al., 2015).
하지만 현재까지 가장 연구가 활발하게 진행되었고 효율도 좋은 것으로 알려진 CRISPR/SpCas9 시스템은 해당 유전자의 사이즈가 매우 큰 것이 단점으로 지적되고 있다. SpCas9 유전자만 4.3kb가 넘으며 가이드 RNA와 다양한 유전자 발현 구성체인 프로모터 및 poly A 서열 등을 추가할 경우 5kb가 넘어간다. 이럴 경우 유전자치료제의 전달체로 안전성과 효율성에서 입증된 아데노-연관 바이러스(AAV)를 통해 전달할 수 없다는 문제점을 가지고 있다. 현재 대부분의 AAV가 전달할 수 있는 유전자의 크기는 4.7kb로 제한되어 있기 때문이다.
이러한 문제점을 극복하기 위해 SaCas9이나 CjCas9과 같은 비교적 작은 사이즈의 크리스퍼 시스템이 발견, 개발되어 유전자 편집 도구로 활용되고 있다. 하지만 이 두 유전자 편집 도구들은 SpCas9이나 Cpf1에 비해 비교적 열등한 유전자 편집 효율을 보이고 있는 점이 가장 큰 문제로 지적되고 있다. 뿐만 아니라, 이러한 크리스퍼 시스템을 이용하여 염기교정(base editing), 프라임에디팅(prime editing) 및 후성유전자조절(epigenetic regulation)에 확장이용하고자 할 경우에는 SpCas9과 같이 동일하게 AAV 전달한계의 문제에 봉착하게 된다.
이에, 다양한 유전자 편집 기술에 적용하고 보다 높은 효율의 유전자 편집 시스템을 확보하는 것은 매우 중요한 과제로 남아 있다. 이 문제를 해결하기 위해서는 유전자 편집 효율이 우수하다고 알려진 Cas9 또는 Cpf1 단백질에 뒤떨어지지 않는 유전자 편집 효율을 가지면서도, 비교적 크기가 작은 핵산분해 단백질로 알려진 SaCas9 및 CjCas9 등 보다도 분자량은 더 작은 초소형의 새로운 유전자 편집 시스템이 절실히 필요한 실정이다.
KR 10-2015-0016588 A US 2020/0190494 A1
Jinek, M. et al., A Programmable Dual-RNA-Guided DNA Endonuclease in Adaptive Bacterial Immunity, Science, Vol. 337, 816-821(2012) Koonin, EV. et al., Mobile genetic elements and evolution of CRISPR-Cas system; All the way there and back, Genome Biol. Evol., Vol. 9, No. 10, 2812-2825(2017), Makarova, KS. et al., Evolutionary classification of the CRISPR-Cas system: a burst of class 2 and derived variants, Nat. Rev. Microbiol., Vol. 18, 67-83(2020) Chylinski, K. et al., Classification and evolution of type II CRISPR-Cas system, Nucleic Acids Research, Vol. 42, No. 10, 6091-6105(2014) Shmakov, S. et al., Discovery and Functional Characterization of diverse class 2 CRISPR-Cas system, Vol. 60, 385-397(2015) Karvelis, T. et al., PAM recognition by miniature CRISPR-Cas12f nucleases triggers programmable double-stranded DNA target cleavage, Nucleic Acids Research, Vol. 48, No. 9, 5016-5023(2020) Harrington, LB. et al., Programmed DNA destruction by miniature CRISPR-Cas14 enzymes, Science, Vol. 362, 839-842(2018) Takeda, SN. et al., Structure of the miniature type V-F CRISPR-Cas effector enzyme, Molecular Cell 81, 1-13(2021) Xiao, R. et al., Structural basis for the dimerization-dependent CRISPR-Cas12f nuclease, bioRxiv, 1-20(2020) Wang, D. et al., Adeno-associated virus vector as a platform for gene therapy delivery, Nat. Rev. Drug Discov., Vol. 18, No. 5, 358-378(2019)
본 발명은 상술한 문제점을 모두 해결하는 것을 그 목적으로 한다.
본 발명은 종래 CRISPR 시스템과 연관되어 엔도뉴클레아제(endonuclease)로서 작용하는 Cas 단백질들과는 구분되는 Cas12f1에 대한 변이체(variant) 단백질, 이의 동족체(homolog) 단백질, 또는 이를 포함하는 소형 엔도뉴클레아제를 제공하는 것을 일 목적으로 한다.
본 발명은 또한 상기 Cas12f1 변이체 단백질 또는 이의 동족체 단백질의 인델(Indel) 효율을 상승시켜줄 수 있는 가이드 RNA를 제공하는 것을 다른 목적으로 한다.
본 발명은 Cas12f1 변이체 단백질 기반의 유전자 편집 시스템을 제공하는 것을 또 다른 목적으로 한다.
본 발명은 Cas12f1 변이체 단백질 기반의 유전자 편집용 분자를 암호화하는 핵산 또는 이를 발현시키기 위한 벡터 시스템을 제공하는 것을 또 다른 목적으로 한다.
본 발명은 Cas12f1 변이체 단백질 기반의 유전자 편집용 조성물을 제공하는 것을 또 다른 목적으로 한다.
본 발명은 Cas12f1 변이체 단백질을 이용하여 유전자를 편집하는 방법을 제공하는 것을 또 다른 목적으로 한다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않는다. 본 발명의 목적은 이하의 설명으로 보다 분명해질 것이며, 청구범위에 기재된 수단 및 그 조합으로 실현될 것이다.
상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.
본 발명의 일 태양에 따르면, Cas12f1 변이체(variant) 단백질 또는 이의 동족체(homolog) 단백질을 포함하는 소형 엔도뉴클레아제(tiny endonuclease) 및 이를 암호화하는 폴리뉴클레오티드가 제공된다.
본 발명의 다른 태양에 따르면, Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 포함하는 소형 엔도뉴클레아제; 및 가이드 RNA(guide RNA)를 포함하는 유전자 편집 시스템이 제공된다.
본 발명의 또 다른 태양에 따르면, Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 포함하는 소형 엔도뉴클레아제를 암호화하는 뉴클레오티드가 작동가능하게 연결된 제1 핵산 구조물; 및/또는 가이드 RNA를 암호화하는 뉴클레오티드 서열이 작동가능하게 연결된 제2 핵산 구조물을 포함하는 벡터 시스템이 제공된다.
본 발명의 또 다른 태양에 따르면, 상기 유전자 편집 시스템, 상기 벡터 시스템, 또는 상기 두 시스템을 모두 포함하는 유전자 편집용 조성물이 제공된다.
본 발명의 또 다른 태양에 따르면, 상기 유전자 편집 시스템, 상기 벡터 시스템, 또는 상기 유전자 편집용 조성물을 표적 유전자 또는 표적 핵산과 접촉시키는 단계를 포함하는 유전자 편집 방법이 제공된다.
본 발명은 기존에 엔도뉴클레아제(endonuclease)로서 알려진 바 없는 새로운 Cas12f1 변이체 기반의 CRISPR 단백질 및 상기 변이체 단백질과 함께 사용되어 우수한 유전자 편집 효율을 나타내는 엔지니어링된 가이드 RNA(guide RNA)를 포함하는 초소형 유전자 편집 시스템("Hypercompact TaRGET system"이라 명명)을 제공한다. 본 발명의 초소형 유전자 편집 시스템은 하나의 아데노-연관 바이러스(AAV) 벡터에 표적하는 다양한 유전체의 편집에 요구되는 유전자 편집 도구들을 모두 탑재할 수 있는 장점을 가진다. 이에, 상기 초소형 유전자 편집 시스템은 기존에 염색체 편집을 위해 주로 이용되고 있는 Cas9 또는 Cpf1 등의 단백질을 포함하는 유전자 편집 시스템이 그 크기로 인해 임상적으로 검증된 세포 내 전달 수단인 AAV 벡터를 패키징 도구로 이용하는데 가지는 가장 큰 제약을 해결하는 새로운 유전자 편집 시스템을 제시하는 것이다.
무엇보다 본 발명에 따른 초소형 유전자 편집 시스템은 새로운 Cas12f1 기반 변이체 CRISPR 단백질 및 이에 적합하게 엔지니어링된 가이드 RNA를 포함함으로써 우수한 표적 유전자 편집 효율을 나타낸다.
도 1은 본 발명의 일 구현예에 따른 엔지니어링된 가이드 RNA(이하 "augment RNA")를 위한 변형부위(Modification Site, MS) MS1 내지 MS5를 도시한다.
도 2a 및 도 2b는 본 발명의 구현예에 따른 엔지니어링된 싱글 가이드 RNA(sgRNA) 제작을 위한 다양한 변형부위를 나타내는 예시적 구조를 도시한다: 도 2a는 Cas12f1 변이체에 대한 canonical sgRNA의 예시적 변형부위를 도시한다. 도 2b는 본 발명의 일 구현예에 따라 엔지니어링된 Cas12f1 변이체에 대한 mature form sgRNA의 예시적 변형부위를 도시한다.
도 3a 내지 도 3d는 본 발명의 구현예에 따른 augment RNA에 의한 Cas12f1, Cas12f1 변이체, Cas12f1 변이체 v1, Cas12f1 변이체 v2, Cas12f1 변이체 v3, 및 Cas12f1 변이체(서열번호 1)의 N-말단 또는 C-말단에 아미노산이 추가된 Cas12f1 변이체의 인델(Indel) 효율을 나타낸 그래프이다(canonical sgRNA, 야생형 가이드 RNA; Cas12f1_ge3.0, MS1/MS2/MS3 augment RNA; Cas12f1_ge4.0, MS2/MS3/MS4 augment RNA; Cas12f1_ge4.1, MS2/MS3/MS4/MS5 augment RNA): 도 3a는 표적 서열인 Target-1에 대한 Cas12f1 변이체들의 인델(Indel) 효율을 측정한 결과를 도시한다. 도 3b는 표적 서열인 Target-2에 대한 Cas12f1 변이체들의 인델(Indel) 효율을 측정한 결과를 도시한다. 도 3c는 표적 서열인 Target-3에 대한 Cas12f1 변이체들의 인델(Indel) 효율을 측정한 결과를 도시한다. 도 3d는 N-말단 또는 C-말단에 아미노산이 추가된 Cas12f1 변이체 단백질의 표적 서열 Target-1 및 Target-2에 대한 인델(Indel) 효율을 측정한 결과를 도시한다. 가이드 RNA로는 Cas12f1_ge4.0이 사용되었다.
도 4는 기존 유전자 편집 단백질(SpCas9, AsCas12a)과 Cas12f1 변이체들의 세포 내 인델(Indel) 효율을 비교 측정한 결과를 도시한다.
도 5a 및 도 5b는 야생형 가이드 RNA의 각 영역에서 MS1 내지 MS5 중 하나 이상의 변형을 가지는 augment RNA 및 Cas12f1 변이체를 포함하는 초소형 유전자 편집 시스템의 인델(indel) 효율(%)을 측정한 결과를 도시한다: 도 5a는 표적 서열 Target-1에 대한 인델(indel) 효율(%)을 나타낸다. 도 5b는 표적 서열 Target-2에 대한 인델(indel) 효율(%)을 나타낸다.
도 6은 본 발명의 구현예에 따른 augment RNA 및 Cas12f1 변이체를 포함하는 초소형 유전자 편집 시스템의 표적 서열 Target-1에 대한 인델(indel) 효율(%)을 확인한 결과를 도시한다.
도 7a 내지 도 7d는 Mature form sgRNA의 각 영역에서 MS3 내지 MS5 중 하나 이상의 변형을 더 가지는 augment RNA 및 Cas12f1 변이체를 포함하는 초소형 유전자 편집 시스템의 인델(indel) 효율(%)을 측정한 결과를 도시한다: 도 7a 및 도 7b는 각각 표적 서열 Target-1에 대한 인델(indel) 효율(%)을 나타낸 그래프이다. 도 7c 및 도 7d는 각각 표적 서열 Target-2에 대한 인델(indel) 효율(%)을 나타낸 그래프이다.
도 8a 및 도 8b는 본 발명의 구현예에 따른 augment RNA 및 Cas12f1 변이체를 포함하는 초소형 유전자 편집 시스템의 표적 서열 Target-1에 대한 인델(indel) 효율(%)을 측정한 결과를 도시한다: 도 8a는 Mature form sgRNA에서 MS3-3, MS3-3/MS4-3 또는 MS3-3/MS4-3/MS5-3의 변형을 가지는 augment RNA를 사용한 경우의 인델(indel) 효율(%)을 나타낸 그래프이다. 도 8b는 Mature form sgRNA에서 MS3-3, MS3-3/MS4-3 또는 MS3-3/MS4-3/MS5-3의 변형 및 MS2의 변형을 가지는 augment RNA를 사용한 경우의 인델(indel) 효율(%)을 나타낸 그래프이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 구현예에 관하여 특정 도면을 참조하여 기술될 것이지만, 본 발명은 이에 한정되지 않고, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 본 발명의 다양한 구현예/실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 기술적 사상과 범위를 벗어나지 않으면서 일 구현예/실시예에서 다른 구현예/실시예로 변경되거나 구현예/실시예들이 조합되어 구현될 수 있다. 본 명세서에 사용된 기술 및 학술 용어들은, 달리 정의되지 않는 한, 본 발명이 속하는 분야에서 일반적으로 사용되는 것과 같은 의미를 갖는다. 본 명세서를 해석할 목적으로 하기 정의들이 적용될 것이고, 단수로 사용된 용어는 적절한 경우에는 복수형을 포함할 것이며 그 반대도 마찬가지이다.
I. 정의
본 명세서에 사용된 용어 "유전자 편집(Genome editing) 단백질" 또는 "핵산분해 단백질"은 표적하는 핵산인 DNA 또는 RNA, 또는 표적 유전자 내의 프로토스페이서 인접 모티프(protospacer adjacent motif, PAM)를 인식한 후, 표적 핵산 서열의 내부 또는 외부 염기서열(base pair, bp)에서 DNA 이중가닥 절단(double strand breaks, DSB)이 일어나게 편집할 수 있는 (엔도)뉴클레아제((endo)nuclease)를 의미한다. 또한, 상기 유전자 편집(Genome editing) 단백질 또는 핵산분해 단백질은 유전자 편집 시스템 또는 유전자 편집을 위한 핵산 구조물(construct)을 구성하는 효과기(effector) 단백질로도 지칭한다. 여기서 효과기(effector) 단백질은 가이드 RNA(gRNA) 또는 엔지니어링된 RNA에 결합할 수 있는 핵산분해 단백질이나, 표적 핵산 또는 표적 유전자에 결합할 수 있는 펩티드 단편일 수 있다.
용어 "유전자 편집 크리스퍼/카스(CRISPR/Cas) 시스템" 또는 "유전자 편 집 시스템"은 유전자 편집 단백질 또는 Cas 엔도뉴클레아제(Cas endonuclease) 등의 핵산분해 효소 및 상기 핵산분해 효소에 대응하는 핵산 표적화 분자가 포함된 복합체로써, 표적 핵산 또는 표적 유전자에 결합하여 표적 핵산 또는 유전자의 표적 부위를 절단 또는 편집할 수 있는 복합체를 의미한다. 여기서 핵산 표적화 분자는 가이드 RNA(gRNA)로 대표될 수 있으나, 이에 제한되지는 않는다.
용어 "초소형 유전자편집 시스템(Hypercompact TaRGET system)"은 초소형 유전자 편집 단백질 또는 소형 엔도뉴클레아제(tiny endonuclease) 등의 핵산분해 효소 및 상기 핵산분해 효소에 대응하는 핵산 표적화 분자가 포함된 복합체로써, 기존의 유전자편집 시스템과 차별되는 용어로 사용된다. 여기서 핵산 표적화 분자는 가이드 RNA(gRNA)로 대표될 수 있으나, 이에 제한되지는 않는다. 상기 시스템은 표적 핵산 또는 표적 유전자에 결합하여 표적 핵산 또는 유전자의 표적 부위를 절단 또는 편집할 수 있는 복합체를 의미한다.
용어 "핵산 구조물(Nucleic acid construct)"은 유전자 편집(Genome editing) 단백질 또는 핵산분해 단백질을 암호화하는 뉴클레오티드 서열 및/또는 가이드 RNA를 암호화하는 뉴클레오티드 서열을 구성요소로 포함하는 구조물로서, 필요에 따라 다양한 종류의 (폴리)펩타이드 또는 링커를 암호화하는 뉴클레오티드 서열을 추가로 포함할 수 있다. 상기 핵산 구조물(Nucleic acid construct)은 본 발명의 유전자 편집을 위한 벡터 또는 초소형 유전자편집 시스템(Hypercompact TaRGET system)을 이루는 구성요소로 사용될 수 있다.
용어 "표적 핵산(Target nucleic acid)" 또는 "표적 유전자(Target gene)"은 초소형 유전자편집 시스템(예를 들면, Hypercompact TaRGET system)에 의한 유전자 편집의 대상 또는 표적화 대상이 되는 유전자 또는 핵산을 의미한다. 표적 핵산 또는 표적 유전자는 혼용될 수 있으며, 서로 동일한 대상을 지칭할 수 있다. 상기 표적 유전자는 달리 기재되지 않은 한, 대상 세포가 가진 고유한 유전자 또는 핵산 혹은 외부 유래의 유전자 또는 핵산, 또는 인위적으로 합성된 핵산 또는 유전자일 수 있고, 단일가닥 DNA, 이중가닥 DNA 및/또는 RNA 모두를 의미할 수 있다. 상기 표적 유전자 또는 표적 핵산은 초소형 유전자편집 시스템에 의한 유전자 편집의 대상이 될 수 있다면 특별히 제한되지 않는다.
용어 "표적 부위(Target region)" 또는 "표적 서열(Target sequence)"은 표적 핵산 또는 표적 유전자 내에 존재하는 서열로, 본 발명의 초소형 유전자편집 시스템이 표적 유전자 또는 표적 핵산을 절단하기 위해 인식하는 특정 서열을 의미한다. 상기 표적 부위 또는 표적 서열은 그 목적에 따라 적절히 선택될 수 있다.
용어 "가이드 RNA(gRNA)"는 유전자 편집 단백질 또는 핵산분해 단백질과 복합체를 형성할 수 있고, 표적 핵산 서열과 혼성화할 수 있으며, 표적 핵산 서열에 대한 복합체의 서열-특이적 결합(sequence-specific binding)을 야기하기에 충분한 정도로 표적 핵산 서열과 상보성을 갖는 가이드(guide) 서열을 포함하는 RNA를 의미한다. 본 명세서에서 가이드 분자 또는 가이드 RNA는 상호 교환가능하게 사용된다.
용어 "스캐폴드(Scafold) 영역"은 가이드 RNA(gRNA) 중 유전자 편집(Genome editing) 단백질 또는 핵산분해 단백질과 상호작용할 수 있는 부분을 통틀어 지칭하며, 자연계에서 발견되는 가이드 RNA의 부분 중 스페이서를 제외한 나머지 부분을 지칭할 수 있다.
용어 "스페이서 서열(spacer sequence)"은 초소형 유전자 편집 시스템에서 표적 서열 부분과 혼성화되는 폴리뉴클레오티드를 의미한다. 예컨대, 상기 스페이서 서열은 초소형 유전자편집 시스템에서 가이드 RNA의 crRNA의 3'-말단 부근의 10개 내지 50개의 연속된 뉴클레오티드를 지칭한다.
용어 "tracrRNA" 및 "crRNA"는 유전자 편집 기술 분야에서 통상의 기술자가 인식할 수 있는 의미를 모두 포함한다. 이는 자연계에서 발견되는 듀얼 가이드 RNA(dual guide RNA)의 각 분자를 지칭하는 용어로 사용될 수 있고, 상기 tracrRNA 및 crRNA를 링커로 연결한 싱글 가이드 RNA(single guide RNA)의 각 해당 부분을 지칭하는데도 사용될 수 있다. 달리 서술하지 않는 한, tracrRNA 및 crRNA라고만 기재하는 경우 유전자 편집(Genome editing) 시스템을 구성하는 tracrRNA 및 crRNA를 의미한다.
용어 "벡터"는 달리 특정되지 않는 한, 유전 물질을 세포 내로 운반할 수 있는 모든 물질을 통틀어 일컫는다. 예를 들어, 벡터는 전달 대상이 되는 유전 물질인 유전자 편집(Genome editing) 시스템의 효과기(effector) 단백질을 암호화하는 핵산 및/또는 가이드 RNA(gRNA)를 암호화하는 핵산을 포함하는 DNA 분자일 수 있으나, 이에 제한되는 것은 아니다. 또한, 본 발명에서 "벡터"는 삽입된 유전자가 정상적으로 발현되도록 작동가능하게 연결된 필수적인 조절 요소를 포함하는 "발현 벡터" 일 수 있다. 용어 "작동 가능하게 연결된(operably linked)"은 유전자 발현 기술에 있어서, 특정 구성이 다른 구성과 연결되어, 상기 특정 구성이 의도된 방식대로 기능할 수 있도록 연결되어 있는 것을 의미한다.
용어 "엔지니어링된(Engineered)"은 자연계에 이미 존재하는 구성을 가진 물질, 분자 등과 구분하기 위해 사용하는 용어로, 상기 물질, 분자 등에 인위적인 변형이 가해진 것을 의미한다. 예를 들어, "엔지니어링된 가이드 RNA(engineered guide RNA)"의 경우, 자연계에 존재하는 가이드 RNA(gRNA)의 구성에 인위적인 변경이 가해진 가이드 RNA(gRNA)로 본 명세서 내에서 augment RNA로 지칭될 수 있다.
용어 "폴리뉴클레오타이드" 및 "핵산"은 상호 교환가능하게 사용될 수 있고, 리보뉴클레오타이드 또는 데옥시뉴클레오타이드 중 하나의 임의의 길이 뉴클레오타이드의 중합체 형태를 지칭한다. 따라서, 이 용어는 단일-, 이중-, 또는 다중-가닥 DNA 또는 RNA, 게놈 DNA, cDNA, DNA-RNA 혼성체, 또는 퓨린 및 피리미딘 염기 또는 다른 천연, 화학적 또는 생화학적으로 변형된, 비천연 또는 유도체화된 뉴클레오타이드 염기를 포함하는 중합체를 포함하지만, 이들로 제한되지 않는다. 용어 "폴리뉴클레오타이드" 및 "핵산"은 본 명세서에 기재되는 구현예에 적용 가능한, 단일-가닥(예컨대 센스 또는 안티센스) 및 이중-가닥 폴리뉴클레오타이드를 포함하는 것으로 이해되어야 한다.
용어 "폴리펩타이드", "펩타이드" 및 "단백질"은 상호 교환가능하게 사용되고, 유전적으로 암호화된 그리고 비유전적으로 암호화된 아미노산, 화학적으로 또는 생화학적으로 변형 또는 유도체화된 아미노산, 및 변형된 펩타이드 골격을 갖는 폴리펩타이드를 포함할 수 있는 임의의 길이의 아미노산의 중합체 형태를 지칭한다. 상기 용어는 N-말단의 메티오닌 잔기가 있거나 없는, 이종성 아미노산 서열과의 융합 단백질, 이종성 및 상동성 리더 서열과의 융합; 면역학적으로 태그된 단백질 등을 포함하지만, 이들로 제한되지 않는 융합 단백질을 포함한다.
용어 "A, T, C, G 및 U"는 문맥 및 기술에 따라 DNA 또는 RNA 상에서 염기(Base), 뉴클레오시드(Nucleoside) 또는 뉴클레오티드(Nucleotide)로 적절히 해석될 수 있다. 예를 들어, 염기를 의미하는 경우는 각각 아데닌(adenine; A), 구아닌(guanine; G), 시토신(cytosine; C), 티민(tymine; T) 및 유라실(uracil; U) 중 선택된 하나로 해석될 수 있다. 뉴클레오시드를 의미하는 경우는 각각 아데노신(adenosine; A), 티미딘(thymidine; T), 시티딘(cytidine; C), 구아노신(guanosine; G) 또는 유리딘(uridine; U)으로 해석될 수 있으며, 서열에서 뉴클레오티드를 의미하는 경우는 상기 각각의 뉴클레오시드를 포함하는 뉴클레오티드를 의미하는 것으로 해석되어야 한다.
용어 "약"은 참조 양, 수준, 값, 수, 빈도, 퍼센트, 치수, 크기, 양, 중량 또는 길이에 대해 30, 25, 20, 15, 10, 9, 8, 7, 6, 5, 4, 3, 2 또는 1% 정도로 변하는 양, 수준, 값, 수, 빈도, 퍼센트, 치수, 크기, 양, 중량 또는 길이를 의미한다.
본 발명에서 사용되는 모든 기술용어는, 달리 정의되지 않는 이상 이 기술 분야의 통상의 기술자가 인식할 수 있는 의미를 모두 포함하고, 일반적으로 이해하는 바와 같은 의미로 사용되며, 문맥에 따라 적절히 해석될 수 있다. 또한, 본 명세서에는 바람직한 방법이나 시료가 기재되나, 이와 유사하거나 동등한 것들도 본 발명의 범주에 포함된다.
II. 고효율의 초소형 유전자 편집 시스템/조성물
본 발명자들은 (박테리아 종) 유래의 전이효소(transposase)를 구성하는 인자로 알려진 TnpB 단백질이 Cas12f1 단백질과 유사한 아미노산 서열을 가지며, 현재까지 가장 많은 연구가 진행된 Cas9 단백질을 포함하는 기존 핵산분해 단백질들보다 분자량은 1/3 정도로 작고, 표적 핵산 또는 표적 유전자에 대한 핵산 절단 효율이 월등히 높은 것을 확인함으로써, 상기 단백질을 Cas12f1 변이체 단백질로 규정하고 상기 단백질이 고효율의 초소형 유전자 편집 단백질 활성을 나타내는 것을 처음으로 규명하였다.
또한, 본 발명자들은 세포 내 표적 핵산 또는 표적 유전자를 편집하기 위해, 아데노-연관 바이러스(AAV) 벡터에 여유롭게 탑재가능하며 효과적으로 세포 내(in vivo) 전달이 가능한 시스템으로서, 초소형 유전자 편집 단백질인 Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 포함하는 소형 엔도뉴클레아제; 및 이에 대해 높은 인델 효율을 나타내는 augment RNA를 포함하는 새로운 초소형 유전자 편집 시스템을 제작하였다.
본 발명자들은 기존에 알려진 Cas9 또는 Cpf1 등의 Cas 엔도뉴클레아제(endonuclease)가 아닌, 새로운 초소형 유전자 편집 단백질 Cas12f1 변이체 단백질을 이용함으로써 보다 효율적이고 응용 범위가 증대된 유전자 편집이 가능함을 최초로 확인하였고, 상기 새로운 초소형 유전자 편집 시스템이 다양한 유전체 편집에 활용 가능함에 기초하여 본 발명을 완성하였다.
따라서 본 발명은 표적 핵산 또는 표적 유전자를 특이적이고 고효율로 편집하는데 사용하기 위한, Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 포함하는 소형 엔도뉴클레아제; 및 가이드 RNA를 포함하는 초소형 유전자 편집 시스템(Hypercompact TaRGET system)에 관한 것이다.
또한, 본 발명은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 포함하는 소형 엔도뉴클레아제를 포함하는 초소형 핵산 편집을 위한 구조물 또는 벡터, 이를 이용하여 표적 핵산 또는 표적 유전자 내의 표적 부위를 편집하는 방법 및 이를 위한 조성물에 관한 것이다.
본 발명에 따른 상기 초소형 유전자 편집 시스템은 기존에 연구된 대부분의 Cas 엔도뉴클레아제 및 이를 포함하는 유전자가위 시스템이 그 크기로 인해서, 세포 내 전달 매개체로써 FDA 승인을 받은 아데노-연관 바이러스(AAV) 벡터에 탑재하는 제약을 해결한 의미 있는 결과이다.
나아가 상기 초소형 유전자 편집 시스템(Hypercompact TaRGET system)은 표적 핵산 또는 표적 유전자의 특정 표적 부위를 절단하는 유전자 편집 특이성 및 편집 효율이 높으므로, 본 발명에 따른 초소형 유전자 편집 시스템(Hypercompact TaRGET system)은 표적 핵산의 다양한 편집을 위한 편집 기술 연구 및 유전자 관련 질병의 새로운 치료제로서 그 적용 범위가 넓다.
이하, 본 발명에서 제공하는 초소형 유전자 편집 시스템/조성물의 각 구성요소 및 이의 제조방법을 상세히 설명한다.
1. Cas12f1 변이체 단백질 및 이의 동족체 단백질
본 발명의 일 태양에 따르면, 표적 핵산의 표적 부위 절단에 있어 우수한 활성을 나타내고 기존의 CRISPR/Cas9 시스템에 비하여 핵산분해 단백질의 크기가 1/3 정도로 현저히 작은 것을 특징으로 하는 Cas12f1 변이체 단백질 또는 이의 동족체 단백질 또는 이들을 포함하는 (소형) 엔도뉴클레아제가 제공된다.
Cas12f1 변이체 단백질은 자연계에서 발견되는 Cas12f1 변이체 또는 엔지니어링된 Cas12f1 변이체를 모두 포함한다. 구체적으로, Cas12f1 변이체 단백질은 서열번호 1의 아미노산 서열 또는 상기 서열을 기준으로 N-말단으로부터 1개 내지 28개의 아미노산이 제거 또는 치환된 아미노산 서열을 포함한다(단, 서열번호 5의 아미노산 서열로 이루어진 Cas12f1 단백질은 제외).
일부 구현예에서, Cas12f1 변이체 단백질은 Class 2, type V CRISPR/핵산분해 단백질 중 V-F 서브타입에 속하는 Cas12f1 단백질과 크기가 유사한 IS200/IS605 family의 transposase accessory protein TnpB 단백질에서 유래된 서열이거나 이를 포함할 수 있다. TnpB 단백질은 종래에 전이효소(transposase)로 알려진 단백질이다. 현재까지 TnpB 단백질은 전이인자(transposon)을 암호화하는 핵산분해 단백질(transposon-encoded nuclease)로 알려져 있을 뿐, TnpB 단백질이 Cas 엔도뉴클레아제(endonuclease) 활성을 가지는지 알려진 바는 없다. 또한, TnpB 단백질에 대한 가이드 RNA도 알려진 바 없다. 본 발명은 부분적으로 TnpB 단백질 서열 기반의 Cas12f1 변이체 또는 엔지니어링된 Cas12f1 변이체가 핵산분해 단백질 중 분자량이 가장 작은 그룹에 속하는 Cas12f1 단백질과 그 크기가 유사하면서, 표적 핵산 또는 표적 유전자를 표적화하여 편집하는 탁월한 엔도뉴클레아제(endonuclease) 활성을 가지고 있음을 처음으로 확인하고, Cas12f1 변이체 단백질과 함께 사용되어 우수한 편집 효율을 나타내는 가이드 RNA(guide RNA)를 제작함으로써 완성되었다. Cas12f1 변이체 단백질은 현재 존재하는 핵산분해 단백질 중 분자량이 가장 작은 그룹에 속하며, 본 발명의 엔지니어링된 짧은 가이드 RNA(gRNA)와 복합체를 형성하여 표적 핵산 또는 표적 유전자를 표적화하여 편집하는 탁월한 효과를 가지고 있으므로, 세포 내 적용을 위한 초소형의 유전자 편집 시스템을 제작하는데 있어 큰 장점이 있다. 또한, 상기 초소형 유전자 편집 단백질인 Cas12f1 변이체 단백질 또는 이의 동족체 단백질은 5'-NGG-3'를 PAM으로 갖는 Cas9과 달리 5'-TTTA-3' 또는 5'-TTTG-3' 등과 같은 T-rich PAM을 PAM으로 갖기 때문에, 티민(T)이 많은 서열을 표적 핵산 또는 표적 유전자로 선택할 수 있게 하여, 유전체 편집을 위한 핵산분해 단백질의 선택 폭을 넓혀준다.
일부 구현예에서, Cas12f1 변이체 단백질은 서열번호 1의 아미노산 서열을 포함하거나 이로 이루어진 변이체 단백질일 수 있다. 또한, Cas12f1 변이체 단백질은 서열번호 1의 아미노산 서열의 N-말단에서 1개 내지 28개의 아미노산이 제거 또는 치환된 아미노산 서열을 포함하거나 이로 이루어진 Cas12f1 변이체 단백질일 수 있다. 이때, 서열번호 5의 아미노산 서열로 이루어진 Cas12f1 단백질은 포함되지 않는다. 구체적으로, Cas12f1 변이체 단백질은 서열번호 2 내지 서열번호 4로 이루어진 군에서 선택된 어느 하나의 아미노산 서열을 포함하거나 이로 이루어진 Cas12f1 변이체 단백질일 수 있다.
다른 구현예에서, Cas12f1 변이체 단백질은 서열번호 5의 아미노산 서열로 이루어진 Cas12f1 단백질에 하나 이상의 아미노산이 더 포함된 것일 수 있다. 구체적으로, Cas12f1 변이체 단백질은 Cas12f1 단백질의 N-말단에 CasX의 N-말단 26aa를 포함하는 Cas12f1 변이체 v1 단백질(서열번호 2), 28aa 무작위 서열을 포함하는 Cas12f1 변이체 v2 단백질(서열번호 3) 또는 26aa 무작위 서열을 포함하는 Cas12f1 변이체 v3 단백질(서열번호 4)을 포함하거나 이로 이루어질 수 있다.
일부 구현예에서, Cas12f1 변이체 단백질의 동족체 단백질은 다양한 생물 종에서 유래한 TnpB 단백질이거나 이로부터 유래된 변이체를 포함할 수 있다. 구체적으로, 동족체 단백질은 서열번호 141 내지 서열번호 232로 이루어진 군에서 선택된 어느 하나의 아미노산 서열을 포함할 수 있다. 동족체 단백질은 Cas12f1 변이체 단백질과 동일한 생체 내 활성(즉, 엔도뉴클레아제 활성)을 공유하는 단백질을 의미하는 것으로서 이들의 서열 유사성(또는 동일성)과는 무관하게 공통 조상으로부터 유래된 특징이 소실되지 않고 보존되어 있는 단백질을 의미한다.
일부 구현예에서, Cas12f1 변이체 단백질은 서열번호 1의 아미노산 서열을 기준으로 N-말단 또는 C-말단에 1개 내지 600개의 아미노산이 추가된 아미노산 서열로 이루어진 것일 수 있다. 구체적으로, N-말단 또는 C-말단에 추가되는 아미노산 서열은 서열번호 233 또는 서열번호 234의 아미노산 서열일 수 있다. 추가 서열과 Cas12f1 변이체 단백질 사이에는 NLS 서열이 더 포함될 수 있다.
또한, Cas12f1 변이체 단백질은 야생형의 Cas12f1 단백질과 동종의 기능을 가지거나, 상기 야생형의 Cas12f1 단백질과 비교할 때, 기능이 변경된 것일 수 있다. 보다 구체적으로, 상기 변경은 전부 또는 일부 기능의 변형, 전부 또는 일부 기능의 상실 및/또는 부가적인 기능의 추가를 포함한다. Cas12f1 변이체 단백질은 통상의 기술자가 초소형 유전자 편집 시스템의 핵산분해 단백질에 적용할 수 있는 변경이라면, 특별히 제한 없이 임의의 변경을 포함할 수 있다. 예컨대, 상기 Cas12f1 변이체 단백질은 DNA 이중가닥을 절단하는 활성뿐만 아니라, 단일가닥 DNA 또는 RNA, 또는 DNA 및 RNA의 혼성 이중가닥을 절단하는 활성, 염기 교정 또는 프라임 교정을 수행하기 위한 것일 수 있다.
일부 구현예에서, 본 발명의 초소형 유전자 편집 시스템은 표적 핵산 또는 표적 유전자의 표적 부위에서 핵산을 절단시키는 것이므로, 표적 부위가 세포의 핵 내에 위치하는 것을 특징으로 할 수 있다. 이에, 본 발명의 초소형 유전자 편집 시스템에 사용되는 Cas12f1 변이체 단백질 또는 이의 동족체 단백질은 이를 핵 내로 위치시키는 핵 위치 신호(nuclear localization signal, NLS) 서열을 1개 또는 2개 이상 포함할 수 있다. 예컨대, 하나 이상의 핵 위치 신호 서열은 상기 Cas12f1 변이체 단백질 또는 이의 동족체 단백질이 진핵세포(포유동물 세포 포함)의 핵에서 검출 가능한 양으로 핵 내로 표적되도록 유도하는 데 충분한 양 또는 활성을 강도를 가질 수 있다. 예컨대, 그 활성의 강도 차이는 상기 Cas12f1 변이체 단백질 또는 이의 동족체 단백질 내에 포함되는 NLS의 수, 사용되는 특정 NLS(들)의 종류 또는 이들 인자의 조합으로부터 야기될 수 있다.
또한, 다른 구현예에서, 변이체 단백질 또는 이의 동족체는 단백질은 아미노-말단(N-term)에서 또는 그 근처에서 약 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 이상의 NLS, 카복시-말단(C-term)에서 또는 그 근처에서 약 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 이상의 NLS, 또는 이들의 조합으로 다양하게 선택될 수 있다. 예컨대, 아미노-말단(N-term)에서 0 또는 적어도 하나 이상의 NLS 서열 및/또는 카복시 말단(C-term)에서 0 또는 하나 이상의 NLS 서열을 포함할 수 있다. 하나 초과의 NLS 서열이 존재할 때, 단일 NLS가 하나 초과의 복제물에 존재할 수 있고, 하나 초과의 복제물에 존재하는 하나 초과의 다른 NLS와 조합하여 존재할 수 있도록 각각의 NLS 서열은 다른 것과 독립적으로 선택될 수 있다.
일부 구현예에서, NLS 서열은 단백질에 대해 이종성으로 하기의 NLS 서열이 예시되나 이에 제한되는 것은 아니다. 예컨대, 상기 NLS는 아미노산 서열 PKKKRKV(서열번호 54)를 갖는 SV40 바이러스 대형 T-항원의 NLS, 뉴클레오플라스민(nucleoplasmin)으로부터의 NLS 서열로서 KRPAATKKAGQAKKKK(서열번호 55)를 갖는 뉴클레오플라스민 이분(bipartite) NLS, 아미노산 서열 PAAKRVKLD(서열번호 56) 또는 RQRRNELKRSP(서열번호 57)를 갖는 c-myc NLS일 수 있다. 또한 hRNPA1 M9 NLS 서열, 임포틴-알파로부터의 IBB 도메인의 NLS 서열, 마이오마(myoma) T 단백질의 NLS 서열 및 인간 p53의 NLS 서열, 마우스 c-abl IV의 NLS 서열, 인플루엔자 바이러스 NS1의 NLS 서열, 간염 바이러스 델타 항원의 NLS 서열, 마우스 Mx1 단백질의 NLS 서열, 인간 폴리(ADP-리보스) 중합효소의 NLS 서열 또는 스테로이드 호르몬 수용체(인간) 글루코코르티코이드의 NLS 서열로부터 유래된 NLS 서열일 수 있다.
또한, Cas12f1 변이체 단백질 또는 이의 동족체 단백질은 세포 내의 유전자 발현 과정에 관여할 수 있는 다양한 효소(enzyme)가 융합된 것일 수 있다. 이때, 상기 효소가 융합된 Cas12f1 유사체 단백질은 세포 내 유전자 발현에 다양한 양적 및/또는 질적 변화를 초래할 수 있다. 예컨대, 상기 추가적으로 결합되는 다양한 효소는 DNMT, TET, KRAB, DHAC, LSD, p300, Moloney Murine Leukemia Virus(M-MLV) 역전사 효소 또는 그 변이체일 수 있다. 이 때, 상기 역전사 효소가 융합된 Cas12f1 변이체 단백질 또는 이의 동족체 단백질은 프라임 에디터로도 기능할 수 있다.
2. Cas12f1 변이체 단백질의 PAM 서열
일부 구현예에서, 초소형 유전자 편집 시스템이 표적 핵산 또는 표적 유전자의 표적 부위에 위치하고 정확하게 표적 부위 핵산을 절단하기 위해서는 하기의 두 가지 조건이 필요하다.
먼저, 표적 핵산 또는 표적 유전자 내에 Cas12f1 변이체 단백질 또는 이의 동족체 단백질이 인식할 수 있는 일정 길이의 염기서열이 있어야 한다. 또한, 상기 일정 길이의 염기서열 주변에 Cas12f1 변이체 단백질 또는 이의 동족체 단백질에 대한 가이드 RNA(gRNA)에 포함된 스페이서 서열과 상보적으로 결합할 수 있는 서열이 있어야 한다. 다시 말해, Cas12f1 변이체 단백질 또는 이의 동족체 단백질이 상기 일정 길이의 염기서열을 인식하고, 가이드 RNA(gRNA)에 포함된 스페이서 서열 부분이 상기 일정 길이의 염기서열 주변 서열 부분과 상보적으로 결합할 때, 표적 핵산 또는 표적 유전자의 표적 부위 핵산을 정확하게 절단 또는 편집할 수 있다. 이때, Cas12f1 변이체 단백질 또는 이의 동족체 단백질에 의해 인식되는 일정 길이의 염기 서열을 프로토스페이스 인접 모티프(Protospacer Adjacent Motif, PAM)서열이라 한다. PAM 서열은 초소형 유전자 편집 단백질인 Cas12f1 변이체 단백질 또는 이의 동족체 단백질에 따라 정해지는 고유한 서열이다. 이는 초소형 유전자 편집 시스템 내의 Cas12f1 변이체 단백질 또는 이의 동족체 단백질 복합체의 표적 서열을 결정할 때, 상기 PAM 서열과 인접한 서열 내에서 표적 서열을 결정해야 하는 것을 의미한다.
Cas12f1 변이체 단백질 또는 이의 동족체 단백질의 PAM 서열은 T-rich 서열일 수 있다. 보다 구체적으로, 상기 Cas12f1 변이체 단백질 또는 이의 동족체 단백질의 PAM 서열은 5'-TTTN-3'일 수 있다. 이때, N은 디옥시티미딘(T), 디옥시아데노신(A), 디옥시사이티딘(C) 또는 디옥시구아노신(G) 중 하나이다.
일 구현예로, Cas12f1 변이체 단백질 또는 이의 동족체 단백질의 PAM 서열은 5'-TTTA-3', 5'-TTTT-3', 5'-TTTC-3' 또는 5'-TTTG-3'일 수 있다. 바람직하게, Cas12f1 변이체 단백질 또는 이의 동족체 단백질의 PAM 서열은 5'-TTTA-3' 또는 5'-TTTG-3'일 수 있다.
다른 구현예로, Cas12f1 변이체 단백질 또는 이의 동족체 단백질의 PAM 서열은 야생형 Cas12f1 변이체 단백질(또는 TnpB로부터 유래한 서열로 이루어진 단백질)의 PAM 서열과는 다른 것일 수 있다.
3. Cas12f1 변이체 단백질을 위한 엔지니어링된 가이드 RNA(augment RNA)
(1) 개괄
본 발명의 구현예들은 종래 기술의 Cas9이 가지는 단백질 분자량에 따른 세포 내 전달의 한계점을 극복하기 위해 도출된 것이다. 따라서 본 발명의 초소형 유전자 편집 시스템에 포함되는 유전자 편집 단백질로서 분자량이 작은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 선택하는 것에 추가하여, 상기 Cas12f1 변이체 또는 이의 동족체에 대한 가이드 RNA(gRNA)를 자연에 존재하는 것보다 훨씬 더 짧게 인위적으로 엔지니어링하여 크기의 최소화를 달성함과 동시에 표적에 대한 인델(Indel) 효율은 증가된 엔지니어링된 가이드 RNA(augment RNA)를 제작하였다.
먼저, 본 발명의 초소형 유전자 편집 단백질인 Cas12f1 변이체에 대하여 자연에 존재하는 가이드 RNA(gRNA)는 발견되지 않았으므로, 상기 Cas12f1 변이체 단백질에 대한 고효율의 표적 및 편집 활성을 나타내는 최적의 가이드 RNA(gRNA)를 제작하고자 하였다. 이러한 관점에서, Cas12f1 변이체 단백질에 대한 자연에 존재하는 가이드 RNA(gRNA)는 Cas12f 변이체 단백질과 크기가 유사한 Cas12f1 단백질에 대해 자연계에서 발견되는 가이드 RNA(gRNA)일 수 있다. 구체적으로, 가이드 RNA(gRNA)는 서열번호 6의 염기서열을 가지는 것일 수 있다.
일 구현예로, Cas12f1 변이체 단백질에 대한 가이드 RNA(gRNA)는 자연계에서 발견되는 가이드 RNA(gRNA)에 새로운 구성을 추가하거나 그 구조 일부를 변형한 것으로, 가이드 RNA(gRNA)의 3'-말단에 새로운 구성인 U-rich tail을 포함하여 엔지니어링된 가이드 RNA(engineered gRNA 또는 augment RNA)인 것을 특징으로 한다. 일 예로, 가이드 RNA는 서열번호 6의 뉴클레오티드 서열로 이루어진 야생형 가이드 RNA에서 하나 이상의 뉴클레오티드 서열이 삭제, 치환 또는 추가되어 엔지니어링된 가이드 RNA이고, 표적 서열에 상보적인 엔지니어링된 가이드 RNA의 스페이서 부분은 15개 이상 50개 이하의 뉴클레오티드 서열로 이루어질 수 있다.
일부 구현예에서, 엔지니어링된 가이드 RNA는 스캐폴드 제1 영역 내지 제4 영역을 포함하는 엔지니어링된 tracrRNA 서열 및/또는 스캐폴드 제5 내지 제6 영역을 포함하는 엔지니어링된 crRNA을 포함할 수 있다. 또한, 엔지니어링된 가이드 RNA는 crRNA의 3' 말단에 제7 영역인 U-rich tail 서열을 포함할 수 있다. 일부 구현예에서, 엔지니어링된 가이드 RNA는 변형부위 MS1 내지 MS5에서 선택된 하나 이상의 변형부위에서 엔지니어링된 것일 수 있다. 도 1은 본 발명의 구현예에 따른 엔지니어링된 가이드 RNA(engineered gRNA)가 포함하는 변형부위인 MS1 내지 MS5을 나타낸다. 또한, 엔지니어링된 가이드 RNA는 스캐폴드 제1 영역 내지 제4 영역 중 하나 이상의 영역이 변형된 스캐폴드를 포함하는 엔지니어링된 tracrRNA 서열, 스캐폴드 제5 영역 내지 제6 영역 중 하나 이상의 영역이 변형된 스캐폴드를 포함하는 엔지니어링된 crRNA 서열 및/또는 변형된 제7 영역인 U-rich tail 서열을 포함할 수 있다. tracrRNA의 제4 영역과 crRNA의 제5 영역은 서로 상보적으로 결합하는 부위로, 가이드 RNA(gRNA)의 변형부위 1(modification site 1, MS1) 및 변형부위 4(modification site 4, MS4)를 포함한다. 또한, 제7 영역인 U-rich tail 서열은 변형부위 2(modification site 2, MS2)에 해당한다. 제1 영역은 변형부위 3(modification site 3, MS3)이고, 제2 영역은 변형부위 5(modification site 5, MS5)를 포함한다. 엔지니어링된 가이드 RNA는 상기 MS1 내지 MS5 중 어느 하나에서의 변형을 포함하며, 이들 중에서 선택된 하나 이상의 변형의 임의의 조합을 포함할 수 있다.
일부 구현예에서, 초소형 유전자 편집 시스템은 가이드 RNA를 구성하는 tracrRNA 및 crRNA의 길이를 최적화하고, 고효율의 가이드 RNA를 제작하기 위해 불필요한 스캐폴드 서열이 제거되도록 조작된 것일 수 있다. 상기 스캐폴드 서열에서의 조작은 길이가 짧은 가이드 RNA를 제작을 가능하게 하였고, 그 결과 가이드 RNA 합성 비용 절감 및 바이러스 벡터에 삽입 시 추가의 적재 공간 확보가 달성되었다. 무엇보다도 본 발명의 Cas12f1 변이체 단백질에 최적화된 엔지니어링된 가이드 RNA를 포함하는 초소형 유전자 편집 시스템은 표적 핵산 또는 표적 유전자의 절단 또는 편집 효율을 크게 향상시켰으며, 나아가 아데노-연관 바이러스(AAV) 벡터에 적재시켜 치료제로 활용을 더욱 유리하게 한다.
Cas12f1 변이체 단백질 또는 이의 동족체 단백질에 대한 자연에 존재하는 가이드 RNA가 될 수 있는 야생형 tracrRNA(서열번호 58; 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUUUCCUCUCCAAUUCUGCACAA-3')는 내부에 연속된 다섯 개의 유리딘(U) 서열을 포함하고 있다. 이는 상기 야생형 tracrRNA을 세포 내에서 벡터 등을 이용하여 발현시키고자 할 때, 특정 조건에서는 상기 서열이 전사 종결 신호로써 작용하는 염기서열 상의 문제를 가지고 있다. 따라서 상기 연속된 다섯 개의 유리딘(U) 서열이 종결 신호로써 작동하게 되는 경우에는 상기 tracrRNA의 정상적인 발현을 억제되고, 정상적인 가이드 RNA의 형성 또한 저해하여 결과적으로 본 발명의 초소형 유전자 편집 시스템의 표적 핵산 또는 표적 유전자의 절단 또는 편집 효율을 감소시킨다. 일 구현예로, 본 발명자들은 상기 야생형 tracrRNA(서열번호 58)의 연속된 다섯 개의 유리딘 서열(U)을 중 적어도 하나의 유리딘(U) 염기를 다른 염기인 A, C, T 또는 G로 인위적으로 변형한 tracrRNA를 개발하였다.
또한, 일 구현예에서, 엔지니어링된 가이드 RNA는 자연계에서 발견되는 가이드 RNA에 새로운 구성을 추가하고 그 구조 일부를 제거하거나 변형한 것으로, 3'-말단에 새로운 구성인 U-rich tail을 포함하는 것을 특징으로 한다. 상기 U-rich tail을 포함하는 엔지니어링된 가이드 RNA는 초소형 유전자 편집 시스템의 표적 핵산 또는 표적 유전자에 대한 핵산 절단 또는 편집율을 높이는 역할을 한다. 본 발명자들은 상기 엔지니어링된 가이드 RNA(engineered gRNA) 중에서, Cas12f1 변이체 단백질 또는 이의 동족체 단백질과 복합체를 형성하여 표적 핵산 또는 표적 유전자의 절단 또는 편집 효율이 증가된 고효율의 가이드 RNA를 제작하였으며, 이를 포함하는 초소형 유전자 편집 시스템을 완성하였다.
다른 구현예에서, 엔지니어링된 가이드 RNA는 그 구성 중 Cas12f1 변이체 단백질과 상호작용하는 스캐폴드 영역의 적어도 일부가 변형된 것을 특징으로 한다. 상기 스캐폴드 영역은 tracrRNA 및 crRNA의 일부를 포함하며, 반드시 한 분자의 RNA를 지칭하는 것은 아니다. 예를 들어, 엔지니어링된 가이드 RNA의 서열은 스캐폴드 제1 영역 내지 제4 영역 중 하나 이상의 영역에 변형을 포함하는 엔지니어링된 tracrRNA 서열 및/또는 스캐폴드 제5 영역 내지 제6 영역 중 하나 이상의 영역에 변형을 포함하는 엔지니어링된 crRNA 서열을 포함하고 변형된 제7 영역인 U-rich tail 서열을 추가로 포함할 수 있다.
또한, 엔지니어링된 가이드 RNA는 필요에 따라 링커(linker) 또는 태그(Tag)를 더 포함할 수 있다.
일 구현예에서, 엔지니어링된 스캐폴드 영역은, 자연계에서 발견되는 스캐폴드 영역에 전술한 제1 영역 내지 제7 영역 중 어느 하나 이상의 영역에서 변형이 조합된 것일 수 있다. 이 때, 엔지니어링된 tracrRNA는 연속된 다섯 개 이상의 유리딘 서열을 포함하지 않도록 변형(MS1 변형)된 tracrRNA일 수 있다. 또한, 엔지니어링된 tracrRNA는 연속된 다섯 개 이상의 유리딘 서열을 포함하지 않도록 변형되고, 야생형 tracrRNA보다 길이가 짧도록 변형된 tracrRNA일 수 있다. 또한, 엔지니어링된 tracrRNA는 제1 영역, 제2 영역, 제3 영역 및 제4 영역(MS1 변형 포함)을 5'-말단에서 3'-말단 방향으로 순서대로 포함할 수 있다. 또한, 엔지니어링된 crRNA는 제5 영역, 제6 영역 및 가이드 서열인 스페이서 서열을 5'-말단에서 3'-말단 방향으로 순서대로 포함할 수 있다. 제4 영역은 crRNA의 직접반복서열과 결합하기에 충분한 상보성을 갖는 임의의 폴리뉴클레오티드를 포함할 수 있다.
제1 영역(MS3 부분, 1-21 부위)은 5'-CUUCACUGAUAAAGUGGAGAA-3' (서열번호 7) 서열 또는 서열번호 7 서열의 일부 서열일 수 있다. 상기 서열번호 7 서열의 일부 서열은 서열번호 7 서열의 5'-말단의 서열이 순차적으로 제거되고 남은 3'-말단부에서 순차적인 일부 서열일 수 있다. 보다 구체적으로, 제1 영역은 5'-GAUAAAGUGGAGAA-3' (서열번호 8), 5'-UGGAGAA-3' 또는 5'-A-3'일 수 있다. 또는, 엔지니어링된 tracrRNA는 제1 영역(1-21 부위)에 해당하는 서열이 모두 제거된 것일 수 있다.
제2 영역(MS5 부분, 22-71 부위)은 5'-CCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUG-3' (서열번호 9) 서열 또는 서열번호 9 서열의 일부 서열일 수 있다. 상기 서열번호 9 서열의 일부 서열은 서열번호 9 서열에서 상보적 결합을 형성하는 적어도 한 쌍 이상의 뉴클레오티드 및/또는 상보적 결합을 형성하지 않는 적어도 하나 이상의 뉴클레오티드가 삭제된 서열일 수 있다. 일 실시예에서, 상기 제2 영역은 5'-CCGCUUCACCAAUUAGUUGAGUGAAGGUG-3' (서열번호 10) 서열, 5'-CCGCUUCACCAAAAGCUUAGGAACUUGAGUGAAGGUG-3' (서열번호 11) 서열 또는 5'-CCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUG-3' (서열번호 12) 서열일 수 있다. 이 때, 상기 서열번호 9 내지 서열번호 12 중 어느 하나의 서열 내에 포함된 루프 부분은 5'-UUAG-3' 서열이고, 이는 필요에 따라 5'-GAAA-3' 서열로 치환될 수 있다.
제3 영역(MS4 앞 부분, 72-129 부위)은 5'-GGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAA-3' (서열번호 13) 서열 또는 서열번호 13의 서열과 적어도 70% 이상의 서열 동일성을 가지는 서열일 수 있다.
제4 영역(MS1을 포함하는 MS4 부분, 130-161 부위)은 5'-CAAAUUCANNNNNCCUCUCCAAUUCUGCACAA-3' (서열번호 14) 서열 또는 서열번호 14 서열의 일부 서열일 수 있다. 서열번호 14 서열에서 내부의 5'-NNNNN-3' 부위는 MS1 부분이고, 여기서 각각의 N은 A, C, G 또는 U일 수 있다. 일 실시예에서, 서열번호 14 서열의 일부 서열은 상기 서열번호 14 서열 중 5'-CAAAUUCANNNNN-3'(서열번호 15) 서열을 포함하면서 3'-말단부의 일부 서열이 포함하지 않는 서열일 수 있다. 구체적으로, 5'-CAAAUUCANNNNNCCUCUCCAAUUC-3' (서열번호 16) 서열, 5'-CAAAUUCANNNNNCCUCUC-3' (서열번호 17) 서열 또는 5'-CAAAUUCANNNNN-3' (서열번호 15) 서열일 수 있다. 또한, 제4 영역은 5'-NNNNN-3' 부위가 5'-NNNVN-3' 또는 5'-NVNNN-3'로 치환된 것을 포함할 수 있다. 여기서 각각의 N은 독립적으로 A, C, G 또는 U이고, V는 A, C 또는 G일 수 있다. 바람직하게, 제4 영역은 5'-CAAAUUCANNNCN-3' (서열번호 18) 서열을 포함하면서 3'-말단부의 일부 서열이 포함하지 않는 서열일 수 있다. 여기서 각각의 N은 독립적으로 A, C, G 또는 U이다. 일 실시예에서, crRNA는 야생형 crRNA 또는 엔지니어링된 crRNA일 수 있다. 상기 야생형 crRNA는 야생형 반복 서열(repeat sequence) 및 가이드 서열(guide sequence)인 스페이서 서열을 5'-말단에서 3'-말단 방향으로 순서대로 포함할 수 있다. 상기 야생형 반복 서열은 5'-GUUGCAGAACCCGAAUAGACGAAUGAAGGAAUGCAAC-3' (서열번호 19) 서열일 수 있다.
한편, 엔지니어링된 가이드 RNA는 엔지니어링된 tracrRNA(transactivating CRISPR RNA) 또는 엔지니어링된 crRNA(CRISPR RNA)를 포함하며, 엔지니어링된 tracrRNA는 연속된 다섯 개 이상의 유리딘 서열을 포함하지 않도록 변형되고, 야생형 tracrRNA보다 뉴클레오티드 서열의 길이가 짧도록 변형된 tracrRNA이고, 엔지니어링된 crRNA는 서열번호 19의 뉴클레오티드 서열 또는 이의 일부 서열을 포함할 수 있다.
구체적으로, 엔지니어링된 crRNA에서 제5 영역은 5'- GUUGCAGAACCCGAAUAGNNNNNUGAAGGA-3' (서열번호 20) 서열 또는 서열번호 20 서열의 일부 서열일 수 있다. 각각의 N은 독립적으로 A, C, G 또는 U일 수 있다. 서열번호 20 서열의 일부 서열은 상기 서열번호 20 서열 중 5'-NNNNNUGAAGGA-3' (서열번호 21) 서열을 포함하면서 5'-말단부의 일부 서열(예를 들어, 적어도 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개 또는 17개의 뉴클레오티드 서열)을 포함하지 않는 서열일 수 있다. 바람직하게, 제5 영역은 5'-NBNNNUGAAGGA-3' (서열번호 22) 서열을 포함하는 것일 수 있다. 여기서 각각의 N은 독립적으로 A, C, G 또는 U일 수 있고, 상기 B는 U, C 또는 G일 수 있다.
또한, 제6 영역은 5'-AUGCAAC-3' (서열번호 23) 서열 또는 5'-AUGCAAC-3' 서열에 적어도 70% 이상의 서열 동일성 또는 서열 유사성을 가지는 서열일 수 있다.
또한, 엔지니어링된 crRNA는 crRNA의 3'-말단에 제7 영역으로써, U-rich tail 서열을 추가로 더 포함할 수 있다. U-rich tail 서열은 5'-(UaN)dUe-3' 서열, 5'-UaVUaVUe-3' 서열 또는 5'-UaVUaVUaVUe-3' 서열일 수 있다. 여기서, N은 각각 A, C, G 또는 U일 수 있고, V는 독립적으로 A, C 또는 G일 수 있다. 또한, a는 각각 0 내지 4의 정수일 수 있으며, d는 0 내지 3의 정수일 수 있다. e는 0 내지 10의 정수일 수 있다. 일 실시예에서, 제7 영역은 U4AU4 일 수 있다.
또한, 일 실시예로, 엔지니어링된 crRNA는 제5 영역(MS1 변형 포함), 제6 영역 및 가이드 서열(스페이서 서열)을 5'-말단에서 3'-말단 방향으로 순서대로 포함할 수 있다. 구체적으로, 제5 영역은 5'-GUUGCAGAACCCGAAUAGNBNNNUGAAGGA-3' (서열번호 59) 서열 또는 서열번호 59 서열의 일부 서열일 수 있다. 여기서, N은 독립적으로 A, C, G 또는 U일 수 있고, B는 U, C 또는 G일 수 있다. 서열번호 59 서열의 일부 서열은 상기 서열번호 59 서열 중 5'-NBNNNUGAAGGA-3' (서열번호 60) 서열을 포함하면서 3'-말단부의 일부 서열이 포함하지 않는 서열일 수 있다. 이 때, N은 독립적으로 A, C, G 또는 U일 수 있다. B는 U, C 또는 G일 수 있다.
엔지니어링된 가이드 RNA(engineered gRNA)는 듀얼 가이드 RNA 또는 싱글 가이드 RNA일 수 있다. 엔지니어링된 가이드 RNA가 싱글 가이드 RNA일 때, 엔지니어링된 가이드 RNA는 링커(linker) 서열을 추가로 더 포함할 수 있다. 이때, 링커 서열은 엔지니어링된 tracrRNA와 crRNA 사이에 위치할 수 있고, 링커 서열은 엔지니어링된 tracrRNA와 crRNA 사이에 위치할 수 있고, 5'-GAAA-3' 또는 5'-UUAG-3' 일 수 있다. 보다 구체적으로, 엔지니어링된 tracrRNA는 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUCCAAUUCUGCACAA-3' (서열번호 24) 서열, 5'-ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUCCAAUUCUGCACAA-3' (서열번호 25) 서열, 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUCCAAUUCUGCACAA-3' (서열번호 26) 서열 또는 5'-ACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUCCAAUUCUGCACAA-3' (서열번호 27)서열을 포함하거나 이로 이루어질 수 있다.
또한, 엔지니어링된 crRNA는 5'-GUUGCAGAACCCGAAUAGNGNNNUGAAGGAAUGCAAC-3' (서열번호 28) 서열을 포함할 수 있다. 이때, 각각의 N은 독립적으로 A, C, G 또는 U일 수 있다.
바람직하게, 엔지니어링된 tracrRNA는 서열번호 24(MS1), 서열번호 25(MS1/MS3), 서열번호 26(MS1/MS5-3) 또는 서열번호 27(MS1/MS3/MS5-3) 중 어느 하나의 염기서열에서 내부의 5'-NNNCN-3' 서열이 5'-GUGCU-3' 서열로 치환된 것으로, 서열번호 29 내지 서열번호 32 중 선택된 어느 하나의 염기서열을 포함하거나 이로 이루어진 것일 수 있다.
또한, 엔지니어링된 crRNA는 상기 5'-GUUGCAGAACCCGAAUAGNGNNNUGAAGGAAUGCAAC-3' (서열번호 28)의 염기서열 내부의 5'-NGNNN-3'서열이 5'-AGCAA-3' 서열로 치환된 5'-GUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAAC-3' (서열번호 33)의 염기서열을 포함하거나 이로 이루어진 것일 수 있다.
다른 일 예로, 엔지니어링된 tracrRNA는 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUC-3' (서열번호 34) 서열, 5'-ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUC-3' (서열번호 35) 서열, 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUG UCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUC-3' (서열번호 36) 서열 또는 5'-ACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUC-3' (서열번호 37) 서열을 포함하거나 이로 이루어질 수 있다.
이 때, 엔지니어링된 crRNA는 5'-GAAUAGNGNNNUGAAGGAAUGCAAC-3' (서열번호 38) 서열 및 가이드 서열을 포함할 수 있다. 이때, 각각의 N은 독립적으로 A, C, G 또는 U일 수 있다.
바람직하게, 엔지니어링된 tracrRNA는 서열번호 34(MS1/MS4-2), 서열번호 35(MS1/MS3/MS4-2), 서열번호 36(MS1/MS5-3/MS4-2) 또는 서열번호 37(MS1/MS3/MS5-3/MS4-2) 중 어느 하나의 염기서열에서 내부의 5'-NNNCN-3' 서열이 5'-GUGCU-3' 서열로 치환된 것으로, 서열번호 39 내지 서열번호 42 중 선택된 어느 하나의 염기서열을 포함하거나 이로 이루어진 것일 수 있다.
또한, 엔지니어링된 crRNA는 5'-GAAUAGNGNNNUGAAGGAAUGCAAC-3' (서열번호 38)의 염기서열 내부의 5'-NGNNN-3' 서열이 5'-AGCAA-3' 서열로 치환된 5'-GAAUAGAGCAAUGAAGGAAUGCAAC-3' (서열번호 43)의 서열을 포함하거나 이로 이루어진 것일 수 있다.
엔지니어링된 tracrRNA는 야생형 trcrRNA의 5'-말단으로부터 첫 번째의 스템-루프 구조 및/또는 두 번째의 스템-루프 구조(본 명세서에서 MS3 변형을 포함하는 제1 영역 및 MS5 변형을 포함하는 제2 영역)가 제거된 것일 수 있다. 여기서, 두 번째의 스템-루프 구조의 제거는 적어도 2개 이상의 뉴클레오티드로 구성된 적어도 하나 이상의 이중나선 듀플렉스 구조를 여전히 갖고, 루프 구조는 제거되지 않은 것일 수 있다. 또한, 상기 엔지니어링된 tracrRNA는 crRNA 서열과 결합하기에 충분한 상보성을 갖는 임의의 폴리뉴클레오티드 부위(본 명세서에서 MS1 및/또는 MS4 변형을 포함하는 제4 영역)에서 연속된 다섯 개 이상의 유리딘 서열을 포함하지 않도록 변형된 tracrRNA일 수 있다. 또한, 엔지니어링된 tracrRNA는 crRNA 서열과 결합하기에 충분한 상보성을 갖는 1개 내지 10개, 2개 내지 10개, 3개 내지 10개, 4개 내지 10개, 5개 내지 10개, 6개 내지 10개, 1개 내지 8개, 2개 내지 8개, 3개 내지 8개, 4개 내지 8개, 5개 내지 8개, 1개 내지 6개, 2개 내지 6개, 또는 3개 내지 6개(예를 들면, 1개, 2개, 3개 4개, 5개, 6개, 7개, 8개, 9개, 10개)의 임의의 뉴클레오티드 서열을 포함할 수 있다.
일 구현예에서, 엔지니어링된 가이드 RNA는 서열번호 44 내지 서열번호 48 및 서열번호 105 내지 서열번호 137로 이루어진 군에서 선택된 어느 하나의 뉴클레오티드 서열; 또는 서열번호 125 내지 137로 이루어진 군에서 선택된 어느 하나의 뉴클레오티드 서열에서 3'-말단에 U-rich tail 서열이 추가된 서열을 포함할 수 있다. 일 예로, 본 발명의 초소형 유전자 편집 단백질 Cas12f1 변이체 단백질 또는 이의 동족체 단백질에 대한 엔지니어링된 가이드 RNA(augment RNA)는 MS1에서 변형을 갖는 augment RNA(서열번호 44), MS1/MS2에서 변형을 갖는 augment RNA(서열번호 45), MS1/MS2/MS3에서 변형을 갖는 augment RNA Cas12f1_ge3.0(서열번호 46), MS2/MS3/MS4에서 변형을 갖는 augment RNA Cas12f1_ge4.0(서열번호 47) 및/또는 MS2/MS3/MS4/MS5에서 변형을 갖는 augment RNA Cas12f1_ge4.1(서열번호 48)일 수 있다.
한편, 본 발명의 엔지니어링된 가이드 RNA(augment RNA)에 대한 사항은 PCT/KR2020/014961, PCT/KR2021/013923, PCT/KR2021/013933 및 PCT/KR2021/013898 출원에 개시된 엔지니어링된 가이드 RNA, 엔지니어링된 tracrRNA(transactivating CRISPR RNA) 및 엔지니어링된 crRNA(CRISPR RNA)와 관련된 내용이 모두 원용된다. 이하, 본 명세서에서 엔지니어링된 가이드 RNA(augment RNA)에 대한 내용을 서술할 때 상기 출원들에 개시된 모든 내용을 포함하는 것으로 이해해야 한다.
(2) 스캐폴드 영역
(2-1) 구조 및 기능
본 발명의 구현예에 따른 엔지니어링된 가이드 RNA(engineered gRNA)의 서열을 기능적으로 나누어 보면, Cas12f1 변이체 단백질과 상호작용하여 가이드 RNA 및 Cas12f1 변이체 단백질 복합체를 형성하도록 하는 서열 부분, 가이드 RNA 및 Cas12f1 변이체 단백질 복합체가 표적 핵산을 찾아갈 수 있도록 하는 서열 부분 및 U-rich tail 서열 부분으로 나눌 수 있다. 이때, 상기 Cas12f1 변이체 단백질과 상호작용하여 가이드 RNA 및 Cas12f1 변이체 단백질 복합체를 형성하도록 하는 서열 부분을 스캐폴드 서열이라 할 수 있다. 구체적으로, 상기 스캐폴드 서열은 tracrRNA 및 crRNA인 두 분자 이상의 RNA의 서열을 포함할 수 있다.
일 구현예로, 엔지니어링된 가이드 RNA가 듀얼 가이드 RNA인 경우, 스캐폴드 서열은 augment RNA 서열 중 tracrRNA 서열 및 crRNA에 포함된 CRISPR RNA 반복 서열을 포함할 수 있다. 일 예로, tracrRNA 서열은 자연계에서 발견되는 tracrRNA 서열의 전부 또는 일부가 변형된 것일 수 있다. 또한, 상기 CRISPR RNA 반복 서열은 자연계에서 발견되는 CRISPR RNA 반복 서열의 전부 또는 일부가 변형된 것일 수 있다.
또한, 엔지니어링된 가이드 RNA가 싱글 가이드 RNA인 경우, 스캐폴드 서열은 엔지니어링된 tracrRNA 서열, 링커 서열 및 엔지니어링된 crRNA 서열에 포함된 CRISPR RNA 반복 서열을 포함할 수 있다. 일 구현예로, 상기 tracrRNA 서열은 자연계에서 발견되는 tracrRNA 서열의 전부 또는 일부가 변형된 것일 수 있다.
또한, 일 구현예에서, 스캐폴드 영역은 tracrRNA 및 crRNA의 일부를 포함하며, 반드시 한 분자의 RNA를 지칭하는 것은 아니다. 상기 스캐폴드 영역은 다시 제1 영역, 제2 영역, 제3 영역, 제4 영역, 제5 영역 및 제6 영역으로 세분화될 수 있다. 상기 세분화된 영역을 tracrRNA와 crRNA의 부위에 따라 서술하면, 제1 영역 내지 제4 영역은 tracrRNA에 포함되고, 제5 영역 내지 상기 제6 영역은 crRNA, 다시 말해 crRNA 반복 서열 부분에 포함된다.
일 구현예로, 엔지니어링된 스캐폴드 영역은 자연계에서 발견되는 가이드 RNA의 스캐폴드 영역과는 다른 것으로, 그 스캐폴드 부분의 일부가 변형된 것을 특징으로 한다. 일 예로, 엔지니어링된 스캐폴드 영역은 자연계에서 발견되는 가이드 RNA의 스캐폴드 영역 중 일부 영역이 제거된 것일 수 있다. 다른 예로, 엔지니어링된 스캐폴드 영역은 자연계에서 발견되는 가이드 RNA의 스캐폴드 영역에 포함된 하나 이상의 뉴클레오티드가 제거된 것일 수 있다. 스캐폴드 영역은 tracrRNA 및 crRNA의 일부를 포함하는 영역으로, Cas12f1 변이체 단백질 또는 이의 동족체 단백질과 상호작용하는 부분이다.
(2-2) 스캐폴드 제1 영역
스캐폴드 제1 영역은 tracrRNA의 5'-말단을 포함하는 영역으로, 상기 제1 영역은 가이드 RNA 및 Cas12f1 변이체 단백질 복합체 내에서 Stem 구조를 형성하는 뉴클레오티드를 포함하고, 이와 인접한 뉴클레오티드를 포함할 수 있다. 제1 영역은 가이드 RNA 및 Cas12f1 변이체 단백질 복합체에서, Cas12f1 변이체 단백질과 상호작용하지 않는 영역(region)을 포함할 수 있다.
일부 구현예에서, 제1 영역은 서열번호 58의 염기서열을 포함하는 야생형 tracrRNA의 5'-말단으로부터 1번째 뉴클레오티드부터 21번째 뉴클레오티드까지를 의미할 수 있다. 일 예로, 제1 영역의 서열은 5'-CUUCACUGAUAAAGUGGAGAA-3' (서열번호 7)일 수 있다. 또한, 제1 영역의 서열은 서열번호 7 서열의 일부 서열일 수 있다. 서열번호 7 서열의 일부 서열은 서열번호 7 서열의 5'-말단의 서열이 순차적으로 제거되고 남은 3'-말단부에서 순차적인 일부 서열일 수 있다. 보다 구체적으로, 제1 영역은 5'-GAUAAAGUGGAGAA-3' (서열번호 8), 5'-UGGAGAA-3' 또는 5'-A-3'일 수 있다. 또는, 엔지니어링된 tracrRNA는 제1 영역(1-21 부위)에 해당하는 서열이 모두 제거된 것일 수 있다.
(2-3) 스캐폴드 제2 영역
스캐폴드 제2 영역은 tracrRNA 내 제1 영역의 3'-말단 방향에 위치한 영역을 지칭한다. 제2 영역은 가이드 RNA 및 Cas12f1 변이체 단백질 복합체 내에서 Stem 구조를 형성하는 뉴클레오티드를 포함하고, 이와 인접한 뉴클레오티드를 포함할 수 있다. 이때, Stem 구조는 제1 영역에 포함된 Stem과는 다른 것이다. 제2 영역은 Stem 2 부분(Takeda et al., Structure of the miniature type V-F CRISPR-Cas effector enzyme, Molecular Cell 81, 1-13(2021))을 포함한다. 제2 영역은 Stem 2 부분과 인접한 하나 이상의 뉴클레오티드를 포함할 수 있다. 제2 영역은 가이드 RNA 및 Cas12f1 변이체 단백질 복합체에서 Cas12f1 변이체 단백질과 상호작용하지 않는 영역을 포함할 수 있다.
일 구현예로, 제2 영역은 서열번호 58의 염기서열을 포함하는 야생형 tracrRNA의 5'-말단으로부터 22번째 뉴클레오티드부터 71번째 뉴클레오티드까지를 의미할 수 있다. 구체적으로, 제2 영역의 서열은 5'-CCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUG-3' (서열번호 9)일 수 있다. 또한, 제2 영역은 서열번호 9 서열의 일부 서열일 수 있다. 상기 서열번호 9 서열의 일부 서열은 서열번호 9 서열에서 상보적 결합을 형성하는 적어도 한 쌍 이상의 뉴클레오티드 및/또는 상보적 결합을 형성하지 않는 적어도 하나 이상의 뉴클레오티드가 삭제된 서열일 수 있다. 일 예로, 5'-CCGCUUCACCAAUUAGUUGAGUGAAGGUG-3' (서열번호 10) 서열, 5'-CCGCUUCACCAAAAGCUUAGGAACUUGAGUGAAGGUG-3' (서열번호 11) 서열 또는 5'-CCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUG-3' (서열번호 12) 서열일 수 있다. 이 때, 서열번호 9 내지 12 중 어느 하나의 서열 내에 포함된 루프 부분은 5'-UUAG-3' 서열이고, 이는 필요에 따라 5'-GAAA-3' 서열로 치환될 수 있다.
(2-4) 스캐폴드 제3 영역
스캐폴드 제3 영역은 tracrRNA 내 상기 제2 영역의 3'-말단 방향에 위치한 영역을 지칭한다. 제3 영역은 가이드 RNA 및 Cas12f1 단백질 복합체 내에서 Stem 구조를 형성하는 뉴클레오티드 및 crRNA에 포함된 일부 뉴클레오티드와 상보적인 결합을 형성하고 있는 뉴클레오티드를 포함하고, 이와 인접한 뉴클레오티드를 포함할 수 있다.
일 구현예로, 제3 영역은 서열번호 58의 염기서열을 포함하는 야생형 tracrRNA의 5'-말단으로부터 72번째 뉴클레오티드에서 129번째 뉴클레오티드까지를 의미할 수 있다. 일 구현예로, 제3 영역의 서열은 5'-GGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAA-3' (서열번호 13) 서열 또는 서열번호 13 서열에 적어도 70% 이상의 서열 상동성을 가지는 서열일 수 있다.
(2-5) 스캐폴드 제4 영역
스캐폴드 제4 영역은 tracrRNA의 제3 영역의 3'-말단 방향에 위치한 영역을 지칭한다. 제4 영역은 가이드 RNA 및 Cas12f1 변이체 단백질 복합체 내에서 crRNA에 포함된 일부 뉴클레오티드와 상보적인 결합을 형성할 수 있는 뉴클레오티드를 포함하고, 이와 인접한 뉴클레오티드를 포함할 수 있다. 제4 영역은 crRNA의 제5 영역에 포함된 하나 이상의 뉴클레오티드와 상보적으로 결합하는 하나 이상의 뉴클레오티드를 포함할 수 있다. 제4 영역은 가이드 RNA 및 Cas12f1 변이체 단백질 복합체에서 Cas12f1 변이체 단백질과 상호작용하지 않는 영역을 포함할 수 있다.
일 구현예로, 제4 영역은 서열번호 58의 염기서열을 포함하는 야생형 tracrRNA의 5'-말단으로부터 130번째 뉴클레오티드에서 161번째 뉴클레오티드까지를 의미할 수 있다. 제4 영역은 MS1을 포함하는 MS4 부분으로 5'-CAAAUUCANNNNNCCUCUCCAAUUCUGCACAA-3' (서열번호 14) 서열 또는 서열번호 14 서열의 일부 서열일 수 있다. 서열번호 14 서열에서 내부의 5'-NNNNN-3' 부위는 MS1 부분이고, 상기 N은 각각 A, C, G 또는 U일 수 있다. 일 예로, 서열번호 14 서열의 일부 서열은 상기 서열번호 14 서열 중 5'-CAAAUUCANNNNN-3'(서열번호 15) 서열을 포함하면서 3'-말단부의 일부 서열이 포함하지 않는 서열일 수 있다. 구체적으로, 5'-CAAAUUCANNNNNCCUCUCCAAUUC-3' (서열번호 16) 서열, 5'-CAAAUUCANNNNNCCUCUC-3' (서열번호 17) 서열 또는 5'-CAAAUUCANNNNN-3' (서열번호 15) 서열일 수 있다. 또한, 제4 영역은 상기 5'-NNNNN-3' 부위가 5'-NNNVN-3' 또는 5'-NVNNN-3'로 치환된 것을 포함할 수 있다. 여기서, N은 각각 독립적으로 A, C, G 또는 U이고, V는 A, C 또는 G일 수 있다. 바람직하게, 제4 영역은 5'-CAAAUUCANNNCN-3' (서열번호 18) 서열을 포함하면서 3'-말단부의 일부 서열이 포함하지 않는 서열일 수 있다. 여기서, N은 각각 독립적으로 A, C, G 또는 U이다.
(2-6) 스캐폴드 제5 영역
스캐폴드 제5 영역은 crRNA의 5'-말단을 포함하는 영역을 지칭한다. 제5 영역은 가이드 RNA 및 Cas12f1 변이체 단백질 복합체 내에서 제4 영역의 하나 이상의 뉴클레오티드와 상보적인 결합을 형성하는 뉴클레오티드를 포함하며, 이와 인접한 뉴클레오티드를 포함할 수 있다. 제5 영역은 제4 영역에 포함된 하나 이상의 뉴클레오티드와 상보적으로 결합하는 하나 이상의 뉴클레오티드를 포함할 수 있다. 제5 영역은 가이드 RNA 및 Cas12f1 변이체 단백질 복합체에서, Cas12f1 변이체 단백질과 상호작용하지 않는 영역을 포함할 수 있다.
제5 영역은 서열번호 19의 염기서열을 포함하는 야생형 crRNA 반복 서열의 5'-말단으로부터 1번째 뉴클레오티드에서 30번째 뉴클레오티드까지를 의미할 수 있다. 일 예로, 엔지니어링된 crRNA에서 제5 영역은 5'- GUUGCAGAACCCGAAUAGNNNNNUGAAGGA-3' (서열번호 20) 서열 또는 서열번호 20 서열의 일부 서열일 수 있다. 여기서, N은 독립적으로 A, C, G 또는 U일 수 있다. 서열번호 20의 일부 서열은 서열번호 20의 염기서열 중 5'-NNNNNUGAAGGA-3' (서열번호 21) 서열을 포함하면서 5'-말단부의 일부 서열이 포함하지 않는 서열일 수 있다. 바람직하게, 제5 영역은 5'-NBNNNUGAAGGA-3' (서열번호 22) 서열을 포함하는 것일 수 있다. 여기서, N은 독립적으로 A, C, G 또는 U일 수 있고, B는 U, C 또는 G일 수 있다.
또한 제5 영역의 서열은 5'-GUUGCAGAACCCGAAUAGNBNNNUGAAGGA-3' (서열번호 59)일 수 있다. 여기서, N은 A, C, G 또는 U일 수 있고, B는 U, C, 또는 G일 수 있다. 바람직하게, 5'-GUUGCAGAACCCGAAUAGACGAAUGAAGGA-3' (서열번호 65)일 수 있다. 일 구현예로, 제5 영역은 서열번호 19의 염기서열을 포함하는 야생형 crRNA 반복 서열의 5'-말단으로부터 21번째 뉴클레오티드에서 30번째 뉴클레오티드까지를 의미할 수 있다. 일 구현예로, 제5 영역의 서열은 5'-GAAUGAAGGA-3' (서열번호 66)일 수 있다.
(2-7) 스캐폴드 제6 영역
스캐폴드 제6 영역은 crRNA 내 제5 영역의 3'-말단 방향에 위치한 영역을 지칭한다. 서열번호 19의 염기서열을 포함하는 야생형 crRNA 반복 서열의 5'-말단으로부터 31번째 뉴클레오티드에서 37번째 뉴클레오티드까지를 의미할 수 있다.
일 구현예로, 제6 영역은 5'-AUGCAAC-3' (서열번호 23) 서열 또는 5'-AUGCAAC-3'서열에 적어도 70% 이상의 서열 상동성을 가지는 서열일 수 있다. 제6 영역은 가이드 RNA 및 Cas12f1 변이체 단백질 복합체 내에서 제3 영역의 하나 이상의 뉴클레오티드와 상보적인 결합을 형성하는 뉴클레오티드를 포함하며, 이와 인접한 뉴클레오티드를 포함할 수 있다.
(2-8) 스캐폴드 제7 영역
또한, 본 발명의 구현예에 따른 엔지니어링된 crRNA는 crRNA의 3'-말단에 제7 영역으로써, U-rich tail 서열을 추가로 더 포함할 수 있다. 이는 본 발명의 가이드 RNA 및 Cas12f1 변이체 단백질 복합체를 포함하는 초소형 유전자 편집 시스템의 유전자 편집 효율 향상을 위해 도입할 수 있는 엔지니어링된 스캐폴드 영역에 추가된 것이다. 엔지니어링된 스캐폴드 영역은 전술한 U-rich tail과 시너지를 일으켜, 엔지니어링된 가이드 RNA가 사용된 초소형 유전자 편집 시스템의 유전자 편집 효율을 향상시킨다. U-rich tail 서열은 5'-(UaN)dUe-3', 5'-UaVUaVUe-3' 또는 5'-UaVUaVUaVUe-3'일 수 있다. 여기서, N은 A, C, G 또는 U일 수 있고, V는 독립적으로 A, C 또는 G일 수 있다. 또한, a는 0 내지 4의 정수일 수 있고, d는 0 내지 3의 정수일 수 있으며, e는 0 내지 10의 정수일 수 있다. 일 예로, 제7 영역은 U4AU4 일 수 있다.
다른 구현예로, 엔지니어링된 가이드 RNA는 3'-말단 부분에 유리딘(U)이 풍부하게 포함된 U-rich tail을 포함할 수 있다. U-rich tail 서열은 기본적으로 유리딘을 풍부하게 포함하고 있으며, 유리딘이 하나 이상 연속된 서열을 포함한다. U-rich tail 서열은 엔지니어링된 초소형 유전자 편집 시스템의 실사용 환경 및 발현 환경, 예를 들어 진핵 세포 또는 원핵 세포 내부 환경에 따라 유리딘 외 추가적인 염기를 더 포함할 수 있다.
본 발명의 구현예에서 제공되는 U-rich tail 서열은 보다 바람직하게, 유리딘(U)이 1개 내지 5개 반복될 때마다, 유리딘이 아닌 다른 리보뉴클레오시드(A, C, G)가 하나씩 포함된 변형된 유리딘 반복 서열을 포함할 수 있다. 상기 변형된 유리딘 연속 서열은 특히 엔지니어링된 crRNA를 발현하는 벡터를 설계할 때 유용하다. 일 구현예로, U-rich tail 서열은 UV, UUV, UUUV, UUUUV 및/또는 UUUUUV가 하나 이상 반복된 서열을 포함할 수 있다. 이때, 상기 V는 아데노신(A), 시티딘(C), 구아노신(G) 중 하나이다.
일 구현예로, U-rich tail의 서열은 (UaN)bUc로 표현될 수 있다. 이때, N은 A, U, C, 또는 G 중 하나이며, a, b, c는 정수이고, a는 1 이상 5 이하, b는 0 이상 2 이하, c는 1 이상 10 이하일 수 있다. 일 구현예로, U-rich tail의 서열은 5'-U-3', 5'-UU-3', 5'-UUU-3', 5'-UUUU-3', 5'-UUUUU-3', 5'-UUUUUU-3', 5'-UUURUUU-3' (서열번호 67), 5'-UUURUUURUUU-3' (서열번호 68), 5'-UUUURU-3' (서열번호 69), 5'-UUUURUU-3' (서열번호 70), 5'-UUUURUUU-3' (서열번호 71), 5'-UUUURUUUU-3' (서열번호 72), 5'-UUUURUUUUU-3' (서열번호 73) 또는 5'-UUUURUUUUUU-3' (서열번호 74)일 수 있다. 여기서 R은 A 또는 G일 수 있다.
바람직하게, U-rich tail의 서열은 서열번호 67 내지 74 중 어느 하나의 염기서열에서 R이 A인 것으로, 서열번호 75 내지 서열번호 82로 이루어진 군에서 선택된 어느 하나의 염기서열을 포함하거나 이로 이루어진 것일 수 있다. 또한, U-rich tail의 서열은 서열번호 67 내지 74 중 어느 하나의 염기서열에서 R이 G인 것으로, 서열번호 83 내지 서열번호 90으로 이루어진 군에서 선택된 어느 하나의 염기서열을 포함하거나 이로 이루어진 것일 수 있다. 가장 바람직하게, U-rich tail의 서열은 5'-UUUUAUUUU-3' (서열번호 80), 5'-UUUUAUUUUUU-3' (서열번호 82), 5'-UUUUGUUUUUU-3' (서열번호 90) 또는 5'-UUUUUU-3' (서열번호 91)일 수 있다.
(2-9) 스캐폴드 영역의 연결 관계
일 구현예로, 스캐폴드 영역 내의 tracrRNA의 서열은 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU-3' (서열번호 61) 또는 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNNNCCUCUCCAAUUCUGCACAA-3' (서열번호 62)을 포함하거나 이로 이루어질 수 있다. 여기서, N은 A, C, G 또는 U일 수 있다.
일 구현예로, tracrRNA는 제1 영역, 제2 영역, 제3 영역 및 제4 영역을 포함한다. 일 예로, tracrRNA는 5'-말단에서 3'-말단 방향으로, 제1 영역, 제2 영역, 제3 영역 및 제4 영역이 순서대로 연결된 것이다.
또한, 일 구현예로, 스캐폴드 영역 내의 crRNA의 서열은 crRNA 반복 서열 및 스페이서 서열을 포함한다. 이때, crRNA 반복 서열은 5'-GAAUGAAGGAAUGCAAC-3' (서열번호 63) 또는 5'-GGAAUGCAAC-3' (서열번호 64)일 수 있다. crRNA 반복 서열은 제5 영역 및 제6 영역을 포함할 수 있다. 스페이서 서열은 표적서열에 따라 달라질 수 있으며, 일반적으로 10 내지 50개의 뉴클레오티드를 포함한다. 일 구현예에서, crRNA는 5'-말단에서 3'-말단 방향으로, 제5 영역, 제6 영역 및 스페이서가 순서대로 연결된 것이다.
일 구현예로, crRNA는 야생형 crRNA 또는 엔지니어링된 crRNA일 수 있다. crRNA는 야생형 반복 서열(repeat sequence) 및 가이드 서열(guide sequence)인 스페이서 서열을 5'-말단에서 3'-말단 방향으로 순서대로 포함할 수 있다. 상기 야생형 반복 서열은 5'-GUUGCAGAACCCGAAUAGACGAAUGAAGGAAUGCAAC-3' (서열번호 19) 서열일 수 있다.
(3) 스페이서 서열
스페이서 서열은 표적 핵산 또는 표적 유전자 내의 표적 부위 서열과 상보적인 서열이며, crRNA 반복 서열의 3'-말단 쪽에 연결된다. 스페이서 서열은 Cas12f1 변이체 단백질이 인식하는 PAM(Protospacer Adjacent Motif) 서열과 인접한 프로토스페이서 서열(protospacer sequence)과 상동성이 있는 서열로, 프로토스페이서 서열의 티미딘(T)이 유리딘(U)으로 치환된 서열을 가진다. 이때, 표적 서열 및 프로토스페이서 서열은 표적 핵산 내 포함된 상기 PAM 서열과 인접한 서열 내에서 결정되고, 이에 따라 스페이서 서열이 결정된다.
일 구현예로, crRNA의 스페이서 서열 부분은 상기 표적 핵산과 상보적으로 결합할 수 있다. 일 구현예로, crRNA의 스페이서 서열 부분은 상기 표적 핵산의 표적 서열 부분과 상보적으로 결합할 수 있다. 일 예로, 표적 핵산이 이중가닥 DNA인 경우, 스페이서 서열은 이중가닥 DNA의 표적 가닥(Target strand)에 포함된 표적 서열과 상보적인 서열일 수 있다. 여기서, 표적 핵산이 이중가닥 DNA인 경우, 스페이서 서열은 상기 이중가닥 DNA의 비-표적가닥(Non-target strand)에 포함된 프로토스페이서 서열과 상동성인 서열을 포함할 수 있다. 구체적으로, 스페이서 서열은 프로토스페이서 서열과 동일한 염기 서열을 가지되, 상기 염기 서열에 포함된 티미딘(T) 각각이 모두 유리딘(U)으로 치환된 서열을 가질 수 있다. 일 예로, 스페이서 서열은 프로토스페이서의 DNA 서열에 상응하는 RNA 서열을 포함할 수 있다.
일 구현예로, 스페이서 서열의 길이는 10 뉴클레오티드 내지 50 뉴클레오티드 길이일 수 있다. 바람직하게, 스페이서 서열의 길이는 17 뉴클레오티드 내지 30 뉴클레오티드 길이일 수 있다. 보다 바람직하게, 스페이서 서열의 길이는 17 뉴클레오티드 내지 25 뉴클레오티드 길이일 수 있다.
(4) 싱글 가이드 RNA 또는 듀얼 가이드 RNA
본 발명의 구현예에 따른 엔지니어링된 가이드 RNA는 싱글 가이드 RNA 또는 듀얼 가이드 RNA일 수 있다. 듀얼 가이드 RNA는 가이드 RNA가 tracrRNA 및 crRNA의 두 분자 RNA로 구성된 것을 의미한다. 싱글 가이드 RNA(sgRNA)는 엔지니어링된 tracrRNA의 3'-말단 및 엔지니어링된 crRNA의 5'-말단이 링커를 통해 연결된 것을 의미한다.
일 구현예에서, 엔지니어링된 싱글 가이드 RNA(sgRNA)는 링커 서열을 추가적으로 더 포함하고, tracrRNA 서열 및 crRNA 서열이 링커 서열을 통해 연결될 수 있다. 바람직하게, 엔지니어링된 스캐폴드에 포함된 제4 영역의 3'-말단 및 제5 영역의 5'-말단이 링커를 통해 연결된 것을 포함할 수 있다. 보다 바람직하게, 제4 영역의 3'-말단 및 제5 영역의 5'-말단이 링커 5'-GAAA-3'로 연결될 수 있다.
일 구현예에서, 싱글 가이드 RNA의 서열은 5'-말단에서 3'-말단 방향으로, tracrRNA 서열, 링커 서열, crRNA 서열 및 U-rich tail 서열이 순차적으로 연결되어 있다. tracrRNA 서열의 일부 및 crRNA 서열에 포함된 CRISPR RNA 반복 서열의 전부 및 일부는 서로 상보적인 서열을 가진다. 보다 구체적으로, 상기 싱글 가이드 RNA는 서열번호 44 내지 48로 이루어진 군에서 선택된 서열을 가질 수 있다.
또한, 본 발명의 구현예에 따른 엔지니어링된 가이드 RNA는 tracrRNA 및 crRNA가 별개의 RNA 분자를 이루고 있는 듀얼 가이드 RNA일 수 있다. 이 때, tracrRNA의 일부 및 crRNA의 일부는 서로 상보적인 서열을 가져 이중가닥 RNA를 형성할 수 있다. 보다 구체적으로, 듀얼 가이드 RNA에서 tracrRNA의 3'-말단을 포함하는 일부 및 crRNA의 CRISPR RNA 반복 서열을 포함하는 일부가 이중가닥을 형성할 수 있다. 엔지니어링된 가이드 RNA는 Cas12f1 변이체 단백질과 결합하여 가이드 RNA 및 Cas12f1 변이체 단백질 복합체를 형성할 수 있으며, 상기 crRNA 서열에 포함된 스페이서 서열과 상보적인 표적 서열을 인식하여 상기 표적 서열을 포함하는 표적 핵산을 편집할 수 있도록 한다.
일 구현예로, tracrRNA의 서열은 상기 CRISPR RNA 반복 서열과 0개 내지 20개의 미스매치가 있는 상보적인 서열을 포함할 수 있다. 바람직하게, tracrRNA 서열은 CRISPR RNA 반복 서열과 0개 내지 8개 또는 8개 내지 12개의 미스매치가 있는 상보적인 서열을 포함할 수 있다.
(5) 싱글 가이드 RNA(sgRNA)를 만들기 위한 변형
(5-1) 개괄
본 발명에서 제공하는 엔지니어링된 가이드 RNA는 한 분자의 싱글 가이드 RNA(sgRNA)일 수 있다. 이에, 엔지니어링된 스캐폴드 영역은 각 영역 중 하나 이상이 변형된 것이고, 추가적으로 tracrRNA 제4 영역의 3'-말단 및 crRNA 제5 영역의 5'-말단이 링커를 통해 연결된 것일 수 있다.
일 구현예로, 엔지니어링된 스캐폴드 영역은 자연계에서 발견되는 스캐폴드 영역에서 한 군데 이상이 변형되고, 제4 영역의 3'-말단 및 제5 영역의 5'-말단이 링커를 통해 연결된 것일 수 있다. 이때, 링커는 5'-GAAA-3'일 수 있다.
또한 일 구현예로, 엔지니어링된 스캐폴드 영역은 자연계에서 발견되는 스캐폴드 영역의 각 부분에 대응하는 영역을 포함한다. 구체적으로, 엔지니어링된 스캐폴드 영역은 제1 영역, 제2 영역, 제3 영역, 제4 영역, 제5 영역 및 제6 영역을 포함하며, 이는 자연계에서 발견되는 스캐폴드 영역에 포함된 제1영역 내지 제6 영역에 각각 대응된다.
다른 구현예로, 엔지니어링된 스캐폴드 영역은 자연계에서 발견되는 스캐폴드 영역 중 제1 영역 및/또는 제2 영역에 대응되는 영역을 포함하지 않을 수 있다. 구체적으로, 초소형 유전자 편집 시스템에서 초소형 유전자 편집 단백질은 서열번호 1 내지 서열번호 4로 이루어진 군에서 선택된 어느 하나의 아미노산 서열을 포함하거나 이로 이루어진 단백질인 것이고, 가이드 RNA는 서열번호 44 내지 서열번호 48로 이루어진 군에서 선택된 어느 하나의 염기서열을 포함하거나 이로 이루어진 것일 수 있다.
바람직하게, 초소형 유전자 편집 단백질은 서열번호 1 내지 서열번호 4 로 이루어진 군에서 선택된 어느 하나의 아미노산 서열을 포함하거나 이로 이루어진 단백질이고, 가이드 RNA는 MS1에서 변형을 갖는 augment RNA(서열번호 44), MS1/MS2에서 변형을 갖는 augment RNA(서열번호 45), MS1/MS2/MS3에서 변형을 갖는 augment RNA Cas12f1_ge3.0(서열번호 46), MS2/MS3/MS4에서 변형을 갖는 augment RNA Cas12f1_ge4.0(서열번호 47) 및 MS2/MS3/MS4/MS5에서 변형을 갖는 augment RNA Cas12f1_ge4.1(서열번호 48)로 이루어진 군에서 선택된 어느 하나일 수 있다.
일 예로, 가이드 RNA는 MS1/MS3-1 augment RNA(서열번호 105), MS1/MS3-2 augment RNA(서열번호 106), MS1/MS3-3 augment RNA(서열번호 107), MS1/MS4*-1 augment RNA(서열번호 108), MS1/MS4*-2 augment RNA(서열번호 109), MS1/MS4*-3 augment RNA(서열번호 110), MS1/MS5-1 augment RNA(서열번호 111), MS1/MS5-2 augment RNA(서열번호 112), MS1/MS5-3 augment RNA(서열번호 113), MS1/MS2/MS4*-2 augment RNA(서열번호 114), MS1/MS3-3/MS4*-2 augment RNA(서열번호 115), MS1/MS2/MS5-3 augment RNA(서열번호 116), MS1/MS3-3/MS5-3 sgRNA(서열번호 117), MS1/MS4*-2/MS5-3 augment RNA(서열번호 118), MS1/MS2/MS3-3/MS4*-2 augment RNA(서열번호 119), MS1/MS2/MS3-3/MS5-3 augment RNA(서열번호 120), MS1/MS2/MS4*-2/MS5-3 augment RNA(서열번호 121), MS1/MS3-3/MS4*-2/MS5-3 augment RNA(서열번호 122), 또는 MS1/MS2/MS3-3/MS4*-2/MS5-3 sgRNA(서열번호 123)일 수 있다.
또한, 가이드 RNA는 Mature form sgRNA인 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN-3'(서열번호 124)일 수 있다.
일 예로, 가이드 RNA는 상기 Mature form sgRNA에서 핵산 서열의 일부 변형을 가지는 augment RNA일 수 있다. 구체적으로, MS3-1 augment RNA(서열번호 125), MS3-2 augment RNA(서열번호 126), MS3-3 augment RNA(서열번호 127), MS4-1 augment RNA(서열번호 128), MS4-2 augment RNA(서열번호 129), MS4-3 augment RNA(서열번호 130), MS5-1 augment RNA(서열번호 131), MS5-2 augment RNA(서열번호 132), MS5-3 augment RNA(서열번호 133), MS3-3/MS4-3 augment RNA(서열번호 134), MS3-3/MS5-3 augment RNA(서열번호 135), MS4-3/MS5-3 augment RNA(서열번호 136) 또는 MS3-3/MS4-3/MS5-3 augment RNA(서열번호 137)일 수 있다.
또 다른 일 예로, 상기 Mature form sgRNA에서 핵산 서열의 일부 변형을 가지는 augment RNA는 서열번호 125 내지 137의 염기서열로 이루어진 엔지니어링된 augment RNA 각각에 본 발명의 MS2 변형이 추가된 augment RNA일 수 있다. 여기서, MS2 변형은 U-rich tail 서열로써, 상기 서열은 5'-(UaN)dUe-3' 서열, 5'-UaVUaVUe-3' 서열 또는 5'-UaVUaVUaVUe-3' 서열일 수 있다. 여기서 N은 A, C, G 또는 U일 수 있다. 각각의 V는 독립적으로 A, C 또는 G일 수 있다. 상기 a는 0 내지 4의 정수일 수 있다. d는 0 내지 3의 정수일 수 있으며, e는 0 내지 10의 정수일 수 있다. 바람직하게, U4AU4 일 수 있다.
이하 엔지니어링된 스캐폴드 영역에서의 그 변형을 자세히 설명한다.
(5-2) 스캐폴드 제1 영역에서의 변형
일 구현예로, Cas12f1 변이체 단백질 또는 이의 동족체 단백질에 대한 엔지니어링된 가이드 RNA에 포함된 엔지니어링된 스캐폴드 영역은, 스캐폴드 영역 중 제1 영역에 포함된 하나 이상의 뉴클레오티드가 제거된 것을 포함할 수 있다. 보다 구체적으로, 상기 제거된 뉴클레오티드는 제1 영역 중 가이드 RNA 및 Cas12f1 변이체 단백질 복합체에서 Stem 구조를 형성하는 부분에 포함된 뉴클레오티드일 수 있다.
일 구현예로, 상기 제거된 뉴클레오티드는 제1 영역 중 Stem 1 (Takeda et al., Structure of the miniature type V-F CRISPR-Cas effector enzyme, Molecular Cell 81, 1-13 (2021))에 속하는 뉴클레오티드일 수 있다. 일 예로, 상기 제거된 뉴클레오티드는 제1 영역 중 가이드 RNA 및 Cas12f1 변이체 단백질 복합체에서 Cas12f1 변이체 단백질과 상호작용하지 않는 뉴클레오티드일 수 있다.
일 구현예로, 상기 변형된 제1 영역은(MS3 부분, 1-21 부위)은 5'-CUUCACUGAUAAAGUGGAGAA-3' (서열번호 7) 또는 서열번호 7의 일부 서열일 수 있다. 서열번호 7의 일부 서열은 서열번호 7의 5'-말단으로부터 적어도 1개, 2개, 3개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개 또는 20개의 뉴클레오티드가 서열이 순차적으로 제거된 것일 수 있다. 보다 구체적으로, 5'-말단에서 3'-말단 방향으로, 5'-A-3', 5'-AA-3', 5'-GAA-3', 5'-AGAA-3', 5'-GAGAA-3', 5'-GGAGAA-3', 5'-UGGAGAA-3', 5'-GUGGAGAA-3', 5'-AGUGGAGAA-3' 와 같이, 상기 서열번호 7의 일부 서열은 서열번호 7 서열의 5'-말단의 서열이 순차적으로 제거되고 남은 3'-말단부에서 순차적인 일부 서열일 수 있다. 일 예로, 제1 영역은 5'-GAUAAAGUGGAGAA-3' (서열번호 8), 5'-UGGAGAA-3' 또는 5'-A-3'일 수 있다. 또는, 제1 영역 전체가 제거된 것일 수 있다.
(5-3) 스캐폴드 제2 영역에서의 변형
또 다른 일 구현예로, 엔지니어링된 스캐폴드 영역은 변형된 제2 영역을 포함할 수 있다. 이때, 상기 변형된 제2 영역은 스캐폴드 영역의 제2 영역에서 하나 이상의 뉴클레오티드가 제거된 것이다. 이때, 상기 제거된 뉴클레오티드는 가이드 RNA 및 Cas12f1 변이체 단백질 복합체에서 Stem 구조를 형성하는 영역에서 선택된 뉴클레오티드이다.
일 구현예로, 상기 뉴클레오티드의 제거는 상기 제2 영역 중 Stem 구조를 형성하는 부분에서 일어난 것이고, 뉴클레오티드가 염기쌍 단위로 제거된 것일 수 있다. 일 구현예로, 상기 제거된 뉴클레오티드는 상기 제2 영역 중 가이드 RNA 및 Cas12f1 변이체 단백질 복합체에서 Stem 구조를 형성하는 부분에 포함된 뉴클레오티드일 수 있다.
일 구현예로, 상기 엔지니어링된 스캐폴드 영역의 변형된 제2 영역(MS5 부분, 22-71 부위)은 5'-CCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUG-3' (서열번호 9) 서열 또는 서열번호 9 서열의 일부 서열일 수 있다. 자연계에서 발견되는 스캐폴드 영역의 제2 영역에서 1개 내지 50개의 뉴클레오티드가 제거된 것일 수 있다.
서열번호 9의 일부 서열은 서열번호 9에서 상보적 결합을 형성하는 적어도 한 쌍 이상의 뉴클레오티드 및/또는 상보적 결합을 형성하지 않는 적어도 하나 이상의 뉴클레오티드가 삭제된 서열일 수 있다. 이때, 서열번호 9 서열의 일부 서열 내에 포함된 루프 부분의 5'-UUAG-3' 서열은 선택적으로 5'-GAAA-3' 서열로 치환될 수 있다. 또한, 상기 제2 영역은 루프가 제거된 것일 수 있다.
일 예로, 상기 변형된 제2 영역은 상기 자연계에서 발견되는 스캐폴드 영역의 제2 영역에서, 상기 서열번호 9의 염기서열을 기준으로, 5'-말단으로부터 1번째 내지 22번째 뉴클레오티드 및/또는 27번째 내지 50번째 뉴클레오티드 중 하나 이상이 제거된 것일 수 있다. 또한, 상기 변형된 제2 영역은 상기 자연계에서 발견되는 스캐폴드 영역의 제2 영역에서, 서열번호 11 서열 기준, 5'-말단으로부터 1번째 내지 22번째 뉴클레오티드, 및/또는 27번째 내지 50번째 뉴클레오티드 중 하나 이상이 제거되고, 23번째 내지 26번째 뉴클레오티드가 다른 것으로 치환된 것일 수 있다. 구체적으로, 5'-CCGCUUCACCAAUUAGUUGAGUGAAGGUG-3' (서열번호 10) 서열, 5'-CCGCUUCACCAAAAGCUUAGGAACUUGAGUGAAGGUG-3' (서열번호 11) 서열 또는 5'-CCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUG-3' (서열번호 12) 서열일 수 있다.
또한, 본 발명에서 제공하는 엔지니어링된 스캐폴드 영역은 자연계에서 발견되는 스캐폴드 영역 중 제2 영역이 제거된 것일 수 있다. 일 구현예로, 엔지니어링된 스캐폴드 영역은 자연계에서 발견되는 스캐폴드 영역의 제2 영역과 대응되는 영역이 없는 것일 수 있다. 일 예로, 제2 영역이 제거된 엔지니어링된 스캐폴드 영역의 서열은 5'-CUUCACUGAUAAAGUGGAGAAGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUGAAAGAAUGAAGGAAUGCAAC-3' (서열번호 92)일 수 있다.
(5-4) 스캐폴드 제3 영역에서의 변형
본 발명은 일 구현예에서, 엔지니어링된 스캐폴드 영역은 변형된 제3 영역을 포함할 수 있다. 이때, 상기 변형된 제3 영역은 자연계에서 발견되는 스캐폴드 영역의 제3 영역에서 하나 이상의 뉴클레오티드가 제거된 것이다. 이때, 상기 제거된 뉴클레오티드는 가이드 RNA 및 Cas12f1 변이체 단백질 복합체에서 Stem 구조를 형성하는 영역에서 선택된 뉴클레오티드이다.
일 구현예로, 상기 엔지니어링된 스캐폴드 영역의 변형된 제3 영역(MS1 앞 부분, 72-129 부위)은 5'-GGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAA-3' (서열번호 13) 또는 서열번호 13에 적어도 70% 이상(예를 들어, 70%, 80% 또는 90%)의 서열 상동성을 가지는 서열일 수 있다. 자연계에서 발견되는 스캐폴드 영역의 제3 영역에서 1개 내지 20개의 뉴클레오티드가 제거된 것일 수 있다. 일 구현예로, 상기 변형된 제3 영역은 상기 자연계에서 발견되는 스캐폴드 영역의 제3 영역에서, 서열번호 13의 뉴클레오티드 서열을 기준으로 5'-말단으로부터 28번째 내지 37번째 뉴클레오티드 및/또는 42번째 내지 51번째 뉴클레오티드 중 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개 또는 10개의 연속된 뉴클레오티드가 제거된 것일 수 있다. 일 구현예로, 상기 변형된 제3 영역은 상기 자연계에서 발견되는 스캐폴드 영역의 제3 영역에서, 서열번호 13의 뉴클레오티드 서열을 기준으로 5'-말단으로부터 27번째 내지 36번째 뉴클레오티드, 및 42번째 내지 51번째 뉴클레오티드 중 가이드 RNA 및 Cas12f1 변이체 단백질 복합체에서 염기쌍(base pair)을 이루는 한 쌍 이상의 뉴클레오티드가 제거된 것일 수 있다. 일 구현예로, 상기 변형된 제3 영역은 자연계에서 발견되는 스캐폴드 영역의 제3 영역에서, 서열번호 13의 뉴클레오티드 서열을 기준으로 5'-말단으로부터 27번째 내지 36번째 뉴클레오티드 및 42번째 내지 51번째 뉴클레오티드 중 가이드 RNA 및 Cas12f1 변이체 단백질 복합체에서 염기쌍을 이루는 한 쌍 이상의 뉴클레오티드 및/또는 염기쌍을 이루지 않는 1개 이상의 뉴클레오티드가 제거된 것일 수 있다. 일 예에서, 상기 변형된 제3 영역은 5'-GCUGCUUGCAUCAGCCUAAUGUCGAG-3' (서열번호 93), 5'-UUCG-3', 및 5'-CUCGA-3' 서열을 포함하는 것을 특징으로 한다.
(5-5) 스캐폴드 제4 영역 및/또는 제5 영역에서의 변형
본 명세서에서 제공하는 엔지니어링된 스캐폴드 영역은 자연계에서 발견되는 스캐폴드 영역에서 제4 영역 및 제5 영역이 변형된 것일 수 있다. 제4 영역 및 제5 영역은 가이드 RNA 및 Cas12f1 변이체 단백질 복합체 내에서 서로 혼성화되어 Stem을 구성하는 부분을 포함하므로, 해당 부분이 같이 변형되어 엔지니어링된 스캐폴드 영역을 구성할 수 있다. 변형된 제4 영역은 자연계에서 발견되는 스캐폴드 영역의 제4 영역에서 하나 이상의 뉴클레오티드가 제거된 것을 특징으로 한다. 변형된 제5 영역은 자연계에서 발견되는 스캐폴드 영역의 제5 영역에서 하나 이상의 뉴클레오티드가 제거된 것을 특징으로 한다.
일 구현예로, 변형된 제4 영역은 5'-말단 방향에 5'-CAAA-3' 또는 5'-AACAAA-3' 서열을 가지는 것을 특징으로 한다. 일 구현예로, 변형된 제5 영역은 3'-말단 방향에 5'-GGA-3' 서열을 가지는 것을 특징으로 한다. 일 구현예로, 엔지니어링된 스캐폴드 영역의 변형된 제4 영역은 자연계에서 발견되는 스캐폴드 영역의 제4 영역에서 1개 내지 7개의 뉴클레오티드가 제거된 것일 수 있다. 일 구현예로, 상기 엔지니어링된 스캐폴드 영역의 변형된 제4 영역은 자연계에서 발견되는 스캐폴드 영역의 제4 영역에서 1개 내지 28개의 뉴클레오티드가 제거된 것일 수 있다.
또한, 제4 영역에서의 변형은 자연계에서 발견되는 스캐폴드 영역의 제4 영역에서, 서열번호 27의 염기서열을 기준으로, 5'-말단으로부터 9번째 내지 15번째 뉴클레오티드 중 하나 이상이 제거된 것일 수 있다. 일 구현예로, 변형된 제4 영역은 상기 자연계에서 발견되는 스캐폴드 영역의 제4 영역에서, 서열번호 27의 염기서열을 기준으로, 5'-말단으로부터 9번째 내지 36번째 뉴클레오티드 중 하나 이상이 제거된 것일 수 있다. 구체적으로, 제4 영역에서의 변형은 상기 서열번호 14 중 5'-CAAAUUCANNNNN-3' (서열번호 15)을 포함하면서 3'-말단으로부터 일부 서열(예를 들어, 적어도 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개 또는 18개의 뉴클레오티드 서열)이 포함하지 않는 서열일 수 있다. 예를 들어, 5'-CAAAUUCANNNNNCCUCUCCAAUUC-3' (서열번호 16), 5'-CAAAUUCANNNNNCCUCUC-3' (서열번호 17) 또는 5'-CAAAUUCANNNNN-3' (서열번호 15)일 수 있다. 또한, 제4 영역은 상기 5'-NNNNN-3' 부위가 5'-NNNVN-3' 또는 5'-NVNNN-3'로 치환된 것을 포함할 수 있다. 여기서 상기 각각의 N은 독립적으로 A, C, G 또는 U이고, 상기 V는 A, C 또는 G일 수 있다. 바람직하게, 제4 영역은 5'-CAAAUUCANNNCN-3' (서열번호 18)을 포함하면서 3'-말단으로부터 일부 서열(예를 들어, 적어도 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개 또는 18개의 뉴클레오티드 서열)이 포함하지 않는 서열일 수 있다. 여기서 각각의 N은 독립적으로 A, C, G 또는 U이다.
일 구현예로, 변형된 제5 영역은 자연계에서 발견되는 스캐폴드 영역의 제5 영역에서, 서열번호 19의 염기서열을 기준으로, 5'-말단으로부터 1번째 내지 7번째 뉴클레오티드 중 하나 이상이 제거된 것일 수 있다. 일 구현예로, 변형된 제5 영역은 자연계에서 발견되는 스캐폴드 영역의 제5 영역에서, 서열번호 19의 뉴클레오티드 서열을 기준으로, 5'-말단으로부터 1번째 내지 27번째 뉴클레오티드 중 하나 이상이 제거된 것일 수 있다.
일 구현예로, 변형된 제4 영역 및 제5 영역은 상기 자연계에서 발견되는 스캐폴드 영역의 제4 영역 및 제5 영역에서, 서열번호 14의 뉴클레오티드 서열을 기준으로 5'-말단으로부터 9번째 내지 15번째 및 서열번호 19의 뉴클레오티드 서열을 기준으로 5'-말단으로부터 1번째 내지 7번째 뉴클레오티드 중 가이드 RNA 및 Cas12f1 변이체 단백질 복합체에서 염기쌍을 이루는 한 쌍 이상의 뉴클레오티드 및/또는 염기쌍을 이루지 않는 1개 이상의 뉴클레오티드가 제거된 것일 수 있다.
또한, 변형된 제4 영역 및 제5 영역은 자연계에서 발견되는 스캐폴드 영역의 제4 영역 및 제5 영역에서, 서열번호 14의 뉴클레오티드 서열을 기준으로 5'-말단으로부터 9번째 내지 15번째 및 서열번호 19의 뉴클레오티드 서열을 기준으로 5'-말단으로부터 1번째 내지 7번째 뉴클레오티드 중 가이드 RNA 및 Cas12f1 변이체 단백질 복합체에서 염기쌍을 이루는 한 쌍 이상의 뉴클레오티드 및/또는 미스매치인 한 쌍 이상의 뉴클레오티드가 제거된 것일 수 있다.
상기 변형된 제4 영역 및 제5 영역은 자연계에서 발견되는 스캐폴드 영역의 제4 영역 및 제5 영역에서, 서열번호 14의 뉴클레오티드 서열을 기준으로 5'-말단으로부터 9번째 내지 36번째 뉴클레오티드 및 서열번호 19의 뉴클레오티드 서열을 기준으로 1번째 내지 27번째 뉴클레오티드 중 가이드 RNA 및 Cas12f1 변이체 단백질 복합체에서 염기쌍을 이루는 한 쌍 이상의 뉴클레오티드 및/또는 염기쌍을 이루지 않는 1개 이상의 뉴클레오티드가 제거된 것일 수 있다.
일 구현예로, 변형된 제4 영역의 서열은 5'-AACAAA-3', 5'-AACAAAU-3', 5'-AACAAAUU-3', 5'-AACAAAUUC-3', 5'-AACAAAUUCA-3' (서열번호 94), 5'-AACAAAUUCAU-3' (서열번호 95), 5'-AACAAAUUCAUU-3' (서열번호 96), 5'-CAAA-3', 5'-CAAAU-3', 5'-CAAAUU-3', 5'-CAAAUUC-3', 5'-CAAAUUCA-3', 5'-CAAAUUCAU-3' 또는 5'-CAAAUUCAUU-3'이거나 이를 포함할 수 있다.
또한, 변형된 제5 영역의 서열은 5'-GGA-3', 5'-AGGA-3', 5'-AAGGA-3', 5'-GAAGGA-3', 5'-UGAAGGA-3', 5'-AUGAAGGA-3' 또는 5'-AAUGAAGGA-3'이거나 이를 포함할 수 있다.
바람직하게, 제4 영역 및 제5 영역이 변형된 엔지니어링된 스캐폴드 영역은 5'-말단에서 3'-말단 방향으로, 5'-AACAAA-3', 5'-AACAAAU-3', 5'-AACAAAUU-3', 5'-AACAAAUUC-3', 5'-AACAAAUUCA-3' (서열번호 94), 5'-AACAAAUUCAU-3' (서열번호 95) 및 5'-AACAAAUUCAUU-3' (서열번호 96)로 이루어진 군에서 선택된 하나 이상의 서열; 및 5'-말단에서 3'말단 방향으로, 5'-GGA-3', 5'-AGGA-3', 5'-AAGGA-3', 5'-GAAGGA-3', 5'-UGAAGGA-3', 5'-AUGAAGGA-3' 및 5'-AAUGAAGGA-3'로 이루어진 군에서 선택된 하나 이상의 서열이 연결된 서열을 포함하는 핵산일 수 있다.
(5-6) 스캐폴드 제6 영역에서의 변형
본 발명의 구현예에 따른 엔지니어링된 스캐폴드에서 제6 영역은 PK(R:AR-1) 부분 중 crRNA에 속한 뉴클레오티드를 포함하는 영역이다. 엔지니어링된 스캐폴드의 제6 영역은 자연계에서 발견되는 스캐폴드의 제6 영역과 동일하거나, 제6 영역의 기능이 손상되지 않는 한도 내에서 변형된 것일 수 있다. 일 예로, 제6 영역은 5'-AUGCAAC-3' (서열번호 23) 또는 상기 서열에 적어도 70% 이상의 서열 상동성을 가지는 서열일 수 있다.
(5-7) 가이드 RNA의 제7 영역에서의 변형
본 발명의 구현예에서, 가이드 RNA의 제7 영역에서의 변형은 본 발명의 유전자 편집 시스템의 유전자 편집 효율 향상을 위해 crRNA의 3'-말단에 U-rich tail 서열의 제공을 포함한다. 상기 U-rich tail 서열은 기본적으로 유리딘을 풍부하게 포함하고 있는 것을 특징으로 하며, 유리딘이 하나 이상 연속된 서열을 포함한다.
일부 구현예에서, 엔지니어링된 crRNA는 crRNA의 3'-말단에 제7 영역으로써, U-rich tail 서열을 추가로 더 포함할 수 있다. 상기 U-rich tail 서열은 5'-(UaN)dUe-3', 5'-UaVUaVUe-3' 또는 5'-UaVUaVUaVUe-3'일 수 있다. N은 각각 A, C, G 또는 U일 수 있다. V는 각각 독립적으로 A, C 또는 G일 수 있다. 상기 a는 0 내지 4의 정수일 수 있다. d는 0 내지 3의 정수일 수 있다. e는 0 내지 10의 정수일 수 있다.
일 구현예로, 상기 U-rich tail 서열은 1 내지 10개의 유리딘 반복 서열을 포함할 수 있다. 상기 U-rich tail 서열은 엔지니어링된 가이드 RNA를 포함하는 유전자 편집 시스템의 실제 사용 환경 및 발현 환경, 예를 들어, 진핵 세포 또는 원핵 세포 내부 환경에 따라 유리딘 외 추가적인 염기를 더 포함할 수 있다. 일 예로, 상기 U-rich tail 서열은 UV, UUV, UUUV 및/또는 UUUUV가 하나 이상 반복된 서열을 포함할 수 있다. 이때, V는 아데노신(A), 시티딘(C), 구아노신(G) 중 하나이다. U-rich tail 서열은 본 발명의 초소형 유전자 편집 시스템에 포함된 crRNA 서열의 3'-말단에 연결된 것을 특징으로 한다.
상기 U-rich tail 서열은 본 발명에서 제공하는 augment RNA 및 Cas12f1 변이체 단백질 복합체의 표적 핵산에 대한 절단 효율을 높이는 역할을 한다. 이때, 상기 표적 핵산은 단일가닥 DNA, 이중가닥 DNA 및/또는 RNA일 수 있다. 본 명세서에서 사용되는 "tail 서열"이라는 용어는, 유리딘(U)이 풍부하게 포함된 RNA 서열 그 자체뿐 아니라, 이를 암호화하는 DNA 서열을 의미할 수도 있으며, 이는 문맥에 따라서 적절하게 해석된다. 본 발명자들은 U-rich tail 서열의 구조 및 그 효과에 대해 실험적으로 자세히 밝혔으며, 이하 구체적인 구현예로 더 자세히 설명한다.
일 예로, U-rich tail 서열은 Ux로 표현될 수 있다. 상기 x는 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20일 수 있다. 일 구현예로, x는 바로 이전 문장에서 선택된 두 수치 범위 내의 정수일 수 있다. 예를 들어, x는 1 내지 6 사이의 정수일 수 있다. 또 다른 예를 들어, x는 1 내지 20 사이의 정수일 수 있다. 일 구현예로, x는 20 이상의 정수일 수 있다.
또한, 일 구현예로, 상기 U-rich tail 서열은 (UaN)nUb로 표현될 수 있다. 이때, N은 아데노신(A), 유리딘(U), 시티딘(C), 구아노신(G) 중 하나이다. 이때, a는 1 내지 5 사이의 정수이고, n은 0 이상의 정수이다. 일 구현예로, n은 0 내지 2 사이의 정수일 수 있다. 일 구현예로, b는 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10일 수 있다. 일 구현예로, b는 바로 이전 문장에서 선택된 두 수치범위 내의 정수일 수 있다. 예를 들어, b는 1 내지 6 사이의 정수일 수 있다.
일 구현예로, 상기 U-rich tail 서열은 (UaV)nUb로 표현될 수 있다. 이때, 상기 V는 아데노신(A), 시티딘(C), 구아노신(G) 중 하나이다. 이때, a는 1 내지 4 사이의 정수이고, n은 0 이상의 정수이다. 일 구현예로, n은 1 또는 2일 수 있다. 일 구현예로, b는 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20일 수 있다. 일 구현예로, b는 바로 이전 문장에서 선택된 두 수치범위 내의 정수일 수 있다. 예를 들어, b는 1 내지 6 사이의 정수일 수 있다. 또 다른 예를 들어, b는 1 내지 20 사이의 정수일 수 있다. 일 구현예로, b는 20 이상의 정수일 수 있다.
또한, 상기 U-rich tail 서열은 Ux로 표현되는 서열 및 (UaV)n로 표현되는 서열이 조합된 형태일 수 있다. 일 구현예로, 상기 U-rich tail 서열은 U)n1-V1-(U)n2-V2-Ux로 표현될 수 있다. 이때, V1 및 V2는 각각 아데닌(A), 시티딘(C), 구아닌(G) 중 하나이다. 이때, n1, 및 n2는 각각 1 내지 4 사이의 정수일 수 있다. 이때, 상기 x는 1 내지 20 사이의 정수일 수 있다.
또한, 상기 U-rich tail 서열의 길이는 1nt, 2nt, 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 또는 20nt일 수 있다. 일 구현예로, 상기 U-rich tail 서열의 길이는 20nt 이상일 수 있다.
일 구현예로, 상기 U-rich tail의 서열은 5'-U-3', 5'-UU-3', 5'-UUU-3', 5'-UUUU-3', 5'-UUUUU-3', 5'-UUUUUU-3', 5'-UUURUUU-3' (서열번호 67), 5'-UUURUUURUUU-3' (서열번호 68), 5'-UUUURU-3' (서열번호 69), 5'-UUUURUU-3' (서열번호 70), 5'-UUUURUUU-3' (서열번호 71), 5'-UUUURUUUU-3' (서열번호 72), 5'-UUUURUUUUU-3' (서열번호 73), 또는 5'-UUUURUUUUUU-3' (서열번호 74)일 수 있다. 여기서 R은 A 또는 G일 수 있다. 바람직하게, 상기 U-rich tail의 서열은 상기 서열번호 67 내지 74 중 어느 하나의 염기서열에서 상기 R이 A인 것으로, 서열번호 75 내지 서열번호 82 중 어느 하나의 염기서열을 포함하거나 이로 이루어진 것일 수 있다.
또한, 상기 U-rich tail의 서열은 상기 서열번호 67 내지 74 중 어느 하나의 염기서열에서 상기 R이 G인 것으로, 서열번호 83 내지 서열번호 90 중 어느 하나의 염기서열을 포함하거나 이로 이루어진 것일 수 있다. 가장 바람직하게, 상기 U-rich tail의 서열은 5'-UUUUAUUUU-3' (서열번호 80), 5'-UUUUAUUUUUU-3' (서열번호 82), 5'-UUUUGUUUUUU-3' (서열번호 90) 또는 5'-UUUUUU-3' (서열번호 91)일 수 있다.
일 구현예에서, U-rich tail 서열은 서열번호 67 내지 서열번호 91로 이루어진 군에서 선택된 어느 하나의 뉴클레오티드 서열을 포함하거나 이로 이루어질 수 있다.
(6) 추가 서열(additional sequence)
본 발명의 상기 엔지니어링된 tracrRNA는 추가 서열(additional sequence)을 선택적으로 더 포함할 수 있다. 상기 추가 서열은 엔지니어링된 tracrRNA의 3'-말단에 위치할 수 있다. 상기 추가 서열은 제4 영역의 3'-말단에 위치할 수 있다. 또한, 상기 추가 서열은 또한 엔지니어링된 tracrRNA의 5'-말단에 위치할 수 있다. 예를 들어, 상기 추가 서열은 제1 영역의 5'-말단에 위치할 수 있다.
상기 추가 서열은 1개 내지 40개의 뉴클레오티드일 수 있다. 일 구현예로서, 상기 추가 서열은 임의의 뉴클레오티드 서열 또는 임의로 배열된 뉴클레오티드 서열일 수 있다. 예를 들어, 상기 추가 서열은 5'-AUAAAGGUGA-3' (서열번호 97) 서열일 수 있다.
또한, 상기 추가 서열은 공지된 뉴클레오티드 서열일 수 있다. 일 예로, 상기 추가 서열은 hammerhead ribozyme 뉴클레오티드 서열일 수 있다. 여기서, 상기 hammerhead ribozyme 뉴클레오티드 서열은 5'-CUGAUGAGUCCGUGAGGACGAAACGAGUAAGCUCGUC-3' (서열번호 98) 서열 또는 5'-CUGCUCGAAUGAGCAAAGCAGGAGUGCCUGAGUAGUC-3' (서열번호 99) 서열일 수 있다. 상기 예시는 단순 예시로, 이에 제한되지 않는다.
(7) 화학적 변형(Chemical modification)
일부 구현예에서, 상기 엔지니어링된 tracrRNA 또는 엔지니어링된 crRNA는 필요에 따라 적어도 하나 이상의 뉴클레오티드가 화학적 변형을 가질 수 있다. 이때, 상기 화학적 변형은 뉴클레오티드의 염기 및/또는 당에서 발생할 수 있는 다양한 공유 결합의 변형일 수 있다.
일 예로, 상기 화학적 변형은 methylation, halogenation, acetylation, phosphorylation, phosphorothioate linkage, locked nucleic acid(LNA), 2'-O-methyl 3'phosphorothioate(MS) 또는 2'-O-methyl 3'thioPACE(MSP)일 수 있다. 상기 예시는 단순 예시로, 이에 제한되지 않는다.
본 발명의 augment RNA 및 Cas12f1 변이체 단백질 복합체를 포함하는 초소형 유전자 편집 시스템에 사용하는 경우, 자연계에서 발견되는 가이드 RNA를 사용하는 경우에 비해 세포 내에서 표적 핵산 또는 표적 유전자의 절단 또는 편집이 현저하게 향상되는 효과가 나타난다.
무엇보다 상기 엔지니어링된 가이드 RNA는 고효율을 나타내는 길이의 최적화와 이에 따른 가이드 RNA 합성 비용 절감, 바이러스 벡터에 삽입하는 경우에 추가 공간 또는 용량 확보, tracrRNA의 정상적인 발현, 작동가능한 가이드 RNA 발현의 증가, 가이드 RNA의 안정성(stability) 증가, 가이드 RNA와 Cas12f1 변이체 단백질 복합체의 안정성 증가, 고효율의 가이드 RNA 및 Cas12f1 변이체 단백질 복합체 형성 유도, 가이드 RNA 및 Cas12f1 변이체 단백질 복합체를 포함하는 초소형 유전자 편집 시스템에 의한 표적 핵산의 절단 효율 증가 및 상기 시스템에 의한 표적 핵산의 편집 효율 증가 효과를 수반할 수 있다. 이에 따라, Cas12f1 변이체 단백질 또는 이의 동족체 단백질에 대해 상술한 엔지니어링된 가이드 RNA를 사용하면 전술한 종래 기술의 한계점을 극복하여 세포 내에서 높은 효율로 유전자를 절단 또는 편집할 수 있다.
또한, 엔지니어링된 가이드 RNA는 자연계에서 발견되는 가이드 RNA와 비교하여 짧은 길이를 가지므로 유전자 편집 기술 분야에서 그 응용 가능성이 높다. 상기 엔지니어링된 가이드 RNA를 사용하면 가이드 RNA 및 Cas12f1 변이체 단백질 복합체를 포함하는 초소형 유전자 편집 시스템의 크기가 매우 작고, 편집 효율이 우수하다는 장점은 다양한 유전자 편집 기술에 활용할 수 있게 된다.
4. 유전자 편집용 조성물
본 발명의 다른 태양에 따르면, 상술한 유전자 편집 시스템을 포함하는 유전자 편집용 조성물이 제공된다. 또한, 후술한 벡터 시스템 또는 상기 유전자 편집 시스템 및 벡터 시스템을 모두 포함하는 유전자 편집용 조성물이 제공된다.
일 구현예로, 유전자 편집용 조성물은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 포함하는 소형 엔도뉴클레아제 또는 상기 엔도뉴클레아제를 암호화하는 핵산; 및 가이드 RNA 또는 상기 가이드 RNA를 암호화하는 핵산을 포함할 수 있다. 상기 "Cas12f1 변이체 단백질", "동족체 단백질" 및 "가이드 RNA"에 관한 사항은 상술한 내용을 참조한다.
본 발명의 유전자 편집용 조성물은 상기 본 발명에 따른 초소형 유전자 편집 시스템의 각 구성요소 이외에, 유전자 편집 용도에 필요한 적절한 물질을 추가로 포함할 수 있음은 자명하다.
III. 초소형 유전자 편집 시스템의 구성요소를 암호화하는 핵산
본 발명에서 제공하는 초소형 유전자 편집 시스템의 각 구성요소는 세포 내에서 발현되도록 하는 것이므로, 본 발명의 일 태양에 따르면, 초소형 유전자 편집 시스템의 각 구성요소를 암호화하는 핵산 또는 폴리뉴클레오티드가 제공된다.
구체적으로, 핵산 또는 폴리뉴클레오티드는 발현하고자 하는 상기 초소형 유전자 편집 시스템에 포함된 유전자 편집 단백질 및/또는 가이드 RNA를 암호화하는 핵산 서열을 포함한다. 이때, 상기 핵산 또는 폴리뉴클레오티드의 서열은 야생형의 유전자 편집 단백질 및 야생형의 가이드 RNA를 암호화하는 핵산 서열뿐만 아니라, 그 목적에 따라 엔지니어링된 augment RNA 및/또는 코돈 최적화된 유전자 편집 단백질을 암호화하는 핵산 서열, 엔지니어링된 유전자 편집 단백질을 암호화하는 핵산 서열, 또는 DNA 이중가닥 절단 활성이 상실되거나 감소된 유전자 편집 단백질을 암호화하는 핵산 서열을 포함할 수 있다.
본 발명에서, 상기 핵산 또는 폴리뉴클레오티드는 초소형 유전자 편집 단백질인 Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 발현하도록 구성된 서열을 포함할 수 있다. 여기서, 상기 Cas12f1 변이체 단백질 또는 이의 동족체 단백질은 DNA 이중가닥 또는 단일가닥을 절단하는 활성을 가지는 단백질일 수 있다.
일 구현예로, 상기 핵산 또는 폴리뉴클레오티드는 Cas12f1 변이체 단백질을 발현하도록 구성된 서열을 포함할 수 있다. 여기서, 상기 야생형의 Cas12f1 변이체 단백질은 서열번호 1의 아미노산 서열로 이루어진 단백질일 수 있다. 또한, 본 발명에 따른 Cas12f1 변이체 단백질의 동족체는 서열번호 5의 아미노산 서열로 이루어진 Cas12f1 단백질의 N-말단에 1개 내지는 28개의 아미노산이 추가된 단백질일 수 있다.
또한, 상기 핵산 또는 폴리뉴클레오티드는 Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 암호화하는 서열을 포함할 수 있다. 바람직하게, 상기 핵산 또는 폴리뉴클레오티드는 Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 암호화하는 인간 코돈 최적화된 핵산 서열을 포함할 수 있다. 여기서, Cas12f1 변이체 단백질은 서열번호 1 내지 4로 이루어진 군에서 선택된 어느 하나의 아미노산 서열로 이루어진 단백질일 수 있고, 동족체 단백질은 서열번호 141 내지 서열번호 232로 이루어진 군에서 선택된 어느 하나의 아미노산 서열로 이루어진 단백질일 수 있다.
또한, 상기 핵산 또는 폴리뉴클레오티드는 변형된 Cas12f1 변이체 단백질 또는 Cas12f1 변이체 융합 단백질을 암호화하는 서열을 포함할 수 있다. 일 구현예로, 상기 핵산 또는 폴리뉴클레오티드는 표적 핵산의 이중가닥 중 하나의 가닥만 절단하도록 변경된 Cas12f1 변이체 단백질을 발현하도록 구성된 서열을 포함할 수 있다. 일 예로, 상기 변형된 Cas12f1 변이체 단백질은 표적 핵산의 이중가닥 중 하나의 가닥만 절단할 수 있고, 절단하지 않는 가닥에 대해 염기 교정(Base editing) 또는 프라임 교정(Prime editing)을 할 수 있도록 변경된 것일 수 있다. 또는, 상기 핵산 또는 폴리뉴클레오티드는 표적 핵산에 대해 염기 교정(Base editing) 또는 프라임 교정(Prime editing) 또는 유전자 발현 조절 기능을 할 수 있도록 변경된 Cas12f1 변이체 단백질을 암호화하는 서열을 포함할 수 있다.
또한, 상기 핵산 또는 폴리뉴클레오티드는 Cas12f1 변이체에 대해 최적의 표적 효율을 가지도록 엔지니어링된 가이드 RNA(augment RNA)를 발현하도록 구성된 것이거나 또는 하나 또는 둘 이상의 서로 다른 엔지니어링된 가이드 RNA를 발현하도록 구성된 서열을 포함할 수 있다. 일 예로, 상기 augment RNA 서열은 스캐폴드 서열, 스페이서 서열 및 U-rich tail 서열을 포함할 수 있다. 구체적으로, 상기 augment RNA 서열은 변경된 tracrRNA 서열 및/또는 변경된 crRNA 서열을 포함하고, 여기에 U-rich tail 서열을 포함할 수 있다. 일 예로, 상기 U-rich tail 서열은 (UaN)nUb로 표현될 수 있다. 여기서, N은 아데노신(A), 유리딘(U), 시티딘(C), 구아노신(G) 중 하나이다. 여기서, a는 1 이상 4 이하의 한 정수이고, n은 0, 1, 2 중의 한 정수이며, b는 1 이상 10 이하의 한 정수다. 또 다른 구현예로, 상기 U-rich tail 서열은 (UaV)nUb로 표현될 수 있다. 이때, a, n, 및 b는 정수이며, a는 1 이상 4 이하, n은 0 이상이며, b는 1 이상 10 이하일 수 있다.
IV. 초소형 유전자 폅집 시스템의 발현을 위한 벡터의 설계
본 발명에서 제공하는 초소형 유전자 편집 시스템을 유전자 편집에 사용하기 위해서, 상기 유전자 편집 시스템의 각 구성을 암호화하는 서열을 포함하는 벡터를 표적 세포 내에 도입시키고, 표적 세포 내에서 상기 유전자 편집 시스템의 각 구성이 발현되도록 하는 방법이 이용될 수 있다.
또한, 표적 핵산 또는 표적 유전자를 편집하기 위한 본 발명의 초소형 유전자 편집 시스템은 우수한 표적 효율을 달성하기 위해, 가이드 RNA 및 Cas12f1 변이체 단백질 복합체의 각 구성성분은 작동가능하게 연결되어 하나의 벡터로 포함되는 것이 바람직하다. 여기서, 핵산분해 단백질 또는 가이드 분자에는 필요에 따라 효과기 단백질이 연결되어 융합된 형태의 단백질을 이룰 수 있다.
일 예로, 상기 융합된 형태의 단백질은 박테리오파지 외피 단백질 내에 존재하는 직교 RNA-결합 단백질 또는 어댑터 단백질을 포함할 수 있다. 여기서, 외피 단백질은 MS2, Qβ, F2, GA, fr, JP501, M12, R17, BZ13, JP34, JP500, KU1, M11, MX1, TW18, VK, SP, FI, ID2, NL95, TW19, AP205, ΦCb5, ΦCb8r, ΦCb12r, ΦCb23r, 7s 및 PRR1등이 포함될 수 있다. 또한, 상기 융합된 형태의 단백질은 하나 이상의 지질 나노입자를 통해 전달될 수 있다.
일 구현예로, 본 발명의 초소형 유전자 편집 시스템의 구성요소에 해당하는 초소형 유전자 편집 단백질인 Cas12f1 변이체 단백질 또는 이의 동족체 단백질은 이를 암호화하는 하나 이상의 가이드 RNA 또는 하나 이상의 mRNA 분자로서 세포에 전달될 수 있다. 이 때, 상기 RNA 분자는 하나 이상의 지질 나노입자를 통해 전달될 수 있다.
또한, 본 발명의 초소형 유전자 편집 시스템의 구성요소는 하나 이상의 DNA 분자형태일 수 있다. 여기서, 하나 이상의 DNA 분자는 유전자 편집 단백질 또는 가이드 분자를 발현시키도록 작동가능하게 구성된 하나 이상의 조절 요소를 포함할 수 있다. 필요에 따라 하나 이상의 조절 요소는 유도성 프로모터를 포함할 수 있다.
상기 초소형 유전자 편집 시스템을 구성하는 DNA 분자들은 하나 이상의 아데노-연관 바이러스(AAV) 벡터 내에 포함되어 세포 내로 전달될 수 있다. 바람직하게, 상기 DNA 분자들은 모두 하나의 아데노-연관 바이러스(AAV) 벡터 내에 포함되어 세포 내로 전달될 수 있다.
보다 구체적으로, 본 발명의 초소형 유전자 편집 시스템이 세포 내에서 발현되도록 하는 벡터의 구성 요소는 다음을 포함한다.
1. 초소형 유전자 편집 시스템의 구성요소를 암호화하는 핵산 구조물
상기 벡터의 목적이 본 발명의 초소형 유전자 편집 시스템의 각 구성요소를 세포 내에서 발현되도록 하는 것이므로, 상기 벡터의 서열은 초소형 유전자 편집 시스템의 각 구성요소를 암호화하는 핵산 서열 중 하나 이상을 필수적으로 포함해야 한다.
일 구현예로, 벡터 시스템은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 포함하는 소형 엔도뉴클레아제를 암호화하는 뉴클레오티드가 작동가능하게 연결된 제1 핵산 구조물; 및 가이드 RNA(guide RNA)를 암호화하는 뉴클레오티드 서열이 작동가능하게 연결된 제2 핵산 구조물을 포함할 수 있다. 이때, 상기 제1 핵산 구조물 및 제2 핵산 구조물은 벡터 시스템의 동일한 벡터 상에 또는 상이한/별개의 벡터 상에 위치될 수 있다. 여기서, 상기 연결은 직접 또는 링커를 통해 연결될 수 있다.
일 구현예로, 상기 핵산 구조물은 엔지니어링된 가이드 RNA(guide RNA)를 암호화하는 핵산을 포함할 수 있다. 여기서 엔지니어링된 가이드 RNA(guide RNA)는 엔지니어링된 tracrRNA 및/또는 엔지니어링된 crRNA를 포함할 수 있다. 이때, 상기 엔지니어링된 가이드 RNA는 앞서 설명한 엔지니어링된 가이드 RNA의 구현예와 동일한 구성을 가질 수 있다.
구체적으로, 상기 가이드 RNA는 MS1에서 변형을 갖는 augment RNA(서열번호 44), MS1/MS2에서 변형을 갖는 augment RNA(서열번호 45), MS1/MS2/MS3에서 변형을 갖는 augment RNA Cas12f1_ge3.0(서열번호 46), MS2/MS3/MS4에서 변형을 갖는 augment RNA Cas12f1_ge4.0(서열번호 47) 및/또는 MS2/MS3/MS4/MS5에서 변형을 갖는 augment RNA Cas12f1_ge4.1(서열번호 48)을 암호화하는 핵산서열을 포함하거나/이루어진 것일 수 있다. 또한, 서열번호 105 내지 서열번호 137에서 선택된 어느 하나의 엔지니어링된 augment RNA 또는 상기 서열번호 125 내지 137의 염기서열로 이루어진 엔지니어링된 augment RNA 각각에 본 발명의 MS2 변형이 추가된 augment RNA를 암호화하는 핵산을 포함하거나/이루어진 것일 수 있다.
또한, 상기 핵산 구조물에서 새로운 초소형 유전자편집 단백질 Cas12f1 변이체 단백질은 서열번호 1 내지 서열번호 4로 이루어진 군에서 선택된 어느 하나의 아미노산 서열을 포함하는 단백질이고, 상기 핵산 구조물은 상기 단백질을 암호화하는 핵산 또는 상기 단백질의 코돈-최적화된 핵산을 포함할 수 있다. 바람직하게, 초소형 유전자 편집 단백질은 서열번호 1 내지 서열번호 4로 이루어진 군에서 선택된 어느 하나의 아미노산 서열로 이루어진 것을 특징으로 하는 유전자 편집 단백질일 수 있고, 이를 암호화하는 코돈-최적화된 핵산은 인간 코돈-최적화된 핵산으로서, 서열번호 101 내지 서열번호 104 중 선택된 어느 하나의 뉴클레오티드 서열로 이루어진 것일 수 있다.
상기 핵산 구조물의 새로운 초소형 유전자편집 단백질인 Cas12f1 변이체 단백질 또는 이의 동족체 단백질은 일정한 길이의 펩타이드가 추가될 수 있다. 상기 펩타이드는 서열번호 49 내지 서열번호 51로 이루어진 군에서 선택된 어느 하나의 아미노산 서열을 암호화하는 핵산서열을 포함하거나 이로 이루어진 것일 수 있다.
또한, 상기 핵산 구조물은 N-말단 또는 C-말단에 핵 위치 신호(nuclear localization signal, NLS) 또는 핵 유출 신호(nuclear export signal, NES) 서열을 1개 이상 포함하는 것일 수 있다. NLS 서열은 핵 수송(nuclear transport) 작용으로 세포 핵 외부의 물질을 핵 내부로 수송할 때, 수송 대상인 단백질 등에 붙어 일종의 "태그" 역할을 하는 일정 길이의 펩티드 또는 그 서열을 의미한다. NES 서열은 핵 수송(nuclear transport) 작용으로 세포 핵 내부의 물질을 핵 외부로 수송할 때, 수송 대상인 단백질에 붙어 일종의 "태그" 역할을 하는 일정 길이의 펩타이드 또는 그 서열을 의미한다.
상기 NLS 서열은 서열번호 52 또는 서열번호 53의 뉴클레오티드 서열이거나, 서열번호 54 내지 서열번호 57 중 선택된 어느 하나의 아미노산 서열을 암호화하는 핵산서열을 포함하거나 이로 이루어진 것일 수 있다.
상기 벡터의 서열은 발현하고자 하는 상기 초소형 유전자 편집 시스템에 포함된 가이드 RNA 및/또는 유전자 편집 단백질을 암호화하는 핵산 서열을 포함한다. 상기 핵산 서열에 관련된 내용은 "III. 초소형 유전자 편집 시스템의 구성요소를 암호화하는 핵산"에 서술된 내용을 참조한다.
상기 벡터는 서로 다른 둘 이상의 엔지니어링된 가이드 RNA를 발현하도록 구성된 것일 수 있다. 일 구현예로, 상기 벡터는 제1 augment RNA 및 제2 augment RNA를 발현하도록 구성된 것일 수 있다. 일 구현예로, 상기 제1 augment RNA 서열은 제1 스캐폴드 서열, 제1 스페이서 서열 및 제1 U-rich tail 서열을 포함하고, 상기 제2 augment RNA 서열은 제2 스캐폴드 서열, 제2 스페이서 서열 및 제2 U-rich tail 서열을 포함할 수 있다.
또한, 상기 벡터는 전술된 초소형 유전자 편집 시스템의 구성요소 이외에, 이 기술 분야의 통상의 기술자가 필요에 의해 발현시키고자 하는 부가 발현 요소를 암호화하는 핵산 서열을 포함하고 있을 수 있다.
일 예로, 상기 부가 발현 요소는 태그일 수 있다. 구체적으로, 상기 부가 발현 요소는, 글리포세이트(glyphosate), 글루포시네이트암모늄 (glufosinate ammonium) 또는 포스피노트리신(phosphinothricin)과 같은 제초제 저 항성 유전자, 암피실린(ampicillin), 카나마이신(kanamycin), G418, 블레오마이신(Bleomycin), 하이그로마이신(hygromycin), 클로람페니콜(chloramphenicol)과 같은 항생제 내성 유전자일 수 있다.
2. 조절 및/또는 제어 구성요소
상기 벡터를 세포 내에서 발현시키기 위해서는 하나 이상의 조절 및/또는 제어 구성요소를 포함해야 한다. 구체적으로, 상기 조절 및/또는 제어 구성요소는 프로모터, 인핸서, 인트론, 폴리아데닐화 신호, 코작 공통(Kozak consensus) 서열, 내부 리보솜 유입 부위(IRES, Internal Ribosome Entry Site), 스플라이스 억셉터, 2A 서열 및/또는 복제원점(replication origin)을 포함할 수 있으나, 이에 제한되는 것은 아니다. 여기서, 상기 복제원점은 f1 복제원점, SV40 복제원점, pMB1 복제원점, 아데노 복제원점, AAV 복제원점 및/또는 BBV 복제원점일 수 있으나, 이에 제한되는 것은 아니다.
3. 프로모터
상기 벡터에 포함되어 있는 본 발명의 초소형 유전자 편집 시스템을 암호화하는 핵산 서열을 세포 내에서 발현시키기 위해서, 각 구성 요소를 암호화하는 서열에 프로모터 서열을 작동가능하게 연결시켜 세포 내에서 RNA 전사인자가 활성화될 수 있도록 해야 한다. 상기 프로모터 서열은 대응하는 RNA 전사인자 또는 발현 환경에 따라 달리 설계할 수 있으며, 초소형 유전자 편집 시스템(Hypercompact TaRGET system)의 구성요소를 세포 내에서 적절히 발현시킬 수 있는 것이라면 제한되지 않는다.
일 예로, 상기 프로모터 서열은 RNA 중합효소 RNA Pol I, Pol II 또는 Pol III의 전사를 촉진시키는 프로모터일 수 있다. 구체적으로, 상기 프로모터는 SV40 초기 프로모터, mouse mammary tumor virus long terminal repeat(LTR) 프로모터, adenovirus major late 프로모터(Ad MLP), herpes simplex virus(HSV) 프로모터, CMV immediate early promoter region (CMVIE)와 같은 cytomegalovirus (CMV) 프로모터, rous sarcoma virus (RSV) 프로모터, human U6 small nuclear 프로모터(U6), enhanced U6 프로모터, 7SK 프로모터(7SK) 및 human H1 프로모터(H1) 중 하나 수 있다.
4. 종결 신호
상기 벡터 서열이 프로모터 서열을 포함하는 경우에 RNA 전사인자에 의해 상기 프로모터와 작동 가능하게 연결된 서열의 전사가 유도되는데, 이러한 RNA 전사 인자의 전사 종결을 유도하는 종결 신호가 포함될 수 있다. 상기 종결 신호는 프로모터 서열의 종류에 따라 달라질 수 있다. 구체적으로, 상기 프로모터가 U6, 또는 H1 프로모터일 경우, 상기 프로모터는 티미딘(T) 연속 서열인 TTTTT(T5) 또는 TTTTTT(T6) 서열을 종결 신호로 인식한다.
본 발명에서 제공하는 엔지니어링된 가이드 RNA의 서열은 그 3'-말단에 U-rich tail 서열을 포함한다. 이에 따라, 상기 엔지니어링된 가이드 RNA를 암호화하는 서열은 그 3'-말단에 U-rich tail 서열에 대응하는 T-rich 서열을 포함하게 된다. 전술한 바, 일부 프로모터 서열은 티미딘(T) 연속 서열, 예를 들어 티미딘(T)이 5개 이상 연속으로 연결된 서열을 종결 신호로 인식하므로, 경우에 따라 상기 T-rich 서열을 종결 신호로 인식하게 될 수 있다.
다시 말해, 본 명세서에서 제공하는 벡터 서열이 엔지니어링된 가이드 RNA를 암호화하는 서열을 포함하는 경우, 상기 augment RNA 서열에 포함된 U-rich tail 서열을 암호화하는 서열이 종결 신호로 사용될 수 있다.
일 구현예로, 상기 벡터 서열이 U6 또는 H1 프로모터 서열을 포함하고, 이와 작동가능하게 연결된 엔지니어링된 가이드 RNA를 암호화하는 서열을 포함할 때, 상기 augment RNA 서열에 포함된 U-rich tail 서열을 암호화하는 서열 부분이 종결 신호로 인식될 수 있다. 이때, 상기 U-rich tail 서열은 유리딘(U)이 5개 이상 연속으로 연결된 서열을 포함한다.
5. 부가 발현 요소
상기 벡터는 필요에 따라, NLS, NES 및/또는 태그 단백질 등의 부가 구성 요소를 발현하도록 구성된 것일 수 있다.
일 구현예로, 상기 부가 구성 요소는 상기 Cas12f1 변이체 단백질, Cas12f1 변이체 단백질의 동족체 및/또는 Cas12f1 변이체에 대한 엔지니어링된 가이드 RNA(gRNA)와는 독립적으로 발현될 수 있다.
또 다른 구현예로, 상기 부가 구성 요소는 상기 Cas12f1 변이체 단백질, Cas12f1 변이체 단백질의 동족체 및/또는 Cas12f1 변이체에 대한 엔지니어링된 가이드 RNA(gRNA)와 직접 또는 링커로 연결되어 발현될 수 있다.
일 예로, 본 발명에 따른 초소형 유전자 편집 시스템의 구성요소를 암호화하는 핵산 구조물은 N-말단 또는 C-말단에 핵 위치 신호(nuclear localization sequences, NLS) 서열을 1개 이상 포함하는 것을 특징으로 하는 핵산 구조물일 수 있다. 상기 NLS 서열은 서열번호 54 내지 서열번호 57 중 선택된 어느 하나의 아미노산 서열을 암호화하는 염기서열을 포함하거나/이루어진 것을 특징으로 하는 핵산 구조물일 수 있다. 여기서, 상기 부가 구성 요소는 초소형 유전자 편집 시스템을 발현시키고자 할 때 일반적으로 발현시키는 구성 요소일 수 있으며, 통상의 기술자에게 널리 인식되고 있는 공지기술을 참조할 수 있다.
또한, 본 발명은 일 구현예로, 본 발명에 따른 엔지니어링된 가이드 RNA(gRNA) 또는 이를 암호화하는 핵산 및/또는 초소형 유전자 편집 시스템의 구성 요소를 발현시키기 위해 벡터 등에 포함되는 핵산을 제공한다. 여기서, 상기 핵산은 자연계에 존재하는 DNA 또는 RNA일 수 있고, 상기 핵산의 일부 또는 전부에 화학적 변형이 일어난 변형된 핵산일 수 있다. 예를 들어, 상기 핵산은 하나 이상의 뉴클레오티드가 화학적으로 변형된 것일 수 있다. 이때, 상기 화학적 변형은 이 기술 분야의 통상의 기술자에게 알려진 핵산의 변형을 모두 포함할 수 있다.
6. 발현 벡터의 종류 및 형태
본 발명에 따른 벡터는 바이러스 벡터일 수 있다. 보다 구체적으로, 상기 바이러스벡터는 레트로바이러스, 렌티바이러스, 아데노바이러스, 아데노-연관 바이러스, 백시니아바이러스, 폭스바이러스 및 단순포진 바이러스로 구성된 군에서 선택되는 하나 이상일 수 있다. 일 구현예로, 상기 바이러스 벡터는 아데노-연관 바이러스 벡터일 수 있다.
또한, 본 발명에 따른 벡터는 비바이러스 벡터일 수 있다. 보다 구체적으로, 상기 비바이러스 벡터는 플라스미드, 파지(phage), 네이키드 DNA, DNA 복합체 및 mRNA로 구성된 군에서 선택되는 하나 이상일 수 있다. 일 구현예로, 상기 플라스미드는 pcDNA 시리즈, pSC101, pGV1106, pACYC177, ColE1, pKT230, pME290, pBR322, pUC8/9, pUC6, pBD9, pHC79, pIJ61, pLAFR1, pHV14, pGEX 시리즈, pET 시리즈, 및 pUC19으로 이루어진 군에서 선택된 것일 수 있다. 일 구현예로, 상기 파지는 M13일 수 있고, 상기 벡터는 PCR 앰플리콘(amplicon)일 수 있다.
본 발명에 따른 상기 벡터는 선형 또는 원형 벡터 형태로 설계될 수 있다. 상기 벡터가 선형 벡터인 경우, 상기 선형 벡터 서열이 종결 신호를 따로 포함하지 않더라도, 그 3'-말단에서 RNA 전사가 종결된다. 그러나 상기 벡터가 원형 벡터인 경우, 상기 원형 벡터 서열이 종결 신호를 따로 포함하지 않는다면, RNA 전사가 종결되지 않게 된다. 그러므로 상기 벡터로 원형 벡터를 사용하는 경우에는 의도한 대상을 발현하기 위해서는 각 프로모터 서열과 관련된 전사 인자에 대응하는 종결 신호가 포함되어야 한다.
V. 엔지니어링된 가이드 RNA를 이용한 유전자 편집 방법
본 발명은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질에 대해 최적의 표적 편집 활성을 갖게 하는 엔지니어링된 가이드 RNA(augment RNA)를 이용하여, 대상 세포 내 또는 시험관 내의 표적 핵산 또는 표적 유전자를 편집하거나 표적하는 방법을 제공한다. 상기 유전자 편집 방법은 표적 부위의 핵산을 절단하는 방법일 수 있다. 상기 표적 유전자 또는 표적 핵산은 표적 서열을 포함하고, 상기 표적 핵산은 단일가닥 DNA, 이중가닥 DNA 및/또는 RNA일 수 있다.
본 발명의 일 양태에 따르면, 본 발명의 유전자 편집 시스템, 본 발명의 벡터 시스템 또는 본 발명의 유전자 편집용 조성물을 표적 유전자 또는 표적 핵산과 접촉시키는 단계를 포함하는 유전자 편집 방법이 제공된다.
일 구현예로, 상기 유전자 편집 방법은 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA(augment RNA) 및 Cas12f1 변이체 단백질 또는 이의 동족체 단백질, 또는 이들 각각을 암호화하는 핵산을 표적 핵산 또는 표적 유전자를 포함하고 있는 대상 세포 내에 전달하는 것을 포함한다. 그 결과, 상기 대상 세포 내에 엔지니어링된 가이드 RNA를 포함하는 가이드 RNA 및 Cas12f1 변이체 단백질 복합체가 주입되거나, 상기 가이드 RNA 및 Cas12f1 변이체 단백질 복합체의 형성이 유도되며, 상기 가이드 RNA 및 Cas12f1 변이체 단백질 복합체에 의해 표적 유전자가 편집된다. 유전자 편집은 표적 유전자 또는 표적 핵산 내의 표적 서열을 가지는 이중가닥 DNA, 단일가닥 DNA, 또는 DNA와 RNA 혼성 이중가닥의 핵산 절단을 포함한다. 여기서, 상기 Cas12f1 변이체 단백질은 야생형의 Cas12f1 변이체 단백질, 엔지니어링된 Caf12f1 변이체 단백질, 변형된 Cas12f1 변이체 단백질 또는 Cas12f1 변이체의 동족체 단백질일 수 있다.
일 구현예로, 상기 유전자 편집 방법은 Cas12f1 변이체 단백질이나 이의 동족체 단백질을 암호화하는 핵산; 및 엔지니어링된 가이드 RNA(augment RNA) 또는 이를 암호화하는 핵산을 대상 세포 내에 전달하는 것을 포함할 수 있다. 이때, 상기 엔지니어링된 가이드 RNA(augment RNA) 서열은 변경된 스캐폴드 영역의 서열, 스페이서 서열 및 U-rich tail 서열을 포함한다. 여기서, 상기 변경된 스캐폴드 영역의 서열은 전술한 "3. 3. Cas12f1 변이체 단백질을 위한 엔지니어링된 가이드 RNA" 및 "(2) 스캐폴드 영역"섹션에서 서술된 것과 동일한 특징 및 구조를 가진 것일 수 있다.
일 예로, 상기 엔지니어링된 tracrRNA는 서열번호 29 내지 서열번호 32 중 선택된 어느 하나의 염기서열을 포함하거나/이루어진 것이고, 상기 엔지니어링된 crRNA는 서열번호 33의 염기서열을 포함하거나/이루어진 것일 수 있다.
다른 일 예로, 상기 엔지니어링된 tracrRNA는 서열번호 39 내지 서열번호 42 중 선택된 어느 하나의 염기서열을 포함하거나/이루어진 것이고, 상기 엔지니어링된 crRNA는 서열번호 43의 염기서열을 포함하거나/이루어진 것일 수 있다.
일 구현예로, 상기 엔지니어링된 가이드 RNA는 서열번호 44 내지 서열번호 48 중 선택된 어느 하나의 염기서열을 포함하거나/이루어진 것일 수 있다.
또한, 상기 스페이서 서열은 상기 대상 세포 내에 포함된 표적 유전자, 또는 표적 핵산과 상보적으로 결합할 수 있고, 상기 U-rich tail 서열은 (UaV)nUb로 표현될 수 있다. 여기서, a, n 및 b는 정수이며, a는 1 이상 4 이하, n은 0 이상이며, b는 1 이상 10 이하다. 또 다른 구현예로, 상기 U-rich tail 서열은 (UaN)nUb로 표현될 수 있다. 여기서, N은 아데노신(A), 유리딘(U), 시티딘(C), 구아노신(G) 중 하나이다. 여기서, a는 1 이상 4 이하의 한 정수이고, n은 0, 1, 2 중의 한 정수이며, b는 1 이상 10 이하의 한 정수이다. 일 예로, 상기 U-rich tail의 서열은 5'-U-3', 5'-UU-3', 5'-UUU-3', 5'-UUUU-3', 5'-UUUUU-3', 5'-UUUUUU-3', 5'-UUURUUU-3'(서열번호 67), 5'-UUURUUURUUU-3'(서열번호 68), 5'-UUUURU-3'(서열번호 69), 5'-UUUURUU-3'(서열번호 70), 5'-UUUURUUU-3'(서열번호 71), 5'-UUUURUUUU-3'(서열번호 72), 5'-UUUURUUUUU-3'(서열번호 73), 또는 5'-UUUURUUUUUU-3'(서열번호 74)일 수 있다. 여기서, R은 A 또는 G일 수 있다. 이 경우, 상기 U-rich tail의 서열은 서열번호 75 내지 서열번호 90 중 어느 하나일 수 있다. 바람직하게, 상기 U-rich tail의 서열은 5'-UUUUAUUUU-3'(서열번호 80) 또는 5'-UUUUGUUUU-3'(서열번호 88)일 수 있다.
이하, 엔지니어링된 가이드 RNA(augment RNA)를 이용한 유전자 편집 방법의 단계를 설명한다.
1. 유전자 편집의 대상, 표적 서열 및 스페이서 서열 결정
본 발명의 초소형 유전자 편집 시스템(Hypercompact TaRGET system)으로 유전자 편집을 하고자 하는 대상은 시험관 내 핵산 또는 원핵 세포 또는 진핵 세포 내의 핵산일 수 있다. 보다 구체적으로, 상기 진핵 세포는 효모(yeast), 곤충 세포 식물 세포, 동물 세포 및/또는 인간 세포일 수 있으나, 이에 제한되지 않는다.
표적 핵산, 표적 유전자 또는 표적 서열은 유전자 편집의 목적, 편집 대상의 환경, Cas12f1 변이체 단백질 또는 이의 동족체 단백질이 인식하는 PAM 서열 및/또는 기타 변수를 고려하여 결정할 수 있다. 여기서, 표적 핵산 또는 표적 유전자 내에서 적절한 길이 또는 Cas12f1 변이체 단백질 또는 이의 동족체 단백질이 인식하는 PAM 서열을 가지고 있는 표적 서열을 결정할 수 있다면, 그 방법은 공지된 기술을 활용하여 특별히 제한되지 않게 수행될 수 있다.
상기 표적 서열이 결정되고 나면, 이에 대응하는 가이드 RNA 내의 스페이서 서열을 설계한다. 상기 스페이서 서열은 상기 표적 서열과 결합할 수 있는 서열로 설계된다.
일 구현예로, 상기 스페이서 서열은 상기 표적 핵산 또는 표적 유전자와 상보적으로 결합할 수 있는 서열로 설계된다. 구체적으로, 상기 스페이서 서열은 상기 표적 핵산 또는 표적 유전자의 표적 가닥 서열에 포함된 표적 서열과 상보적인 서열로 설계될 수 있다.
또한, 상기 스페이서 서열은 상기 표적 핵산의 비표적 가닥 서열에 포함된 프로토스페이서의 DNA 서열에 상응하는 RNA 서열로 설계될 수 있다. 구체적으로, 상기 스페이서 서열은 상기 프로토스페이서 서열과 동일한 염기서열을 가지며, 상기 염기서열에 포함된 티미딘(T) 각각이 모두 유리딘(U)으로 치환된 서열로 설계될 수 있다.
일 구현예로, 상기 스페이서 서열은 상기 표적 서열과 60% 이상 서열 동일성을 가지는 상보적인 서열일 수 있다. 바람직하게, 상기 스페이서 서열은 상기 표적서열과 60% 내지 90%의 서열 상동성을 가지는 상보적인 서열일 수 있다. 보다 바람직하게, 상기 스페이서 서열은 상기 표적 서열과 90% 내지 100%의 서열 상동성을 가지는 상보적인 서열일 수 있다.
또한 본 발명에 따른 상기 스페이서 서열은 상기 표적 서열과 0개, 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개 또는 10개의 미스매치를 가지는 상보적인 서열일 수 있다. 일 구현예로, 상기 스페이서 서열은 상기 표적 서열과 1개 내지 5개의 미스매치를 가질 수 있다. 또한, 상기 스페이서 서열은 상기 표적 서열과 6개 내지 10개의 미스매치를 기질 수 있다.
2. 초소형 유전자 편집 시스템(Hypercompact TaRGET system)의 각 구성 요소의 세포 내 전달
본 명세서에서 제공하는 염기교정 및 유전자 편집 방법은 본 발명에 따른 초소형 유전자 편집 시스템(Hypercompact TaRGET system)이 표적 핵산 또는 표적 유전자에 대해 표적 서열을 인식하고 편집하는 활성을 가지는 점을 이용한다.
본 명세서에서 제공하는 유전자 편집 방법은 대상 세포 내에서 Cas12f1 변이체에 대한 엔지니어링된 가이드 RNA(gRNA)를 포함하는 초소형 유전자 편집 시스템 또는 벡터가 표적 핵산 또는 표적 유전자의 표적 서열 부위에 접촉하는 것을 전제로 한다.
이에, 본 발명의 유전자 편집 방법은 상기 초소형 유전자 편집 시스템이 대상 세포 내에서 효과적으로 전달하는 것을 포함한다. 바람직하게, 상기 초소형 유전자가의 핵산 구조물 및/또는 이를 포함하는 초소형 유전자 편집 시스템의 각 구성요소를 대상 세포 내 표적 핵산 또는 표적 유전자의 표적 서열 부위에 접촉하거나 접촉을 유도하는 것을 포함한다.
일 구현예로, 상기 유전자 편집 방법은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질, 또는 이를 암호화하는 핵산; 및 엔지니어링된 가이드 RNA(augment RNA) 또는 이를 암호화하는 핵산을 대상 세포 내에 전달하는 것을 포함할 수 있다. 또한, 상기 유전자 편집 방법은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질; 및 엔지니어링된 가이드 RNA(augment RNA)를 대상 세포 내에 전달하는 것을 포함할 수 있다. 다른 구현예로, 상기 유전자 편집 방법은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질; 및 엔지니어링된 가이드 RNA(augment RNA)를 암호화하는 핵산을 대상 세포 내에 전달하는 것을 포함할 수 있다. 또 다른 구현예로, 상기 유전자 편집 방법은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 암호화하는 핵산; 및 엔지니어링된 가이드 RNA(augment RNA)를 대상 세포 내에 전달하는 것을 포함할 수 있다. 또 다른 구현예로, 상기 유전자 편집 방법은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 암호화하는 핵산; 및 엔지니어링된 가이드 RNA(augment RNA)를 암호화하는 핵산을 대상 세포 내에 전달하는 것을 포함할 수 있다.
Cas12f1 변이체 단백질 또는 이의 동족체 단백질, 또는 이를 암호화하는 핵산; 및 엔지니어링된 가이드 RNA(augment RNA) 또는 이를 암호화하는 핵산은 다양한 전달 형태로, 다양한 전달 방법을 이용하여 대상 세포 내에 전달될 수 있다. 여기서, 상기 유도는 상기 Cas12f1 변이체에 대한 엔지니어링된 가이드 RNA(augment RNA)를 포함하는 초소형 유전자 편집 시스템 또는 초소형 유전자 편집 핵산 구조물이 세포 내에서 표적 핵산과 접촉하도록 하는 방법이라면 특별히 제한되지 않는다.
(1) 전달 형태
본 발명의 상기 방법을 위한 상기 초소형 유전자 편집 핵산 구조물 및 이를 포함하는 초소형 유전자 편집 시스템(Hypercompact TaRGET system)의 전달 형태는 세포 내로 Cas12f1 변이체 단백질 또는 이의 동족체 단백질, 또는 이를 암호화하는 핵산; 및 엔지니어링된 가이드 RNA(augment RNA) 또는 이를 암호화하는 핵산을 적절한 전달 형태로 세포 내로 전달할 수 있는 것이라면 특별히 제한되지 않는다.
본 발명의 상기 방법을 위한 상기 초소형 유전자 편집 핵산 구조물 및 이를 포함하는 초소형 유전자 편집 시스템의 전달 형태로, Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA 및 Cas12f1 변이체 단백질이 결합한 리보뉴클레오단백질 입자(Ribonucleoprotein particle, RNP)를 이용할 수 있다.
일 구현예로, 상기 유전자 편집 방법은 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA 및 Cas12f1 변이체 단백질이 결합한 가이드 RNA 및 Cas12f1 변이체 단백질 복합체를 대상 세포 내에 주입하는 것을 포함할 수 있다.
또 다른 전달 형태로, Cas12f1 변이체 단백질 또는 이의 동족체 단백질, 또는 이를 암호화하는 핵산; 및 엔지니어링된 가이드 RNA 또는 이를 암호화하는 핵산을 포함하는 비바이러스 벡터를 이용할 수 있다.
일 구현예로, 상기 유전자 편집 방법은 Cas12f1 변이체 단백질을 암호화하는 핵산 서열 및 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA를 암호화하는 핵산 서열을 포함하는 비바이러스 벡터를 대상 세포 내에 주입하는 것을 포함할 수 있다. 구체적으로, 상기 비바이러스 벡터는 플라스미드, 네이키드 DNA, DNA 복합체, mRNA 또는 선형의 PCR 엠플리콘일 수 있으나, 이에 제한되는 것은 아니다.
또 다른 구현예로, 상기 유전자 편집 방법은 Cas12f1 변이체 단백질을 암호화하는 핵산 서열을 포함하는 제1 비바이러스 벡터 및 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA를 암호화하는 핵산 서열을 포함하는 제2 비바이러스 벡터를 대상 세포 내에 주입하는 것을 포함할 수 있다. 구체적으로, 상기 제1 비바이러스 벡터 및 상기 제2 비바이러스 벡터는 각각 플라스미드, 네이키드 DNA, DNA 복합체, mRNA 및 선형의 PCR 엠플리콘으로 이뤄진 군에서 선택된 하나일 수 있으나, 이에 제한되는 것은 아니다.
또 다른 전달 형태로, Cas12f1 변이체 단백질을 암호화하는 핵산 서열 및 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA를 암호화하는 핵산 서열을 포함하는 바이러스를 이용할 수 있다.
일 구현예로, 상기 유전자 편집 방법은 Cas12f1 변이체 단백질을 암호화하는 핵산 서열 및 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA를 암호화하는 핵산 서열을 포함하는 하나의 바이러스를 대상 세포 내에 주입하는 것을 포함할 수 있다. 구체적으로, 상기 바이러스는 레트로바이러스, 렌티바이러스, 아데노바이러스, 아데노-연관 바이러스, 백시니아바이러스, 폭스바이러스 및 단순포진 바이러스로 구성된 군에서 선택된 하나일 수 있으나, 이에 제한되는 것은 아니다. 바람직하게, 상기 바이러스는 아데노-연관 바이러스일 수 있다.
또 다른 일 예로, 상기 유전자 편집 방법은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 암호화하는 핵산 서열을 포함하는 제1 바이러스 및 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA를 암호화하는 핵산 서열을 포함하는 제2 바이러스를 대상 세포 내에 주입하는 것을 포함할 수 있다. 구체적으로, 상기 제1 바이러스 벡터 및 제2 바이러스 벡터는 각각 레트로바이러스, 렌티바이러스, 아데노바이러스, 아데노-연관 바이러스, 백시니아바이러스, 폭스바이러스 및 단순포진 바이러스로 구성된 군에서 선택된 하나일 수 있으나, 이에 제한되는 것은 아니다.
또한, 상기 전달 형태는 Cas12f1 변이체 단백질 또는 이의 동족체 단백질, 또는 이를 암호화하는 핵산; 및 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA 또는 이를 암호화하는 핵산을 나노파티클을 이용하여 전달하는 것일 수 있다.
일 구현예로, 상기 전달 방법은 Cas12f1 변이체 단백질 또는 이를 암호화하는 핵산, Cas12f1 변이체에 대해 제1 엔지니어링된 가이드 RNA 또는 이를 암호화하는 핵산 및/또는 Cas12f1 변이체에 대해 제2 엔지니어링된 가이드 RNA 또는 이를 암호화하는 핵산을 나노파티클을 이용하여 전달하는 것일 수 있다.
여기서, 상기 전달 방법은 양이온성 리포좀법, 초산 리튬-DMSO, 지질-매개 형질감염(transfection), 인산칼슘 침전법(precipitation), 리포펙션(lipofection), 전기천공법, 유전자총, 초음파천공법, 자기주입법(magnetofection), 및/또는 일시적인 세포 압축 또는 스퀴징PEI(Polyethyleneimine)-매개 형질감염, DEAE-dextran 매개 형질감염 또는 나노파티클-매개 핵산 전달일 수 있으나, 이에 제한되는 것은 아니다.
또한, 본 발명에서 Cas12f1 변이체 단백질 또는 이의 동족체 단백질, 또는 이를 암호화하는 핵산; 및 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA 또는 이를 암호화하는 핵산을 세포 내로 전달하여 표적 유전자를 편집하는 방법의 전달 형태는 전술한 전달 형태들을 조합하여 수행할 수 있다.
일 구현예로, 상기 유전자 편집 방법은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질, 또는 이를 암호화하는 핵산을 제1 전달 형태로 전달하고, Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA 또는 이를 암호화하는 핵산은 제2 전달 형태로 전달하는 것을 포함할 수 있다. 이때, 상기 제1 전달 형태 및 상기 제2 전달 형태는 각각 전술한 전달 형태 중 어느 하나일 수 있다.
일 구현예로, 상기 유전자 편집 방법의 전달 형태는 하나의 벡터에 전달하고자 하는 본 발명에 따른 초소형 유전자 편집 핵산 구조물 또는 이를 포함하는 초소형 유전자 편집 시스템의 구성요소를 편집의 대상이 되는 표적 핵산 또는 표적 유전자이 존재하는 환경으로 전달시킬 수 있는 전달 형태라면 특별히 제한되지 않는다.
(2) 전달 순서
상기 유전자 편집 방법은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질, 또는 이를 암호화하는 핵산; 및 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA 또는 이를 암호화하는 핵산을 세포 내 전달하는 것을 포함하는데, 이때, 상기 구성이 세포 내에 동시에 전달될 수 있지만, 시간 차를 두고 순차적으로 전달될 수 있다.
일 구현예로, 상기 유전자 편집 방법은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질, 또는 이를 암호화하는 핵산; 및 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA 또는 이를 암호화하는 핵산을 동시에 전달하는 것을 포함할 수 있다.
다른 구현예로, 상기 유전자 편집 방법은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질, 또는 이를 암호화하는 핵산을 세포 내로 전달한 후, 시간 차를 두고 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA 또는 이를 암호화하는 핵산을 세포 내로 전달하는 것을 포함할 수 있다.
또 다른 구현예로, 상기 유전자 편집 방법은 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA 또는 이를 암호화하는 핵산을 세포 내로 전달한 후, 시간 차를 두고 Cas12f1 변이체 단백질 또는 이의 동족체 단백질, 또는 이를 암호화하는 핵산을 세포 내로 전달하는 것을 포함할 수 있다.
또한, 본 발명에서 제공하는 유전자 편집 방법은 대상 세포 내에 Cas12f1 변이체 단백질 또는 이의 동족체 단백질, 또는 이를 암호화하는 핵산; 및 둘 이상의 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA 또는 이를 암호화하는 핵산을 전달하는 것을 포함할 수 있다.
상기 방법을 통해, 서로 다른 서열을 표적하는 둘 이상의 가이드 RNA 및 Cas12f1 변이체 단백질 복합체가 대상 세포 내에 주입되거나, 대상 세포 내에서 상기 둘 이상의 가이드 RNA 및 Cas12f1 변이체 단백질 복합체가 형성될 수 있다. 그 결과, 세포 내에 포함된 둘 이상의 표적 유전자 또는 표적 핵산이 편집될 수 있다.
일 구현예로, 상기 유전자 편집 방법은 Cas12f1 변이체 단백질 또는 이를 암호화하는 핵산, Cas12f1 변이체에 대해 제1 엔지니어링된 가이드 RNA 또는 이를 암호화하는 핵산, 및 Cas12f1 변이체에 대해 제2 엔지니어링된 가이드 RNA 또는 이를 암호화하는 핵산을 표적 유전자 또는 표적 핵산을 포함하고 있는 대상 세포 내에 전달하는 것을 포함한다. 이때, 상기 각 구성요소는 전술한 전달 형태 및 전달 방법 중 하나 이상을 사용하여 세포 내로 전달될 수 있다. 여기서, 둘 이상의 구성요소가 세포 내에 동시에 전달될 수 있고, 시간차를 두고 순차적으로 전달될 수 있다.
또한, 일 구현예에서, 상기 초소형 유전자 편집 시스템(Hypercompact TaRGET system)은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질에 대해서 그 표적 활성이나 유전자 편집 활성을 최대로 발휘하게 하는 엔지니어링된 가이드 RNA를 포함한다.
이는 전술한 "3. Cas12f1 변이체 단백질을 위한 엔지니어링된 가이드 RNA(augment RNA)" 및 "(2) 스캐폴드 영역" 섹션에 기재된 어느 하나 이상일 수 있다. 바람직하게, 상기 가이드 RNA는 MS1에서 변형을 갖는 augment RNA(서열번호 44), MS1/MS2에서 변형을 갖는 augment RNA(서열번호 45), MS1/MS2/MS3에서 변형을 갖는 augment RNA Cas12f1_ge3.0(서열번호 46), MS2/MS3/MS4에서 변형을 갖는 augment RNA Cas12f1_ge4.0(서열번호 47) 및/또는 MS2/MS3/MS4/MS5에서 변형을 갖는 augment RNA Cas12f1_ge4.1(서열번호 48)일 수 있다. 이는 단순한 예시로써, 이에 제한되지 않는다.
또한, 본 발명의 유전자 편집용 조성물은 상기 본 발명에 따른 초소형 유전자 편집 시스템(Hypercompact TaRGET system)의 각 구성요소 이외에, 유전자 편집 용도에 필요한 적절한 물질을 추가로 포함할 수 있음은 자명하다.
본 발명은 또한, 상기 본 발명에 따른 초소형 유전자 편집 시스템 또는 이를 포함하는 상기 조성물을 표적 서열과 접촉시키는 단계를 포함하는 핵산을 편집하는 방법을 제공한다. 여기서 상기 핵산 편집은 핵산 절단일 수 있다. 그 결과 표적 핵산 또는 표적 유전자 내의 임의의 염기가 결실 또는 추가되는 인델(indel)의 핵산 편집이 일어나게 된다.
일 구현예로, 상기 유전자 편집 방법은 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA 및 본 발명에 따른 초소형 유전자 편집 단백질, Cas12f1 변이체 단백질 또는 이의 동족체 단백질이 결합한 리보뉴클레오단백질 입자 형태의 초소형 유전자 편집 시스템을 진핵 세포 내에 전달하는 것을 포함할 수 있다. 이때, 상기 전달은 전기천공법 또는 리포펙션(lipofection)을 이용한 것일 수 있다.
또 다른 일 구현예로, 상기 유전자 편집 방법은 바람직하게 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA를 암호화하는 핵산 서열 및 Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 암호화하는 핵산 서열을 모두 포함하는 하나의 아데노-연관 바이러스(AAV) 벡터를 이용하여 표적 핵산 또는 표적 유전자를 포함하는 세포 내에 전달하는 것을 포함할 수 있다.
이하, 실시예를 통해 본 명세서가 제공하는 발명에 대해 더욱 상세히 설명한다. 이들 실시예는 오로지 본 명세서에 의해 개시되는 내용을 예시하기 위한 것으로, 본 명세서에 의해 개시되는 내용의 범위가 이들 실시예에 의해 제한되는 것으로 해석되지 않는 것은 이 기술 분야에서 통상의 지식을 가진 자에게 있어서 자명할 것이다.
실시예
실시예 1. 초소형 유전자 편집 시스템(Hypercompact TaRGET system)의 구성요소 제작
실시예 1.1. 유전자 편집 단백질 및 이를 암호화하는 인간 코돈-최적화된 핵산
본 발명은 초소형 유전자 편집 시스템인 Hypercompact TaRGET(Tiny nuclease-augment RNA-based Genome Editing Technology) system을 구성하는 단백질로서, Cas12f1 변이체(variant) 단백질 또는 이의 동족체(homolog) 단백질을 포함한다. 바람직하게, Cas12f1 변이체 단백질은 서열번호 1의 아미노산 서열 또는 상기 서열을 기준으로 N-말단으로부터 1개 내지 28개의 아미노산이 제거 또는 치환된 아미노산 서열로 이루어진 단백질을 포함하며(단, 서열번호 5의 아미노산 서열로 이루어진 Cas12f1 단백질은 제외), 서열번호 1의 아미노산 서열을 기준으로 N-말단으로부터 1개 내지 28개의 아미노산이 제거 또는 치환된 아미노산 서열로 이루어진 Cas12f1 변이체 단백질(엔지니어링된 Cas12f 변이체 단백질)의 대표예로서 Cas12f1의 N-말단에 CasX의 N-말단 26aa를 포함하는 Cas12f1 변이체 v1 단백질(서열번호 2), 28aa 무작위 서열을 포함하는 Cas12f1 변이체 v2 단백질(서열번호 3) 또는 26aa 무작위 서열을 포함하는 Cas12f1 변이체 v3 단백질(서열번호 4)이 제공된다. 또한, Cas12f1 변이체 단백질은 서열번호 1의 아미노산 서열을 포함하거나 이로 이루어진 Cas12f1 변이체의 N-말단 또는 C-말단에 1개 내지 600개의 아미노산이 추가된 아미노산 서열로 이루어진 단백질을 포함한다. 여기서, N-말단 또는 C-말단에 추가되는 1개 내지 600개의 아미노산은 서열번호 233 또는 서열번호 234의 아미노산 서열을 포함하거나 이로 이루어질 수 있으며, 상기 추가되는 서열과 Cas12f1 변이체 단백질 사이에는 1개 이상의 NLS 서열이 더 포함될 수 있다. 또한, Cas12f1 변이체 단백질의 동족체(homolog)는 서열번호 141 내지 서열번호 232 중에서 선택된 어느 하나의 아미노산 서열을 포함하거나 이로 이루어진 단백질일 수 있다.
본 발명은 또한, 인간 세포에서 발현하는 초소형 유전자 편집 시스템(Hypercompact TaRGET system) 및 핵산 절단을 위한 초소형 유전자 편집 핵산 구조물을 구축하기 위해서, 코돈 최적화 프로그램을 이용하여 Cas12f1 변이체 단백질에 대한 인간 코돈-최적화된 유전자를 얻었다.
상기 코돈-최적화된 유전자의 5'-말단 및 3'-말단에는 NLS 서열로서, 5'-CCAAAGAAGAAGCGGAAGGTC-3' (서열번호 52) 및 5'-AAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAG-3' (서열번호 53)을 각각 추가하고, 5'-말단 NLS 서열과 Cas12f1 변이체의 시작 코돈 사이에 링커 5'-GGTATCCACGGAGTCCCAGCAGCC-3' (서열번호 100)가 연결된 유전자를 합성함으로써, 인간 코돈-최적화된 Cas12f1 변이체 유전자(서열번호 101)를 포함하는 핵산 구조물을 제작하였다.
하기 표 1에는 위에서 제작된 Cas12f1 변이체 단백질을 암호화하는 인간 코돈-최적화된 Cas12f1 변이체 염기서열 및 Cas12f1 변이체 단백질의 아미노산 서열을 나타냈다. 또한, 표 2에는 Cas12f1 변이체 v1 내지 v3 단백질을 각각 암호화하는 인간 코돈-최적화된 핵산의 염기서열을 나타냈다. 이들은 본 발명에 따른 초소형 유전자 편집 시스템을 구성하는 유전자 편집 단백질을 암호화하는 핵산으로 사용되었다.
Label Sequence (5' to 3') SEQ ID
NO:

Cas12f1 변이체 단백질

MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP

1

Cas12f1 변이체 단백질을 암호화하는 인간 코돈-최적화된 핵산

ATGGGGGAGAAAAGTTCCCGCCGCCGACGGAATGGAAAAAGCGGTGCGTGGACTGCTGCTATAACAAGCTGTGTTGGGGGTAAGATGGCCAAGAACACAATTACAAAGACACTGAAGCTGAGGATCGTGAGACCATACAACAGCGCTGAGGTCGAGAAGATTGTGGCTGATGAAAAGAACAACAGGGAAAAGATCGCCCTCGAGAAGAACAAGGATAAGGTGAAGGAGGCCTGCTCTAAGCACCTGAAAGTGGCCGCCTACTGCACCACACAGGTGGAGAGGAACGCCTGTCTGTTTTGTAAAGCTCGGAAGCTGGATGATAAGTTTTACCAGAAGCTGCGGGGCCAGTTCCCCGATGCCGTCTTTTGGCAGGAGATTAGCGAGATCTTCAGACAGCTGCAGAAGCAGGCCGCCGAGATCTACAACCAGAGCCTGATCGAGCTCTACTACGAGATCTTCATCAAGGGCAAGGGCATTGCCAACGCCTCCTCCGTGGAGCACTACCTGAGCGACGTGTGCTACACAAGAGCCGCCGAGCTCTTTAAGAACGCCGCTATCGCTTCCGGGCTGAGGAGCAAGATTAAGAGTAACTTCCGGCTCAAGGAGCTGAAGAACATGAAGAGCGGCCTGCCCACTACAAAGAGCGACAACTTCCCAATTCCACTGGTGAAGCAGAAGGGGGGCCAGTACACAGGGTTCGAGATTTCCAACCACAACAGCGACTTTATTATTAAGATCCCCTTTGGCAGGTGGCAGGTCAAGAAGGAGATTGACAAGTACAGGCCCTGGGAGAAGTTTGATTTCGAGCAGGTGCAGAAGAGCCCCAAGCCTATTTCCCTGCTGCTGTCCACACAGCGGCGGAAGAGGAACAAGGGGTGGTCTAAGGATGAGGGGACCGAGGCCGAGATTAAGAAAGTGATGAACGGCGACTACCAGACAAGCTACATCGAGGTCAAGCGGGGCAGTAAGATTGGCGAGAAGAGCGCCTGGATGCTGAACCTGAGCATTGACGTGCCAAAGATTGATAAGGGCGTGGATCCCAGCATCATCGGAGGGATCGATGTGGGGGTCAAGAGCCCCCTCGTGTGCGCCATCAACAACGCCTTCAGCAGGTACAGCATCTCCGATAACGACCTGTTCCACTTTAACAAGAAGATGTTCGCCCGGCGGAGGATTTTGCTCAAGAAGAACCGGCACAAGCGGGCCGGACACGGGGCCAAGAACAAGCTCAAGCCCATCACTATCCTGACCGAGAAGAGCGAGAGGTTCAGGAAGAAGCTCATCGAGAGATGGGCCTGCGAGATCGCCGATTTCTTTATTAAGAACAAGGTCGGAACAGTGCAGATGGAGAACCTCGAGAGCATGAAGAGGAAGGAGGATTCCTACTTCAACATTCGGCTGAGGGGGTTCTGGCCCTACGCTGAGATGCAGAACAAGATTGAGTTTAAGCTGAAGCAGTACGGGATTGAGATCCGGAAGGTGGCCCCCAACAACACCAGCAAGACCTGCAGCAAGTGCGGGCACCTCAACAACTACTTCAACTTCGAGTACCGGAAGAAGAACAAGTTCCCACACTTCAAGTGCGAGAAGTGCAACTTTAAGGAGAACGCCGATTACAACGCCGCCCTGAACATCAGCAACCCTAAGCTGAAGAGCACTAAGGAGGAGCCCAAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAG

101
Label Sequence (5' to 3') SEQ ID
NO:

Cas12f1 변이체 v1 단백질을 암호화하는 인간 코돈-최적화된 핵산

ATGGAAAAGAGAATCAACAAGATCAGGAAGAAGCTGAGCGCCGACAACGCCACCAAGCCTGTGTCAGGAGTGGCCCCCATGGCCAAGAACACAATTACAAAGACACTGAAGCTGAGGATCGTGAGACCATACAACAGCGCTGAGGTCGAGAAGATTGTGGCTGATGAAAAGAACAACAGGGAAAAGATCGCCCTCGAGAAGAACAAGGATAAGGTGAAGGAGGCCTGCTCTAAGCACCTGAAAGTGGCCGCCTACTGCACCACACAGGTGGAGAGGAACGCCTGTCTGTTTTGTAAAGCTCGGAAGCTGGATGATAAGTTTTACCAGAAGCTGCGGGGCCAGTTCCCCGATGCCGTCTTTTGGCAGGAGATTAGCGAGATCTTCAGACAGCTGCAGAAGCAGGCCGCCGAGATCTACAACCAGAGCCTGATCGAGCTCTACTACGAGATCTTCATCAAGGGCAAGGGCATTGCCAACGCCTCCTCCGTGGAGCACTACCTGAGCGACGTGTGCTACACAAGAGCCGCCGAGCTCTTTAAGAACGCCGCTATCGCTTCCGGGCTGAGGAGCAAGATTAAGAGTAACTTCCGGCTCAAGGAGCTGAAGAACATGAAGAGCGGCCTGCCCACTACAAAGAGCGACAACTTCCCAATTCCACTGGTGAAGCAGAAGGGGGGCCAGTACACAGGGTTCGAGATTTCCAACCACAACAGCGACTTTATTATTAAGATCCCCTTTGGCAGGTGGCAGGTCAAGAAGGAGATTGACAAGTACAGGCCCTGGGAGAAGTTTGATTTCGAGCAGGTGCAGAAGAGCCCCAAGCCTATTTCCCTGCTGCTGTCCACACAGCGGCGGAAGAGGAACAAGGGGTGGTCTAAGGATGAGGGGACCGAGGCCGAGATTAAGAAAGTGATGAACGGCGACTACCAGACAAGCTACATCGAGGTCAAGCGGGGCAGTAAGATTGGCGAGAAGAGCGCCTGGATGCTGAACCTGAGCATTGACGTGCCAAAGATTGATAAGGGCGTGGATCCCAGCATCATCGGAGGGATCGATGTGGGGGTCAAGAGCCCCCTCGTGTGCGCCATCAACAACGCCTTCAGCAGGTACAGCATCTCCGATAACGACCTGTTCCACTTTAACAAGAAGATGTTCGCCCGGCGGAGGATTTTGCTCAAGAAGAACCGGCACAAGCGGGCCGGACACGGGGCCAAGAACAAGCTCAAGCCCATCACTATCCTGACCGAGAAGAGCGAGAGGTTCAGGAAGAAGCTCATCGAGAGATGGGCCTGCGAGATCGCCGATTTCTTTATTAAGAACAAGGTCGGAACAGTGCAGATGGAGAACCTCGAGAGCATGAAGAGGAAGGAGGATTCCTACTTCAACATTCGGCTGAGGGGGTTCTGGCCCTACGCTGAGATGCAGAACAAGATTGAGTTTAAGCTGAAGCAGTACGGGATTGAGATCCGGAAGGTGGCCCCCAACAACACCAGCAAGACCTGCAGCAAGTGCGGGCACCTCAACAACTACTTCAACTTCGAGTACCGGAAGAAGAACAAGTTCCCACACTTCAAGTGCGAGAAGTGCAACTTTAAGGAGAACGCCGATTACAACGCCGCCCTGAACATCAGCAACCCTAAGCTGAAGAGCACTAAGGAGGAGCCC

102

Cas12f1 변이체 v2 단백질을 암호화하는 인간 코돈-최적화된 핵산

ATGGCTGGCGGACCAGGCGCAGGTAGTGCTGCGCCAGTTTCTTCAACTTCCTCCCTGCCCCTGGCTGCGCTTAACATGCGCGTGATGGCCAAGAACACAATTACAAAGACACTGAAGCTGAGGATCGTGAGACCATACAACAGCGCTGAGGTCGAGAAGATTGTGGCTGATGAAAAGAACAACAGGGAAAAGATCGCCCTCGAGAAGAACAAGGATAAGGTGAAGGAGGCCTGCTCTAAGCACCTGAAAGTGGCCGCCTACTGCACCACACAGGTGGAGAGGAACGCCTGTCTGTTTTGTAAAGCTCGGAAGCTGGATGATAAGTTTTACCAGAAGCTGCGGGGCCAGTTCCCCGATGCCGTCTTTTGGCAGGAGATTAGCGAGATCTTCAGACAGCTGCAGAAGCAGGCCGCCGAGATCTACAACCAGAGCCTGATCGAGCTCTACTACGAGATCTTCATCAAGGGCAAGGGCATTGCCAACGCCTCCTCCGTGGAGCACTACCTGAGCGACGTGTGCTACACAAGAGCCGCCGAGCTCTTTAAGAACGCCGCTATCGCTTCCGGGCTGAGGAGCAAGATTAAGAGTAACTTCCGGCTCAAGGAGCTGAAGAACATGAAGAGCGGCCTGCCCACTACAAAGAGCGACAACTTCCCAATTCCACTGGTGAAGCAGAAGGGGGGCCAGTACACAGGGTTCGAGATTTCCAACCACAACAGCGACTTTATTATTAAGATCCCCTTTGGCAGGTGGCAGGTCAAGAAGGAGATTGACAAGTACAGGCCCTGGGAGAAGTTTGATTTCGAGCAGGTGCAGAAGAGCCCCAAGCCTATTTCCCTGCTGCTGTCCACACAGCGGCGGAAGAGGAACAAGGGGTGGTCTAAGGATGAGGGGACCGAGGCCGAGATTAAGAAAGTGATGAACGGCGACTACCAGACAAGCTACATCGAGGTCAAGCGGGGCAGTAAGATTGGCGAGAAGAGCGCCTGGATGCTGAACCTGAGCATTGACGTGCCAAAGATTGATAAGGGCGTGGATCCCAGCATCATCGGAGGGATCGATGTGGGGGTCAAGAGCCCCCTCGTGTGCGCCATCAACAACGCCTTCAGCAGGTACAGCATCTCCGATAACGACCTGTTCCACTTTAACAAGAAGATGTTCGCCCGGCGGAGGATTTTGCTCAAGAAGAACCGGCACAAGCGGGCCGGACACGGGGCCAAGAACAAGCTCAAGCCCATCACTATCCTGACCGAGAAGAGCGAGAGGTTCAGGAAGAAGCTCATCGAGAGATGGGCCTGCGAGATCGCCGATTTCTTTATTAAGAACAAGGTCGGAACAGTGCAGATGGAGAACCTCGAGAGCATGAAGAGGAAGGAGGATTCCTACTTCAACATTCGGCTGAGGGGGTTCTGGCCCTACGCTGAGATGCAGAACAAGATTGAGTTTAAGCTGAAGCAGTACGGGATTGAGATCCGGAAGGTGGCCCCCAACAACACCAGCAAGACCTGCAGCAAGTGCGGGCACCTCAACAACTACTTCAACTTCGAGTACCGGAAGAAGAACAAGTTCCCACACTTCAAGTGCGAGAAGTGCAACTTTAAGGAGAACGCCGATTACAACGCCGCCCTGAACATCAGCAACCCTAAGCTGAAGAGCACTAAGGAGGAGCCC

103

Cas12f1 변이체 v3 단백질을 암호화하는 인간 코돈-최적화된 핵산

ATGGCTGGCGGACCAGGCGCAGGTAGTGCTGCGCCAGTTTCTTCAACTTCCTCCCTGCCCCTGGCTGCGCTTAACATGATGGCCAAGAACACAATTACAAAGACACTGAAGCTGAGGATCGTGAGACCATACAACAGCGCTGAGGTCGAGAAGATTGTGGCTGATGAAAAGAACAACAGGGAAAAGATCGCCCTCGAGAAGAACAAGGATAAGGTGAAGGAGGCCTGCTCTAAGCACCTGAAAGTGGCCGCCTACTGCACCACACAGGTGGAGAGGAACGCCTGTCTGTTTTGTAAAGCTCGGAAGCTGGATGATAAGTTTTACCAGAAGCTGCGGGGCCAGTTCCCCGATGCCGTCTTTTGGCAGGAGATTAGCGAGATCTTCAGACAGCTGCAGAAGCAGGCCGCCGAGATCTACAACCAGAGCCTGATCGAGCTCTACTACGAGATCTTCATCAAGGGCAAGGGCATTGCCAACGCCTCCTCCGTGGAGCACTACCTGAGCGACGTGTGCTACACAAGAGCCGCCGAGCTCTTTAAGAACGCCGCTATCGCTTCCGGGCTGAGGAGCAAGATTAAGAGTAACTTCCGGCTCAAGGAGCTGAAGAACATGAAGAGCGGCCTGCCCACTACAAAGAGCGACAACTTCCCAATTCCACTGGTGAAGCAGAAGGGGGGCCAGTACACAGGGTTCGAGATTTCCAACCACAACAGCGACTTTATTATTAAGATCCCCTTTGGCAGGTGGCAGGTCAAGAAGGAGATTGACAAGTACAGGCCCTGGGAGAAGTTTGATTTCGAGCAGGTGCAGAAGAGCCCCAAGCCTATTTCCCTGCTGCTGTCCACACAGCGGCGGAAGAGGAACAAGGGGTGGTCTAAGGATGAGGGGACCGAGGCCGAGATTAAGAAAGTGATGAACGGCGACTACCAGACAAGCTACATCGAGGTCAAGCGGGGCAGTAAGATTGGCGAGAAGAGCGCCTGGATGCTGAACCTGAGCATTGACGTGCCAAAGATTGATAAGGGCGTGGATCCCAGCATCATCGGAGGGATCGATGTGGGGGTCAAGAGCCCCCTCGTGTGCGCCATCAACAACGCCTTCAGCAGGTACAGCATCTCCGATAACGACCTGTTCCACTTTAACAAGAAGATGTTCGCCCGGCGGAGGATTTTGCTCAAGAAGAACCGGCACAAGCGGGCCGGACACGGGGCCAAGAACAAGCTCAAGCCCATCACTATCCTGACCGAGAAGAGCGAGAGGTTCAGGAAGAAGCTCATCGAGAGATGGGCCTGCGAGATCGCCGATTTCTTTATTAAGAACAAGGTCGGAACAGTGCAGATGGAGAACCTCGAGAGCATGAAGAGGAAGGAGGATTCCTACTTCAACATTCGGCTGAGGGGGTTCTGGCCCTACGCTGAGATGCAGAACAAGATTGAGTTTAAGCTGAAGCAGTACGGGATTGAGATCCGGAAGGTGGCCCCCAACAACACCAGCAAGACCTGCAGCAAGTGCGGGCACCTCAACAACTACTTCAACTTCGAGTACCGGAAGAAGAACAAGTTCCCACACTTCAAGTGCGAGAAGTGCAACTTTAAGGAGAACGCCGATTACAACGCCGCCCTGAACATCAGCAACCCTAAGCTGAAGAGCACTAAGGAGGAGCCC

104
상기 제작된 초소형 유전자 편집 핵산 구조물을 다음의 방법으로 제조하였다. 본 발명에 사용된 상기 핵산 구조물은 인간 코돈-최적화된 Cas12f1 변이체(엔지니어링된 변이체 포함)의 유전자 서열을 포함한다. 상기 유전자 서열을 주형으로 PCR 증폭을 진행하고, Gibson assembly 방법에 의해 진핵 세포 시스템(Eukaryotic cell system)에서 발현이 가능한 프로모터와 poly(A) 신호 서열(signal sequence)을 가지는 벡터에 원하는 클로닝(cloning) 서열에 맞게 클로닝을 진행하였다. 클로닝 후, 얻어진 재조합 플라스미드 벡터의 서열은 생거 시퀀싱(Sanger sequencing) 방법을 통하여 최종 확인하였다.
실시예 1.2. 유전자 편집 단백질의 발현 및 정제
상기 실시예 1.1에서 제조한 유전자를 발현시키고, 단백질을 정제하였다.
먼저 상기 핵산 구조물을 pMAL-c2 플라스미드 벡터에 클로닝하여 BL21(DE3) E. coli 세포에 형질전환하였다. 상기 형질전환된 E. coli 콜로니를 광학 밀도가 0.7에 도달할 때까지 37℃의 LB broth에서 성장시켰다. 상기 형질전환된 E. coli 세포들은 0.1 mM isopropylthio-β-D-galactoside 존재 하 18℃에서 하룻밤 배양되었다. 그 후, 상기 배양된 세포들을 3,500g에서 30분간 원심분리하여 수집하고, 수집된 세포들을 20 mM Tris-HCl(pH 7.6), 500 mM NaCl, 5 mM β-mercaptoethanol, 5% glycerol에 재현탁하였다. 상기 세포를 용해 버퍼에서 용해한 후, 음파처리(sonication)에 의해 파쇄하였다. 파쇄된 세포가 포함된 샘플을 15,000g로 30분 간 원심분리하여 수득한 상측액을 0.45 ㎛ 주사기 필터(Millipore)를 통해 여과하고, 여과된 상층액을 FPLC 정제 시스템(KTA Purifier, GE Healthcare)을 사용하여, Ni2+-친화성 컬럼에 로드하였다. 결합 분획(bound fractions)은 80-400 mM imidazole, 20 mM Tris-HCl(pH 7.5) 구배에서 용출되었다.
상기 용출된 단백질을 TEV 프로테아제로 16시간 동안 처리하여 절단하였다. 절단된 단백질을 0.15-1.6 M NaCl 선형 농도구배의 Heparin 컬럼에서 정제하였다. Heparin 컬럼에서 정제된 재조합 Cas12f1 변이체 단백질은 20 mM Tris pH 7.6, 150 mM NaCl, 5 mM β-mercaptoethanol, 5% glycerol의 용액에서 투석되었다. 상기 투석된 단백질을 MBP 컬럼을 통과시켜 정제한 후, 0.5-1.2 M NaCl의 선형 구배로 monoS 컬럼(GE Healthcare) 또는 EnrichS에서 재정제하였다.
상기 재정제된 단백질들을 모아, 20 mM Tris pH 7.6, 150 mM NaCl, 5 mM β-mercaptoethanol, 5% glycerol의 용액으로 투석하여 본 발명에서 사용되는 초소형 유전자 편집 단백질(소형 엔도뉴클레아제)을 정제하였다. 상기 생산된 초소형 유전자 편집 단백질의 농도는 소 혈청 알부민(BSA)을 표준으로 사용하는 Bradford 정량법을 이용하여 정량하여 coomassie blue-stained SDS-PAGE 겔에서 전기영동적(electrophoretically)으로 측정되었다.
실시예 1.3. Cas12f1 변이체에 또는 이의 동족체에 대한 엔지니어링된 가이드 RNA
본 실시예에서는 핵산 또는 유전자 편집을 위한 초소형 유전자 편집 시스템의 일 구성요소로써, Cas12f1 변이체 단백질 또는 이의 동족체에 대해 고효율의 표적화 활성 및 유전자 편집 활성을 갖게 하는 엔지니어링된 가이드 RNA(augment RNA)를 제작하였다. 핵산 또는 유전자 편집을 위한 초소형 유전자 편집 시스템의 활성은 상기 시스템을 구성하는 Cas12f1 변이체 단백질 또는 이의 동족체 단백질의 엔도뉴클레아제 활성도 중요하지만, 이에 더하여 상기 유전자 편집 단백질이 표적 핵산 또는 표적 유전자 부위에 결합하는 정도에 의해 그 활성에 큰 차이가 나타날 것으로 추정하였다. 이에, 하기와 같이 Cas12f1 변이체에 대한 엔지니어링된 augment RNA를 제작하였다.
Cas12f1 변이체 단백질 또는 이의 동족체 단백질에 대한 augment RNA는 자연계에서 발견되는 가이드 RNA에 새로운 구성을 추가하거나 그 구조 중 일부를 삭제 또는 변형한 것으로, 3'-말단에 새로운 구성인 U-rich tail을 포함할 수 있다. 구체적으로, 상기 augment RNA은 변형된 스캐폴드 제1 영역 내지 제4 영역을 포함하는 엔지니어링된 tracrRNA 서열, 변형된 스캐폴드 제5 영역 내지 제6 영역을 포함하는 엔지니어링된 crRNA 서열 및/또는 변형된 제7 영역인 U-rich tail 서열을 포함하는 것을 특징으로 한다(도 2a 및 도 2b 참조).
상기 제4 영역 및 제5 영역은 서로 상보적으로 결합하는 부위로써, 변형부위 1(modification site 1, MS1) 및 변형부위 4(modification site 4, MS4)를 포함하고, 상기 제7 영역인 U-rich tail 서열은 변형부위 2(modification site 2, MS2)에 해당한다. 상기 제1 영역은 변형부위 3(modification site 3, MS3)이고, 상기 제2 영역은 변형부위 5(modification site 5, MS5)를 포함한다.
도 1은 Cas12f1 변이체에 대한 야생형 가이드 RNA 및 본 발명에서 제공하는 Cas12f1 변이체 단백질 및 이의 동족체에 대한 고효율의 augment RNA를 제작하기 위해 자연에 존재하는 가이드 RNA에서 변형을 수행하는 부위인 "변형부위(Modification Site, MS) MS1 내지 MS5"를 자세히 나타냈다. 도 2a 및 도 2b는 본 발명의 엔지니어링된 싱글 가이드 RNA(augment RNA) 제작을 위한 다양한 변형부위의 예시적 구조를 나타냈다. 도 2a는 Cas12f1 변이체에 대한 canonical sgRNA의 변형부위를 예시하고 있고, 도 2b는 엔지니어링된 Cas12f1 변이체에 대한 mature form sgRNA의 변형부위를 예시하고 있다.
또한, 본 발명은 전술한 "II. 고효율의 초소형 유전자 편집 시스템/조성물" 섹션에서 "3. 초소형 유전자 편집 시스템을 위한 엔지니어링된 가이드 RNA" 및 "7. 싱글 가이드 RNA를 만들기 위한 변형"에 따라, Cas12f1 변이체에 대한 엔지니어링된 가이드 RNA(Cas12f1 변이체 augment RNA)들을 제작하였다. 다만, 이들 augment RNA들은 본 발명에서 사용하는 엔지니어링된 가이드 RNA의 대표적인 예시일 뿐, 본 발명의 Cas12f1 변이체 augment RNA가 예시된 서열로 제한되는 것은 아니다.
하기 표 3 및 표 4에 상기 예시적인 Cas12f1 변이체 augment RNA의 구체적인 염기서열을 자세히 나타내었다. 여기서, 5'-NNNNNNNNNNNNNNNNNNNN-3' 부분은 스페이서 서열로서, 15개 이상 50개 이하의 염기서열로 구성될 수 있다.
sgRNA Sequence (5' to 3') SEQ ID
NO:
Canonical
sgRNA
CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUUUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGacgaaUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 6
MS1/MS2/MS3
(Cas12f1_ge3.0)
ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 46
MS2/MS3/MS4
(Cas12f1_ge4.0)
ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 47
MS2/MS3/MS4/MS5
(Cas12f1_ge4.1)
ACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 48
sgRNA Sequence (5' to 3') SEQ ID
NO:
Canonical
sgRNA
CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUUUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGacgaaUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 6
MS1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 44
MS1/MS2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU 45
MS1/MS3-1 GAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 105
MS1/MS3-2 UGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 106
MS1/MS3-3 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 107
MS1/MS4*-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCgaaaGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 108
MS1/MS4*-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 109
MS1/MS4*-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUgaaaAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 110
MS1/MS5-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUuuagAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 111
MS1/MS5-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCuuagGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 112
MS1/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 113
MS1/MS2/MS3
(Cas12f1_ge3.0)
ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 46
MS1/MS2/MS4*-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU 114
MS1/MS3-3/MS4*-2 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 115
MS1/MS2/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU 116
MS1/MS3-3/MS5-3 ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 117
MS1/MS4*-2/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 118
MS1/MS2/MS3-3/
MS4*-2
ACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU 119
MS1/MS2/MS3-3/
MS5-3
ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU 120
MS1/MS2/MS4*-2/
MS5-3
CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU 121
MS1/MS3-3/MS4*-2/
MS5-3
ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 122
MS1/MS2/MS3-3/
MS4*-2/MS5-3
ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU 123
또한, Cas12f1 변이체 augment RNA에서 변형부위인 MS1에 의한 초소형 유전자 편집 시스템의 표적 핵산 또는 표적 유전자 절단 또는 편집 활성의 차이를 확인하고자 하였다. 이를 위해, Canonical sgRNA(서열번호 6)에서 MS1이 제거된 sgRNA를 제작하였으며, 이를 "mature form sgRNA"으로 명명하였다. 상기 mature form sgRNA는 서열번호 124의 염기서열로 이루어질 수 있으며, 여기서 상보적 쌍을 이루는 한 쌍 이상의 염기서열이 추가로 제거될 수 있다. 표 5에서 예시적인 Cas12f1 변이체 mature form sgRNA 및 이들의 구체적인 염기서열을 나타냈다.
sgRNA Sequence (5' to 3') SEQ ID
NO:
Mature form sgRNA CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 124
MS3-1 GAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 125
MS3-2 UGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 126
MS3-3 ACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 127
MS4-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUgaaaAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 128
MS4-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCgaaaGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 129
MS4-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 130
MS5-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUuuagAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 131
MS5-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUuuagAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 132
MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 133
MS3-3/MS4-3 ACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 134
MS3-3/MS5-3 ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 135
MS4-3/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 136
MS3-3/MS4-3/
MS5-3
ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 137
상기 예시된 Cas12f1 변이체 augment RNA는 다음의 방법으로 제조하였다. 먼저, 상기 엔지니어링된 가이드 RNA는 이를 제조하기 위해 미리 설계한 가이드 RNA를 화학적으로 합성한 후, 상기 합성한 가이드 RNA 서열 및 T7 프로모터 서열을 포함하는 PCR 앰플리콘을 제조하였다. 엔지니어링된 Cas12f1 변이체 가이드 RNA의 3'-말단에 대한 U-rich tail 연결은 서열-변형된 primer 및 Cas12f1 변이체 가이드 RNA 플라스미드 벡터의 존재 하에서 Pfu PCR Master Mix5 (Biofact)를 사용하여 수행하였다. 상기 PCR 앰플리콘은 HiGeneTM Gel & PCR Purification System (Biofact)을 사용하여 정제하였다.
상기 엔지니어링된 Cas12f1 변이체 가이드 RNA의 엔지니어링된 스캐폴드 영역 중 제2 영역, 제4 영역 및 제5 영역의 변형은 ApoI 및 BamHI 제한 효소를 사용하여 선형화된 가이드 RNA 암호화 벡터에 변형된 서열을 전달하는 합성 올리고뉴클레오티드(Macrogen)를 클로닝하여 수행되었다.
또한, 상기 엔지니어링된 Cas12f1 변이체 가이드 RNA의 엔지니어링된 스캐폴드 영역 중 제1 영역의 변형은 tracrRNA의 5'-말단 부분을 표적으로 하는 정방향 프라이머(forward primer) 및 U6 프로모터 영역을 표적으로 하는 역방향 프라이머(reverse primer)를 사용하여 캐노니컬(canonical) 또는 엔지니어링된 주형 플라스미드 벡터의 PCR 증폭에 의해 수행되었다. 상기 PCR 증폭은 Q5 Hot Start high-fidelity DNA polymerase(NEB)에 의해 수행되었으며, PCR 산물은 KLD Enzyme Mix(NEB)를 사용하여 결찰시켰다. 상기 결찰된(ligated) PCR 산물을 DH5α E. coli 세포에 형질전환(transformed)시켰다. Sanger 시퀀싱 분석에 의해 변이(Mutagenesis)를 확인하였다.
변형된 플라스미드 벡터는 NucleoBond® Xtra Midi EF kit (MN)를 사용하여 정제되었다. 정제된 플라스미드 1 마이크로그램이 T7 RNA polymerase(NEB) 및 NTPs(Jena Bioscience)를 사용한 mRNA 합성의 주형으로 사용되었다. 상기 제조된 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA를 Monarch® RNA cleanup kit (NEB)를 사용하여 정제하고, 극저온 바이알(cryogenic vials)에 분취하여 액체 질소에 보관하였다.
다음으로, canonical 가이드 RNA 및 엔지니어링된 가이드 RNA의 앰플리콘을 제조하였다. 이를 위해, KAPA HiFi HotStart DNA polymerase(Roche) 또는 Pfu DNA polymerase(Biofact)를 이용하여, canonical 가이드 RNA의 주형 DNA 플라스미드 및 augment RNA 주형 DNA 플라스미드를 U6-상보적인 정방향 프라이머(complementary forward primer) 및 프로토스페이서 서열 상보적인 역방향 프라이머(protospacer sequence-complementary reverse primer)를 사용하여 PCR 증폭을 수행하였다.
상기 PCR 증폭 결과물을 HigeneTM Gel & PCR purification system (Biofact)를 사용하여 정제하여 canonical 가이드 RNA 및 augment RNA 앰플리콘을 수득하였다.
상기 PCR 앰플리콘을 주형으로, NEB T7 polymerase를 사용하여 시험관 내 전사(in vitro transcription)을 수행했다. 상기 in vitro transcription 수행 결과물에 DNase I(NEB)을 처리한 후, Monarch RNA Cleanup Kit(NEB)를 이용하여 정제한 후, 가이드 RNA를 수득했다. 이 후, 미리 설계한 가이드 RNA 서열 및 T7 프로모터 서열을 포함하는 플라스미드 벡터를 T-blunt 플라스미드(Biofact) 클로닝 방법에 따라 제조했다.
상기 벡터에서 T7 프로모터 서열을 포함하는 가이드 RNA 서열 양 끝을 절단(double cut)하여 정제한 후, 그 결과물에 T7 polymerase(NEB)를 사용하여 시험관 내 전사(in vitro transcription)을 수행했다. 상기 시험관 내 전사(in vitro transcription) 수행 결과물에 DNase I(NEB)를 처리한 후, Monarch RNA Cleanup Kit (NEB)를 이용하여 정제한 후, 가이드 RNA를 수득했다.
실시예 1.4. 리보뉴클레오단백질 입자(RNP) 제조
초소형 유전자 편집 시스템은 엔지니어링된 가이드 RNA(augment RNA)와 하나의 Cas12f1 변이체 단백질 사이의 상호작용에 의해 형성된 리보뉴클레오단백질(ribonucleoprotein, RNP) 또는 엔지니어링된 가이드 RNA와 두 개의 Cas12f1 변이체 단백질 사이의 상호작용에 의해 형성된 RNP일 수 있다.
이를 위해, 실시예 1.2에서 정제한 초소형 유전자 편집 단백질(소형 엔도뉴클레아제) 및 실시예 1.3에서 제조한 엔지니어링된 가이드 RNA를 각각 300 nM 및 900 nM 농도로 10분 동안 실온에서 함께 인큐베이션하여 리보뉴클레오단백질 입자(RNP)를 제조하였다.
실시예 2. 플라스미드 벡터 설계 및 제조
초소형 유전자 편집 단백질인 Cas12f1 변이체는 인간 세포에서 발현하기 위해 인간 코돈-최적화하였으며, 상기 코돈-최적화된 Cas12f1 변이체 유전자의 올리고뉴클레오티드를 제작하였다.
또한, 상기 제작된 Cas12f1 변이체 유전자의 염기서열을 포함하면서, 5'-말단 및 3'-말단 각각에 핵 위치 신호(nuclear localization signal, NLS) 서열과 링커 서열을 포함하는 올리고뉴클레오티드를 합성하여(Bionics), 본 발명의 표적 핵산 또는 표적 유전자 절단을 위한 인간 코돈-최적화된 Cas12f1 변이체 핵산 구조물의 폴리뉴클레오티드를 합성하였다. 상기 코돈-최적화된 Cas12f1 변이체 핵산 구조물의 폴리뉴클레오티드는 chicken β-actin(CBA) 프로모터 및 자가 절단 T2A 펩타이드(2A)가 연결된 eGFP를 인코딩하는 서열을 포함하는 플라스미드에 작동가능하게 연결되어 클로닝(cloning)되었다.
또한, 본 실험에 사용된 canonical 가이드 RNA를 위한 주형 DNA를 합성하였고(Twist Bioscience), 이를 pTwist Amp 플라스미드 벡터에 클로닝하여 복제하였다. 엔지니어링된 가이드 RNA에 대한 주형 DNA는 엔자임클로닝 기법을 이용하여 제작되었으며, pTwist Amp 플라스미드에 클로닝되어 복제되었다.
상기 플라스미드를 주형으로 하여 U6-상보적인 정방향 프라이머(complementary forward primer) 및 프로토스페이서 서열 상보적인 역방향 프라이머(protospacer sequence-complementary reverse primer)를 사용하여, 상기 canonical 가이드 RNA 또는 엔지니어링된 가이드 RNA의 앰플리콘을 제조하였다. 필요에 따라, 제조한 앰플리콘을 T-blunt 플라스미드(Biofact)에 클로닝하여 복제하였다.
또한, 엔지니어링된 듀얼 가이드 RNA(Engineered dual guide RNA)를 제조하기 위해 엔지니어링된 tracrRNA 및 엔지니어링된 crRNA를 암호화하는 올리고뉴클레오티드를 제한 효소 BamHI 및 HindIII(NEB)로 절단하여 pSilencer 2.0 벡터(ThermoFisher Scientific) 내로 클로닝하여 복제하였다.
Cas12f1 변이체에 대해 고효율을 나타내는 Cas12f1 변이체 augment RNA인 "Cas12f1_ge3.0", "Cas12f1_ge4.0" 및 "Cas12f1_ge4.1"을 각각 암호화하는 주형 DNA를 합성하였고, 이는 pTwist Amp 플라스미드 벡터(Twist Bioscience)에 클로닝되었다. 필요에 따라, 상기 벡터는 U6-상보적 정방향 프라이머 및 프로토스페이서-상보적 역방향 프라이머를 사용하여, 상기 가이드 RNA 암호화 서열의 증폭을 위한 주형으로 사용되었다.
초소형 유전자 편집 시스템의 구성요소를 발현하는 벡터는 Gibson assembly를 사용하여 상기 인간 코돈-최적화된 Cas12f1 변이체 유전자 또는 이를 포함하는 핵산 구조물을 포함하는 벡터에 엔지니어링된 Cas12f1 변이체 augment RNA를 암호화하는 폴리뉴클레오티드를 클로닝함으로써 제조되었다.
구체적으로, 상기 초소형 유전자 편집 시스템을 발현하는 벡터로서, 1) chicken β-actin(CBA) 프로모터 및 자가 절단 T2A 펩타이드(2A)로 연결된 eGFP를 인코딩하는 서열, 2) Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 암호화하는 인간 코돈-최적화된 핵산 구조물의 폴리뉴클레오티드 및 3) 본 발명에 따른 Cas12f1 변이체 augment RNA가 작동가능하게 연결된, 아데노-연관 바이러스 역 말단 반복(AAV inverted terminal repeat) 플라스미드 벡터(AAV vector)를 제조하였다.
여기서, 상기 Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 암호화하는 핵산 구조물 및 가이드 RNA의 전사는 각각 chicken β 및 U6 프로모터에 의해 촉진되었다. 또한, 상기 AAV 플라스미드 벡터(AAV vector)는 유전자 편집 또는 변형의 목적에 따라 eGFP, Cas12f1 변이체 augment RNA의 수 및/또는 효과기 단백질의 추가 등이 적절히 변경될 수 있다.
상기 AAV 벡터를 대량 생산하기 위해, 상기 AAV 벡터 및 helper 플라스미드를 HEK 293T 세포에 형질도입하였다. 상기 형질도입된 HEK293 T세포는 2% FBS를 포함하는 DMEM 배지에서 배양하였다. PEIpro(Polyplus-transfection) 및 동일 몰 비율에서 플라스미드에 대한 삼중-형질주입(triple-transfection)를 사용한 PEI 공침(coprecipitation)을 사용하여 재조합 pseudotyped AAV vector 스톡을 생성하였다. 72시간의 배양 후, 상기 세포들을 용해시키고, iodixanol(Sigma-Aldrich) 단계 구배 초원심분리(step gradient ultra-centrifugation)에 의해 용해물로부터 상기 AAV 벡터를 정제하였다.
실시예 3. 세포 형질주입(Transfection)
HEK 293T(ATCC CRL-11268), HeLa(ATCC CLL-2), U-2 OS(ATCC HTB-96) 및 K-562(ATCC CCL-243) 세포를 10% 열-비활성화 FBS, 1% 페니실린/스트렙토마이신 및 0.1 mM 비필수 아미노산들이 보충된 DMEM 배지에서, 37℃, 5% CO2 조건 하에서 배양하였다.
실시예 2에서 제작된 표적 핵산 또는 표적 유전자 절단을 위한 핵산 구조물, 이를 포함하는 벡터 또는 엔지니어링된 가이드 RNA를 암호화하는 DNA의 세포 형질 주입(transfection)을 위해, 1.0 × 105 HEK 293T 세포를 형질주입 1일 전에 분주하였다. 세포 형질주입은 전기천공법(electroporation) 또는 리포펙션(lipofection)으로 수행되었다. 전기천공법의 경우, 상기 핵산 구조물, 이를 포함하는 플라스미드 벡터 또는 엔지니어링된 가이드 RNA를 암호화하는 DNA 각 2-5 ㎍을 Neon transfection system(Invitrogen)을 사용하여 4 × 105 HEK-293 T세포에 형질주입(transfection) 하였다. 전기천공법의 경우 1300V, 10 mA, 3 pulse 조건으로 수행하였다. 리포펙션(lipofection)의 경우에는, 6-15 ㎕ FuGene 시약(Promega)을 2-5 ㎍의 Cas12f1 변이체 단백질을 암호화하는 플라스미드 벡터 및 1.5-5 ㎍의 PCR 앰플리콘과 15 분 동안 혼합하였다. 상기 혼합물(300 ㎕)은 형질주입 1일 전에 1 × 106 개의 세포가 플레이팅 된 1.5 ml DMEM 배지에 첨가되었다. 상기 세포들을 상기 혼합물의 존재 하에서 1 내지 10일 간 배양한 후, 수집하였다. 상기 세포의 게놈 DNA는 PureHelixTM genomic DNA preparation kit(NanoHelix)를 사용하거나, Maxwell RSC Cultured cells DNA Kit(Promega)를 사용하여 수작업으로 분리하였다.
실시예 2에서 제작한 유전자 편집 단백질을 암호화하는 핵산 서열을 포함하는 AAV 벡터의 세포 형질 감염을 위해, 정량적 PCR에 의해 결정한 1, 5, 10, 50 및 100의 상이한 감염 다중도(MOI, multiplicity of Infection)에서 인간 HEK293T 세포를 상기 AAV 벡터로 감염시켰다. 상기 형질감염된 HEK293T 세포는 2% FBS를 포함하는 DMEM 배지에서 배양되었다. 서로 다른 시점에서, 예를 들어, 1일, 3일, 5일, 7일에 게놈 DNA의 분리를 위해 세포를 수집하였다.
또한, 실시예 1.4에 따라 제조된 리보뉴클레오단백질 입자(RNP)를 전기천공법을 이용하여 세포에 형질주입하거나, 리포펙션(lipofection) 방법을 통하여 형질주입 후, 1일 후 실시예 1.3에 따라 제조된 엔지니어링된 가이드 RNA를 전기천공법을 사용하여 세포에 형질주입하였다.
실시예 4. 결과 분석
실시예 4.1. 핵산 절단 효율 분석
초소형 유전자 편집 시스템의 표적 핵산 또는 표적 유전자 절단 효율을 분석하기 위해, HEK 293T 세포로부터 분리된 게놈 DNA 중, 프로토스페이서를 포함하는 영역을 표적-특이적 프라이머를 사용하여 KAPA HiFi HotStart DNA polymerase(Roche)의 존재 하에서 PCR을 수행하였다. 증폭 방법은 제조사의 지침을 따랐다. Illumina TruSeq HT dual indexes를 포함하는 상기 증폭의 결과물인 PCR 앰플리콘을 Illumina iSeq 100를 사용하여 150-bp 페어 엔드 시퀀싱을 수행하였다.
인델(Indel) 빈도는 MAUND를 사용하여 계산되었다. 상기 MAUND는 https://github.com/ibscge/maund 에서 제공된다.
BioFACTTM Lamp Pfu DNA polymerase를 사용하여 PCR 산물을 얻었다. 상기 PCR 산물(100-300 ㎍)을 25 ㎍반응 혼합물에서 10 유닛(units)의 T7E1 효소(NEB)와 함께 37℃에서 30분 동안 반응시켰다. 20 ㎕ 반응 혼합물을 10% 아크릴아마이드(acrylamide) 겔에 직접 로딩시키고, 절단된 PCR 산물을 TBE 버퍼 시스템에서 작동시켰다. 겔 이미지를 브롬화에티듐(ethidium bromide) 용액으로 염색시킨 후, Printgraph 2 M gel imaging system(Atto)을 이용하여 디지털화하였다. 상기 디지털화한 결과물을 분석하여 유전자 편집 효율을 평가하였다.
실시예 4.2. 세포 내 핵산 절단 활성 분석
세포 내 표적 핵산 또는 표적 유전자의 표적 부위에 대한 초소형 유전자 편집 시스템의 절단 활성 분석은 하기와 같이 수행되었다.
실시예 2에서 제작한 아데노-연관 바이러스(AAV) 벡터를 HEK 293T 세포에 형질도입시켰다. 3일, 5일 및 7일 후, 상기 형질감염된 HEK 293T 세포에서 게놈 DNA(genome DNA)를 수득하고, 이를 Genomic DNA prep kit (QIAGEN 사, 카탈로그 #: 69504)를 사용하여 정제하였다. 상기 정제물에서 표적 핵산 또는 표적 유전자의 표적 부위를 PCR로 증폭시킨 후, 최종 PCR 생성물을 타겟 딥 시퀀싱(targeted deep sequencing)을 사용하여 분석하였다. 라이브러리 생성을 위해 KAPA HiFi HotStart PCR 키트(KAPA Biosystem 사 #: KK2501)를 사용하여 타겟 부위를 증폭시켰다. 이 라이브러리는 TruSeq HT Dual Index 시스템(Illumina 사)의 MiniSeq을 사용하여 시퀀싱하였다.
실시예 4.3. 통계 분석
통계적 유의성 검증은 Sigma Plot software(ver. 14.0)를 이용하여 two-tailed Student's t-test에 의해 수행되었다. 0.05 미만의 p-value가 나타나는 경우 통계적으로 유의한 것으로 간주하였고, p-value는 각 도면에 도시되어 있다. 모든 데이터의 에러바들은 Sigmaplot을 사용하여 도시되었으며, 각 데이터의 표준편차 값을 의미한다. 통계적 방법을 기반으로 샘플 크기를 미리 결정하지는 않았다. 각 실험예 별 실험은 3회 반복 수행하였으며, 각 값의 평균값을 분석에 사용하였다.
실시예 5. 초소형 유전자 편집 시스템에 의한 핵산 절단 확인
실시예 5.1. 표적 서열에 대한 Cas12f1 변이체의 인델(Indel) 활성 확인
초소형 유전자 편집 시스템(Hypercompact TaRGET system)이 세포 내에서 표적 핵산 또는 유전자의 표적 서열을 절단하는 활성을 가지는지 여부 및 엔지니어링된 가이드 RNA의 종류에 따른 상기 초소형 유전자 편집 시스템의 표적 서열 절단 활성을 조사하였다. 표적 핵산 또는 표적 유전자 내에서 핵산 절단에 의한 인델(deletion and insertion; indel)이 발생할 수 있다. 상기 인델(Indel)은 이중가닥의 절단에 의해 형성된 2 개의 적합성 말단이 빈번한 접촉을 반복하여 DNA 내 이중가닥 파손을 수복 또는 수선하는 비-상동성 말단-결합(Non-homologous end joining, NHEJ)에 의해 발생하는데, NHEJ 수선 부위에 핵산 서열의 일부 삽입 및/또는 결실(삽입결실)을 초래한다. 결과적으로, 유전자 편집 시스템의 표적 핵산 절단에 의해서 표적 유전자 또는 표적 핵산 내에서 하나 이상의 염기가 결실 및/또는 추가되는 핵산 편집이 일어날 수 있다.
본 실시예에서 제작된 초소형 유전자 편집 시스템이 효과적인 핵산 절단 활성을 나타내는지 확인하기 위해서, Cas12f1 변이체 단백질 또는 이의 동족체 단백질이 절단하는 부위로 인식하는 "PAM 서열"을 포함하는 3개의 인간 내인성 DNA 표적 부위를 동정하였다. 실험에 사용한 표적(Target-1 내지 Target-3) 서열은 하기 표 6에 나타내었다.
Target name Target sequence (5' to 3') SEQ ID NO:
Target-1 [TTTG]CACACACACAGTGGGCTACC 138
Target-2 [TTTG]CATCCCCAGGACACACACAC 139
Target-3 [TTTA]AGAACACATACCCCTGGGCC 140
먼저, canonical sgRNA에서 변형부위 MS1 내지 MS5 중 하나 이상의 변형을 가지는 대표적 엔지니어링된 가이드 RNA(augment RNA)인 MS1/MS2/MS3 augment RNA(Cas12f1_ge3.0), MS2/MS3/MS4 augment RNA(Cas12f1_ge4.0) 및 MS2/MS3/MS4/MS5 augment RNA(Cas12f1_ge4.1)에 의한 표적 서열의 인델(Indel) 효율을 조사하였다.
그 결과, 도 3a 내지 도 3c에 나타난 바와 같이, 상기 표적 서열 Target-1 내지 Target-3 모두에 대해서 엔지니어링된 sgRNA 즉, MS1/MS2/MS3 augment RNA(Cas12f1_ge3.0), MS2/MS23/MS4 augment RNA(Cas12f1_ge4.0) 및 MS2/MS3/MS4/MS5 augment RNA(Cas12f1_ge4.1) 각각은 Cas12f1 변이체 단백질 또는 Cas12f1 변이체 v1 내지 v3 단백질이 표적 핵산을 90% 이상의 효율로 절단하도록 하여 모두 유사한 인델 효율을 나타냈다.
이와는 대조적으로, 엔지니어링되지 않은 canonical sgRNA는 Cas12f1 변이체 단백질 및 Cas12f1 변이체 v1 내지 v3 단백질이 표적 핵산(Target-1 내지 Target-3)을 절단하는 인델 효과를 전혀 야기하기 못했다(도 3a 내지 도 3c). 더욱이, Cas12f1 변이체 단백질(wtTnpB)의 N-말단에 서열번호 233의 아미노산 서열 또는 Cas12f1 변이체 단백질의 C-말단에 서열번호 234의 아미노산 서열이 NLS 서열(서열번호 54; PKKKRKV)로 연결되어 아미노산이 추가된 Cas12f1 변이체(Cas12f1 variant-extension)의 경우에도 엔지니어링된 가이드 RNA[MS2/MS3/MS4/MS5 augment RNA(Cas12f1_ge4.1)]와 함께 Target-1 및 Target-2를 절단하는 인델 효율을 나타냈다(도 3d).
이와 같은 결과는, 엔지니어링된 가이드 RNA(augment RNA)가 canonical sgRNA와 비교하여 Cas12f1 변이체 단백질이 표적 핵산의 절단을 가능하게 하는 고효율의 가이드 RNA이며, 이를 포함하는 본 발명의 초소형 유전자 편집 시스템(Hypercompact TaRGET system)은 우수한 핵산 편집 활성을 나타내는 새로운 유전자 편집 시스템임을 의미한다.
실시예 5.2. 기존 유전자 편집 단백질과의 세포 내 인델(Indel) 효율 비교
다음으로, 초소형 유전자 편집 단백질인 Cas12f1 변이체 단백질; 및 가장 짧은 길이를 가지도록 엔지니어링된 MS2/MS3/MS4/MS5 augment RNA(Cas12f1_ge4.1)를 포함하는 초소형 유전자 편집 시스템의 인델 효율을 기존에 우수한 인델 활성을 가지는 것으로 알려진 대표적 유전자 편집 시스템과 비교하였다.
이를 위해, CRISPR/SpCas9 시스템, CRISPR/AsCas12a 시스템, CRISPR/Cas12f1 시스템 및 본 발명의 초소형 유전자 편집 시스템(Hypercompact TaRGET system)의 대표적인 Cas12f1 변이체 시스템, Cas12f1 변이체 v1 시스템 및 Cas12f1 변이체 v2 시스템을 각각 HEK 293T 세포에 형질감염시킨 후, 딥 시퀀싱(deep sequencing) 분석을 통해 5'-[TTTA]AGAACACATACCCCTGGGCC-3' (Target-3, 서열번호 140)인 내인성 유전자좌에서의 인델 효율을 확인하였다.
그 결과, CRISPR/SpCas9 시스템은 약 10%의 인델 효율을 나타낸 반면, Cas12f1 변이체 시스템, Cas12f1 변이체 v1 시스템 및 Cas12f1 변이체 v2 시스템은 각각 45%, 55% 및 38%의 인델 효율을 나타냈다(도 4). 이는 본 발명에 따른 초소형 유전자 편집 단백질 Cas12f1 변이체를 포함하는 초소형 유전자 편집 시스템(Hypercompact TaRGET system)이 앞서 설명한 작은 사이즈에서 기인한 다양한 유전자 편집을 위한 활용 범위 확장의 장점에 더불어, 표적 핵산의 절단에 있어서 기존에 가장 많은 연구가 진행되고 현재 CRISPR/Cas 시스템으로 사용되고 있는 것보다 표적 핵산 또는 표적 유전자 절단 효율이 현저히 증가된 것을 확인한 것이다.
실시예 5.3. augment RNA 및 Cas12f1 변이체의 조합에 따른 인델(Indel) 활성 분석
실시예 5.3.1. augment RNA에 따른 인델(Indel) 활성 비교
본 실시예에서, 엔지니어링된 가이드 RNA(augment RNA)가 canonical sgRNA와 비교하여, Cas12f1 변이체 단백질(변이체 v1 내지 v3 포함)에 대한 우수한 표적 핵산 절단 활성을 야기하는 것을 확인하고자 하였다. 이를 위해, canonical sgRNA에서 변형부위 MS1 내지 MS5에 대해 각각을 3 구획으로 더 세분화하였다. 이들 중 하나 이상의 변형을 가지도록 조합하여 실시예 1.3에서 예시한 바와 같이, 다양하게 엔지니어링된 augment RNA를 제작하였다. 상기 제작된 엔지니어링된 augment RNA의 인델(Indel) 활성을 테스트하였다.
그 결과, 도 5a, 도 5b 및 도 6에 나타난 바와 같이, canonical sgRNA(full length) 및 Cas12f1 변이체 단백질을 포함하는 초소형 유전자 편집 시스템(Hypercompact TaRGET system)은 표적 가닥의 절단이 일어나지 않았지만, 테스트에 사용한 엔지니어링된 augment RNA는 그 염기서열 및 표적 서열(Target sequence)에 따라 Cas12f1 변이체 단백질의 표적 핵산에 대한 인델(Indel) 효율에 영향을 미쳤다.
구체적으로, 표적 서열 5'-[TTTG]CACACACACAGTGGGCTACC-3'(Target-1, 서열번호 138)에 대해 Cas12f1 변이체 단백질을 포함하는 유전자 편집 시스템(Hypercompact TaRGET system)에서는, MS1/MS2/MS3 augment RNA, MS1/MS2/MS4*-2 augment RNA, MS1/MS3-3/MS4*-2 augment RNA 및 MS1/MS2/MS3-3/MS4*-2 augment RNA가 약 50% ~ 65%의 높은 인델(Indel) 효율을 나타냈고, MS1/MS3-3 augment RNA, MS1/MS2/MS5-3 augment RNA, MS1/MS2/MS3-3/MS5-3 augment RNA, MS1/MS2/MS4*-2/MS5-3 augment RNA 및 MS1/MS2/MS3-3/MS4*-2/MS5-3 augment RNA은 약 30% ~ 40%의 인델(Indel) 효율을 보였다(도 5a).
표적 서열 5'-[TTTG]CATCCCCAGGACACACACAC-3'(Target-2, 서열번호 139)에 대해 Cas12f1 변이체 단백질을 포함하는 유전자 편집 시스템(Hypercompact TaRGET system)에서는, MS1/MS2/MS3 augment RNA, MS1/MS2/MS3-3/MS4*-2 augment RNA, MS1/MS2/MS3-3/MS5-3 augment RNA 및 MS1/MS2/MS3-3/MS4*-2/MS5-3 augment RNA가 약 35% ~ 45%의 인델(Indel) 효율을 나타냈고, MS1/MS2/MS4*-2 augment RNA, MS1/MS3-3/MS4*-2 augment RNA, MS1/MS2/MS5-3 augment RNA, MS1/MS3-3/MS5-3 augment RNA, MS1/MS4*-2/MS5-3 augment RNA, MS1/MS2/MS4*-2/MS5-3 augment RNA 및 MS1/MS3-3/MS4*-2/MS5-3 augment RNA는 약 15% ~ 20%의 인델(Indel) 효율을 나타냈다(도 5b).
실시예 5.3.2. 고효율의 augment RNA에 따른 Cas12f1 변이체의 인델(Indel) 활성 비교
고효율의 인델 효과를 나타낸 상기 MS1/MS2/MS3 augment RNA, MS1/MS2/MS4*-2 augment RNA, MS1/MS3-3/MS4*-2 augment RNA 또는 MS1/MS2/MS3-3/MS4*-2 augment RNA와 Cas12f1 변이체 단백질을 포함하는 초소형 유전자 편집 시스템의 표적 핵산에 대한 인델(Indel) 효율을 확인하였다.
그 결과, Cas12f1 변이체 v2 및 Cas12f1 변이체 v3의 경우에는 Cas12f1 변이체 단백질의 경우와 유사하게 약 45% 내지 약 65%의 매우 우수한 인델 효율을 나타냈다(도 6). 다만, Cas12f1 변이체 v1의 경우에는 다소 낮은 약 15%의 인델 효율을 나타냈다. 그렇지만, canonical sgRNA에 의할 경우 인델 활성이 거의 없는 것과 비교하여 본 발명의 엔지니어링된 MS1/MS2/MS3 augment RNA, MS1/MS2/MS4*-2 augment RNA, MS1/MS3-3/MS4*-2 augment RNA 및 MS1/MS2/MS3-3/MS4*-2 augment RNA 모두는 Cas12f1 변이체 v1을 포함하는 유전자가위 시스템의 인델 효율을 현저하게 증가시킨 것이라고 할 수 있다(도 6).
실시예 5.3.3. Mature form sgRNA 기반의 augment RNA에 따른 Cas12f1 변이체의 인델(Indel) 활성 비교
다음으로, Cas12f1 변이체 단백질에 대한 고효율의 엔지니어링된 싱글 가이드 RNA(augment RNA)를 얻기 위해, Mature form sgRNA인 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN-3'(서열번호 124) 및 상기 Mature form sgRNA에서 핵산 서열의 일부 변형을 가지는 augment RNA를 제작하였고(표 5), 이들에 의한 본 발명의 초소형 유전자 편집 시스템(Hypercompact TaRGET system)의 인델(Indel) 효율을 측정하였다.
그 결과, 제작된 대부분의 엔지니어링된 augment RNA는 canonical sgRNA 보다 향상된 인델 효율을 나타냈고, 특히, MS3-3/MS4-3 augment RNA(서열번호 134)는 표적 서열 Target-1 및 Target-2에서 각각 약 40% 및 약 20%의 인델 효율을 나타냈다(도 7a 및 도 7c).
또한, 상기 Mature form sgRNA에서 핵산 서열의 일부 변형을 가지는 augment RNA(서열번호 125 내지 137, 표 5) 각각의 3'-말단에 U4AU4인 MS2 변형이 추가된 augment RNA인 경우에는, Mature form sgRNA 보다도 인델 효율이 상승하였다(도 7b 및 도 7d). MS3-3/MS4-3 augment RNA(서열번호 134)의 3'-말단에 U4AU4인 MS2 변형이 추가된 경우에도, 표적 서열 Target-1 및 Target-2에서 각각 약 60% 및 약 50%의 인델 효율을 나타내어, 3'-말단에 MS2 변형의 추가가 인델 효율을 크게 상승시키는 것을 확인하였다(도 7b 및 도 7d).
상기 Mature form sgRNA에서 추가의 변형을 가지는 엔지니어링된 augment RNA 중, 높은 인델 효과를 나타낸 상기 MS3-3 augment RNA(서열번호 127), MS3-3/MS4-3 augment RNA(서열번호 134) 또는 MS3-3/MS4-3/MS5-3 augment RNA(서열번호 137)와 Cas12f1 변이체 단백질을 포함하는 초소형 유전자 편집 시스템(Hypercompact TaRGET system)의 표적 핵산에 대한 인델(Indel) 효율을 확인하였다.
그 결과, 도 8에서 확인할 수 있는 바와 같이, Cas12f1 변이체 v1 내지 v3 단백질 모두는 Cas12f1 변이체 단백질의 경우와 유사하게 우수한 인델 효율을 나타냈다. 게다가, 상기 MS3-3 augment RNA(서열번호 127), MS3-3/MS4-3 augment RNA(서열번호 134) 또는 MS3-3/MS4-3/MS5-3 augment RNA(서열번호 137)의 3'-말단에 U4AU4인 MS2 변형이 추가된 엔지니어링된 augment RNA 또한, Cas12f1 변이체 단백질과 마찬가지로 Cas12f1 변이체 v1, Cas12f1 변이체 v2 및 Cas12f1 변이체 v3 단백질에 대해서도 훨씬 증가된 인델 효율을 나타냈다(도 8).
상기 결과들을 종합하면, 본 발명의 Cas12f1 변이체 단백질(Cas12f 변이체 v1 내지 v3 단백질 포함) 및 이들과 동일한 생물학적 활성을 나타내는 Cas12f1 변이체 단백질의 동족체 단백질; 및 augment RNA를 포함하는 초소형 유전자 편집 시스템은 canonical 가이드 RNA를 포함하는 경우에 핵산 절단 활성이 거의 없는 것과 비교하여, 최소한 하나의 염기서열이 삭제되거나 치환된 변형을 가지는 augment RNA 또는 canonical 가이드 RNA의 3'-말단에 U-rich tail이 추가되는 변형에 의해 표적 핵산 또는 표적 유전자의 절단 활성이 증가된다는 결론에 도달한다.
상기 진술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
[서열목록 자유텍스트]
본 명세서에 첨부된 서열목록 전자파일에서 생략된 서열(skipped sequence, 정의된 핵산이 10개 미만; 서열번호 15, 18, 21, 22, 23, 60, 67, 69, 70, 71, 72, 75, 77, 78, 79, 80, 83, 85, 86, 87, 88 및 91)에 대한 서열 정보는 하기에 제공된다.
서열번호: 15
서열길이: 13
서열종류: RNA
서열유래: Artificial Sequence
서열명칭: The fourth region of tracrRNA for Cas12f1 variant gRNA
서열:
caaauucann nnn
서열번호: 18
서열길이: 13
서열종류: RNA
서열유래: Artificial Sequence
서열명칭: The fourth region of tracrRNA for Cas12f1 variant gRNA
서열:
caaauucann ncn
서열번호: 21
서열길이: 12
서열종류: RNA
서열유래: Artificial Sequence
서열명칭: The fifth region of crRNA for Cas12f1 variant gRNA
서열:
nnnnnugaag ga
서열번호: 22
서열길이: 12
서열종류: RNA
서열유래: Artificial Sequence
서열명칭: The fifth region of crRNA for Cas12f1 variant gRNA
서열:
nbnnnugaag ga
서열번호: 23
서열길이: 7
서열종류: RNA
서열유래: Artificial Sequence
서열명칭: The sixth region of crRNA for Cas12f1 variant gRNA
서열:
augcaac
서열번호: 60
서열길이: 12
서열종류: RNA
서열유래: Artificial Sequence
서열명칭: The fifth region of crRNA for Cas12f1 variant gRNA
서열:
nbnnnugaag ga
서열번호: 67
서열길이: 7
서열종류: RNA
서열유래: Artificial Sequence
서열명칭: U-rich tail sequence
서열:
uuuruuu
서열번호: 69
서열길이: 6
서열종류: RNA
서열유래: Artificial Sequence
서열명칭: U-rich tail sequence
서열:
uuuuru
서열번호: 70
서열길이: 7
서열종류: RNA
서열유래: Artificial Sequence
서열명칭: U-rich tail sequence
서열:
uuuuruu
서열번호: 71
서열길이: 8
서열종류: RNA
서열유래: Artificial Sequence
서열명칭: U-rich tail sequence
서열:
uuuuruuu
서열번호: 72
서열길이: 9
서열종류: RNA
서열유래: Artificial Sequence
서열명칭: U-rich tail sequence
서열:
uuuuruuuu
서열번호: 75
서열길이: 7
서열종류: RNA
서열유래: Artificial Sequence
서열명칭: U-rich tail sequence
서열:
uuuauuu
서열번호: 77
서열길이: 6
서열종류: RNA
서열유래: Artificial Sequence
서열명칭: U-rich tail sequence
서열:
uuuuau
서열번호: 78
서열길이: 7
서열종류: RNA
서열유래: Artificial Sequence
서열명칭: U-rich tail sequence
서열:
uuuuauu
서열번호: 79
서열길이: 8
서열종류: RNA
서열유래: Artificial Sequence
서열명칭: U-rich tail sequence
서열:
uuuuauuu
서열번호: 80
서열길이: 9
서열종류: RNA
서열유래: Artificial Sequence
서열명칭: U-rich tail sequence
서열:
uuuuauuuu
서열번호: 83
서열길이: 7
서열종류: RNA
서열유래: Artificial Sequence
서열명칭: U-rich tail sequence
서열:
uuuguuu
서열번호: 85
서열길이: 6
서열종류: RNA
서열유래: Artificial Sequence
서열명칭: U-rich tail sequence
서열:
uuuugu
서열번호: 86
서열길이: 7
서열종류: RNA
서열유래: Artificial Sequence
서열명칭: U-rich tail sequence
서열:
uuuuguu
서열번호: 87
서열길이: 8
서열종류: RNA
서열유래: Artificial Sequence
서열명칭: U-rich tail sequence
서열:
uuuuguuu
서열번호: 88
서열길이: 9
서열종류: RNA
서열유래: Artificial Sequence
서열명칭: U-rich tail sequence
서열:
uuuuguuuu
서열번호: 91
서열길이: 6
서열종류: RNA
서열유래: Artificial Sequence
서열명칭: U-rich tail sequence
서열:
uuuuuu

Claims (39)

  1. Cas12f1 변이체(variant) 단백질 또는 이의 동족체(homolog) 단백질을 포함하는 엔도뉴클레아제(endonuclease) 또는 상기 엔도뉴클레아제를 암호화하는 핵산; 및 가이드 RNA(guide RNA) 또는 상기 가이드 RNA를 암호화하는 핵산을 포함하는 유전자 편집 시스템.
  2. 제1항에 있어서,
    상기 Cas12f1 변이체 단백질은 서열번호 1의 아미노산 서열 또는 상기 서열을 기준으로 N-말단으로부터 1개 내지 28개의 아미노산이 제거 또는 치환된 아미노산 서열을 포함하며, 서열번호 5의 아미노산 서열로 이루어진 Cas12f1 단백질은 아닌 것인
    유전자 편집 시스템.
  3. 제1항에 있어서,
    상기 Cas12f1 변이체 단백질은 서열번호 1 내지 서열번호 4로 이루어진 군에서 선택된 어느 하나의 아미노산 서열을 포함하는
    유전자 편집 시스템.
  4. 제1항에 있어서,
    상기 동족체 단백질은 서열번호 141 내지 서열번호 232로 이루어진 군에서 선택된 어느 하나의 아미노산 서열을 포함하는
    유전자 편집 시스템.
  5. 제1항에 있어서,
    상기 Cas12f1 변이체 단백질은 서열번호 1의 아미노산 서열을 포함하고, N-말단 또는 C-말단에 1개 내지 600개의 아미노산이 추가된 아미노산 서열로 이루어진
    유전자 편집 시스템.
  6. 제5항에 있어서,
    상기 추가된 1개 내지 600개의 아미노산은 서열번호 233 또는 서열번호 234의 아미노산 서열로 이루어진 것인
    유전자 편집 시스템.
  7. 제1항에 있어서,
    상기 가이드 RNA는 서열번호 6의 뉴클레오티드 서열로 이루어진 야생형 가이드 RNA에서 하나 이상의 뉴클레오티드 서열이 삭제, 치환 또는 추가되어 엔지니어링된 가이드 RNA이고, 표적 서열에 상보적인 엔지니어링된 가이드 RNA의 스페이서 부분은 15개 이상 50개 이하의 뉴클레오티드 서열로 이루어진
    유전자 편집 시스템.
  8. 제7항에 있어서,
    상기 엔지니어링된 가이드 RNA는 엔지니어링된 tracrRNA(transactivating CRISPR RNA) 또는 엔지니어링된 crRNA(CRISPR RNA)를 포함하며, 상기 엔지니어링된 tracrRNA는 연속된 다섯 개 이상의 유리딘 서열을 포함하지 않도록 변형되고 야생형 tracrRNA보다 뉴클레오티드 서열의 길이가 짧도록 변형된 tracrRNA이고, 상기 엔지니어링된 crRNA는 서열번호 19의 뉴클레오티드 서열 또는 이의 일부 서열을 포함하는
    유전자 편집 시스템.
  9. 제8항에 있어서,
    상기 서열번호 19의 일부 서열은 서열번호 21의 뉴클레오티드 서열을 포함하면서 서열번호 19의 5'-말단의 일부 서열은 포함하지 않는
    유전자 편집 시스템.
  10. 제7항에 있어서,
    상기 엔지니어링된 가이드 RNA는 엔지니어링된 crRNA(CRISPR RNA)를 포함하며, 상기 엔지니어링된 crRNA는 3'-말단에 U-rich tail 서열이 추가된 것인
    유전자 편집 시스템.
  11. 제10항에 있어서,
    상기 U-rich tail 서열은 5'-(UaN)dUe-3', 5'-UaVUaVUe-3' 또는 5'-UaVUaVUaVUe-3'의 서열을 가지며,
    N은 각각 A, C, G 또는 U이고,
    V는 각각 독립적으로 A, C 또는 G이고,
    a는 0 내지 5 사이의 정수이고,
    d는 0 내지 4 사이의 정수이고,
    e는 0 내지 10 사이의 정수인
    유전자 편집 시스템.
  12. 제11항에 있어서,
    상기 U-rich tail 서열은 서열번호 67 내지 서열번호 91로 이루어진 군에서 선택된 어느 하나의 뉴클레오티드 서열을 포함하는
    유전자 편집 시스템.
  13. 제7항에 있어서,
    상기 엔지니어링된 가이드 RNA는 엔지니어링된 tracrRNA(transactivating CRISPR RNA)를 포함하며, 상기 엔지니어링된 tracrRNA는 서열번호 7의 뉴클레오티드 서열 또는 이의 5'-말단 서열이 일부 제거된 서열을 포함하거나 서열번호 7의 뉴클레오티드 서열이 모두 제거된 것인
    유전자 편집 시스템.
  14. 제7항에 있어서,
    상기 엔지니어링된 가이드 RNA는 엔지니어링된 tracrRNA(transactivating CRISPR RNA)를 포함하며, 상기 엔지니어링된 tracrRNA는 서열번호 9의 뉴클레오티드 서열 또는 이의 일부 서열을 포함하는
    유전자 편집 시스템.
  15. 제14항에 있어서,
    상기 서열번호 9의 일부 서열은 서열번호 10 내지 서열번호 12로 이루어진 군에서 선택된 어느 하나의 뉴클레오티드 서열을 포함하는
    유전자 편집 시스템.
  16. 제7항에 있어서,
    상기 엔지니어링된 가이드 RNA는 서열번호 44 내지 서열번호 48 및 서열번호 105 내지 서열번호 137로 이루어진 군에서 선택된 어느 하나의 뉴클레오티드 서열; 또는
    서열번호 125 내지 137로 이루어진 군에서 선택된 어느 하나의 뉴클레오티드 서열에서 3'-말단에 U-rich tail 서열이 추가된 서열을 포함하는
    유전자 편집 시스템.
  17. 제7항에 있어서,
    상기 엔지니어링된 가이드 RNA는 듀얼 가이드 RNA 또는 싱글 가이드 RNA인
    유전자 편집 시스템.
  18. Cas12f1 변이체(variant) 단백질 또는 이의 동족체(homolog) 단백질을 포함하는 엔도뉴클레아제.
  19. 제18항에 있어서,
    상기 Cas12f1 변이체 단백질은 서열번호 1의 아미노산 서열 또는 상기 서열을 기준으로 N-말단으로부터 1개 내지 28개의 아미노산이 제거 또는 치환된 아미노산 서열을 포함하며, 서열번호 5의 아미노산 서열로 이루어진 Cas12f1 단백질은 아닌 것인
    엔도뉴클레아제.
  20. 제18항에 있어서,
    상기 Cas12f1 변이체 단백질은 서열번호 1 내지 서열번호 4로 이루어진 군에서 선택된 어느 하나의 아미노산 서열을 포함하는
    엔도뉴클레아제.
  21. 제18항에 있어서,
    상기 동족체 단백질은 서열번호 141 내지 서열번호 232로 이루어진 군에서 선택된 어느 하나의 아미노산 서열을 포함하는
    엔도뉴클레아제.
  22. 제18항에 있어서,
    상기 Cas12f1 변이체 단백질은 서열번호 1의 아미노산 서열을 포함하고, N-말단 또는 C-말단에 1개 내지 600개의 아미노산이 추가된 아미노산 서열로 이루어진
    엔도뉴클레아제.
  23. 제19항 내지 제22항 중 어느 한 항의 엔도뉴클레아제를 암호화하는 폴리뉴클레오티드.
  24. Cas12f1 변이체(variant) 단백질 또는 이의 동족체(homolog) 단백질을 포함하는 엔도뉴클레아제(endonuclease)를 암호화하는 뉴클레오티드가 작동가능하게 연결된 제1 핵산 구조물; 및 가이드 RNA(guide RNA)를 암호화하는 뉴클레오티드 서열이 작동가능하게 연결된 제2 핵산 구조물을 포함하고, 상기 제1 핵산 구조물 및 제2 핵산 구조물은 벡터 시스템의 동일한 벡터 상에 또는 상이한 벡터 상에 위치되는 벡터 시스템.
  25. 제24항에 있어서,
    상기 벡터는 가이드 RNA를 암호화하는 뉴클레오티드를 위한 프로모터를 더 포함하는
    벡터 시스템.
  26. 제25항에 있어서,
    상기 프로모터는 U6 프로모터, H1 프로모터 또는 7SK 프로모터인
    벡터 시스템.
  27. 제24항에 있어서,
    상기 제1 핵산 구조물은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 암호화하는 코돈-최적화된 핵산을 포함하는
    벡터 시스템.
  28. 제24항에 있어서,
    상기 핵산 구조물은 N-말단 또는 C-말단에 핵 위치 신호(nuclear localization signal, NLS) 또는 핵 유출 신호(nuclear export signal, NES) 서열을 1개 이상 포함하는
    벡터 시스템.
  29. 제24항에 있어서,
    상기 연결은 직접 또는 링커를 통해 연결되는 것인
    벡터 시스템.
  30. 제24항에 있어서,
    상기 벡터는 mRNA, 플라스미드, 선형의 PCR 엠플리콘 또는 바이러스 벡터인
    벡터 시스템.
  31. 제30항에 있어서,
    상기 바이러스 벡터는 레트로바이러스 벡터, 렌티바이러스 벡터, 아데노바이러스 벡터, 아데노-연관 바이러스 벡터, 백시니아바이러스 벡터, 폭스바이러스 벡터 또는 단순포진 바이러스 벡터인
    벡터 시스템.
  32. 제1항 내지 제17항 중 어느 한 항의 유전자 편집 시스템; 제24항 내지 제31항 중 어느 한 항의 벡터 시스템; 또는 이들 시스템 모두를 포함하는 유전자 편집용 조성물.
  33. 제32항에 있어서,
    상기 유전자 편집용 조성물은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 포함하는 엔도뉴클레아제; 및 가이드 RNA를 리보뉴클레오단백질(ribonucleoprotein, RNP) 형태로 포함하는
    유전자 편집용 조성물.
  34. 제32항에 있어서,
    상기 유전자 편집은 표적 유전자 또는 표적 핵산 내의 표적 서열을 가지는 이중가닥 DNA, 단일가닥 DNA, 또는 DNA와 RNA 혼성 이중가닥의 핵산 절단인
    유전자 편집용 조성물.
  35. 제1항 내지 제17항 중 어느 한 항의 유전자 편집 시스템, 제24항 내지 제31항 중 어느 한 항의 벡터 시스템 또는 제32항 내지 제34항 중 어느 한 항의 유전자 편집용 조성물을 표적 유전자 또는 표적 핵산과 접촉시키는 단계를 포함하는 유전자 편집 방법.
  36. 제35항에 있어서,
    상기 유전자 편집은 표적 유전자 또는 표적 핵산 내의 표적 서열을 가지는 이중가닥 DNA, 단일가닥 DNA, 또는 DNA와 RNA 혼성 이중가닥의 핵산 절단인
    유전자 편집 방법.
  37. 제35항에 있어서,
    상기 방법은 표적 핵산 또는 표적 유전자가 존재하는 원핵 세포 또는 진핵 세포 내에서 이루어지는
    유전자 편집 방법.
  38. 제37항에 있어서,
    상기 진핵 세포는 효모(yeast), 곤충 세포, 식물 세포, 비인간-동물 세포 또는 인간 세포인
    유전자 편집 방법.
  39. 제35항에 있어서,
    상기 유전자 편집 시스템, 벡터 시스템 또는 핵산 편집용 조성물은 레트로바이러스, 렌티바이러스, 아데노바이러스, 아데노-연관 바이러스, 백시니아바이러스, 폭스바이러스 및 단순포진 바이러스로 구성된 군에서 선택된 바이러스에 패키징되어 원핵 세포 또는 진핵 세포 내로 전달되는
    유전자 편집 방법.
KR1020220128219A 2021-10-06 2022-10-06 유전자 편집을 위한 TaRGET 시스템 및 이의 용도 KR20230051095A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20210132306 2021-10-06
KR1020210132306 2021-10-06

Publications (1)

Publication Number Publication Date
KR20230051095A true KR20230051095A (ko) 2023-04-17

Family

ID=85804529

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220128219A KR20230051095A (ko) 2021-10-06 2022-10-06 유전자 편집을 위한 TaRGET 시스템 및 이의 용도

Country Status (2)

Country Link
KR (1) KR20230051095A (ko)
WO (1) WO2023059115A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4337701A1 (en) 2021-05-10 2024-03-20 Mammoth Biosciences, Inc. Effector proteins and methods of use

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150016588A (ko) 2012-05-25 2015-02-12 더 리젠츠 오브 더 유니버시티 오브 캘리포니아 Rna-유도된 표적 dna 변형 및 전사의 rna-유도된 조절을 위한 방법 및 조성물
US20200190494A1 (en) 2018-12-14 2020-06-18 Pioneer Hi-Bred International, Inc. Novel crispr-cas systems for genome editing

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114846146B (zh) * 2019-10-29 2024-04-12 基恩科雷有限责任公司 用于增加CRISPR/Cas12f1系统的效率的工程化引导RNA及其用途

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150016588A (ko) 2012-05-25 2015-02-12 더 리젠츠 오브 더 유니버시티 오브 캘리포니아 Rna-유도된 표적 dna 변형 및 전사의 rna-유도된 조절을 위한 방법 및 조성물
US20200190494A1 (en) 2018-12-14 2020-06-18 Pioneer Hi-Bred International, Inc. Novel crispr-cas systems for genome editing

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
Chylinski, K. et al., Classification and evolution of type II CRISPR-Cas system, Nucleic Acids Research, Vol. 42, No. 10, 6091-6105(2014)
Harrington, LB. et al., Programmed DNA destruction by miniature CRISPR-Cas14 enzymes, Science, Vol. 362, 839-842(2018)
Jinek, M. et al., A Programmable Dual-RNA-Guided DNA Endonuclease in Adaptive Bacterial Immunity, Science, Vol. 337, 816-821(2012)
Karvelis, T. et al., PAM recognition by miniature CRISPR-Cas12f nucleases triggers programmable double-stranded DNA target cleavage, Nucleic Acids Research, Vol. 48, No. 9, 5016-5023(2020)
Koonin, EV. et al., Mobile genetic elements and evolution of CRISPR-Cas system; All the way there and back, Genome Biol. Evol., Vol. 9, No. 10, 2812-2825(2017),
Makarova, KS. et al., Evolutionary classification of the CRISPR-Cas system: a burst of class 2 and derived variants, Nat. Rev. Microbiol., Vol. 18, 67-83(2020)
Shmakov, S. et al., Discovery and Functional Characterization of diverse class 2 CRISPR-Cas system, Vol. 60, 385-397(2015)
Takeda, SN. et al., Structure of the miniature type V-F CRISPR-Cas effector enzyme, Molecular Cell 81, 1-13(2021)
Wang, D. et al., Adeno-associated virus vector as a platform for gene therapy delivery, Nat. Rev. Drug Discov., Vol. 18, No. 5, 358-378(2019)
Xiao, R. et al., Structural basis for the dimerization-dependent CRISPR-Cas12f nuclease, bioRxiv, 1-20(2020)

Also Published As

Publication number Publication date
WO2023059115A1 (ko) 2023-04-13

Similar Documents

Publication Publication Date Title
EP4053285A2 (en) Engineered guide rna for increasing efficiency of crispr/cas12f1 system, and use of same
EP3998344A1 (en) Crispr oligonucleotides and gene editing
CN107922949A (zh) 用于通过同源重组的基于crispr/cas的基因组编辑的化合物和方法
CN116801913A (zh) 用于靶向bcl11a的组合物和方法
KR20240023081A (ko) CRISPR/Cas12f1(Cas14a1) system 효율화를 위한 engineered guide RNA 및 이의 용도
KR20220144343A (ko) CRISPR/Cas12f1 시스템 효율화를 위한 U-rich tail을 포함하는 엔지니어링 된 가이드 RNA 및 그 용도
KR20220122727A (ko) Rna의 표적 편집을 위한 신규한 방법
KR20230051095A (ko) 유전자 편집을 위한 TaRGET 시스템 및 이의 용도
JP2023545079A (ja) CRISPR/Cas12f1システム効率化のためのU-rich tailを含むエンジニアリングされたガイドRNAおよびその用途
JP2023544817A (ja) CRISPR/Cas12f1システム効率化のためのエンジニアリングされたガイドRNAおよびその用途
KR20230121569A (ko) 상동지정복구를 위한 TaRGET 시스템 및 이를 이용한 유전자 편집 방법
CN117384880A (zh) 工程化的核酸修饰编辑器
KR20230007218A (ko) 초소형 염기교정 시스템 및 이의 용도
KR20240082384A (ko) 원형 rna 및 이의 제조방법
KR102638799B1 (ko) CRISPR/Cas12f1(Cas14a1) system 효율화를 위한 engineered guide RNA 및 이의 용도
CN116568806A (zh) 用于增加crispr/cas12f1(cas14a1)系统的效率的经工程化的引导rna及其用途
KR20230142365A (ko) 어셔 증후군 치료를 위한 유전자 편집 시스템
KR20220145438A (ko) CRISPR/Cas12f1 시스템 효율화를 위한 엔지니어링 된 가이드 RNA 및 그 용도
WO2024089629A1 (en) Cas12 protein, crispr-cas system and uses thereof
KR20240034661A (ko) 캄필로박터 제주니 유래 Cas9의 가이드 RNA 구조변화를 통한 유전자교정 향상 시스템
KR20230166041A (ko) 확장된 표적 범위를 갖는 엔지니어링된 Cas12f 단백질 및 이의 용도
WO2024091907A1 (en) Compositions and methods for modifying the hpv16 genome
WO2023283622A1 (en) Crispr-based programmable rna editing
JP2024522821A (ja) ゲノム編集のための組成物及び方法
WO2024121790A2 (en) Cas12 protein, crispr-cas system and uses thereof

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right