KR20230007218A - Hypercompact base editing systems and use thereof - Google Patents

Hypercompact base editing systems and use thereof Download PDF

Info

Publication number
KR20230007218A
KR20230007218A KR1020210181875A KR20210181875A KR20230007218A KR 20230007218 A KR20230007218 A KR 20230007218A KR 1020210181875 A KR1020210181875 A KR 1020210181875A KR 20210181875 A KR20210181875 A KR 20210181875A KR 20230007218 A KR20230007218 A KR 20230007218A
Authority
KR
South Korea
Prior art keywords
sequence
seq
protein
base
cas12f1
Prior art date
Application number
KR1020210181875A
Other languages
Korean (ko)
Inventor
김용삼
김도연
정유희
Original Assignee
주식회사 진코어
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 진코어 filed Critical 주식회사 진코어
Priority to AU2022307018A priority Critical patent/AU2022307018A1/en
Priority to EP22837949.1A priority patent/EP4368713A1/en
Priority to CN202280060155.7A priority patent/CN117916372A/en
Priority to PCT/KR2022/009701 priority patent/WO2023282597A1/en
Priority to KR1020237015257A priority patent/KR20230074819A/en
Publication of KR20230007218A publication Critical patent/KR20230007218A/en

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/78Hydrolases (3) acting on carbon to nitrogen bonds other than peptide bonds (3.5)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y305/00Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5)
    • C12Y305/04Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5) in cyclic amidines (3.5.4)
    • C12Y305/04004Adenosine deaminase (3.5.4.4)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y305/00Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5)
    • C12Y305/04Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5) in cyclic amidines (3.5.4)
    • C12Y305/04005Cytidine deaminase (3.5.4.5)

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Microbiology (AREA)
  • Plant Pathology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Medicinal Chemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Enzymes And Modification Thereof (AREA)

Abstract

The present invention relates to nucleic acid decomposing proteins with small TnpB-derived molecular weight used in base editing or functional analog thereof, a hypercompact base editing system comprising the same, and a method for editing a specific base within a target gene with another base using the hypercompact base editing system. In addition, the present invention relates to a base editing composition containing a hypercompact base editing construct or system used in base editing. The hypercompact base editing construct or system in the present invention is packaged in one AAV vector to be efficiently transmitted to a target area within a cell, identifies the editing of adenine or cytosine on a target sequence with other base, and confirms the base editing generated at a higher editing rate compared with existing adenine base editing genetic scissor (ABEs) or cytosine base editing genetic scissor (CBEs). Accordingly, the hypercompact base editing construct or system according to the present invention will be an excellent advanced genetic editing system in genetic disease treatment through base editing.

Description

초소형 염기교정 시스템 및 이의 용도{Hypercompact base editing systems and use thereof}Hypercompact base editing systems and use thereof {Hypercompact base editing systems and use thereof}

본 발명은 염기교정을 위한 초소형 염기교정 시스템(Hypercompact base editing systems)에 관한 것으로서, 보다 구체적으로는 염기교정에 이용되는 TnpB 유래의 분자량이 작은 핵산분해 단백질, 이를 포함하는 초소형 염기교정 구조물 및 시스템, 상기 초소형 염기교정 시스템을 이용하여 표적 유전자 내의 특정 염기를 다른 염기로 교정하는 방법 및 이를 위한 염기교정용 조성물에 관한 것이다.The present invention relates to hypercompact base editing systems (Hypercompact base editing systems) for base editing, and more specifically, TnpB-derived low molecular weight nucleic acid degrading protein used for base editing, ultracompact base editing structures and systems including the same, A method for correcting a specific base in a target gene with another base using the miniaturized base correction system and a base correction composition therefor.

유전체 편집(Genome Editing)이란 생명체의 유전정보를 자유롭게 교정하는 기술로써, 이 유전체 편집 기술은 미생물뿐만 아니라, 인간을 포함한 동물 및 식물에서도 원하는 유전정보를 효과적으로 변화시킬 수 있다. 이에 따라 유전체 편집 기술은 세포 엔지니어링(cell engineering), 모델 동물 제작, 형질전환 식물체 제작, 암, 유전 질환, 감염 질환 등의 유전자 치료를 위한 활용 등 새로운 바이오 분야의 산업을 창출해 낼 핵심 기술로 그 활용도가 크다. Genome editing is a technology that freely corrects the genetic information of living organisms. This genome editing technology can effectively change desired genetic information not only in microorganisms but also in animals and plants including humans. Accordingly, genome editing technology is a key technology that will create new industries in the bio field, such as cell engineering, model animal production, transgenic plant production, and utilization for gene therapy for cancer, genetic diseases, and infectious diseases. Great use.

유전체 편집 기술에는 표적 유전자 서열을 정확히 찾고 그 부위를 자를 수 있도록 설계된 유전자가위(CRISPR/Cas) 시스템이 중요한 역할을 한다. 유전자가위(CRISPR/Cas) 시스템은 이를 구성하는 핵산분해 단백질을 포함하는 단백질 복합체의 구성에 따라, ClassI 과 Class2로 크게 구분되며, Cas 유전자의 구성 및 개수에 따라 세부적으로 typeI, typeIII, typeIV(이상 Class1), typeII, typeV, typeVI(Class2)로 분류된다(Makarova, A et al., 2011). 현재까지 가장 활발하게 연구되고 있는 스트렙토코커스 피오게네스(Streptococcus pyogenes) 유래의 Cas9은 대표적인 Class2/Type II 핵산분해 단백질이다.In genome editing technology, the gene scissors (CRISPR/Cas) system designed to precisely find the target gene sequence and cut the site plays an important role. The gene scissors (CRISPR/Cas) system is largely divided into Class I and Class2 according to the composition of the protein complex containing the nucleolytic protein that composes it, and typeI, typeIII, and typeIV (or higher) in detail according to the composition and number of Cas genes. Class1), typeII, typeV, and typeVI (Class2) (Makarova, A et al., 2011). Cas9 derived from Streptococcus pyogenes, which has been most actively studied to date, is a representative Class2/Type II nucleolytic protein.

유전자 가위(CRISPR/Cas) 시스템은 Cas 엔도뉴클리아제(endonuclease) 및 표적 유전자 서열을 인식할 수 있는 CRISPR RNA(crRNA)의 복합체로 구성되며, 추가적으로 crRNA와 결합하면서 상기 Cas 엔도뉴클리아제에 결합하는 transactivating CRISPR RNA(tracrRNA)가 추가적인 복합체를 형성할 수 있다. The CRISPR/Cas system consists of a complex of Cas endonuclease and CRISPR RNA (crRNA) capable of recognizing a target gene sequence, and additionally binds to the Cas endonuclease while binding to crRNA. A transactivating CRISPR RNA (tracrRNA) to form an additional complex.

상기 2개의 RNA를 링커로 연결한 단일 가닥 가이드 RNA(single guide RNA, sgRNA) 형태가 주로 이용되고, 이 가이드 RNA는 유전자 가위(CRISPR/Cas) 시스템의 Cas 엔도뉴클리아제가 잘라야 할 표적 유전자의 이중가닥 DNA 염기서열로 안내하는 역할을 한다. 표적 유전자 부위에 위치한 Cas 엔도뉴클리아제는 표적 유전자 서열과 이웃하고 있는 프로토스페이서 인접 모티프(protospacer adjacent motif, PAM)를 인식한 후 타겟서열의 내부 또는 외부 염기 서열(sequence)을 절단하게 된다. A single-stranded guide RNA (sgRNA) form in which the two RNAs are connected by a linker is mainly used, and this guide RNA is the target gene of the target gene to be cut by the Cas endonuclease of the CRISPR/Cas system. It serves as a guide to the double-stranded DNA sequence. Cas endonuclease located at the target gene site recognizes a protospacer adjacent motif (PAM) adjacent to the target gene sequence, and then cuts an internal or external nucleotide sequence of the target sequence.

유전자가위(CRISPR/Cas) 시스템에 의해 절단된 표적 DNA는 상동재조합(Homology directed repair, HDR) 또는 비상동말단연결(non-homologous end joining, NHEJ) 과정의 DNA 복구기작을 통해 복구가 일어난다. 비상동말단연결(NHEJ)의 DNA 복구기작을 통해서는 절단된 DNA 부위 사이에 무작위적 염기의 삽입(insertion) 또는 결실(deletion), 또는 그 조합이 일어나게 되고(insertion and deletion, indel), 그 결과 유전자의 코딩 부분에서 틀이동 변이(frameshift mutation) 또는 조기 종결 변이(premature termination mutation)가 발생하여 표적 유전자가 제거(Knock-out)된다. 반면에 상동재조합(HDR)의 DNA 복구기작은 절단된 DNA를 복구하기 위하여 공여 DNA(Donor DNA)를 필요로 하는데, 이 공여 DNA의 서열을 주형으로 목적 유전자의 서열이 정교하게 변형된다. The target DNA cut by the CRISPR/Cas system is repaired through a DNA repair mechanism of homology directed repair (HDR) or non-homologous end joining (NHEJ) process. Through the DNA repair mechanism of non-homologous end joining (NHEJ), insertion or deletion of random bases occurs between the cut DNA sites, or a combination thereof (insertion and deletion, indel), and as a result A frameshift mutation or a premature termination mutation occurs in the coding region of a gene to knock-out the target gene. On the other hand, the DNA repair mechanism of homologous recombination (HDR) requires donor DNA to repair the cut DNA, and the sequence of the target gene is elaborately modified using the sequence of the donor DNA as a template.

현재, 유전체 편집 기술은 유전자 치료제 개발의 핵심 기술로 효율성, 안전성, 전달성 측면에서 다양한 기술개발이 이루어지고 있다. 유전자가위(CRISPR/Cas) 시스템은 표적 유전자의 염기 교정(Base editing), 프라임 교정(prime editing) 또는 인델(indel) 등을 수행하여 암, 유전 질환, 감염 질환 등의 유전자 치료에 활용된다. 이러한 유전자 교정에 있어서, 상기 유전자가위(CRISPR/Cas) 시스템을 전신의 세포에 효율적으로 전달하는 것이 무엇보다도 중요하며 이러한 전달을 위해 효율적인 매개체가 필요하다.Currently, genome editing technology is a key technology for gene therapy development, and various technologies are being developed in terms of efficiency, safety, and delivery. The CRISPR/Cas system performs base editing, prime editing, or indel of target genes and is used for gene therapy for cancer, genetic diseases, and infectious diseases. In such gene correction, it is most important to efficiently deliver the CRISPR/Cas system to cells throughout the body, and an efficient mediator is required for such delivery.

아데노-연관 바이러스(Adeno-associated virus, AAV)는 안전성, 지속성 및 대량 생산과의 호환성으로 인해 유전자 치료제로 FDA 승인받은 매개체이므로(Wang, D., Tai, P. W. L. & Gao, G. Adeno-associated virus vector as a platform for gene therapy 688 delivery. Nat Rev Drug Discov 18, 358-378 (2019)), 하나의 AAV 벡터에 구성요소를 모두 포함할 수 있는 유전자가위(CRISPR/Cas) 시스템은 유전 질환 치료에 중요한 도구로써 이용될 것으로 인정받고 있다(Yu, W. & Wu, Z. Use of AAV Vectors for CRISPR-Mediated In Vivo Genome Editing in the Retina. Methods Mol Biol 1950, 123-139 (2019)). Adeno-associated virus (AAV) is an FDA-approved vector for gene therapy due to its safety, persistence, and compatibility with mass production (Wang, D., Tai, P. W. L. & Gao, G. Adeno-associated virus vector as a platform for gene therapy 688 delivery. Nat Rev Drug Discov 18, 358-378 (2019)), a CRISPR/Cas system that can contain all components in one AAV vector for the treatment of genetic diseases It is recognized as an important tool (Yu, W. & Wu, Z. Use of AAV Vectors for CRISPR-Mediated In Vivo Genome Editing in the Retina. Methods Mol Biol 1950, 123-139 (2019)).

상기 아데노-연관 바이러스(AAV) 벡터를 이용하여 전달할 수 있는 패키징(packaging) 용량의 유전자 크기는 4.7kb 미만으로 제한되어 있다. 이는 AAV 벡터를 세포 내 전달 매개체로 하여 유전자 치료에 사용하고자 할 때, 기존에 제작된 대부분의 유전자가위(CRISPR/Cas) 시스템이 일반적으로 약 4.7kb 정도의 크기를 초과하기 때문에 임상 적용에 제약이 있음을 암시한다 (Wu, Z., Yang, H. & Colosi, P. Effect of genome size on AAV vector packaging. Mol Ther 18, 80-692 86 (2010)). 이런 이유로 분자량이 Cas9 보다는 작은 SaCas9(Ran, F. A. et al. In vivo genome editing using Staphylococcus aureus Cas9. Nature 520, 186-191 (2015)) 및 CjCas9 (Kim, E. et al. In vivo genome editing with a small Cas9 orthologue derived from Campylobacter jejuni. Nat Commun 8, 14500 (2017)) 등이 아데노-연관 바이러스(AAV)를 매개체로 하여 세포 내로 전달될 수 있는 유전체 편집(genome editing) 도구로서 연구되고 있다. The gene size of the packaging capacity that can be delivered using the adeno-associated virus (AAV) vector is limited to less than 4.7 kb. When using AAV vectors as intracellular delivery media for gene therapy, most of the existing CRISPR/Cas systems generally exceed the size of about 4.7 kb, which limits clinical application. (Wu, Z., Yang, H. & Colosi, P. Effect of genome size on AAV vector packaging. Mol Ther 18, 80-692 86 (2010)). For this reason, SaCas9 (Ran, F. A. et al. In vivo genome editing using Staphylococcus aureus Cas9. Nature 520, 186-191 (2015)) and CjCas9 (Kim, E. et al. In vivo genome editing with a smaller molecular weight than Cas9) small Cas9 orthologue derived from Campylobacter jejuni. Nat Commun 8, 14500 (2017)) is being studied as a genome editing tool that can be delivered into cells via adeno-associated virus (AAV).

유전자 치료에 활용하기 위한 유전자가위(CRISPR/Cas) 시스템은 단순히 이중 가닥 DNA 절단을 통한 indel 변이를 일으키는 유전자 편집 기술에서 더 나아가, 유전자가위(CRISPR/Cas) 시스템에 다른 효과기(effector) 단백질을 결합시켜 염기 교정(base editing), 프라임 교정(prime editing) 또는 후성적 기능 조절(epigenetic regulation)에도 이용되고 있다. The CRISPR/Cas system for use in gene therapy goes beyond gene editing technology that simply causes indel mutations through double-stranded DNA cutting, and combines other effector proteins with the CRISPR/Cas system. It is also used for base editing, prime editing, or epigenetic regulation.

그러나 종래의 염기교정 유전자가위도 CRISPR/Cas9 또는 CRISPR/Cas12a(Cpf1) 기반으로, Cas9 또는 Cpf1 단백질에 탈아미노화효소(deaminase)를 결합하여 염기서열의 교정이 가능한 시스템으로 활용되어 왔다. Cas9 또는 Cpf1 단백질 자체의 크기가 크기 때문에 여기에 탈아미노화효소(deaminase)까지 결합된 염기 교정 유전자가위는 아데노-연관 바이러스(AAV) 등의 전달체를 통하여 체내에 전달할 때에는 indel을 위한 유전자가위(CRISPR/Cas) 시스템보다 더 큰 어려움을 가지고 있다. However, conventional base-editing gene scissors have also been used as systems capable of correcting base sequences by binding deaminase to Cas9 or Cpf1 protein based on CRISPR/Cas9 or CRISPR/Cas12a (Cpf1). Since the size of the Cas9 or Cpf1 protein itself is large, base-correction genetic scissors coupled with deaminase can be used for indel gene scissors (CRISPR) when delivered to the body through a delivery vehicle such as adeno-associated virus (AAV). /Cas) has greater difficulty than the system.

이와 같이, 유전자가위(CRISPR/Cas) 시스템을 이용한 유전자 교정은 암, 유전 질환, 감염 질환 등의 유전자 치료에 있어 보다 근본적이고 효과적인 적용 수단을 제시하는 장점이 있다. 그러나 기존에 사용하고 있는 핵산분해 단백질인 Cas9 또는 Cpf1은 자체의 큰 분자량으로 인해 임상적으로 검증된 전달 수단인 AAV 벡터에 포함시키는데 어려움이 있다. 또한, 이 보다 비교적 크기가 작은 Cas9 단백질로 알려진 SaCas9 및 CjCas9 등도 탈아미노화효소(deaminase)나 다른 효과기(effector) 단백질과의 결합에 의해서는 아데노-연관 바이러스(AAV) 벡터의 패키징 용량을 초과하여 생체 내로 전달되는 유전자 치료제로 사용하기에는 여전히 부적당하다.As such, gene editing using the gene scissors (CRISPR/Cas) system has the advantage of presenting a more fundamental and effective application means for gene therapy for cancer, genetic diseases, infectious diseases, and the like. However, existing nucleolytic proteins such as Cas9 or Cpf1 have difficulties in incorporating them into AAV vectors, which are clinically proven delivery means, due to their large molecular weight. In addition, SaCas9 and CjCas9, known as relatively smaller Cas9 proteins, also exceed the packaging capacity of adeno-associated virus (AAV) vectors by binding to deaminase or other effector proteins. It is still unsuitable for use as a gene therapy delivered in vivo.

이 문제를 해결하기 위해서는 유전자 편집 효율이 우수하다고 알려진 Cas9 또는 Cpf1 단백질 또는 비교적 크기가 작은 핵산분해 단백질로 알려진 SaCas9 및 CjCas9 등 보다도, 분자량은 더 작지만 세포 내에서 높은 표적 효율 및 편집 활성을 가지는 핵산분해 단백질 및 이를 포함하는 초소형의 새로운 유전자가위(CRISPR/Cas) 시스템이 절실히 필요한 실정이다. In order to solve this problem, Cas9 or Cpf1 proteins, which are known to have excellent gene editing efficiency, or SaCas9 and CjCas9, which are known to be relatively small nucleic acid degradation proteins, are smaller in molecular weight but have high targeting efficiency and editing activity in cells. There is an urgent need for a protein and a novel CRISPR/Cas system containing the protein.

본 발명은 상기와 같은 요구를 해결하고 종래기술의 문제점을 극복하기 위한 것으로, 탈아미노화효소(deaminase)가 결합된 TnpB 유래의 분자량이 작은 핵산분해 단백질 또는 이의 기능적 유사체; 및 가이드 RNA;를 포함하는 초소형 염기교정 시스템(Hypercompact base editing systems)의 제공을 목적으로 한다.The present invention is to solve the above needs and overcome the problems of the prior art, deaminase (deaminase) conjugated TnpB-derived low molecular weight nucleolytic protein or functional analogues thereof; and guide RNA.

본 발명은 또한, 탈아미노화효소(deaminase)에 결합된 TnpB 유래의 분자량이 작은 핵산분해 단백질 또는 이의 기능적 유사체; 및 가이드 RNA;를 포함하는 초소형 염기교정 시스템의 각 구성요소를 암호화하는 핵산 서열이 작동가능하게 연결된 핵산 구조물을 포함하는 벡터의 제공을 목적으로 한다.The present invention also relates to a deaminase-linked TnpB-derived low-molecular-weight nucleolytic protein or a functional analog thereof; It is an object of the present invention to provide a vector comprising a nucleic acid construct in which nucleic acid sequences encoding each component of a microminiature sequencing system including; and guide RNA are operably linked.

본 발명은 표적 핵산 또는 표적 유전자의 표적 부위에서 특정의 염기를 다른 염기로 교정하는데 사용하기 위한, Cas12f1 또는 TnpB 유래의 분자량이 작은 핵산분해 단백질 또는 이의 기능적 유사체; 및 탈아미노화효소(deaminase);를 포함하는 융합 단백질의 제공을 목적으로 한다.The present invention provides a small molecular weight nucleolytic protein derived from Cas12f1 or TnpB or a functional analog thereof for use in correcting a specific base with another base at a target site of a target nucleic acid or target gene; And a deaminase (deaminase); for the purpose of providing a fusion protein comprising a.

본 발명은 또한, 탈아미노화효소(deaminase)에 결합된 TnpB 유래의 분자량이 작은 핵산분해 단백질 또는 이의 기능적 유사체를 포함하는 초소형 염기교정 구조물; 또는 상기 초소형 염기교정 구조물에 가이드 RNA가 포함된 초소형 염기교정 시스템;을 포함하는 염기교정용 조성물의 제공을 목적으로 한다.The present invention also provides an ultra-small base editing construct comprising a TnpB-derived low-molecular-weight nucleolytic protein or a functional analogue thereof coupled to deaminase; or a micro base correction system in which the guide RNA is included in the micro base correction structure;

또한, 본 발명은 상기 초소형 염기교정 시스템을 표적 핵산 또는 표적 유전자의 표적 부위 서열과 접촉시키는 단계를 포함하는 염기교정(base editing) 방법의 제공을 목적으로 한다.In addition, an object of the present invention is to provide a base editing method comprising the step of contacting the miniaturized base editing system with a target site sequence of a target nucleic acid or target gene.

본 출원의 다른 목적 및 본 발명이 이루고자 하는 기술적 과제는 이상에서 언급한 목적에 제한되지 않으며, 본 명세서에 기재된 청구범위 및 도면과 함께 하기의 발명의 설명에 의해 보다 명확해질 것이다. 또한 본 명세서에 기재되지 않은 본 발명이 이루고자 하는 기술적 과제는 본 발명의 기술 분야에서 통상의 지식을 가진자(이하'통상의 기술자'라 함)라면 명확하게 이해하고 유추할 수 있을 것이다.Other objects of the present application and technical problems to be achieved by the present invention are not limited to the above-mentioned objects, and will become more clear by the following description of the invention together with the claims and drawings described in this specification. In addition, the technical problem to be achieved by the present invention, which is not described in the present specification, will be clearly understood and inferred by those skilled in the art (hereinafter referred to as 'ordinary technician').

상기 목적을 달성하기 위하여, 다음의 발명을 제공한다.In order to achieve the above object, the following invention is provided.

본 발명은 탈아미노화효소(deaminase)에 결합된 TnpB 유래의 분자량이 작은 핵산분해 단백질 또는 이의 기능적 유사체; 및 가이드 RNA;를 포함하는 초소형 염기교정(base editing) 시스템을 제공한다.The present invention is a low molecular weight nucleolytic protein derived from TnpB linked to deaminase or a functional analog thereof; And guide RNA; provides a mini base editing (base editing) system comprising a.

본 발명의 일 구현예로 상기 초소형 염기교정 시스템에서 상기 TnpB 유래의 분자량이 작은 핵산분해 단백질은 Cas12 패밀리에 속하는 Cas12f1 단백질(서열번호 1) 또는 서열번호 7의 아미노산 서열로 이루어진 TnpB일 수 있다. 일 예로, 상기 TnpB 유래의 분자량이 작은 핵산분해 단백질 또는 이의 기능적 유사체는 DNA 이중가닥 절단 활성이 상실된 dead TnpB(dTnpB); dead Cas12f1 (dCas12f1); 또는 dTnpB 또는 dCas12f1의 기능적 유사체일 수 있다. 보다 구체적으로, 상기 TnpB 유래의 분자량이 작은 핵산분해 단백질은 서열번호 3 내지 서열번호 6, 서열번호 11 내지 서열번호 18 및 서열번호 168 내지 서열번호 175 중 선택된 어느 하나의 아미노산 서열을 포함하는 것 또는 서열번호 7에서 D354A, E450A, R518A 및 D538A 중 2개 이상의 아미노산 변이를 포함하는 단백질일 수 있다.In one embodiment of the present invention, the TnpB-derived low-molecular-weight nucleolytic protein in the ultra-small base correction system may be Cas12f1 protein (SEQ ID NO: 1) belonging to the Cas12 family or TnpB consisting of the amino acid sequence of SEQ ID NO: 7. For example, the TnpB-derived nucleolytic protein having a small molecular weight or a functional analogue thereof may include dead TnpB (dTnpB) having lost DNA double-strand cleavage activity; dead Cas12f1 (dCas12f1); or a functional analogue of dTnpB or dCas12f1. More specifically, the TnpB-derived low-molecular-weight nucleolytic protein comprises any one amino acid sequence selected from SEQ ID NO: 3 to SEQ ID NO: 6, SEQ ID NO: 11 to SEQ ID NO: 18, and SEQ ID NO: 168 to SEQ ID NO: 175, or It may be a protein containing at least two amino acid mutations among D354A, E450A, R518A and D538A in SEQ ID NO: 7.

또한 일 예로, 상기 초소형 염기교정 시스템에서 상기 탈아미노화효소는 융합단백질의 N-말단 또는 C-말단에 결합되는 아데노신 탈아미노화효소(adenosine deaminase) 및/또는 시티딘 탈아미노화효소(cytidine deaminase)일 수 있다. 보다 구체적으로, 상기 아데노신 탈아미노화효소(adenosine deaminase)는 대장균(E. coli) 유래의 tRNA adenosine deaminase(TadA)인 것으로, 단량체 TadA(서열번호 126), eTadA1(evolved tRNA-specific adenosine deaminase1, 서열번호 127), dTadA(서열번호 128), deTadA1(서열번호 129), eTadA2(서열번호 130), eTadA3(서열번호 131), eTadA4(서열번호 176), eTadA5(서열번호 177), eTadA6(서열번호 178), eTadA7(서열번호 137), eTadA8(서열번호 138), eTadA9(서열번호 139), eTadA10(서열번호 140), 또는 eTadA11(서열번호 141), 또는 이종이량체(heterodimer) TadA-eTadA , eTadA-TadA, dTadA-eTadA 또는 TadA-deTadA일 수 있다.Also, as an example, in the miniaturized base correction system, the deaminase may be an adenosine deaminase and/or a cytidine deaminase linked to the N-terminus or C-terminus of the fusion protein. ) can be. More specifically, the adenosine deaminase is E. coli -derived tRNA adenosine deaminase (TadA), monomeric TadA (SEQ ID NO: 126), eTadA1 (evolved tRNA-specific adenosine deaminase 1, sequence number 127), dTadA (SEQ ID NO: 128), deTadA1 (SEQ ID NO: 129), eTadA2 (SEQ ID NO: 130), eTadA3 (SEQ ID NO: 131), eTadA4 (SEQ ID NO: 176), eTadA5 (SEQ ID NO: 177), eTadA6 (SEQ ID NO: 177) 178), eTadA7 (SEQ ID NO: 137), eTadA8 (SEQ ID NO: 138), eTadA9 (SEQ ID NO: 139), eTadA10 (SEQ ID NO: 140), or eTadA11 (SEQ ID NO: 141), or the heterodimer TadA-eTadA , eTadA-TadA, dTadA-eTadA or TadA-deTadA.

일 예로, 상기 시티딘 탈아미노화효소(cytidine deaminase)는 APOBEC1, APOBEC3A, APOBEC3B, CDA, AID 또는 PmCDA1일 수 있으며 이에 국한되는 것은 아니다. 여기서, APOBEC1는 서열번호 21의 아미노산 서열을 포함하는 것일 수 있고, APOBEC3A는 서열번호 22의 아미노산 서열을 포함하는 것일 수 있으며, APOBEC3B는 서열번호 23의 아미노산 서열을 포함하는 것일 수 있다.For example, the cytidine deaminase may be APOBEC1, APOBEC3A, APOBEC3B, CDA, AID or PmCDA1, but is not limited thereto. Here, APOBEC1 may include the amino acid sequence of SEQ ID NO: 21, APOBEC3A may include the amino acid sequence of SEQ ID NO: 22, and APOBEC3B may include the amino acid sequence of SEQ ID NO: 23.

일 예로, 상기 초소형 염기교정 시스템에서 상기 탈아미노화효소(deaminase) 또는 상기 핵산분해 단백질은 N-말단 또는 C-말단에 UGI(Uracil Glycosylase Inhibitor)를 각각 0개, 1개 또는 2개 이상 포함하거나, 핵산분해 단백질의 N-말단 또는 C-말단에 GAM(Gam protein)을 각각 0개 또는 1개 이상 포함할 수 있다. 여기서, 상기 탈아미노화효소(deaminase)는 시티딘 탈아미노화효소(cytidine deaminase)인 것일 수 있다.For example, in the subminiature base editing system, the deaminase or the nucleolytic protein includes 0, 1, or 2 or more UGIs (Uracil Glycosylase Inhibitors) at the N-terminus or C-terminus, respectively, or , Zero or one or more GAMs (Gam proteins) may be included at the N-terminus or C-terminus of the nucleolytic protein, respectively. Here, the deaminase may be cytidine deaminase.

본 발명의 다른 구현예로 상기 초소형 염기교정 시스템(Hypercompact base editing system)은 Cas12f1, TnpB 또는 이들의 기능적 유사체; 및 탈아미노화효소(deaminase)를 포함하는 융합 단백질; 및 야생형 또는 엔지니어링된 가이드 RNA(engineered guide RNA);를 포함할 수 있다. 또한, 상기 융합 단백질은 탈아미노화 효소가 결합된 핵산분해 단백질이고, 상기 가이드 RNA는 야생형 또는 엔지니어링된 가이드 RNA(engineered guide RNA)를 2개 이상 포함하는 것일 수 있다. 여기서, 상기 엔지니어링된 가이드 RNA는 엔지니어링된 tracrRNA (transactivating CRISPR RNA) 또는 엔지니어링된 crRNA(CRISPR RNA)를 포함한다. In another embodiment of the present invention, the hypercompact base editing system includes Cas12f1, TnpB or functional analogues thereof; and a fusion protein comprising a deaminase; And wild-type or engineered guide RNA (engineered guide RNA); may include. In addition, the fusion protein may be a nucleolytic protein to which a deaminase is bound, and the guide RNA may include two or more wild-type or engineered guide RNAs. Here, the engineered guide RNA includes engineered tracrRNA (transactivating CRISPR RNA) or engineered crRNA (CRISPR RNA).

일 예로, 상기 엔지니어링된 tracrRNA는 연속된 다섯 개 이상의 유리딘 서열을 포함하지 않도록 변형된 tracrRNA일 수 있다. 또는 상기 엔지니어링된 tracrRNA는 연속된 다섯 개 이상의 유리딘 서열을 포함하지 않도록 변형되고, 야생형 tracrRNA보다 길이가 짧도록 변형된 tracrRNA일 수 있다. For example, the engineered tracrRNA may be a modified tracrRNA so as not to include five or more contiguous uridine sequences. Alternatively, the engineered tracrRNA may be a tracrRNA modified not to include five or more contiguous uridine sequences and modified to have a shorter length than wild-type tracrRNA.

보다 구체적으로, 상기 엔지니어링된 tracrRNA는 제1 영역, 제2 영역, 제3 영역 및 제4 영역을 5'-말단에서 3'-말단 방향으로 순서대로 포함할 수 있다. More specifically, the engineered tracrRNA may include a first region, a second region, a third region, and a fourth region in order from the 5'-end to the 3'-end.

일 구체예로, 상기 제1 영역(MS3 부분, 1-21 부위)은 5'-CUUCACUGAUAAAGUGGAGAA-3'(서열번호 24) 서열 또는 서열번호 24 서열의 일부 서열일 수 있다. 상기 서열번호 24 서열의 일부 서열은 서열번호 24 서열의 5'-말단의 이 순차적으로 제거되고 남은 3'-말단부에서 순차적인 일부 서열일 수 있다.In one embodiment, the first region (MS3 region, 1-21 region) may be a 5'-CUUCACUGAUAAAGUGGAGAA-3' (SEQ ID NO: 24) sequence or a partial sequence of SEQ ID NO: 24 sequence. The partial sequence of the sequence of SEQ ID NO: 24 may be a partial sequence sequentially removed from the 5'-end of the sequence of SEQ ID NO: 24 and the remaining 3'-end.

또한, 상기 제2 영역(MS5 부분, 22-71 부위)은 5'-CCGCUUCACCAAAAGCUGU CCCUUAGGGGAUUAGAACUUGAGUGAAGGUG-3'(서열번호 25) 서열 또는 서열번호 25 서열의 일부 서열일 수 있다. 상기 서열번호 25 서열의 일부 서열은 서열번호 25 서열에서 상보적 결합을 형성하는 적어도 한 쌍 이상의 뉴클레오타이드 및/또는 상보적 결합을 형성하지 않는 적어도 하나 이상의 뉴클레오타이드가 삭제된 서열일 수 있다. 이때, 상기 서열번호 25 서열의 일부 서열 내에 포함된 루프 부분의 5'-UUAG-3' 서열은 선택적으로 5'-GAAA-3' 서열로 치환될 수 있다.In addition, the second region (MS5 region, 22-71 region) may be a 5'-CCGCUUCACCAAAAGCUGU CCCUUAGGGGAUUAGAACUUGAGUGAAGGUG-3' (SEQ ID NO: 25) sequence or a partial sequence of SEQ ID NO: 25 sequence. Part of the sequence of SEQ ID NO: 25 may be a sequence in which at least one pair of nucleotides forming a complementary bond and/or at least one or more nucleotides not forming a complementary bond in the sequence of SEQ ID NO: 25 are deleted. At this time, the 5'-UUAG-3' sequence of the loop part included in the partial sequence of SEQ ID NO: 25 may be optionally substituted with the 5'-GAAA-3' sequence.

상기 제3 영역(MS1 앞 부분, 72-129 부위)은 5'-GGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAA-3'(서열번호 26) 서열 또는 서열번호 26 서열에 적어도 70% 이상의 서열 동일성 또는 서열 유사성을 가지는 서열일 수 있다.The third region (front part of MS1, 72-129 region) may be a sequence having at least 70% sequence identity or sequence similarity to the 5'-GGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAA-3' (SEQ ID NO: 26) sequence or SEQ ID NO: 26 sequence.

상기 제4 영역(MS 1, 130-169 부위)은 5'-CAAAUUCANNNVNCCUCUCCAAUUC UGCACAA-3'(서열번호 27) 서열 또는 서열번호 27 서열의 일부 서열일 수 있다. 상기 각각의 N은 독립적으로 A, C, G 또는 U이고, 상기 V는 A, C 또는 G일 수 있다. 상기 서열번호 27 서열의 일부 서열은 상기 서열번호 27 서열 중 5'-CAAAUUCANNNVN-3'(서열번호 28) 서열을 포함하면서 3'-말단부의 일부 서열이 포함하지 않는 서열일 수 있다. 바람직하게, 상기 제4 서열은 5'-CAAAUUCANNNCN-3'(서열번호 29) 서열을 포함하면서 3'-말단부의 일부 서열이 포함하지 않는 서열일 수 있다. 여기서 상기 각각의 N은 독립적으로 A, C, G 또는 U이다. The fourth region (MS 1, 130-169 region) may be a 5'-CAAAUUCANNNVNCCUCUCCAAUUC UGCACAA-3' (SEQ ID NO: 27) sequence or a partial sequence of SEQ ID NO: 27 sequence. Each of N is independently A, C, G or U, and V may be A, C or G. Part of the sequence of SEQ ID NO: 27 may be a sequence that includes the 5'-CAAAUUCANNNVN-3' (SEQ ID NO: 28) sequence of the sequence of SEQ ID NO: 27 and does not include a partial sequence at the 3'-end. Preferably, the fourth sequence may be a sequence including a 5'-CAAAUUCANNNCN-3' (SEQ ID NO: 29) sequence but not including a part of the sequence at the 3'-end. wherein each N is independently A, C, G or U.

또한, 상기 제4 서열은 상기 서열번호 27에서, 내부의 5'-NNNVN-3'가 5'-NVNNN-3'로 치환된 것을 포함할 수 있다. 여기서, 상기 각각의 N은 독립적으로 A, C, G 또는 U이고, 상기 V는 A, C 또는 G일 수 있다.In addition, the fourth sequence may include a sequence in which 5'-NNNVN-3' in SEQ ID NO: 27 is substituted with 5'-NVNNN-3'. Here, each N is independently A, C, G or U, and V may be A, C or G.

또 다른 일 구체예로, 상기 crRNA은 야생형 crRNA 또는 엔지니어링된 crRNA일 수 있다. 상기 야생형 crRNA는 야생형 반복 서열(repeat sequence) 및 가이드 서열(guide sequence)을 5'-말단에서 3'-말단 방향으로 순서대로 포함할 수 있다. 상기 야생형 반복 서열은 5'-GUUGCAGAACCCGAAUAGACGAAUGAAGGAAUGCAAC-3'(서열번호 30) 서열일 수 있다. In another embodiment, the crRNA may be a wild-type crRNA or an engineered crRNA. The wild-type crRNA may include a wild-type repeat sequence and a guide sequence in order from the 5'-end to the 3'-end. The wild-type repetitive sequence may be a 5'-GUUGCAGAACCCGAAUAGACGAAUGAAGGAAUGCAAC-3' (SEQ ID NO: 30) sequence.

상기 엔지니어링된 crRNA는 제5 영역(MS1 변형 포함), 제6 영역 및 가이드 서열을 5'-말단에서 3'-말단 방향으로 순서대로 포함할 수 있다. 여기서, 상기 제5 영역은 5'-GUUGCAGAACCCGAAUAGNBNNNUGAAGGA-3' (서열번호 31) 서열 또는 서열번호 31 서열의 일부 서열일 수 있다. 상기 각각의 N은 독립적으로 A, C, G 또는 U일 수 있다. 상기 B는 U, C 또는 G일 수 있다. 상기 서열번호 31 서열의 일부 서열은 상기 서열번호 31 서열 중 5'-NBNNNUGAAGGA-3' (서열번호 32) 서열을 포함하면서 3'-말단부의 일부 서열이 포함하지 않는 서열일 수 있다. 상기 각각의 N은 독립적으로 A, C, G 또는 U일 수 있다. 상기 B는 U, C 또는 G일 수 있다. The engineered crRNA may include a fifth region (including MS1 modification), a sixth region, and a guide sequence in order from the 5'-end to the 3'-end. Here, the fifth region may be a 5'-GUUGCAGAACCCGAAUAGNBNNNUGAAGGA-3' (SEQ ID NO: 31) sequence or a partial sequence of SEQ ID NO: 31 sequence. Each N may independently be A, C, G or U. The B may be U, C or G. Part of the sequence of SEQ ID NO: 31 may be a sequence that includes the 5'-NBNNNUGAAGGA-3' (SEQ ID NO: 32) sequence of the sequence of SEQ ID NO: 31 and does not include a partial sequence at the 3'-end. Each N may independently be A, C, G or U. The B may be U, C or G.

상기 제6 영역은 5'-AUGCAAC-3' (서열번호 33) 서열 또는 5'-AUGCAAC-3' 서열에 적어도 70% 이상의 서열 상동성을 가지는 서열일 수 있다.The sixth region may be a 5'-AUGCAAC-3' (SEQ ID NO: 33) sequence or a sequence having at least 70% or more sequence homology to the 5'-AUGCAAC-3' sequence.

본 발명에 따른 상기 엔지니어링된 crRNA는 crRNA의 3'-말단에 제7 영역으로써, U-rich tail 서열을 추가로 더 포함할 수 있다. 상기 U-rich tail 서열은 5'-(UaN)dUe-3' 서열, 5'-UaVUaVUe-3' 서열 또는 5'-UaVUaVUaVUe-3' 서열일 수 있다. 상기 N은 A, C, G 또는 U일 수 있다. 상기 각각의 V는 독립적으로 A, C 또는 G일 수 있다. 상기 a는 0 내지 4의 정수일 수 있다. 상기 d는 0 내지 3의 정수일 수 있다. 상기 e는 0 내지 10의 정수일 수 있다.The engineered crRNA according to the present invention may further include a U-rich tail sequence as a seventh region at the 3'-end of the crRNA. The U-rich tail sequence may be a 5'-(UaN)dUe-3' sequence, a 5'-UaVUaVUe-3' sequence, or a 5'-UaVUaVUaVUe-3' sequence. The N may be A, C, G or U. Each V may independently be A, C or G. The a may be an integer of 0 to 4. d may be an integer of 0 to 3. The e may be an integer from 0 to 10.

또한, 일 예로, 상기 엔지니어링된 가이드 RNA는 듀얼 가이드 RNA 또는 싱글 가이드 RNA일 수 있다. 상기 엔지니어링된 가이드 RNA가 싱글 가이드 RNA일 때, 상기 엔지니어링된 가이드 RNA는 링커(linker) 서열을 추가로 더 포함할 수 있다. 이때, 상기 링커 서열은 상기 엔지니어링된 tracrRNA와 상기 crRNA 사이에 위치할 수 있다.Also, as an example, the engineered guide RNA may be a dual guide RNA or a single guide RNA. When the engineered guide RNA is a single guide RNA, the engineered guide RNA may further include a linker sequence. In this case, the linker sequence may be located between the engineered tracrRNA and the crRNA.

일 구체예로, 상기 엔지니어링된 tracrRNA는 서열번호 34 내지 서열번호 37 및 서열번호 39 내지 서열번호 42 중 선택된 어느 하나의 염기서열을 포함하거나/이루어진 것이고, 상기 엔지니어링된 crRNA는 서열번호 38 또는 서열번호 43의 염기서열을 포함하거나/이루어진 것일 수 있다. In one embodiment, the engineered tracrRNA comprises/consists of any one nucleotide sequence selected from SEQ ID NO: 34 to SEQ ID NO: 37 and SEQ ID NO: 39 to SEQ ID NO: 42, and the engineered crRNA is SEQ ID NO: 38 or SEQ ID NO: 38 It may contain/consist of the base sequence of 43.

또 다른 일 예로, 상기 엔지니어링된 tracrRNA는 서열번호 44 내지 서열번호 47 및 서열번호 49 내지 서열번호 52 중 선택된 어느 하나의 염기서열을 포함하거나/이루어진 것이고, 상기 엔지니어링된 crRNA는 서열번호 48 또는 서열번호 53의 염기서열을 포함하거나/이루어진 것일 수 있다. As another example, the engineered tracrRNA includes/consists of any one of SEQ ID NO: 44 to SEQ ID NO: 47 and SEQ ID NO: 49 to SEQ ID NO: 52, and the engineered crRNA is SEQ ID NO: 48 or SEQ ID NO: 48 or SEQ ID NO: 48. It may contain/consist of the nucleotide sequence of 53.

본 발명의 다른 구현예로, 상기 초소형 염기교정 시스템은 상기 핵산분해 단백질이 서열번호 3 내지 서열번호 6 및 서열번호 11 내지 서열번호 18 중 선택된 어느 하나의 아미노산 서열을 포함하는 단백질인 것이고, 상기 가이드 RNA는 서열번호 55 내지 서열번호 59 중 선택된 어느 하나의 염기서열을 포함하는 것일 수 있다. 바람직하게, 상기 핵산분해 단백질은 서열번호 3 내지 서열번호 6, 서열번호 11 내지 서열번호 18 및 서열번호 168 내지 서열번호 175 중 선택된 어느 하나의 아미노산 서열로 이루어진 것 또는 서열번호 7에서 D354A, E450A, R518A 및 D538A 중 2개 이상의 아미노산 변이를 가지는 단백질이고, 상기 가이드 RNA는 서열번호 55 내지 서열번호 59 중 선택된 어느 하나의 염기서열로 이루어진 것일 수 있다.In another embodiment of the present invention, in the miniaturized base editing system, the nucleolytic protein is a protein comprising any one amino acid sequence selected from SEQ ID NO: 3 to SEQ ID NO: 6 and SEQ ID NO: 11 to SEQ ID NO: 18, and the guide RNA may include any one of nucleotide sequences selected from SEQ ID NO: 55 to SEQ ID NO: 59. Preferably, the nucleolytic protein consists of any one amino acid sequence selected from SEQ ID NO: 3 to SEQ ID NO: 6, SEQ ID NO: 11 to SEQ ID NO: 18 and SEQ ID NO: 168 to SEQ ID NO: 175, or SEQ ID NO: 7 to D354A, E450A, It is a protein having two or more amino acid mutations among R518A and D538A, and the guide RNA may consist of any one nucleotide sequence selected from SEQ ID NO: 55 to SEQ ID NO: 59.

또한, 상기 초소형 염기교정 시스템에서 아데노신 탈아미노화효소는 대장균(E. coli) 유래의 tRNA adenosine deaminase가 이종이량체 TadA-eTadA 또는 eTadA-TadA의 구조로 포함되며, 상기 시토신 탈아미노화효소는 APOBEC1, APOBEC3B, APOBEC3C, CDA, AID 또는 PmCDA1인 것으로, 상기 APOBEC1 또는 PmCDA1의 N-말단 또는 C-말단에 UGI(Uracil Glycosylase Inhibitor)를 각각 1개 또는 2개 이상 결합된 것일 수 있다. In addition, the adenosine deaminase in the microbase correction system is a heterodimer TadA-eTadA tRNA adenosine deaminase derived from E. coli Or it is included in the structure of eTadA-TadA, and the cytosine deaminase is APOBEC1, APOBEC3B, APOBEC3C, CDA, AID or PmCDA1, and UGI (Uracil Glycosylase Inhibitor) is attached to the N-terminus or C-terminus of APOBEC1 or PmCDA1. Each may be one or two or more combined.

본 발명은 또한 탈아미노화효소(deaminase)에 결합된 TnpB 유래의 분자량이 작은 핵산분해 단백질 또는 이의 기능적 유사체; 및 가이드 RNA;를 포함하는 초소형 염기교정(Base editing) 시스템의 각 구성요소를 암호화하는 핵산 서열이 작동가능하게 연결된 핵산 구조물을 포함하는 벡터를 제공한다.The present invention also relates to a low molecular weight nucleolytic protein derived from TnpB linked to deaminase or a functional analog thereof; And guide RNA; to provide a vector comprising a nucleic acid construct operably linked to the nucleic acid sequence encoding each component of the base editing (Base editing) system comprising a.

본 발명의 일 구현예로, 상기 벡터는 엔지니어링된 가이드 RNA를 암호화하는 핵산을 포함할 수 있다. 상기 벡터는 또한 상기 가이드 RNA를 1개 또는 2개 이상 암호화하는 핵산을 더 포함할 수 있다. 여기서 엔지니어링된 RNA는 엔지니어링된 tracrRNA 및/또는 crRNA를 포함할 수 있다. 이때, 상기 엔지니어링된 가이드 RNA는 앞서 설명한 엔지니어링된 가이드 RNA의 구현예와 동일한 구성을 가질 수 있다.In one embodiment of the present invention, the vector may include a nucleic acid encoding an engineered guide RNA. The vector may further include nucleic acids encoding one or more of the guide RNAs. RNA engineered herein may include engineered tracrRNA and/or crRNA. In this case, the engineered guide RNA may have the same configuration as the previously described embodiment of the engineered guide RNA.

상기 벡터는 또한, 상기 엔지니어링된 가이드 RNA를 암호화하는 핵산을 위한 1개 또는 2개 이상의 프로모터를 더 포함할 수 있다. 구체적으로, 상기 프로모터는 U6 프로모터, H1 프로모터 또는 7SK 프로모터일 수 있다.The vector may further include one or two or more promoters for nucleic acids encoding the engineered guide RNA. Specifically, the promoter may be a U6 promoter, H1 promoter or 7SK promoter.

또한, 상기 벡터는 플라스미드, 선형의 PCR 엠플리콘 또는 바이러스 벡터일 수 있다. 여기서, 상기 바이러스 벡터는 레트로바이러스 벡터(retrovirus vector), 렌티바이러스 벡터(lentivirus vector), 아데노바이러스 벡터(adenovirus vector), 아데노-연관 바이러스 벡터(adeno-associated virus(AAV) vector), 백시니아바이러스 벡터(vaccinia virus vector), 폭스바이러스 벡터(poxvirus vector) 및 단순포진 바이러스 벡터(herpes simplex virus vector)로 구성된 군에서 선택되는 적어도 하나의 바이러스 벡터일 수 있다.In addition, the vector may be a plasmid, a linear PCR amplicon or a viral vector. Here, the viral vector is a retrovirus vector, a lentivirus vector, an adenovirus vector, an adeno-associated virus (AAV) vector, and a vaccinia virus vector. It may be at least one viral vector selected from the group consisting of a vaccinia virus vector, a poxvirus vector, and a herpes simplex virus vector.

본 발명은 또한, 표적 핵산 또는 표적 유전자의 표적 부위 서열에서 특정의 염기를 다른 염기로 교정하는데 사용하기 위한, 탈아미노화효소(deaminase)가 결합된 TnpB 유래의 분자량이 작은 핵산분해 단백질 또는 이의 기능적 유사체를 포함하는, 초소형 염기교정(Base editing) 구조물을 제공한다.The present invention also relates to a deaminase-linked TnpB-derived low-molecular-weight nucleolytic protein or a functional protein thereof for use in correcting a specific base with another base in a target site sequence of a target nucleic acid or target gene. Subminiature base editing constructs, including analogs, are provided.

상기 핵산분해 단백질 이의 기능적 유사체는 DNA 이중가닥 절단 활성이 상실된 dead TnpB(dTnpB); dead Cas12f1(dCas12f1); 또는 dTnpB 또는 dCas12f1의 기능적 유사체;인 것을 특징으로 하는 초소형 염기교정 구조물일 수 있다. 여기서, 상기 핵산분해 단백질은 서열번호 3 내지 서열번호 6 및 서열번호 11 내지 서열번호 18 중 선택된 어느 하나의 아미노산 서열을 포함하는 것을 특징으로 하는 초소형 염기교정 구조물일 수 있다. 바람직하게, 상기 핵산분해 단백질은 서열번호 3 내지 서열번호 6 및 서열번호 11 내지 서열번호 18 중 선택된 어느 하나의 아미노산 서열로 이루어진 것을 특징으로 하는 초소형 염기교정 구조물일 수 있다.Functional analogs of the nucleolytic protein include dead TnpB (dTnpB) that has lost DNA double-strand cleavage activity; dead Cas12f1 (dCas12f1); or a functional analogue of dTnpB or dCas12f1; Here, the nucleolytic protein may be a subminiature base editing construct comprising an amino acid sequence selected from SEQ ID NO: 3 to SEQ ID NO: 6 and SEQ ID NO: 11 to SEQ ID NO: 18. Preferably, the nucleolytic protein may be a subminiature base editing construct characterized in that it consists of any one amino acid sequence selected from SEQ ID NO: 3 to SEQ ID NO: 6 and SEQ ID NO: 11 to SEQ ID NO: 18.

또한, 상기 탈아미노화효소(deaminase)는 아데노신 탈아미노화효소 및/또는 시티딘 탈아미노화효소인 것을 특징으로 하는, 초소형 염기교정 구조물일 수 있다. In addition, the deaminase may be an adenosine deaminase and/or a cytidine deaminase, and may be a subminiature base editing construct.

일 예로, 상기 아데노신 탈아미노화효소는 대장균(E. coli) 유래의 tRNA adenosine deaminase(TadA)인 것 및/또는 시티딘 탈아미노화효소는 APOBEC1, APOBEC3B, APOBEC3C, CDA, AID 또는 PmCDA1인 것을 특징으로 하는, 초소형 염기교정 구조물일 수 있다.For example, the adenosine deaminase is E. coli-derived tRNA adenosine deaminase (TadA) and/or the cytidine deaminase is APOBEC1, APOBEC3B, APOBEC3C, CDA, AID or PmCDA1. It may be a subminiature base correction structure.

또한, 초소형 염기교정 구조물은 상기 아데노신 탈아미노화효소가 이종이량체 TadA-TadA* 또는 TadA*-TadA의 구조로 포함되거나/되고, 상기 시토신 탈아미노화효소 APOBEC1, APOBEC3B, APOBEC3C, CDA, AID 또는 PmCDA1의 N-말단 또는 C-말단에 UGI(Uracil Glycosylase Inhibitor)를 각각 1개 또는 2개 이상 결합된 것을 특징으로 할 수 있다. In addition, the subminiature base correction construct includes the adenosine deaminase in the structure of a heterodimer TadA-TadA * or TadA * -TadA, and/or the cytosine deaminase APOBEC1, APOBEC3B, APOBEC3C, CDA, AID or It may be characterized in that one or two or more UGIs (Uracil Glycosylase Inhibitors) are respectively bound to the N-terminus or C-terminus of PmCDA1.

상기 탈아미노화효소(deaminase) 또는 상기 핵산분해 단백질의 N-말단 또는 C-말단에 UGI(Uracil Glycosylase Inhibitor)를 각각 1개 또는 2개 이상 포함하거나, 핵산분해효소의 N-말단 또는 C-말단에 GAM(Gam protein)을 각각 0개 또는 1개 이상 포함하고, 여기서 상기 탈아미노화효소(deaminase)는 시티딘 탈아미노화효소(cytidine deaminase)인 것을 특징으로 하는, 초소형 염기교정 구조물일 수 있다.One or two or more UGIs (Uracil Glycosylase Inhibitors) are included at the N-terminus or C-terminus of the deaminase or the nucleolytic protein, or at the N-terminus or C-terminus of the nuclease. contains 0 or 1 or more GAM (Gam protein), respectively, wherein the deaminase is cytidine deaminase. .

일 예로, 상기 초소형 유전자가위 구조물은 N-말단 또는 C-말단에 핵 위치 신호(nuclear localization sequences, NLS) 서열을 1개 이상 포함하는 것을 특징으로 하는, 초소형 유전자가위 구조물일 수 있다. 상기 NLS 서열은 서열번호 65 내지 서열번호 68 중 선택된 어느 하나의 아미노산 서열을 포함하거나/이루어진 것을 특징으로 하는, 초소형 유전자가위 구조물일 수 있다.As an example, the miniaturized scissors structure may be a miniaturized scissors structure characterized by including one or more nuclear localization sequences (NLS) sequences at the N-terminus or C-terminus. The NLS sequence may include/consist of any one amino acid sequence selected from SEQ ID NO: 65 to SEQ ID NO: 68, and may be a miniaturized scissors structure.

또 다른 일 예로, 상기 탈아미노화효소(deaminase)와 상기 TnpB 유래의 분자량이 작은 핵산분해 단백질이 링커를 통해서 결합된 것을 특징으로 하는, 초소형 염기교정 구조물일 수 있다. 상기 링커는 5'-GAAA-3', 서열번호 132인 (GGGGS)n, (G)n, 서열번호 133인 (EAAAK)n, (GGS)n, 서열번호 134인 SGSETPGTSESATPES, 서열번호 135인 SGGS, (XP)n 또는 이들의 임의의 조합을 포함하는 것일 수 있고, 여기서 n은 독립적으로 1 내지 30의 정수이고, X는 임의의 아미노산일 수 있다. 구체적으로, 상기 링커는 서열번호 62 내지 서열번호 64 중 선택된 어느 하나의 아미노산 서열을 포함하거나/이루어진 것을 특징으로 하는, 초소형 염기교정 구조물일 수 있다.As another example, the deaminase and the TnpB-derived low-molecular-weight nucleolytic protein may be coupled to each other through a linker. The linker is 5'-GAAA-3', SEQ ID NO: 132 (GGGGS)n, (G)n, SEQ ID NO: 133 (EAAAK)n, (GGS)n, SEQ ID NO: 134 SGSETPGTSESATPES, SEQ ID NO: 135 SGGS , (XP)n or any combination thereof, where n is independently an integer from 1 to 30, and X can be any amino acid. Specifically, the linker may be a subminiature base correction construct comprising/consisting of any one amino acid sequence selected from SEQ ID NO: 62 to SEQ ID NO: 64.

상기 융합 단백질은 dCas12f1 또는 dTnpB, 탈아미노화 효소, 선택적으로 1개 또는 2개 이상의 UGI가 임의의 순서로 포함할 수 있으며, 상기 각 단백질은 임의의 링커로 연결될 수 있다. 일 구현예에 따른 융합 단백질의 예시는 아래와 같으며, 이에 제한되는 것은 아니다:The fusion protein may include dCas12f1 or dTnpB, a deamination enzyme, and optionally one or two or more UGIs in any order, and each protein may be linked by an arbitrary linker. Examples of fusion proteins according to one embodiment are as follows, but are not limited thereto:

[NH2]-[탈아미노화효소]-[임의의 링커]-[UGI(선택적으로)]-[임의의 링커]-[dCas12f1 또는 dTnpB]-[COOH]; [NH 2 ]-[deaminase]-[optional linker]-[UGI (optionally)]-[optional linker]-[dCas12f1 or dTnpB]-[COOH];

[NH2]-[UGI(선택적으로)]-[임의의 링커]-[탈아미노화효소]-[임의의 링커]-[dCas12f1 또는 dTnpB]-[COOH]; [NH 2 ]-[UGI (optionally)]-[optional linker]-[deaminase]-[optional linker]-[dCas12f1 or dTnpB]-[COOH];

[NH2]-[UGI(선택적으로)]-[임의의 링커]-[dCas12f1 또는 dTnpB]-[임의의 링커]-[탈아미노화효소]-[COOH]; [NH 2 ]-[UGI (optionally)]-[optional linker]-[dCas12f1 or dTnpB]-[optional linker]-[deaminase]-[COOH];

[NH2]-[dCas12f1 또는 dTnpB]-[임의의 링커]-[UGI(선택적으로)]-[임의의 링커]-[탈아미노화효소]-[COOH]; [NH 2 ]-[dCas12f1 or dTnpB]-[optional linker]-[UGI (optionally)]-[optional linker]-[deaminase]-[COOH];

[NH2]-[dCas12f1 또는 dTnpB]-[임의의 링커]-[탈아미노화효소]-[임의의 링커]-[UGI(선택적으로)]-[COOH]; [NH 2 ]-[dCas12f1 or dTnpB]-[optional linker]-[deaminase]-[optional linker]-[UGI (optionally)]-[COOH];

[NH2]-[시티딘 탈아미노화효소]-[임의의 링커]-[아데노신 탈아미노화효소]-[임의의 링커]-[dCas12f1 또는 dTnpB]-[임의의 링커]-[UGI(선택적으로)]-[COOH]; [NH 2 ]-[Cytidine deaminase]-[optional linker]-[adenosine deaminase]-[optional linker]-[dCas12f1 or dTnpB]-[optional linker]-[UGI (optional to)]-[COOH];

[NH2]-[UGI(선택적으로)]-[임의의 링커]-[UGI(선택적으로)]-[임의의 링커]-[dCas12f1 또는 dTnpB]-[임의의 링커]-[시티딘 탈아미노화효소]-[임의의 링커]-[아데노신 탈아미노화효소]-[COOH]. [NH 2 ]-[UGI (optionally)]-[optional linker]-[UGI (optionally)]-[optional linker]-[dCas12f1 or dTnpB]-[optional linker]-[cytidine deamination senase]-[optional linker]-[adenosine deaminase]-[COOH].

본 발명은 또한, 탈아미노화효소(deaminase)에 결합된 TnpB 유래의 분자량이 작은 핵산분해 단백질 또는 이의 기능적 유사체; 및 가이드 RNA;를 포함하는 초소형 염기교정 시스템을 포함하는 염기교정용 조성물을 제공한다.The present invention also relates to a deaminase-linked TnpB-derived low-molecular-weight nucleolytic protein or a functional analog thereof; And guide RNA; provides a base correction composition comprising a micro base correction system comprising a.

일 구현예로서, 상기 염기교정용 조성물은 상기 초소형 염기교정 시스템에 엔지니어링된 RNA 또는 이를 암호화하는 핵산; 및 TnpB 유래의 분자량이 작은 핵산분해 단백질 또는 이의 기능적 유사체 또는 이를 암호화하는 핵산;을 포함할 수 있다.In one embodiment, the base correction composition may include RNA engineered into the micro base correction system or a nucleic acid encoding the same; and TnpB-derived low-molecular-weight nucleolytic protein or a functional analogue thereof or a nucleic acid encoding the same.

일 예로, 상기 엔지니어링된 RNA는 엔지니어링된 tracrRNA 및/또는 엔지니어링된 crRNA를 포함할 수 있다. 여기서 상기 엔지니어링된 RNA는 앞서 설명한 엔지니어링된 RNA의 구현예와 동일한 구성을 가질 수 있다. 엔지니어링된 RNA는 서열번호 55 내지 서열번호 59 중 선택된 어느 하나의 염기서열을 포함하는 것일 수 있다. 바람직하게, 엔지니어링된 RNA는 서열번호 55 내지 서열번호 59 중 선택된 어느 하나의 염기서열로 이루어진 것일 수 있다. For example, the engineered RNA may include engineered tracrRNA and/or engineered crRNA. Here, the engineered RNA may have the same configuration as the embodiment of the engineered RNA described above. The engineered RNA may include any one of nucleotide sequences selected from SEQ ID NO: 55 to SEQ ID NO: 59. Preferably, the engineered RNA may consist of any one nucleotide sequence selected from SEQ ID NO: 55 to SEQ ID NO: 59.

다른 일 구현예로, 상기 염기교정용 조성물은 벡터를 포함할 수 있다. 이때, 상기 조성물은 엔지니어링된 가이드 RNA를 암호화하는 핵산; 및 TnpB 유래의 분자량이 작은 핵산분해 단백질 또는 이의 기능적 유사체;를 암호화하는 핵산을 포함할 수 있다. 이때, 상기 벡터는 플라스미드, mRNA 전사물, PCR 엠플리콘 또는 바이러스 벡터일 수 있다.In another embodiment, the composition for base correction may include a vector. At this time, the composition is a nucleic acid encoding the engineered guide RNA; and TnpB-derived low-molecular-weight nucleolytic protein or a functional analogue thereof. In this case, the vector may be a plasmid, mRNA transcript, PCR amplicon or viral vector.

또 다른 일 구현예로, 상기 염기교정용 조성물은 핵산 및 단백질 혼합 형태일 수 있다. 이때, 상기 조성물은 엔지니어링된 가이드 RNA 및 TnpB 유래의 분자량이 작은 핵산분해 단백질 또는 이의 기능적 유사체;를 포함할 수 있다. 상기 조성물은 엔지니어링된 가이드 RNA 및 본 발명에 따른 핵산분해 단백질의 복합체 형태인 ribonucleoprotein(RNP) 형태일 수 있다.In another embodiment, the base correction composition may be in the form of a mixture of nucleic acid and protein. In this case, the composition may include an engineered guide RNA and TnpB-derived low molecular weight nucleic acid degrading protein or a functional analogue thereof. The composition may be in the form of a ribonucleoprotein (RNP) complex of an engineered guide RNA and a nucleolytic protein according to the present invention.

본 발명의 일 구현예로, 상기 염기 교정용 조성물은 표적 핵산 또는 표적 유전자의 표적 부위 서열에서 특정의 염기를 다른 염기로 교정하는데 사용하기 위한, 탈아미노화효소(deaminase)가 결합된 TnpB 유래의 분자량이 작은 핵산분해 단백질 또는 이의 기능적 유사체를 포함하는, 초소형 염기교정 구조물(Hypercompact base editing constructs)을 포함할 수 있다.In one embodiment of the present invention, the base correction composition is a TnpB-derived deaminase-conjugated composition for use in correcting a specific base with another base in a target site sequence of a target nucleic acid or target gene. It may include hypercompact base editing constructs, including a low molecular weight nucleolytic protein or a functional analogue thereof.

일 예로, 상기 염기교정용 조성물은 아데닌(A) 및/또는 시토신(C)을 다른 염기로 치환할 수 있다. 보다 구체적으로 아데닌(A)은 구아닌(G)으로 교정하고, 시토신(C)은 티민(T)로 교정할 수 있다. For example, in the base correction composition, adenine (A) and/or cytosine (C) may be substituted with other bases. More specifically, adenine (A) can be corrected with guanine (G), and cytosine (C) can be corrected with thymine (T).

다른 일 예로, 상기 염기교정용 조성물의 교정 윈도우(editing window)는 아데닌 염기 교정을 위한 경우에는 표적 서열의 5'-말단으로부터 2번째 내지 8번째, 15번째 내지 19번째 또는 2번째 또는 20번째에 위치한 아데닌(A)일 수 있고, 시토신 염기 교정을 위한 경우에는 표적 서열의 5'-말단으로부터 2번째 내지 8번째에 위치한 시토신(C) 범위일 수 있다. 바람직하게, 상기 교정 윈도우(editing window)는 아데닌 염기 교정을 위한 경우에는 표적 서열의 5'-말단으로부터 3번째 내지 4번째에 위치한 아데닌(A)일 수 있고, 시토신 염기 교정을 위한 경우에는 표적 서열의 5'-말단으로부터 3번째 내지 5번째, 3번째 내지 4번째 또는 3번째 내지 4번째에 위치한 시토신(C) 범위일 수 있다.As another example, the editing window of the composition for base correction is 2nd to 8th, 15th to 19th, or 2nd or 20th from the 5'-end of the target sequence in the case of adenine base correction. It may be adenine (A) located, and in the case of cytosine base correction, it may be a cytosine (C) located 2nd to 8th from the 5'-end of the target sequence. Preferably, the editing window may be adenine (A) located 3rd to 4th from the 5'-end of the target sequence in the case of adenine base editing, and in the case of cytosine base editing, the target sequence It may be in the 3rd to 5th, 3rd to 4th, or 3rd to 4th cytosine (C) ranges from the 5'-end.

또한, 본 발명은 상기 염기교정용 조성물을 표적 염기서열과 접촉시키는 단계를 포함하는, 염기교정(Base editing) 방법을 제공한다.In addition, the present invention provides a base editing method comprising the step of contacting the base editing composition with a target sequence.

일 예로, 상기 초소형 염기교정 시스템 또는 초소형 염기교정 구조물을 세포 내 표적 핵산 또는 표적 유전자의 표적 부위 서열과 접촉시키는 단계를 포함하는 염기교정 방법일 수 있다. 보다 구체적으로, 상기 초소형 염기교정 시스템을 이용하여 대상 세포에 존재하는 표적 핵산 또는 표적 유전자를 변형시키는 방법일 수 있다. For example, it may be a base editing method comprising the step of contacting the miniaturized base editing system or the miniaturized base editing construct with a target site sequence of a target nucleic acid or target gene in a cell. More specifically, it may be a method of modifying a target nucleic acid or target gene present in a target cell using the miniaturized sequencing system.

일 구현예로, 상기 염기교정 방법은 표적 핵산 또는 표적 유전자가 존재하는 원핵 세포 또는 진핵 세포에 본 발명에 따른 초소형 염기교정 시스템을 포함하는 조성물을 처리하는 것을 포함할 수 있다. 여기서, 상기 진핵 세포는 효모(yeast), 식물 세포, 비인간-동물 세포 또는 인간 세포일 수 있다. 또한, 상기 표적 핵산 또는 표적 유전자는 표적 서열을 가지는 표적 가닥을 포함하는 이중가닥 DNA; 단일가닥 DNA 또는 RNA; 또는 혼성 이중가닥 DNA 및 RNA일 수 있다.In one embodiment, the base editing method may include treating a prokaryotic cell or eukaryotic cell in which a target nucleic acid or target gene is present with a composition including the miniaturized base editing system according to the present invention. Here, the eukaryotic cells may be yeast, plant cells, non-human-animal cells or human cells. In addition, the target nucleic acid or target gene may include double-stranded DNA comprising a target strand having a target sequence; single-stranded DNA or RNA; or hybrid double-stranded DNA and RNA.

일 구현예로, 상기 염기교정 방법을 통해, 상기 표적 핵산 또는 표적 유전자는 교정 윈도우(editing window)가 표적 서열의 5'-말단으로부터 2번째 내지 8번째, 3번째 내지 4번째, 15번째 내지 19번째 또는 2번째 또는 20번째에 위치한 아데닌(A)이거나, 표적 서열의 5'-말단으로부터 2번째 내지 8번째 또는 3번째 내지 5번째에 위치한 시토신(C) 범위일 수 있다.In one embodiment, through the base editing method, the target nucleic acid or target gene has an editing window 2nd to 8th, 3rd to 4th, 15th to 19th from the 5'-end of the target sequence. It may be an adenine (A) located at the 2nd, 2nd, or 20th position of the target sequence, or a cytosine (C) located at the 2nd to 8th or 3rd to 5th position from the 5'-end of the target sequence.

또한, 상기 염기교정 방법은 일 구현예로, 상기 초소형 염기교정(Base editing) 시스템을 표적 핵산 또는 표적 유전자와 접촉하도록 전달하기 위해서 세포 내에 주입하는 것일 수 있다. In one embodiment, the base editing method may include injecting the subminiature base editing system into a cell to contact the target nucleic acid or target gene.

일 예로, 상기 전달은 상기 초소형 염기교정 시스템의 각 구성요소를 암호화하는 핵산 서열이 작동가능하게 연결된 핵산 구조물을 포함하는 벡터를 세포 내에 주입하는 것일 수 있다. For example, the delivery may include injecting a vector including a nucleic acid construct in which a nucleic acid sequence encoding each component of the miniaturized sequencing system is operably linked.

다른 일 예로, 상기 초소형 염기교정 시스템은 레트로바이러스, 렌티바이러스, 아데노바이러스, 아데노-연관 바이러스, 백시니아바이러스, 폭스바이러스 및 단순포진 바이러스 벡터로 구성된 군에서 선택된 바이러스 벡터에 패키징되어 표적 핵산 또는 표적 유전자가 존재하는 세포에 전달될 수 있다. 바람직하게, 상기 바이러스 벡터는 아데노-연관 바이러스 벡터이다.In another embodiment, the miniaturized sequencing system is packaged in a viral vector selected from the group consisting of retrovirus, lentivirus, adenovirus, adeno-associated virus, vaccinia virus, poxvirus, and herpes simplex virus vector to target nucleic acid or target gene can be delivered to existing cells. Preferably, the viral vector is an adeno-associated viral vector.

본 발명의 초소형 염기교정 시스템(Hypercompact base editing systems)은 TnpB 유래의 초소형 핵산분해 단백질 또는 이의 기능적 유사체와 상기 단백질에 적합하게 엔지니어링된 가이드 RNA을 포함하여 제작한 새로운 초소형의 염기교정 시스템이다. 본 발명에 따른 초소형 염기교정 시스템은 하나의 아데노-연관 바이러스(AAV) 벡터에 염기교정을 포함하는 다양한 유전체 편집 시 요구되는 유전자가위 도구들을 모두 탑재할 수 있는 시스템이다. 상기의 장점을 가지고 있는 본 발명에 따른 초소형 염기교정 시스템은, 기존에 활발히 연구되고 이용되고 있는 'Cas9 또는 Cpf1 등의 단백질을 포함하는 유전자가위 시스템이 그 크기로 인해 임상적으로 검증된 세포 내 전달 수단인 AAV 벡터를 패키징 도구로 이용하는데 제한점을 가지고 있다’는 가장 큰 문제점을 극복하게 하는 새로운 유전자가위 시스템을 제시하는 것이다. The hypercompact base editing systems of the present invention are novel ultracompact base editing systems prepared by including a TnpB-derived ultracompact nucleolytic protein or a functional analogue thereof and a guide RNA engineered to suit the protein. The miniaturized base editing system according to the present invention is a system capable of loading all the gene scissors required for various genome editing including base editing into a single adeno-associated virus (AAV) vector. The miniaturized base editing system according to the present invention, which has the above advantages, is a genetic scissors system containing proteins such as 'Cas9 or Cpf1, which have been actively researched and used in the past, is clinically verified intracellular delivery due to its size. It is to present a new gene scissors system that overcomes the biggest problem of using the AAV vector as a packaging tool, which is a tool.

또한, TnpB 유래의 초소형 핵산분해 단백질 또는 이의 기능적 유사체와 아데노신 탈아미노화효소 또는 시티딘 탈아미노화효소의 결합을 통하여 제작된 본 발명에 따른 초소형 염기교정 구조물(Hypercompact base editing constructs)은 새로운 염기교정 유전자가위(base editor)로써 기능하고, 본 발명의 초소형 염기교정 시스템은 하나의 AAV 벡터를 패키징 도구로 이용하여 세포 내로 효율적으로 전달되어 표적 핵산 또는 표적 유전자 표적 부위 서열 내의 특정 염기를 다른 염기로 교정할 수 있을 뿐만 아니라, 다중 표적화(multi-targeting) 및 다중 염기 교정(multi-base editing)이 가능하므로, 본 발명의 결과물은 염기 교정을 통한 유전질환의 치료 및 유전질환의 연구에 유용하게 이용될 것으로 기대된다. In addition, the hypercompact base editing constructs according to the present invention prepared through the combination of TnpB-derived micronucleolytic protein or a functional analog thereof with adenosine deaminase or cytidine deaminase are novel base editing constructs. Functioning as a base editor, the miniaturized base editing system of the present invention is efficiently delivered into cells using one AAV vector as a packaging tool to correct a specific base in a target nucleic acid or target gene target site sequence with another base. In addition, since multi-targeting and multi-base editing are possible, the result of the present invention will be useful for the treatment of genetic diseases and research of genetic diseases through base editing. It is expected that

그러므로, 본 발명의 염기교정을 위한 최소형 염기교정 시스템 및 이를 포함하는 조성물은 다양한 표적 유전자에 따른 최적의 염기교정 유전자가위 선택을 위한 응용의 폭을 넓히고, 기존의 유전체 교정 또는 세포 내 전달이 어려운 큰 사이즈의 유전자 변이를 염기교정을 통해 효율적으로 달성할 수 있는 탁월한 차세대 유전자 편집 시스템이 될 것이다.Therefore, the minimal base editing system for base editing of the present invention and the composition containing the same broaden the range of applications for selecting the optimal base editing gene scissors according to various target genes, and the existing genome editing or intracellular delivery is difficult. It will be an excellent next-generation gene editing system that can efficiently achieve genetic mutations of any size through base correction.

도 1은 본 발명에 따른 염기교정을 위한 초소형 염기교정(Base editing) 구조물의 다양한 예시에 대한 모식도이다.
도 2는 본 발명에서 제공하는 염기교정을 위한 초소형 염기교정 구조물에 포함되는 아데노신 탈아미노화효소의 이종이량체 구조 및 이의 아미노산 서열을 나타낸 것이다.
(a)는 아데노신 탈아미노화효소 TadA-eTadA1의 구조를 나타낸다. Linker-TadA-Linker-eTadA1-NLS 순으로 연결되어 있고, 상기 TadA, eTadA1, 링커 및 NLS의 아미노산 서열을 나타내었다. (b)는 아데노신 탈아미노화효소 eTadA1-Tad의 구조를 나타낸다. Linker-eTadA1-Linker-TadA-NLS 순으로 연결되어 있고, 상기 TadA, eTadA1, 링커 및 NLS의 아미노산 서열을 나타내었다. 도면에 도시된 각 서열은 예시적인 서열로서, 이에 제한되지 않는다.
도 3은 본 발명에서 제공하는 염기교정을 위한 초소형 염기교정 구조물에 포함되는 시티딘 탈아미노화효소 모듈 및 이의 아미노산 서열을 나타낸 것이다.
(a)는 시티딘 탈아미노화효소 APOBEC1 모듈 구조를 나타낸다. NLS-APOBEC1-Linker 순으로 연결되어 있고, 상기 APOBEC1, 링커 및 NLS의 아미노산 서열을 나타내었다. APOBEC1의 첫 번째 메티오닌(M)은 생략되었다. (b)는 시티딘 탈아미노화효소 APOBEC3A 모듈 구조를 나타낸다. APOBEC3A-Linker-NLS 순으로 연결되어 있고, 상기 APOBEC3A, 링커 및 NLS의 아미노산 서열을 나타내었다. (c)는 시티딘 탈아미노화효소 APOBEC3B 모듈 구조를 나타낸다. APOBEC3B-Linker-NLS 순으로 연결되어 있고, 상기 APOBEC3B, 링커 및 NLS의 아미노산 서열을 나타내었다. 도면에 도시된 각 서열은 예시적인 서열로서, 이에 제한되지 않는다.
도 4는 본 발명에서 제공하는 염기교정을 위한 초소형 염기교정 구조물을 나타낸다.
(a)는 dCas12f1 및 dTnpB 각각의 아데닌 염기교정 유전자가위 ABE-N1, ABE-N2, ABE-C1 및 ABE-C2 모듈 구조를 나타낸다. (b)는 시토신 염기교정 유전자가위 CBE-N1, CBE-N2, CBE-C1 및 CBE-C2 모듈 구조를 나타낸다.
도 5는 Cas12f1에 대한 야생형 가이드 RNA를 나타내며, 본 발명에서 제공하는 엔지니어링된 가이드 RNA를 위한 변형 부위(Modification Site, MS) MS1 내지 MS5의 각 영역을 표시하였다.
도 6은 야생형 가이드 RNA에서 MS1 내지 MS5의 각 영역에서의 변형을 가지는 엔지니어링된 가이드 RNA를 포함하는 CRISPR/Cas12f1 복합체의 인델(Indel) 효율(%)을 확인한 결과이다.
도 7은 본 발명의 초소형 염기교정 시스템의 구성요소인 엔지니어링된 TnpB 또는 Cas12f1의 싱글 가이드 RNA 구조 및 RNA 서열을 나타낸다.
도 8은 본 발명에 제공하는 예시적인 아데노-연관 바이러스(AAV)벡터의 구조를 도시하였다.
도 9는 도 4의 초소형 염기교정 구조물 ABE-N1, ABE-N2, ABE-C1 또는 ABE-C2을 포함하는 초소형 염기교정 시스템의 염기 교정율(%)을 확인한 결과이다.
(a), (b) 및 (c)는 dCas12f1을 포함하는 초소형 염기교정 시스템의 각 표적 서열에 따른 결과를 나타내었고, (d) 및 (e)는 Cas12f1의 기능적 유사체 dTnpB를 포함하는 초소형 염기교정 시스템의 표적 서열에 따른 염기 교정율(%)을 나타내었다.
도 10은 본 발명에 따른 초소형 염기교정 시스템의 염기 교정 효율에 있어 ver4.1의 가이드 RNA를 사용하였을 때 데드 변이체 종류에 따른 아데닌 염기교정 효율을 확인한 결과이다.
(a) 및 (b)는 각각 dCas12f1 변이체 및 dTnpB 변이체의 표적 서열 3에서의 염기 교정율의 결과를 나타내었다.
도 11은 본 발명에 따른 초소형 염기교정 시스템의 염기 교정 효율에 있어 dTnpB 또는 dCas12f1의 발현에 관여하는 프로모터 종류의 영향을 확인한 결과이다.
(a) 및 (b)는 각각 표적 서열 1 및 표적 서열 3에 대한 프로모터 종류에 따른 염기 교정율의 결과를 나타내었다.
도 12는 본 발명에 따른 초소형 염기교정 시스템의 염기 교정 효율에 있어 링커 길이에 따른 영향을 확인한 결과이다.
(a)는 dCas12f1와 TadA1eTadA1 모듈을 포함하는 시스템의 표적 서열 3에 대한 링커 길이에 따른 염기 교정율을 나타낸 것이고, (b) 및 (c)는 각각 dTnpB와 TadA1eTadA1 모듈 또는 TadA1eTadA3 모듈을 포함하는 시스템의 표적 서열 3에 대한 링커길이에 따른 염기 교정율을 나타낸 것이다.
도 13은 본 발명에 따른 초소형 염기교정 시스템의 염기 교정 효율에 있어 핵산분해 단백질 변이체의 영향을 확인한 결과이다.
(a) 및 (b)는 각각 TadA1eTadA1 모듈과 결합된 dCas12f1 변이체 및 dTnpB 변이체의 표적 서열 3에 대한 염기 교정율의 결과이고, (c)는 dTnpB 변이체의 교정윈도우 확장결과이며, (d)는 dTnpB 변이체의 인델 활성 결과이다.
도 14는 dCas12f1 또는 dTnpB의 아미노산 치환 변이체에 따른 염기교정 윈도우의 3반복 확인 결과이다.
(a)는 dCas12f1의 아미노산 치환 변이체의 결과이고, (b)는 dTnpB의 아미노산 치환 변이체의 결과이다.
도 15는 TadAeTadA3를 이용한 염기교정 시스템을 다양한 표적서열에서 검증한 결과이다.
도 16은 본 발명에 따른 초소형 염기교정 시스템의 염기 교정 효율에 있어 Tad 종류에 따른 영향을 확인한 결과이다.
(a) 내지 (c)는 각각 dCas12f1의 표적 서열 3에 대한 gRNA 종류 GE-Ver3.0, GE-Ver4.0 및 GE-Ver4.1에 따른 염기 교정율의 결과를 나타내었고, (d) 내지 (f)는 각각 dTnpB1의 표적 서열 3에 대한 gRNA 종류 GE-Ver3.0, GE-Ver4.0 및 GE-Ver4.1에 따른 염기 교정율의 결과를 나타내었다.
도 17은 도 4의 초소형 염기교정 구조물 CBE-N1, CBE-N2, CBE-C1 또는 CBE-C2을 포함하는 초소형 염기교정 시스템의 염기 교정율(%)을 확인한 결과이다.
(a) 및 (b)는 각각 표적 서열에 따른 결과를 나타내었다.
도 18은 본 발명에 따른 초소형 염기교정 시스템과 기존의 염기교정 유전자가위의 원치 않는 indel 발생율(%)을 비교 확인한 결과이다.
(a)는 아데닌 염기교정 유전자가위(Adenine base editors, ABEs)의 indel 발생율(%) 결과를 나타내었고, (b)는 시토신 염기교정 유전자가위(Cytosine base editors, CBEs)의 indel 발생율(%) 결과를 나타내었다.
도 19는 본 발명에 따른 초소형 염기교정 시스템의 세포 내 염기 교정율(%)을 확인한 결과이다.
(a)는 분석을 위해 형질전환된 세포주의 모식도를 나타내었다. (b)는 아데닌 염기교정 구조물 dCas12f1-ABE-C2를 포함하는 초소형 염기교정 시스템이 포함된 AAV 벡터 rAAV-ABE-C2 및 이것으로 형질감염된 세포주의 모식도를 나타내었다. (c)는 상기 rAAV-ABE-C2에 의한 세포 내에 존재하는 표적 서열 부위의 아데닌 염기 교정율(%) 결과를 나타내었다.
도 20은 dTnpB-ABE-C2를 포함하는 초소형 염기교정 시스템의 세포 내 염기 교정율(%)을 확인한 결과이다.
(a)는 분석을 위해 형질전환된 세포주의 모식도를 나타내었다. (b)는 아데닌 염기교정 구조물 dTnpB-ABE-C2를 포함하는 초소형 염기교정 시스템이 포함된 AAV 벡터 rAAV-TnpB-ABE-C2 및 이것으로 형질감염된 세포주의 모식도를 나타내었다. (c)는 상기 rAAV-TnpB-ABE-C2에 의한 세포 내 표적 서열 부위의 아데닌 염기 교정율(%) 결과를 rAAV-SpCas9 split ABE와 비교하여 나타내었다.
도 21은 본 발명에 따른 초소형 염기교정 시스템과 기존의 염기교정 유전자가위의 세포 내 염기 교정율(%)을 비교 확인한 결과이다.
(a)는 ABE-C2+sgRNA 또는 ABE-C2+sgRNA+Auxillary; 및 Nguyen Tran et al (Nature Commun, 2020)에서 제시된 AAV 탑재가능한 SpCas9n 기반의 아데닌 염기교정 유전자가위 miniABEmax;의 아데닌 염기교정 특이성을 나타내고, (b)는 기존 Cas12f 기반 ABE와 본 발명에 따른 Cas12f1 또는 TnpB 기반 ABE의 교정효율을 나타낸 결과이다.
도 22는 본 발명에 따른 초소형 염기교정 시스템의 AAV 전달을 통한 다중 유전자 교정을 확인한 결과이다.
(a)는 한 종류의 gRNA가 포함된 AAV 벡터 AAV-S1 및 AAV-S2와 서로다른 gRNA 두 종류가 포함된 AAV 벡터 AAV-S1/2의 모식도를 나타내었다. (b)는 세포 내 표적 서열 부위에서 상기 AAV 벡터들에 의한 염기 교정율(%)을 나타낸 결과이다.
1 is a schematic diagram of various examples of subminiature base editing structures for base editing according to the present invention.
2 shows the structure of a heterodimer of adenosine deaminase included in the ultra-small base correction construct for base correction provided in the present invention and its amino acid sequence.
(a) shows the structure of adenosine deaminase TadA-eTadA1. They are linked in the order of Linker-TadA-Linker-eTadA1-NLS, and the amino acid sequences of TadA, eTadA1, linker and NLS are shown. (b) shows the structure of adenosine deaminase eTadA1-Tad. They are linked in the order of Linker-eTadA1-Linker-TadA-NLS, and the amino acid sequences of TadA, eTadA1, linker and NLS are shown. Each sequence shown in the figure is an exemplary sequence, but is not limited thereto.
3 shows a cytidine deaminase module included in the ultra-small base correction construct for base correction provided in the present invention and its amino acid sequence.
(a) shows the module structure of cytidine deaminase APOBEC1. They are connected in the order of NLS-APOBEC1-Linker, and the amino acid sequences of APOBEC1, linker and NLS are shown. The first methionine (M) of APOBEC1 is omitted. (b) shows the module structure of cytidine deaminase APOBEC3A. They are connected in the order of APOBEC3A-Linker-NLS, and the amino acid sequences of APOBEC3A, linker and NLS are shown. (c) shows the cytidine deaminase APOBEC3B module structure. They are connected in the order of APOBEC3B-Linker-NLS, and the amino acid sequences of APOBEC3B, linker and NLS are shown. Each sequence shown in the figure is an exemplary sequence, but is not limited thereto.
4 shows a subminiature base correction structure for base correction provided by the present invention.
(a) shows the modular structures of ABE-N1, ABE-N2, ABE-C1 and ABE-C2 of the adenine base-corrected gene scissors of dCas12f1 and dTnpB, respectively. (b) shows the structure of the CBE-N1, CBE-N2, CBE-C1 and CBE-C2 modular scissors.
Figure 5 shows wild-type guide RNA for Cas12f1, and each region of Modification Site (MS) MS1 to MS5 for the engineered guide RNA provided by the present invention is indicated.
6 is a result of confirming the indel efficiency (%) of the CRISPR/Cas12f1 complex including the engineered guide RNA having modifications in each region of MS1 to MS5 in wild-type guide RNA.
Figure 7 shows the single guide RNA structure and RNA sequence of engineered TnpB or Cas12f1, a component of the ultraminiature base correction system of the present invention.
8 shows the structure of an exemplary adeno-associated virus (AAV) vector provided in the present invention.
FIG. 9 is a result of confirming the base proofreading rate (%) of the microbase proofreading system including the microbase proofreading structures ABE-N1, ABE-N2, ABE-C1 or ABE-C2 of FIG. 4 .
(a), (b) and (c) show the results according to each target sequence of the minibase correction system including dCas12f1, and (d) and (e) show the results of the minibase correction system including dTnpB, a functional analogue of Cas12f1. The base correction rate (%) according to the target sequence of the system is shown.
10 is a result of confirming the efficiency of adenine base correction according to the type of dead variant when using the guide RNA of ver4.1 in the base correction efficiency of the ultra-small base correction system according to the present invention.
(a) and (b) show the results of base correction rates in target sequence 3 of the dCas12f1 variant and the dTnpB variant, respectively.
11 is a result of confirming the effect of the type of promoter involved in the expression of dTnpB or dCas12f1 on the base editing efficiency of the miniaturized base editing system according to the present invention.
(a) and (b) show the results of base correction rates according to promoter types for target sequence 1 and target sequence 3, respectively.
12 is a result confirming the effect of the linker length on the base proofreading efficiency of the microbase proofreading system according to the present invention.
(a) shows the base correction rate according to the linker length for the target sequence 3 of the system including dCas12f1 and the TadA1eTadA1 module, and (b) and (c) show the base correction rate of the system including dTnpB and the TadA1eTadA1 module or the TadA1eTadA3 module, respectively. It shows the base correction rate according to the linker length for target sequence 3.
13 is a result of confirming the effect of nucleolytic protein variants on the base proofreading efficiency of the micro base proofreading system according to the present invention.
(a) and (b) are the results of base correction rates for the target sequence 3 of the dCas12f1 variant and the dTnpB variant combined with the TadA1eTadA1 module, respectively, (c) is the calibration window expansion result of the dTnpB variant, and (d) is the result of dTnpB It is the result of the indel activity of the mutant.
14 shows the results of 3 repetitions of base correction windows according to amino acid substitution variants of dCas12f1 or dTnpB.
(a) is the result of the amino acid substitution variant of dCas12f1, and (b) is the result of the amino acid substitution variant of dTnpB.
15 shows the result of verifying the base correction system using TadAeTadA3 in various target sequences.
16 is a result of confirming the effect of Tad types on the base proofreading efficiency of the micro base proofreading system according to the present invention.
(a) to (c) show the results of base correction rates according to the gRNA types GE-Ver3.0, GE-Ver4.0 and GE-Ver4.1 for target sequence 3 of dCas12f1, respectively, and (d) to (f) shows the results of base correction rates according to gRNA types GE-Ver3.0, GE-Ver4.0 and GE-Ver4.1 for target sequence 3 of dTnpB1, respectively.
FIG. 17 is a result of confirming the base correction rate (%) of the micro base correction system including the micro base correction constructs CBE-N1, CBE-N2, CBE-C1 or CBE-C2 of FIG. 4 .
(a) and (b) show the results according to the target sequence, respectively.
18 is a result of comparing and confirming the unwanted indel occurrence rate (%) of the ultra-small base editing system according to the present invention and the existing base editing gene scissors.
(a) shows the indel generation rate (%) result of adenine base editors (ABEs), and (b) shows the indel generation rate (%) result of cytosine base editors (CBEs) showed
19 is a result of confirming the intracellular base correction rate (%) of the micro base correction system according to the present invention.
(a) shows a schematic diagram of the transformed cell line for analysis. (b) shows a schematic diagram of the AAV vector rAAV-ABE-C2 containing the ultraminiature base editing system including the adenine base editing construct dCas12f1-ABE-C2 and a cell line transfected therewith. (c) shows the result of the adenine base correction rate (%) of the target sequence region present in the cell by the rAAV-ABE-C2.
20 is a result of confirming the intracellular base correction rate (%) of the micro base correction system including dTnpB-ABE-C2.
(a) shows a schematic diagram of the transformed cell line for analysis. (b) shows a schematic diagram of the AAV vector rAAV-TnpB-ABE-C2 containing the ultraminiature base-correction system containing the adenine base-correction construct dTnpB-ABE-C2 and a cell line transfected therewith. (c) shows the adenine base correction rate (%) of the intracellular target sequence by the rAAV-TnpB-ABE-C2 compared to rAAV-SpCas9 split ABE.
21 is a result of comparing and confirming the intracellular base correction rate (%) of the ultra-small base correction system according to the present invention and the existing base correction gene scissors.
(a) is ABE-C2+sgRNA or ABE-C2+sgRNA+Auxillary; and AAV loadable SpCas9n-based adenine base-editing gene scissors miniABEmax; presented by Nguyen Tran et al (Nature Commun, 2020); This is the result showing the calibration efficiency of the base ABE.
22 is a result of confirming multiple gene editing through AAV delivery of the micro base editing system according to the present invention.
(a) shows a schematic diagram of AAV vectors AAV-S1 and AAV-S2 containing one type of gRNA and AAV vectors AAV-S1/2 containing two different types of gRNAs. (b) is a result showing the base correction rate (%) by the AAV vectors at the target sequence site in the cell.

본 발명자들은 현재까지 가장 많은 연구가 진행된 Cas9 단백질에 비해 분자량이 1/3 정도의 작은 크기를 가지고 있으며, 표적 핵산 또는 표적 유전자로의 표적화 효율이 기존 핵산분해 단백질들 보다 현저히 높은 Cas12f1 단백질을 확인하였다. 또한, 본 발명자들은 세포 내 유전자의 염기교정을 위해, 아데노-연관 바이러스(AAV) 벡터에 여유롭게 탑재가능하며 효과적으로 세포 내(in vivo) 전달이 가능한 시스템으로서, 탈아미노화효소(deaminase)가 결합된 TnpB 유래의 핵산분해 단백질을 포함하는 새로운 초소형 염기교정 시스템을 제작하였다. The present inventors have identified the Cas12f1 protein, which has a molecular weight of about 1/3 smaller than that of the Cas9 protein, which has been studied the most to date, and has significantly higher targeting efficiency to target nucleic acids or target genes than existing nucleolytic proteins. . In addition, the present inventors have proposed a system that can be easily loaded into an adeno-associated virus (AAV) vector for base-editing of intracellular genes and can be effectively delivered in vivo. A novel ultraminiature base editing system containing a nucleolytic protein derived from TnpB was constructed.

또한, 상기 초소형 염기교정 시스템이 세포 내 표적 핵산 또는 표적 유전자의 표적 부위에서 특정 염기에 대한 염기교정(Base Editing)에 있어 높은 교정 효율을 가진다는 것을 최초로 확인함으로써, 상기 새로운 초소형 염기교정 시스템이 다양한 유전체 편집에 활용 가능함에 기초하여 본 발명을 완성하였다.In addition, by confirming for the first time that the miniaturized base editing system has high efficiency in base editing for a specific base at the target site of a target nucleic acid or target gene in a cell, the new minibase base editing system can be used in a variety of The present invention was completed based on its availability for genome editing.

본 발명은 표적 핵산 또는 표적 유전자의 염기서열에서 특정의 염기를 다른 염기로 교정하는데 사용하기 위한, 탈아미노화효소(deaminase)가 결합된 TnpB 유래의 분자량이 작은 핵산분해 단백질 또는 이의 기능적 유사체; 및 가이드 RNA;를 포함하는 초소형 염기교정 시스템에 관한 것이다. The present invention relates to a deaminase-linked TnpB-derived low-molecular-weight nucleolytic protein or functional analog thereof for use in correcting a specific base with another base in the nucleotide sequence of a target nucleic acid or target gene; And guide RNA; It relates to a mini base correction system comprising a.

또한, 본 발명은 탈아미노화효소(deaminase)가 결합된 TnpB 유래의 분자량이 작은 핵산분해 단백질 또는 이의 기능적 유사체를 포함하는 초소형 염기교정 구조물, 이를 이용하여 표적 핵산 또는 표적 유전자 내의 특정 염기를 다른 염기로 교정하는 방법 및 염기교정용 조성물에 관한 것이다.In addition, the present invention provides an ultra-small base correction construct comprising a deaminase-linked TnpB-derived low-molecular-weight nucleolytic protein or a functional analogue thereof, using which a specific base in a target nucleic acid or target gene is converted to another base. It relates to a correction method and a composition for base correction.

이하, 본 발명을 용어의 설명, 특정한 예시 및 실시예를 통해 더욱 상세하게 설명한다. 상기 특정한 예시 및 실시예는 발명의 일부 구현예를 포함하는 것으로 모든 구현예를 포함하고 있지는 않다는 점에 유의해야 한다. 본 명세서에 의해 개시되는 발명의 내용은 여기에서 설명되는 특정 구현예시 및 실시예로 제한되지 않고, 본 발명이 속한 기술 분야에 있어 통상의 기술자가 다양하게 구현할 수 있다는 것을 포함하는 것은 자명하다. 따라서 본 명세서에서 개시된 발명의 내용은 여기에 기재된 특정 구현예로 제한되지 않으며, 이에 대한 변형 및 다른 구현예들도 청구범위 내에 포함되는 것으로 이해되어야 한다.Hereinafter, the present invention will be described in more detail through explanation of terms, specific examples and examples. It should be noted that the above specific examples and embodiments include some embodiments of the invention and do not include all embodiments. It is obvious that the content of the invention disclosed by this specification is not limited to the specific implementation examples and examples described herein, and includes that those skilled in the art can implement it in various ways in the technical field to which the present invention belongs. Therefore, it should be understood that the content of the invention disclosed in this specification is not limited to the specific embodiments described herein, and modifications and other embodiments thereof are also included within the scope of the claims.

[용어의 설명][Explanation of terms]

염기교정 유전자가위(Base Editors, BEs)Base Editors (BEs)

본 발명에서 사용되는 "염기교정 유전자가위(Base Editors, BEs)"는 단일 염기교정 수단으로서, 아데노신 탈아미노화효소(adenosine deaminase) 또는 시티딘 탈아미노화효소(Cytidine deaminase)를 DNA 이중 가닥 절단 활성이 완전히 결핍된 유전자가위(dead Cas, dCas) 단백질 또는 DNA 이중 가닥 중 한 가닥을 자르는 유전자가위(nick Cas, nCas) 단백질에 결합시킴으로써 구축된다. 이들은 각각 아데닌 염기교정 유전자가위(Adenine Base Editors, ABEs) 및 시토신 염기교정 유전자가위(Cytosine Base Editors, CBEs)라고 한다. "Base Editors (BEs)" used in the present invention is a single base editing tool, and adenosine deaminase or cytidine deaminase (Cytidine deaminase) DNA double-strand break activity It is constructed by binding either to the dead Cas (dCas) protein or to the nick Cas (nCas) protein that cuts one of the DNA double strands. These are called Adenine Base Editors (ABEs) and Cytosine Base Editors (CBEs), respectively.

염기교정 유전자가위(Base Editors, BEs)는 "BEs"라고 지칭할 수 있고, 아데닌 염기교정 유전자가위(Adenine Base Editors, ABEs) 및 시토신 염기교정 유전자가위(Cytosine Base Editors, CBEs)는 각각 "ABEs" 및 "CBEs"로 지칭할 수 있다. 염기교정 유전자가위(Base Editors, BEs)는 원치 않는 DNA 이중 가닥 절단을 일으키지 않으면서, 표적 염기 서열 내에서 특정 부위의 염기를 다른 염기로 치환하여 염기교정을 완성하는 것이 바람직하다. Base Editors (BEs) may be referred to as "BEs", and Adenine Base Editors (ABEs) and Cytosine Base Editors (CBEs) may be referred to as "ABEs", respectively. and "CBEs". Base editors (BEs) preferably complete base editing by replacing a base at a specific site with another base in a target base sequence without causing unwanted DNA double-strand breakage.

아데닌 염기교정 유전자가위(Adenine Base Editors, ABEs)Adenine Base Editors (ABEs)

본 발명에서 사용되는 "아데닌 염기 교정 유전자가위(Adenine Base Editors, ABEs)"는 아데닌(A) 염기를 구아닌(G) 염기로 교정하는 것으로, 대장균(E. coli) 유래의 tRNA adenosine deaminase(TadA)와 이의 변이체(TadA* 또는 eTadA)를 각각 단량체 또는 이종이량체(heterodimer) TadA-TadA* 또는 TadA*-TadA 구조로 결합시킨 후, 상기 단량체 또는 이종이량체 TadA-TadA* 또는 TadA*-TadA 단백질을 dead Cas12f1(dCas12f1) 단백질, dead TnpB(dTnpB) 단백질 또는 이의 기능적 유사체의 N-말단 또는 C-말단에 결합시킴으로써 제작되었다. The "Adenine Base Editors (ABEs)" used in the present invention are to correct an adenine (A) base with a guanine (G) base, and the tRNA adenosine deaminase (TadA) derived from E. coli and its variant (TadA * or eTadA) are combined into a monomer or heterodimer TadA-TadA * or TadA * -TadA structure, respectively, and then the monomer or heterodimer TadA-TadA * or TadA * -TadA protein was prepared by binding to the N-terminus or C-terminus of dead Cas12f1 (dCas12f1) protein, dead TnpB (dTnpB) protein or a functional analog thereof.

또한, 아데닌 염기교정 유전자가위(Adenine Base Editors, ABEs)는 dead Cas12f1(dCas12f1) 단백질, dead TnpB(dTnpB) 단백질 또는 이의 기능적 유사체; 및 이에 결합되는 아데닌 탈아미노화효소(adenosine deaminase)의 종류에 따라 다양한 것이 가능하다. In addition, adenine base editors (ABEs) are dead Cas12f1 (dCas12f1) protein, dead TnpB (dTnpB) protein or functional analogues thereof; And various types are possible depending on the type of adenine deaminase coupled thereto.

아데노신 탈아미노화효소(adenosine deaminase)adenosine deaminase

본 발명에서 사용되는 용어 "아데노신 탈아미노화효소" 또는 "아데노신 탈아미노화효소 단백질"은 RNA/DNA 및 DNA 이중가닥에서 아데닌(A)을 표적화하여, 아데닌 또는 아데닌-함유 분자(예, 아데노신, DNA, RNA)의 아데닌 모이어티를 하이포잔틴(hypoxanthine) 또는 하이포잔틴-함유 분자(예, 이노신(I))의 하이포잔틴 모이어티로 가수분해하는 탈아미노화 반응에 관여하는 단백질 또는 폴리펩타이드의 단백질, 폴리펩타이드 또는 이들의 기능성 도메인을 포함한다. As used herein, the term "adenosine deaminase" or "adenosine deaminase protein" refers to targeting adenine (A) in RNA/DNA and DNA duplexes to adenine or adenine-containing molecules (e.g., adenosine, Proteins of proteins or polypeptides involved in deamination reactions that hydrolyze adenine moieties of DNA, RNA) to hypoxanthine or hypoxanthine-containing molecules (e.g., inosine (I)). , polypeptides or functional domains thereof.

상기 아데노신 탈아미노화효소(adenosine deaminase)는 고등 동물에는 거의 발견되지 않으나 암소의 근육 내, 우유, 쥐의 혈액에 조금 존재하며 가재의 내장 및 곤충 등에서 많이 존재한다고 알려져 있다. 본 발명의 아데노신 탈아미노화효소(adenosine deaminase)는 포유류, 조류, 개구리, 오징어, 어류, 파리, 벌레 및 후생동물 종으로부터 유래될 수 있다. 아데노신 탈아미노화효소는 대장균 유래의 TadA와 같은 자연유래 아데노신 탈아미노화 효소와 TadA의 돌연변이 변이체(eTadA)를 포함하나 이에 제한되는 것은 아니다. 여기서 TadA의 돌연변이 변이체(eTadA)는 evolved tRNA-specific adenosine deaminase로써 "eTadA" 또는 "eTadA1" 등과 상호호환 가능하게 사용될 수 있으며, 동일한 의미로 해석될 수 있다.The adenosine deaminase is rarely found in higher animals, but is known to be present in a small amount in the muscles of cows, milk, and blood of mice, and is present in large quantities in the intestines of crayfish and insects. The adenosine deaminase of the present invention can be derived from mammalian, bird, frog, squid, fish, fly, worm and metazoan species. Adenosine deaminase includes, but is not limited to, naturally occurring adenosine deaminase, such as TadA from Escherichia coli, and a mutant variant of TadA (eTadA). Here, the mutant variant of TadA (eTadA) is an evolved tRNA-specific adenosine deaminase, and may be used interchangeably with "eTadA" or "eTadA1", and may be interpreted in the same meaning.

시토신 염기교정 유전자가위(Cytosine Base Editors, CBEs)Cytosine Base Editors (CBEs)

본 발명에서 사용되는 "시토신 염기교정 유전자가위(Cytosine Base Editors, CBEs)"는 시토신(C)을 티민(T)으로 교정하는 것으로, 쥐 유래의 APOBEC1, APOBEC3A, APOBEC3B 또는 칠성 장어 유래의 PmCDA1를 dead Cas12f1(dCas12f1) 단백질, nick Cas12f1(nCas12f1) 단백질 또는 이의 기능적 유사체의 N-말단 또는 C-말단에 결합시킴으로써 제작되었다. 이 때 상기 시토신 염기 교정 유전자가위는 N-말단 또는 C-말단에 UGI(Uracil Glycosylase Inhibitor)를 각각 1개 또는 2개 이상 결합된 것일 수 있다. "Cytosine Base Editors (CBEs)" used in the present invention are to correct cytosine (C) with thymine (T), and dead APOBEC1, APOBEC3A, APOBEC3B derived from mice or PmCDA1 derived from lampreys. Cas12f1 (dCas12f1) protein, nick Cas12f1 (nCas12f1) protein, or a functional analogue thereof was constructed by linking to the N-terminus or C-terminus. In this case, the cytosine base correction gene scissors may be one or two or more UGIs (Uracil Glycosylase Inhibitors) bound to the N-terminus or C-terminus, respectively.

시토신 염기교정 유전자가위(Cytosine Base Editors, CBEs)는 dCas9의 N 말단에 APOBEC1 단백질을 융합한 BE1, BE1의 C-말단에 우라실 DNA 글리코실레이즈 저해 단백질(uracil DNA glycosylase inhibitor, UGI)을 융합하여 세포의 염기 절단 복구(BER, base excision repair) 기능을 억제하고 교정효율을 향상시킨 BE2, BE2에서 dCas9 부분을 nCas9으로 대체하여 티민으로 교정되는 효율이 증가된 BE3 등이 있으나, 이에 제한되지 않는다.Cytosine Base Editors (CBEs) are BE1 fused with APOBEC1 protein to the N-terminus of dCas9, and uracil DNA glycosylase inhibitor (UGI) fused to the C-terminus of BE1. BE2, which suppresses the base excision repair (BER) function and improves the proofreading efficiency, and BE3, in which the efficiency of proofreading with thymine is increased by replacing the dCas9 part in BE2 with nCas9, but is not limited thereto.

시티딘 탈아미노화효소(cytidine deaminase)cytidine deaminase

본 발명에서 사용되는 용어 "시티딘 탈아미노화효소" 또는 "시티딘 탈아미노화효소 단백질"은 시토신(C)을 표적화하여, 시토신을 탈아미노화시켜 유라실(Uracil, U)로의 전환을 야기하는 효소 단백질이다. 시토신의 아민기를 제거하여 유라실로 만들면 일련의 세포 내 수선 기작에 의하여 유라실은 티민(T)으로 변환되어, 최종적으로 시토신(C) 염기를 티민(T) 염기로의 염기 교정이 완성된다. As used herein, the term "cytidine deaminase" or "cytidine deaminase protein" targets cytosine (C), which deaminates and causes conversion to uracil (U). is an enzyme protein that When the amine group of cytosine is removed to form uracil, uracil is converted to thymine (T) by a series of intracellular repair mechanisms, and finally base proofreading of cytosine (C) base to thymine (T) base is completed.

시티딘 탈아미노화효소(cytidine deaminase)는 일반적으로 RNA에서 작동을 하지만 일부는 single strand DNA(ssDNA)에서도 작동할 수 있는 것으로 알려져 있고(Harris et al., 2002), 그 예로 인간 activation-induced cytidine deaminase(AID), 인간 APOBEC3G, 쥐 APOBEC1, APOBEC3A, APOBEC3B, CDA, AID 그리고 칠성장어 PmCDA1 등이 있으나 이에 제한되는 것은 아니다. Cytidine deaminase generally works on RNA, but some are known to work on single-stranded DNA (ssDNA) as well (Harris et al., 2002). For example, human activation-induced cytidine deaminase (AID), human APOBEC3G, rat APOBEC1, APOBEC3A, APOBEC3B, CDA, AID, and lamprey PmCDA1, but are not limited thereto.

염기교정(Base Editing) 활성 또는 염기 교정율(Base Editing Rate)Base Editing Activity or Base Editing Rate

본 발명에서 사용되는 용어 "염기교정(Base Editing) 활성" 또는 "염기 교정율(Base Editing Rate)"은 아데닌 염기교정 유전자가위(ABEs)가 DNA 이중가닥 염기서열 내 특정 아데닌 부위에서 아데닌(A)이 구아닌(G)로 편집되는 정도를 의미한다. 또한, 시토신 염기교정 유전자가위(CBEs)의 경우에는 특정 시토신 부위에서 시토신(C)이 티민(T)로 편집되는 정도를 의미한다. As used herein, the term "base editing activity" or "base editing rate" refers to the ability of adenine base editing gene scissors (ABEs) to adenine (A) at a specific adenine site in a DNA double-stranded base sequence. This refers to the extent to which guanine (G) is edited. In addition, in the case of cytosine base editing gene scissors (CBEs), it means the degree to which cytosine (C) is edited into thymine (T) at a specific cytosine site.

교정 윈도우(editing window)Editing window

본 발명에 따른 용어 "교정 윈도우(editing window)"는 염기교정용 조성물의 염기교정 유전자가위가 표적 핵산 또는 표적 유전자에서 특정의 염기를 교정할 때, 가이드 RNA가 결합하면서 생긴 단일가닥 DNA의 특정 범위에 존재하는 여러 개의 염기를 동시에 탈아미노화하는 범위를 의미한다. 표적 부위의 아데닌(A) 또는 시토신(C) 염기 주변의 2개, 3개 또는 4개의 염기까지 동시에 교정하는 결과를 초래할 수 있다. 각 염기교정 유전자가위는 특이적인 위치에서 특정의 범위의 염기를 교정하는 교정 윈도우를 가질 수 있다. The term "editing window" according to the present invention refers to a specific range of single-stranded DNA formed as guide RNA binds when base editing scissors of a base editing composition correct a specific base in a target nucleic acid or target gene. It refers to the range of simultaneous deamination of several bases present in . This can result in simultaneous proofreading of up to 2, 3 or 4 bases around the adenine (A) or cytosine (C) base of the target site. Each base-editing gene scissors may have a correction window for correcting a specific range of bases at a specific position.

표적 핵산(Target nucleic acid) 또는 표적 유전자(Target gene)Target nucleic acid or target gene

본 발명에서 사용되는 용어 "표적 핵산(Target nucleic acid)" 또는 "표적 유전자(Target gene)"는 본 발명에 따른 초소형 염기교정 구조물 또는 이를 포함하는 초소형 염기교정 시스템에 의한 유전자 편집의 대상이 되는 세포 내 유전자 또는 핵산을 의미한다. As used herein, the term "target nucleic acid" or "target gene" refers to a cell that is a target of gene editing by the miniaturized base editing structure or the miniaturized base editing system including the same according to the present invention. Means my genes or nucleic acids.

상기 표적 핵산 또는 표적 유전자는 혼용될 수 있으며, 서로 동일한 대상을 지칭할 수 있다. 상기 표적 핵산 또는 표적 유전자는 달리 기재되지 않은 한, 대상 세포가 가진 고유한 유전자 또는 핵산 혹은 외부 유래의 유전자 또는 핵산 모두를 의미할 수 있으며, 유전자 편집의 대상이 될 수 있다면 특별히 제한되지 않는다. 상기 표적 유전자 또는 표적 핵산은 DNA 단일가닥, DNA 이중가닥, 또는 DNA와 RNA의 혼성 이중가닥일 수 있다. The target nucleic acid or target gene may be used interchangeably and may refer to the same target. Unless otherwise specified, the target nucleic acid or target gene may refer to all genes or nucleic acids native to the target cell or externally derived genes or nucleic acids, and is not particularly limited as long as it can be subjected to gene editing. The target gene or target nucleic acid may be a DNA single-strand, a DNA double-strand, or a hybrid double-strand of DNA and RNA.

상기 표적 핵산 또는 표적 유전자는 세포 내에 존재하거나 인위적으로 합성된 핵산 또는 유전자일 수 있다. 세포 내에 존재하는 경우, 상기 표적 핵산 또는 표적 유전자는 세포가 가진 고유한 유전자 또는 핵산(endogenous gene or nucleic acid) 또는 외부 유래의 유전자 또는 핵산(exogenous gene or nucleic acid) 모두를 의미할 수 있으며, CRISPR/Cas12f1 시스템에 의한 편집의 대상이 될 수 있다면 특별히 제한되지 않는다. The target nucleic acid or target gene may be a nucleic acid or gene existing in a cell or synthesized artificially. When present in a cell, the target nucleic acid or target gene may refer to both an endogenous gene or nucleic acid or an exogenous gene or nucleic acid possessed by the cell, and CRISPR /Cas12f1 It is not particularly limited as long as it can be subject to editing by the system.

표적 부위(Target region) 또는 표적 서열(Target sequence)Target region or target sequence

본 발명에 따른 "표적 서열(Target region)" 또는 "표적 서열(Target sequence)"은 표적 핵산 또는 표적 유전자 내에 존재하는 서열로, 본 발명에 따른 초소형 염기교정 구조물 또는 이를 포함하는 초소형 염기교정 시스템이 표적 유전자 또는 표적 핵산을 편집하기 위해 인식하는 특정 서열을 의미한다. 상기 표적 부위 또는 표적 서열은 그 목적에 따라 적절히 선택될 수 있다. "Target region" or "target sequence" according to the present invention is a sequence present in a target nucleic acid or target gene, and the miniaturized base editing construct or the miniaturized base editing system including the same according to the present invention It refers to a specific sequence that recognizes to edit a target gene or target nucleic acid. The target site or target sequence may be appropriately selected depending on the purpose.

구체적으로, 표적 부위 또는 표적 서열은 표적 유전자 또는 표적 핵산 서열 내에 포함된 서열이며, 본 발명의 가이드 RNA 또는 엔지니어링된 가이드 RNA에 포함된 스페이서 서열과 상보성을 가지는 서열을 의미한다. Specifically, the target site or target sequence is a sequence included in a target gene or target nucleic acid sequence, and refers to a sequence complementary to a spacer sequence included in the guide RNA or engineered guide RNA of the present invention.

일반적으로, 상기 스페이서 서열은 표적 유전자 또는 표적 핵산의 서열 및 CRISPR/Cas 시스템의 효과기(effector) 단백질이 인식하는 PAM 서열을 고려하여 결정된다. 상기 표적 부위 또는 표적 서열은 염기교정 시스템의 가이드 RNA와 상보적으로 결합하는 특정 가닥만을 지칭할 수 있으며, 상기 특정 가닥 부분을 포함하는 표적 이중 가닥 전체를 지칭할 수도 있으며, 이는 문맥에 따라 적절히 해석된다. In general, the spacer sequence is determined considering the sequence of the target gene or target nucleic acid and the PAM sequence recognized by the effector protein of the CRISPR/Cas system. The target site or target sequence may refer to only a specific strand that complementarily binds to the guide RNA of the base correction system, or may refer to the entire target double strand including the specific strand, which may be appropriately interpreted depending on the context. do.

유전자 가위(CRISPR/Cas) 또는 핵산분해 단백질Genetic scissors (CRISPR/Cas) or nucleolytic proteins

본 발명에서 사용되는 용어 "유전자가위(CRISPR/Cas)" 또는 "핵산분해 단백질"은 표적하는 핵산(DNA 또는 RNA) 또는 유전자 내의 특정 위치를 인식하여 편집할 수 있는 뉴클레아제를 의미한다. As used herein, the term "cRISPR/Cas" or "nucleolytic protein" refers to a nuclease capable of recognizing and editing a specific position in a target nucleic acid (DNA or RNA) or gene.

또한, 본 발명에서 상기 유전자가위(CRISPR/Cas) 또는 핵산분해 단백질은 염기교정 시스템 또는 염기교정 구조물(construct)을 구성하는 효과기(effector) 단백질을 지칭한다. 여기서 효과기(effector) 단백질은 CRISPR 단백질 또는 가이드 RNA(gRNA)에 결합할 수 있는 핵산분해 단백질 또는 표적 핵산 또는 표적 유전자에 결합할 수 있는 올리고핵산에 결합 가능한 펩티드 단편일 수 있다. In addition, in the present invention, the CRISPR/Cas or nucleic acid degradation protein refers to a base editing system or an effector protein constituting a base editing construct. Here, the effector protein may be a nucleolytic protein capable of binding to a CRISPR protein or guide RNA (gRNA), or a peptide fragment capable of binding to an oligonucleic acid capable of binding to a target nucleic acid or target gene.

구체적으로 Cas12f1, Cas9, Cpf1, C2c1, C2c2, C2c3 또는 변형된 핵산분해 단백질, 예를 들어 데드 핵산분해 단백질(dead Cas)또는 nick 핵산분해 단백질일 수 있지만, 이들로 제한되지 않는다. Specifically, it may be Cas12f1, Cas9, Cpf1, C2c1, C2c2, C2c3 or a modified nucleolytic protein, such as dead nucleolytic protein (dead Cas) or nick nucleolytic protein, but is not limited thereto.

또한, 용어 "핵산분해 단백질"은 구체적인 또는 배타적인 언급에 의하지 않는다면, 본 명세서에서, “유전자가위(CRISPR/Cas)”"CRISPR" 단백질, "CRISPR/핵산분해 단백질", "CRISPR 효과기", "CRISPR/Cas 효과기", "CRISPR 효소", "CRISPR/Cas 효소" 등과 상호호환 가능하게 사용될 수 있으며, 동일한 의미로 해석될 수 있다.In addition, the term "nucleolytic protein", as used herein, "cRISPR/Cas", "CRISPR" protein, "CRISPR/nucleolytic protein", "CRISPR effector", " "CRISPR/Cas effector", "CRISPR enzyme", "CRISPR/Cas enzyme", etc. may be used interchangeably, and may be interpreted in the same meaning.

염기교정 구조물(Base editing construct)Base editing construct

본 발명에서 사용되는 용어 "염기교정 구조물(Base editing construct)"은 "핵산분해 단백질"을 필수 구성요소로 하여, 여기에 또 다른 효과기(effector) 단백질, 예를 들어, 아데노신 탈아미노화효소(adenosine deaminase) 또는 시티딘 탈아미노화효소(cytidine deaminase)가 추가로 연결될 수 있는 구조물이다. 상기 연결은 직접 또는 링커에 의해 이루어질 수 있다. The term "base editing construct" used in the present invention has a "nucleolysis protein" as an essential component, and another effector protein, for example, adenosine deaminase (adenosine deaminase) deaminase) or cytidine deaminase (cytidine deaminase) is a structure that can be additionally linked. The connection may be made directly or by a linker.

상기 염기교정 구조물(Base editing construct)은 유전자 편집 시스템을 이루는 기본 구성요소로써, "CRISPR/Cas 모듈(module)"과 상호호환 가능하게 사용될 수 있으며, 핵산분해 단백질 및 탈아미노화 효소가 결합된 융합 단백질을 포함하는 의미로 해석될 수 있다.The base editing construct is a basic component of a gene editing system, and can be used interchangeably with the "CRISPR/Cas module", and is a fusion in which a nucleolytic protein and a deamination enzyme are combined. It can be interpreted as meaning including protein.

유전자가위(CRISPR/Cas) 시스템Gene scissors (CRISPR/Cas) system

본 발명에서 사용되는 용어 "유전자가위(CRISPR/Cas) 시스템"은 유전자가위 구조물(CRISPR/Cas construct)에 표적 핵산 또는 표적 유전자에 결합할 수 있는 표적화 핵산이 포함된 복합체를 의미한다. 여기서 표적화 핵산은 가이드 RNA(gRNA)로 대표될 수 있으나, 이에 제한되지는 않는다. As used herein, the term "CRISPR/Cas system" refers to a complex comprising a target nucleic acid capable of binding to a target nucleic acid or a target gene in a CRISPR/Cas construct. Here, the targeting nucleic acid may be represented by guide RNA (gRNA), but is not limited thereto.

상기 유전자가위(CRISPR/Cas) 시스템은 CRISPR/핵산분해 단백질 및 상기 단백질에 대응하는 가이드 분자에 따라 다양한 종류로 본 발명에서 사용되며, 유전자가위(CRISPR/Cas) 단백질은 상기 대응되는 가이드 분자를 이용하여 표적 핵산 또는 표적 유전자에 특이적으로 결합하여 DNA 이중 가닥 절단 또는 염기 교정을 수행한다. The CRISPR/Cas system is used in the present invention in various types according to the CRISPR/nucleolysis protein and the guide molecule corresponding to the protein, and the CRISPR/Cas protein uses the corresponding guide molecule. It specifically binds to a target nucleic acid or target gene to perform DNA double-strand breakage or base correction.

또한 CRISPR/Cas 시스템은 크게 Class 1과 Class 2로 나뉜다. 여기서, "2 CRISPR/Cas 시스템"은 그 이펙터 복합체(effector complex)가 멀티 도메인을 가진 커다란 단일 단백질을 포함하는 것을 특징으로 하며, 본 발명에서 사용되는 Class 2 CRISPR/Cas 시스템 중 대표적인 것이 Type II의 CRISPR/Cas9 시스템이다. CRISPR/Cpf1 시스템 등 유전자 편집 용도로 활발하게 연구되고 있는 CRISPR/Cas 시스템이 대체로 Class 2에 속한다.In addition, CRISPR/Cas systems are largely divided into Class 1 and Class 2. Here, the "2 CRISPR/Cas system" is characterized in that the effector complex includes a large single protein with multiple domains, and a typical Class 2 CRISPR/Cas system used in the present invention is Type II It is a CRISPR/Cas9 system. The CRISPR/Cas system, which is being actively researched for gene editing, such as the CRISPR/Cpf1 system, generally belongs to Class 2.

Class 2 CRISPR/Cas 시스템은 또한 Type II, V, 및 VI로 나뉜다. 이 중 본 발명에서 제공하는 초소형 유전자가위 시스템은 핵산분해 단백질을 Cas12f1 등 TnpB 유래의 분자량이 작은 단백질을 포함하는 Type V CRISPR/Cas 시스템에 속한다. Type V CRISPR/Cas 시스템의 이펙터 단백질은 Cas12로 명명되며, 세부 분류에 따라 Cas12a, Cas12b 등으로 명명된다. Class 2 CRISPR/Cas systems are also divided into Type II, V, and VI. Among them, the miniaturized gene editing system provided by the present invention belongs to the Type V CRISPR/Cas system including TnpB-derived small molecular weight proteins such as Cas12f1 as nucleolytic proteins. The effector protein of the Type V CRISPR/Cas system is named Cas12, and is named Cas12a, Cas12b, etc. according to detailed classification.

상기 Cas12 단백질은 하나의 뉴클레이즈 도메인(RuvC-like nuclease)을 가지는데, 이는 두 개의 뉴클레이즈 도메인(HNH, 및 RuvC domain)을 가지는 Type II 이펙터 단백질(예를 들어, Cas9 단백질)과 구분되는 특징이다. 현재까지 밝혀진 type V CRISPR/Cas 시스템은 11개의 서브타입으로 나뉘며, 이 중 본 발명에서 제공하는 CRISPR/Cas12f1 시스템은 서브타입 V-F 중 하나의 베리언트인 V-F1에 속한다(Makarova et al., Nature Reviews, Microbiology volume 18, 67 (2020)).The Cas12 protein has one nuclease domain (RuvC-like nuclease), which is distinguished from Type II effector proteins (eg, Cas9 protein) having two nuclease domains (HNH and RuvC domains) characteristic to be The type V CRISPR/Cas system discovered so far is divided into 11 subtypes, among which the CRISPR/Cas12f1 system provided by the present invention belongs to V-F1, a variant of one of the subtypes V-F (Makarova et al., Nature Reviews, Microbiology volume 18, 67 (2020)).

CRISPR/Cas12f1 시스템CRISPR/Cas12f1 system

본 발명에서 사용되는 용어 "CRISPR/Cas12f1 시스템"은 본 발명에서 최초로 제작된, 핵산분해 단백질을 Cas12f1 등 TnpB 유래의 분자량이 작은 단백질을 포함하는 유전자가위 구조물(CRISPR/Cas construct)에 표적 핵산 또는 표적 유전자에 결합할 수 있는 표적화 핵산 또는 가이드 RNA가 포함된 복합체를 의미한다. As used herein, the term "CRISPR/Cas12f1 system" refers to a target nucleic acid or a target nucleic acid or a target nucleic acid degrading protein, which was first produced in the present invention, to a CRISPR/Cas construct containing TnpB-derived low molecular weight proteins such as Cas12f1. It refers to a complex containing a targeting nucleic acid or guide RNA capable of binding to a gene.

자연계에는 다양한 종류의 CRISPR/Cas 시스템이 존재하고, 현재도 계속 새로운 CRISPR/Cas 시스템이 발견되고 있다. 이 중 본 발명에서 제공하는 CRISPR/Cas12f1 시스템은 구체적으로 Class 2, type V CRISPR/Cas 시스템 중 V-F 서브타입에 속하고, 이는 다시 V-F1 내지 V-F3의 변이체(variant)로 나뉜다. Various types of CRISPR/Cas systems exist in nature, and new CRISPR/Cas systems are still being discovered. Among them, the CRISPR/Cas12f1 system provided by the present invention specifically belongs to the V-F subtype among Class 2, type V CRISPR/Cas systems, and is further divided into variants of V-F1 to V-F3.

또한 CRISPR/Cas12f 시스템은 선행연구(Harrington et al., Programmed DNA destruction by miniature CRISPR-Cas14 enzymes, Science 362, 839-842 (2018))에서 Cas14로 명명된 효과기 단백질(effector protein) 중, Cas14a, Cas14b, 및 Cas14c 변이체를 포함하는 CRISPR/Cas14 시스템을 포함한다. 이 중, Cas14a 이펙터 단백질을 포함하는 CRISPR/Cas14a 시스템은 CRISPR/Cas12f1 시스템으로 분류된다(Makarova et al., Nature Reviews, Microbiology volume 18, 67 (2020)). In addition, the CRISPR/Cas12f system is among the effector proteins named Cas14 in a previous study (Harrington et al., Programmed DNA destruction by miniature CRISPR-Cas14 enzymes, Science 362, 839-842 (2018)), Cas14a, Cas14b , and the CRISPR/Cas14 system comprising Cas14c variants. Among them, the CRISPR/Cas14a system containing the Cas14a effector protein is classified as the CRISPR/Cas12f1 system (Makarova et al., Nature Reviews, Microbiology volume 18, 67 (2020)).

다만, 상기 CRISPR/Cas12f1은 Cas14a 패밀리(Harrington et al., Programmed DNA destruction by miniature CRISPR-Cas14 enzymes, Science 362, 839-842 (2018))에 속하는 시스템 뿐 아니라, 효과기 단백질(effector protein)이 c2c10으로 명명되는 CRISPR/Cas 시스템도 포함한다(Karvelis et al., Nucleic Acids Research, Vol. 48, No. 9 5017 (2020), Makarova et al., Nature Reviews, Microbiology volume 18, 67 (2020)). However, the CRISPR/Cas12f1 is not only a system belonging to the Cas14a family (Harrington et al., Programmed DNA destruction by miniature CRISPR-Cas14 enzymes, Science 362, 839-842 (2018)), but also an effector protein to c2c10. Also includes the named CRISPR/Cas system (Karvelis et al., Nucleic Acids Research, Vol. 48, No. 9 5017 (2020), Makarova et al., Nature Reviews, Microbiology volume 18, 67 (2020)).

따라서, 본 명세서에서 CRISPR/Cas12f1 시스템이라 함은, 달리 서술하지 않는 한 CRISPR/Cas14a 시스템 및 CRISPR/c2c10 시스템을 모두 포괄하는 개념이며, 이 중 CRISPR/Cas14a 시스템을 지칭할 때는 "CRISPR/Cas14a 시스템" 혹은, "Cas14 패밀리에 속하는 CRISPR/Cas12f1 시스템"이라 지칭한다. 상기 용어는 통상의 기술자가 문맥에 따라 적절히 해석할 수 있는 의미를 가진다.Therefore, in this specification, the CRISPR/Cas12f1 system is a concept encompassing both the CRISPR/Cas14a system and the CRISPR/c2c10 system, unless otherwise stated, and when referring to the CRISPR/Cas14a system, the "CRISPR/Cas14a system" Or, it is referred to as "the CRISPR/Cas12f1 system belonging to the Cas14 family". The term has a meaning that a person skilled in the art can appropriately interpret according to the context.

Cas12f1(CRISPR associated protein 12f1) 단백질Cas12f1 (CRISPR associated protein 12f1) protein

본 발명에서 사용되는 용어 "Cas12f1 단백질"은 엔지니어링된 CRISPR/Cas12f1 복합체의 구성요소로서, 핵산분해 단백질이다. 상기 Cas12f1 단백질은 자연계에 존재하는 야생형 Cas12f1 단백질일 수 있다. 상기 Cas12f1 단백질을 암호화하는 서열은 야생형 Cas12f1 단백질을 암호화하는 서열일 수 있고, 상기 단백질에 대해 인간 코돈-최적화된 Cas12f1 서열일 수 있다. As used herein, the term "Cas12f1 protein" is a component of the engineered CRISPR/Cas12f1 complex and is a nucleolytic protein. The Cas12f1 protein may be a wild-type Cas12f1 protein existing in nature. The sequence encoding the Cas12f1 protein may be a sequence encoding a wild-type Cas12f1 protein, or a human codon-optimized Cas12f1 sequence for the protein.

또한, 상기 Cas12f1 단백질은 자연계에 존재하는 야생형 Cas12f1 단백질과 동일한 기능을 가질 수 있다. 그러나 특별히 한정하지 않는 한, 본 명세서에서 "Cas12f1 단백질"이라고 할 때, 이는 야생형 또는 코돈 최적화된 Cas12f1 단백질뿐만 아니라, 변형된 Cas12f1 단백질 내지 Cas12f1 융합 단백질도 포괄하여 의미할 수 있다. In addition, the Cas12f1 protein may have the same function as the wild-type Cas12f1 protein existing in nature. However, unless otherwise specified, when "Cas12f1 protein" is used herein, it can mean not only wild-type or codon-optimized Cas12f1 proteins, but also modified Cas12f1 proteins and Cas12f1 fusion proteins.

상기 Cas12f1 단백질은 또한, 자연계에 존재하는 야생형 Cas12f1 단백질과 동일한 기능을 가지는 것뿐만 아니라, 상기 기능의 전부 또는 일부가 변형 또는 상실된 것 및/또는 추가적인 기능이 부가된 것을 통틀어 일컬을 수 있다. Cas12f1 단백질의 의미는 문맥에 따라 적절히 해석될 수 있고, 특별한 경우가 아닌 한 가장 넓은 의미로 해석된다. The Cas12f1 protein may also be referred to as one having the same function as the wild-type Cas12f1 protein existing in nature, as well as one in which all or part of the function is modified or lost, and/or an additional function is added. The meaning of the Cas12f1 protein may be appropriately interpreted according to the context, and is interpreted in the broadest sense unless there are special cases.

가이드 RNA(guide RNA, gRNA)Guide RNA (gRNA)

본 발명에 따른 용어 "가이드 RNA(gRNA)"는 CRISPR-핵산분해 단백질과 복합체를 형성할 수 있고, 표적 핵산 서열과 혼성화하기에 그리고 표적 핵산 서열에 대한 복합체의 서열-특이적 결합을 지시하기에 충분한 표적 핵산 서열과의 상보성을 갖는 가이드 서열을 포함하는 RNA-기반 분자를 지칭한다. 본 명세서에서 가이드 분자 또는 가이드 RNA는 상호호환 가능하게 사용된다.The term "guide RNA (gRNA)" according to the present invention is capable of forming a complex with a CRISPR-nucleolytic protein, hybridizing with a target nucleic acid sequence and directing sequence-specific binding of the complex to a target nucleic acid sequence. Refers to an RNA-based molecule comprising a guide sequence with sufficient complementarity with a target nucleic acid sequence. Guide molecules or guide RNAs are used interchangeably herein.

또한, 본 발명에서 상기 가이드 RNA는 하나 이상의 화학적 변형 예를 들어, 2개의 리보뉴클레오타이드의 화학적 연결에 의해 또는 하나 이상의 리보뉴클레오타이드의 하나 이상의 데옥시리보뉴클레오타이드로의 대체에 의한 변형을 갖는 RNA-기반 분자를 특이적으로 포함한다.In addition, in the present invention, the guide RNA is an RNA-based molecule having one or more chemical modifications, for example, modification by chemical linkage of two ribonucleotides or by replacement of one or more ribonucleotides with one or more deoxyribonucleotides. specifically includes

핵산분해 단백질에 대응하는 가이드 RNA(gRNA)의 특이성은 가이드 RNA(gRNA)를 구성하는 직접 반복 서열에 의해 좌우된다. 이에 핵산분해 단백질에 최적의 가이드 RNA를 설계하고자 할 때는 상기 직접 반복 서열을 상기 핵산분해 단백질의 유래에 따라 설계하게 된다. The specificity of a guide RNA (gRNA) corresponding to a nucleolytic protein is governed by the direct repeat sequence constituting the guide RNA (gRNA). Accordingly, when designing an optimal guide RNA for a nucleolytic protein, the direct repeating sequence is designed according to the origin of the nucleolytic protein.

따라서 본 발명에서 사용되는 엔지니어링된 gRNA는 유전자가위 핵산분해 단백질에 대해 특이적인 복합체 또는 구조물을 제작하는 데 사용될 수 있다. 예를 들어, 기능적 유사체인 Cas 효과기 단백질들은 각 단백질에 따른 엔지니어링된 gRNA와 함께 표적 핵산 또는 표적 유전자로 전달되어 목적하는 기능을 효과적으로 수행하게 된다. Therefore, the engineered gRNA used in the present invention can be used to construct complexes or constructs specific for nucleolytic proteins. For example, Cas effector proteins, which are functional analogs, are delivered to a target nucleic acid or target gene together with an engineered gRNA according to each protein to effectively perform a desired function.

그러므로 본 발명에 따른 엔지니어링된 가이드 RNA(gRNA)는 이러한 핵산분해 단백질들의 기능적 유사체 각각에 특이적으로 최대의 활성을 나타내도록 하기 위해 자연에서 발견되는 가이드 RNA(gRNA)에서 그 길이 및 서열의 변형을 허용한다. Therefore, the engineered guide RNA (gRNA) according to the present invention is modified in its length and sequence from the guide RNA (gRNA) found in nature in order to show the maximum activity specifically for each functional analogue of these nucleolytic proteins. allow

또한, 상기 엔지니어링된 가이드 RNA(gRNA)는 CRISPR/Cas 복합체의 형성 및 표적 서열에 성공적으로 결합하기 위해서 3'-말단에 U-rich tail을 추가하는 변형도 포함할 수 있다.In addition, the engineered guide RNA (gRNA) may also include a modification to add a U-rich tail to the 3'-end in order to successfully bind to the target sequence and form a CRISPR/Cas complex.

스캐폴드(Scaffold) 영역Scaffold area

본 발명에 따른 용어 "스캐폴드(Scaffold) 영역"은 가이드 RNA 중 핵산분해 단백질과 상호작용할 수 있는 부분을 통틀어 지칭하며, 자연계에서 발견되는 가이드 RNA의 부분 중 스페이서를 제외한 나머지 부분을 지칭할 수 있다. 상기 스캐폴드 영역은 tracrRNA 및 crRNA의 일부를 포함하며, 반드시 한 분자의 RNA를 지칭하는 것은 아니다. 상기 스캐폴드 영역은 다시 제1 영역, 제2 영역, 제3 영역, 제4 영역, 제5 영역, 및 제6 영역으로 세분화될 수 있다. 상기 세분화된 영역을 tracrRNA, crRNA 상에서 서술하면, 상기 제1 영역 내지 제4 영역은 tracrRNA에 포함되고, 상기 제5 영역 내지 상기 제6 영역은 crRNA, 구체적으로 crRNA 반복 서열 부분에 포함된다.The term "scaffold region" according to the present invention refers to a part of guide RNA capable of interacting with a nucleolytic protein as a whole, and may refer to the remaining parts of guide RNA found in nature, excluding spacers. . The scaffold region includes tracrRNA and parts of crRNA, and does not necessarily refer to one molecule of RNA. The scaffold area may be further subdivided into a first area, a second area, a third area, a fourth area, a fifth area, and a sixth area. When the subdivided regions are described on tracrRNA and crRNA, the first to fourth regions are included in tracrRNA, and the fifth to sixth regions are included in crRNA, specifically crRNA repeat sequence portions.

스페이서 서열(spacer sequence)spacer sequence

본 발명에 따른 용어 "스페이서 서열(spacer sequence)"은 본 발명에 따른 초소형 유전자가위(CRISPR/Cas) 시스템에서 표적 서열 부분과 혼성화되는 폴리뉴클레오타이드를 의미한다. 상기 스페이서 서열(spacer sequence)은 본 발명에 따른 유전자가위(CRISPR/Cas) 시스템에서 가이드 RNA의 crRNA의 3'-말단 부근의 10개 내지 50개의 연속된 뉴클레오타이드를 지칭한다. The term "spacer sequence" according to the present invention refers to a polynucleotide that hybridizes with a portion of a target sequence in the CRISPR/Cas system according to the present invention. The spacer sequence refers to 10 to 50 consecutive nucleotides near the 3'-end of the crRNA of the guide RNA in the CRISPR/Cas system according to the present invention.

상기 스페이서는 상기 초소형 유전자가위(CRISPR/Cas) 시스템을 사용하여 편집하고자 하는 표적 핵산 또는 표적 유전자의 표적 서열에 대응하여 설계된다. 즉, 상기 스페이서는 표적 핵산의 표적 서열에 따라 다양한 서열을 가질 수 있다. 본 명세서에서 스페이서 서열은 달리 명시되지 않는 한, 상기 초소형 유전자가위(CRISPR/Cas) 시스템에 포함된 crRNA 또는 엔지니어링된 crRNA 내의 스페이서 서열을 의미한다.The spacer is designed to correspond to a target sequence of a target nucleic acid or target gene to be edited using the CRISPR/Cas system. That is, the spacer may have various sequences depending on the target sequence of the target nucleic acid. In the present specification, a spacer sequence refers to a spacer sequence within a crRNA or an engineered crRNA included in the CRISPR/Cas system, unless otherwise specified.

tracrRNA 및 crRNAtracrRNA and crRNA

본 발명에 따른 용어 "tracrRNA 및 crRNA"는 CRISPR/Cas 기술 분야에서 통상의 기술자가 인식할 수 있는 의미를 모두 포함한다. 이는, 자연계에서 발견되는 듀얼 가이드 RNA의 각 분자를 지칭하는 용어로 사용되는 것이 일반적이지만, 상기 tracrRNA 및 crRNA를 링커로 연결한 싱글 가이드 RNA의 각 해당 부분을 지칭하는데도 사용될 수 있다. 달리 서술하지 않는 한, tracrRNA 및 crRNA라고만 기재하는 경우 CRISPR/Cas12f1 시스템을 구성하는 tracrRNA 및 crRNA를 의미한다.The terms "tracrRNA and crRNA" according to the present invention include all meanings that can be recognized by a person skilled in the art in the field of CRISPR/Cas technology. Although this term is generally used to refer to each molecule of dual guide RNA found in nature, it can also be used to refer to each corresponding part of single guide RNA in which the tracrRNA and crRNA are connected by a linker. Unless otherwise stated, when only tracrRNA and crRNA are described, it means tracrRNA and crRNA constituting the CRISPR/Cas12f1 system.

transactivating CRISPR RNA(tracrRNA)transactivating CRISPR RNA (tracrRNA)

본 발명에 따른 용어 "tracrRNA"는 crRNA와 함께 CRISPR/Cas 시스템의 가이드 RNA를 구성하는 중요한 구성요소이다. 본 명세서에서 tracrRNA라 함은, 달리 기재되지 않는 한, CRISPR/Cas12f1 시스템의 가이드 RNA를 구성하는 tracrRNA를 일컫는다. 상기 tracrRNA의 적어도 일부는 crRNA의 적어도 일부와 상보적으로 결합하여 이중 가닥을 형성할 수 있다. 더 구체적으로, 상기 tracrRNA의 일부 서열은 상기 crRNA에 포함된 CRISPR RNA 반복 서열의 전부 또는 일부와 상보적 서열을 가진다.The term "tracrRNA" according to the present invention is an important component constituting the guide RNA of the CRISPR/Cas system together with crRNA. In this specification, tracrRNA refers to tracrRNA constituting the guide RNA of the CRISPR/Cas12f1 system, unless otherwise specified. At least a portion of the tracrRNA may complementarily bind with at least a portion of the crRNA to form a double strand. More specifically, some sequences of the tracrRNA have a sequence complementary to all or part of the CRISPR RNA repeat sequence included in the crRNA.

CRISPR RNA(crRNA)CRISPR RNA (crRNA)

본 발명에 따른 용어 "CRISPR RNA(crRNA)"은 본 발명에 따른 CRISPR/Cas 시스템 내의 가이드 RNA(guide RNA)를 구성하는 중요한 구성요소이다. crRNA는 tracrRNA과 결합하는 CRISPR RNA 반복 서열 및 표적 유전자 서열을 인식하는 스페이서(Spacer) 서열을 포함한다. 즉, 스페이서 서열을 포함하는 crRNA는 표적 유전자 또는 표적 핵산에 결합하는 가이드 RNA(guide RNA)의 일부분이다.The term "CRISPR RNA (crRNA)" according to the present invention is an important component constituting the guide RNA in the CRISPR/Cas system according to the present invention. The crRNA includes a CRISPR RNA repeat sequence that binds to tracrRNA and a spacer sequence that recognizes a target gene sequence. That is, the crRNA containing the spacer sequence is part of a guide RNA that binds to a target gene or target nucleic acid.

듀얼 가이드 RNA(dual guide RNA, dual gRNA)Dual guide RNA (dual guide RNA, dual gRNA)

본 발명에 따른 용어 "듀얼 가이드 RNA"는 tracrRNA 및 crRNA가 별개의 RNA 분자를 이루고 있는 것을 의미한다. 상기 tracrRNA의 일부 및 상기 crRNA의 일부는 상보적으로 결합하여 이중가닥을 이룬다. 상기 듀얼 가이드 RNA는 상기 tracrRNA의 3'말단을 포함하는 일부 및 상기 crRNA의 CRISPR RNA 반복 서열을 포함하는 일부가 이중가닥을 형성할 수 있다.The term "dual guide RNA" according to the present invention means that tracrRNA and crRNA form separate RNA molecules. A portion of the tracrRNA and a portion of the crRNA complementarily combine to form a double strand. In the dual guide RNA, a portion including the 3' end of the tracrRNA and a portion including the CRISPR RNA repeat sequence of the crRNA may form a double strand.

싱글 가이드 RNA(single guide RNA, sgRNA)Single guide RNA (sgRNA)

본 발명에 따른 용어 "싱글 가이드 RNA(sgRNA)"는 가이드 RNA(guide RNA) 형성이 쉽도록 상기 tracrRNA 및 상기 crRNA를 링커로 연결한 한 가닥의 가이드 RNA(guide RNA) 분자를 의미한다. The term "single guide RNA (sgRNA)" according to the present invention refers to a single-stranded guide RNA molecule in which the tracrRNA and the crRNA are connected by a linker so that the guide RNA is easily formed.

본 발명에 따른 가이드 RNA(guide RNA)는 싱글 가이드 RNA일 수 있고, 이 경우 상기 싱글 가이드 RNA(guide RNA)는 상기 tracrRNA 및 스페이서 서열을 포함하는 crRNA를 모두 포함하는 한 분자의 RNA이다. The guide RNA according to the present invention may be a single guide RNA, and in this case, the single guide RNA is one molecule of RNA including both the tracrRNA and the crRNA including the spacer sequence.

본 명세서에서 제공되는 엔지니어링된 가이드 RNA(engineered sgRNA)는 싱글 가이드 RNA(sgRNA)일 수 있다. 상기 엔지니어링된 가이드 RNA(engineered sgRNA)는 본 발명에 따라 엔지니어링된 tracrRNA, 엔지니어링된 crRNA 및 U-rich tail을 모두 포함하는 한 분자의 RNA일 수 있다. The engineered guide RNA (engineered sgRNA) provided herein may be a single guide RNA (sgRNA). The engineered guide RNA (engineered sgRNA) may be one molecule of RNA including all of the engineered tracrRNA, engineered crRNA and U-rich tail according to the present invention.

링커(linker)linker

본 발명에 따른 용어 "링커(linker)"는 본 발명에서 두 개의 분자 또는 구성요소를 연결하는 연결자를 의미한다. 예를 들어, 엔지니어링된 Cas12f1 가이드 RNA는 한 분자의 싱글 가이드 RNA일 수 있는데, 이때 tracrRNA 제4영역의 3'-말단 및 crRNA 제5 영역의 5'-말단이 링커를 통해 연결될 수 있다. The term "linker" according to the present invention means a linker connecting two molecules or components in the present invention. For example, the engineered Cas12f1 guide RNA may be a single guide RNA of one molecule, wherein the 3'-end of the fourth region of tracrRNA and the 5'-end of the fifth region of crRNA may be connected through a linker.

또한, 본 발명에 따른 초소형 유전자가위 구조물은 아데닌 탈아미노화효소 단백질 또는 시토신 탈탈아미노화효소 단백질이 TnpB 유래의 분자량이 작은 핵산분해 단백질 또는 이들의 기능적 유사체에 링커로 연결될 수 있다. 상기 링커는 3개 이상의 RNA 또는 DNA일 수 있고, 4개 이상의 아미노산 일수 있다. 예를 들어, 상기 링커는 5'-GAAA-3' 또는 5'-SGGSSGGSSGSETPGTSESATPESSGGSSGGS-3' (서열번호 62), 5'-SGGSKRTADGSEFE-3' (서열번호 63), 5'-EASSPKKRKVEAS-3' (서열번호 64), 서열번호 132 (GGGGS)n, (G)n, 서열번호 133 (EAAAK)n, (GGS)n, 서열번호 134 SGSETPGTSESATPES, 서열번호 135 SGGS, (XP)n 또는 이들의 임의의 조합을 포함하는 것일 수 있다. In addition, in the miniaturized cleaving structure according to the present invention, an adenine deaminase protein or a cytosine deaminase protein may be linked to a TnpB-derived low-molecular-weight nucleolytic protein or a functional analog thereof by a linker. The linker may be 3 or more RNA or DNA, and may be 4 or more amino acids. For example, the linker is 5'-GAAA-3' or 5'-SGGSSGGSSGSETPGTSESATPESSGGSSGGS-3' (SEQ ID NO: 62), 5'-SGGSKRTADGSEFE-3' (SEQ ID NO: 63), 5'-EASSPKKRKVEAS-3' (SEQ ID NO: 62) SEQ ID NO: 64), SEQ ID NO: 132 (GGGGS)n, (G)n, SEQ ID NO: 133 (EAAAK)n, (GGS)n, SEQ ID NO: 134 SGSETPGTSESATPES, SEQ ID NO: 135 SGGS, (XP)n or any combination thereof It may contain.

approximately

본 발명에 따른 용어 "약"은 참조 양, 수준, 값, 수, 빈도, 퍼센트, 치수, 크기, 양, 중량 또는 길이에 대해 30, 25, 20, 15, 10, 9, 8, 7, 6, 5, 4, 3, 2 또는 1% 정도로 변하는 양, 수준, 값, 수, 빈도, 퍼센트, 치수, 크기, 양, 중량 또는 길이를 의미한다.In accordance with the present invention, the term "about" means 30, 25, 20, 15, 10, 9, 8, 7, 6 relative to a reference amount, level, value, number, frequency, percentage, dimension, size, amount, weight or length. , the amount, level, value, number, frequency, percentage, dimension, size, amount, weight, or length that varies by as much as 5, 4, 3, 2 or 1%.

작동 가능하게 연결된(operably linked)operably linked

본 발명에 따른 용어 "작동 가능하게 연결된"는 유전자 발현 기술에 있어서, 특정 구성이 다른 구성과 연결되어, 상기 특정 구성이 의도된 방식대로 발현하거나 기능할 수 있도록 연결되어 있는 것을 의미한다. 예를 들어, 프로모터 서열이 암호화 서열과 작동적으로 연결되었다고 할 때, 상기 프로모터가 상기 암호화 서열의 세포 내에서의 전사 및/또는 발현에 영향을 미칠 수 있도록 연결된 것을 의미한다. The term "operably linked" according to the present invention means that in gene expression technology, a specific component is linked to another component so that the specific component can express or function in an intended manner. For example, when a promoter sequence is said to be operably linked to a coding sequence, it means that the promoter is linked to affect transcription and/or expression of the coding sequence in a cell.

벡터(Vector)Vector

본 발명에 따른 용어 "벡터"는 달리 특정되지 않는 한, 유전 물질을 세포 내로 운반할 수 있는 모든 물질을 통틀어 일컫는다. 예를 들어, 벡터는 대상이 되는 유전 물질, 예를 들어 본 발명에 따른 초소형 염기교정 시스템의 이펙터 단백질을 암호화하는 핵산 및/또는 가이드 RNA를 암호화하는 핵산을 포함하는 DNA 분자일 수 있으나, 이에 제한되는 것은 아니다. Unless otherwise specified, the term "vector" according to the present invention refers collectively to all materials capable of delivering genetic material into cells. For example, the vector may be a target genetic material, for example, a DNA molecule including a nucleic acid encoding an effector protein and/or a nucleic acid encoding a guide RNA of the microscopy system according to the present invention, but is limited thereto. it is not going to be

핵 위치 신호(Nuclear Localization Signal, NLS) 서열Nuclear Localization Signal (NLS) sequence

본 발명에 따른 용어 "핵 위치 신호(Nuclear Localization Signal, NLS) 서열"은 핵 수송(nuclear transport) 작용으로 세포 핵 외부의 물질을 핵 내부로 수송할 때, 수송 대상인 단백질에 붙어 일종의 "태그(tag)" 역할을 하는 일정 길이의 펩티드 또는 그 서열을 의미한다. 예를 들어, 본 발명에 따른 초소형 염기교정 구조물 또는 이를 포함하는 시스템을 진핵 세포에서의 적용을 위해, CRISPR/핵산분해 단백질 및/또는 아데노신 탈아미노화효소 또는 시티딘 탈아미노화효소는 바람직하게는 NLS가 태그된다. The term "Nuclear Localization Signal (NLS) sequence" according to the present invention refers to a kind of "tag" attached to a protein to be transported when a material outside the cell nucleus is transported into the nucleus by nuclear transport. )" means a peptide or its sequence of a certain length that plays a role. For example, for application of the miniaturized base editing construct or system comprising the same according to the present invention in eukaryotic cells, CRISPR/nucleolytic proteins and/or adenosine deaminase or cytidine deaminase are preferably NLS is tagged.

구체적으로, 상기 NLS는 아미노산 서열 PKKKRKV(서열번호 65)를 갖는 SV40 바이러스 대형 T-항원의 NLS; 뉴클레오플라스민(nucleoplasmin)으로부터의 NLS 서열로써 KRPAATKKAGQAKKKK(서열번호 66)를 갖는 뉴클레오플라스민 이분(bipartite) NLS); 아미노산 서열 PAAKRVKLD(서열번호 67) 또는 RQRRNELKRSP(서열번호 68)를 갖는 c-myc NLS일 수 있다. 또한 hRNPA1 M9 NLS 서열; 임포틴-알파로부터의 IBB 도메인의 NLS 서열, 마이오마(myoma) T 단백질의 NLS 서열 및 인간 p53의 NLS 서열, 마우스 c-abl IV의 NLS 서열; 인플루엔자 바이러스 NS1의 NLS 서열, 간염 바이러스 델타 항원의 NLS 서열, 마우스 Mx1 단백질의 NLS 서열, 인간 폴리(ADP-리보스) 중합효소의 NLS 서열 또는 스테로이드 호르몬 수용체(인간) 글루코코르티코이드의 NLS 서열로부터 유래된 NLS 서열일 수 있으나, 이에 제한되지 않는다. Specifically, the NLS is the NLS of the SV40 virus large T-antigen having the amino acid sequence PKKKRKV (SEQ ID NO: 65); Nucleoplasmin bipartite NLS with KRPAATKKAGQAKKKK (SEQ ID NO: 66) as the NLS sequence from nucleoplasmin; It may be a c-myc NLS with the amino acid sequence PAAKRVKLD (SEQ ID NO: 67) or RQRRNELKRSP (SEQ ID NO: 68). Also hRNPA1 M9 NLS sequence; NLS sequence of IBB domain from importin-alpha, NLS sequence of myoma T protein and NLS sequence of human p53, NLS sequence of mouse c-abl IV; NLS derived from the NLS sequence of influenza virus NS1, the NLS sequence of hepatitis virus delta antigen, the NLS sequence of mouse Mx1 protein, the NLS sequence of human poly(ADP-ribose) polymerase or the NLS sequence of steroid hormone receptor (human) glucocorticoid It may be a sequence, but is not limited thereto.

NES(Nuclear Export Sequence) 서열Nuclear Export Sequence (NES) sequences

본 발명에 따른 용어 "NES(Nuclear Export Signal) 서열"은 핵 수송(nuclear transport) 작용으로 세포 핵 내부의 물질을 핵 외부로 수송할 때, 수송 대상인 단백질에 붙어 일종의 "태그(tag)"역할을 하는 일정 길이의 펩타이드 또는 이를 암호화하는 핵산 서열을 의미한다. The term "NES (Nuclear Export Signal) sequence" according to the present invention acts as a kind of "tag" attached to a protein to be transported when a substance inside the cell nucleus is transported to the outside of the nucleus by nuclear transport. It refers to a peptide of a certain length or a nucleic acid sequence encoding the same.

태그(Tag)Tag

본 발명에 따른 용어 "태그(Tag)"는 펩타이드, 또는 단백질의 추적 및/또는 분리정제를 쉽게 하기 위하여 부가되는 기능적 도메인을 통틀어 일컫는다. 구체적으로, 상기 태그는 히스티딘(His) 태그, V5 태그, FLAG 태그, 인플루엔자 헤마글루 티닌(HA) 태그, Myc 태그, VSV-G 태그 및 티오레독신(Trx) 태그 등의 태그 단백질, 녹색 형광 단백질(GFP), 황색 형광 단백질(YFP), 청록색 형관 단백질(CFP), 청색 형광 단백질(BFP), HcRED, DsRed 등의 자가형광 단백질, 및 글루타티온-S-트랜스 퍼라제(GST), 호스라디시(horseradish) 과산화효소(HRP), 클로람페니콜 아세틸트랜스퍼라제(CAT) 베타-갈락토시다제, 베타 -글루쿠로니다제, 루시퍼라제 등의 리포터 유전자를 포함하나, 이에 제한되는 것은 아니다. The term "tag" according to the present invention collectively refers to functional domains added to easily track and/or separate and purify peptides or proteins. Specifically, the tag is a tag protein such as histidine (His) tag, V5 tag, FLAG tag, influenza hemagglutinin (HA) tag, Myc tag, VSV-G tag and thioredoxin (Trx) tag, green fluorescent protein (GFP), yellow fluorescent protein (YFP), cyan fluorescent protein (CFP), blue fluorescent protein (BFP), autofluorescent proteins such as HcRED and DsRed, and glutathione-S-transferase (GST), horseradish ( horseradish) peroxidase (HRP), chloramphenicol acetyltransferase (CAT) beta-galactosidase, beta-glucuronidase, luciferase, and the like reporter genes.

자연계에서 발견되는found in nature

본 발명에 따른 용어 "자연계에서 발견되는"는 자연계에서 발견되는, 변형되지 않은 대상을 의미하며, 인위적인 변형이 가해진 "엔지니어링된 대상"과 구분하기 위해 사용된다. 상기 "자연계에서 발견되는" 유전자, 핵산, DNA, RNA 등은 야생형 및 mature form (active form)의 유전자, 핵산, DNA, RNA를 모두 포괄하는 개념으로 사용된다. The term "found in nature" according to the present invention means an unmodified object found in nature, and is used to distinguish it from an "engineered object" artificially modified. The gene, nucleic acid, DNA, RNA, etc. "found in nature" is used as a concept encompassing both wild-type and mature form (active form) genes, nucleic acids, DNA, and RNA.

엔지니어링된(engineered)engineered

본 발명에 따른 용어 "엔지니어링된(engineered)"은 자연계에 이미 존재하는 구성을 가진 물질, 분자 등과 구분하기 위해 사용하는 용어로, 상기 물질, 분자 등에 인위적인 변형이 가해진 것을 의미한다. 예를 들어, "엔지니어링된 가이드 RNA(engineered guide RNA)"의 경우, 자연계에 존재하는 가이드 RNA의 구성에 인위적인 변경이 가해진 가이드 RNA를 의미한다. The term "engineered" according to the present invention is a term used to distinguish materials, molecules, etc. having a configuration that already exists in nature, and means that artificial transformation has been applied to the materials, molecules, etc. For example, in the case of "engineered guide RNA", it means a guide RNA in which artificial changes have been made to the structure of guide RNA existing in nature.

A,T,C,G, 및 UA, T, C, G, and U

본 발명에 따른 용어 "T, C, G 및 U"는 문맥 및 기술에 따라 DNA 또는 RNA 상에서 염기(Base), 뉴클레오사이드(Nucleoside) 또는 뉴클레오타이드(Nucleotide)로 적절히 해석될 수 있다. The terms "T, C, G, and U" according to the present invention may be appropriately interpreted as a base, nucleoside, or nucleotide in DNA or RNA, depending on context and technology.

예를 들어, 염기(Base)를 의미하는 경우는 각각 아데닌(adenine; A), 티민(thymine; T), 시토신(cytosine; C), 구아닌(guanine; G) 또는 우라실(uracil; U) 자체로 해석될 수 있고, 뉴클레오사이드(Nucleoside)를 의미하는 경우는 각각 아데노신(adenosine; A), 티미딘(thymidine; T), 시티딘(cytidine; C), 구아노신(guanosine; G) 또는 유리딘(uridine; U)으로 해석될 수 있다. 핵산 서열에서 뉴클레오타이드(Nucleotide)를 의미하는 경우는 상기 각각의 뉴클레오사이드를 포함하는 뉴클레오타이드를 의미하는 것으로 해석되어야 한다.For example, when meaning a base, adenine (A), thymine (T), cytosine (C), guanine (G), or uracil (U) per se, respectively. can be interpreted, and when meaning a nucleoside, adenosine (A), thymidine (T), cytidine (C), guanosine (G) or uridine, respectively (uridine; U). When referring to a nucleotide in a nucleic acid sequence, it should be interpreted as meaning a nucleotide including each of the above nucleosides.

본 발명에서 사용되는 모든 기술용어는, 달리 정의되지 않는 이상, 이 기술 분야의 통상의 기술자가 인식할 수 있는 의미를 모두 포함하고, 일반적으로 이해하는 바와 같은 의미로 사용되며, 문맥에 따라 적절히 해석될 수 있다. All technical terms used in the present invention, unless otherwise defined, include all meanings that can be recognized by a person skilled in the art, are used with the same meaning as commonly understood, and are appropriately interpreted according to the context. It can be.

또한, 본 명세서에는 바람직한 방법이나 시료가 기재되나, 이와 유사하거나 동등한 것들도 본 발명의 범주에 포함된다.In addition, although preferred methods or samples are described in this specification, those similar or equivalent thereto are also included in the scope of the present invention.

[염기교정을 위한 초소형 염기교정(Base editing) 시스템][Subminiature Base Editing System for Base Editing]

본 발명에서는 염기교정에 있어 우수한 활성을 나타내고, CRISPR/Cas9 시스템에 비하여 이펙터 단백질의 크기가 현저히 작은 특징을 가지는 초소형 염기교정 시스템(Hypercompact base editing systems)을 제공한다. The present invention provides a hypercompact base editing system that exhibits excellent activity in base editing and has a remarkably small size of effector protein compared to the CRISPR/Cas9 system.

이러한 특징은 기존에 연구된 대부분의 Cas 엔도뉴클레아제 및 이를 포함하는 기존의 아데닌 염기교정 유전자가위(ABEs) 또는 시토신 염기교정 유전자가위(CBEs)가 그 크기로 인해서, 세포 내 전달 매개체로써 FDA 승인받은 아데노-연관 바이러스(AAV) 벡터에 탑재하는 것에 대한 한계점을 해결하는데 중요한 요소이다. This feature is due to the size of most of the previously studied Cas endonucleases and the existing adenine base editing gene scissors (ABEs) or cytosine base editing gene scissors (CBEs) including them, FDA approval as an intracellular delivery medium. This is an important factor in addressing the limitations of loading into received adeno-associated virus (AAV) vectors.

나아가 상기 초소형 염기교정(Base editing) 시스템은 표적 핵산 또는 표적 유전자의 특정 염기를 특이적으로 교정하는 교정 특이성 및 교정 효율이 높으므로, 본 발명에 따른 초소형 염기교정 시스템은 유전자 관련 질병의 치료제로서 그 적용 범위가 넓다. Furthermore, since the miniaturized base editing system specifically corrects a specific base of a target nucleic acid or target gene and has high editing specificity and editing efficiency, the miniaturized base editing system according to the present invention can be used as a therapeutic agent for gene-related diseases. The scope of application is wide.

이하, 본 발명에서 제공하는 초소형 염기교정 시스템(Hypercompact base editing systems)의 각 구성요소를 상세히 설명한다. Hereinafter, each component of the hypercompact base editing systems provided by the present invention will be described in detail.

1. Cas12f1 단백질1. Cas12f1 protein

자연계에는 다양한 종류의 CRISPR/Cas 단백질이 존재하고, 현재도 계속 새로운 CRISPR/Cas 시스템이 발견되고 있다. 이 중 본 발명에 따른 초소형 염기교정(Base editing) 시스템에 포함되는 핵산분해 단백질은 Class 2, type V CRISPR/핵산분해 단백질 중 V-F 서브타입에 속하는 Cas12f1 단백질을 포함할 수 있다. Various types of CRISPR/Cas proteins exist in nature, and new CRISPR/Cas systems are still being discovered. Among them, the nucleolytic protein included in the subminiature base editing system according to the present invention may include Cas12f1 protein belonging to the V-F subtype of Class 2, type V CRISPR/nucleolytic proteins.

Cas12f1 단백질은 이량체의 구조를 형성하는데, 이는 크게 REC 로브(REC lobe) 및 nuclease 로브(NUC lobe)로 나눌 수 있다. 상기 REC 로브는 이량체를 구성하는 하나의 Cas12f1 단백질의 WED 도메인, ZF 도메인 및 REC 도메인과 다른 하나의 Cas12f1 단백질의 WED 도메인, ZF 도메인 및 REC 도메인으로 구성된다. The Cas12f1 protein forms a dimer structure, which can be largely divided into a REC lobe and a nuclease lobe (NUC lobe). The REC lobe is composed of the WED domain, ZF domain, and REC domain of one Cas12f1 protein constituting a dimer, and the WED domain, ZF domain, and REC domain of another Cas12f1 protein.

상기 nuclease 로브는 이량체를 구성하는 하나의 Cas12f1 단백질의 RuvC 도메인 및 TNB 도메인과 다른 하나의 Cas12f1 단백질의 RuvC 도메인 및 TNB 도메인으로 구성된다. 상기 Cas12f1 단백질의 각 도메인의 전부 또는 일부는 각각 Cas12f1 가이드 RNA의 스캐폴드 영역의 특정 부분을 인식한다. amino-terminal domain(NTD) 및 carboxy-terminal domin(CTD)로 나뉘며, 상기 두 도메인이 링커 루프(linker loop)를 통해 연결되어 있는 구조이다. 상기 NTD는 wedge(WED), recognition(REC), 및 zinc finger (ZF) 도메인으로 구성되며, 상기 CTD는 또 다른 ZF 도메인 및 RuvC 도메인으로 구성된다. The nuclease lobe is composed of the RuvC domain and TNB domain of one Cas12f1 protein and the RuvC domain and TNB domain of another Cas12f1 protein constituting a dimer. All or part of each domain of the Cas12f1 protein recognizes a specific part of the scaffold region of the Cas12f1 guide RNA, respectively. It is divided into an amino-terminal domain (NTD) and a carboxy-terminal domain (CTD), and has a structure in which the two domains are connected through a linker loop. The NTD is composed of wedge (WED), recognition (REC), and zinc finger (ZF) domains, and the CTD is composed of another ZF domain and a RuvC domain.

특히, 본 발명은 기존에 많은 연구가 진행된 Cas9 단백질이 아닌, 그 크기가 작은 Cas12f1 단백질을 사용하는 것을 특징으로 한다. 상기 Cas12f1 단백질은 존재하는 핵산분해 단백질 중 분자량이 가장 작은 그룹에 속하며, 엔지니어링된 짧은 가이드 RNA와 복합체를 형성하여 표적 핵산 또는 표적 유전자를 표적화하여 편집하는 탁월한 효과를 가지고 있으므로, 초소형의 염기교정 시스템(Hypercompact base editing systems)을 제작하는데 있어 큰 장점이 있다. In particular, the present invention is characterized by using the Cas12f1 protein, which has a small size, rather than the Cas9 protein, which has been extensively studied. The Cas12f1 protein belongs to the group with the smallest molecular weight among existing nucleolytic proteins and has an excellent effect of targeting and editing a target nucleic acid or target gene by forming a complex with an engineered short guide RNA. Hypercompact base editing systems) have great advantages.

또한, Cas12f1 단백질의 작은 크기는 염기교정(Base editing)을 위한 아데노신 탈아미노화효소 또는 시티딘 탈아미노화효소와의 융합 단백질 구조물의 제작에 있어서도 제약사항을 크게 해소할 수 있다. In addition, the small size of the Cas12f1 protein can greatly relieve limitations in the production of fusion protein constructs with adenosine deaminase or cytidine deaminase for base editing.

게다가, 상기 Cas12f1 단백질은 5'-NGG-3’를 PAM으로 갖는 Cas9과 달리 5'-TTTTA-3’또는 5'-TTTTG-3’를 PAM으로 갖기 때문에, 티민(T)이 많은 서열을 표적 핵산 또는 표적 유전자로 선택할 수 있게 하여, 유전체 편집을 위한 핵산분해 단백질의 선택 폭을 넓혀준다.In addition, since the Cas12f1 protein has 5'-TTTTA-3' or 5'-TTTTG-3' as PAM, unlike Cas9 having 5'-NGG-3' as PAM, it targets sequences with a lot of thymine (T). By allowing selection of nucleic acids or target genes, the selection of nucleolytic proteins for genome editing is broadened.

일 구현예로, 상기 Cas12f1 단백질은 야생형의 Cas12f1 단백질일 수 있다. 일 구현예로, 상기 Cas12f1 단백질은 선행연구(Harrington et al., Programmed DNA destruction by Hypercompact CRISPR-Cas14 enzymes, Science 362, 839-842 (2018))에서 Cas14로 명명된 효과기 단백질(effector protein) 중, Cas14a, Cas14b, 및 Cas14c 변이체를 포함하는 Cas14 패밀리에서 유래한 것일 수 있다. In one embodiment, the Cas12f1 protein may be a wild-type Cas12f1 protein. In one embodiment, the Cas12f1 protein is an effector protein named Cas14 in a previous study (Harrington et al., Programmed DNA destruction by Hypercompact CRISPR-Cas14 enzymes, Science 362, 839-842 (2018)), It may be from the Cas14 family, which includes Cas14a, Cas14b, and Cas14c variants.

일 구현예로, 본 발명에 따른 초소형 염기교정(gene editing) 시스템의 핵산분해 단백질은 Uncultured archaeon 유래의 Cas14a1(Cas12f1과 동일함) 단백질일 수 있다. 또한 상기 Cas14a1 단백질의 N-말단에 1개 이상 또는 28개 이하의 아미노산이 추가로 부가된 Cas12f1 단백질 변이체(variant)일 수 있다. In one embodiment, the nucleolytic protein of the miniaturized gene editing system according to the present invention may be Cas14a1 (identical to Cas12f1) protein derived from uncultured archaeon. In addition, it may be a Cas12f1 protein variant in which one or more or 28 or less amino acids are additionally added to the N-terminus of the Cas14a1 protein.

일 예로, IS200/IS605 family의 transposase accessory protein TnpB 단백질일 수 있으며, 보다 바람직하게는, 서열번호 7 내지 10 중 어느 하나의 아미노산 서열을 포함하는 단백질일 수 있다. For example, it may be a transposase accessory protein TnpB protein of the IS200/IS605 family, and more preferably, it may be a protein comprising any one of the amino acid sequences of SEQ ID NOs: 7 to 10.

또한, 본 발명에 따른 초소형 염기교정 시스템(Hypercompact base editing systems)에 포함된 Cas12f1 단백질은 야생형의 Cas12f1 단백질과 동일한 기능을 가지거나, 상기 야생형의 Cas12f1 단백질과 비교할 때, 기능이 변경된 것일 수 있다. 보다 구체적으로, 상기 변경은 전부 또는 일부 기능의 변형, 전부 또는 일부 기능의 상실 및/또는 부가적인 기능의 추가를 포함한다. 상기 Cas12f1 단백질은 통상의 기술자가 CRISPR/Cas 시스템의 핵산분해 단백질에 적용할 수 있는 변경이라면, 특별히 제한되지 않는다.In addition, the Cas12f1 protein included in the hypercompact base editing systems according to the present invention may have the same function as the wild-type Cas12f1 protein or may have a modified function compared to the wild-type Cas12f1 protein. More specifically, the alteration includes modification of all or part function, loss of all or part function, and/or addition of additional function. The Cas12f1 protein is not particularly limited as long as it is a modification that a person skilled in the art can apply to the nucleolytic protein of the CRISPR/Cas system.

일 구현예로, 상기 Cas12f1 단백질은 표적 핵산의 이중가닥 중 하나의 가닥만 절단하도록 변경된 것일 수 있다. 절단하지 않는 가닥에 대해 염기 교정(Base editing) 또는 프라임 교정(Prime editing)을 할 수 있도록 변경된 것을 포함한다.In one embodiment, the Cas12f1 protein may be modified to cleave only one of the double strands of the target nucleic acid. It includes those modified to allow base editing or prime editing for strands that are not cut.

보다 바람직하게, 본 발명에 따른 초소형 염기교정 시스템(Hypercompact base editing systems)은 DNA 이중가닥을 절단하는 활성보다는 염기 교정을 수행하기 위한 것이므로, 본 발명에 따른 초소형 염기교정 시스템에 포함되는 Cas12f1 단백질은 표적 핵산 또는 표적 유전자의 이중가닥 전부를 절단할 수 없도록 변경된 dead 형태이거나 nick 형태의 변이체, 다시 말해 dCas12f1 또는 nCas12f1가 사용된다. More preferably, since the hypercompact base editing systems according to the present invention perform base editing rather than the activity of cutting DNA double strands, the Cas12f1 protein included in the hypercompact base editing system according to the present invention is the target. A dead form or a nick form variant, in other words, dCas12f1 or nCas12f1, which is modified so that all double strands of the nucleic acid or target gene cannot be cut, is used.

일 구체예로, 상기 데드(dead) 형태 변이체 dCas12f1은 서열번호 1의 아미노산 서열을 포함하는 Cas12f1 단백질에서 326번째 Asp(D)가 Ala(A)로 치환된 것일 수 있다. 또한, 상기 서열번호 1의 아미노산 서열을 포함하는 Cas12f1 단백질에서 422번째 Glu(E)가 Ala(A)로, 490번째 Arg(R)이 Ala(A)로, 510번째 Asp(D)가 Ala(A)로 각각 치환된 것일 수 있다. 구체적으로, 상기 dead Cas12f1 단백질은 서열번호 3 내지 서열번호 6 중 선택된 어느 하나의 아미노산 서열을 포함한다. 바람직하게, 상기 dead Cas12f1 단백질은 서열번호 3 내지 서열번호 6 중 선택된 어느 하나의 아미노산로 이루어진 것이다.In one embodiment, the dead form variant dCas12f1 may be one in which Asp (D) at position 326 in the Cas12f1 protein having the amino acid sequence of SEQ ID NO: 1 is substituted with Ala (A). In addition, in the Cas12f1 protein comprising the amino acid sequence of SEQ ID NO: 1, the 422nd Glu (E) is Ala (A), the 490th Arg (R) is Ala (A), and the 510th Asp (D) is Ala ( A) may be substituted with each. Specifically, the dead Cas12f1 protein includes any one amino acid sequence selected from SEQ ID NO: 3 to SEQ ID NO: 6. Preferably, the dead Cas12f1 protein is composed of any one amino acid selected from SEQ ID NO: 3 to SEQ ID NO: 6.

또한, 일 구현예로, 상기 Cas12f1 단백질은 Cas12f1의 기능성 유사체로써 TnpB 유래의 분자량이 작은 핵산분해 단백질의 데드(dead) 형태 변이체도 포함한다. 이들은 각각 서열번호 7 내지 서열번호 10 중 선택된 어느 하나의 아미노산 서열로 구성된 단백질에서, 상기 서열번호 1의 아미노산 서열을 포함하는 Cas12f1 단백질에서의 326번째 Asp(D)가 Ala(A)로, 422번째 Glu(E)가 Ala(A)로, 490번째 Arg(R)이 Ala(A)로, 510번째 Asp(D)가 Ala(A)로 각각 치환된 것과 마찬가지로 대응되는 치환을 가진다. In addition, in one embodiment, the Cas12f1 protein is a functional analog of Cas12f1 and includes a dead form variant of a low molecular weight nucleolytic protein derived from TnpB. In the protein consisting of any one amino acid sequence selected from SEQ ID NO: 7 to SEQ ID NO: 10, the 326th Asp (D) in the Cas12f1 protein containing the amino acid sequence of SEQ ID NO: 1 is Ala (A), and the 422nd Glu(E) is replaced with Ala(A), Arg(R) at position 490 is replaced with Ala(A), and Asp(D) at position 510 is replaced with Ala(A), respectively.

일 구체예로, 상기 데드(dead) 형태의 TnpB 유래의 분자량이 작은 핵산분해 단백질은 서열번호 11 내지 서열번호 18 중 선택된 어느 하나의 아미노산 서열을 포함하는 단백질일 수 있다. 바람직하게, 상기 데드(dead) 형태의 TnpB 유래의 분자량이 작은 핵산분해 단백질은 서열번호 11 내지 서열번호 18 중 선택된 어느 하나의 아미노산 서열로 이루어진 단백질이다.In one embodiment, the dead form of TnpB-derived nucleolytic protein having a low molecular weight may be a protein comprising any one amino acid sequence selected from SEQ ID NO: 11 to SEQ ID NO: 18. Preferably, the dead form of TnpB-derived nucleolytic protein having a small molecular weight is a protein composed of any one amino acid sequence selected from SEQ ID NOs: 11 to 18.

일 실시형태에서, 본 발명의 초소형 염기교정 시스템(Hypercompact base editing systems)은 표적 핵산 또는 표적 유전자의 표적 좌위에서 아데닌 또는 시토신을 다른 염기로 변형시키는 것이므로, 상기 표적 좌위가 세포의 핵 내에 위치하는 것을 특징으로 한다. 이에, 본 발명에서 사용되는 핵산분해 단백질 및/또는 탈아미노화효소 단백질에는 상기 단백질을 핵 내로 위치시키는 핵 위치 신호 서열(nuclear localization signal: NLS)을 1개 또는 2개 이상 포함한다. In one embodiment, since the hypercompact base editing systems of the present invention modify adenine or cytosine to other bases at a target locus of a target nucleic acid or target gene, the target locus is located in the nucleus of a cell. to be characterized Accordingly, the nucleolytic protein and/or deaminase protein used in the present invention includes one or two or more nuclear localization signal sequences (NLS) that localize the protein into the nucleus.

일 예로, 하나 이상의 NLS는 진핵 세포의 핵에서 검출 가능한 양으로 핵산분해 단백질의 핵 내로의 표적을 유도하는 데 충분하다. 그 활성의 강도는 핵산분해 단백질 내 NLS의 수, 사용되는 특정 NLS(들) 또는 이들 인자의 조합물로부터 유도될 수 있다. In one example, one or more NLSs are sufficient to direct a nucleolytic protein to its target into the nucleus in an amount detectable in the nucleus of a eukaryotic cell. The strength of its activity can be derived from the number of NLSs in the nucleolytic protein, the specific NLS(s) used, or a combination of these factors.

일 구체예로, 단백질은 아미노-말단에서 또는 근처에서 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10개 이상의 NLS, 카복시-말단에서 또는 근처에서 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10개 이상의 NLS, 또는 이들의 조합(예를 들어, 아미노-말단에서 0 또는 적어도 하나 이상의 NLS 또는 카복시 말단에서 0 또는 하나 이상의 NLS)을 포함한다. 하나 초과의 NLS가 존재할 때, 단일 NLS가 하나 초과의 복제물에 존재하고/하거나, 하나 초과의 복제물에 존재하는 하나 초과의 다른 NLS와 조합하여 존재할 수 있도록, 각각은 다른 것과 독립적으로 선택될 수 있다. In one embodiment, the protein has at or near the amino-terminus about 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 or more NLS, at or near the carboxy-terminus about 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 or more NLSs, or combinations thereof (e.g., zero or at least one NLS at the amino-terminus or zero or one or more NLSs at the carboxy-terminus) do. When more than one NLS is present, each can be selected independently of the others, such that a single NLS can be present in more than one copy and/or present in combination with more than one other NLS present in more than one copy. .

일 실시형태에서, 본 발명과 관련하여 사용되는 NLS는 단백질에 대해 이종성으로 하기의 NLS가 예시되나 이에 제한되는 것은 아니다. In one embodiment, the NLS used in connection with the present invention is heterologous to the protein, exemplified by, but not limited to, the following NLS.

일 예로, 상기 NLS는 아미노산 서열 PKKKRKV(서열번호 65)를 갖는 SV40 바이러스 대형 T-항원의 NLS; 뉴클레오플라스민(nucleoplasmin)으로부터의 NLS 서열로써 KRPAATKKAGQAKKKK(서열번호 66)를 갖는 뉴클레오플라스민 이분(bipartite) NLS; 아미노산 서열 PAAKRVKLD(서열번호 67) 또는 RQRRNELKRSP(서열번호 68)를 갖는 c-myc NLS일 수 있다. 또한 hRNPA1 M9 NLS 서열; 임포틴-알파로부터의 IBB 도메인의 NLS 서열; 마이오마(myoma) T 단백질의 NLS 서열; 인간 p53의 NLS 서열; 마우스 c-abl IV의 NLS 서열; 인플루엔자 바이러스 NS1의 NLS 서열; 간염 바이러스 델타 항원의 NLS 서열; 마우스 Mx1 단백질의 NLS 서열; 인간 폴리(ADP-리보스) 중합효소의 NLS 서열; 또는 스테로이드 호르몬 수용체(인간) 글루코코르티코이드의 NLS 서열;로부터 유래된 NLS 서열일 수 있다. In one embodiment, the NLS is the NLS of the SV40 virus large T-antigen having the amino acid sequence PKKKRKV (SEQ ID NO: 65); Nucleoplasmin bipartite NLS with KRPAATKKAGQAKKKK (SEQ ID NO: 66) as the NLS sequence from nucleoplasmin; It may be a c-myc NLS with the amino acid sequence PAAKRVKLD (SEQ ID NO: 67) or RQRRNELKRSP (SEQ ID NO: 68). Also hRNPA1 M9 NLS sequence; NLS sequence of IBB domain from importin-alpha; NLS sequence of myoma T protein; NLS sequence of human p53; NLS sequence of mouse c-abl IV; NLS sequence of influenza virus NS1; NLS sequence of hepatitis virus delta antigen; NLS sequence of mouse Mx1 protein; NLS sequence of human poly(ADP-ribose) polymerase; or the NLS sequence of a steroid hormone receptor (human) glucocorticoid;

일 실시형태에서, 본 발명에서 제공하는 초소형 염기교정(Base editing) 시스템은 Cas12f1 단백질에 탈아미노화효소(deaminase)가 결합된 초소형 염기교정 구조물을 포함할 수 있다. 이때, 상기 초소형 염기교정 구조물은 야생형 또는 변형된 Cas12f1 단백질에 아데노신 탈아미노화효소(adenosine deaminase) 및/또는 시티딘 탈아미노화효소(cytidine deaminase)가 융합된 것일 수 있다. 여기서 융합 단백질의 3'-말단에 핵 위치 신호 서열(NLS)를 1개 또는 2개 이상 포함할 수 있다. 또한 필요한 태그를 포함할 수 있다. In one embodiment, the subminiature base editing system provided by the present invention may include a subminiature base editing construct in which a deaminase is coupled to Cas12f1 protein. In this case, the subminiature base editing construct may be a fusion of adenosine deaminase and/or cytidine deaminase to wild-type or modified Cas12f1 protein. Here, one or two or more nuclear localization signal sequences (NLS) may be included at the 3'-end of the fusion protein. You can also include any tags you need.

일 예로, 상기 아데노신 탈아미노화효소(adenosine deaminase)는 대장균(E. coli) 유래의 tRNA adenosine deaminase(TadA)인 것으로, 단량체 TadA 또는 eTadA, 이종이량체(heterodimer) TadA-eTadA 구조 또는 eTadA-TadA 구조일 수 있다. 상기 아데노신 탈아미노화효소는 링커로 연결될 수 있다. 또한, 상기 시티딘 탈아미노화효소(cytidine deaminase)는 APOBEC1, APOBEC3A, APOBEC3B, CAD, AID 또는 PmCDA1인 것으로, 상기 APOBEC1, APOBEC3A, APOBEC3B, CAD, AID 또는 PmCDA1의 N-말단 또는 C-말단에 UGI(Uracil Glycosylase Inhibitor)를 각각 1개 또는 2개 이상 결합된 것일 수 있다.For example, the adenosine deaminase is E. coli-derived tRNA adenosine deaminase (TadA), monomeric TadA or eTadA, heterodimer TadA-eTadA structure or eTadA-TadA may be a rescue. The adenosine deaminase may be connected by a linker. In addition, the cytidine deaminase (cytidine deaminase) is APOBEC1, APOBEC3A, APOBEC3B, CAD, AID or PmCDA1, and the APOBEC1, APOBEC3A, APOBEC3B, CAD, AID or PmCDA1 is attached to the N-terminus or C-terminus of UGI. (Uracil Glycosylase Inhibitor) may be combined with one or two or more, respectively.

다른 일 예로, 본 발명에 따른 초소형 염기교정 시스템에서 상기 탈아미노화효소(deaminase) 또는 상기 핵산분해 단백질의 N-말단 또는 C-말단에 UGI(Uracil Glycosylase Inhibitor)를 각각 1개 또는 2개 이상 포함하고, 여기서 상기 탈아미노화효소(deaminase)는 시티딘 탈아미노화효소(cytidine deaminase)를 포함할 수 있다. As another example, in the miniaturized base editing system according to the present invention, one or more UGIs (Uracil Glycosylase Inhibitors) are included at the N-terminus or C-terminus of the deaminase or the nucleolytic protein, respectively. And, where the deaminase may include cytidine deaminase.

본 발명에 따른 Cas12f1 단백질에 탈아미노화효소(deaminase)가 결합된 초소형 염기교정 구조물(Hypercompact base editing constructs)의 예시적인 모듈이 도 1에 구체적으로 도시화하였다.Exemplary modules of hypercompact base editing constructs in which deaminase is coupled to Cas12f1 protein according to the present invention are specifically illustrated in FIG. 1 .

또한, 추가적으로, 상기 Cas12f1 단백질 또는 이의 기능적 유사체에 탈아미노화효소(deaminase)가 결합된 융합 단백질은 세포 내의 유전자 발현 과정에 관여할 수 있는 다양한 효소가 융합된 것을 포함한다. 이때, 상기 효소가 융합된 Cas12f1 단백질은 세포 내 유전자 발현에 다양한 양적, 질적 변화를 초래할 수 있다. Additionally, a fusion protein in which a deaminase is bound to the Cas12f1 protein or a functional analogue thereof includes a fusion of various enzymes that may be involved in gene expression in cells. At this time, the Cas12f1 protein to which the enzyme is fused can cause various quantitative and qualitative changes in gene expression in cells.

일 구현예로, 상기 추가적으로 결합되는 다양한 효소는 DNMT, TET, KRAB, DHAC, LSD, p300, Moloney Murine Leukemia Virus(M-MLV) 역전사 효소 또는 그 변이체일 수 있다. 이 때, 상기 역전사 효소가 융합된 Cas12f1 단백질 또는 이의 기능적 유사체는 프라임 에디터로도 기능할 수 있다. In one embodiment, the various enzymes to be additionally coupled may be DNMT, TET, KRAB, DHAC, LSD, p300, Moloney Murine Leukemia Virus (M-MLV) reverse transcriptase or variants thereof. At this time, the Cas12f1 protein to which the reverse transcriptase is fused or a functional analog thereof can also function as a prime editor.

2. Cas12f1 단백질 - PAM 서열2. Cas12f1 protein - PAM sequence

본 발명에 따른 초소형 염기교정(Base Editing) 시스템이 표적 핵산 또는 표적 유전자의 표적 좌위에 위치하고 정확하게 염기교정을 하기 위해서는 하기의 두 가지 조건이 필요하다. 먼저, 표적 핵산 또는 표적 유전자 내에 Cas12f1 단백질이 인식할 수 있는 일정 길이의 염기 서열이 있어야 한다. 또한, 상기 일정 길이의 염기 서열 주변에 가이드 RNA(gRNA)에 포함된 스페이서 서열과 상보적으로 결합할 수 있는 서열이 있어야 한다. In order for the base editing system according to the present invention to be located at the target locus of a target nucleic acid or target gene and perform base editing accurately, the following two conditions are required. First, there must be a nucleotide sequence of a certain length that can be recognized by the Cas12f1 protein in the target nucleic acid or target gene. In addition, there must be a sequence capable of complementary binding with the spacer sequence included in the guide RNA (gRNA) around the nucleotide sequence of the predetermined length.

다시 말해, Cas12f1 단백질이 상기 일정 길이의 염기서열을 인식하고, 상기 스페이서 서열 부분이 상기 일정 길이의 염기서열 주변 서열 부분과 상보적으로 결합하는 경우에, 표적 핵산 또는 표적 유전자의 표적 염기를 정확하게 교정할 수 있다. 이때, 상기 Cas12f1 단백질에 의해 인식되는 일정 길이의 염기 서열을 프로토스페이스 인접 모티프(Protospacer Adjacent Motif, PAM)서열이라 한다. 상기 PAM 서열은 상기 Cas12f1 단백질에 따라 정해지는 고유한 서열이며, 상기 CRISPR/Cas12f1 복합체의 표적 서열을 결정할 때, 상기 PAM 서열과 인접한 서열 내에서 상기 표적 서열을 결정해야 한다는 제약이 따른다.In other words, when the Cas12f1 protein recognizes the nucleotide sequence of the predetermined length and the spacer sequence portion complementarily binds to the sequence portion around the nucleotide sequence of the predetermined length, the target base of the target nucleic acid or target gene is accurately corrected. can do. At this time, the nucleotide sequence of a certain length recognized by the Cas12f1 protein is referred to as a protospacer adjacent motif (PAM) sequence. The PAM sequence is a unique sequence determined according to the Cas12f1 protein, and when determining the target sequence of the CRISPR/Cas12f1 complex, there is a constraint that the target sequence must be determined within a sequence adjacent to the PAM sequence.

본 발명에 따른 상기 Cas12f1 단백질의 PAM 서열은 T-rich 서열일 수 있다. 보다 구체적으로, 상기 Cas12f1 단백질의 PAM 서열은 5'-말단에서 3'-말단 순서로, TTTN일 수 있다. 이때, 상기 N은 디옥시티미딘(T), 디옥시아데노신(A), 디옥시사이티딘(C), 또는 디옥시구아노신(G) 중 하나이다. The PAM sequence of the Cas12f1 protein according to the present invention may be a T-rich sequence. More specifically, the PAM sequence of the Cas12f1 protein may be TTTN in order from the 5'-end to the 3'-end. In this case, N is one of deoxythymidine (T), deoxyadenosine (A), deoxycytidine (C), or deoxyguanosine (G).

일 구현예로, 상기 Cas12f1 단백질의 PAM 서열은 5'-말단에서 3'-말단 순서로, TTTA, TTTT, TTTC 또는 TTTG일 수 있다. 보다 바람직하게, 상기 Cas12f1 단백질의 PAM 서열은 5'-말단에서 3'-말단 순서로 TTTA 또는 TTTG일 수 있다. In one embodiment, the PAM sequence of the Cas12f1 protein may be TTTA, TTTT, TTTC or TTTG in order from 5'-end to 3'-end. More preferably, the PAM sequence of the Cas12f1 protein may be TTTA or TTTG in order from 5'-end to 3'-end.

또한 일 구현예로, 상기 Cas12f1 단백질의 PAM 서열은 야생형 Cas12f1 단백질의 PAM 서열과는 다른 것일 수 있다.Also, in one embodiment, the PAM sequence of the Cas12f1 protein may be different from the PAM sequence of the wild-type Cas12f1 protein.

3. 초소형 염기교정(Base editing) 시스템을 위한 엔지니어링된 가이드 RNA3. Engineered guide RNAs for ultra-small base editing systems

본 발명은 종래 기술의 Cas9이 가지는 크기에 따른 한계점을 극복하기 위해 도출된 것이다. The present invention was derived to overcome the size-dependent limitations of Cas9 of the prior art.

이에, 본 발명자들은 본 발명의 초소형 염기교정(Base editing) 시스템에 포함되는 핵산분해 단백질을 분자량이 작은 Cas12f1 단백질 또는 TnpB 유래의 단백질로 선택하는 것에 추가하여, 상기 Cas12f1 단백질 또는 TnpB 유래의 단백질에 대한 가이드 RNA를 자연에 존재하는 것보다 훨씬 짧게 인위적으로 조작하였다. Therefore, in addition to selecting Cas12f1 protein or TnpB-derived protein with a small molecular weight as the nucleolytic protein included in the base editing system of the present invention, the present inventors have investigated the Cas12f1 protein or TnpB-derived protein. Guide RNAs have been artificially engineered to be much shorter than those found in nature.

Cas12f1 시스템의 엔지니어링된 가이드 RNA는 자연계에서 발견되는 가이드 RNA에 새로운 구성을 추가하고, 또한 그 구조 일부를 변형한 것으로, 3'-말단에 새로운 구성인 U-rich tail을 포함하는 것을 특징으로 한다. 구체적으로, 상기 엔지니어링된 가이드 RNA은 변형된 스캐폴드 제1 내지 제4 영역을 포함하는 엔지니어링 tracrRNA 서열, 변형된 스캐폴드 제5 내지 제6 영역을 포함하는 엔지니어링 crRNA 서열 및 변형된 제7 영역인 U-rich tail 서열을 포함한다.The engineered guide RNA of the Cas12f1 system is characterized by adding a new structure to the guide RNA found in nature and also modifying some of its structure, and including a new structure, a U-rich tail, at the 3'-end. Specifically, the engineered guide RNAs include an engineering tracrRNA sequence including modified scaffold first to fourth regions, an engineering crRNA sequence including modified scaffold fifth to sixth regions, and a modified seventh region U -Include rich tail sequences.

상기 제4 영역 및 제5 영역은 서로 상보적으로 결합하는 부위로써, 변형 부위 1(modification site 1, MS1) 및 변형 부위 4(modification site 4, MS4)를 포함하고, 상기 제7 영역인 U-rich tail 서열은 변형 부위 2(modification site 2, MS2)에 해당한다. 상기 제1 영역은 변형 부위 3(modification site 3, MS3)이고, 상기 제2 영역은 변형 부위 5(modification site 5, MS5)에 해당한다. 본 발명에서는 상기 MS 1 내지 5 중 어느 하나에서의 변형을 포함하며, 이들 중에서 선택된 변형의 수많은 조합을 포함한다(도 5). The fourth region and the fifth region are sites complementary to each other, and include modification site 1 (MS1) and modification site 4 (MS4), and the seventh region, U- The rich tail sequence corresponds to modification site 2 (MS2). The first region corresponds to modification site 3 (MS3), and the second region corresponds to modification site 5 (MS5). The present invention includes modifications in any one of MSs 1 to 5 above, and numerous combinations of modifications selected from among them (FIG. 5).

일 구현예에서, 본 발명자들은 가이드 RNA를 구성하는 tracrRNA 및 crRNA의 길이를 최적화하기 위해 불필요한 스캐폴드 서열이 제거되도록 조작하였다. 상기 스캐폴드 서열에서의 조작은 짧아진 가이드 RNA의 제작을 가능하게 하였고, 그 결과 가이드 RNA 합성 비용 절감 및 바이러스 벡터에 삽입 시 추가의 적재 공간 확보를 가능하게 했다. In one embodiment, the present inventors engineered to remove unnecessary scaffold sequences to optimize the length of tracrRNA and crRNA constituting the guide RNA. Manipulation in the scaffold sequence made it possible to produce a shortened guide RNA, and as a result, it was possible to reduce the guide RNA synthesis cost and secure additional loading space when inserted into a viral vector.

무엇보다도 최적화된 가이드 RNA를 이용하는 초소형 염기교정(Base editing) 시스템은 표적 핵산 또는 표적 유전자의 편집 또는 변형 효율을 증가시켰으며, 나아가 아데노-연관 바이러스(AAV) 벡터를 이용하는 치료제 적용에 더욱 효과적일 수 있다. Above all, the base editing system using the optimized guide RNA increased the efficiency of editing or modifying the target nucleic acid or target gene, and could be more effective in the application of therapeutic agents using adeno-associated virus (AAV) vectors. there is.

또한, 자연에 존재하는 Cas12f1 단백질에 대한 야생형 가이드 RNA(gRNA)는 이를 구성하는 야생형 tracrRNA (서열번호 69, 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUUUCCUCUCCAAUUCUGCACAA-3')의 내부에 연속된 다섯 개의 유리딘(U) 서열을 포함하고 있다. 이는 야생형 tracrRNA을 벡터 등을 이용하여 세포 내에서 발현시키고자 할 때, 특정 조건에서 전사 종결 신호로서 작용한다는 염기서열 상의 문제를 가지고 있다.또한, 자연에 존재하는 Cas12f1 단백질에 대한 야생형 가이드 RNA(gRNA)는 이를 구성하는 야생형 tracrRNA (서열번호 69, 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUUUCCUCUCCAAUUCUGCACAA-3')의 내부에 연속된 다섯 개의 유리딘(U) 서열을 포함 are doing This has a problem with the nucleotide sequence that acts as a transcription termination signal under specific conditions when wild-type tracrRNA is to be expressed in a cell using a vector or the like.

상기 연속된 다섯 개의 유리딘(U) 서열의 종결 신호로의 작용은 tracrRNA의 정상적인 발현을 저해하고, 정상적인 가이드 RNA의 형성을 저해하여 결과적으로 본 발명의 초소형 염기교정(Base editing) 시스템의 형성 및 그로 인한 표적 핵산 또는 표적 유전자의 편집 또는 변형 효율을 감소시킬 수 있다. The action of the five contiguous uridine (U) sequences as termination signals inhibits the normal expression of tracrRNA and the formation of normal guide RNA, resulting in the formation of the base editing system of the present invention and This may reduce the editing or modification efficiency of the target nucleic acid or target gene.

이에, 본 발명자들은 야생형 tracrRNA의 연속된 다섯 개의 유리딘 서열을 인위적으로 변형한 엔지니어링된 tracrRNA를 개발하였다. Accordingly, the present inventors developed an engineered tracrRNA by artificially modifying the five contiguous uridine sequences of wild-type tracrRNA.

또한, 본 발명에 따른 상기 엔지니어링된 가이드 RNA는 자연계에서 발견되는 가이드 RNA에 새로운 구성을 추가하고 그 구조 일부를 변형한 것으로, 3'-말단에 새로운 구성인 U-rich tail을 포함하는 것을 특징으로 한다. 상기 U-rich tail을 포함하는 엔지니어링된 가이드 RNA는 초소형 염기교정(Base editing) 시스템의 표적 핵산 또는 표적 유전자에 대한 염기 교정율을 높이는 역할을 한다. In addition, the engineered guide RNA according to the present invention is a guide RNA found in nature by adding a new structure and modifying some of its structure, and it is characterized by including a new structure, U-rich tail, at the 3'-end do. The engineered guide RNA containing the U-rich tail serves to increase the base editing rate for the target nucleic acid or target gene of the base editing system.

본 발명자들은 상기 엔지니어링된 가이드 RNA(engineered gRNA) 중에서, Cas12f1 단백질 또는 TnpB 유래의 핵산분해 단백질과 복합체를 형성하여 표적 핵산 또는 표적 유전자의 편집 또는 변형 효율을 증가시키기는 최적의 가이드 RNA(guide RNA)를 선별하였으며, 이를 포함하는 초소형 염기교정(Hypercompact base editing) 시스템을 완성하였다. Among the engineered guide RNAs, the present inventors found that optimal guide RNAs to increase the editing or modification efficiency of target nucleic acids or target genes by forming complexes with Cas12f1 protein or TnpB-derived nucleolytic proteins was selected, and a hypercompact base editing system including it was completed.

본 발명에 따른 상기 엔지니어링된 가이드 RNA(engineered gRNA)는 그 구성 중 Cas12f1 단백질과 상호작용하는 역할을 하는 스캐폴드 영역의 적어도 일부가 변형된 것을 특징으로 한다. 상기 스캐폴드 영역은 tracrRNA 및 crRNA의 일부를 포함하며, 반드시 한 분자의 RNA를 지칭하는 것은 아니다. The engineered guide RNA (engineered gRNA) according to the present invention is characterized in that at least a part of the scaffold region serving to interact with the Cas12f1 protein is modified. The scaffold region includes tracrRNA and parts of crRNA, and does not necessarily refer to one molecule of RNA.

상기 엔지니어링된 가이드 RNA(engineered gRNA)의 서열은 변형된 스캐폴드 제1 내지 제4 영역을 포함하는 엔지니어링된 tracrRNA 서열 및/또는 변형된 스캐폴드 제5 내지 제6 영역을 포함하는 엔지니어링된 crRNA 서열 및/또는 변형된 제7 영역인 U-rich tail 서열을 포함한다. 또한, 상기 엔지니어링된 가이드 RNA는 필요에 따라 링커(linker) 또는 태그(Tag)를 더 포함할 수 있다. The engineered guide RNA sequence may be an engineered tracrRNA sequence comprising modified scaffold first to fourth regions and/or an engineered crRNA sequence comprising modified scaffold fifth to sixth regions, and / or a modified seventh region, a U-rich tail sequence. In addition, the engineered guide RNA may further include a linker or tag, if necessary.

다시 말해, 본 발명에서 제공하는 엔지니어링된 가이드 RNA(engineered gRNA)에 포함된 엔지니어링된 스캐폴드 영역은, 자연계에서 발견되는 스캐폴드 영역에 전술한 제1 영역 내지 제7 영역 중 어느 하나 이상의 영역에서 변형이 조합된 것일 수 있다.In other words, the engineered scaffold region included in the engineered guide RNA (engineered gRNA) provided by the present invention is modified in any one or more regions of the first to seventh regions described above in the scaffold region found in nature. This may be a combination.

또한, 상기 엔지니어링된 crRNA는 제5 영역(MS1 변형 포함), 제6 영역 및 가이드 서열을 5'-말단에서 3'-말단 방향으로 순서대로 포함할 수 있다. 여기서 상기 제5 영역은 5' -GUUGCAGAACCCGAAUAGNBNNNUGAAGGA-3' (서열번호 31) 서열 또는 서열번호 31 서열의 일부 서열일 수 있다. 상기 각각의 N은 독립적으로 A, C, G 또는 U일 수 있다. 상기 B는 U, C 또는 G일 수 있다. 상기 서열번호 31 서열의 일부 서열은 상기 서열번호 31 서열 중 5'-NBNNNUGAAGGA-3' (서열번호 32) 서열을 포함하면서, 3'-말단부의 일부 서열이 포함하지 않는 서열일 수 있다. 상기 각각의 N은 독립적으로 A, C, G 또는 U일 수 있다. 상기 B는 U, C 또는 G일 수 있다.In addition, the engineered crRNA may include a fifth region (including MS1 modification), a sixth region, and a guide sequence in order from the 5'-end to the 3'-end. Here, the fifth region may be a 5'-GUUGCAGAACCCGAAUAGNBNNNUGAAGGA-3' (SEQ ID NO: 31) sequence or a partial sequence of SEQ ID NO: 31 sequence. Each N may independently be A, C, G or U. The B may be U, C or G. Part of the sequence of SEQ ID NO: 31 may include a sequence of 5'-NBNNNUGAAGGA-3' (SEQ ID NO: 32) of the sequence of SEQ ID NO: 31, but may not include a partial sequence at the 3'-end. Each N may independently be A, C, G or U. The B may be U, C or G.

상기 엔지니어링된 가이드 RNA는 듀얼 가이드 RNA 또는 싱글 가이드 RNA일 수 있다. 상기 엔지니어링된 가이드 RNA가 싱글 가이드 RNA일 때, 상기 엔지니어링된 가이드 RNA는 링커(linker) 서열을 추가로 더 포함할 수 있다. 이때, 상기 링커 서열은 상기 엔지니어링된 tracrRNA와 상기 crRNA 사이에 위치할 수 있다.The engineered guide RNA may be a dual guide RNA or a single guide RNA. When the engineered guide RNA is a single guide RNA, the engineered guide RNA may further include a linker sequence. In this case, the linker sequence may be located between the engineered tracrRNA and the crRNA.

일 구체예로, 상기 엔지니어링된 tracrRNA(engineered trRNA)는 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUCCAAUUCUGCACAA-3' (서열번호 34)인 염기서열, 5'-ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUCCAAUUCUGCACAA-3 ' (서열번호 35)인 염기서열, 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUCCAAUUCUGCACAA-3' (서열번호 36)인 염기서열 또는 5'-ACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUCCAAUUCUGCACAA-3' (서열번호 37)인 염기서열을 포함할 수 있다. 또한, 상기 엔지니어링된 crRNA(engineered crRNA)는 5'-GUUGCAGAACCCGAAUAGNGNNNUGAAGGAAUGCAAC-3' (서열번호 38) 서열 및 가이드 서열을 포함할 수 있다. 이때, 상기 각각의 N은 독립적으로 A, C, G 또는 U일 수 있다. 바람직하게, 상기 서열번호 34 내지 37 중 어느 하나에서 5'-NNNCN-3'은 5'-GUGCU-3' 이고, 상기 서열번호 38의 서열 중 5'-NGNNN-3'은 5'-AGCAA-3' 일 수 있다. 일 구체예로, 상기 엔지니어링된 tracrRNA(engineered trRNA)는 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUCCAAUUCUGCACAA-3' (서열번호 34)인 염기서열, 5'-ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUCCAAUUCUGCACAA-3 ' (서열번호 35)인 염기서열, 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUCCAAUUCUGCACAA -3' (SEQ ID NO: 36) or 5'-ACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUCCAAUUCUGCACAA-3' (SEQ ID NO: 37). In addition, the engineered crRNA (engineered crRNA) may include a 5'-GUUGCAGAACCCGAAUAGNGNNNUGAAGGAAUGCAAC-3' (SEQ ID NO: 38) sequence and a guide sequence. In this case, each N may be independently A, C, G or U. Preferably, 5'-NNNCN-3' in any one of SEQ ID NOs: 34 to 37 is 5'-GUGCU-3', and 5'-NGNNN-3' in SEQ ID NO: 38 is 5'-AGCAA- 3'.

일 구체예로, 상기 엔지니어링된 tracrRNA는 서열번호 39 내지 42 중 어느 하나의 염기서열로 이루어진 것이고, 상기 엔지니어링된 crRNA는 서열번호 43의 염기서열로 이루어진 것일 수 있다. In one embodiment, the engineered tracrRNA may consist of the nucleotide sequence of any one of SEQ ID NOs: 39 to 42, and the engineered crRNA may consist of the nucleotide sequence of SEQ ID NO: 43.

다른 일 예로, 상기 엔지니어링된 tracrRNA(engineered trRNA)는 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUC-3' (서열번호 44)인 염기서열, 5'-ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUC-3' (서열번호 45)인 서열, 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUC-3' (서열번호 46)인 염기서열 또는 5'-ACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUC-3' (서열번호 47) 인 염기서열을 포함할 수 있다.이 때, 상기 엔지니어링된 crRNA(engineered crRNA)는 5'-GAAUAGNGNNNUGAAGGAAUGCAAC-3' (서열번호 48)인 염기서열 및 가이드 서열을 포함할 수 있다. 여기서, 상기 각각의 N은 독립적으로 A, C, G 또는 U일 수 있다. 다른 일 예로, 상기 엔지니어링된 tracrRNA(engineered trRNA)는 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUC-3' (서열번호 44)인 염기서열, 5'-ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUC-3' (서열번호 45)인 서열, 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUC-3 ' (SEQ ID NO: 46) or 5'-ACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUC-3' (SEQ ID NO: 47). In this case, the engineered crRNA (engineered crRNA) is 5'-GAAUAGNGNNUAACGAAGGA3' (SEQ ID NO: 48) and a guide sequence. Here, each N may independently be A, C, G or U.

일 예로, 상기 서열번호 44 내지 47 중 어느 하나에서 5'-NNNCN-3'은 5'-GUGCU-3' 이고, 상기 서열번호 48의 서열 중 5'-NGNNN-3'은 5'-AGCAA-3' 일 수 있다. For example, in any one of SEQ ID NOs: 44 to 47, 5'-NNNCN-3' is 5'-GUGCU-3', and 5'-NGNNN-3' in SEQ ID NO: 48 is 5'-AGCAA- 3'.

일 구체예로, 상기 엔지니어링된 tracrRNA는 서열번호 49 내지 52 중 어느 하나의 염기서열로 이루어진 것이고, 상기 엔지니어링된 crRNA는 서열번호 53의 염기서열로 이루어진 것일 수 있다. In one embodiment, the engineered tracrRNA may consist of any one of the nucleotide sequences of SEQ ID NOs: 49 to 52, and the engineered crRNA may consist of the nucleotide sequence of SEQ ID NO: 53.

일 구체예로, MS1/MS2/MS3에서 변형을 갖는 sgRNACas12f_ge3.0(서열번호 57), MS2/MS3/MS4에서 변형을 갖는 sgRNA Cas12f_ge4.0(서열번호 58) 및/또는 MS2/ MS3/MS4/MS5에서 변형을 갖는 sgRNA Cas12f_ge4.1(서열번호 59)일 수 있다. In one embodiment, sgRNACas12f_ge3.0 (SEQ ID NO: 57) with modifications at MS1/MS2/MS3, sgRNA Cas12f_ge4.0 (SEQ ID NO: 58) with modifications at MS2/MS3/MS4 and/or MS2/MS3/MS4/ It may be the sgRNA Cas12f_ge4.1 (SEQ ID NO: 59) with a modification at MS5.

본 발명에 따른 상기 엔지니어링된 가이드 RNA의 예시적인 구조는 도 7에 나타내었다. An exemplary structure of the engineered guide RNA according to the present invention is shown in FIG. 7 .

4. 스캐폴드 영역4. Scaffold area

본 발명에서 제공하는 상기 엔지니어링된 가이드 RNA의 서열을 기능적으로 나누어 보면, Cas12f1 단백질과 상호작용하여 CRISPR/Cas12f1 복합체를 형성하도록 하는 서열 부분, CRISPR/Cas12f1 복합체가 표적 핵산을 찾아갈 수 있도록 하는 서열 부분 및 U-rich tail 서열 부분으로 나눌 수 있다. 이때, 상기 Cas12f1 단백질과 상호작용하여 CRISPR/Cas12f1 복합체를 형성하도록 하는 서열 부분을 스캐폴드 서열이라 할 수 있다. 구체적으로, 상기 스캐폴드 서열은 두 분자 이상의 RNA의 서열을 포함할 수 있다.When functionally dividing the sequence of the engineered guide RNA provided by the present invention, a sequence portion that interacts with the Cas12f1 protein to form a CRISPR/Cas12f1 complex, and a sequence portion that allows the CRISPR/Cas12f1 complex to find a target nucleic acid and U-rich tail sequence parts. At this time, a sequence portion that interacts with the Cas12f1 protein to form a CRISPR/Cas12f1 complex may be referred to as a scaffold sequence. Specifically, the scaffold sequence may include a sequence of two or more molecules of RNA.

일 구현예로, 상기 엔지니어링된 가이드 RNA가 듀얼 가이드 RNA인 경우, 상기 스캐폴드 서열은 상기 엔지니어링된 가이드 RNA 서열 중 tracrRNA 서열 및 crRNA에 포함된 CRISPR RNA 반복 서열을 포함할 수 있다. 일 구현예로, 상기 tracrRNA 서열은 자연계에서 발견되는 tracrRNA 서열의 전부 또는 일부가 변형된 것일 수 있다. 일 구현예로, 상기 CRISPR RNA 반복 서열은 자연계에서 발견되는 CRISPR RNA 반복 서열의 전부 또는 일부가 변형된 것일 수 있다.In one embodiment, when the engineered guide RNA is a dual guide RNA, the scaffold sequence may include a tracrRNA sequence among the engineered guide RNA sequences and a CRISPR RNA repeat sequence included in the crRNA. In one embodiment, the tracrRNA sequence may be all or part of a tracrRNA sequence found in nature modified. In one embodiment, the CRISPR RNA repeat sequence may be a modified version of all or part of the CRISPR RNA repeat sequence found in nature.

또한, 본 발명에서 상기 엔지니어링된 가이드 RNA가 싱글 가이드 RNA인 경우, 상기 스캐폴드 서열은 상기 tracrRNA 서열, 상기 링커 서열, 및 상기 crRNA 서열에 포함된 CRISPR RNA 반복 서열을 포함할 수 있다. 일 구현예로, 상기 tracrRNA 서열은 자연계에서 발견되는 tracrRNA 서열의 전부 또는 일부가 변형된 것일 수 있다. In addition, in the present invention, when the engineered guide RNA is a single guide RNA, the scaffold sequence may include the tracrRNA sequence, the linker sequence, and the CRISPR RNA repeat sequence included in the crRNA sequence. In one embodiment, the tracrRNA sequence may be all or part of a tracrRNA sequence found in nature modified.

또한, 일 구체예에서, 본 발명에 따른 스캐폴드 영역은 tracrRNA 및 crRNA의 일부를 포함하며, 반드시 한 분자의 RNA를 지칭하는 것은 아니다. 상기 스캐폴드 영역은 다시 제1 영역, 제2 영역, 제3 영역, 제4 영역, 제5 영역, 및 제6 영역으로 세분화될 수 있다. 상기 세분화된 영역을 tracrRNA, crRNA 상에서 서술하면, 상기 제1 영역 내지 제4 영역은 tracrRNA에 포함되고, 상기 제5 영역 내지 상기 제6 영역은 crRNA, 구체적으로 crRNA 반복 서열 부분에 포함된다.Also, in one embodiment, the scaffold region according to the present invention includes tracrRNA and part of crRNA, and does not necessarily refer to one molecule of RNA. The scaffold area may be further subdivided into a first area, a second area, a third area, a fourth area, a fifth area, and a sixth area. When the subdivided regions are described on tracrRNA and crRNA, the first to fourth regions are included in tracrRNA, and the fifth to sixth regions are included in crRNA, specifically crRNA repeat sequence portions.

일 구현예로, 상기 tracrRNA는 제1 영역, 제2영역, 제3 영역, 및 제4 영역을 포함한다. 일 구현예로, 상기 tracrRNA는 5'-말단에 서 3'-말단 방향으로, 제1 영역, 제2 영역, 제3 영역, 및 제4 영역이 순서대로 연결된 것이다. In one embodiment, the tracrRNA includes a first region, a second region, a third region, and a fourth region. In one embodiment, the tracrRNA has a first region, a second region, a third region, and a fourth region sequentially linked from the 5'-end to the 3'-end.

일 구체예로, 엔지니어링된 tracrRNA(engineered trRNA)는 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUU GCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU-3' (서열번호 70)인 염기서열 또는 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNNNCCUCUCCAAUUCUGCACAA-3' (서열번호 71)일 수 있다. 여기서, N은 A, C, G 또는 U일 수 있다. 일 구체예로, 엔지니어링된 tracrRNA(engineered trRNA)는 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUU GCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU-3' (서열번호 70)인 염기서열 또는 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNNNCCUCUCCAAUUCUGCACAA-3' (서열번호 71)일 수 있다. Here, N may be A, C, G or U.

또한, 일 구현예로, 엔지니어링된 crRNA(engineered crRNA)의 서열은 crRNA 반복 서열 및 스페이서 서열을 포함한다. 이때, 상기 crRNA 반복 서열은 5'-GAAUGAAGGAAUGCAAC-3' (서열번호 72) 또는 5'-GGAAUGCAAC-3' (서열번호 73)일수 있다. 상기 crRNA 반복 서열은 제5 영역 및 제6 영역을 포함한다. 상기 스페이서 서열은 표적서열에 따라 달라질 수 있으며, 일반적으로 10 내지 50개의 뉴클레오타이드를 포함한다. Also, in one embodiment, the engineered crRNA sequence includes a crRNA repeat sequence and a spacer sequence. In this case, the crRNA repeat sequence may be 5'-GAAUGAAGGAAUGCAAC-3' (SEQ ID NO: 72) or 5'-GGAAUGCAAC-3' (SEQ ID NO: 73). The crRNA repeat sequence includes a fifth region and a sixth region. The spacer sequence may vary depending on the target sequence, and generally includes 10 to 50 nucleotides.

일 예로, 상기 crRNA는 5'-말단에서 3'-말단 방향으로, 제5 영역, 제6 영역 및 스페이서가 순서대로 연결된 것이다.For example, in the crRNA, a fifth region, a sixth region, and a spacer are sequentially connected from the 5'-end to the 3'-end.

일 실시양태로, 상기 엔지니어링된 스캐폴드 영역은 자연계에서 발견되는 가이드 RNA의 스캐폴드 영역과는 다른 것으로, 그 스캐폴드 부분의 일부가 변형된 것을 특징으로 한다. In one embodiment, the engineered scaffold region is different from the scaffold region of a guide RNA found in nature, wherein a portion of the scaffold region is modified.

일 구현예로, 상기 엔지니어링된 스캐폴드 영역은 자연계에서 발견되는 가이드 RNA의 스캐폴드 영역 중 일부 영역이 제거된 것일 수 있다. 상기 엔지니어링된 스캐폴드 영역은 자연계에서 발견되는 가이드 RNA의 스캐폴드 영역에 포함된 하나 이상의 뉴클레오타이드가 제거된 것일 수 있다. 스캐폴드 영역은 tracrRNA 및 crRNA의 일부를 포함하는 영역으로, Cas12f1 단백질과 상호작용하는 기능을 한다. In one embodiment, the engineered scaffold region may be obtained by removing some of guide RNA scaffold regions found in nature. The engineered scaffold region may be obtained by removing one or more nucleotides included in the scaffold region of guide RNA found in nature. The scaffold region is a region containing parts of tracrRNA and crRNA, and functions to interact with the Cas12f1 protein.

또한, 상기 엔지니어링된 가이드 RNA는 crRNA 서열의 3'-말단에 U-rich tail 서열을 포함한다. 그러나, 이때 연속된 MS 1 영역의 다섯 개 이상의 유리딘(U) 서열을 포함하지 않도록 변형된다.In addition, the engineered guide RNA includes a U-rich tail sequence at the 3'-end of the crRNA sequence. However, at this time it is modified to not include more than five uridine (U) sequences of the contiguous MS 1 region.

스캐폴드 제1 영역은 tracrRNA의 5'-말단을 포함하는 영역으로, 상기 제1 영역은 CRISPR/Cas12f1 복합체 내에서 Stem 구조를 형성하는 뉴클레오타이드를 포함하고, 이와 인접한 뉴클레오타이드를 포함할 수 있다. 상기 제1 영역은 CRISPR/Cas12f1 복합체에서, Cas12f1 단백질과 상호작용하지 않는 영역(region)을 포함한다.The first region of the scaffold is a region including the 5'-end of tracrRNA, and the first region may include nucleotides forming a stem structure in the CRISPR/Cas12f1 complex and may include nucleotides adjacent thereto. The first region includes a region that does not interact with the Cas12f1 protein in the CRISPR/Cas12f1 complex.

일 구현예로, 상기 제1 영역은 서열번호 69의 염기서열을 포함하는 야생형 tracrRNA의 5'-말단으로부터 1번째 뉴클레오타이드부터 21번째 뉴클레오타이드까지를 의미할 수 있다. In one embodiment, the first region may mean from the 1st nucleotide to the 21st nucleotide from the 5'-terminus of the wild-type tracrRNA comprising the nucleotide sequence of SEQ ID NO: 69.

일 예로, 상기 제1 영역의 염기서열은 5'-CUUCACUGAUAAAGUGGAGAA-3' (서열번호 24)일 수 있다.For example, the nucleotide sequence of the first region may be 5'-CUUCACUGAUAAAGUGGAGAA-3' (SEQ ID NO: 24).

스캐폴드 제2 영역은 tracrRNA 내 상기 제1영역의 3'-말단 방향에 위치한 영역을 지칭한다. 상기 제2 영역은 CRISPR/Cas12f1 복합체 내에서 Stem 구조를 형성하는 뉴클레오타이드를 포함하고, 이와 인접한 뉴클레오타이드를 포함할 수 있다. 이때, 상기 Stem 구조는 상기 제1 영역에 포함된 Stem과는 다른 것이다. 상기 제2 영역은 Stem 2 부분(Takeda et al., Structure of the miniature type V-F CRISPR-Cas effector enzyme, Molecular Cell 81, 1-13(2021))을 포함한다. The scaffold second region refers to a region located in the 3'-end direction of the first region in tracrRNA. The second region may include nucleotides forming a Stem structure in the CRISPR/Cas12f1 complex and may include nucleotides adjacent thereto. At this time, the stem structure is different from the stem included in the first region. The second region includes Stem 2 part (Takeda et al., Structure of the miniature type V-F CRISPR-Cas effector enzyme, Molecular Cell 81, 1-13 (2021)).

상기 제2 영역은 상기 Stem 2 부분과 인접한 하나 이상의 뉴클레오타이드를 포함할 수 있다. 상기 제2 영역은 CRISPR/Cas12f1 복합체에서, 이량체를 이루는 하나의 Cas12f1 단백질의 RuvC 도메인 및/또는 이량체 이루는 다른 하나의 Cas12f1 단백질의 RuvC 도메인과 상호작용하는 하나 이상의 뉴클레오타이드를 포함할 수 있다. 상기 제2 영역은 CRISPR/Cas12f1 복합체에서 Cas12f1 단백질과 상호작용하지 않는 영역을 포함한다.The second region may include one or more nucleotides adjacent to the Stem 2 portion. The second region may include one or more nucleotides interacting with the RuvC domain of one Cas12f1 protein forming a dimer and/or the RuvC domain of another Cas12f1 protein forming a dimer in the CRISPR/Cas12f1 complex. The second region includes a region that does not interact with the Cas12f1 protein in the CRISPR/Cas12f1 complex.

일 구현예로, 상기 제2 영역은 서열번호 69의 염기서열을 포함하는 야생형 tracrRNA의 5'-말단으로부터 22번째 뉴클레오타이드부터 71번째 뉴클레오타이드까지를 의미할 수 있다. In one embodiment, the second region may mean from the 22nd nucleotide to the 71st nucleotide from the 5'-end of the wild-type tracrRNA comprising the nucleotide sequence of SEQ ID NO: 69.

일 구체예로, 상기 제2 영역의 염기서열은 5'-CCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUG-3' (서열번호 25)일 수 있다.In one embodiment, the nucleotide sequence of the second region may be 5'-CCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUG-3' (SEQ ID NO: 25).

스캐폴드 제3 영역은 tracrRNA 내 상기 제2영역의 3'-말단 방향에 위치한 영역을 지칭한다. 상기 제3 영역은 CRISPR/Cas12f1 복합체 내에서 Stem 구조를 형성하는 뉴클레오타이드 및 crRNA에 포함된 일부 뉴클레오타이드와 상보적인 결합을 형성하고 있는 뉴클레오타이드를 포함하고, 이와 인접한 뉴클레오타이드를 포함할 수 있다.The scaffold third region refers to a region located in the 3'-end direction of the second region in tracrRNA. The third region may include nucleotides forming a complementary bond with nucleotides forming the Stem structure in the CRISPR/Cas12f1 complex and some nucleotides included in crRNA, and may include nucleotides adjacent thereto.

일 구현예로, 상기 제3 영역은 서열번호 69의 염기서열을 포함하는 야생형 tracrRNA의 5'-말단으로부터 72번째 뉴클레오타이드부터 129번째 뉴클레오타이드까지를 의미할 수 있다. In one embodiment, the third region may mean from the 72nd nucleotide to the 129th nucleotide from the 5'-end of the wild-type tracrRNA comprising the nucleotide sequence of SEQ ID NO: 69.

일 예로, 상기 제3 영역의 염기서열은 5'-GGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAA-3'(서열번호 26일) 수 있다.For example, the nucleotide sequence of the third region may be 5'-GGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAA-3' (SEQ ID NO: 26).

스캐폴드 제4 영역은 tracrRNA의 제3 영역의 3'-말단 방향에 위치한 영역을 지칭한다. 상기 제4 영역은 CRISPR/Cas12f1 복합체 내에서 crRNA에 포함된 일부 뉴클레오타이드와 상보적인 결합을 형성할 수 있는 뉴클레오타이드를 포함하고, 이와 인접한 뉴클레오타이드를 포함할 수 있다.The scaffold fourth region refers to a region located in the 3'-end direction of the third region of tracrRNA. The fourth region may include nucleotides capable of forming complementary bonds with some nucleotides included in crRNA in the CRISPR/Cas12f1 complex, and may include nucleotides adjacent thereto.

상기 제4 영역은 Stem 5(R:AR-2) 중 tracrRNA에 속한 뉴클레오타이드를 포함한다(Takeda et al., Structure of the miniature type V-F CRISPR-Cas effector enzyme, Molecular Cell 81, 1-13 (2021)). 상기 제4 영역은 상기 Stem 5(R:AR-2) 중 tracrRNA에 속한 뉴클레오타이드와 인접한 하나 이상의 뉴클레오타이드를 포함할 수 있다.The fourth region includes nucleotides belonging to tracrRNA in Stem 5 (R: AR-2) (Takeda et al., Structure of the miniature type V-F CRISPR-Cas effector enzyme, Molecular Cell 81, 1-13 (2021) ). The fourth region may include one or more nucleotides adjacent to nucleotides belonging to tracrRNA in Stem 5 (R:AR-2).

상기 제4 영역은 crRNA의 제5 영역에 포함된 하나 이상의 뉴클레오타이드와 상보적으로 결합하는 하나 이상의 뉴클레오타이드를 포함할 수 있다. 상기 제4 영역은 CRISPR/Cas12f1 복합체에서, Cas12f1 단백질과 상호작용하지 않는 영역을 포함한다.The fourth region may include one or more nucleotides complementarily binding to one or more nucleotides included in the fifth region of crRNA. The fourth region includes a region that does not interact with the Cas12f1 protein in the CRISPR/Cas12f1 complex.

일 구현예로, 상기 제4 영역은 서열번호 69의 염기서열을 포함하는 야생형 tracrRNA의 5'-말단으로부터 130번째 뉴클레오타이드부터 142번째 뉴클레오타이드까지를 의미할 수 있다. In one embodiment, the fourth region may mean from the 130th nucleotide to the 142nd nucleotide from the 5'-end of the wild-type tracrRNA comprising the nucleotide sequence of SEQ ID NO: 69.

일 구현예로, 상기 제4 영역은 서열번호 69의 염기서열을 포함하는 야생형 tracrRNA의 5'-말단으로부터 130번째 뉴클레오타이드부터 162번째 뉴클레오타이드까지를 의미할 수 있다. In one embodiment, the fourth region may mean from the 130th nucleotide to the 162nd nucleotide from the 5'-end of the wild type tracrRNA comprising the nucleotide sequence of SEQ ID NO: 69.

일 예로, 상기 제4 영역의 서열은 5'-CAAAUUCANNNVN-3' (서열번호 28) 또는 5'-CAAAUUCAUUUUUCCUCUCCAAUUCUGCACAA-3' (서열번호 74일) 수 있다. 여기서, 상기 N은 A, C, G 또는 U일 수 있다. For example, the sequence of the fourth region may be 5'-CAAAUUCANNNVN-3' (SEQ ID NO: 28) or 5'-CAAAUUCAUUUUUCCUCUCCAAUUCUGCACAA-3' (SEQ ID NO: 74). Here, N may be A, C, G or U.

스캐폴드 제5 영역은 crRNA 5'말단을 포함하는 영역을 지칭한다. 상기 제5 영역은 CRISPR/Cas12f1 복합체 내에서 상기 제4 영역의 하나 이상의 뉴클레오타이드와 상보적인 결합을 형성하는 뉴클레오타이드를 포함하며, 이와 인접한 뉴클레오타이드를 포함할 수 있다.The scaffold region 5 refers to the region containing the 5' end of the crRNA. The fifth region includes a nucleotide forming a complementary bond with one or more nucleotides of the fourth region in the CRISPR/Cas12f1 complex, and may include a nucleotide adjacent thereto.

상기 제5 영역은 상기 제4 영역에 포함된 하나 이상의 뉴클레오타이드와 상보적으로 결합하는 하나 이상의 뉴클레오타이드를 포함할 수 있다. 상기 제5 영역은 CRISPR/Cas12f1 복합체에서, Cas12f1 단백질과 상호작용하지 않는 영역을 포함한다.The fifth region may include one or more nucleotides complementarily binding to one or more nucleotides included in the fourth region. The fifth region includes a region that does not interact with the Cas12f1 protein in the CRISPR/Cas12f1 complex.

일 구현예로, 상기 제5 영역은 서열번호 30의 염기서열을 포함하는 야생형 crRNA의 5'-말단으로부터 1번째 뉴클레오타이드부터 30번째 뉴클레오타이드까지를 의미할 수 있다. In one embodiment, the fifth region may mean from the 1st nucleotide to the 30th nucleotide from the 5'-terminus of the wild-type crRNA comprising the nucleotide sequence of SEQ ID NO: 30.

일 예로, 상기 제5 영역의 서열은 5'-GUUGCAGAACCCGAAUAGNBNNNUGAAGGA-3' (서열번호 31)일 수 있다. 여기서, 상기 N은 A, C, G 또는 U일 수 있고, 상기 B는 U, C, 또는 G일 수 있다. 바람직하게, 5'-GUUGCAGAACCCGAAUAGACGAAUGAAGGA-3' (서열번호 75)일 수 있다.For example, the sequence of the fifth region may be 5'-GUUGCAGAACCCGAAUAGNBNNNUGAAGGA-3' (SEQ ID NO: 31). Here, N may be A, C, G or U, and B may be U, C, or G. Preferably, it may be 5'-GUUGCAGAACCCGAAUAGACGAAUGAAGGA-3' (SEQ ID NO: 75).

다른 일 구현예로, 상기 제5 영역은 서열번호 30의 염기서열을 포함하는 야생형 crRNA의 5'-말단으로부터 21번째 뉴클레오타이드부터 30번째 뉴클레오타이드까지를 의미할 수 있다. In another embodiment, the fifth region may refer to the 21st nucleotide to the 30th nucleotide from the 5'-end of the wild-type crRNA comprising the nucleotide sequence of SEQ ID NO: 30.

일 예로, 상기 제5 영역의 서열은 5'-GAAUGAAGGA-3' (서열번호 76)일 수 있다.For example, the sequence of the fifth region may be 5'-GAAUGAAGGA-3' (SEQ ID NO: 76).

스캐폴드 제6 영역은 crRNA 내 상기 제5 영역의 3'-말단 방향에 위치한 영역을 지칭한다. 상기 제6 영역은 CRISPR/Cas12f1 복합체 내에서 상기 제3 영역의 하나 이상의 뉴클레오타이드와 상보적인 결합을 형성하는 뉴클레오타이드를 포함하며, 이와 인접한 뉴클레오타이드를 포함할 수 있다.The sixth region of the scaffold refers to a region located in the 3'-end direction of the fifth region in the crRNA. The sixth region includes a nucleotide forming a complementary bond with one or more nucleotides of the third region in the CRISPR/Cas12f1 complex, and may include a nucleotide adjacent thereto.

일 구현예로, 상기 제6 영역은 서열번호 30의 염기서열을 포함하는 야생형 crRNA의 crRNA의 5'-말단으로부터 31번째 뉴클레오타이드부터 37번째 뉴클레오타이드까지를 의미할 수 있다. In one embodiment, the sixth region may refer to the 31st nucleotide to the 37th nucleotide from the 5'-end of the wild-type crRNA crRNA comprising the nucleotide sequence of SEQ ID NO: 30.

일 예로, 상기 제6 영역의 서열은 5'-AUGCAAC-3' (서열번호 33)일 수 있다.For example, the sequence of the sixth region may be 5'-AUGCAAC-3' (SEQ ID NO: 33).

본 발명은 또한, CRISPR/Cas12f1 시스템의 유전자 편집 효율 향상을 위해 도입할 수 있는 엔지니어링된 스캐폴드 영역을 제공한다. 상기 엔지니어링된 스캐폴드 영역은 전술한 U-rich tail과 시너지를 일으켜, 상기 엔지니어링된 가이드 RNA가 사용된 CRISPR/Cas12f1 시스템의 유전자 편집 효율을 향상시킨다. The present invention also provides an engineered scaffold region that can be introduced to improve gene editing efficiency of the CRISPR/Cas12f1 system. The engineered scaffold region synergizes with the aforementioned U-rich tail to improve gene editing efficiency of the CRISPR/Cas12f1 system using the engineered guide RNA.

일 구현예로, 상기 엔지니어링된 가이드 RNA는 3'-말단 부분에 유리딘(U)이 풍부하게 포함된 U-rich tail을 포함할 수 있다. 상기 U-rich tail 서열은 기본적으로 유리딘을 풍부하게 포함하고 있으며, 유리딘이 하나 이상 연속된 서열을 포함한다. 상기 U-rich tail 서열은 엔지니어링된 CRISPR/Cas12f1 시스템의 실사용 환경 및 발현 환경, 예를 들어 진핵 세포 또는 원핵 세포 내부 환경에 따라 유리딘 외 추가적인 염기를 더 포함할 수 있다. In one embodiment, the engineered guide RNA may include a U-rich tail rich in uridine (U) at the 3'-end portion. The U-rich tail sequence basically contains uridine in abundance, and includes a sequence in which one or more uridines are consecutive. The U-rich tail sequence may further include additional bases other than uridine, depending on the actual use environment and expression environment of the engineered CRISPR/Cas12f1 system, for example, the internal environment of eukaryotic cells or prokaryotic cells.

본 명세서에서 제공하는 U-rich tail 서열은 보다 바람직하게, 유리딘(U)이 1개 내지 5개 반복될 때마다, 유리딘이 아닌 다른 리보뉴클레오사이드(A, C, G)가 하나씩 포함된 변형된 유리딘 반복 서열을 포함할 수 있다. 상기 변형된 유리딘 연속 서열은 특히 엔지니어링된 crRNA를 발현하는 벡터를 설계할 때 유용하다.The U-rich tail sequence provided herein more preferably includes one ribonucleoside (A, C, G) other than uridine for every 1 to 5 repetitions of uridine (U). It may contain a modified uridine repeat sequence. The modified uridine contiguous sequence is particularly useful when designing a vector expressing an engineered crRNA.

일 구현예로, 상기 U-rich tail 서열은 UV, UUV, UUUV, UUUUV, 및/또는 UUUUUV가 하나 이상 반복된 서열을 포함할 수 있다. 이때, 상기 V는 아데노신(A), 사이티딘(C), 구아노신(G) 중 하나이다. 구체적인 일 구현예로, 상기 U-rich tail의 서열은 (UaN)bUc로 표현될 수 있다. 이때, 상기 N은 A, U, C, 또는 G 중 하나이며, 상기 a, b, c는 정수이고, 상기 a는 1 이상 5 이하, b는 0 이상 2 이하, c는 1 이상 10 이하일 수 있다. In one embodiment, the U-rich tail sequence may include a repeating sequence of one or more UV, UUV, UUUV, UUUUV, and/or UUUUUV. At this time, the V is one of adenosine (A), cytidine (C), and guanosine (G). In a specific embodiment, the sequence of the U-rich tail may be expressed as (UaN)bUc. In this case, N is one of A, U, C, or G, a, b, and c are integers, a is 1 or more and 5 or less, b is 0 or more and 2 or less, and c is 1 or more and 10 or less. .

일 구체예로, 상기 U-rich tail의 서열은 5'-U-3', 5'-UU-3', 5'-UUU-3', 5'-UUUU-3', 5'-UUUUU-3', 5'-UUUUUU-3', 5'-UUURUUU-3'(서열번호 77), 5'-UUURUUURUUU-3'(서열번호 78), 5'-UUUURU-3'(서열번호 79), 5'-UUUUR UU-3'(서열번호 80), 5'-UUUURUUU-3'(서열번호 81), 5'-UUUURUUUU-3'(서열번호 82), 5'-UUUURUUUUU-3'(서열번호 83), 또는 5'-UUUURUUUUUU-3'(서열번호 84)일 수 있다. 여기서 R은 A 또는 G일 수 있다. In one embodiment, the sequence of the U-rich tail is 5'-U-3', 5'-UU-3', 5'-UUU-3', 5'-UUUU-3', 5'-UUUUU- 3', 5'-UUUUUU-3', 5'-UUURUUU-3' (SEQ ID NO: 77), 5'-UUURUUURUUU-3' (SEQ ID NO: 78), 5'-UUUURU-3' (SEQ ID NO: 79), 5'-UUUUR UU-3' (SEQ ID NO: 80), 5'-UUUURUUU-3' (SEQ ID NO: 81), 5'-UUUURUUUU-3' (SEQ ID NO: 82), 5'-UUUURUUUUU-3' (SEQ ID NO: 81) 83), or 5'-UUUURUUUUUU-3' (SEQ ID NO: 84). Where R can be A or G.

또 다른 일 구체예로, 상기 U-rich tail의 서열은 상기 서열번호 77 내지 84 중 어느 하나의 염기서열에서 상기 R이 A인 것인 것으로, 서열번호 85 내지 서열번호 92 중 어느 하나의 염기서열로 이루어진 것일 수 있다. 또한 상기 U-rich tail의 서열은 상기 서열번호 77 내지 84 중 어느 하나의 염기서열에서 상기 R이 G인 것인 것으로, 서열번호 93 내지 서열번호 100 중 어느 하나의 염기서열로 이루어진 것일 수 있다. 바람직하게, 상기 U-rich tail의 서열은 5'-UUUUAUUUU-3'(서열번호 90), 5'-UUUUAUUUUUU-3'(서열번호 92), 5'-UUUUGUUUUUU-3'(서열번호 100) 또는 5'-UUUUUU-3'(서열번호 101)일 수 있다.In another embodiment, the U-rich tail sequence is any one of SEQ ID NOs: 85 to 92, wherein R is A in any one of SEQ ID NOs: 77 to 84. may be made up of In addition, the sequence of the U-rich tail may be one in which R is G in any one of SEQ ID NOs: 77 to 84, and may consist of any one of SEQ ID NOs: 93 to 100. Preferably, the sequence of the U-rich tail is 5'-UUUUAUUUU-3' (SEQ ID NO: 90), 5'-UUUUAUUUUUU-3' (SEQ ID NO: 92), 5'-UUUUGUUUUUU-3' (SEQ ID NO: 100), or 5'-UUUUUU-3' (SEQ ID NO: 101).

상기 U-rich tail 서열은 PCT/KR2020/014961출원에 개시된 U-rich tail 서열일 수 있다. 이하 본 명세서에서 U-rich tail 서열을 지칭할 때, PCT/KR2020/014961출원에 개시된 상기 U-rich tail 서열에 대한 내용 및 실험 결과를 모두 포함하는 것으로 이해해야 한다.The U-rich tail sequence may be a U-rich tail sequence disclosed in the PCT/KR2020/014961 application. Hereinafter, when referring to a U-rich tail sequence in the present specification, it should be understood that the contents and experimental results of the U-rich tail sequence disclosed in the PCT/KR2020/014961 application are included.

5. 스페이서 서열 - 표적 핵산 및 표적 서열과의 관계5. Spacer Sequence - Relationship to Target Nucleic Acid and Target Sequence

상기 스페이서 서열은 표적 서열과 상보적인 서열이며, crRNA 반복 서열의 3'-말단 쪽에 연결된다. 상기 스페이서 서열은 Cas12f1 단백질이 인식하는 PAM(Protospacer Adjacent Motif) 서열과 인접한 프로토스페이서 서열(protospacer sequence)과 상동성이 있는 서열로, 상기 프로토스페이서 서열의 티미딘(T)이 유리딘(U)으로 치환된 서열을 가진다. 이때, 상기 표적 서열 및 상기 프로토스페이서 서열은 상기 표적 핵산 내 포함된 상기 PAM 서열과 인접한 서열 내에서 결정되고, 이에 따라 상기 스페이서 서열이 결정된다.The spacer sequence is a sequence complementary to the target sequence and linked to the 3'-end of the crRNA repeat sequence. The spacer sequence is a sequence homologous to a protospacer sequence adjacent to a PAM (Protospacer Adjacent Motif) sequence recognized by the Cas12f1 protein, and thymidine (T) of the protospacer sequence is converted to uridine (U). have a substituted sequence. At this time, the target sequence and the protospacer sequence are determined within a sequence adjacent to the PAM sequence included in the target nucleic acid, and the spacer sequence is determined accordingly.

일 구현예로, 상기 crRNA의 스페이서 서열 부분은 상기 표적 핵산과 상보적으로 결합할 수 있다. 일 구현예로, 상기 crRNA의 스페이서 서열 부분은 상기 표적 핵산의 표적 서열 부분과 상보적으로 결합할 수 있다. 일 구현예로, 상기 표적 핵산이 이중가닥 DNA인 경우, 상기 스페이서 서열은 상기 이중가닥 DNA의 표적 가닥(Target strand)에 포함된 표적 서열과 상보적인 서열일 수 있다. 여기서, 표적 핵산이 이중가닥 DNA인 경우, 상기 스페이서 서열은 상기 이중가닥 DNA의 비-표적가닥(Non-traget strand)에 포함된 프로토스페이서 서열과 상동성인 서열일 수 있다. In one embodiment, the spacer sequence portion of the crRNA may complementarily bind to the target nucleic acid. In one embodiment, the spacer sequence portion of the crRNA may complementarily bind to the target sequence portion of the target nucleic acid. In one embodiment, when the target nucleic acid is double-stranded DNA, the spacer sequence may be a sequence complementary to the target sequence included in the target strand of the double-stranded DNA. Here, when the target nucleic acid is double-stranded DNA, the spacer sequence may be a sequence homologous to a protospacer sequence included in a non-target strand of the double-stranded DNA.

구체적으로, 상기 스페이서 서열은 상기 프로토스페이서 서열과 동일한 염기 서열을 가지되, 상기 염기 서열에 포함된 티미딘(T) 각각이 모두 유리딘(U)으로 치환된 서열을 가질 수 있다. 일 구현예로, 상기 스페이서 서열은 상기 프로토스페이서의 DNA 서열에 상응하는 RNA 서열일 수 있다.Specifically, the spacer sequence may have the same nucleotide sequence as the protospacer sequence, but may have a sequence in which each of thymidine (T) included in the nucleotide sequence is substituted with uridine (U). In one embodiment, the spacer sequence may be an RNA sequence corresponding to the DNA sequence of the protospacer.

일 구현예로, 상기 스페이서 서열의 길이는 10 뉴클레오티드 내지 40 뉴클레오티드 길이일 수 있다. 바람직하게, 상기 스페이서 서열의 길이는 17 뉴클레오티드 내지 30 뉴클레오티드 길이일 수 있다. 보다 바람직하게, 상기 스페이서 서열의 길이는 17 뉴클레오티드 내지 23 뉴클레오티드 길이일 수 있다. In one embodiment, the length of the spacer sequence may be 10 nucleotides to 40 nucleotides in length. Preferably, the length of the spacer sequence may be 17 nucleotides to 30 nucleotides in length. More preferably, the length of the spacer sequence may be 17 nucleotides to 23 nucleotides in length.

6. 싱글 가이드 RNA 또는 듀얼 가이드 RNA6. Single Guide RNA or Dual Guide RNA

본 발명에 따른 상기 엔지니어링된 가이드 RNA(engineered gRNA)는 싱글 가이드 RNA 또는 듀얼 가이드 RNA일 수 있다. 상기 듀얼 가이드 RNA는 가이드 RNA가 tracrRNA 및 crRNA의 두 분자 RNA로 구성된 것을 의미한다. 상기 싱글 가이드 RNA는 엔지니어링된 tracrRNA의 3'-말단 및 엔지니어링된 crRNA의 5'-말단이 링커를 통해 연결된 것을 의미한다. The engineered guide RNA according to the present invention may be single guide RNA or dual guide RNA. The dual guide RNA means that the guide RNA is composed of two molecules of RNA, tracrRNA and crRNA. The single guide RNA means that the 3'-end of the engineered tracrRNA and the 5'-end of the engineered crRNA are connected through a linker.

일 구체예에서, 상기 엔지니어링된 싱글 가이드 RNA(sgRNA)는 링커 서열을 추가적으로 더 포함하고, tracrRNA 서열 및 crRNA 서열이 링커 서열을 통해 연결될 수 있다. 바람직하게, 엔지니어링된 스캐폴드에 포함된 제4 영역의 3'-말단 및 제5 영역의 5'-말단이 링커를 통해 연결된 것을 포함할 수 있다. 보다 바람직하게, 제4 영역의 3'-말단 및 제5 영역의 5'-말단이 링커 5'-GAAA-3'로 연결될 수 있다. In one embodiment, the engineered single guide RNA (sgRNA) further includes a linker sequence, and the tracrRNA sequence and the crRNA sequence may be linked through the linker sequence. Preferably, the 3'-end of the fourth region and the 5'-end of the fifth region included in the engineered scaffold may be connected through a linker. More preferably, the 3'-end of the fourth region and the 5'-end of the fifth region may be linked by a linker 5'-GAAA-3'.

일 구체예에서, 상기 싱글 가이드 RNA의 서열은 5'-말단에서 3'-말단 방향으로, tracrRNA 서열, 링커 서열, crRNA 서열 및 U-rich tail 서열이 순차적으로 연결되어 있다. 상기 tracrRNA 서열의 일부 및 상기 crRNA 서열에 포함된 CRISPR RNA 반복 서열의 전부 및 일부는 서로 상보적인 서열을 가진다. 보다 구체적으로, 상기 싱글 가이드 RNA는 서열번호 55 내지 59로 이루어진 군에서 선택된 서열을 가질 수 있다.In one embodiment, in the sequence of the single guide RNA, a tracrRNA sequence, a linker sequence, a crRNA sequence, and a U-rich tail sequence are sequentially connected from the 5'-end to the 3'-end. A portion of the tracrRNA sequence and all or a portion of the CRISPR RNA repeat sequence included in the crRNA sequence have sequences complementary to each other. More specifically, the single guide RNA may have a sequence selected from the group consisting of SEQ ID NOs: 55 to 59.

또한, 본 발명에서 제공되는 엔지니어링된 가이드 RNA(engineered gRNA)는 상기 tracrRNA 및 상기 crRNA가 별개의 RNA 분자를 이루고 있는 듀얼 가이드 RNA일 수 있다. 이 때, 상기 tracrRNA의 일부 및 상기 crRNA의 일부는 서로 상보적인 서열을 가져 이중가닥 RNA를 형성할 수 있다. 보다 구체적으로, 상기 듀얼 가이드 RNA에서 상기 tracrRNA의 3'-말단을 포함하는 일부 및 상기 crRNA의 CRISPR RNA 반복 서열을 포함하는 일부가 이중가닥을 형성할 수 있다. In addition, the engineered gRNA provided in the present invention may be a dual guide RNA in which the tracrRNA and the crRNA form separate RNA molecules. In this case, a part of the tracrRNA and a part of the crRNA may have complementary sequences to form a double-stranded RNA. More specifically, in the dual guide RNA, a portion including the 3'-end of the tracrRNA and a portion including the CRISPR RNA repeat sequence of the crRNA may form a double strand.

상기 엔지니어링된 가이드 RNA는 Cas12f1 단백질과 결합하여 CRISPR/Cas12f1 복합체를 형성할 수 있으며, 상기 crRNA 서열에 포함된 스페이서 서열과 상보적인 표적 서열을 인식하여 상기 표적 서열을 포함하는 표적 핵산을 편집할 수 있도록 한다.The engineered guide RNA can bind to the Cas12f1 protein to form a CRISPR/Cas12f1 complex, recognize a target sequence complementary to a spacer sequence included in the crRNA sequence, and edit a target nucleic acid containing the target sequence. do.

일 예로, 상기 tracrRNA의 서열은 상기 CRISPR RNA 반복 서열과 0개 내지 20개의 미스매치가 있는 상보적인 서열을 포함할 수 있다. 바람직하게, 상기 tracrRNA 서열은 상기 CRISPR RNA 반복 서열과 0개 내지 8개 또는 8개 내지 12개의 미스매치가 있는 상보적인 서열을 포함할 수 있다.For example, the sequence of the tracrRNA may include a complementary sequence having 0 to 20 mismatches with the CRISPR RNA repeat sequence. Preferably, the tracrRNA sequence may include a complementary sequence having 0 to 8 or 8 to 12 mismatches with the CRISPR RNA repeat sequence.

7. 싱글 가이드 RNA를 만들기 위한 변형7. Modifications to make single guide RNAs

본 발명에서 제공하는 엔지니어링된 가이드 RNA(engineered gRNA)는 한 분자의 싱글 가이드 RNA일 수 있다. 이에, 상기 엔지니어링된 스캐폴드 영역은 각 영역 중 하나 이상이 변형된 것이고, 추가적으로 tracrRNA 제4영역의 3'-말단 및 crRNA 제5 영역의 5'-말단이 링커를 통해 연결된 것일 수 있다.The engineered guide RNA provided by the present invention may be a single guide RNA of one molecule. Thus, the engineered scaffold region may be one or more of each region modified, and additionally, the 3'-end of the fourth region of tracrRNA and the 5'-end of the fifth region of crRNA may be connected through a linker.

일 구현예로, 상기 엔지니어링된 스캐폴드 영역은 자연계에서 발견되는 스캐폴드 영역에서 한 군데 이상이 변형되고, 상기 제4 영역의 3'-말단 및 상기 제5 영역의 5'-말단이 링커를 통해 연결된 것일 수 있다. 이때, 상기 링커는 5'-GAAA-3'일 수 있다In one embodiment, the engineered scaffold region is modified at one or more places in the scaffold region found in nature, and the 3'-end of the fourth region and the 5'-end of the fifth region are linked via a linker. may be connected. At this time, the linker may be 5'-GAAA-3'

또한 일 구현예로, 상기 엔지니어링된 스캐폴드 영역은 자연계에서 발견되는 스캐폴드 영역의 각 부분에 대응하는 영역을 포함한다. 구체적으로, 상기 엔지니어링된 스캐폴드 영역은 제1 영역, 제2 영역, 제3 영역, 제4 영역, 제5 영역, 및 제6 영역을 포함하며, 이는 자연계에서 발견되는 스캐폴드 영역에 포함된 제1영역 내지 제6 영역에 각각 대응된다.Further, in one embodiment, the engineered scaffold region includes a region corresponding to each part of a scaffold region found in nature. Specifically, the engineered scaffold region includes a first region, a second region, a third region, a fourth region, a fifth region, and a sixth region, which are included in scaffold regions found in nature. Areas 1 to 6 correspond to each other.

일 구현예로, 상기 엔지니어링된 스캐폴드 영역은 자연계에서 발견되는 스캐폴드 영역 중 제1 영역 및/또는 제2 영역에 대응되는 영역을 포함하지 않을 수 있다.In one embodiment, the engineered scaffold region may not include a region corresponding to the first region and/or the second region among scaffold regions found in nature.

이하 엔지니어링된 스캐폴드 영역에서의 그 변형을 자세히 설명한다. The modification in the engineered scaffold region is described in detail below.

7-1. 스캐폴드 제1 영역에서의 변형7-1. Deformation in scaffold first region

일 구현예로, 상기 엔지니어링된 Cas12f1 가이드 RNA에 포함된 엔지니어링된 스캐폴드 영역은, 자연계에서 발견되는 스캐폴드 영역 중 제1 영역에 포함된 하나 이상의 뉴클레오타이드가 제거된 것을 포함할 수 있다. 보다 구체적으로, 상기 제거된 뉴클레오타이드는 상기 자연계에서 발견되는 제1 영역 중 CRISPR/Cas12f1 복합체에서 Stem 구조를 형성 부분에 포함된 뉴클레오타이드일 수 있다. In one embodiment, the engineered scaffold region included in the engineered Cas12f1 guide RNA may include one or more nucleotides included in the first region among scaffold regions found in nature are removed. More specifically, the removed nucleotide may be a nucleotide included in a portion forming a stem structure in the CRISPR/Cas12f1 complex among the first regions found in nature.

일 구현예로, 상기 제거된 뉴클레오타이드는 상기 자연계에서 발견되는 제1영역 중 Stem 1 (Takeda et al., Structure of the miniature type V-F CRISPR-Cas effector enzyme, Molecular Cell 81, 1-13 (2021))에 속하는 뉴클레오타이드일 수있다. 일 구현예로, 상기 제거된 뉴클레오타이드는 상기 자연계에서 발견되는 제1영역 중 CRISPR/Cas12f1 복합체에서 Cas12f1 단백질과 상호작용하지 않는 뉴클레오타이드일 수 있다. In one embodiment, the removed nucleotide is Stem 1 of the first region found in nature (Takeda et al., Structure of the miniature type V-F CRISPR-Cas effector enzyme, Molecular Cell 81, 1-13 (2021)) It may be a nucleotide belonging to In one embodiment, the removed nucleotide may be a nucleotide that does not interact with the Cas12f1 protein in the CRISPR/Cas12f1 complex in the first region found in nature.

일 구체예로, 상기 변형된 제1 영역은 (MS3 부분, 1-21 부위)은 5'-CUUCACUGAUAAAGUGGAGAA-3'(서열번호 24) 서열 또는 서열번호 24 서열의 일부 서열일 수 있다. In one embodiment, the modified first region (MS3 region, 1-21 region) may be a 5'-CUUCACUGAUAAAGUGGAGAA-3' (SEQ ID NO: 24) sequence or a partial sequence of SEQ ID NO: 24 sequence.

예를들어, 5'-말단에서 3'-말단 방향으로, 5'-A-3', 5'-AA-3', 5'-GAA-3', 5'-AGAA-3', 5'-GAGAA-3', 5'-GGAGAA-3', 5'-UGGAGAA-3', 5'-GUGG AGAA-3', 5'-AGUGGAGAA-3‘와 같이, 상기 서열번호 24 서열의 일부 서열은 서열번호 24 서열의 5'-말단의 이 순차적으로 제거되고 남은 3'-말단부에서 순차적인 일부 서열일 수 있다. For example, from the 5'-end to the 3'-end, 5'-A-3', 5'-AA-3', 5'-GAA-3', 5'-AGAA-3', 5' Some sequences of the sequence of SEQ ID NO: 24, such as -GAGAA-3', 5'-GGAGAA-3', 5'-UGGAGAA-3', 5'-GUGG AGAA-3', 5'-AGUGGAGAA-3' The 5'-end of the sequence of SEQ ID NO: 24 is sequentially removed, and the remaining 3'-end may be a sequential partial sequence.

7-2. 스캐폴드 제2 영역에서의 변형7-2. Deformation in Scaffold Second Region

또 다른 일 구현예로, 상기 엔지니어링된 스캐폴드 영역은 변형된 제2 영역을 포함할 수 있다. 이때, 상기 변형된 제2 영역은 자연계에서 발견되는 스캐폴드 영역의 제2 영역에서 하나 이상의 뉴클레오타이드가 제거된 것이다. 이때, 상기 제거된 뉴클레오타이드는 CRISPR/Cas12f1 복합체에서 Stem 구조를 형성하는 영역에서 선택된 뉴클레오타이드이다.In another embodiment, the engineered scaffold region may include a modified second region. In this case, the modified second region is one in which one or more nucleotides are removed from the second region of the scaffold region found in nature. In this case, the removed nucleotide is a nucleotide selected from a region forming a stem structure in the CRISPR/Cas12f1 complex.

일 구현예로, 상기 뉴클레오타이드의 제거는 상기 자연계에서 발견되는 제2 영역 중 Stem 구조를 형성하는 부분에서 일어난 것이고, 뉴클레오타이드가 베이스 페어 단위로 제거된 것일 수 있다. 일 구현예로, 상기 제거된 뉴클레오타이드는 상기 자연계에서 발견되는 제2 영역 중 CRISPR/Cas12f1 복합체에서 Stem 구조를 형성하는 부분에 포함된 뉴클레오타이드일 수 있다. In one embodiment, the removal of nucleotides may occur in a part forming a stem structure among the second regions found in nature, and nucleotides may be removed in base pair units. In one embodiment, the removed nucleotide may be a nucleotide included in a portion forming a stem structure in the CRISPR/Cas12f1 complex among the second regions found in nature.

일 구체예로, 상기 엔지니어링된 스캐폴드 영역의 변형된 제2 영역은 제2 영역(MS5 부분, 22-71 부위)은 5'-CCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUG-3'(서열번호 25) 서열 또는 서열번호 25 서열의 일부 서열일 수 있다. 자연계에서 발견되는 스캐폴드 영역의 제2 영역에서 1개 내지 50개의 뉴클레오타이드가 제거된 것일 수 있다. In one embodiment, the modified second region (MS5 region, 22-71 region) of the engineered scaffold region is a 5'-CCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUG-3' (SEQ ID NO: 25) sequence or SEQ ID NO: 25 sequence. It may be some sequence. It may be one in which 1 to 50 nucleotides are removed from the second region of the scaffold region found in nature.

상기 서열번호 25 서열의 일부 서열은 서열번호 25 서열에서 상보적 결합을 형성하는 적어도 한 쌍 이상의 뉴클레오타이드 및/또는 상보적 결합을 형성하지 않는 적어도 하나 이상의 뉴클레오타이드가 삭제된 서열일 수 있다. 이때, 상기 서열번호 25 서열의 일부 서열 내에 포함된 루프 부분의 5'-UUAG-3' 서열은 선택적으로 5'-GAAA-3' 서열로 치환될 수 있다.Part of the sequence of SEQ ID NO: 25 may be a sequence in which at least one pair of nucleotides forming a complementary bond and/or at least one or more nucleotides not forming a complementary bond in the sequence of SEQ ID NO: 25 are deleted. At this time, the 5'-UUAG-3' sequence of the loop part included in the partial sequence of SEQ ID NO: 25 may be optionally substituted with the 5'-GAAA-3' sequence.

일 구현예로, 상기 변형된 제2 영역은 상기 자연계에서 발견되는 스캐폴드 영역의 제2 영역에서, 상기 서열번호 25의 염기서열을 기준으로, 5'-말단으로부터 1번째 내지 22번째 뉴클레오타이드 및/또는 27번째 내지 50번째 뉴클레오타이드 중 하나 이상이 제거된 것일 수 있다. 일 구현예로, 상기 변형된 제2 영역은 상기 자연계에서 발견되는 스캐폴드 영역의 제2 영역에서, 서열번호 11 서열 기준, 5'-말단으로부터 1번째 내지 22번째 뉴클레오타이드, 및/또는 27번째 내지 50번째 뉴클레오타이드 중 하나 이상이 제거되고, 23번째 내지 26번째 뉴클레오타이드가 다른 것으로 치환된 것일 수 있다.In one embodiment, the modified second region is the second region of the scaffold region found in nature, based on the nucleotide sequence of SEQ ID NO: 25, nucleotides 1 to 22 from the 5'-end and / Alternatively, one or more of the 27th to 50th nucleotides may be removed. In one embodiment, the modified second region is located in the second region of the scaffold region found in nature, based on the sequence of SEQ ID NO: 11, 1st to 22nd nucleotides from the 5'-end, and/or 27th to 27th nucleotides. One or more of the 50th nucleotides may be removed, and the 23rd to 26th nucleotides may be substituted with other ones.

또한, 본 발명에서 제공하는 엔지니어링된 스캐폴드 영역은 자연계에서 발견되는 스캐폴드 영역 중 제2 영역이 제거된 것일 수 있다. 일 구현예로, 상기 엔지니어링된 스캐폴드 영역은 자연계에서 발견되는 스캐폴드 영역의 제2 영역과 대응되는 영역이 없는 것일 수 있다.In addition, the engineered scaffold region provided by the present invention may be a scaffold region found in nature in which the second region is removed. In one embodiment, the engineered scaffold region may not have a region corresponding to a second region of a scaffold region found in nature.

일 구현예로, 상기 제2 영역이 제거된 스캐폴드 영역의 서열은 5'-CUUCACUGAUAAAGUGGAGAAGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUGAAAGAAUGAAGGAAUGCAAC-3'(서열번호 102)일 수 있다. In one embodiment, the sequence of the scaffold region from which the second region is removed may be 5'-CUUCACUGAUAAAGUGGAGAAGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUGAAAGAAUGAAGGAAUGCAAC-3' (SEQ ID NO: 102).

7-3. 스캐폴드 제3 영역에서의 변형7-3. Deformation in scaffold third area

본 발명은 일 구현예로, 상기 엔지니어링된 스캐폴드 영역은 변형된 제3 영역을 포함할 수 있다. 이때, 상기 변형된 제3 영역은 자연계에서 발견되는 스캐폴드 영역의 제3 영역에서 하나 이상의 뉴클레오타이드가 제거된 것이다. 이때, 상기 제거된 뉴클레오타이드는 CRISPR/Cas12f1 복합체에서 Stem 구조를 형성하는 영역에서 선택된 뉴클레오타이드이다.In one embodiment of the present invention, the engineered scaffold region may include a modified third region. In this case, the modified third region is one in which one or more nucleotides are removed from the third region of the scaffold region found in nature. In this case, the removed nucleotide is a nucleotide selected from a region forming a stem structure in the CRISPR/Cas12f1 complex.

일 구체예로, 상기 엔지니어링된 스캐폴드 영역의 변형된 제3 영역(MS1 앞 부분, 72-129 부위)은 5'-GGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAA-3'(서열번호 26) 서열 또는 서열번호 26 서열에 적어도 70% 이상의 서열 상동성을 가지는 서열일 수 있다. 자연계에서 발견되는 스캐폴드 영역의 제3 영역에서 1개 내지 20개의 뉴클레오타이드가 제거된 것일 수 있다. In one embodiment, the modified third region of the engineered scaffold region (pre-MS1 region, regions 72-129) is at least 70% 5'-GGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAA-3' (SEQ ID NO: 26) sequence or SEQ ID NO: 26 sequence. It may be a sequence having more than one sequence homology. It may be one in which 1 to 20 nucleotides are removed from the third region of the scaffold region found in nature.

일 구체예로, 상기 변형된 제3 영역은 상기 자연계에서 발견되는 스캐폴드 영역의 제3 영역에서, 서열번호 26의 염기서열을 기준으로 5'-말단으로부터 28번째 내지 37번째 뉴클레오타이드 및/또는 42번째 내지 51번째 뉴클레오타이드 중 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개 또는 10개의 연속된 뉴클레오타이드가 제거된 것일 수 있다.In one embodiment, the modified third region is nucleotides 28 to 37 from the 5'-end and/or 42 based on the nucleotide sequence of SEQ ID NO: 26 in the third region of the scaffold region found in nature. 1, 2, 3, 4, 5, 6, 7, 8, 9 or 10 consecutive nucleotides may be removed from the nucleotide to the 51st.

다른 일 구체예로, 상기 변형된 제3 영역은 상기 자연계에서 발견되는 스캐폴드 영역의 제3 영역에서, 서열번호 26의 염기서열을 기준으로 5'-말단으로부터 27번째 내지 36번째 뉴클레오타이드, 및 42번째 내지 51번째 뉴클레오타이드 중 CRISPR/Cas12f1 복합체에서 베이스 페어(base pair)를 이루는 한 쌍 이상의 뉴클레오타이드가 제거된 것일 수 있다.In another embodiment, the modified third region is the third region of the scaffold region found in nature, nucleotides 27 to 36 from the 5'-end based on the nucleotide sequence of SEQ ID NO: 26, and 42 One or more pairs of nucleotides forming a base pair in the CRISPR/Cas12f1 complex may be removed from among nucleotides at nucleotides 1 to 51.

또 다른 일 구체예로, 상기 변형된 제3 영역은 상기 자연계에서 발견되는 스캐폴드 영역의 제3 영역에서, 서열번호 26의 염기서열을 기준으로 5'-말단으로부터 27번째 내지 36번째 뉴클레오타이드 및 42번째 내지 51번째 뉴클레오타이드 중 CRISPR/Cas12f1 복합체에서 베이스 페어를 이루는 한 쌍 이상의 뉴클레오타이드 및/또는 베이스 페어를 이루지 않는 1개 이상의 뉴클레오타이드가 제거된 것일 수 있다.In another embodiment, the modified third region is the third region of the scaffold region found in nature, based on the nucleotide sequence of SEQ ID NO: 26, nucleotides 27 to 36 from the 5'-end and 42 One or more nucleotide pairs constituting a base pair in the CRISPR/Cas12f1 complex and/or one or more nucleotides not forming a base pair may be removed from the nucleotides to the 51st nucleotides.

일 예로, 상기 변형된 제3 영역은 5'-GCUGCUUGCAUCAGCCUAAUGUCGAG-3'(서열번호 103), 5'-UUCG-3', 및 5'-CUCGA-3' 서열을 포함하는 것을 특징으로 한다.For example, the modified third region is characterized by including 5'-GCUGCUUGCAUCAGCCUAAUGUCGAG-3' (SEQ ID NO: 103), 5'-UUCG-3', and 5'-CUCGA-3' sequences.

7-4. 스캐폴드 제4 영역 및/또는 제5영역에서의 변형7-4. Modification in scaffold fourth and/or fifth region

본 명세서에서 제공하는 엔지니어링된 스캐폴드 영역은 자연계에서 발견되는 스캐폴드 영역에서 제4 영역 및 제5 영역이 변형된 것일 수 있다. 상기 제4 영역 및 제5 영역은 CRISPR/Cas12f1 복합체 내에서 서로 혼성화되어 Stem을 구성하는 부분을 포함하므로, 해당 부분이 같이 변형되어 엔지니어링된 스캐폴드 영역을 구성할 수 있다.The engineered scaffold region provided herein may be one in which the fourth region and the fifth region are modified from scaffold regions found in nature. Since the fourth region and the fifth region include portions constituting a stem by hybridizing with each other within the CRISPR/Cas12f1 complex, the corresponding portions may be modified together to constitute an engineered scaffold region.

변형된 제4 영역은 자연계에서 발견되는 스캐폴드 영역의 제4 영역에서 하나 이상의 뉴클레오타이드가 제거된 것을 특징으로 한다. 변형된 제5 영역은 자연계에서 발견되는 스캐폴드 영역의 제5 영역에서 하나 이상의 뉴클레오타이드가 제거된 것을 특징으로 한다.The modified fourth region is characterized in that one or more nucleotides are removed from the fourth region of the scaffold region found in nature. The modified fifth region is characterized in that one or more nucleotides are removed from the fifth region of the scaffold region found in nature.

일 구현예로, 상기 변형된 제4 영역은 5'-말단 방향에 5'-AACAAA-3' 서열을 가지는 것을 특징으로 한다. 또한, 상기 변형된 제5 영역은 3'-말단 방향에 5'-GGA-3' 서열을 가지는 것을 특징으로 한다.In one embodiment, the modified fourth region is characterized in that it has a 5'-AACAAA-3' sequence in the 5'-end direction. In addition, the modified fifth region is characterized by having a 5'-GGA-3' sequence in the 3'-end direction.

다른 일 구현예로, 상기 엔지니어링된 스캐폴드 영역의 변형된 제4 영역은 자연계에서 발견되는 스캐폴드 영역의 제4 영역에서 1개 내지 7개의 뉴클레오타이드가 제거된 것일 수 있다. 일 예로, 상기 엔지니어링된 스캐폴드 영역의 변형된 제4 영역은 자연계에서 발견되는 스캐폴드 영역의 제4 영역에서 1개 내지 28개의 뉴클레오타이드가 제거된 것일 수 있다. In another embodiment, the modified fourth region of the engineered scaffold region may be obtained by removing 1 to 7 nucleotides from the fourth region of the scaffold region found in nature. For example, the modified fourth region of the engineered scaffold region may be obtained by removing 1 to 28 nucleotides from the fourth region of the scaffold region found in nature.

일 구체예로, 상기 변형된 제4 영역(MS 1, 130-169 부위)은 5'-CAAAUUCA NNNVNCCUCUCCAAUUCUGCACAA-3'(서열번호 27) 서열 또는 서열번호 27 서열의 일부 서열일 수 있다. 상기 각각의 N은 독립적으로 A, C, G 또는 U이고, 상기 V는 A, C 또는 G일 수 있다. 상기 서열번호 27 서열의 일부 서열은 상기 서열번호 27 서열 중 5'-CAAAUUCANNNVN-3'(서열번호 28) 서열을 포함하면서 3' 말단부의 일부 서열이 포함하지 않는 서열일 수 있다. 바람직하게, 상기 제4 서열은 5'- 5'-CAAAUUCANNNCN-3'(서열번호 29) 서열을 포함하면서 3' 말단부의 일부 서열이 포함하지 않는 서열일 수 있다. 여기서 상기 각각의 N은 독립적으로 A, C, G 또는 U이다. In one embodiment, the modified fourth region (MS 1, 130-169 region) may be a 5'-CAAAUUCA NNNVNCCUCUCCAAUUCUGCACAA-3' (SEQ ID NO: 27) sequence or a partial sequence of SEQ ID NO: 27 sequence. Each of N is independently A, C, G or U, and V may be A, C or G. Part of the sequence of SEQ ID NO: 27 may be a sequence that includes the 5'-CAAAUUCANNNVN-3' (SEQ ID NO: 28) sequence of the sequence of SEQ ID NO: 27 and does not include a partial sequence at the 3' end. Preferably, the fourth sequence may be a sequence that includes a 5'-5'-CAAAUUCANNNCN-3' (SEQ ID NO: 29) sequence and does not include a partial sequence at the 3' end. wherein each N is independently A, C, G or U.

상기 제4 영역에서의 변형은 자연계에서 발견되는 스캐폴드 영역의 제4 영역에서, 서열번호 27의 염기서열을 기준으로, 5'-말단으로부터 9번째 내지 15번째 뉴클레오타이드 중 하나 이상이 제거된 것일 수 있다. The modification in the fourth region may be one or more of the 9th to 15th nucleotides from the 5'-end, based on the nucleotide sequence of SEQ ID NO: 27, in the fourth region of the scaffold region found in nature. there is.

일 구현예로, 상기 변형된 제4 영역은 상기 자연계에서 발견되는 스캐폴드 영역의 제4 영역에서, 서열번호 27의 염기서열을 기준으로, 5'-말단으로부터 9번째 내지 36번째 뉴클레오타이드 중 하나 이상이 제거된 것일 수 있다.In one embodiment, the modified fourth region is one or more of the 9th to 36th nucleotides from the 5'-end, based on the nucleotide sequence of SEQ ID NO: 27, in the fourth region of the scaffold region found in nature. may have been removed.

또한, 본 발명에서 상기 변형된 제5 영역은 상기 자연계에서 발견되는 스캐폴드 영역의 제5 영역에서, 서열번호 30의 염기서열을 기준으로, 5'-말단으로부터 1번째 내지 7번째 뉴클레오타이드 중 하나 이상이 제거된 것일 수 있다. In addition, in the present invention, the modified fifth region is one or more of the 1st to 7th nucleotides from the 5'-end, based on the nucleotide sequence of SEQ ID NO: 30, in the fifth region of the scaffold region found in nature. may have been removed.

일 구현예로, 상기 변형된 제5 영역은 상기 자연계에서 발견되는 스캐폴드 영역의 제5 영역에서, 서열번호 30의 염기서열을 기준으로, 5'-말단으로부터 1번째 내지 27번째 뉴클레오타이드 중 하나 이상이 제거된 것일 수 있다. In one embodiment, the modified fifth region is one or more of nucleotides 1 to 27 from the 5'-end, based on the nucleotide sequence of SEQ ID NO: 30, in the fifth region of the scaffold region found in nature. may have been removed.

본 명세서에서 제공하는 엔지니어링된 스캐폴드 영역에서, 상기 변형된 제4 영역 및 제5 영역은 상기 자연계에서 발견되는 스캐폴드 영역의 제4 영역 및 제5 영역에서, 서열번호 27의 염기서열을 기준으로, 5'-말단으로부터 9번째 내지 15번째 및 서열번호 30의 염기서열을 기준으로, 5'-말단으로부터 1번째 내지 7번째 뉴클레오타이드 중 CRISPR/Cas12f1 복합체에서 베이스 페어를 이루는 한 쌍 이상의 뉴클레오타이드 및/또는 베이스 페어를 이루지 않는 1개 이상의 뉴클레오타이드가 제거된 것일 수 있다.In the engineered scaffold region provided herein, the modified fourth and fifth regions are based on the nucleotide sequence of SEQ ID NO: 27 in the fourth and fifth regions of the scaffold region found in nature. , Based on the 9th to 15th nucleotides from the 5'-end and the nucleotide sequence of SEQ ID NO: 30, one or more pairs of nucleotides constituting a base pair in the CRISPR / Cas12f1 complex among the 1st to 7th nucleotides from the 5'-end, and / or One or more nucleotides not forming a base pair may be removed.

일 구현예로, 상기 변형된 제4 영역 및 제5 영역은 상기 자연계에서 발견되는 스캐폴드 영역의 제4 영역 및 제5 영역에서, 서열번호 27의 염기서열을 기준으로, 5'-말단으로부터 9번째 내지 15번째 및 서열번호 30의 염기서열을 기준으로, 5'-말단으로부터 1번째 내지 7번째 뉴클레오타이드 중 CRISPR/Cas12f1 복합체에서 베이스 페어를 이루는 한 쌍 이상의 뉴클레오타이드 및/또는 미스매치인 한 쌍 이상의 뉴클레오타이드가 제거된 것일 수 있다.In one embodiment, the modified fourth and fifth regions are 9 from the 5'-end, based on the nucleotide sequence of SEQ ID NO: 27, in the fourth and fifth regions of the scaffold region found in nature. One or more pairs of nucleotides forming a base pair in the CRISPR/Cas12f1 complex among nucleotides 1 to 7 from the 5'-end and/or one or more pairs of mismatched nucleotides based on the base sequence of nucleotides 1 to 15 and SEQ ID NO: 30 may have been removed.

다른 일 구현예로, 상기 변형된 제4 영역 및 제5 영역은 상기 자연계에서 발견되는 스캐폴드 영역의 제4 영역 및 제5 영역에서, 서열번호 27의 염기서열을 기준으로 5'-말단으로부터 9번째 내지 36번째 뉴클레오타이드 및 서열번호 30의 염기서열을 기준으로 1번째 내지 27번째 뉴클레오타이드 중 CRISPR/Cas12f1 복합체에서 베이스 페어를 이루는 한 쌍 이상의 뉴클레오타이드 및/또는 베이스 페어를 이루지 않는 1개 이상의 뉴클레오타이드가 제거된 것일 수 있다.In another embodiment, the modified fourth and fifth regions are 9 from the 5'-end based on the nucleotide sequence of SEQ ID NO: 27 in the fourth and fifth regions of the scaffold region found in nature. Based on nucleotides 36 to 36 and nucleotides 1 to 27 based on the nucleotide sequence of SEQ ID NO: 30, one or more pairs of nucleotides forming a base pair in the CRISPR/Cas12f1 complex and/or one or more nucleotides not forming a base pair are removed. it could be

일 구체예로, 상기 변형된 제4 영역의 서열은 5'-AACAAA-3', 5'-AACAAAU-3', 5'-AACAAAUU-3', 5'-AACAAAUUC-3', 5'-AACAAAUUCA-3'(서열번호 104), 5'-AACAA AUUCAU-3'(서열번호 105) 또는 5'-AACAAAUUCAUU-3'(서열번호 106)일 수 있다. 또한, 상기 변형된 제5 영역의 서열은 5'-GGA-3', 5'-AGGA-3', 5'-AAGGA-3', 5'-GAAGGA-3', 5'-UGAAGGA-3', 5'-AUGAAGGA-3' 또는 5'-AAUGAAGGA-3'일 수 있다.In one embodiment, the sequence of the modified fourth region is 5'-AACAAA-3', 5'-AACAAAU-3', 5'-AACAAAUU-3', 5'-AACAAAUUC-3', 5'-AACAAAUUCA -3' (SEQ ID NO: 104), 5'-AACAA AUUCAU-3' (SEQ ID NO: 105) or 5'-AACAAAUUCAUU-3' (SEQ ID NO: 106). In addition, the sequence of the modified fifth region is 5'-GGA-3', 5'-AGGA-3', 5'-AAGGA-3', 5'-GAAGGA-3', 5'-UGAAGGA-3' , 5'-AUGAAGGA-3' or 5'-AAUGAAGGA-3'.

다른 일 구체예로, 제4 영역 및 제5 영역이 변형된 엔지니어링된 스캐폴드 영역은 5'-말단에서 3'말단 방향으로, 5'-AACAAA-3', 5'-AACAAAU-3', 5'-AACAAAUU-3' 및 5'-AACAAAUUC-3', 5'-AACAAAUUCA-3'(서열번호 104), 5'-AACAAAUUCAU-3'(서열번호 105) 및 5'-AACAAAUUCAUU-3'(서열번호 106) 군에서 선택된 서열이 연결된 서열; 및 5'-말단에서 3'말단 방향으로, 5'-GGA-3', 5'-AGGA-3', 5'-AAGGA-3', 5'-GAAGGA-3', 5'-UGAAGGA-3', 5'-AUGAAGGA-3' 및 5'-AAUGAAGGA-3'로 이루어진 군에서 선택된 서열; 및 5'-AUGCAAC-3'가 연결된 서열을 포함하는 핵산일 수 있다. In another embodiment, the engineered scaffold region in which the fourth region and the fifth region are modified is 5'-AACAAA-3', 5'-AACAAAU-3', 5'-AACAAA-3', 5'-terminal to 3'-terminal direction. '-AACAAAUU-3' and 5'-AACAAAUUC-3', 5'-AACAAAUUCA-3' (SEQ ID NO: 104), 5'-AACAAAUUCAU-3' (SEQ ID NO: 105) and 5'-AACAAAUUCAUU-3' (SEQ ID NO: 104) No. 106) sequences selected from the group are linked; And from the 5'-end to the 3' end, 5'-GGA-3', 5'-AGGA-3', 5'-AAGGA-3', 5'-GAAGGA-3', 5'-UGAAGGA-3 A sequence selected from the group consisting of ', 5'-AUGAAGGA-3' and 5'-AAUGAAGGA-3'; And 5'-AUGCAAC-3' may be a nucleic acid comprising a linked sequence.

7-5. 스캐폴드 제6 영역에서의 변형7-5. Deformation in scaffold region 6

본 명세서에서 제공하는 엔지니어링된 스캐폴드에서 제6 영역은 PK(R:AR-1) 부분 중 crRNA에 속한 뉴클레오타이드를 포함하는 영역이다. 전술한 바, 상기 제6 영역은 CRISPR/Cas12f1 복합체에서, 이량체를 이루는 하나의 Cas12f1 단백질의 WED 도메인, ZF 도메인 및/또는 RuvC 도메인과 상호작용하는 하나 이상의 뉴클레오타이드를 포함한다. 상기 엔지니어링된 스캐폴드의 제6 영역은 자연계에서 발견되는 스캐폴드의 제6 영역과 동일하거나, 상기 제6 영역의 기능이 손상되지 않는 한도 내에서 변형된 것일 수 있다. In the engineered scaffold provided herein, the sixth region is a region including nucleotides belonging to crRNA among PK(R:AR-1) parts. As described above, the sixth region includes one or more nucleotides interacting with the WED domain, ZF domain and/or RuvC domain of one Cas12f1 protein constituting a dimer in the CRISPR/Cas12f1 complex. The sixth region of the engineered scaffold may be the same as the sixth region of the scaffold found in nature, or may be modified within the extent that the function of the sixth region is not damaged.

일 구체예로, 상기 제6 영역은 5'-AUGCAAC-3' (서열번호 33) 서열 또는 5'-AUGCAAC-3' 서열에 적어도 70% 이상의 서열 동일성 또는 서열 유사성을 가지는 서열일 수 있다.In one embodiment, the sixth region may be a 5'-AUGCAAC-3' (SEQ ID NO: 33) sequence or a sequence having at least 70% sequence identity or sequence similarity to the 5'-AUGCAAC-3' sequence.

7-6. 가이드 RNA의 제7 영역에서의 변형7-6. Modifications in the 7th region of the guide RNA

본 발명에 따른 가이드 RNA의 제7 영역에서의 변형은 CRISPR/Cas12f1 시스템의 유전자 편집 효율 향상을 위해 crRNA의 3'-말단에 U-rich tail 서열의 제공을 포함한다. 상기 U-rich tail 서열은 기본적으로 유리딘을 풍부하게 포함하고 있는 것을 특징으로 하며, 유리딘이 하나 이상연속된 서열을 포함한다.Modification in the seventh region of the guide RNA according to the present invention includes providing a U-rich tail sequence at the 3'-end of the crRNA to improve gene editing efficiency of the CRISPR/Cas12f1 system. The U-rich tail sequence is basically characterized in that it contains uridine abundantly, and includes a sequence in which one or more uridines are contiguous.

본 발명에 따른 상기 엔지니어링된 crRNA는 crRNA의 3'-말단에 제7 영역으로써, U-rich tail 서열을 추가로 더 포함할 수 있다. 상기 Urich tail 서열은 5'-(UaN)dUe-3' 서열, 5'-UaVUaVUe-3' 서열 또는 5'-UaVUaVUaVUe-3' 서열일 수 있다. 상기 N은 A, C, G 또는 U일 수 있다. 상기 각각의 V는 독립적으로 A, C 또는 G일 수 있다. 상기 a는 0 내지 4의 정수일 수 있다. 상기 d는 0 내지 3의 정수일 수 있다. 상기 e는 0 내지 10의 정수일 수 있다.The engineered crRNA according to the present invention may further include a U-rich tail sequence as a seventh region at the 3'-end of the crRNA. The Urich tail sequence may be a 5'-(UaN)dUe-3' sequence, a 5'-UaVUaVUe-3' sequence, or a 5'-UaVUaVUaVUe-3' sequence. The N may be A, C, G or U. Each V may independently be A, C or G. The a may be an integer of 0 to 4. d may be an integer of 0 to 3. The e may be an integer from 0 to 10.

일 구현예로, 상기 U-rich tail 서열은 1 내지 10개의 유리딘 반복 서열을 포함할 수 있다. 상기 U-rich tail 서열은 엔지니어링된CRISPR/Cas12f1 시스템의 실제 사용 환경 및 발현 환경, 예를 들어, 진핵 세포 또는 원핵 세포 내부 환경에 따라 유리딘 외 추가적인 염기를 더 포함할 수 있다. In one embodiment, the U-rich tail sequence may include 1 to 10 uridine repeat sequences. The U-rich tail sequence may further include additional bases other than uridine, depending on the actual use environment and expression environment of the engineered CRISPR/Cas12f1 system, for example, the internal environment of eukaryotic cells or prokaryotic cells.

일 구체예로, 상기 U-rich tail 서열은 UV, UUV, UUUV 및/또는 UUUUV가 하나 이상 반복된 서열을 포함할 수 있다. 이때, 상기 V는 아데노신(A), 시티딘(C), 구아노신(G) 중 하나이다. 상기 U-rich tail 서열은 CRISPR/Cas12f1 시스템에 포함된 crRNA 서열의 3'-말단에 연결된 것을 특징으로 한다. In one embodiment, the U-rich tail sequence may include a sequence in which one or more of UV, UUV, UUUV and/or UUUUV are repeated. At this time, the V is one of adenosine (A), cytidine (C), and guanosine (G). The U-rich tail sequence is characterized in that it is linked to the 3'-end of the crRNA sequence included in the CRISPR/Cas12f1 system.

상기 U-rich tail 서열은 본 발명에서 제공하는 엔지니어링된 CRISPR/Cas12f1 복합체의 표적 핵산에 대한 절단 효율을 높이는 역할을 한다. 이때, 상기 표적 핵산은 단일가닥 DNA, 이중가닥 DNA 및/또는 RNA일 수 있다. The U-rich tail sequence serves to increase the efficiency of cleavage of the target nucleic acid of the engineered CRISPR/Cas12f1 complex provided in the present invention. In this case, the target nucleic acid may be single-stranded DNA, double-stranded DNA and/or RNA.

본 명세서에서 사용되는 "tail 서열"이라는 용어는, 유리딘(U)이 풍부하게 포함된 RNA 서열 그 자체뿐 아니라, 이를 암호화하는 DNA 서열을 의미할 수도 있으며, 이는 문맥에 따라서 적절하게 해석된다. 본 발명자들은 U-rich tail 서열의 구조 및 그 효과에 대해 실험적으로 자세히 밝혔으며, 이하 구체적인 구현예로 더 자세히 설명한다.The term "tail sequence" used herein may mean not only the RNA sequence itself rich in uridine (U), but also the DNA sequence encoding it, which is appropriately interpreted depending on the context. The present inventors experimentally revealed the structure of the U-rich tail sequence and its effect in detail, and will be described in detail with specific embodiments below.

일 구현예로, 상기 U-rich tail 서열은 Ux로 표현될 수 있다. 상기 x는 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20일 수 있다. 일 예로, 상기 x는 바로 이전 문장에서 선택된 두 수치 범위 내의 정수일 수 있다. 예를 들어, 상기 x는 1 내지 6 사이의 정수일 수 있다. 또한, 상기 x는 1 내지 20 사이의 정수일 수 있다. 일 예로, 상기 x는 20 이상의 정수일 수 있다.In one embodiment, the U-rich tail sequence may be expressed as Ux. The x may be 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, or 20. For example, the x may be an integer within a range of two values selected in the immediately preceding sentence. For example, x may be an integer between 1 and 6. In addition, x may be an integer between 1 and 20. For example, x may be an integer of 20 or greater.

일 구체예로, 상기 U-rich tail 서열은 (UaN)nUb로 표현될 수 있다. 이때, 상기 N은 아데노신(A), 유라실(U), 사이티딘(C), 구아노신(G) 중 하나이다. 이때, 상기 a는 1 내지 5 사이의 정수이고, n은 0 이상의 정수이다. 또한, 상기 n은 0 내지 2 사이의 정수일 수 있다. 상기 b는 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10일 수 있다. 또한, 상기 b는 바로 이전 문장에서 선택된 두 수치범위 내의 정수일 수 있다. 예를 들어, 상기 b는 1 내지 6 사이의 정수일 수 있다.In one embodiment, the U-rich tail sequence may be expressed as (UaN)nUb. In this case, N is one of adenosine (A), uracil (U), cytidine (C), and guanosine (G). In this case, a is an integer between 1 and 5, and n is an integer greater than or equal to 0. Also, n may be an integer between 0 and 2. The b may be 1, 2, 3, 4, 5, 6, 7, 8, 9 or 10. Also, b may be an integer within two numerical ranges selected in the immediately preceding sentence. For example, b may be an integer between 1 and 6.

일 구체예로, 상기 U-rich tail 서열은 (UaV)nUb로 표현될 수 있다. 이때, 상기 V는 아데노신(A), 사이티딘(C), 구아노신(G) 중 하나이다. 이때, 상기 a는 1 내지 4 사이의 정수이고, n은 0 이상의 정수이다. 또한, 상기 n은 1 또는 2일 수 있다. 상기 b는 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20일 수 있다. 또한, 상기 b는 바로 이전 문장에서 선택된 두 수치범위 내의 정수일 수 있다. 예를 들어, 상기 b는 1 내지 6 사이의 정수일 수 있고, 상기 b는 1 내지 20 사이의 정수일 수 있으며, 상기 b는 20 이상의 정수일 수 있다.In one embodiment, the U-rich tail sequence may be expressed as (UaV)nUb. At this time, the V is one of adenosine (A), cytidine (C), and guanosine (G). In this case, a is an integer between 1 and 4, and n is an integer greater than or equal to 0. Also, n may be 1 or 2. b may be 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, or 20. Also, b may be an integer within two numerical ranges selected in the immediately preceding sentence. For example, the b may be an integer between 1 and 6, the b may be an integer between 1 and 20, and the b may be an integer greater than or equal to 20.

일 구현예로, 상기 U-rich tail 서열은 Ux로 표현되는 서열 및 (UaV)n로 표현되는 서열이 조합된 형태일 수 있다. 일 예로, 상기 U-rich tail 서열은 U)n1-V1-(U)n2-V2-Ux로 표현될 수 있다. 이때, 상기 V1 및 V2는 각각 아데닌(A), 시티딘(C), 구아닌(G) 중 하나이다. 이때, 상기 n1, 및 n2는 각각 1 내지 4 사이의 정수일 수 있다. 이때, 상기 x는 1 내지 20 사이의 정수일 수 있다.In one embodiment, the U-rich tail sequence may be a combination of a sequence represented by Ux and a sequence represented by (UaV)n. For example, the U-rich tail sequence may be expressed as U)n1-V1-(U)n2-V2-Ux. In this case, V1 and V2 are each one of adenine (A), cytidine (C), and guanine (G). In this case, n1 and n2 may each be an integer between 1 and 4. In this case, x may be an integer between 1 and 20.

일 구현예로, 상기 U-rich tail 서열의 길이는 1nt, 2nt, 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt 또는 20nt일 수 있다. 일 구현예로, 상기 U-rich tail 서열의 길이는 20nt 이상일 수 있다.In one embodiment, the length of the U-rich tail sequence is 1nt, 2nt, 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, It may be 19nt or 20nt. In one embodiment, the length of the U-rich tail sequence may be 20 nt or more.

일 구체예로, 상기 U-rich tail의 서열은 5'-U-3', 5'-UU-3', 5'-UUU-3', 5'-UUUU-3', 5'-UUUUU-3', 5'-UUUUUU-3', 5'-UUURUUU-3'(서열번호 77), 5'-UUURUUURUUU-3'(서열번호 78), 5'-UUUURU-3'(서열번호 79), 5'-UUUURUU-3'(서열번호 80), 5'-UUUURUUU-3'(서열번호 81), 5'-UUUURUUUU-3'(서열번호 82), 5'-UUUURUUUUU-3'(서열번호 83), 또는 5'-UUUURUUUUUU-3'(서열번호 84)일 수 있다. 여기서 R은 A 또는 G일 수 있다. In one embodiment, the sequence of the U-rich tail is 5'-U-3', 5'-UU-3', 5'-UUU-3', 5'-UUUU-3', 5'-UUUUU- 3', 5'-UUUUUU-3', 5'-UUURUUU-3' (SEQ ID NO: 77), 5'-UUURUUURUUU-3' (SEQ ID NO: 78), 5'-UUUURU-3' (SEQ ID NO: 79), 5'-UUUURUU-3' (SEQ ID NO: 80), 5'-UUUURUUU-3' (SEQ ID NO: 81), 5'-UUUURUUUU-3' (SEQ ID NO: 82), 5'-UUUURUUUUU-3' (SEQ ID NO: 83 ), or 5'-UUUURUUUUUU-3' (SEQ ID NO: 84). Where R can be A or G.

바람직하게, 상기 U-rich tail의 서열은 상기 서열번호 77 내지 84 중 어느 하나의 염기서열에서 상기 R이 A인 것인 것으로, 서열번호 85 내지 서열번호 92 중 어느 하나의 염기서열로 이루어진 것일 수 있다. Preferably, the sequence of the U-rich tail is one in which R is A in any one of SEQ ID NOs: 77 to 84, and may consist of any one of SEQ ID NOs: 85 to 92. there is.

또한, 상기 U-rich tail의 서열은 상기 서열번호 77 내지 84 중 어느 하나의 염기서열에서 상기 R이 G인 것인 것으로, 서열번호 93 내지 서열번호 100 중 어느 하나의 염기서열로 이루어진 것일 수 있다. In addition, the sequence of the U-rich tail is that the R is G in any one of the base sequences of SEQ ID NOs: 77 to 84, and may consist of any one of SEQ ID NOs: 93 to 100. .

가장 바람직하게, 상기 U-rich tail의 서열은 5'-UUUUAUUUU-3' (서열번호 90), 5'-UUUUAUUUUUU-3' (서열번호 92), 5'-UUUUGUUUUUU-3' (서열번호 100) 또는 5'-UUUUUU-3' (서열번호 101)일 수 있다. Most preferably, the sequence of the U-rich tail is 5'-UUUUAUUUU-3' (SEQ ID NO: 90), 5'-UUUUAUUUUUU-3' (SEQ ID NO: 92), 5'-UUUUGUUUUUU-3' (SEQ ID NO: 100) or 5'-UUUUUU-3' (SEQ ID NO: 101).

8. 추가 서열(additional sequence)8. Additional sequences

본 발명의 상기 엔지니어링된 tracrRNA는 추가 서열(additional sequence)을 선택적으로 더 포함할 수 있다. 상기 추가 서열은 엔지니어링된 tracrRNA의 3'-말단에 위치할 수 있다. 상기 추가 서열은 상기 제4 영역의 3'-말단에 위치할 수 있다. 상기 추가 서열은 또한 엔지니어링된 tracrRNA의 5'-말단에 위치할 수 있다. 상기 추가 서열은 상기 제1 영역의 5'-말단에 위치할 수 있다.The engineered tracrRNA of the present invention may optionally further include an additional sequence. The additional sequence may be located at the 3'-end of the engineered tracrRNA. The additional sequence may be located at the 3'-end of the fourth region. The additional sequence may also be located at the 5'-end of the engineered tracrRNA. The additional sequence may be located at the 5'-end of the first region.

상기 추가 서열은 1개 내지 40개의 뉴클레오타이드일 수 있다. The additional sequence may be from 1 to 40 nucleotides.

일 구현예로서, 상기 추가 서열은 임의의 뉴클레오타이드 서열 또는 임의로 배열된 뉴클레오타이드 서열일 수 있다. 예를 들어, 상기 추가 서열은 5'-AUAAAGGUGA-3' (서열번호 107) 서열일 수 있다. In one embodiment, the additional sequence may be any nucleotide sequence or any arrangement of nucleotide sequences. For example, the additional sequence may be the sequence 5'-AUAAAGGUGA-3' (SEQ ID NO: 107).

상기 추가 서열은 공지된 뉴클레오타이드 서열일 수 있다. The additional sequence may be a known nucleotide sequence.

일 구현예로, 상기 추가 서열은 hammerhead ribozyme 뉴클레오타이드 서열일 수 있다. 여기서, 상기 hammerhead ribozyme 뉴클레오타이드 서열은 5'-CUGAUGAGUCCGUGAGGACGAAACGAGUAAGCUCGUC-3' (서열번호 108) 서열 또는 5'-CUGCUCGAAUGAGCAAAGCAGGAGUGCCUGAGUAGUC-3' (서열번호 109) 서열일 수 있다. 상기 예시는 단순 예시로, 이에 제한되지 않는다.In one embodiment, the additional sequence may be a hammerhead ribozyme nucleotide sequence. Here, the hammerhead ribozyme nucleotide sequence may be a 5'-CUGAUGAGUCCGUGAGGACGAAACGAGUAAGCUCGUC-3' (SEQ ID NO: 108) sequence or a 5'-CUGCUCGAAUGAGCAAGCAGGAGUGCCUGAGUAGUC-3' (SEQ ID NO: 109) sequence. The above example is a simple example, and is not limited thereto.

9. 화학적 변형(Chemical modification)9. Chemical modification

본 발명에 따른 상기 엔지니어링된 tracrRNA 또는 crRNA는 필요에 따라 선택적으로 적어도 하나 이상의 뉴클레오타이드가 화학적 변형을 가질할 수 있다. 이때, 상기 화학적 변형은 뉴클레오타이드의 염기 및/또는 당에서 발생할 수 있는 다양한 공유 결합의 변형일 수 있다. The engineered tracrRNA or crRNA according to the present invention may optionally have at least one nucleotide chemically modified, if necessary. In this case, the chemical modification may be modification of various covalent bonds that may occur in bases and/or sugars of nucleotides.

일 예로, 상기 화학적 변형은 methylation, halogenation, acetylation, phosphorylation, phosphorothioate linkage, locked nucleic acid(LNA), 2'-O-methyl 3'phosphorothioate(MS) 또는 2'-O-methyl 3'thioPACE(MSP)일 수 있다. 상기 예시는 단순 예시로, 이에 제한되지 않는다.For example, the chemical modification is methylation, halogenation, acetylation, phosphorylation, phosphorothioate linkage, locked nucleic acid (LNA), 2'-O-methyl 3'phosphorothioate (MS) or 2'-O-methyl 3'thioPACE (MSP) can be The above example is a simple example, and is not limited thereto.

본 발명에 따른 엔지니어링된 가이드 RNA를 CRISPR/Cas12f1 시스템에 사용하는 경우, 자연계에서 발견되는 가이드 RNA를 사용하는 경우에 비해 세포 내에서 표적 핵산 또는 표적 유전자의 염기 편집 또는 변형을 극적으로 향상되는 효과가 나타난다. When the engineered guide RNA according to the present invention is used in the CRISPR/Cas12f1 system, compared to the case of using a guide RNA found in nature, the base editing or modification of target nucleic acid or target gene in cells is dramatically improved. appear.

무엇보다 상기 엔지니어링된 RNA는 Guide RNA의 길이 최적화 및 이에 따른 guide RNA 합성 비용 절감, 바이러스 벡터에 삽입 시 추가 공간(용량) 확보, tracrRNA의 정상적인 발현, 기능(작동) 가능한 guide RNA 발현 증가, guide RNA의 stability 증가, guide RNA-Cas12f1 protein complex의 안정성 증가, 효과적인 guide RNA-Cas12f1 protein complex 형성 유도, CRISPR/Cas12f1(Cas14a1) system에 의한 표적 핵산의 절단 효율 증가 및 CRISPR/Cas12f1(Cas14a1) system에 의한 표적 핵산의 염기 교정 또는 변형의 증가된 효과를 수반할 수 있다. Above all, the above engineered RNA optimizes the length of guide RNA and thus reduces the cost of guide RNA synthesis, secures additional space (capacity) when inserted into a viral vector, normal expression of tracrRNA, increases expression of guide RNA capable of functioning (operating), guide RNA stability of the guide RNA-Cas12f1 protein complex, induction of effective guide RNA-Cas12f1 protein complex formation, increased cleavage efficiency of target nucleic acids by the CRISPR/Cas12f1 (Cas14a1) system, and target by the CRISPR/Cas12f1 (Cas14a1) system Increased effect of base correction or modification of a nucleic acid.

이에 따라, 상기 엔지니어링된 Cas12f1 가이드 RNA를 사용하면 전술한 종래 기술의 한계점을 극복하여 세포 내에서 높은 효율로 유전자를 편집할 수 있다. Accordingly, when the engineered Cas12f1 guide RNA is used, it is possible to edit genes with high efficiency in cells by overcoming the limitations of the prior art.

또한, 상기 엔지니어링된 Cas12f1 가이드 RNA는 자연계에서 발견되는 가이드 RNA와 비교하여 짧은 길이를 가져 유전자 편집 기술 분야에서 응용 가능성이 높다. 상기 엔지니어링된 Cas12f1 가이드 RNA를 사용하면 CRISPR/Cas12f1 시스템의 크기가 매우 작다는 장점을 충분히 유전자 편집 기술에 활용할 수 있게 된다.In addition, the engineered Cas12f1 guide RNA has a shorter length compared to guide RNAs found in nature, and thus has high potential for application in the field of gene editing technology. When the engineered Cas12f1 guide RNA is used, the advantage of the very small size of the CRISPR/Cas12f1 system can be sufficiently utilized for gene editing technology.

[초소형 염기교정(Base editing) 시스템의 발현을 위한 벡터의 설계][Design of vectors for the expression of a mini base editing system]

CRISPR/Cas 시스템을 염기교정을 포함하는 유전자 편집에 사용하기 위해, 상기 CRISPR/Cas 시스템의 각 구성을 암호화하는 서열을 포함하는 벡터를 표적 세포 내에 도입시키고, 표적 세포 내에서 상기 CRISPR/Cas 시스템의 각 구성이 발현되도록 하는 방법이 널리 이용되고 있다. In order to use the CRISPR/Cas system for gene editing including base correction, a vector containing a sequence encoding each component of the CRISPR/Cas system is introduced into a target cell, and the expression of the CRISPR/Cas system in the target cell is introduced. Methods that allow each construct to be expressed are widely used.

또한, 염기를 교정하기 위한 본 발명의 초소형 염기교정(Base editing) 시스템에서는 아데노신 탈아미노화효소 단백질 또는 시티딘 탈아미노화효소 단백질은 표적 서열에 대한 표적화 복합체인 CRISPR/Cas 복합체와 각각 별개의 단백질로서 세포에 전달되거나 또는 세포 내에서 발현될 수 있다. 바람직하게, 우수한 표적 효율을 달성하기 위해서 상기 아데노신 탈아미노화효소 단백질 또는 시티딘 탈아미노화효소 단백질은 CRISPR/Cas 복합체의 N-말단 또는 C-말단에 연결되어 하나의 벡터로 포함될 수 있다. 여기서, 아데노신 탈아미노화효소 단백질 또는 시티딘 탈아미노화효소 단백질은 핵산분해 단백질 또는 가이드 분자 중 하나에 연결되어 융합된 형태의 단백질을 이룰 수 있다. In addition, in the base editing system of the present invention for base editing, the adenosine deaminase protein or the cytidine deaminase protein is a targeting complex for the target sequence, the CRISPR/Cas complex, and each separate protein. It can be delivered to the cell as a cell or expressed in the cell. Preferably, in order to achieve excellent targeting efficiency, the adenosine deaminase protein or cytidine deaminase protein may be linked to the N-terminus or C-terminus of the CRISPR/Cas complex and included in one vector. Here, the adenosine deaminase protein or the cytidine deaminase protein may be linked to either a nucleolytic protein or a guide molecule to form a fused protein.

일 예로, 상기 융합된 형태의 단백질은 박테리오파지 외피 단백질 내에 존재하는 직교 RNA-결합 단백질 또는 어댑터 단백질을 포함할 수 있다. 여기서, 외피 단백질은 MS2,Qβ, F2, GA, fr, JP501, M12, R17, BZ13, JP34, JP500, KU1, M11, MX1, TW18, VK, SP, FI, ID2, NL95, TW19,AP205,

Figure pat00001
Cb5,
Figure pat00002
Cb8r,
Figure pat00003
Cb12r,
Figure pat00004
Cb23r, 7s 및 PRR1등이 포함될 수 있다. 또한, 상기 융합된 형태의 단백질은 하나 이상의 지질 나노입자를 통해 전달될 수 있다.For example, the fused form of the protein may include an orthogonal RNA-binding protein or adapter protein present in a bacteriophage coat protein. Here, the envelope protein is MS2, Qβ, F2, GA, fr, JP501, M12, R17, BZ13, JP34, JP500, KU1, M11, MX1, TW18, VK, SP, FI, ID2, NL95, TW19, AP205,
Figure pat00001
Cb5,
Figure pat00002
Cb8r,
Figure pat00003
Cb12r,
Figure pat00004
Cb23r, 7s and PRR1 may be included. In addition, the fused form of the protein can be delivered through one or more lipid nanoparticles.

또한, 일 구현예로, 본 발명의 초소형 염기교정(Base editing) 시스템의 구성요소에 해당하는 핵산분해 단백질, 아데노신 탈아미노화효소 단백질 또는 시티딘 탈아미노화효소 단백질 및/또는 어댑터 단백질은 이를 암호화하는 하나 이상의 가이드 RNA 및 하나 이상의 mRNA 분자로서 세포에 전달될 수 있다. 이 때, 상기 RNA 분자는 하나 이상의 지질 나노입자를 통해 전달될 수 있다.In addition, in one embodiment, the nucleolytic protein, adenosine deaminase protein or cytidine deaminase protein and/or adapter protein corresponding to the components of the miniaturized base editing system of the present invention encode them. can be delivered to cells as one or more guide RNAs and one or more mRNA molecules. At this time, the RNA molecule may be delivered through one or more lipid nanoparticles.

일 구현예로, 본 발명의 초소형 염기교정(Base editing) 시스템의 구성요소는 하나 이상의 DNA 분자형태일 수 있다. 여기서, 하나 이상의 DNA 분자는 핵산분해 단백질, 가이드 분자 및 아데노신 탈아미노화효소 단백질 또는 시티딘 탈아미노화효소 단백질 또는 이의 촉매적 도메인을 발현시키도록 작동가능하게 구성된 하나 이상의 조절 요소를 포함할 수 있다. 필요에 따라 하나 이상의 조절 요소는 유도성 프로모터를 포함한다. 상기 초소형 염기교정(Base editing) 시스템을 구성하는 DNA 분자들은 하나 이상의 아데노-연관 바이러스(AAV) 벡터 내에 포함되어 세포 내로 전달될 수 있다. 바람직하게, 상기 DNA 분자들은 모두 하나의 아데노-연관 바이러스(AAV) 벡터 내에 포함되어 세포 내로 전달될 수 있다.In one embodiment, the components of the miniaturized base editing system of the present invention may be in the form of one or more DNA molecules. wherein the one or more DNA molecules may comprise a nucleolytic protein, a guide molecule and one or more regulatory elements operably configured to express an adenosine deaminase protein or a cytidine deaminase protein or a catalytic domain thereof. . Optionally, one or more regulatory elements include an inducible promoter. The DNA molecules constituting the miniaturized base editing system may be contained in one or more adeno-associated virus (AAV) vectors and delivered into cells. Preferably, all of the DNA molecules can be contained in a single adeno-associated virus (AAV) vector and delivered into cells.

보다 구체적으로, 본 발명에 따른 초소형 염기교정(Base editing) 시스템이 세포 내에서 발현되도록 하는 벡터의 구성 요소는 다음을 포함한다.More specifically, the components of the vector that allows the subminiature base editing system according to the present invention to be expressed in cells include the following.

1. 초소형 염기교정(Base editing) 시스템의 구성요소를 암호화하는 핵산1. Nucleic acids encoding components of the micro base editing system

상기 벡터의 목적이 본 발명에 따른 초소형 염기교정(Base editing) 시스템의 각 구성요소를 세포 내에서 발현되도록 하는 것이므로, 상기 벡터의 서열은 상기 초소형 염기교정(Base editing) 시스템의 각 구성요소를 암호화하는 핵산 서열 중 하나 이상을 필수적으로 포함해야 한다. Since the purpose of the vector is to express each component of the base editing system according to the present invention in cells, the sequence of the vector encodes each component of the base editing system. It must necessarily contain at least one of the nucleic acid sequences that

구체적으로, 상기 벡터의 서열은 발현하고자 하는 상기 초소형 염기교정(Base editing) 시스템에 포함된 가이드 RNA 및/또는 핵산분해 단백질을 암호화하는 핵산 서열을 포함한다. 이때, 상기 벡터의 서열은 야생형의 가이드 RNA 및 야생형의 핵산분해 단백질을 암호화하는 핵산 서열뿐만 아니라, 그 목적에 따라 엔지니어링된 가이드 RNA 및/또는 코돈 최적화된 핵산분해 단백질을 암호화하는 핵산 서열, 엔지니어링된 핵산분해 단백질을 암호화하는 핵산 서열, 또는 DNA 이중가닥 절단 활성이 상실되거나 감소된 핵산분해 단백질을 암호화하는 핵산 서열을 포함할 수 있다. Specifically, the sequence of the vector includes a nucleic acid sequence encoding a guide RNA and/or a nucleolytic protein included in the subminiature base editing system to be expressed. At this time, the sequence of the vector includes not only a nucleic acid sequence encoding a wild-type guide RNA and a wild-type nucleolytic protein, but also a nucleic acid sequence encoding an engineered guide RNA and/or a codon-optimized nucleolytic protein, engineered It may include a nucleic acid sequence encoding a nucleolytic protein, or a nucleic acid sequence encoding a nucleolytic protein with lost or reduced DNA double-strand cleavage activity.

여기서, DNA 이중가닥 절단 활성이 상실되거나 감소된 핵산분해 단백질을 암호화하는 핵산 서열은 dead Cas(dCas) 또는 nick Cas(nCas) 단백질을 암호화하는 핵산 서열이 포함된다. Here, the nucleic acid sequence encoding a nucleolytic protein having lost or reduced DNA double-strand cleavage activity includes a nucleic acid sequence encoding a dead Cas (dCas) or nick Cas (nCas) protein.

본 발명에서, 상기 벡터는 Cas12f1 단백질 또는 이의 기능성 변이체를 발현하도록 구성된 것일 수 있다. 여기서, 상기 Cas12f1 단백질 또는 이의 기능성 변이체는 DNA 이중가닥 절단 활성이 상실되거나 감소된 핵산분해 단백질인 dead Cas12f1(dCas12f1) 또는 nick Cas12f1(nCas12f1) 단백질일 수 있다. In the present invention, the vector may be configured to express the Cas12f1 protein or a functional variant thereof. Here, the Cas12f1 protein or a functional variant thereof may be a dead Cas12f1 (dCas12f1) or nick Cas12f1 (nCas12f1) protein, which is a nucleolytic protein with lost or reduced DNA double-strand cleavage activity.

일 구현예로, 상기 벡터는 야생형의 Cas12f1 단백질을 발현하도록 구성된 것일 수 있다. 여기서, 상기 야생형의 Cas12f1 단백질은 Cas14a1일 수 있다. In one embodiment, the vector may be configured to express the wild-type Cas12f1 protein. Here, the wild-type Cas12f1 protein may be Cas14a1.

다른 일 구현예로, 상기 벡터는 표적 핵산의 이중가닥 중 하나의 가닥만 절단하도록 변경된 Cas12f1 단백질을 발현하도록 구성된 것일 수 있다. In another embodiment, the vector may be configured to express a Cas12f1 protein modified to cleave only one of the double strands of the target nucleic acid.

또한 일 구현예로, 상기 벡터의 서열은 야생형의 Cas12f1 단백질 또는 이의 기능성 변이체를 암호화하는 서열을 포함할 수 있다. 여기서, 상기 야생형의 Cas12f1 단백질은 Cas14a1일 수 있고, 상기 기능성 변이체는 TnpB 유래의 분자량이 작은 핵산분해 단백질일 수 있다. In one embodiment, the sequence of the vector may include a sequence encoding a wild-type Cas12f1 protein or a functional variant thereof. Here, the wild-type Cas12f1 protein may be Cas14a1, and the functional variant may be a TnpB-derived small molecular weight nucleolytic protein.

바람직하게, 상기 벡터의 서열은 Cas12f1 단백질 또는 이의 기능성 변이체를 암호화하는 인간 코돈 최적화된 핵산 서열을 포함할 수 있다. 여기서, 상기 Cas12f1 단백질을 암호화하는 인간 코돈 최적화된 핵산 서열은 Cas14a1 단백질을 암호화하는 인간 코돈 최적화된 핵산 서열일 수 있고, 상기 기능성 변이체는 TnpB 유래의 분자량이 작은 핵산분해 단백질일 수 있다. Preferably, the sequence of the vector may include a human codon-optimized nucleic acid sequence encoding the Cas12f1 protein or a functional variant thereof. Here, the human codon-optimized nucleic acid sequence encoding the Cas12f1 protein may be a human codon-optimized nucleic acid sequence encoding the Cas14a1 protein, and the functional variant may be a TnpB-derived low molecular weight nucleolytic protein.

또한, 본 발명에 따른 상기 벡터의 서열은 변형된 Cas12f1 단백질 또는 Cas12f1 융합 단백질을 암호화하는 서열을 포함할 수 있다. In addition, the sequence of the vector according to the present invention may include a sequence encoding a modified Cas12f1 protein or a Cas12f1 fusion protein.

일 구현예로, 상기 변형된 Cas12f1 단백질은 표적 핵산의 이중가닥 중 하나의 가닥만 절단할 수 있고, 절단하지 않는 가닥에 대해 염기 교정(Base editing) 또는 프라임 교정(Prime editing)을 할 수 있도록 변경된 것일 수 있다. 구체적으로, 상기 Cas12f1 단백질은 표적 핵산의 이중가닥 전부를 절단할 수 없도록 변경된 것일 수 있다.In one embodiment, the modified Cas12f1 protein is modified so that only one strand of the double strands of the target nucleic acid can be cut, and base editing or prime editing can be performed on the strand that is not cut. it could be Specifically, the Cas12f1 protein may be modified so as not to cleave all of the double strands of the target nucleic acid.

또한, 상기 Cas12f1 단백질은 표적 핵산의 이중가닥 전부를 절단할 수 없고, 표적 핵산에 대해 염기 교정(Base editing) 또는 프라임 교정(Prime editing) 또는 유전자 발현 조절 기능을 할 수 있도록 변형된 것일 수 있다. In addition, the Cas12f1 protein cannot cleave all of the double strands of the target nucleic acid, and may be modified to perform base editing or prime editing or gene expression control functions for the target nucleic acid.

일 구현예로, 상기 Cas12f1 단백질은 표적 핵산의 이중가닥 전부를 절단할 수 없고, 표적 핵산에 대해 염기 교정(Base editing) 또는 프라임 교정(Prime editing) 또는 유전자 발현 조절 기능을 할 수 있도록 변형된 Cas12f1 단백질을 암호화하는 서열을 포함할 수 있다.In one embodiment, the Cas12f1 protein cannot cleave all of the double strands of the target nucleic acid, and the Cas12f1 modified to perform base editing or prime editing or gene expression control function for the target nucleic acid. It may contain sequences encoding proteins.

일 구현예로, 상기 벡터의 서열은 표적 핵산의 이중가닥 중 하나의 가닥만 절단할 수 있고, 절단하지 않는 가닥에 대해 염기 교정(Base editing) 또는 프라임 교정(Prime editing)을 할 수 있도록 아데닌 탈아미노화효소 단백질 또는 시토신 탈아미노화효소가 결합된 Cas12f1 단백질을 암호화하는 서열을 포함할 수 있다.In one embodiment, the sequence of the vector is capable of cutting only one strand of the double strands of the target nucleic acid, and de-adenine so that base editing or prime editing can be performed on the non-cutting strand. It may include a sequence encoding an aminoase protein or a Cas12f1 protein to which cytosine deaminase is bound.

또한, 상기 벡터는 Cas12f1에 대해 최적의 표적 효율을 가지도록 엔지니어링된 가이드 RNA를 발현하도록 구성된 것일 수 있다. 상기 벡터는 하나 또는 둘 이상의 서로 다른 엔지니어링된 Cas12f1 가이드 RNA를 발현하도록 구성된 것일 수 있다. In addition, the vector may be configured to express a guide RNA engineered to have optimal targeting efficiency for Cas12f1. The vectors may be configured to express one or more different engineered Cas12f1 guide RNAs.

일 구현예로, 상기 엔지니어링된 가이드 RNA 서열은 스캐폴드 서열, 스페이서 서열 및 U-rich tail 서열을 포함할 수 있다. 구체적으로, 상기 엔지니어링된 가이드 RNA 서열은 변경된 tracrRNA 서열 및/또는 변경된 crRNA 서열을 포함하고, 여기에 U-rich tail 서열을 포함할 수 있다. In one embodiment, the engineered guide RNA sequence may include a scaffold sequence, a spacer sequence and a U-rich tail sequence. Specifically, the engineered guide RNA sequence may include a modified tracrRNA sequence and/or a modified crRNA sequence, and may include a U-rich tail sequence.

일 구현예로, 상기 U-rich tail 서열은 (UaN)nUb로 표현될 수 있다. 여기서, 상기 N은 아데노신(A), 유라실(U), 사이티딘(C), 구아노신(G) 중 하나이다. 여기서, 상기 a는 1 이상 4 이하의 한 정수이고, 상기 n은 0, 1, 2 중의 한 정수이며, 상기 b는 1 이상 10 이하의 한 정수다. 또 다른 구현예로, 상기 Urich tail 서열은 (UaV)nUb로 표현될 수 있다. 이때, a, n, 및 b는 정수이며, a는 1 이상 4 이하, n은 0 이상이며, b는 1 이상 10 이하일 수 있다.In one embodiment, the U-rich tail sequence may be expressed as (UaN)nUb. Here, N is one of adenosine (A), uracil (U), cytidine (C), and guanosine (G). Here, a is an integer of 1 or more and 4 or less, n is an integer of 0, 1, or 2, and b is an integer of 1 or more and 10 or less. In another embodiment, the Urich tail sequence may be expressed as (UaV)nUb. In this case, a, n, and b are integers, a may be 1 or more and 4 or less, n may be 0 or more, and b may be 1 or more and 10 or less.

본 발명에서 상기 벡터는 또한 서로 다른 둘 이상의 엔지니어링된 가이드 RNA를 발현하도록 구성된 것일 수 있다. In the present invention, the vector may also be configured to express two or more different engineered guide RNAs.

일 구현예로, 상기 벡터는 제1 엔지니어링된 가이드 RNA 및 제2 엔지니어링된 가이드 RNA를 발현하도록 구성된 것일 수 있다. 예를 들어, 상기 제1 엔지니어링된 가이드 RNA 서열은 제1 스캐폴드 서열, 제1 스페이서 서열, 및 제1 U-rich tail 서열을 포함하고, 상기 제2 엔지니어링된 가이드 RNA 서열은 제2 스캐폴드 서열, 제2 스페이서 서열, 및 제2 U-rich tail 서열을 포함할 수 있다.In one embodiment, the vector may be configured to express the first engineered guide RNA and the second engineered guide RNA. For example, the first engineered guide RNA sequence comprises a first scaffold sequence, a first spacer sequence, and a first U-rich tail sequence, and the second engineered guide RNA sequence comprises a second scaffold sequence. , a second spacer sequence, and a second U-rich tail sequence.

또한, 상기 벡터는 전술된 초소형 염기교정(Base editing) 시스템의 구성요소 이외에, 이 기술 분야의 통상의 기술자가 필요에 의해 발현시키고자 하는 부가 발현 요소를 암호화하는 핵산 서열을 포함하고 있을 수 있다. In addition, the vector may include a nucleic acid sequence encoding additional expression elements to be expressed by a person skilled in the art in addition to the components of the above-described base editing system.

일 예로, 상기 부가 발현 요소는 태그일 수 있다. 구체적으로, 상기 부가 발현 요소는, 글리포세이트(glyphosate), 글루포시네이트암모늄 (glufosinate ammonium) 또는 포스피노트리신(phosphinothricin)과 같은 제초제 저 항성 유전자, 암피실린(ampicillin), 카나마이신(kanamycin), G418, 블레오마이신(Bleomycin), 하이그로마이신(hygromycin), 클로람페니콜(chloramphenicol)과 같은 항생제 내성 유전자일 수 있다.For example, the additional expression element may be a tag. Specifically, the additional expression element is a herbicide resistance gene such as glyphosate, glufosinate ammonium or phosphinothricin, ampicillin, kanamycin, G418 , antibiotic resistance genes such as bleomycin, hygromycin, and chloramphenicol.

2. 조절 및/또는 제어 구성요소2. Regulating and/or controlling components

상기 벡터를 세포 내에서 발현시키기 위해서는, 하나 이상의 조절 및/또는 제어 구성요소를 포함해야 한다. 구체적으로, 상기 조절 및/또는 제어 구성요소는 프로모터, 인핸서, 인트론, 폴리아데닐화 신호, 코작 공통(Kozak consensus) 서열, 내부 리보솜 유입 부위(IRES, Internal Ribosome Entry Site), 스플라이스 억셉터, 2A 서열 및/또는 복제원점(replication origin)을 포함할 수 있으나, 이에 제한되는 것은 아니다. 여기서, 상기 복제원점은 f1 복제원점, SV40 복제원점, pMB1 복제원점, 아데노 복제원점, AAV 복제원점, 및/또는 BBV 복제원점일 수 있으나, 이에 제한되는 것은 아니다.In order for the vector to be expressed in a cell, it must contain one or more regulatory and/or control elements. Specifically, the regulatory and/or control elements are promoters, enhancers, introns, polyadenylation signals, Kozak consensus sequences, Internal Ribosome Entry Sites (IRES), splice acceptors, 2A It may include a sequence and/or origin of replication, but is not limited thereto. Here, the origin of replication may be the f1 origin of replication, the SV40 origin of replication, the pMB1 origin of replication, the adeno origin of replication, the AAV origin of replication, and/or the BBV origin of replication, but is not limited thereto.

3. 프로모터(Promoter)3. Promoter

상기 벡터에 포함되어 있는 본 발명에 따른 초소형 유전자가위 시스템을 암호화하는 핵산 서열을 세포 내에서 발현시키려면, 각 구성 요소를 암호화하는 서열에 프로모터 서열을 작동적으로 연결시켜 세포 내에서 RNA 전사인자가 활성화될 수 있도록 해야 한다. 상기 프로모터 서열은 대응하는 RNA 전사인자 또는 발현 환경에 따라 달리 설계할 수 있으며, 본 발명에 따른 초소형 유전자가위(CRISPR/Cas) 시스템의 구성요소를 세포 내에서 적절히 발현시킬 수 있는 것이라면 제한되지 않는다. In order to express the nucleic acid sequence encoding the microscopic gene scissors system according to the present invention contained in the vector in a cell, a promoter sequence is operably linked to the sequence encoding each component so that the RNA transcription factor can be expressed in the cell. It has to be activated. The promoter sequence can be designed differently depending on the corresponding RNA transcription factor or expression environment, and is not limited as long as it can properly express the components of the CRISPR/Cas system according to the present invention in cells.

일 예로, 상기 프로모터 서열은 RNA 중합효소 RNA Pol I, Pol II, 또는 Pol III의 전사를 촉진시키는 프로모터일 수 있다. 구체적으로, 상기 프로모터는 SV40 초기 프로모터, mouse mammary tumor virus long terminal repeat(LTR) 프로모터, adenovirus major late 프로모터(Ad MLP), herpes simplex virus(HSV) 프로모터, CMV immediate early promoter region(CMVIE)와 같은 cytomegalovirus(CMV) 프로모터, chicken β-actin(CBA) 프로모터, rous sarcoma virus(RSV) 프로모터, human U6 small nuclear 프로모터(U6), enhanced U6 프로모터 및 human H1 프로모터(H1) 중 하나 수 있다.For example, the promoter sequence may be a promoter that promotes transcription of RNA polymerase RNA Pol I, Pol II, or Pol III. Specifically, the promoter is a cytomegalovirus such as the SV40 early promoter, mouse mammary tumor virus long terminal repeat (LTR) promoter, adenovirus major late promoter (Ad MLP), herpes simplex virus (HSV) promoter, CMV immediate early promoter region (CMVIE) (CMV) promoter, chicken β-actin (CBA) promoter, rous sarcoma virus (RSV) promoter, human U6 small nuclear promoter (U6), enhanced U6 promoter, and human H1 promoter (H1).

4. 종결 신호4. Closing signal

상기 벡터 서열이 상기 프로모터 서열을 포함하는 경우, RNA 전사인자에 의해 상기 프로모터와 작동 가능하게 연결된 서열의 전사가 유도되는데, 이러한 RNA 전사 인자의 전사 종결을 유도하는 종결 신호가 포함될 수 있다. 상기 종결 신호는, 프로모터 서열의 종류에 따라 달라질 수 있다. 구체적으로, 상기 프로모터가 U6, 또는 H1 프로모터일 경우, 상기 프로모터는 티미딘(T) 연속 서열인 TTTTTT(T6) 서열을 종결 신호로 인식한다. When the vector sequence includes the promoter sequence, transcription of a sequence operably linked to the promoter is induced by an RNA transcription factor, and a termination signal that induces termination of transcription of the RNA transcription factor may be included. The termination signal may vary depending on the type of promoter sequence. Specifically, when the promoter is a U6 or H1 promoter, the promoter recognizes the TTTTTT(T6) sequence, which is a thymidine (T) sequence, as a termination signal.

본 발명에서 제공하는 엔지니어링된 가이드 RNA의 서열은 그 3'-말단에 U-rich tail 서열을 포함한다. 이에 따라, 상기 엔지니어링된 가이드 RNA를 암호화하는 서열은 그 3'-말단에 U-rich tail 서열에 대응하는 T-rich 서열을 포함하게 된다. 전술한 바, 일부 프로모터 서열은 티미딘(T) 연속 서열, 예를 들어 티미딘(T)이 5개 이상 연속으로 연결된 서열을 종결 신호로 인식하므로, 경우에 따라 상기 T-rich 서열을 종결 신호로 인식하게 될 수 있다. The sequence of the engineered guide RNA provided in the present invention includes a U-rich tail sequence at its 3'-end. Accordingly, the sequence encoding the engineered guide RNA includes a T-rich sequence corresponding to the U-rich tail sequence at its 3'-end. As described above, some promoter sequences recognize a thymidine (T) contiguous sequence, for example, a sequence in which 5 or more thymidine (T) are consecutively linked, as a termination signal. In some cases, the T-rich sequence is recognized as a termination signal. can be recognized as

다시 말해, 본 명세서에서 제공하는 벡터 서열이 엔지니어링된 가이드 RNA를 암호화하는 서열을 포함하는 경우, 상기 엔지니어링된 가이드 RNA 서열에 포함된 U-rich tail 서열을 암호화하는 서열이 종결 신호로 사용될 수 있다. In other words, when the vector sequence provided herein includes a sequence encoding an engineered guide RNA, a sequence encoding a U-rich tail sequence included in the engineered guide RNA sequence may be used as a termination signal.

일 구현예로, 상기 벡터 서열이 U6 또는 H1 프로모터 서열을 포함하고, 이와 작동 가능하게 연결된 엔지니어링된 가이드 RNA를 암호화하는 서열을 포함할 때, 상기 엔지니어링된 가이드 RNA 서열에 포함된 U-rich tail 서열을 암호화하는 서열 부분이 종결 신호로 인식될 수 있다. 이때, 상기 U-rich tail 서열은 유리딘(U)이 5개 이상 연속으로 연결된 서열을 포함한다.In one embodiment, when the vector sequence includes a U6 or H1 promoter sequence and a sequence encoding an engineered guide RNA operably linked thereto, a U-rich tail sequence included in the engineered guide RNA sequence A portion of the sequence encoding can be recognized as a termination signal. At this time, the U-rich tail sequence includes a sequence in which 5 or more uridin (U) are consecutively linked.

5. 부가 발현 요소5. Additional Expression Elements

상기 벡터는 필요에 따라, NLS 및/또는 태그 단백질 등의 부가 구성 요소를 발현하도록 구성된 것일 수 있다. If necessary, the vector may be configured to express additional components such as NLS and/or tag protein.

일 구현예로, 상기 부가 구성 요소는 상기 Cas12f1, 변형된 Cas12f1 및/또는 엔지니어링된 Cas12f1 가이드 RNA와는 독립적으로 발현될 수 있다. In one embodiment, the additional component may be expressed independently of the Cas12f1, modified Cas12f1 and/or engineered Cas12f1 guide RNA.

또 다른 구현예로, 상기 부가 구성 요소는 상기 Cas12f1, 변형된 Cas12f1 및/또는 엔지니어링된 Cas12f1 가이드 RNA와 직접 또는 링커로 연결되어 발현될 수 있다. In another embodiment, the additional component may be expressed directly or linked by a linker to the Cas12f1, modified Cas12f1, and/or engineered Cas12f1 guide RNA.

일 구체예로, 본 발명에 따른 초소형 염기교정(Base editing) 구조물은 N-말단 또는 C-말단에 핵 위치 신호(nuclear localization sequences, NLS) 서열을 1개 이상 포함하는 것을 특징으로 하는, 초소형 염기교정 구조물일 수 있다. 상기 NLS 서열은 서열번호 65 내지 서열번호 68 중 선택된 어느 하나의 아미노산 서열을 포함하거나 이루어진 것을 특징으로 하는, 초소형 염기교정(Base editing) 구조물일 수 있다. 여기서, 상기 부가 구성 요소는 CRISPR/Cas 시스템을 발현시키고자 할 때 일반적으로 발현시키는 구성 요소일 수 있으며, 공지기술을 참조할 수 있다.In one embodiment, the subminiature base editing construct according to the present invention comprises one or more nuclear localization sequences (NLS) sequences at the N-terminus or C-terminus, the subminiature base It may be a corrective structure. The NLS sequence may be a subminiature base editing structure comprising or consisting of any one amino acid sequence selected from SEQ ID NO: 65 to SEQ ID NO: 68. Here, the additional component may be a component that is generally expressed when the CRISPR/Cas system is to be expressed, and known technologies may be referred to.

일 구현예로, 본 발명에 따른 엔지니어링된 gRNA 또는 이를 암호화하는 핵산 및/또는 초소형 염기교정(Base editing) 시스템의 구성 요소를 발현시키기 위해 벡터 등에 포함되는 핵산을 제공한다. 여기서, 상기 핵산은 자연계에 존재하는 DNA 또는 RNA일 수 있고, 상기 구성 핵산의 일부 또는 전부에 화학적 변형이 일어난, 변형된 핵산일 수 있다. In one embodiment, a nucleic acid contained in a vector or the like is provided to express the engineered gRNA according to the present invention or a nucleic acid encoding the same and/or components of a base editing system. Here, the nucleic acid may be DNA or RNA that exists in nature, or may be a modified nucleic acid in which some or all of the constituent nucleic acids are chemically modified.

일 구현예로, 상기 구성 핵산은 자연계에 존재하는 DNA 및/또는 RNA일 수 있다. 예를 들어, 상기 구성 핵산은 하나 이상의 뉴클레오타이드가 화학적으로 변형된 것일 수 있다. 이때, 상기 화학적 변형은 이 기술 분야에서 통상의 기술자에게 알려진 핵산의 변형을 모두 포함할 수 있다. In one embodiment, the constituent nucleic acids may be naturally occurring DNA and/or RNA. For example, the constituent nucleic acid may be one or more nucleotides chemically modified. In this case, the chemical modification may include all modifications of nucleic acids known to those skilled in the art.

6. 발현 벡터의 종류 및 형태6. Types and types of expression vectors

본 발명에 따른 벡터는 바이러스 벡터일 수 있다. 보다 구체적으로, 상기 바이러스벡터는 레트로바이러스, 렌티바이러스, 아데노바이러스, 아데노-연관 바이러스, 백시니아바이러스, 폭스바이러스 및 단순포진 바이러스로 구성된 군에서 선택되는 하나 이상일 수 있다. 바람직하게, 상기 바이러스 벡터는 아데노-연관 바이러스 벡터일 수 있다.A vector according to the present invention may be a viral vector. More specifically, the viral vector may be one or more selected from the group consisting of retrovirus, lentivirus, adenovirus, adeno-associated virus, vaccinia virus, poxvirus, and herpes simplex virus. Preferably, the viral vector may be an adeno-associated viral vector.

또한, 본 발명에 따른 벡터는 비바이러스 벡터일 수 있다. 보다 구체적으로, 상기 비바이러스 벡터는 플라스미드, 파지(phage), 네이키드 DNA, DNA 복합체 및 mRNA로 구성된 군에서 선택되는 1 이상일 수 있다. 일 구현예로, 상기 플라스미드는 pcDNA 시리즈, pSC101, pGV1106, pACYC177, ColE1, pKT230, pME290, pBR322, pUC8/9, pUC6, pBD9, pHC79, pIJ61, pLAFR1, pHV14, pGEX 시리즈, pET 시리즈, 및 pUC19으로 이루어진 군에서 선택된 것일 수 있다. In addition, the vector according to the present invention may be a non-viral vector. More specifically, the non-viral vector may be one or more selected from the group consisting of plasmid, phage, naked DNA, DNA complex, and mRNA. In one embodiment, the plasmids are pcDNA series, pSC101, pGV1106, pACYC177, ColE1, pKT230, pME290, pBR322, pUC8/9, pUC6, pBD9, pHC79, pIJ61, pLAFR1, pHV14, pGEX series, pET series, and pUC19. It may be selected from the group consisting of

일 구현예로, 상기 파지는 M13일 수 있고, 상기 벡터는 PCR 앰플리콘(amplicon)일 수 있다.In one embodiment, the phage may be M13, and the vector may be a PCR amplicon.

본 발명에 따른 상기 벡터는 선형 또는 원형 벡터 형태로 설계될 수 있다. 상기 벡터가 선형 벡터인 경우, 상기 선형 벡터 서열이 종결 신호를 따로 포함하지 않더라도, 그 3'-말단에서 RNA 전사가 종결된다. The vector according to the present invention may be designed in the form of a linear or circular vector. When the vector is a linear vector, RNA transcription is terminated at its 3'-end, even if the sequence of the linear vector does not separately include a termination signal.

그러나 상기 벡터가 원형 벡터인 경우, 상기 원형 벡터 서열이 종결 신호를 따로 포함하지 않는다면, RNA 전사가 종결되지 않게 된다. 그러므로 상기 벡터로 원형 벡터를 사용하는 경우에는 의도한 대상을 발현하기 위해서는 각 프로모터 서열과 관련된 전사 인자에 대응하는 종결 신호가 포함되어야 한다.However, when the vector is a circular vector, RNA transcription is not terminated unless the sequence of the circular vector separately includes a termination signal. Therefore, when a circular vector is used as the vector, a termination signal corresponding to a transcription factor related to each promoter sequence must be included in order to express the intended target.

[엔지니어링된 gRNA를 이용한 유전자 편집 방법][Gene editing method using engineered gRNA]

본 발명은 Cas12f1 단백질, TnpB 단백질 또는 이의 기능적 유사체에 대해 최적의 표적 편집 활성을 갖게 하는 엔지니어링된 gRNA를 이용하여 대상 세포 내의 표적 핵산 또는 표적 유전자를 편집하는 방법을 제공한다. 상기 유전자 편집 방법은 표적 부위의 특정 염기를 다른 염기로 치환하는 염기 교정 방법일 수 있다. 상기 표적 유전자 또는 표적 핵산은 표적 서열을 포함한다. 상기 표적 핵산은 단일가닥 DNA, 이중가닥 DNA 및/또는 RNA일 수 있다. The present invention provides a method for editing a target nucleic acid or target gene in a target cell using an engineered gRNA that has optimal target editing activity for Cas12f1 protein, TnpB protein or a functional analogue thereof. The gene editing method may be a base editing method in which a specific base in a target site is substituted with another base. The target gene or target nucleic acid includes a target sequence. The target nucleic acid may be single-stranded DNA, double-stranded DNA and/or RNA.

일 구현예로, 상기 유전자 편집 방법은 엔지니어링된 가이드 RNA 및 Cas12f1 단백질 또는 이들 각각을 암호화하는 핵산을 표적 핵산 또는 표적 유전자를 포함하고 있는 대상 세포 내에 전달하는 것을 포함한다. In one embodiment, the gene editing method includes delivering an engineered guide RNA and a Cas12f1 protein or a nucleic acid encoding each of them into a target cell containing a target nucleic acid or target gene.

그 결과, 상기 대상 세포 내에 엔지니어링된 CRISPR/Cas12f1 복합체가 주입되거나, 엔지니어링된 CRISPR/Cas12f1 복합체의 형성이 유도되며, 상기 엔지니어링된 CRISPR/Cas12f1 복합체에 의해 표적 유전자가 편집된다. 여기서, 상기 Cas12f1 단백질은 야생형 Cas12f1 또는 야생형 TnpB 단백질 또는 이의 기능적 유사체, 변형된 Cas12f1 또는 변형된 TnpB 단백질 또는 아데노신 탈아미노화효소 단백질 또는 시티딘 탈아미노화효소가 결합된 Cas12f1 단백질, TnpB 단백질 또는 이의 기능적 유사체일 수 있다.As a result, the engineered CRISPR/Cas12f1 complex is injected into the target cell, or the formation of the engineered CRISPR/Cas12f1 complex is induced, and the target gene is edited by the engineered CRISPR/Cas12f1 complex. Here, the Cas12f1 protein is wild-type Cas12f1 or wild-type TnpB protein or a functional analogue thereof, modified Cas12f1 or modified TnpB protein, or adenosine deaminase protein or cytidine deaminase-linked Cas12f1 protein, TnpB protein or a functional analogue thereof. may be analogues.

다른 일 구현예로, 상기 유전자 편집 방법은 엔지니어링된 가이드 RNA 또는 이를 암호화하는 핵산; 및 Cas12f1, TnpB 단백질 또는 이의 기능적 유사체 또는 이를 암호화하는 핵산;을 대상 세포 내에 전달하는 것을 포함할 수 있다. 이때, 상기 엔지니어링된 가이드 RNA 서열은 변경된 스캐폴드 영역의 서열, 스페이서 서열 및 U-rich tail 서열을 포함한다. 여기서, 상기 변경된 스캐폴드 영역의 서열은 전술한 '초소형 염기교정(Base editing) 시스템을 위한 엔지니어링된 가이드 RNA' 및 '스캐폴드 영역'섹션에서 서술된 것과 동일한 특징 및 구조를 가진다.In another embodiment, the gene editing method comprises an engineered guide RNA or a nucleic acid encoding the same; and Cas12f1, TnpB protein or a functional analogue thereof, or a nucleic acid encoding the same; into a target cell. At this time, the engineered guide RNA sequence includes the altered scaffold region sequence, spacer sequence, and U-rich tail sequence. Here, the sequence of the altered scaffold region has the same characteristics and structure as those described in the above-described 'engineered guide RNA for a base editing system' and 'scaffold region' section.

일 구체예로, 상기 엔지니어링된 tracrRNA는 서열번호 39 내지 서열번호 42 중 선택된 어느 하나의 염기서열을 포함하거나/이루어진 것이고, 상기 엔지니어링된 crRNA는 서열번호 43의 염기서열을 포함하거나/이루어진 것일 수 있다. In one embodiment, the engineered tracrRNA may include/consist of any one nucleotide sequence selected from SEQ ID NO: 39 to SEQ ID NO: 42, and the engineered crRNA may include/consist of the nucleotide sequence of SEQ ID NO: 43. .

다른 일 구체예로, 상기 엔지니어링된 tracrRNA는 서열번호 49 내지 서열번호 52 중 선택된 어느 하나의 염기서열을 포함하거나/이루어진 것이고, 상기 엔지니어링된 crRNA는 서열번호 53의 염기서열을 포함하거나/이루어진 것일 수 있다.In another embodiment, the engineered tracrRNA may include/consist of any one nucleotide sequence selected from SEQ ID NO: 49 to SEQ ID NO: 52, and the engineered crRNA may include/consist of the nucleotide sequence of SEQ ID NO: 53. there is.

바람직하게, 상기 엔지니어링된 가이드 RNA는 서열번호 55 내지 서열번호 59 중 선택된 어느 하나의 염기서열을 포함하거나/이루어진 것일 수 있다. Preferably, the engineered guide RNA may include/consist of any one nucleotide sequence selected from SEQ ID NO: 55 to SEQ ID NO: 59.

또한, 상기 스페이서 서열은 상기 대상 세포 내에 포함된 표적 유전자, 또는 표적 핵산과 상보적으로 결합할 수 있고, 상기 U-rich tail 서열은 (UaV)nUb로 표현될 수 있다. 여기서, a, n, 및 b는 정수이며, a는 1 이상 4 이하, n은 0 이상이며, b는 1 이상 10 이하다. In addition, the spacer sequence may complementarily bind to a target gene or target nucleic acid contained in the target cell, and the U-rich tail sequence may be expressed as (UaV)nUb. Here, a, n, and b are integers, a is 1 or more and 4 or less, n is 0 or more, and b is 1 or more and 10 or less.

다른 구현예로, 상기 U-rich tail 서열은 (UaN)nUb로 표현될 수 있다. 여기서, 상기 N은 아데노신(A), 유라실(U), 사이티딘(C), 구아노신(G) 중 하나이다. 여기서, 상기 a는 1 이상 4 이하의 한 정수이고, 상기 n은 0, 1, 2 중의 한 정수이며, 상기 b는 1 이상 10 이하의 한 정수이다. In another embodiment, the U-rich tail sequence may be expressed as (UaN)nUb. Here, N is one of adenosine (A), uracil (U), cytidine (C), and guanosine (G). Here, a is an integer of 1 or more and 4 or less, n is an integer of 0, 1, or 2, and b is an integer of 1 or more and 10 or less.

일 구체예로, 상기 U-rich tail의 서열은 5'-U-3', 5'-UU-3', 5'-UUU-3', 5'-UUUU -3', 5'-UUUUU-3', 5'-UUUUUU-3', 5'-UUURUUU-3' (서열번호 77), 5'-UUUR UUURUUU-3' (서열번호 78), 5'-UUUURU-3' (서열번호 79), 5'-UUUURUU-3' (서열번호 80), 5'-UUUURUUU-3' (서열번호 81), 5'-UUUURUUUU-3' (서열번호 82), 5'-UUUURUUUUU-3' (서열번호 83), 또는 5'-UUUURUUUUUU-3'(서열번호 84)일 수 있다. 여기서 R은 A 또는 G일 수 있다. 바람직하게, 상기 U-rich tail의 서열은 5'-UUUUAUUUU-3' 또는 5'-UUUUGUUUU-3'일 수 있다.In one embodiment, the sequence of the U-rich tail is 5'-U-3', 5'-UU-3', 5'-UUU-3', 5'-UUUU-3', 5'-UUUUU- 3', 5'-UUUUUU-3', 5'-UUURUUU-3' (SEQ ID NO: 77), 5'-UUUR UUURUUU-3' (SEQ ID NO: 78), 5'-UUUURU-3' (SEQ ID NO: 79) , 5'-UUUURUU-3' (SEQ ID NO: 80), 5'-UUUURUUU-3' (SEQ ID NO: 81), 5'-UUUURUUUU-3' (SEQ ID NO: 82), 5'-UUUURUUUUU-3' (SEQ ID NO: 81) 83), or 5'-UUUURUUUUUU-3' (SEQ ID NO: 84). Where R can be A or G. Preferably, the sequence of the U-rich tail may be 5'-UUUUAUUUU-3' or 5'-UUUUGUUUU-3'.

이하, 엔지니어링된 gRNA를 이용한 유전자 편집 방법의 단계를 설명한다.Hereinafter, the steps of the gene editing method using the engineered gRNA will be described.

1. 대상 세포, 표적 서열 및 스페이서 서열 결정1. Determination of target cell, target sequence and spacer sequence

본 발명에 따른 초소형 염기교정(Base editing) 시스템으로 염기 교정 또는 유전자 편집을 하고자 하는 대상 세포는 원핵 세포 또는 진핵 세포일 수 있다. 보다 구체적으로, 상기 진핵 세포는 식물 세포, 동물 세포 및/또는 인간 세포일 수 있으나, 이에 제한되지 않는다.A target cell to be subjected to base editing or gene editing with the miniaturized base editing system according to the present invention may be a prokaryotic cell or a eukaryotic cell. More specifically, the eukaryotic cells may be plant cells, animal cells and/or human cells, but are not limited thereto.

표적 핵산, 표적 유전자 또는 표적 서열은 유전자 편집의 목적, 대상 세포 환경, Cas12f1 단백질이 인식하는 PAM 서열 및/또는 기타 변수를 고려하여 결정할 수 있다. 여기서, 표적 핵산 또는 표적 유전자 내에서 적절한 길이 또는 Cas12f1 단백질이 인식하는 PAM 서열을 가지고 있는 표적 서열을 결정할 수 있다면, 그 방법은 공지된 기술을 활용하여 특별히 제한되지 않게 수행될 수 있다. The target nucleic acid, target gene, or target sequence may be determined in consideration of the purpose of gene editing, the target cell environment, the PAM sequence recognized by the Cas12f1 protein, and/or other variables. Here, if a target sequence having an appropriate length or a PAM sequence recognized by the Cas12f1 protein can be determined within the target nucleic acid or target gene, the method can be performed without particular limitation using known techniques.

상기 표적 서열이 결정되고 나면, 이에 대응하는 스페이서 서열을 설계한다. 상기 스페이서 서열은 상기 표적 서열과 상보적으로 결합할 수 있는 서열로 설계된다. 일 구현예로, 상기 스페이서 서열은 상기 표적 핵산 또는 표적 유전자와 상보적으로 결합할 수 있는 서열로 설계된다. 일 구현예로, 상기 스페이서 서열은 상기 표적 핵산의 표적 가닥 서열에 포함된 표적 서열과 상보적인 서열로 설계될 수 있다. After the target sequence is determined, a spacer sequence corresponding thereto is designed. The spacer sequence is designed as a sequence capable of complementary binding to the target sequence. In one embodiment, the spacer sequence is designed as a sequence capable of complementary binding to the target nucleic acid or target gene. In one embodiment, the spacer sequence may be designed as a sequence complementary to the target sequence included in the target strand sequence of the target nucleic acid.

또한, 상기 스페이서 서열은 상기 표적 핵산의 비표적 가닥 서열에 포함된 프로토스페이서의 DNA 서열에 상응하는 RNA 서열로 설계될 수 있다. 구체적으로, 상기 스페이서 서열은 상기 프로토스페이서 서열과 동일한 염기서열을 가지며, 상기 염기서열에 포함된 티미딘 각각이 모두 유리딘으로 치환된 서열로 설계될 수 있다.In addition, the spacer sequence may be designed as an RNA sequence corresponding to the DNA sequence of the protospacer included in the non-target strand sequence of the target nucleic acid. Specifically, the spacer sequence may have the same nucleotide sequence as the protospacer sequence, and may be designed as a sequence in which all thymidines included in the nucleotide sequence are substituted with uridine.

일 구현예로, 상기 스페이서 서열은 상기 표적 서열과 60% 이상 서열 동일성을 가지는 상보적인 서열일 수 있다. 바람직하게, 상기 스페이서 서열은 상기 표적서열과 60% 내지 90%의 서열 동일성을 가지는 상보적인 서열일 수 있다. 보다 바람직하게, 상기 스페이서 서열은 상기 표적 서열과 90% 내지 100%의 서열 동일성을 가지는 상보적인 서열일 수 있다.In one embodiment, the spacer sequence may be a complementary sequence having 60% or more sequence identity with the target sequence. Preferably, the spacer sequence may be a complementary sequence having 60% to 90% sequence identity with the target sequence. More preferably, the spacer sequence may be a complementary sequence having 90% to 100% sequence identity with the target sequence.

또한 본 발명에 따른 상기 스페이서 서열은 상기 표적 서열과 0개, 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 또는 10개의 미스매치를 가지는 상보적인 서열일 수 있다. 일 구현예로, 상기 스페이서 서열은 상기 표적 서열과 1개 내지 5개의 미스매치를 가질 수 있다. 또한, 상기 스페이서 서열은 상기 표적 서열과 6개 내지 10개의 미스매치를 기질 수 있다.In addition, the spacer sequence according to the present invention has 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, or 10 mismatches with the target sequence. It may be a complementary sequence. In one embodiment, the spacer sequence may have 1 to 5 mismatches with the target sequence. In addition, the spacer sequence may have 6 to 10 mismatches with the target sequence.

2. 초소형 염기 교정(Base editing) 시스템의 각 구성 요소의 세포 내 전달2. Intracellular delivery of each component of the micro base editing system

본 명세서에서 제공하는 염기교정 및 유전자 편집 방법은 본 발명에 따른 초소형 염기교정(Base editing) 구조물 및 이를 포함하는 초소형 염기교정 시스템이 표적 핵산 또는 표적 유전자에 대해 표적 서열을 특이적으로 인식하고 편집하는 활성을 가지는 점을 이용한다. The base editing and gene editing method provided in the present specification is a method in which the base editing structure according to the present invention and the base editing system including the same specifically recognize and edit a target sequence for a target nucleic acid or target gene. Use points that are active.

본 명세서에서 제공하는 유전자 편집 방법은 대상 세포 내에서 엔지니어링된 Cas12f1 sgRNA를 포함하는 초소형 염기교정(Base editing) 시스템 또는 초소형 염기교정(Base editing) 구조물이 표적 핵산 또는 표적 유전자의 표적 서열 부위에 접촉하는 것을 전제로 한다. The gene editing method provided herein is a method in which a base editing system or a base editing structure containing an engineered Cas12f1 sgRNA in a target cell contacts a target sequence region of a target nucleic acid or target gene assuming that

이에, 본 발명의 유전자 편집 방법은 상기 초소형 염기교정(Base editing) 구조물 및/또는 이를 포함하는 초소형 염기교정 시스템이 대상 세포 내에서 효과적으로 전달하는 것을 포함한다. 바람직하게, 상기 초소형 염기교정 구조물 및/또는 이를 포함하는 초소형 염기교정 시스템의 각 구성요소를 대상 세포 내 표적 핵산 또는 표적 유전자의 표적 서열 부위에 접촉하거나 접촉을 유도하는 것을 포함한다. Accordingly, the gene editing method of the present invention includes effective transfer of the base editing structure and/or the base editing system including the base editing structure into a target cell. Preferably, contacting or inducing contact of the microbase nucleotide editing construct and/or each component of the miniaturization system including the same with a target sequence site of a target nucleic acid or target gene in a target cell.

일 구현예로, 상기 유전자 편집 방법은 엔지니어링된 가이드 RNA 또는 이를 암호화하는 핵산; 및 Cas12f1 단백질 또는 이의 기능성 유사체, 또는 이를 암호화하는 핵산;을 대상 세포 내에 전달하는 것을 포함할 수 있다. 또한, 상기 유전자 편집 방법은 엔지니어링된 가이드 RNA; 및 Cas12f1 또는 이의 기능성 유사체 단백질;을 대상 세포 내에 전달하는 것을 포함할 수 있다. In one embodiment, the gene editing method comprises an engineered guide RNA or a nucleic acid encoding the same; and Cas12f1 protein or a functional analog thereof, or a nucleic acid encoding the same; into a target cell. In addition, the gene editing method includes an engineered guide RNA; and Cas12f1 or a functional analogue protein thereof; into a target cell.

일 구현예로, 상기 유전자 편집 방법은 엔지니어링된 가이드 RNA를 암호화하는 핵산; 및 Cas12f1 단백질 또는 이의 기능성 유사체 단백질;을 대상 세포 내에 전달하는 것을 포함할 수 있다. In one embodiment, the gene editing method comprises a nucleic acid encoding an engineered guide RNA; and Cas12f1 protein or a protein functional analogue thereof; into a target cell.

또한, 일 구현예로, 상기 유전자 편집 방법은 엔지니어링된 가이드 RNA; 및 Cas12f1 단백질 또는 이의 기능성 유사체 단백질을 암호화하는 핵산;을 대상 세포 내에 전달하는 것을 포함할 수 있다. In addition, in one embodiment, the gene editing method is an engineered guide RNA; and a nucleic acid encoding the Cas12f1 protein or a protein functional analogue thereof; into a target cell.

일 구현예로, 상기 유전자 편집 방법은 엔지니어링된 가이드 RNA를 암호화하는 핵산; 및 Cas12f1 단백질 또는 이의 기능성 유사체 단백질을 암호화하는 핵산;을 대상 세포 내에 전달하는 것을 포함할 수 있다. In one embodiment, the gene editing method comprises a nucleic acid encoding an engineered guide RNA; and a nucleic acid encoding the Cas12f1 protein or a protein functional analogue thereof; into a target cell.

엔지니어링된 가이드 RNA 또는 이를 암호화하는 핵산; 및 Cas12f1 단백질 또는 이의 기능성 유사체 단백질, 또는 이를 암호화하는 핵산;은 다양한 전달 형태로, 다양한 전달 방법을 이용하여 대상 세포 내에 전달될 수 있다. 여기서, 상기 유도는 상기 엔지니어링된 Cas12f1 sgRNA를 포함하는 초소형 염기교정(Base editing) 시스템 또는 초소형 염기교정(Base editing) 구조물이 세포 내에서 표적 핵산과 접촉하도록 하는 방법이라면 특별히 제한되지 않는다. engineered guide RNAs or nucleic acids encoding them; and the Cas12f1 protein or functional analogue protein thereof, or a nucleic acid encoding the same; can be delivered into a target cell in a variety of delivery formats and using a variety of delivery methods. Here, the induction is not particularly limited as long as the base editing system or the base editing structure containing the engineered Cas12f1 sgRNA is brought into contact with the target nucleic acid in the cell.

2-1. 전달 형태2-1. form of delivery

본 발명의 상기 방법을 위한 상기 초소형 염기교정(Base editing) 구조물 및 이를 포함하는 초소형 염기교정(Base editing) 시스템의 전달 형태는 세포 내로 엔지니어링된 Cas12f1 가이드 RNA 또는 이를 암호화하는 핵산; 및 Cas12f1 단백질 또는 이의 기능적 유사체, 또는 이를 암호화하는 핵산;을 적절한 전달 형태로 세포 내로 전달할 수 있는 것이라면 특별히 제한되지 않는다.The subminiature base editing structure for the method of the present invention and the delivery form of the subminiature base editing system including the base editing system include a Cas12f1 guide RNA engineered into a cell or a nucleic acid encoding the same; and Cas12f1 protein or a functional analogue thereof, or a nucleic acid encoding the same; it is not particularly limited as long as it can be delivered into a cell in an appropriate delivery form.

본 발명의 상기 방법을 위한 상기 초소형 염기교정 구조물 및 이를 포함하는 초소형 염기교정 시스템의 전달 형태로, 엔지니어링된 Cas12f1 가이드 RNA 및 Cas12f1 단백질이 결합한 리보뉴클레오프로틴 입자(Ribonucleoprotein particle, RNP)를 이용할 수 있다. As a delivery form of the miniaturized base editing structure and the miniaturized base editing system including the same for the method of the present invention, a ribonucleoprotein particle (RNP) to which an engineered Cas12f1 guide RNA and Cas12f1 protein are bound can be used. .

일 구현예로, 상기 유전자 편집 방법은 엔지니어링된 Cas12f1 가이드 RNA 및 Cas12f1 단백질이 결합한 CRISPR/Cas12f1 복합체를 대상 세포 내에 주입하는 것을 포함할 수 있다.In one embodiment, the gene editing method may include injecting a CRISPR/Cas12f1 complex in which the engineered Cas12f1 guide RNA and the Cas12f1 protein are combined into a target cell.

또 다른 전달 형태로, 엔지니어링된 Cas12f1 가이드 RNA 또는 이를 암호화하는 핵산; 및 Cas12f1 단백질 또는 이의 기능적 유사체, 또는 이를 암호화하는 핵산;을 포함하는 비바이러스 벡터를 이용할 수 있다. In another delivery form, an engineered Cas12f1 guide RNA or a nucleic acid encoding the same; And a Cas12f1 protein or a functional analogue thereof, or a nucleic acid encoding the same; a non-viral vector comprising a can be used.

일 구현예로, 상기 유전자 편집 방법은 엔지니어링된 Cas12f1 가이드 RNA를 암호화하는 핵산 서열 및 Cas12f1 단백질을 암호화하는 핵산 서열을 포함하는 비바이러스 벡터를 대상 세포 내에 주입하는 것을 포함할 수 있다. 구체적으로, 상기 비바이러스 벡터는 플라스미드, 네이키드 DNA, DNA 복합체, 또는 mRNA일 수 있으나, 이에 제한되는 것은 아니다. In one embodiment, the gene editing method may include injecting a non-viral vector including a nucleic acid sequence encoding an engineered Cas12f1 guide RNA and a nucleic acid sequence encoding a Cas12f1 protein into a target cell. Specifically, the non-viral vector may be a plasmid, naked DNA, DNA complex, or mRNA, but is not limited thereto.

또 다른 구현예로, 상기 유전자 편집 방법은 엔지니어링된 Cas12f1 가이드 RNA를 암호화하는 핵산 서열을 포함하는 제1 비바이러스 벡터 및 Cas12f1 단백질을 암호화하는 핵산 서열을 포함하는 제2 비바이러스 벡터를 대상 세포 내에 주입하는 것을 포함할 수 있다. In another embodiment, the gene editing method involves injecting a first non-viral vector comprising a nucleic acid sequence encoding an engineered Cas12f1 guide RNA and a second non-viral vector comprising a nucleic acid sequence encoding a Cas12f1 protein into a target cell. may include doing

구체적으로, 상기 제1 비바이러스 벡터 및 상기 제2 비바이러스 벡터는 각각 플라스미드, 네이키드 DNA, DNA 복합체 및 mRNA로 이뤄진 군에서 선택된 하나일 수 있으나, 이에 제한되는 것은 아니다.Specifically, the first non-viral vector and the second non-viral vector may each be one selected from the group consisting of plasmid, naked DNA, DNA complex, and mRNA, but are not limited thereto.

또 다른 전달 형태로, 엔지니어링된 Cas12f1 가이드 RNA를 암호화하는 핵산 서열 및 Cas12f1 단백질 또는 이의 기능적 유사체를 암호화하는 핵산 서열을 포함하는 바이러스 벡터를 이용할 수 있다. In another form of delivery, a viral vector comprising a nucleic acid sequence encoding an engineered Cas12f1 guide RNA and a nucleic acid sequence encoding a Cas12f1 protein or functional analog thereof can be used.

일 구현예로, 상기 유전자 편집 방법은 엔지니어링된 Cas12f1 가이드 RNA를 암호화하는 핵산 서열 및 Cas12f1 단백질 또는 이의 기능적 유사체를 암호화하는 핵산서열을 포함하는 하나의 바이러스 벡터를 대상 세포 내에 주입하는 것을 포함할 수 있다. In one embodiment, the gene editing method may include injecting a viral vector containing a nucleic acid sequence encoding an engineered Cas12f1 guide RNA and a nucleic acid sequence encoding a Cas12f1 protein or a functional analogue thereof into a target cell. .

구체적으로, 상기 바이러스 벡터는 레트로바이러스, 렌티바이러스, 아데노바이러스, 아데노-연관 바이러스, 백시니아바이러스, 폭스바이러스 및 단순포진 바이러스로 구성된 군에서 선택된 하나일 수 있으나, 이에 제한되는 것은 아니다. 바람직하게, 상기 바이러스 벡터는 아데노-연관 바이러스일 수 있다.Specifically, the viral vector may be one selected from the group consisting of retrovirus, lentivirus, adenovirus, adeno-associated virus, vaccinia virus, poxvirus, and herpes simplex virus, but is not limited thereto. Preferably, the viral vector may be an adeno-associated virus.

또 다른 일 예로, 상기 유전자 편집 방법은 엔지니어링된 Cas12f1 가이드 RNA를 암호화하는 핵산 서열을 포함하는 제1 바이러스 벡터 및 Cas12f1 단백질을 암호화하는 핵산 서열을 포함하는 제2 바이러스 벡터를 대상 세포 내에 주입하는 것을 포함할 수 있다. 구체적으로, 상기 제1 바이러스 벡터 및 제2 바이러스 벡터는 각각 레트로바이러스, 렌티바이러스, 아데노바이러스, 아데노-연관 바이러스, 백시니아바이러스, 폭스바이러스 및 단순포진 바이러스로 구성된 군에서 선택된 하나일 수 있으나, 이에 제한되는 것은 아니다.In another example, the gene editing method includes injecting a first viral vector comprising a nucleic acid sequence encoding an engineered Cas12f1 guide RNA and a second viral vector comprising a nucleic acid sequence encoding a Cas12f1 protein into a target cell. can do. Specifically, the first viral vector and the second viral vector may be one selected from the group consisting of retroviruses, lentiviruses, adenoviruses, adeno-associated viruses, vaccinia viruses, poxviruses, and herpes simplex viruses, respectively. It is not limited.

또한, 상기 전달 형태는 엔지니어링된 Cas12f1 가이드 RNA 또는 이를 암호화하는 핵산; 및 Cas12f1 단백질 또는 이의 기능적 유사체, 또는 이를 암호화하는 핵산;을 나노파티클을 이용하여 전달하는 것일 수 있다. In addition, the delivery form may include an engineered Cas12f1 guide RNA or a nucleic acid encoding the same; and Cas12f1 protein or a functional analog thereof, or a nucleic acid encoding the same; may be delivered using nanoparticles.

일 구현예로, 상기 전달 방법은 Cas12f1 단백질 또는 이를 암호화하는 핵산, 제1 엔지니어링된 Cas12f1 가이드 RNA 또는 이를 암호화하는 핵산 및/또는 제2 엔지니어링된 Cas12f1 가이드 RNA 또는 이를 암호화하는 핵산을 나노파티클을 이용하여 전달하는 것일 수 있다. In one embodiment, the delivery method comprises a Cas12f1 protein or a nucleic acid encoding the same, a first engineered Cas12f1 guide RNA or a nucleic acid encoding the same, and/or a second engineered Cas12f1 guide RNA or a nucleic acid encoding the same using nanoparticles. it may be conveying

여기서, 상기 전달 방법은 양이온성 리포좀법, 초산 리튬-DMSO, 지질-매개 형질감염(transfection), 인산칼슘 침전법(precipitation), lipofection, 전기천공법, 유전자총, 초음파천공법, 자기주입법(magnetofection), 및/또는 일시적인 세포 압축 또는 스퀴징PEI(Polyethyleneimine)-매개 형질감염, DEAE-dextran 매개 형질감염 또는 나노파티클-매개 핵산 전달일 수 있으나, 이에 제한되는 것은 아니다. Here, the delivery method is a cationic liposome method, lithium acetate-DMSO, lipid-mediated transfection (transfection), calcium phosphate precipitation method (precipitation), lipofection, electroporation, gene gun, sonoporation, magnetofection ), and/or transient cell compression or squeezing PEI (Polyethyleneimine)-mediated transfection, DEAE-dextran-mediated transfection, or nanoparticle-mediated nucleic acid delivery, but is not limited thereto.

또한, 본 발명에서 엔지니어링된 Cas12f1 가이드 RNA 또는 이를 암호화하는 핵산; 및 Cas12f1 단백질 또는 이의 기능적 유사체, 또는 이를 암호화하는 핵산;을 세포 내로 전달하여 표적 유전자를 편집하는 방법의 전달 형태는 전술한 전달 형태들을 조합하여 수행할 수 있다. In addition, the Cas12f1 guide RNA engineered in the present invention or a nucleic acid encoding the same; and Cas12f1 protein or a functional analogue thereof, or a nucleic acid encoding the same; the delivery form of the method of editing a target gene by delivering into a cell may be performed by combining the above delivery forms.

일 예로, 상기 유전자 편집 방법은 엔지니어링된 Cas12f1 가이드 RNA 또는 이를 암호화하는 핵산은 제1 전달 형태로 전달하고, Cas12f1 단백질 또는 이를 암호화하는 핵산은 제2 전달 형태로 전달하는 것을 포함할 수 있다. 이때, 상기 제1 전달 형태 및 상기 제2 전달 형태는 각각 전술한 전달 형태 중 어느 하나일 수 있다. For example, the gene editing method may include delivering an engineered Cas12f1 guide RNA or a nucleic acid encoding the same in a first delivery form, and delivering a Cas12f1 protein or a nucleic acid encoding the same in a second delivery form. In this case, the first delivery form and the second delivery form may each be any one of the above-described delivery forms.

일 구현예로, 상기 유전자 편집 방법은 엔지니어링된 Cas12f1 가이드 RNA 또는 이를 암호화하는 핵산은 제1 전달 방법으로 전달하고, Cas12f1 단백질 또는 이를 암호화하는 핵산은 제2 전달 방법으로 전달하는 것을 포함할 수 있다. 이때, 상기 제1 전달 방법 및 상기 제2 전달 방법은 각각 전술한 전달 방법 중 어느 하나일 수 있다.In one embodiment, the gene editing method may include delivering the engineered Cas12f1 guide RNA or a nucleic acid encoding the same by a first delivery method, and delivering the Cas12f1 protein or a nucleic acid encoding the same by a second delivery method. In this case, the first delivery method and the second delivery method may each be any one of the above-described delivery methods.

본 발명에서 상기 유전자 편집 방법의 전달 형태는 하나의 벡터에 전달하고자 하는 본 발명에 따른 초소형 염기교정 구조물 및 이를 포함하는 초소형 염기교정 시스템의 구성요소를 편집의 대상이 되는 표적 핵산 또는 표적 유전자이 존재하는 환경으로 전달시킬 수 있는 전달 형태라면 특별히 제한되지 않는다.In the present invention, the delivery form of the gene editing method is a target nucleic acid or target gene to be edited for the microbase nucleotide editing structure according to the present invention to be delivered to one vector and the components of the microbase nucleotide editing system including the same. It is not particularly limited as long as it is a delivery form capable of being delivered to the environment.

2-2. 전달 순서2-2. order of delivery

상기 유전자 편집 방법은 엔지니어링된 Cas12f1 가이드 RNA 또는 이를 암호화하는 핵산; 및 Cas12f1 단백질 또는 이를 암호화하는 핵산;을 세포 내 전달하는 것을 포함하는데, 이때 상기 구성이 세포 내에 동시에 전달될 수 있지만, 시간 차를 두고 순차적으로 전달될 수 있다.The gene editing method includes an engineered Cas12f1 guide RNA or a nucleic acid encoding the same; and Cas12f1 protein or a nucleic acid encoding the same; wherein the construct may be simultaneously delivered into the cell, but may be delivered sequentially with a time difference.

일 구현예로, 상기 유전자 편집 방법은 엔지니어링된 Cas12f1 가이드 RNA 또는 이를 암호화하는 핵산; 및 Cas12f1 단백질 또는 이를 암호화하는 핵산;을 동시에 전달하는 것을 포함할 수 있다. In one embodiment, the gene editing method comprises an engineered Cas12f1 guide RNA or a nucleic acid encoding the same; and the Cas12f1 protein or a nucleic acid encoding the same.

일 구현예로, 상기 유전자 편집 방법은 엔지니어링된 Cas12f1 가이드 RNA 또는 이를 암호화하는 핵산을 세포 내로 전달한 후, 시간 차를 두고 Cas12f1 단백질 또는 이를 암호화하는 핵산을 세포 내로 전달하는 것을 포함할 수 있다. In one embodiment, the gene editing method may include delivering the engineered Cas12f1 guide RNA or the nucleic acid encoding the same into the cell, and then delivering the Cas12f1 protein or the nucleic acid encoding the same into the cell with a time difference.

일 구현예로, 상기 유전자 편집 방법은 Cas12f1 단백질 또는 이를 암호화하는 핵산을 세포 내로 전달한 후, 시간 차를 두고 엔지니어링된 Cas12f1 가이드 RNA를 세포 내로 전달하는 것을 포함할 수 있다. In one embodiment, the gene editing method may include delivering the Cas12f1 protein or a nucleic acid encoding the Cas12f1 protein into the cell, and then delivering the engineered Cas12f1 guide RNA into the cell with a time difference.

일 구현예로, 상기 유전자 편집 방법은 Cas12f1 단백질을 암호화하는 핵산을 세포 내로 전달한 후, 시간 차를 두고 엔지니어링된 Cas12f1 가이드 RNA를 세포 내로 전달하는 것을 포함할 수 있다.In one embodiment, the gene editing method may include delivering a Cas12f1 protein-encoding nucleic acid into a cell and then delivering an engineered Cas12f1 guide RNA into the cell with a time difference.

또한, 본 발명에서 제공하는 유전자 편집 방법은 대상 세포 내에 Cas12f1 단백질 또는 이를 암호화하는 핵산, 및 둘 이상의 엔지니어링된 Cas12f1 가이드 RNA 또는 이를 암호화하는 핵산을 전달하는 것을 포함할 수 있다. In addition, the gene editing method provided by the present invention may include delivering a Cas12f1 protein or a nucleic acid encoding the Cas12f1 protein and two or more engineered Cas12f1 guide RNAs or a nucleic acid encoding the same into a target cell.

상기 방법을 통해, 서로 다른 서열을 표적하는 둘 이상의 CRISPR/Cas12f1 복합체가 대상 세포 내에 주입되거나, 대상 세포 내에서 형성될 수 있다. 그 결과, 세포 내에 포함된 둘 이상의 표적 유전자, 또는 표적 핵산이 편집될 수 있다. Through this method, two or more CRISPR/Cas12f1 complexes targeting different sequences can be injected into a target cell or formed in a target cell. As a result, two or more target genes or target nucleic acids contained in the cell can be edited.

일 구현예로, 상기 유전자 편집 방법은 Cas12f1 단백질 또는 이를 암호화하는 핵산, 제1 엔지니어링된 Cas12f1 가이드 RNA 또는 이를 암호화하는 핵산, 및 제2 엔지니어링된 Cas12f1 가이드 RNA 또는 이를 암호화하는 핵산을 표적 유전자 또는 표적 핵산을 포함하고 있는 대상 세포 내에 전달하는 것을 포함한다. 이때, 상기 각 구성요소는 전술한 전달 형태 및 전달 방법 중 하나 이상을 사용하여 세포 내로 전달될 수 있다. 여기서, 둘 이상의 구성요소가 세포 내에 동시에 전달될 수 있고, 시간차를 두고 순차적으로 전달될 수 있다.In one embodiment, the gene editing method comprises combining a Cas12f1 protein or a nucleic acid encoding the same, a first engineered Cas12f1 guide RNA or a nucleic acid encoding the same, and a second engineered Cas12f1 guide RNA or a nucleic acid encoding the same into a target gene or a target nucleic acid. It includes delivery into target cells containing. In this case, each of the components may be delivered into cells using one or more of the above-described delivery forms and delivery methods. Here, two or more components may be delivered into cells simultaneously or sequentially with a time difference.

[염기교정(Base Editing)을 위한 조성물 및 방법][Composition and method for base editing]

본 발명에서는 초소형 염기교정(Base editing) 시스템의 각 구성요소를 포함하는 유전자 편집용 조성물을 개시한다. Disclosed in the present invention is a gene editing composition comprising each component of a mini base editing system.

일 구현예로, Cas12f1, TnpB 단백질 또는 이의 기능적 유사체, 또는 이를 암호화하는 핵산; 및 엔지니어링된 Cas12f1 가이드 RNA 또는 이를 암호화하는 핵산;을 포함하는 유전자 편집용 조성물을 개시한다. 여기서, 상기 Cas12f1 단백질은 야생형 Cas12f1, TnpB 단백질 또는 이의 기능적 유사체에서 DNA 이중가닥 절단 활성이 상실되거나 감소된 Cas12f1 단백질 변이체(dCas12f1 또는 nCas12f1), TnpB 단백질 변이체(dTnpB 또는 nTnpB) 및 이의 기능성 변이체일 수 있다. 상기 dCas12f1, nCas12f1, dTnpB 또는 nTnpB; 및 이의 기능성 변이체;는 아데노신 탈아미노화효소 또는 시티딘 탈아미노화효소가 N-말단 또는 C-말단에 결합된 융합 단백질일 수 있다. 상기 융합 단백질은 염기 교정의 활성을 나타내는 것일 수 있다. In one embodiment, a Cas12f1, TnpB protein or a functional analogue thereof, or a nucleic acid encoding the same; And an engineered Cas12f1 guide RNA or a nucleic acid encoding the same; discloses a gene editing composition comprising a. Here, the Cas12f1 protein may be a Cas12f1 protein mutant (dCas12f1 or nCas12f1), a TnpB protein mutant (dTnpB or nTnpB), and a functional variant thereof having lost or reduced DNA double-strand break activity in wild-type Cas12f1, TnpB protein or a functional analog thereof. . the dCas12f1, nCas12f1, dTnpB or nTnpB; and functional variants thereof; may be a fusion protein in which adenosine deaminase or cytidine deaminase is linked to the N-terminus or C-terminus. The fusion protein may exhibit base proofreading activity.

본 발명에서는 또한 상기 융합 단백질을 기초로 하여, 염기 교정 활성을 나타내는 dCas12f1 또는 dTnpB 유래의 핵산분해 단백질을 포함하는 다양한 조합의 구성을 포함하는 초소형 염기교정(Base editing) 구조물을 제작하였다. 이들은 본 발명에 따른 초소형 염기교정(Base editing) 시스템의 필수적인 구성요소가 된다. In the present invention, based on the fusion protein, a subminiature base editing construct including various combinations including a nucleolytic protein derived from dCas12f1 or dTnpB exhibiting base editing activity was prepared. These are essential components of the miniaturized base editing system according to the present invention.

또한, 일 구현예에서, 상기 초소형 염기교정(Base editing) 시스템은 Cas12f1, TnpB 또는 이의 기능적 유사체에 대해서 그 표적 활성이나 유전자 편집 활성을 최대로 발휘하게 하는 엔지니어링된 가이드 RNA를 포함한다. In addition, in one embodiment, the miniaturized base editing system includes an engineered guide RNA that maximizes the target activity or gene editing activity for Cas12f1, TnpB or a functional analogue thereof.

이는 전술한'초소형 염기교정(Base editing) 시스템을 위한 엔지니어링된 가이드 RNA' 및 '스캐폴드 영역'섹션에 기재된 어느 하나 이상일 수 있다. 바람직하게, MS1/MS2/MS3에서 변형을 갖는 sgRNACas12f_ge3.0(서열번호 57), MS2/MS3/MS4에서 변형을 갖는 sgRNA Cas12f_ge4.0(서열번호 58) 및/또는 MS2/MS3/MS4/MS5에서 변형을 갖는 sgRNA Cas12f_ge4.1(서열번호 59)일 수 있다. This may be any one or more described in the above-described 'engineered guide RNA for a small base editing system' and 'scaffold region' section. Preferably, sgRNACas12f_ge3.0 with modifications at MS1/MS2/MS3 (SEQ ID NO: 57), sgRNA Cas12f_ge4.0 with modifications at MS2/MS3/MS4 (SEQ ID NO: 58) and/or MS2/MS3/MS4/MS5 It may be sgRNA Cas12f_ge4.1 (SEQ ID NO: 59) with modifications.

또한, 본 발명의 상기 유전자 편집용 조성물은 상기 본 발명에 따른 초소형 염기교정(Base editing) 시스템의 각 구성요소 이외에, 유전자 편집 용도에 필요한 적절한 물질을 추가로 포함할 수 있음은 자명하다.In addition, it is apparent that the composition for gene editing of the present invention may further include appropriate materials required for gene editing use, in addition to each component of the miniaturized base editing system according to the present invention.

본 발명은 또한, 상기 본 발명에 따른 초소형 염기교정(Base editing) 시스템 또는 이를 포함하는 상기 조성물을 표적 서열과 접촉시키는 단계를 포함하는 염기교정 방법을 제공한다. 여기서 상기 염기교정은 아데닌(A) 염기를 구아닌(G)으로 교정하거나, 시토신(C) 염기를 티민(T)으로 최종 교정시키는 방법일 수 있다. The present invention also provides a base editing method comprising the step of contacting a target sequence with the miniaturized base editing system or the composition including the base editing system according to the present invention. Here, the base correction may be a method of proofreading an adenine (A) base with guanine (G) or final proofreading a cytosine (C) base with thymine (T).

그 결과 표적 핵산 또는 표적 유전자 내의 임의의 염기가 결실 또는 추가되는 인델(indel)과는 달리, 표적 핵산 또는 표적 유전자 내 하나 이상의 특정 염기를 의도한 대로 다른 염기로 변경하게 된다. 결국, 표적 핵산 또는 표적 유전자 내 표적 서열에서 염기 치환의 결과로 '의도된 점 돌연변이(point mutation)'를 일으키는 것이다. As a result, one or more specific bases in the target nucleic acid or target gene are changed to other bases as intended, unlike indels in which any base in the target nucleic acid or target gene is deleted or added. After all, 'intentional point mutation' is caused as a result of base substitution in a target sequence in a target nucleic acid or target gene.

일 구현예로, 본 발명에 따른 염기 교정 방법에 있어서, 상기 표적 핵산 또는 표적 유전자 내 표적 서열은 교정하고자 하는 표적 염기를 포함하는 것일 수 있고, 상기 교정하고자 하는 표적 염기는 질병 또는 질환과 연관된 아데닌(A) 또는 시토신(C) 염기일 수 있다. In one embodiment, in the base correction method according to the present invention, the target sequence in the target nucleic acid or target gene may include a target base to be corrected, and the target base to be corrected is adenine associated with a disease or disease. (A) or cytosine (C) bases.

또한, 상기 표적 염기는 종결 코돈 내에 존재하는 염기로써, 염기교정을 통하여 상기 종결코돈(Stop codon)을 아미노산을 암호화하는 코돈으로 교정하고, 종결코돈에 의해 전사가 중단되었던 것을 다시 진행시킬 수 있게 하기 위한 것이 될 수 있다. 반대로 표적 염기를 교정하여 종결 코돈을 만들고자 하는 부위의 염기일 수 있다. 이 경우에는 indel에 의한 유전자 편집을 대체할 수 있는 유전자 편집에 해당할 수 있다. In addition, the target base is a base present in the stop codon, and through base correction, the stop codon is corrected with a codon encoding an amino acid, and the transcription stopped by the stop codon can be resumed. can be for Conversely, it may be a base at a site where a stop codon is to be made by correcting the target base. In this case, it may correspond to gene editing that can replace gene editing by indel.

일 구현예로, 상기 유전자 편집 방법은 엔지니어링된 Cas12f1 가이드 RNA 및 본 발명에 따른 초소형 염기교정(Base editing) 구조물 단백질이 결합한 리보뉴클레오프로틴 입자 형태의 초소형 염기교정(Base editing) 시스템을 진핵 세포 내에 전달하는 것을 포함할 수 있다. 이때, 상기 전달은 전기천공법, 또는 lipofection을 이용한 것일 수 있다.In one embodiment, the gene editing method includes a base editing system in the form of ribonucleoprotein particles in which the engineered Cas12f1 guide RNA and the base editing structure protein according to the present invention are combined into eukaryotic cells. may include delivery. In this case, the delivery may be performed using electroporation or lipofection.

또 다른 일 구현예로, 상기 유전자 편집 방법은 바람직하게 엔지니어링된 Cas12f1 가이드 RNA를 암호화하는 핵산 서열 및 본 발명에 따른 초소형 염기교정(Base editing) 구조물을 암호화하는 핵산 서열을 모두 포함하는 하나의 아데노-연관 바이러스(AAV) 벡터를 이용하여 표적 핵산 또는 표적 유전자를 포함하는 진핵세포 내에 전달하는 것을 포함할 수 있다.In another embodiment, the gene editing method preferably comprises a single adeno- comprising both a nucleic acid sequence encoding an engineered Cas12f1 guide RNA and a nucleic acid sequence encoding the base editing construct according to the present invention. It may include using an associated viral (AAV) vector to deliver the target nucleic acid or target gene into a eukaryotic cell.

이하, 실시예를 통해 본 명세서가 제공하는 발명에 대해 더욱 상세히 설명한다. 이들 실시예는 오로지 본 명세서에 의해 개시되는 내용을 예시하기 위한 것으로, 본 명세서에 의해 개시되는 내용의 범위가 이들 실시예에 의해 제한되는 것으로 해석되지 않는 것은 이 기술 분야에서 통상의 지식을 가진 자에게 있어서 자명할 것이다.Hereinafter, the invention provided by this specification will be described in more detail through examples. These examples are only for exemplifying the content disclosed by this specification, and those of ordinary skill in the art are not to be construed as limiting the scope of the content disclosed by this specification. It will be self-evident for

[실시예][Example]

실시예 1. 초소형 염기교정(Base editing) 시스템의 각 구성요소 제작Example 1. Manufacturing of each component of a mini base editing system

실시예 1-1. 인간 코돈-최적화된 Cas12f1를 암호화하는 핵산Example 1-1. Nucleic acid encoding human codon-optimized Cas12f1

인간 세포에서 발현하는 초소형 염기교정(Base editing) 시스템을 구축하기 위해서, Cas14 패밀리에 속하는 Cas12f1 단백질(서열번호 1)을 코돈 최적화 프로그램을 이용하여 인간 코돈-최적화하였다. 상기 코돈-최적화된 유전자의 5'-말단 및 3'-말단에 NLS 서열로써 5'-CCAAAGAAGAAGCGGAAGGTC-3' (서열번호 60) 및 5'-AAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAG-3' (서열번호 61)를 각각 추가하고, 5'-말단 NLS 서열과 Cas12f1의 시작 코돈 사이에 링커 5'-GGTATCCACGGAGTCCCAGCAGCC-3'(서열번호 136)가 연결된 인간 코돈-최적화된 Cas12f1 단백질의 코딩 서열(Coding sequence, 서열번호 2)을 제작하였다. To construct a subminiature base editing system expressed in human cells, the Cas12f1 protein (SEQ ID NO: 1) belonging to the Cas14 family was human codon-optimized using a codon optimization program. Add 5'-CCAAAGAAGAAGCGGAAGGTC-3' (SEQ ID NO: 60) and 5'-AAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAG-3' (SEQ ID NO: 61) as NLS sequences to the 5'-end and 3'-end of the codon-optimized gene, respectively, A human codon-optimized Cas12f1 protein coding sequence (SEQ ID NO: 2) was prepared by connecting a linker 5'-GGTATCCACGGAGTCCCAGCAGCC-3' (SEQ ID NO: 136) between the 5'-terminal NLS sequence and the start codon of Cas12f1.

상기 제작된 유전자를 주형으로 PCR 증폭을 진행하고, Gibson assembly 방법을 통하여 진핵세포 시스템(Eukaryotic system)에서 발현이 가능한 프로모터와 poly(A) signal sequence를 가지는 벡터에 원하는 클로닝(cloning) 서열에 맞게 클로닝을 진행하였다. 클로닝 후, 얻어진 재조합 플라스미드 벡터의 서열은 생거 시퀀싱(Sanger sequencing) 방법을 통하여 최종 확인하였다. 클로닝에 사용된 Cas12f1 단백질의 아미노산 서열 및 이를 암호화하는 인간 코돈-최적화된 Cas12f1 염기서열은 [표 1]에 나타냈다.PCR amplification is performed using the prepared gene as a template, and cloning is performed according to the desired cloning sequence into a vector having a promoter capable of expression in a eukaryotic system and a poly(A) signal sequence through the Gibson assembly method. proceeded. After cloning, the sequence of the obtained recombinant plasmid vector was finally confirmed through the Sanger sequencing method. The amino acid sequence of the Cas12f1 protein used for cloning and the human codon-optimized Cas12f1 base sequence encoding it are shown in [Table 1].

LabelLabel Sequence(5' to 3')Sequence(5' to 3') SEQ ID
NO:
SEQ ID
NO:

Cas12f1
단백질

Cas12f1
protein

MAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP

MAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP

1

One

인간 코돈-최적화된 Cas12f1
염기서열

Human codon-optimized Cas12f1
base sequence

ATGGCCAAGAACACAATTACAAAGACACTGAAGCTGAGGATCGTGAGACCATACAACAGCGCTGAGGTCGAGAAGATTGTGGCTGATGAAAAGAACAACAGGGAAAAGATCGCCCTCGAGAAGAACAAGGATAAGGTGAAGGAGGCCTGCTCTAAGCACCTGAAAGTGGCCGCCTACTGCACCACACAGGTGGAGAGGAACGCCTGTCTGTTTTGTAAAGCTCGGAAGCTGGATGATAAGTTTTACCAGAAGCTGCGGGGCCAGTTCCCCGATGCCGTCTTTTGGCAGGAGATTAGCGAGATCTTCAGACAGCTGCAGAAGCAGGCCGCCGAGATCTACAACCAGAGCCTGATCGAGCTCTACTACGAGATCTTCATCAAGGGCAAGGGCATTGCCAACGCCTCCTCCGTGGAGCACTACCTGAGCGACGTGTGCTACACAAGAGCCGCCGAGCTCTTTAAGAACGCCGCTATCGCTTCCGGGCTGAGGAGCAAGATTAAGAGTAACTTCCGGCTCAAGGAGCTGAAGAACATGAAGAGCGGCCTGCCCACTACAAAGAGCGACAACTTCCCAATTCCACTGGTGAAGCAGAAGGGGGGCCAGTACACAGGGTTCGAGATTTCCAACCACAACAGCGACTTTATTATTAAGATCCCCTTTGGCAGGTGGCAGGTCAAGAAGGAGATTGACAAGTACAGGCCCTGGGAGAAGTTTGATTTCGAGCAGGTGCAGAAGAGCCCCAAGCCTATTTCCCTGCTGCTGTCCACACAGCGGCGGAAGAGGAACAAGGGGTGGTCTAAGGATGAGGGGACCGAGGCCGAGATTAAGAAAGTGATGAACGGCGACTACCAGACAAGCTACATCGAGGTCAAGCGGGGCAGTAAGATTGGCGAGAAGAGCGCCTGGATGCTGAACCTGAGCATTGACGTGCCAAAGATTGATAAGGGCGTGGATCCCAGCATCATCGGAGGGATCGATGTGGGGGTCAAGAGCCCCCTCGTGTGCGCCATCAACAACGCCTTCAGCAGGTACAGCATCTCCGATAACGACCTGTTCCACTTTAACAAGAAGATGTTCGCCCGGCGGAGGATTTTGCTCAAGAAGAACCGGCACAAGCGGGCCGGACACGGGGCCAAGAACAAGCTCAAGCCCATCACTATCCTGACCGAGAAGAGCGAGAGGTTCAGGAAGAAGCTCATCGAGAGATGGGCCTGCGAGATCGCCGATTTCTTTATTAAGAACAAGGTCGGAACAGTGCAGATGGAGAACCTCGAGAGCATGAAGAGGAAGGAGGATTCCTACTTCAACATTCGGCTGAGGGGGTTCTGGCCCTACGCTGAGATGCAGAACAAGATTGAGTTTAAGCTGAAGCAGTACGGGATTGAGATCCGGAAGGTGGCCCCCAACAACACCAGCAAGACCTGCAGCAAGTGCGGGCACCTCAACAACTACTTCAACTTCGAGTACCGGAAGAAGAACAAGTTCCCACACTTCAAGTGCGAGAAGTGCAACTTTAAGGAGAACGCCGATTACAACGCCGCCCTGAACATCAGCAACCCTAAGCTGAAGAGCACTAAGGAGGAGCCC

ATGGCCAAGAACACAATTACAAAGACACTGAAGCTGAGGATCGTGAGACCATACAACAGCGCTGAGGTCGAGAAGATTGTGGCTGATGAAAAGAACAACAGGGAAAAGATCGCCCTCGAGAAGAACAAGGATAAGGTGAAGGAGGCCTGCTCTAAGCACCTGAAAGTGGCCGCCTACTGCACCACACAGGTGGAGAGGAACGCCTGTCTGTTTTGTAAAGCTCGGAAGCTGGATGATAAGTTTTACCAGAAGCTGCGGGGCCAGTTCCCCGATGCCGTCTTTTGGCAGGAGATTAGCGAGATCTTCAGACAGCTGCAGAAGCAGGCCGCCGAGATCTACAACCAGAGCCTGATCGAGCTCTACTACGAGATCTTCATCAAGGGCAAGGGCATTGCCAACGCCTCCTCCGTGGAGCACTACCTGAGCGACGTGTGCTACACAAGAGCCGCCGAGCTCTTTAAGAACGCCGCTATCGCTTCCGGGCTGAGGAGCAAGATTAAGAGTAACTTCCGGCTCAAGGAGCTGAAGAACATGAAGAGCGGCCTGCCCACTACAAAGAGCGACAACTTCCCAATTCCACTGGTGAAGCAGAAGGGGGGCCAGTACACAGGGTTCGAGATTTCCAACCACAACAGCGACTTTATTATTAAGATCCCCTTTGGCAGGTGGCAGGTCAAGAAGGAGATTGACAAGTACAGGCCCTGGGAGAAGTTTGATTTCGAGCAGGTGCAGAAGAGCCCCAAGCCTATTTCCCTGCTGCTGTCCACACAGCGGCGGAAGAGGAACAAGGGGTGGTCTAAGGATGAGGGGACCGAGGCCGAGATTAAGAAAGTGATGAACGGCGACTACCAGACAAGCTACATCGAGGTCAAGCGGGGCAGTAAGATTGGCGAGAAGAGCGCCTGGATGCTGAACCTGAGCATTGACGTGCCAAAGATTGATAAGGGCGTGGATCCCAGCATCATCGGAGGGATCGATGTGGGGGTCAAGAGCCCCCTCGTGTGCGCCATCAACAACGCCTTCAGCAGGTACAGCATCTCCGATAACGACCTGTTCCACTTTAACAAGAAGATGTTCGCCCGGCGGAGGATTTTGCTCAAGAAGAACCGGCACAAGCGGGCCGGACACGGGGCCAAGAACAAGCTCAAGCCCATCACTATCCTGACCGAGAAGAGCGAGAGGTTCAGGAAGAAGCTCATCGAGAGATGGGCCTGCGAGATCGCCGATTTCTTTATTAAGAACAAGGTCGGAACAGTGCAGATGGAGAACCTCGAGAGCATGAAGAGGAAGGAGGATTCCTACTTCAACATTCGGCTGAGGGGGTTCTGGCCCTACGCTGAGATGCAGAACAAGATTGAGTTTAAGCTGAAGCAGTACGGGATTGAGATCCGGAAGGTGGCCCCCAACAACACCAGCAAGACCTGCAGCAAGTGCGGGCACCTCAACAACTACTTCAACTTCGAGTACCGGAAGAAGAACAAGTTCCCACACTTCAAGTGCGAGAAGTGCAACTTTAAGGAGAACGCCGATTACAACGCCGCCCTGAACATCAGCAACCCTAAGCTGAAGAGCACTAAGGAGGAGCCC

2

2

실시예 1-2. dead Cas12f1(dCas12f1) 단백질 변이체Example 1-2. dead Cas12f1 (dCas12f1) protein variant

염기 교정을 위한 초소형 염기교정(Base editing) 시스템을 제작하기 위해서는 DNA 이중가닥 절단 활성이 상실되나 감소된 핵산분해 단백질이 사용되어야 한다. In order to manufacture a subminiature base editing system for base editing, a nucleolytic protein with reduced DNA double-strand cleavage activity should be used.

이에, 본 발명자들은 Cas12f1 단백질에서 DNA 이중가닥 절단 활성이 상실된 dead Cas12f1(dCas12f1) 단백질 변이체를 제작하였다. Accordingly, the present inventors prepared a dead Cas12f1 (dCas12f1) protein mutant in which the DNA double-strand break activity was lost in the Cas12f1 protein.

구체적으로, DNA 이중가닥 절단 활성이 상실된 것으로 확인된 dCas12f1 단백질 변이체는 dCas12f1 D326A 변이체, dCas12f1 E422A 변이체, dCas12f1 R490A 변이체 및 dCas12f1 D510A 변이체였고, 이들은 [표 2]에 나타냈다. 상기 확인된 dCas12f1 단백질 변이체 중에서 dCas12f1 D326A 변이체가 본 발명에 따른 염기 교정을 위한 초소형 염기교정 구조물 및 초소형 염기교정 시스템의 대표적 핵산분해 단백질로서 사용하였다. Specifically, dCas12f1 protein variants confirmed to have lost DNA double-strand break activity were dCas12f1 D326A mutant, dCas12f1 E422A mutant, dCas12f1 R490A mutant and dCas12f1 D510A mutant, which are shown in [Table 2]. Among the identified dCas12f1 protein variants, the dCas12f1 D326A variant was used as a representative nucleolytic protein of the ultra-miniature base correction construct and the ultra-miniature base correction system for base correction according to the present invention.

LabelLabel Sequence(5' to 3')Sequence(5' to 3') SEQ ID
NO:
SEQ ID
NO:

dCas12f1
D326A

dCas12f1
D326A

MAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIAVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP

MAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGI A VGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP

3

3

dCas12f1
E422A

dCas12f1
E422A

MAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIAVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMANLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP

MAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIAVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQM A NLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP

4

4

dCas12f1
R490A

dCas12f1
R490A

MAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIAVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYAKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP

MAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIAVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEY A KKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP

5

5

dCas12f1
D510A

dCas12f1
D510A

MAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIAVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENAAYNAALNISNPKLKSTKEEP

MAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIAVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENA A YNAALNISNPKLKSTKEEP

6

6

실시예 1-3. dead TnpB(dTnpB) 유래 단백질 변이체Example 1-3. Protein variants derived from dead TnpB (dTnpB)

또한, 본 발명에서는 염기 교정을 위한 융합단백질, 초소형 염기교정(Base editing) 구조물 또는 이를 포함하는 초소형 염기교정 시스템의 핵산분해 단백질로서, TnpB 단백질 및 TnpB 유래의 분자량이 작은 핵산분해 단백질을 포함한다. 여기서 바람직하게, TnpB 단백질은 서열번호 7의 아미노산 서열로 이루어진 단백질이고, TnpB 유래의 분자량이 작은 핵산분해 단백질은 서열번호 8의 아미노산 서열로 이루어진 CasX-Cas12f1, 서열번호 9의 아미노산 서열로 이루어진 28aa-신장 Cas12f1 (28aa-extension Cas12f1) 또는 서열번호 10의 아미노산 서열로 이루어진 26aa-신장 Cas12f1(26aa-extension Cas12f1)이다. In addition, in the present invention, a fusion protein for base editing, a mini base editing structure, or a nucleolytic protein of a mini base editing system including the same includes a TnpB protein and a TnpB-derived nucleic acid degrading protein having a small molecular weight. Preferably, the TnpB protein is a protein consisting of the amino acid sequence of SEQ ID NO: 7, and the TnpB-derived low molecular weight nucleolytic protein is CasX-Cas12f1 consisting of the amino acid sequence of SEQ ID NO: 8, 28aa- consisting of the amino acid sequence of SEQ ID NO: 9 28aa-extension Cas12f1 or 26aa-extension Cas12f1 consisting of the amino acid sequence of SEQ ID NO: 10 (26aa-extension Cas12f1).

이에, 상기 TnpB 단백질 및 TnpB 유래의 분자량이 작은 핵산분해 단백질에 대해, 각각의 DNA 이중가닥 절단 활성이 상실된 데드(dead) 핵산분해 단백질 변이체를 제작하였다. 여기서, 상기 TnpB 단백질 및 TnpB 유래의 분자량이 작은 핵산분해 단백질에 대한 데드(dead) 핵산분해 단백질 변이체는 DNA 이중가닥 절단 활성이 상실된 것으로 확인된 dCas12f1 단백질 변이체와 마찬가지로, Cas12f1 단백질의 D326A, E422A, R490A 또는 D510A인 아미노산 치환에 상응하는 변이를 가지도록 설계하고, 이에 해당하는 변이체를 제작하였다. Accordingly, for the TnpB protein and the TnpB-derived low-molecular-weight nucleolytic protein, dead nucleolytic protein mutants having lost DNA double-strand cleavage activity were prepared. Here, the dead nucleolytic protein variants for the TnpB protein and the TnpB-derived small molecular weight nucleolytic protein are D326A, E422A, and R490A of the Cas12f1 protein, as well as the dCas12f1 protein variants confirmed to have lost DNA double-strand cleavage activity. Alternatively, it was designed to have a mutation corresponding to the amino acid substitution of D510A, and a corresponding variant was produced.

보다 구체적으로, 상기 데드(dead) 핵산분해 단백질 변이체는 dTnpB D354A 변이체(서열번호 11), dTnpB E450A 변이체(서열번호 12), dTnpB R518A 변이체(서열번호 13), dTnpB D538A 변이체(서열번호 14), 28aa-extension dCas12f1 D354A 변이체(서열번호 15), 28aa-extension dCas12f1 E450A 변이체(서열번호 16), 28aa-extension dCas12f1 R518A 변이체(서열번호 17) 및 28aa-extension dCas12f1 D538A 변이체(서열번호 18)이다. More specifically, the dead nucleolytic protein variants are dTnpB D354A mutant (SEQ ID NO: 11), dTnpB E450A mutant (SEQ ID NO: 12), dTnpB R518A mutant (SEQ ID NO: 13), dTnpB D538A mutant (SEQ ID NO: 14), 28aa-extension dCas12f1 D354A variant (SEQ ID NO: 15), 28aa-extension dCas12f1 E450A variant (SEQ ID NO: 16), 28aa-extension dCas12f1 R518A variant (SEQ ID NO: 17) and 28aa-extension dCas12f1 D538A variant (SEQ ID NO: 18).

또한, 이들은 [표 3] 및 [표 4]에 나타냈다. 특히 dTnpB D354A 변이체는 본 발명에 따른 염기교정을 위한 초소형 염기교정(Base editing) 시스템의 예시적 핵산분해 단백질로서 사용하였다. In addition, these are shown in [Table 3] and [Table 4]. In particular, the dTnpB D354A variant was used as an exemplary nucleic acid degradation protein of the ultra-small base editing system for base editing according to the present invention.

LabelLabel Sequence(5' to 3')Sequence(5' to 3') SEQ ID
NO:
SEQ ID
NO:

dTnpB
D354A

dTnpB
D354A

MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIAVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP

MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGI A VGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP

11

11

dTnpB
E450A

dTnpB
E450A

MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIAVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMANLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP

MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIAVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQM A NLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP

12

12

dTnpB
R518AA

dTnpB
R518AA

MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIAVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYAKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP

MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIAVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEY A KKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP

13

13

dTnpB
D538A

dTnpB
D538A

MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIAVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENAAYNAALNISNPKLKSTKEEP

A YNAALNISNPKLKSTKEEP

14

14

LabelLabel Sequence(5' to 3')Sequence(5' to 3') SEQ ID
NO
SEQ ID
NO

d28aa-
exten-
sion Cas12f1
D354A

d28aa-
extend-
sion Cas12f1
D354A

MAGGPGAGSAAPVSSTSSLPLAALNMRVMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIAVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP

MAGGPGAGSAAPVSSTSSLPLAALNMRVMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGI A VGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP

15

15

d28aa-
exten-
sion Cas12f1
E450A

d28aa-
extend-
sion Cas12f1
E450A

MAGGPGAGSAAPVSSTSSLPLAALNMRVMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIAVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMANLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP

MAGGPGAGSAAPVSSTSSLPLAALNMRVMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIAVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQM A NLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP

16

16

28aa-
exten-
sion Cas12f1
R518A

28aa-
extend-
sion Cas12f1
R518A

MAGGPGAGSAAPVSSTSSLPLAALNMRVMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIAVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYAKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP

MAGGPGAGSAAPVSSTSSLPLAALNMRVMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIAVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEY A KKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP

17

17

d28aa-
exten-
sion Cas12f1
D538A

d28aa-
extend-
sion Cas12f1
D538A

MAGGPGAGSAAPVSSTSSLPLAALNMRVMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIAVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENAAYNAALNISNPKLKSTKEEP

A YNAALNISNPKLKSTKEEP

18

18

실시예 1-4. 아데노신 탈아미노화효소(Adenosine deaminase)Example 1-4. Adenosine deaminase

본 발명에서 염기교정을 위한 초소형 염기교정(Base editing) 시스템의 핵산분해 단백질과 결합되는 아데노신 탈아미노화효소는 대표적 예시로써 대장균(E. coli) 유래의 tRNA adenosine deaminase(TadA) 또는 이의 변이체 eTadA를 포함한다. 상기 아데노신 탈아미노화효소는 표적 핵산 또는 표적 유전자에서 표적 부위의 아데닌(A)을 표적화하여 아데닌(A) 염기를 탈아미노화시켜 구아닌(G) 염기로 염기교정을 수행한다. In the present invention, the adenosine deaminase coupled to the nucleolytic protein of the subminiature base editing system for base editing is a representative example of tRNA adenosine deaminase (TadA) derived from E. coli or its variant eTadA. include The adenosine deaminase targets adenine (A) at a target site in a target nucleic acid or target gene, deaminates the adenine (A) base, and performs base correction with a guanine (G) base.

본 발명의 구체예에서, 자연유래 아데노신 탈아미노화효소(TadA, 서열번호 126)와 상기 TadA의 돌연변이 변이체 eTadA1(서열번호 127) 또는 서열번호 126 내지 서열번호 131 중 어느 하나의 단량체 또는 직접 또는 링커를 통해서 연결되어 이종이량체(heterodimer) TadA-eTadA 또는 eTadA-TadA 구조로 형성되고, 이 이종이량체 아데닌 탈아미노화효소가 본 발명에 따른 상기 초소형 유전자가위(CRISPR/Cas) 시스템에 포함된다. In an embodiment of the present invention, naturally occurring adenosine deaminase (TadA, SEQ ID NO: 126) and the mutant variant eTadA1 (SEQ ID NO: 127) of TadA or SEQ ID NO: 126 to SEQ ID NO: 131 any monomer or direct or linker are connected through to form a heterodimer TadA-eTadA or eTadA-TadA structure, and this heterodimer adenine deaminase is included in the CRISPR/Cas system according to the present invention.

보다 바람직하게, 상기 링커는 SGGSSGGSSGSETPGTSESATPESSGGSSGGS(서열번호 62)이며, 이렇게 연결된 아데닌 탈아미노화효소 이종이량체의 C-말단에는 NLS가 결합된다. 여기서 상기 NLS는 서열번호 66(KRPAATKKAGQAKKKK)의 아미노산 서열로 이루어져 있다. 이는 도 2에 자세히 도시되었다.More preferably, the linker is SGGSSGGSSGSETPGTSESATPESSGGSSGGS (SEQ ID NO: 62), and NLS is bonded to the C-terminus of the adenine deaminase heterodimer thus linked. Here, the NLS consists of the amino acid sequence of SEQ ID NO: 66 (KRPAATKKAGQAKKKK). This is shown in detail in FIG. 2 .

실시예 1-5. 시티딘 탈아미노화효소(Cytidine deaminase)Example 1-5. Cytidine deaminase

본 발명에서 염기 교정을 위한 초소형 염기교정(Base editing) 시스템의 핵산분해 단백질과 결합되어, 표적 핵산 또는 표적 유전자에서 표적 부위의 시토신(C)을 표적화하여 시토신을 탈아미노화시켜 유라실(Uracil, U)로의 전환을 야기하는 시티딘 탈아미노화효소는 APOBEC1(서열번호 21), APOBEC3A(서열번호 22) 또는 APOBEC3B(서열번호 23)을 포함한다. 염기 전환과정에서 시토신의 아민기를 제거하여 유라실로 만들면 일련의 세포 내 수선 기작에 의하여 유라실은 티민(T)으로 변환되어, 최종적으로 시토신(C) 염기를 티민(T) 염기로 염기교정이 완성된다. In the present invention, it is combined with a nucleolytic protein of a subminiature base editing system for base editing, targets cytosine (C) at a target site in a target nucleic acid or target gene, and deaminates cytosine to uracil (Uracil, U) include APOBEC1 (SEQ ID NO: 21), APOBEC3A (SEQ ID NO: 22) or APOBEC3B (SEQ ID NO: 23). In the base conversion process, when the amine group of cytosine is removed to form uracil, uracil is converted to thymine (T) by a series of intracellular repair mechanisms, and finally base correction is completed from cytosine (C) base to thymine (T) base. .

본 발명의 구체예에서, 상기 APOBEC1, APOBEC3A 또는 APOBEC3B; 또는 핵산분해 단백질;의 N-말단 또는 C-말단에 UGI(Uracil Glycosylase Inhibitor)가 각각 1개 또는 2개 이상 결합된 것일 수 있고, 추가로 C-말단에는 NLS가 결합될 수 있다. 이때 상기 연결은 직접 또는 링커를 통해서 연결된다. 여기서, 상기 링커는 SGGSSGGSSGSETPGTSESATPESSGGSSGGS(서열번호 62) 또는 SGGSKRTADGSEFE(서열번호 63)이며, 상기 NLS는 PKKKRKV(서열번호 65)의 아미노산 서열로 이루어져 있다. 이는 도 3에 예시적으로 도시되었다.In an embodiment of the present invention, the APOBEC1, APOBEC3A or APOBEC3B; Alternatively, one or two or more UGIs (Uracil Glycosylase Inhibitors) may be bound to the N-terminus or C-terminus of the nucleolytic protein; and additionally, NLS may be coupled to the C-terminus. In this case, the connection is made directly or through a linker. Here, the linker is SGGSSGGSSGSETPGTSESATPESSGGSSGGS (SEQ ID NO: 62) or SGGSKRTADGSEFE (SEQ ID NO: 63), and the NLS consists of the amino acid sequence of PKKKRKV (SEQ ID NO: 65). This is shown exemplarily in FIG. 3 .

실시예 1-6. 염기교정을 위한 초소형 염기교정(Base editing) 구조물Example 1-6. Subminiature Base Editing Structures for Base Editing

본 발명에서는 염기 교정을 위한 초소형 염기교정(Base editing) 시스템의 일 구성요소이면서, 표적 핵산 또는 표적 유전자의 염기서열에서 표적 부위의 특정 염기를 다른 염기로 교정하는 활성을 가지는 초소형 염기교정 구조물은 탈아미노화효소(deaminase)가 결합된 TnpB 유래의 분자량이 작은 핵산분해 단백질 또는 이의 기능적 유사체를 포함하는 염기교정 유전자가위 모듈(Base Editor Module)을 제작하여 완성하였다. In the present invention, a subminiature base editing structure that is one component of a base editing system for base editing and has an activity of correcting a specific base of a target site with another base in a base sequence of a target nucleic acid or target gene is A base editor module containing deaminase-linked TnpB-derived low-molecular-weight nucleic acid degrading protein or a functional analogue thereof was produced and completed.

상기 초소형 염기교정(Base editing) 구조물은 아데노신 탈아미노화효소 또는 시티딘 탈아미노화효소가 TnpB 유래의 분자량이 작은 핵산분해 단백질 또는 이의 기능적 유사체에 직접 또는 링커로 연결된 구조이고, 이들은 NLS 및/또는 UGI(Uracil Glycosylase Inhibitor)를 추가적으로 1개 또는 2개 이상 포함하는 구조이다. The subminiature base editing structure is a structure in which adenosine deaminase or cytidine deaminase is linked directly or by a linker to a low molecular weight nucleolytic protein derived from TnpB or a functional analogue thereof, which is NLS and/or It is a structure that additionally includes one or two or more UGIs (Uracil Glycosylase Inhibitors).

상기 초소형 염기교정(Base editing) 구조물은 구성되는 아데노신 탈아미노화효소 또는 시티딘 탈아미노화효소의 종류; 및 TnpB 유래의 분자량이 작은 핵산분해 단백질 또는 이의 기능적 유사체의 종류;와 이들의 배열 순서; 등에 따라서 다양한 수많은 조합이 있을 수 있다. The subminiature base editing structure is composed of adenosine deaminase or cytidine deaminase type; and types of TnpB-derived low-molecular-weight nucleolytic proteins or functional analogues thereof; and their arrangement sequence; Depending on the back, there may be numerous combinations.

도 1에서, 예시적인 다양한 초소형 염기교정 구조물을 자세히 나타냈다. In FIG. 1 , various exemplary microminiature proofreading constructs are shown in detail.

바람직하게, 본 발명의 초소형 염기교정 구조물은 링커를 통해서 연결된 아데노신 탈아미노화효소 이종이량체 TadA-eTadA 또는 eTadA-TadA가 dCas12f1 또는 dTnpB의 N-말단 또는 C-말단에 결합된 것으로, 추가적으로 C-말단에 NLS가 부착된 것이다. 이는 도 4a에 자세히 도시되었다. 여기서, TadA는 서열번호 126의 아미노산 서열을 가진 것일 수 있고, dTadA(서열번호 128)일 수 있으며, eTadA는 서열번호 127의 아미노산 서열을 가질 수 있고, deTadA1(서열번호 129), eTadA2(서열번호 130), eTadA3(서열번호 131), eTadA7(서열번호 137), eTadA8(서열번호 138), eTadA9(서열번호 139), eTadA10(서열번호 140) 또는 eTadA11(서열번호 141)일 수 있으나, 이에 한정되는 것은 아니다. Preferably, the ultraminiature base editing construct of the present invention is one in which adenosine deaminase heterodimer TadA-eTadA or eTadA-TadA linked through a linker is bonded to the N-terminus or C-terminus of dCas12f1 or dTnpB, and additionally C- NLS is attached to the end. This is shown in detail in Figure 4a. Here, TadA may have the amino acid sequence of SEQ ID NO: 126, may be dTadA (SEQ ID NO: 128), eTadA may have the amino acid sequence of SEQ ID NO: 127, deTadA1 (SEQ ID NO: 129), eTadA2 (SEQ ID NO: 129) 130), eTadA3 (SEQ ID NO: 131), eTadA7 (SEQ ID NO: 137), eTadA8 (SEQ ID NO: 138), eTadA9 (SEQ ID NO: 139), eTadA10 (SEQ ID NO: 140) or eTadA11 (SEQ ID NO: 141), but are limited thereto. it is not going to be

또한, 본 발명의 초소형 염기교정(Base editing) 구조물은 시티딘 탈아미노화효소 APOBEC1를 링커를 통해서 dCas12f1의 N-말단 또는 C-말단에 결합시킨 후, 이것의 N-말단 또는 C-말단에 2개의 UGI를 링커로 연결하고, 추가적으로 C-말단에 NLS를 부착시켜 제작하였다. 이는 도 4b에 자세히 나타냈다. In addition, the subminiature base editing construct of the present invention binds the cytidine deaminase APOBEC1 to the N-terminus or C-terminus of dCas12f1 through a linker, and then binds 2 to its N-terminus or C-terminus. It was prepared by connecting two UGIs with a linker and additionally attaching NLS to the C-terminus. This is shown in detail in Figure 4b.

상기 도 4a 및 도 4b는 본 발명에 따른 예시적인 초소형 염기교정 구조물을 나타내는 것으로, 도시된 dCas12f1 대신에 dTnpB 또는 이의 기능적 유사체가 포함될 수 있다. 4a and 4b show an exemplary ultraminiature base editing construct according to the present invention, and dTnpB or a functional analogue thereof may be included instead of the illustrated dCas12f1.

상기 초소형 염기교정(Base editing) 구조물은 다음의 방법으로 제조하였다. 본 발명에 사용된 초소형 염기교정(Base editing) 구조물을 암호화하는 핵산 서열은 인간 코돈-최적화된 dCas12f1 DNA 또는 인간 코돈-최적화된 dCas12f1 기능적 유사체 DNA 서열을 포함한다. 상기 핵산 서열을 pMAL-c2 플라스미드 벡터에 클로닝하여 복제시켰다. 상기 플라스미드 벡터를 이용하여 BL21(DE3) E. coli를 형질전환하였다. 상기 형질전환된 E. coli 콜로니를 광학 밀도가 0.7에 도달할 때까지 37℃의 LB broth에서 성장시켰다. 상기 형질전환된 E. coli는 0.1 mM isopropylthio-β-D-galactoside 존재 하, 18℃에서 하룻밤(overnight) 동안 배양되었다. The subminiature base editing construct was prepared by the following method. Nucleic acid sequences encoding the subminiature base editing constructs used in the present invention include human codon-optimized dCas12f1 DNA or human codon-optimized dCas12f1 functional analog DNA sequences. The nucleic acid sequence was cloned into the pMAL-c2 plasmid vector and cloned. BL21(DE3) E. coli was transformed using the plasmid vector. The transformed E. coli colonies were grown in LB broth at 37°C until an optical density of 0.7 was reached. The transformed E. coli was cultured overnight at 18° C. in the presence of 0.1 mM isopropylthio-β-D-galactoside.

그 후, 상기 형질전환된 E. coli는 3,500g에서 30분간 원심분리되고 수집되었다. 수집된 형질전환된 E. coli는 20 mM Tris-HCl(pH 7.6), 500 mM NaCl, 5 mM β-mercaptoethanol, 5 % glycerol에서 재현탁되었다. 상기 재현탁된 E. coli는 용해되었고, sonication을 통하여 파쇄되었다. 파쇄된 E. coli가 포함된 샘플은 15,000g로 30분 간 원심분리 된 후, 상측액은 0.45 ㎛ 주사기 필터(Millipore)를 통해 여과되었다. 여과된 상층액 내에 존재하는 아데노신 탈아미노화효소 또는 시티딘 탈아미노화효소와 결합된 dCas12f1 단백질은 FPLC 정제 시스템(KTA Purifier, GE Healthcare)을 사용하여, Ni2+-친화성 컬럼에 로드되었다. 상기 로드된 dCas12f1 단백질은 80-400 mM imidazole, 20 mM Tris-HCl(pH 7.5) 구배에서 용출되었다.Then, the transformed E. coli was centrifuged at 3,500 g for 30 minutes and collected. The collected transformed E. coli was resuspended in 20 mM Tris-HCl (pH 7.6), 500 mM NaCl, 5 mM β-mercaptoethanol, and 5% glycerol. The resuspended E. coli was dissolved and disrupted through sonication. Samples containing disrupted E. coli were centrifuged at 15,000 g for 30 minutes, and the supernatant was filtered through a 0.45 μm syringe filter (Millipore). The dCas12f1 protein bound to adenosine deaminase or cytidine deaminase present in the filtered supernatant was loaded onto a Ni 2+ -affinity column using an FPLC purification system (KTA Purifier, GE Healthcare). The loaded dCas12f1 protein was eluted with a 80-400 mM imidazole, 20 mM Tris-HCl (pH 7.5) gradient.

상기 용출된 단백질은 TEV 프로테아제로 16시간 동안 처리되었다. 상기 분리된 단백질은 0.15-1.6 M NaCl 선형 농도구배의 Heparin 컬럼에서 정제되었다. Heparin 컬럼에서 정제된 재조합 Cas12f1 단백질은 20 mM Tris pH 7.6, 150 mM NaCl, 5 mM β-mercaptoethanol, 5 % glycerol에 대해 투석되었다. 상기 투석된 단백질은 MBP 컬럼을 통과시켜 정제후 0.5-1.2 M NaCl의 선형 구배로 monoS 컬럼(GE Healthcare) 또는 EnrichS에서 재정재되었다. 상기 재정재된 단백질들을 모아, 20 mM Tris pH 7.6, 150 mM NaCl, 5 mM β-mercaptoethanol, 5 % glycerol에 대해 투석하여 초소형 염기교정(Base editing) 구조물을 정제하였다. 상기 생산된 단백질의 농도는 소 혈청 알부민(BSA)을 표준으로 사용하여 Bradford 정량법을 이용하여 정량하여 coomassie blue-stained SDS-PAGE 겔에서 전기구형적 (electropheromerically)으로 측정되었다.The eluted protein was treated with TEV protease for 16 hours. The isolated protein was purified on a Heparin column with a linear gradient of 0.15-1.6 M NaCl. Recombinant Cas12f1 protein purified on a heparin column was dialyzed against 20 mM Tris pH 7.6, 150 mM NaCl, 5 mM β-mercaptoethanol, 5% glycerol. The dialyzed protein was purified by passing it through an MBP column and resuspended on a monoS column (GE Healthcare) or EnrichS with a linear gradient of 0.5-1.2 M NaCl. The resuspended proteins were collected and dialyzed against 20 mM Tris pH 7.6, 150 mM NaCl, 5 mM β-mercaptoethanol, and 5% glycerol to obtain a base editing construct. The concentration of the produced protein was quantified using Bradford quantification using bovine serum albumin (BSA) as a standard and measured electropheromerically on a coomassie blue-stained SDS-PAGE gel.

실시예 1-7. 엔지니어링된 가이드 RNAExample 1-7. Engineered guide RNA

본 발명에서는 염기교정을 위한 초소형 염기교정(Base editing) 시스템의 일 구성요소로써, 본 발명에 따른 dCas12f1, dTnpB 및 28aa-extension dCas12f1 등의 데드(dead) 핵산분해 단백질 변이체에 대해 최대의 표적화 효율 및 유전자 편집 효율을 갖게 하는 엔지니어링된 가이드 RNA를 제작하고자 했다. In the present invention, as one component of a subminiature base editing system for base editing, maximum targeting efficiency and targeting efficiency and We wanted to create an engineered guide RNA that has gene editing efficiency.

본 발명자들은 또한 Cas12f1 엔도뉴클레아제 활성이 높은 DNA 표적 부위에서 본 발명에 따른 초소형 염기교정(Base editing) 시스템에 의한 Cas12f1 매개된 염기교정이 높은 수준으로 나타날 것으로 추정하였다. 이에, 하기와 같이 엔지니어링된 Cas12f1 가이드 RNA를 제작하고 그 활성을 테스트했다.The present inventors also estimated that Cas12f1-mediated base editing by the miniaturized base editing system according to the present invention would appear at a high level at DNA target sites with high Cas12f1 endonuclease activity. Accordingly, a Cas12f1 guide RNA engineered as follows was prepared and its activity was tested.

본 발명에 따른 상기 엔지니어링된 Cas12f1 가이드 RNA는 자연계에서 발견되는 가이드 RNA에 새로운 구성을 추가하고, 또한 그 구조 일부를 변형한 것으로, 3'-말단에 새로운 구성인 U-rich tail을 포함하는 것을 특징으로 한다. 구체적으로, 상기 엔지니어링된 가이드 RNA은 변형된 스캐폴드 제1 내지 제4 영역을 포함하는 엔지니어링 tracrRNA 서열, 변형된 스캐폴드 제5 내지 제6 영역을 포함하는 엔지니어링 crRNA 서열 및/또는 변형된 제7 영역인 U-rich tail 서열을 포함한다. The engineered Cas12f1 guide RNA according to the present invention adds a new structure to the guide RNA found in nature, and also modifies some of its structure, and includes a new structure, a U-rich tail, at the 3'-end. to be Specifically, the engineered guide RNA is an engineering tracrRNA sequence comprising modified scaffold first to fourth regions, an engineering crRNA sequence comprising modified scaffold fifth to sixth regions, and/or a modified seventh region. contains a U-rich tail sequence.

상기 제4 영역 및 제5 영역은 서로 상보적으로 결합하는 부위로써, 변형 부위 1(modification site 1, MS1) 및 변형 부위 4(modification site 4, MS4)를 포함하고, 상기 제7 영역인 U-rich tail 서열은 변형 부위 2(modification site 2, MS2)에 해당한다. 상기 제1 영역은 변형 부위 3(modification site 3, MS3)이고, 상기 제2 영역은 변형 부위 5(modification site 5, MS5)에 해당한다. The fourth region and the fifth region are sites complementary to each other, and include modification site 1 (MS1) and modification site 4 (MS4), and the seventh region, U- The rich tail sequence corresponds to modification site 2 (MS2). The first region corresponds to modification site 3 (MS3), and the second region corresponds to modification site 5 (MS5).

도 5에서 엔지니어링된 가이드 RNA의 예시적인 구조를 자세히 나타냈다.Exemplary structures of engineered guide RNAs are shown in detail in FIG. 5 .

본 발명에서는 상기 MS1 내지 MS5 중 어느 하나에서의 변형을 포함하며, 이들 중에서 선택된 변형의 다양한 조합으로 구성되는 엔지니어링된 Cas12f1 싱글 가이드 RNA(engineered Cas12f1 sgRNA) 포함한다. 이렇게 제작된 다양한 조합을 가지는 엔지니어링된 Cas12f1 sgRNA의 유전자 편집 효율은 indel 발생율(%)을 측정함으로써 확인했다. In the present invention, an engineered Cas12f1 single guide RNA (engineered Cas12f1 sgRNA) including modifications in any one of MS1 to MS5 and composed of various combinations of modifications selected from among them is included. The gene editing efficiency of the engineered Cas12f1 sgRNA having various combinations thus constructed was confirmed by measuring the indel generation rate (%).

그 결과, 도 6에서 나타나는 바와 같이, 자연계에 존재하는 Canonical sgRNA(서열번호 54)에서, MS2, MS3, MS4 및 MS5 영역에서의 변형을 가지는 sgRNA (MS2/MS3/MS4/MS5, 서열번호 59); MS2, MS3 및 MS4 영역에서의 변형을 가지는 sgRNA (MS2/MS3/MS4, 서열번호 58); 및 MS1, MS2 및 MS3 영역에서의 변형을 가지는 sgRNA (MS1/MS2/MS3, 서열번호 57);가 모두 95% 이상의 유전자 편집율을 나타내었다. As a result, as shown in FIG. 6, in canonical sgRNA (SEQ ID NO: 54) existing in nature, sgRNAs having modifications in the MS2, MS3, MS4 and MS5 regions (MS2/MS3/MS4/MS5, SEQ ID NO: 59) ; sgRNA with modifications in the MS2, MS3 and MS4 regions (MS2/MS3/MS4, SEQ ID NO: 58); and sgRNAs having modifications in the MS1, MS2 and MS3 regions (MS1/MS2/MS3, SEQ ID NO: 57); all showed a gene editing rate of 95% or higher.

상기 결과를 토대로, 본 발명에 따른 초소형 염기교정(Base editing) 시스템의 하나의 구성으로써, 엔지니어링된 Cas12f1 가이드 RNA(engineered Cas12f1 sgRNA)를 다음과 같이 선정하였다. Based on the above results, as one component of the base editing system according to the present invention, an engineered Cas12f1 guide RNA (engineered Cas12f1 sgRNA) was selected as follows.

상기 엔지니어링된 Cas12f1 sgRNA는 Canonical sgRNA(서열번호 54)에서 MS1/MS2/MS3에서 변형을 갖는 sgRNA로써, 본 발명에서 Cas12f_ge3.0(서열번호 57)으로 명명하여 제작하였다. 또한, MS2/MS3/MS4에서 변형을 갖는 sgRNA Cas12f_ge4.0(서열번호 58) 및 MS2/MS3/MS4/MS5에서 변형을 갖는 sgRNA Cas12f_ge4.1(서열번호 59)을 제작하였다. 바람직하게, 가장 짧은 길이를 갖는 sgRNA Cas12f_ge4.1가 본 발명에 따른 초소형 염기교정(Base editing) 시스템의 예시적인 싱글 가이드 RNA(sgRNA)로써 선택되어 후속 실험에 이용되었다.The engineered Cas12f1 sgRNA is a canonical sgRNA (SEQ ID NO: 54) with modifications in MS1/MS2/MS3, and was named Cas12f_ge3.0 (SEQ ID NO: 57) in the present invention. In addition, sgRNA Cas12f_ge4.0 (SEQ ID NO: 58) with modifications at MS2/MS3/MS4 and sgRNA Cas12f_ge4.1 (SEQ ID NO: 59) with modifications at MS2/MS3/MS4/MS5 were constructed. Preferably, sgRNA Cas12f_ge4.1 having the shortest length was selected as an exemplary single guide RNA (sgRNA) of the ultra-small base editing system according to the present invention and used in subsequent experiments.

상기 엔지니어링된 Cas12f1 sgRNA들의 구체적인 구조 및 염기서열은 도 7과 표 5에서 자세히 나타냈다. The specific structures and nucleotide sequences of the engineered Cas12f1 sgRNAs are shown in detail in FIG. 7 and Table 5.

gRNA
Engineering
gRNAs
Engineering
Sequence(5' to 3')Sequence(5' to 3') SEQ ID
NO
SEQ ID
NO
Canonical sgRNACanonical sgRNAs CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUUUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGacgaaUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNCUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUUUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGacgaaUGAAGGAAUGCAACNNNNNNNNNNNNNNNN 5454 MS1MS1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNCUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNN 5555 MS1/MS2MS1/MS2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUUCUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNUUUAUUUUUU 5656 MS1/MS2/
MS3
(Cas12f_ge3.0)
MS1/MS2/
MS3
(Cas12f_ge3.0)
ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUUACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 5757
MS2/MS3/
MS4
(Cas12f_ge4.0)
MS2/MS3/
MS4
(Cas12f_ge4.0)
ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUUACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 5858
MS2/MS3/
MS4/MS5
(Cas12f_ge4.1)
MS2/MS3/
MS4/MS5
(Cas12f_ge4.1)
ACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUUACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUAUUUUUUU 5959

상기 설계된 엔지니어링된 Cas12f1 sgRNA(engineered Cas12f1 sgRNA)는 다음의 방법으로 제조했다. 상기 설계된 Cas12f1 sgRNA는 이를 제조하기 위해 미리 설계한 가이드 RNA를 화학적으로 합성하여 가이드 RNA를 제조한 후, 미리 설계한 가이드 RNA 서열 및 T7 프로모터 서열을 포함하는 PCR 앰플리콘을 제조했다. The engineered Cas12f1 sgRNA designed above was prepared by the following method. To prepare the designed Cas12f1 sgRNA, a guide RNA was chemically synthesized to prepare a guide RNA, and then a PCR amplicon containing the designed guide RNA sequence and the T7 promoter sequence was prepared.

엔지니어링된 Cas12f1 싱글 가이드 RNA의 3'-말단에 대한 U-rich tail 연결은 서열-변형된 프라이머(primer) 및 Cas12f1 가이드 RNA 플라스미드 벡터의 존재 하에서 Pfu PCR Master Mix5 (Biofact)를 사용하여 수행되었다. 상기 PCR 앰플리콘은 HiGeneTM Gel & PCR Purification System (Biofact)을 사용하여 정제되었다. U-rich tail ligation to the 3'-end of the engineered Cas12f1 single guide RNA was performed using Pfu PCR Master Mix5 (Biofact) in the presence of a sequence-modified primer and Cas12f1 guide RNA plasmid vector. The PCR amplicons were purified using the HiGene Gel & PCR Purification System (Biofact).

또한, 상기 엔지니어링된 Cas12f1 싱글 가이드 RNA의 엔지니어링된 스캐폴드 영역 중 제2 영역, 제4 영역 및 제5 영역의 변형은 ApoI 및 BamHI 제한 효소를 사용하여 선형화된 가이드 RNA를 암호화하는 벡터에 변형된 서열을 포함하는 합성 올리고뉴클레오타이드를 클로닝하여 수행되었다. In addition, modifications of the second, fourth and fifth regions of the engineered scaffold region of the engineered Cas12f1 single guide RNA are sequences modified in a vector encoding the linearized guide RNA using ApoI and BamHI restriction enzymes. It was performed by cloning synthetic oligonucleotides containing

상기 엔지니어링된 Cas12f1 싱글 가이드 RNA의 엔지니어링된 스캐폴드 영역 중 제1 영역의 변형은 tracrRNA의 5'-말단 부분을 표적으로 하는 정방향 프라이머(forward primer) 및 U6 프로모터 영역을 표적으로 하는 역방향 프라이머(reverse primer)를 사용하여 캐노니컬(canonical) 또는 엔지니어링된 주형 플라스미드 벡터의 PCR 증폭에 의해 수행되었다. Modification of the first region of the engineered scaffold region of the engineered Cas12f1 single guide RNA is performed using a forward primer targeting the 5'-end of tracrRNA and a reverse primer targeting the U6 promoter region. ) was performed by PCR amplification of canonical or engineered template plasmid vectors using

상기 PCR 증폭은 Q5 Hot Start high-fidelity DNA polymerase(NEB)에 의해 수행되었으며, PCR 산물은 KLD Enzyme Mix(NEB)를 사용하여 결찰되었다(ligated). 상기 결찰된(ligated) PCR 산물은 DH5α E.coli 세포로 형질도입(transformed)되었다. Sanger 시퀀싱 분석에 의해 변이(Mutagenesis)가 확인되었다. The PCR amplification was performed by Q5 Hot Start high-fidelity DNA polymerase (NEB), and the PCR products were ligated using KLD Enzyme Mix (NEB). The ligated PCR products were transformed into DH5α E.coli cells. Mutagenesis was confirmed by Sanger sequencing analysis.

변형된 플라스미드 벡터는 NucleoBond ®Xtra Midi EF kit (MN)를 사용하여 정제되었다. 정제된 플라스미드 1 마이크로그램이 T7 RNA polymerase(NEB) 및 NTPs(Jena Bioscience)를 사용한 mRNA 합성의 주형으로 사용되었다. 상기 제조된 엔지니어링된 Cas12f1 가이드 RNA를 Monarch®RNA cleanup kit (NEB)를 사용하여 정제하고, 극저온 바이알(cryogenic vials)에 분취하여 액체 질소에 보관하였다.The modified plasmid vector was purified using the NucleoBond®Xtra Midi EF kit (MN). One microgram of the purified plasmid was used as a template for mRNA synthesis using T7 RNA polymerase (NEB) and NTPs (Jena Bioscience). The engineered Cas12f1 guide RNA prepared above was purified using Monarch® RNA cleanup kit (NEB), aliquoted into cryogenic vials, and stored in liquid nitrogen.

가이드 RNA 및 엔지니어링된 가이드 RNA 앰플리콘을 제조하기 위해, KAPA HiFi HotStart DNA polymerase(Roche) 또는 Pfu DNA polymerase(Biofact)를 이용하여, canonical가이드 RNA의 주형 DNA 플라스미드 및 엔지니어링된 가이드 RNA 주형 DNA 플라스미드를 U6-상보적인 정방향 프라이머(complementary forward primer) 및 프로토스페이서 서열 상보적인 역방향 프라이머(protospacer sequence-complementary reverse primer)를 사용하여 PCR 증폭을 수행하였다. 상기 PCR 증폭 결과물을 HigeneTM Gel & PCR purification system (Biofact)를 사용하여 정제하여 가이드 RNA 및 엔지니어링된 가이드 RNA 앰플리콘을 수득하였다.To prepare guide RNA and engineered guide RNA amplicons, using KAPA HiFi HotStart DNA polymerase (Roche) or Pfu DNA polymerase (Biofact), the canonical guide RNA template DNA plasmid and the engineered guide RNA template DNA plasmid were U6 - PCR amplification was performed using a complementary forward primer and a protospacer sequence-complementary reverse primer. The PCR amplification products were purified using Higene Gel & PCR purification system (Biofact) to obtain guide RNA and engineered guide RNA amplicons.

상기 PCR 앰플리콘을 주형으로, NEB T7 polymerase를 사용하여 시험관 내 전사(in vitro transcription)을 수행했다. 상기 in vitro transcription 수행 결과물에 NEB DNase I을 처리한 후 Monarch RNA Cleanup Kit(NEB)를 이용하여 정제한 후, 가이드 RNA를 수득했다. 이 후, 미리 설계한 가이드 RNA 서열 및 T7 프로모터 서열을 포함하는 플라스미드 벡터를 Tblunt 플라스미드 클로닝 방법에 따라 제조했다. In vitro transcription was performed using the PCR amplicon as a template and NEB T7 polymerase. The in vitro transcription result was treated with NEB DNase I, purified using Monarch RNA Cleanup Kit (NEB), and guide RNA was obtained. Thereafter, a plasmid vector containing the previously designed guide RNA sequence and the T7 promoter sequence was prepared according to the Tblunt plasmid cloning method.

상기 벡터를 T7 프로모터 서열을 포함하는 가이드 RNA 서열 양 끝을 절단(double cut)하여 정제한 후, 그 결과물에 NEB T7 polymerase를 사용하여 시험관 내 전사(in vitro transcription)을 수행했다. 상기 시험관 내 전사(in vitro transcription) 수행 결과물에 NEB DNase I를 처리한 후, Monarch RNA Cleanup Kit (NEB)를 이용하여 정제한 후, 가이드 RNA를 수득했다.The vector was purified by cutting both ends of the guide RNA sequence including the T7 promoter sequence (double cut), and the resultant was subjected to in vitro transcription using NEB T7 polymerase. The in vitro transcription result was treated with NEB DNase I, purified using Monarch RNA Cleanup Kit (NEB), and guide RNA was obtained.

실시예 1-8. 리보뉴클레오프로틴 입자(RNP) 제조Example 1-8. Manufacture of ribonucleoprotein particles (RNP)

상기 실시예 1-6에서 정제한 초소형 염기교정 구조물을 발현하는 단백질 및 상기 실시예 1-7에서 제조한 엔지니어링된 Cas12f1 싱글 가이드 RNA(engineered Cas12f1 sgRNA)는 각각 300 nM 및 900 nM을 10분 동안 실온에서 인큐베이션하여 리보뉴클레오프로틴 입자(RNP)를 제조하였다.The protein expressing the subminiature base correction construct purified in Examples 1-6 and the engineered Cas12f1 single guide RNA (engineered Cas12f1 sgRNA) prepared in Examples 1-7 were incubated at room temperature for 10 minutes at 300 nM and 900 nM, respectively. Incubation was performed to prepare ribonucleoprotein particles (RNP).

실시예 2. 플라스미드 벡터 설계 및 제조Example 2. Plasmid vector design and manufacturing

dCas12f1 유전자, dTnpB 유전자 또는 이의 기능적 유사체 유전자는 인간 세포에서 발현하기 위해 인간 코돈-최적화시켰으며, 코돈-최적화된 염기서열을 포함하는 상기 유전자의 올리고뉴클레오타이드를 합성하였다. 또한 상기 합성된 dCas12f1, dTnpB 또는 이의 기능적 유사체 유전자의 염기서열을 포함하면서, 본 발명의 실시예 1-6에서 제작한 초소형 염기교정(Base editing) 구조물을 암호화하는 코돈-최적화된 초소형 염기교정(Base editing)구조물의 폴리뉴클레오타이드를 합성하였다. The dCas12f1 gene, the dTnpB gene, or a functional analog gene thereof was human codon-optimized for expression in human cells, and an oligonucleotide of the gene containing the codon-optimized nucleotide sequence was synthesized. In addition, while including the nucleotide sequence of the synthesized dCas12f1, dTnpB or its functional analogue gene, the codon-optimized base editing (Base editing) encoding the base editing construct prepared in Examples 1-6 of the present invention editing) polynucleotide of the structure was synthesized.

상기 코돈-최적화된 초소형 염기교정(Base editing) 구조물의 폴리뉴클레오타이드는 chicken β-actin(CBA) 프로모터, 5'-말단 및 3'-말단의 핵 위치 신호(nuclear localization signal, NLS) 서열 및 자가 절단 T2A 펩타이드(2A)로 연결된 eGFP를 인코딩하는 서열을 포함하는 플라스미드 또는 CMV enhancer, CMV 프로모터, 5'-말단 또는 3'-말단의 핵 위치 신호(nuclear localization signal, NLS) 서열을 포함하는 플라스미드에에 작동가능하게 연결되어 클로닝(cloning)되었다.The polynucleotide of the codon-optimized subminiature base editing construct is a chicken β-actin (CBA) promoter, a nuclear localization signal (NLS) sequence at the 5'-end and 3'-end, and self-cleavage To a plasmid containing a sequence encoding eGFP linked to the T2A peptide (2A) or a plasmid containing a CMV enhancer, a CMV promoter, and a nuclear localization signal (NLS) sequence at the 5'-end or 3'-end It was operably linked and cloned.

또한, 본 실험에 사용된 canonical 가이드 RNA를 위한 주형 DNA를 합성하였고(Twist Bioscience), 이를 pTwist Amp 플라스미드 벡터에 클로닝하여 복제하였다. 엔지니어링된 가이드 RNA에 대한 주형 DNA는 엔자임클로닝 기법을 이용하여 제작되었으며, 이는 pTwist Amp 플라스미드에 클로닝되어 복제되었다. 또한 상기 플라스미드를 주형으로 하여 U6-상보적인 정방향 프라이머(complementary forward primer) 및 프로토스페이서 서열 상보적인 역방향 프라이머(protospacer sequence-complementary reverse primer)를 사용하여 가이드 RNA 또는 엔지니어링된 가이드 RNA의 앰플리콘을 제조하였다. 필요에 따라, 제조한 앰플리콘을 T-blunt 플라스미드(Biofact)에 클로닝하여 복제하였다. In addition, a template DNA for the canonical guide RNA used in this experiment was synthesized (Twist Bioscience), and cloned into a pTwist Amp plasmid vector and cloned. Template DNA for the engineered guide RNA was prepared using an enzyme cloning technique, which was cloned and cloned into the pTwist Amp plasmid. In addition, using the plasmid as a template, guide RNA or engineered guide RNA amplicons were prepared using a U6-complementary forward primer and a protospacer sequence-complementary reverse primer. . If necessary, the prepared amplicon was cloned into T-blunt plasmid (Biofact) and cloned.

또한, 엔지니어링된 듀얼 가이드 RNA(Engineered dual guide RNA)를 제조하기 위해서, 엔지니어링된 tracrRNA 및 엔지니어링된 crRNA를 암호화하는 올리고뉴클레오타이드를 제한 효소 BamHI 및 HindIII 제한 효소(New EnglandBiolabs)로 절단하여 pSilencer 2.0(ThermoFisher Scientific) 내로 클로닝하여 복제하였다.In addition, in order to prepare engineered dual guide RNA (Engineered dual guide RNA), engineered tracrRNA and oligonucleotides encoding engineered crRNA were digested with restriction enzymes BamHI and HindIII restriction enzymes (New England Biolabs), and pSilencer 2.0 (ThermoFisher Scientific ) and cloned into.

본 발명에 따른 엔지니어링된 Cas12f1 sgRNA인 Cas12f_ge3.0, Cas12f_ge4.0 및 Cas12f_ge4.1을 각각 암호화하는 주형 DNA가 합성되었고, 이는 pTwist Amp plasmid vector(Twist Bioscience)에 클로닝되었다. 필요에 따라, 상기 벡터는 U6-상보적 정방향 프라이머 및 프로토스페이서-상보적 역방향 프라이머를 사용하여, 상기 가이드 RNA 암호화 서열의 증폭을 위한 주형으로 사용되었다. Template DNAs encoding Cas12f_ge3.0, Cas12f_ge4.0, and Cas12f_ge4.1, respectively engineered Cas12f1 sgRNAs according to the present invention, were synthesized and cloned into a pTwist Amp plasmid vector (Twist Bioscience). If necessary, the vector was used as a template for amplification of the guide RNA coding sequence, using a U6-complementary forward primer and a protospacer-complementary reverse primer.

Gibson assembly를 사용하여 상기 코돈-최적화된 초소형 염기교정(Base editing) 구조물의 폴리뉴클레오타이드를 포함하는 벡터에 엔지니어링된 Cas12f1 sgRNA를 암호화하는 폴리뉴클레오타이드를 클로닝함으로써, 초소형 염기교정(Base editing) 시스템을 발현하는 벡터를 제조하였다.By cloning the polynucleotide encoding the Cas12f1 sgRNA engineered into a vector containing the polynucleotide of the codon-optimized base editing construct using Gibson assembly, expressing the base editing system A vector was prepared.

구체적으로, 상기 초소형 염기교정(Base editing) 시스템을 발현하는 벡터로써, 1) chicken β-actin(CBA) 프로모터, 5'- 및 3'-말단의 핵 위치 신호(nuclear localization signal, NLS) 서열 및 자가 절단 T2A 펩타이드(2A)로 연결된 eGFP를 인코딩하는 서열 또는 1)-1 CMV enhancer, CMV 프로모터, 5'- 또는 3'-말단의 핵 위치 신호(nuclear localization signal, NLS) 서열, 2) 본 발명에 따른 코돈-최적화된 초소형 유전자가위(CRISPR/Cas) 구조물의 폴리뉴클레오타이드 및 3) 본 발명에 따른 엔지니어링된 Cas12f1 sgRNA가 작동가능하게 연결된, 아데노-연관 바이러스 역 말단 반복 플라스미드 벡터(AAV inverted terminal repeat vector) 및 벡터가 제조되었다. Specifically, as a vector expressing the base editing system, 1) a chicken β-actin (CBA) promoter, a nuclear localization signal (NLS) sequence at the 5'- and 3'-ends, and Sequence encoding eGFP linked with self-cleaving T2A peptide (2A) or 1) -1 CMV enhancer, CMV promoter, 5'- or 3'-end nuclear localization signal (NLS) sequence, 2) the present invention and 3) an adeno-associated virus inverted terminal repeat plasmid vector (AAV inverted terminal repeat vector, in which the engineered Cas12f1 sgRNA according to the present invention is operably linked to the polynucleotide of the codon-optimized tiny genetic scissors (CRISPR/Cas) construct according to ) and vectors were made.

여기서, 상기 dCas12f1 또는 이의 기능적 유사체 및 가이드 RNA 전사는 각각 chicken β-actin(CBA) 프로모터 및 U6 프로모터; 또는 CMV 프로모터 및 U6 프로모터;에 의해 촉진되었다. 또한 상기 벡터 및 AAV 벡터는 eGFP, 엔지니어링된 Cas12f1 sgRNA의 수 및/또는 효과기 단백질의 추가 등 유전자 편집의 목적에 따라 적절히 변경될 수 있다. Here, the dCas12f1 or its functional analog and guide RNA are transcribed from the chicken β-actin (CBA) promoter and U6 promoter, respectively; or by the CMV promoter and the U6 promoter; In addition, the vectors and AAV vectors may be appropriately changed according to the purpose of gene editing, such as eGFP, the number of engineered Cas12f1 sgRNAs, and/or the addition of effector proteins.

본 발명에서 제작한 예시적인 벡터의 구조를 도 8에서 자세히 도시하였다.The structure of an exemplary vector produced in the present invention is shown in detail in FIG. 8 .

상기 AAV를 대량생산하기 위해, 상기 AAV 벡터 및 helper plasmid, RC plasmid를 HEK 293T 세포에 형질도입하였고, 상기 형질도입된 HEK 293T 세포를 2% FBS를 포함하는 DMEM 배지에서 배양하였다. PEIpro(Polyplus-transfection) 및 동일 몰 비율에서 플라스미드에 대한 삼중-형질주입(triple-transfection)를 사용한 PEI 공침(coprecipitation)을 사용하여 재조합 pseudotyped AAV vector 스톡이 생성되었다. 72시간의 배양 후, 상기 세포들을 용해시켰고, 용해물은 iodixanol (Sigma-Aldrich) stepgradientultracentrifugation에 의해 상기 AAV가 정제되었다. To mass-produce the AAV, the AAV vector, helper plasmid, and RC plasmid were transduced into HEK 293T cells, and the transduced HEK 293T cells were cultured in DMEM medium containing 2% FBS. Recombinant pseudotyped AAV vector stocks were generated using PEIpro (Polyplus-transfection) and PEI coprecipitation using triple-transfection for plasmids at equal molar ratios. After 72 hours of culture, the cells were lysed, and the AAV was purified from the lysate by iodixanol (Sigma-Aldrich) stepgradient ultracentrifugation.

실시예 3. 세포 형질도입 Example 3. Cell Transduction

HEK 293T (ATCC CRL-11268), HeLa (ATCC CLL-2), U-2OS (ATCC HTB-96) 및 K-562 (ATCC CCL-243) 세포를 10 % 열-비활성화 FBS, 1 % 페니실린/스트렙토마이신 및 0.1 mM 비필수 아미노산들이 보충된 DMEM 배지에서, 37 ℃, 5% CO2 조건 하에서 배양하였다.HEK 293T (ATCC CRL-11268), HeLa (ATCC CLL-2), U-2OS (ATCC HTB-96) and K-562 (ATCC CCL-243) cells were cultured in 10% heat-inactivated FBS, 1% penicillin/strepto In DMEM medium supplemented with mycin and 0.1 mM non-essential amino acids, they were cultured at 37 °C and 5% CO 2 conditions.

본 발명의 상기 실시예 2에서 제작된 초소형 염기교정(Base editing) 구조물을 암호화하는 플라스미드 벡터 및 엔지니어링된 가이드 RNA의 세포 형질 감염을 위해, 1.0 x 105 HEK 293T 세포를 형질감염 1일 전에 분주하였다. 세포 형질감염은 전기천공법(electroporation) 또는 lipofection으로 수행되었다. For cell transfection of the plasmid vector encoding the base editing construct prepared in Example 2 of the present invention and the engineered guide RNA, 1.0 x 10 5 HEK 293T cells were seeded 1 day before transfection. . Cell transfection was performed by electroporation or lipofection.

전기천공법의 경우, 상기 초소형 염기교정(Base editing) 구조물을 암호화하는 플라스미드 벡터 및 엔지니어링된 가이드 RNA를 암호화하는 DNA 각 2-5 ㎍을 Neon transfection system (Invitrogen)을 사용해 4 X 105 HEK 293 T세포에 형질주입(transfection) 하였다. 상기 전기천공법은 1300V, 10 mA, 3 pulse 조건 하 수행하였다. In the case of electroporation, 2-5 μg each of DNA encoding the plasmid vector encoding the base editing construct and the engineered guide RNA was 4 X 10 5 HEK 293 T using the Neon transfection system (Invitrogen). Cells were transfected. The electroporation was performed under 1300V, 10 mA, 3 pulse conditions.

lipofection의 경우에는, 6-15㎕ FuGene 시약을 (Promega) 2-5㎍의 초소형 염기교정 구조물을 암호화하는 플라스미드 벡터 및 1.5-5㎍의 PCR 앰플리콘과 15 분 동안 혼합하였다. 상기 혼합물(300 ㎕)이 형질주입 1일 전에 1 X 106 개의 세포가 플레이팅 된 1.5ml DMEM 배지에 첨가되었다. 상기 세포들을 상기 혼합물의 존재하에서 1 내지 10일 간 배양시켰다. 배양 후, 상기 세포들이 수집되었고, 상기 세포의 게놈 DNA가 PureHelixTM genomic DNA preparation kit (NanoHelix)를 사용하거나, Maxwell RSC Cultured cells DNA Kit (Promega)를 사용하여 수작업으로 분리되었다.For lipofection, 6-15 μl FuGene reagent (Promega) was mixed with 2-5 μg of a plasmid vector encoding the miniaturization construct and 1.5-5 μg of a PCR amplicon and 15 Mixed for minutes. This mixture (300 μl) was added to 1.5 ml DMEM medium in which 1×10 6 cells were plated 1 day before transfection. The cells were cultured for 1 to 10 days in the presence of the mixture. After culturing, the cells were harvested and the genomic DNA of the cells was isolated using the PureHelix™ genomic DNA preparation kit (NanoHelix) or manually using the Maxwell RSC Cultured Cells DNA Kit (Promega).

상기 실시예 2에서 제작한 초소형 염기교정(Base editing) 시스템을 암호화하는 핵산 서열을 포함하는 AAV 벡터의 세포 형질 감염을 위해, 정량적 PCR에 의해 결정한 1, 5, 10, 50, 100, 100, 1000, 10000, 50000 및 100000의 상이한 감염 다중도(MOI, multiplicity of Infection)에서 인간 HEK 293T 세포를 상기 AAV 벡터로 감염시켰다. 상기 형질감염된 HEK 293T 세포는 2% FBS를 포함하는 DMEM 배지에서 배양되었다. 서로 다른 시점에서, 예를 들어 1일, 3일, 5일, 7일, 9일에 게놈 DNA의 분리를 위해 세포를 수집하였다.1, 5, 10, 50, 100, 100, 1000 determined by quantitative PCR for cell transfection of the AAV vector containing the nucleic acid sequence encoding the subminiature base editing system prepared in Example 2 above. , Human HEK 293T cells were infected with the AAV vectors at different multiplicities of infection (MOI) of 10000, 50000 and 100000. The transfected HEK 293T cells were cultured in DMEM medium containing 2% FBS. Cells were harvested for isolation of genomic DNA at different time points, eg on days 1, 3, 5, 7, and 9.

또한, 실시예 1-8에 따라 제조된 리보뉴클레오프로틴 입자(RNP)를 전기천공법을 이용하여 형질주입하거나, lipofection 방법을 통하여 형질주입 후, 1일 후 실시예 1-7에 따라 제조된 엔지니어링된 가이드 RNA를 전기천공법을 사용하여 형질주입하였다.In addition, the ribonucleoprotein particles (RNP) prepared according to Examples 1-8 are transfected using electroporation, or after transfection through the lipofection method, 1 day later, the prepared according to Examples 1-7 Engineered guide RNAs were transfected using electroporation.

실시예 4. 결과 분석Example 4. Analysis of results

실시예 4-1. 유전자 편집 효율 분석Example 4-1. Gene editing efficiency analysis

HEK 293T 세포로부터 분리된 게놈 DNA 중, 프로토스페이서를 포함하는 영역을 표적-특이적 프라이머를 사용하여 KAPA HiFi HotStart DNA polymerase(Roche)의 존재 하에서 PCR을 수행하였다. 상기 증폭 방법은 제조사의 지시를 따랐다. Among genomic DNAs isolated from HEK 293T cells, PCR was performed on a region containing a protospacer in the presence of KAPA HiFi HotStart DNA polymerase (Roche) using target-specific primers. The amplification method followed the manufacturer's instructions.

Illumina TruSeq HT dual indexes를 포함하는 상기 증폭의 결과물인 PCR 앰플리콘을 Illumina iSeq 100를 사용하여 150bp 페어 엔드 시퀀싱을 수행하였다. 인델 빈도는 MAUND를 사용하여 계산되었다. 상기 MAUND는 https://github.com/ibscge/maund 에서 제공된다.PCR amplicons resulting from the above amplification containing Illumina TruSeq HT dual indexes were subjected to 150 bp pair-end sequencing using Illumina iSeq 100. Indel frequencies were calculated using MAUND. The MAUND is provided at https://github.com/ibscge/maund.

BioFACTTM Lamp Pfu DNA polymerase를 사용하여 PCR 산물을 얻었다. 상기 PCR 산물(100-300 ㎍)을 25 ㎍반응 혼합물에서 10 유닛(units)의 T7E1 효소(NewEngland Biolabs)와 함께 37 ℃에서 30분 동안 반응시켰다. 20 ㎕ 반응 혼합물을 10 % 아크릴아마이드(acrylamide) 겔에 직접 로딩시키고, 절단된 PCR 산물을 TBE 버퍼시스템에서 작동시켰다. 겔 이미지를 브롬화에티듐(ethidium bromide) 용액으로 염색시킨 후, Printgraph 2 M gel imaging system(Atto)을 이용하여 디지털화하였다. 상기 디지털화한 결과물을 분석하여 유전자 편집 효율을 평가하였다. 또한, 원하지 않는 인델(Indel) 확인을 위해서는 NGS를 통해서 분석하였다. PCR products were obtained using BioFACT Lamp Pfu DNA polymerase. The PCR product (100-300 μg) was reacted with 10 units of T7E1 enzyme (NewEngland Biolabs) in a 25 μg reaction mixture at 37° C. for 30 minutes. 20 μl of the reaction mixture was directly loaded on a 10% acrylamide gel, and the digested PCR products were run in a TBE buffer system. After staining the gel image with an ethidium bromide solution, it was digitized using a Printgraph 2 M gel imaging system (Atto). The digitized result was analyzed to evaluate gene editing efficiency. In addition, in order to identify unwanted indels, analysis was performed through NGS.

실시예 4-2. 세포 내 염기 교정 활성 분석Example 4-2. Intracellular base proofreading activity assay

세포 내 표적 핵산 또는 표적 유전자의 표적 부위에 위치한 아데닌(A) 염기 또는 시토신(C) 염기의 탈아미노화 분석은 하기와 같이 수행되었다.Deamination analysis of an adenine (A) base or a cytosine (C) base located at a target site of a target nucleic acid or target gene in a cell was performed as follows.

본 발명의 상기 실시예 2에서 제작한 아데노-연관 바이러스(AAV) 벡터를 HEK 293T 세포에 형질도입시켰다. 3일, 5일 및 7일 후, 상기 형질감염된 HEK 293T 세포에서 게놈 DNA(genome DNA)를 수득하고, 이를 Genomic DNA prep kit (QIAGEN, 카탈로그 #: 69504)를 사용하여 정제하였다. 상기 정제물에서 표적 핵산 또는 표적 유전자의 표적 부위를 PCR로 증폭시킨 후, 최종 PCR 생성물을 타겟 딥 시퀀싱(targeted deep sequencing)을 사용하여 분석하였다. The adeno-associated virus (AAV) vector constructed in Example 2 of the present invention was transduced into HEK 293T cells. After 3, 5 and 7 days, genomic DNA was obtained from the transfected HEK 293T cells and purified using a Genomic DNA prep kit (QIAGEN, Catalog #: 69504). After the target nucleic acid or the target region of the target gene was amplified by PCR in the purified product, the final PCR product was analyzed using targeted deep sequencing.

KAPA HiFi HotStart PCR 키트 (KAPA Biosystems 사 #: KK2501)를 사용하여 라이브러리 생성을 위해 타겟 부위를 증폭시켰다. 이 라이브러리는 TruSeq HT Dual Index 시스템 (Illumina 사)이 있는 MiniSeq을 사용하여 시퀀싱하였다.The target site was amplified for library generation using the KAPA HiFi HotStart PCR kit (KAPA Biosystems #: KK2501). This library was sequenced using a MiniSeq with TruSeq HT Dual Index system (Illumina).

실시예 4-3. 통계 분석Example 4-3. statistical analysis

two-tailed Student's t-test에 의한 통계적 유의성 검증이 Sigma Plot software (ver. 14.0)를 이용하여 수행하였다. 0.05 미만의 p-value가 나타나는 경우 통계적으로 유의한 것으로 간주하였고, p-value는 각 도면에 도시하였다. 모든 데이터의 에러바들은 Sigma plot을 사용하여 도시되었으며, 각 데이터의 표준편차 값을 의미한다. 통계적 방법을 기반으로 샘플 크기를 미리 결정하지는 않았다. 각 실험예 별 실험은 3번씩 수행하였으며, 각 값의 평균값을 분석에 사용하였다.Statistical significance verification by two-tailed Student's t-test was performed using Sigma Plot software (ver. 14.0). A p-value of less than 0.05 was considered statistically significant, and the p-value was shown in each figure. Error bars of all data are shown using Sigma plot, and mean the standard deviation value of each data. Sample size was not pre-determined based on statistical methods. Experiments for each experimental example were performed three times, and the average value of each value was used for analysis.

실시예 5. 초소형 염기교정(Base editing) 시스템에 의한 염기교정 확인Example 5. Confirmation of base editing by a mini base editing system

실시예 5-1. 본 발명의 아데노신 탈아미노화효소를 포함하는 초소형 염기교정(Base editing) 구조물에 의한 아데닌 교정Example 5-1. Adenine editing by a subminiature base editing construct containing the adenosine deaminase of the present invention

본 발명에 따른 초소형 염기교정(Base editing) 시스템이 세포 내에서 표적 핵산 또는 유전자의 표적 서열에 위치한 아데닌(A) 염기를 구아닌(G) 염기로 치환하는 염기교정 활성을 가지는지 여부를 조사하기 위해, Cas12f1의 PAM 서열을 포함하며 교정 윈도우 범위 내에 아데닌(A)이 다수 포함되어 있는 10개의 인간 내인성 DNA 표적 부위를 동정하였다. 실험에 사용한 표적 서열은 다음 [표 6]에 나타내었다.In order to investigate whether the base editing system according to the present invention has a base editing activity that replaces an adenine (A) base located in a target sequence of a target nucleic acid or gene with a guanine (G) base in a cell , 10 human endogenous DNA target sites containing the PAM sequence of Cas12f1 and containing a large number of adenine (A) within the calibration window were identified. The target sequences used in the experiment are shown in the following [Table 6].

Target nameTarget name Target sequence(5' to 3')Target sequence (5' to 3') SEQ ID NO:SEQ ID NO: Target-1Target-1 [TTTG]CACACACACAGTGGGCTACC[TTTG]CACACACACAGTGGGCTACC 110110 Target-2Target-2 [TTTG]CATCCCCAGGACACACACAC[TTTG]CATCCCCAGGACACACACAC 111111 Target-3Target-3 [TTTA]CAAAGACACTCACCCTGTTG[TTTA]CAAAGACACTCACCCTGTTG 112112 Target-4Target-4 [TTTA]AAGAAAGCTACAGGAAAGCA[TTTA]AAGAAAGCTACAGGAAAGCA 113113 Target-5Target-5 [TTTA]CAAAACCCAACTGATTCACC[TTTA]CAAAACCCAACTGATTCACC 114114 Target-6Target-6 [TTTA]CAAAAGCTACCACACATAGC[TTTA]CAAAAGCTACCACACATAGC 115115 Target-7Target-7 [TTTA]CAAAACTGTGGCCAATACAG[TTTA]CAAAACTGTGGCCAATACAG 116116 Target-8Target-8 [TTTG]GAAAACTGCAGGCAAGATTC[TTTG]GAAAACTGCAGGCAAGATTC 117117 Target-9Target-9 [TTTG]CAAAACTGTACACGTGGGCC[TTTG]CAAAACTGTACACGTGGGCC 118118 Target-10Target-10 [TTTG]CAAAACGTGCACAATGTGCA[TTTG]CAAAACGTGCACAATGTGCA 119119

본 발명에 따른 ABE-N1, ABE-N2, ABE-C1 또는 ABE-C2인 초소형 염기교정(Base editing) 구조물을 발현하는 플라스미드 및 본 발명에서 제작한 엔지니어링된 sgRNA 중에서 그 크기가 가장 작은 Cas12f_ge4.1 sgRNA를 발현하는 플라스미드를 인간 HEK 293T 세포에 형질 감염시키고, 3일 후에 게놈 DNA를 분리하였다. ABE-N1, ABE-N2, ABE-C1 or ABE-C2 according to the present invention, Cas12f_ge4.1 with the smallest size among the plasmids expressing the base editing constructs and the engineered sgRNA produced in the present invention A plasmid expressing the sgRNA was transfected into human HEK 293T cells, and genomic DNA was isolated after 3 days.

PCR 방법으로 본 발명에 따른 초소형 염기교정(Base editing) 시스템의 타겟 부위를 증폭하고, 타겟 딥 시퀀싱으로 증폭된 앰플리콘을 처리하였다. The target region of the base editing system according to the present invention was amplified by PCR method, and the amplified amplicon was processed by target deep sequencing.

그 후, 염기 교정 분석기를 이용하여 상기 ABE-N1, ABE-N2, ABE-C1 또는 ABE-C2인 초소형 염기교정(Base editing) 구조물의 아데닌 염기교정 유전자가위(Adenine base editior) 활성을 테스트하였다. Then, the ABE-N1, ABE-N2, ABE-C1 or ABE-C2 subminiature base editing constructs were tested for adenine base editing activity using a base editing analyzer.

이를 위해 상기 표 6에 기재된 10개의 표적 부위에 대해서 교정 윈도우(editing windows) 예상 범위인 5'-말단 표적 부위의 싱글 가이드 RNA(sgRNA) 결합영역 내 N1 내지 N20(PAM 서열 다음의 1번째 뉴클레오티드에서 20번째 뉴클레오티드)에 걸친 범위의 각 뉴클레오티드에서 모든 염기의 다른 염기로의 치환 여부를 분석하였다. To this end, for the 10 target sites listed in Table 6, N1 to N20 in the single guide RNA (sgRNA) binding region of the 5'-end target site, which is the expected range of editing windows (at the 1st nucleotide following the PAM sequence) 20th nucleotide) was analyzed for substitution of all bases with other bases at each nucleotide in the range.

그 결과 도 9에서 나타낸 바와 같이, 본 발명에 따른 ABE-N1, ABE-N2, ABE-C1 또는 ABE-C2인 초소형 염기교정(Base editing) 구조물을 포함하는 초소형 염기교정 시스템은 교정 윈도우 범위 내 아데닌(A)을 구아닌(G)으로 효과적으로 교정함을 확인하였다. 특히 본원 발명에 따른 ABE-N1, ABE-N2, ABE-C1 또는 ABE-C2인 초소형 염기교정(Base editing) 구조물은 A3 및 A4 위치의 아데닌 염기를 구아닌 염기로 치환하는 효율이 가장 우수했다. As a result, as shown in FIG. 9, the mini base editing system including the ABE-N1, ABE-N2, ABE-C1 or ABE-C2 subminiature base editing structure according to the present invention is adenine within the correction window range. It was confirmed that (A) was effectively corrected with guanine (G). In particular, the subminiature base editing constructs ABE-N1, ABE-N2, ABE-C1 or ABE-C2 according to the present invention showed the highest efficiency in substituting adenine bases at positions A3 and A4 with guanine bases.

dCas12f1(D326A)이 포함된 초소형 염기교정(Base editing) 구조물 dCas12f1-ABE-N1의 경우에, 상기 Target-1의 A2 염기를 구아닌으로 교정하는 빈도는 약 15 %이고(도 9a), 상기 Target-3의 A3 및 A4 염기를 구아닌으로 교정하는 빈도는 각각 약 41 % 및 약 35 % 로 확인되었다(도 9b). 또한 Target-5, Target-7 및 Target-8의 A3 및 A4 염기도 30 ~ 40 %의 빈도로 구아닌으로 동시에 교정하는 것을 확인하였다(도 9c). In the case of dCas12f1-ABE-N1, a subminiature base editing construct containing dCas12f1 (D326A), the frequency of correcting the A2 base of Target-1 with guanine is about 15% (FIG. 9a), and the Target-1 The frequency of proofreading the A3 and A4 bases of 3 with guanine was confirmed to be about 41% and about 35%, respectively (FIG. 9b). In addition, it was confirmed that A3 and A4 bases of Target-5, Target-7, and Target-8 were simultaneously corrected with guanine at a frequency of 30 to 40% (FIG. 9c).

dTnpB(D354A)가 포함된 초소형 염기교정(Base editing) 구조물 dTnpB-ABE-C2의 경우에, 상기 Target-1의 A4 염기를 구아닌으로 교정하는 빈도는 약 14 %였다(도 9d). 또한 상기 Target-3의 A3 및 A4 염기를 구아닌으로 교정하는 빈도는 각각 약 47 % 및 약 40 % 로 확인되었고, 상기 Target-4의 A4 염기를 구아닌으로 교정하는 빈도는 약 37 %로 아주 높았다(도 9e). In the case of dTnpB-ABE-C2, a subminiature base editing construct containing dTnpB (D354A), the frequency of editing the A4 base of Target-1 with guanine was about 14% (FIG. 9d). In addition, the frequency of correcting the A3 and A4 bases of Target-3 with guanine was confirmed to be about 47% and about 40%, respectively, and the frequency of correcting the A4 base of Target-4 with guanine was very high at about 37% ( Figure 9e).

또한, dCas12f1 또는 dTnpB의 데드(dead) 변이체인 dCas12f1(D326A), dCas12f1(E422A), dCas12f1(R490A), dCas12f1(D510A) 및 이에 각각 상응하는 dTnpB(D354A), dTnpB(E450A), dTnpB(R518A), dTnpB(D538A)의 염기 교정율을 확인했다. 여기서, 초소형 염기교정(Base editing) 구조물은 dCas12f1-TadAeTadA1(도 10a) 및 dTnpB-TadAeTadA3(도 10b)를 사용하였다.In addition, dCas12f1 or dTnpB's dead variants dCas12f1 (D326A), dCas12f1 (E422A), dCas12f1 (R490A), dCas12f1 (D510A) and their corresponding dTnpB (D354A), dTnpB (E450A), dTnpB (R518A) , the base proofreading rate of dTnpB (D538A) was confirmed. Here, dCas12f1-TadAeTadA1 (FIG. 10A) and dTnpB-TadAeTadA3 (FIG. 10B) were used as subminiature base editing constructs.

그 결과 도 10a 및 10b에서 나타낸 바와 같이, dCas12f1(D326A), dCas12f1(E422A), dCas12f1(R490A), dCas12f1(D510A)은 Target-3의 3A에 대해서 각각 약 9%, 약 13%, 약 3% 및 약 5%의 염기 교정율을 보였고, 4A에 대해서는 각각 약 4%, 약 5%, 약 2% 및 약 7%의 염기 교정율을 나타냈다. dTnpB(D354A), dTnpB(E450A), dTnpB(R518A) 및 dTnpB(D538A)의 경우에는 Target-3의 2A에 대해서 각각 약 10%, 약 14%, 약 11% 및 약 17%의 염기 교정율을 보였고, 3A에 대해서 각각 약 22%, 약 25%, 약 17% 및 약 33%의 염기 교정율을 보였으며, 4A에 대해서는 각각 약 20%, 약 22%, 약 15% 및 약 26%의 염기 교정율을 나타냈다. As a result, as shown in FIGS. 10A and 10B, dCas12f1 (D326A), dCas12f1 (E422A), dCas12f1 (R490A), and dCas12f1 (D510A) were about 9%, about 13%, and about 3% respectively for 3A of Target-3. and about 5% of base proofreading rates, and 4A showed base proofreading rates of about 4%, about 5%, about 2%, and about 7%, respectively. In the case of dTnpB (D354A), dTnpB (E450A), dTnpB (R518A), and dTnpB (D538A), base correction rates of about 10%, about 14%, about 11%, and about 17% for 2A of Target-3 were obtained, respectively. 3A showed base correction rates of about 22%, about 25%, about 17%, and about 33%, respectively, and about 20%, about 22%, about 15%, and about 26% of bases for 4A, respectively. showed the correction rate.

이로써, dTnpB가 dCas12f1 보다 더 우수한 염기교정 효율을 가짐을 확인하였다. As a result, it was confirmed that dTnpB had a better base editing efficiency than dCas12f1.

한편, 본 발명에 따른 초소형 염기교정 시스템의 염기교정 효율이 프로모터, 링커 길이, 핵산분해 효소의 변이체 종류 또는 Tad의 종류에 따라 영향을 받는지 확인하였다. On the other hand, it was confirmed whether the base editing efficiency of the miniaturized base editing system according to the present invention is affected by the promoter, linker length, nuclease variant type or Tad type.

그 결과, 초소형 염기교정(Base editing) 구조물 dTnpB-TadAeTadA2을 포함하는 초소형 염기교정 시스템은 CBA 프로모터와 CMV 프로모터 모두 우수한 염기교정 효율을 나타냈고, 특히 CBV 프로모터는 gRNA Ver4.1과의 조합의 경우에 가장 우수한 활성을 나타냈다(도 11). As a result, the mini base editing system including the mini base editing construct dTnpB-TadAeTadA2 showed excellent base editing efficiency for both the CBA promoter and the CMV promoter, especially when the CBV promoter was combined with gRNA Ver4.1. showed the best activity (FIG. 11).

dCas12f1 또는 dTnpB와 탈아미노화효소 사이의 링커 길이는 10 내지 40개의 아미노산 길에서 모두 유사한 활성을 나타내어 링커 길이는 염기교정 효율에 크게 영향을 미치지 않음을 확인하였다(도 12). The length of the linker between dCas12f1 or dTnpB and the deaminase all showed similar activity in the length of 10 to 40 amino acids, confirming that the linker length did not significantly affect the base editing efficiency (FIG. 12).

dCas12f1의 변이체는 dCas12f1(D510A), dCas12f1(I131W), dCas12f1(S136Y) 및 dCas12f1(D538A,I131W,S136Y)를 테스트하였고(도 13a), dTnpB의 변이체는 dTnpB(D538A), dTnpB(D538A,I159W), dTnpB(D538A,S164Y) 및 dTnpB(D538A, I159W,S164Y)를 선택하였다(도 13b). 그 결과, 테스트된 상기 변이체들은 Target-3의 3A 및 4A에 대해서 유사한 염기 교정율을 나타내었다. I159W 및/또는 S164Y 변이체인 경우에는 Target-3의 6A에 대해서 염기 교정율이 야생형에 비해서 현저히 증가하는 결과를 보였다(도 13c). 이때, dTnpB의 변이체들은 인델 효율은 없는 것으로 확인되었다(도 13d).Variants of dCas12f1 were tested: dCas12f1 (D510A), dCas12f1 (I131W), dCas12f1 (S136Y) and dCas12f1 (D538A, I131W, S136Y) (Fig. 13a), and variants of dTnpB were dTnpB (D538A), dTnpB (D1538A) , dTnpB (D538A, S164Y) and dTnpB (D538A, I159W, S164Y) were selected (Fig. 13b). As a result, the tested mutants showed similar base correction rates for 3A and 4A of Target-3. In the case of the I159W and/or S164Y mutants, the base correction rate for 6A of Target-3 was significantly increased compared to the wild type (FIG. 13c). At this time, it was confirmed that the variants of dTnpB had no indel efficiency (FIG. 13d).

도 14는 dCas12f1 또는 dTnpB의 아미노산 치환 변이체의 염기교정 윈도우가 표적 서열 1에서 N2 내지 N18까지 확장된 결과를 나타냈다. Figure 14 shows the result of the base correction window of the amino acid substitution variant of dCas12f1 or dTnpB extending from target sequence 1 to N2 to N18.

또한, 일구현 예로 TadAeTadA3를 이용한 염기교정 시스템을 다양한 표적서열에서 검증한 결과 25가지의 다양한 표적 서열에서 염기교정 윈도우가 A2 내지 A8 및/또는 A15 내지 A20까지 가능한 것을 확인하였다(도 15). In addition, as an example of implementation, as a result of verifying the base correction system using TadAeTadA3 in various target sequences, it was confirmed that base correction windows are available from A2 to A8 and/or A15 to A20 in 25 different target sequences (FIG. 15).

Tad 변이체에 따른 염기교정 효율은 도 16에 나타낸 바와 같이, TadA-eTadA2, eTadA2 및 TadA-eTadA1가 dCas12f1 또는 dTnpB와 함께 우수한 염기교정 효율을 나타냈다. 이는 Tad가 염기교정 효율에 영향을 미치는 중요한 요소임을 의미한다. As for the base editing efficiency according to the Tad variants, as shown in FIG. 16, TadA-eTadA2, eTadA2 and TadA-eTadA1 showed excellent base editing efficiency together with dCas12f1 or dTnpB. This means that Tad is an important factor affecting the base proofreading efficiency.

다음으로, TnpB 단백질 및 TnpB 유래의 분자량이 작은 핵산분해 단백질을 포함하는 초소형 염기교정 시스템의 아데닌(A)을 구아닌(G)으로 교정하는 염기교정 효과를 확인하였다.Next, the base-correction effect of adenine (A) to guanine (G) in the microbase-correction system containing TnpB protein and TnpB-derived nucleic acid degrading protein having a small molecular weight was confirmed.

이를 위해, TnpB 단백질의 데드(dead) 변이체 또는 Cas12f1의 기능적 유사체 단백질로서 CasX(N-말단 26개 아미노산)-Cas12f1, 26aa-신장 Cas12f1 또는 28aa-신장 Cas12f1에 대한 각각의 데드(dead) 변이체를 포함하고 아데노신 탈아미노화 효소로서 TadAeTadA1을 포함하는 ABE-C2인 초소형 염기교정 구조물을 제작하였다. 그 후 상기 제작된 초소형 염기교정 구조물에, MS2/MS3/MS4에서 변형을 갖는 sgRNA Cas12f_ge4.0(서열번호 58) 또는 MS2/MS3/MS4/MS5에서 변형을 갖는 sgRNA Cas12f_ge4.1(서열번호 59)를 포함하는 초소형 염기교정 시스템을 제작하였다. To this end, as a dead variant of the TnpB protein or a functional analogue of Cas12f1, CasX (N-terminal 26 amino acids) -Cas12f1, including the respective dead variants for 26aa-extended Cas12f1 or 28aa-extended Cas12f1 and a miniaturized base-correction construct, ABE-C2, containing TadAeTadA1 as an adenosine deaminase. Then, to the prepared microbase correction construct, sgRNA Cas12f_ge4.0 (SEQ ID NO: 58) with modifications in MS2 / MS3 / MS4 or sgRNA Cas12f_ge4.1 (SEQ ID NO: 59) with modifications in MS2 / MS3 / MS4 / MS5 A micro-base correction system including a was fabricated.

상기 제작된 초소형 염기교정 시스템 각각의 염기교정 효과는 [표 7]에 나타냈다. The base proofreading effect of each of the miniaturized base proofreading systems is shown in [Table 7].

ABEABE Target-1Target-1 Target-3Target-3 2A2A 4A4A 6A6A 8A8A 2A2A 3A3A 4A4A 6A6A 8A8A dCas12f-ver4.0dCas12f-ver4.0 2.222.22 4.744.74 0.600.60 0.730.73 2.402.40 19.9219.92 13.4913.49 2.952.95 0.570.57 dcas12f-ver4.1dcas12f-ver4.1 2.082.08 12.1212.12 0.690.69 0.590.59 3.353.35 30.2930.29 18.2918.29 2.952.95 0.600.60 dTnpB-ver4.0dTnpB-ver4.0 1.201.20 22.3622.36 0.600.60 0.830.83 5.335.33 56.8856.88 34.5234.52 3.733.73 0.530.53 dTnpB-ver4.1dTnpB-ver4.1 2.472.47 23.8623.86 0.680.68 0.730.73 5.695.69 59.2959.29 26.7126.71 4.084.08 0.550.55 dCasX-ver4.0dCasX-ver4.0 2.372.37 16.3016.30 0.510.51 0.640.64 3.963.96 38.8738.87 23.1123.11 3.193.19 0.590.59 dCasX-ver4.1dCasX-ver4.1 3.033.03 30.1230.12 0.660.66 0.640.64 3.153.15 46.8146.81 22.0822.08 3.633.63 0.530.53 d26ext-ver4.0d26ext-ver4.0 2.632.63 10.9810.98 0.730.73 0.760.76 3.753.75 29.8529.85 19.6719.67 3.253.25 0.550.55 d26ext-ver4.1d26ext-ver4.1 2.522.52 30.4430.44 0.690.69 0.660.66 3.323.32 40.1540.15 21.2421.24 3.403.40 0.480.48 d28ext-ver4.0d28ext-ver4.0 2.572.57 14.5814.58 0.570.57 0.560.56 4.684.68 38.9238.92 25.4825.48 3.643.64 0.520.52 d28ext-ver4.1d28ext-ver4.1 2.872.87 32.9832.98 0.640.64 0.560.56 5.595.59 53.2053.20 27.8827.88 3.493.49 0.560.56 wtwt 0.490.49 0.370.37 0.400.40 0.600.60 0.300.30 0.360.36 0.390.39 0.500.50 0.300.30

그 결과 표 7에 나타낸 바와 같이, dTnpB 단백질, CasX(N-말단 26개 아미노산)-dCas12f1, 26aa-신장 dCas12f1 또는 28aa-신장 dCas12f1; 및 MS2/MS3/MS4에서 변형을 갖는 sgRNA Cas12f_ge4.0(서열번호 58)를 포함하는 경우에 상기 Target-1의 A4 아데닌을 구아닌으로 교정하는 빈도는 각각 약 22 %, 약 16 %, 약 11 % 및 약 15 %를 타나냈다. 이는 dCas12f1의 경우에 약 5 %의 염기 교정율 보다도 훨씬 높은 교정율을 보이는 것이다. 또한, MS2/MS3/MS4/MS5에서 변형을 갖는 sgRNA Cas12f_ge4.1(서열번호 59)를 포함하는 경우에는 dTnpB 단백질, CasX-dCas12f1, 26aa-신장 dCas12f1 및 28aa-신장 dCas12f1이 각각 약 24 %, 약 30 %, 약 30 %, 약 33 %의 염기 교정율을 나타내어, dCas12f1의 염기 교정율 약 12 % 보다도 2 배 이상 높은 교정율로 아데닌을 구아닌으로 교정하는 것을 확인하였다.As a result, as shown in Table 7, the dTnpB protein, CasX (N-terminal 26 amino acids) -dCas12f1, 26aa-elongated dCas12f1 or 28aa-elongated dCas12f1; and sgRNA Cas12f_ge4.0 (SEQ ID NO: 58) having a modification in MS2/MS3/MS4, the frequency of correcting A4 adenine of Target-1 with guanine is about 22%, about 16%, and about 11%, respectively. and about 15%. This shows a much higher proofreading rate than the base proofreading rate of about 5% in the case of dCas12f1. In addition, when the sgRNA Cas12f_ge4.1 (SEQ ID NO: 59) having a modification in MS2/MS3/MS4/MS5 is included, the dTnpB protein, CasX-dCas12f1, 26aa-elongated dCas12f1 and 28aa-elongated dCas12f1 are about 24%, respectively. The base proofreading rate was 30%, about 30%, and about 33%, confirming that adenine was corrected with guanine at a proofreading rate more than twice as high as the base proofreading rate of about 12% for dCas12f1.

TnpB 단백질 또는 Cas12f1의 기능적 유사체을 포함하는 초소형 염기교정 시스템은 상기 Target-3의 A3 아데닌, A4 아데닌 및 A6 아데닌을 구아닌으로 동시에 교정하는 현저한 효과를 가지는 것이 확인되었다. It was confirmed that the ultraminiature base editing system including the TnpB protein or a functional analog of Cas12f1 has a remarkable effect of simultaneously correcting A3 adenine, A4 adenine, and A6 adenine of Target-3 with guanine.

sgRNA Cas12f_ge4.0(서열번호 58)와 조합된 dTnpB 단백질, CasX(N-말단 26개 아미노산)-dCas12f1, 26aa-신장 dCas12f1 또는 28aa-신장 dCas12f1은 각각 약 57 %, 약 39 %, 약 30 % 및 약 39 %의 교정율로 Target-3의 A3 아데닌을 구아닌으로 교정하였고, 약 35 %, 약 23 %, 약 20 % 및 약 25 %의 교정율로 Target-3의 A4 아데닌을 구아닌으로 교정하였다. 이는 각각 약 20 % 및 약 13 %의 교정율로 Target-3의 A3 아데닌 및 A4 아데닌을 구아닌으로 교정하는 dCas12f1 보다 약 2 배 이상 높은 교정 효율을 가지는 것이다. The dTnpB protein, CasX (N-terminal 26 amino acids) -dCas12f1, 26aa-elongated dCas12f1 or 28aa-elongated dCas12f1 combined with sgRNA Cas12f_ge4.0 (SEQ ID NO: 58) were about 57%, about 39%, about 30% and A3 adenine in Target-3 was corrected with guanine at a correction rate of about 39%, and A4 adenine in Target-3 was corrected with guanine at correction rates of about 35%, about 23%, about 20%, and about 25%. This is about twice as high as dCas12f1, which corrects A3 adenine and A4 adenine of Target-3 with guanine at a correction rate of about 20% and about 13%, respectively.

또한, sgRNA Cas12f_ge4.1(서열번호 59)와 조합된 dTnpB 단백질, CasX-dCas12f1, 26aa-신장 dCas12f1 또는 28aa-신장 dCas12f1의 염기 교정율을 확인하였다. In addition, base correction rates of the dTnpB protein, CasX-dCas12f1, 26aa-elongated dCas12f1 or 28aa-elongated dCas12f1 combined with sgRNA Cas12f_ge4.1 (SEQ ID NO: 59) were confirmed.

dTnpB 단백질, CasX(N-말단 26개 아미노산)-dCas12f1, 26aa-신장 dCas12f1 또는 28aa-신장 dCas12f1은 각각 약 60 %, 약 47 %, 약 40 % 및 약 53 %의 교정율로 Target-3의 A3 아데닌을 구아닌으로 교정하였고, 약 27 %, 약 22 %, 약 21 % 및 약 28 %의 교정율로 Target-3의 A4 아데닌을 구아닌으로 교정하였다. 이는 각각 약 30 % 및 약 18 %의 교정율로 Target-3의 A3 아데닌 및 A4 아데닌을 구아닌으로 교정하는 dCas12f1 보다 약 1.5 배 내지 2 배 높은 교정 효율을 나타내는 것이다. The dTnpB protein, CasX (N-terminal 26 amino acids)-dCas12f1, 26aa-extended dCas12f1 or 28aa-extended dCas12f1, had correction rates of about 60%, about 47%, about 40%, and about 53%, respectively, for A3 of Target-3. Adenine was corrected with guanine, and A4 adenine in Target-3 was corrected with guanine at correction rates of about 27%, about 22%, about 21%, and about 28%. This indicates a proofreading efficiency about 1.5 to 2 times higher than that of dCas12f1, which corrects A3 adenine and A4 adenine of Target-3 with guanine at a proofreading rate of about 30% and about 18%, respectively.

상기 결과를 통해서, 본 발명에 따른 아데닌 탈아미노화효소를 포함하는 초소형 염기교정(Base editing) 구조물 및 이를 포함하는 초소형 염기교정 시스템은 그 크기가 기존의 아데닌 염기 에디터의 절반 이하로써 세포 내 적용이 용이한 새로운 아데닌 염기 에디터가 될 수 있음을 확인하였다. Through the above results, the subminiature base editing structure containing adenine deaminase and the subminiature base editing system including the adenine deaminase according to the present invention are less than half the size of the existing adenine base editing and can be applied intracellularly. It was confirmed that it could be an easy new adenine base editor.

본 발명에 따른 초소형 염기교정(Base editing) 시스템이 단 2개의 염기 범위라는 좁은 범위에서 염기 교정이 일어나고, 연속하는 2개의 아데닌 염기를 동시에 구아닌 염기로 치환할 수 있다는 것을 확인하였다.It was confirmed that the base editing system according to the present invention can perform base editing in a narrow range of only two bases and simultaneously replace two consecutive adenine bases with guanine bases.

또한, 아데닌 염기교정을 위한 본 발명에 따른 초소형 염기교정(Base editing) 시스템은 핵산분해 효소의 종류 및/또는 아데노신 탈아미노화 효소의 종류에 따라서 교정 윈도우가 A2 내지 A8 및/또는 A15 내지 A20 범위로 확장될 수 있임을 확인하였다.In addition, the base editing system according to the present invention for adenine base editing has a correction window ranging from A2 to A8 and/or A15 to A20 depending on the type of nuclease and/or adenosine deaminase. It was confirmed that it can be extended to .

종합하면, 본 발명에 따른 초소형 염기교정(Base editing) 시스템은 침묵 돌연변이(silent mutation)를 일으키는 염기교정의 문제를 해결할 수 있고, 종결코돈 UAA의 경우에 3번째의 아데닌이 구아닌으로 염기교정이 일어나도 여전히 종결코돈 UAG가 되어 염기교정의 효과가 나타나지 않는 문제를 극복할 수 있으며, 넓은 염기교정 윈도우를 가지는 초소형 염기교정 시스템을 선별적으로 사용하여 표적 부위 제한성을 해결하는 장점을 가지는 새로운 염기교정 유전자가위(Base Editor)임을 알 수 있다.In summary, the base editing system according to the present invention can solve the problem of base editing that causes silent mutation, and in the case of the stop codon UAA, even if base editing occurs from the third adenine to guanine It is still a stop codon UAG and can overcome the problem of not showing the effect of base editing, and it is a new base editing gene scissors that has the advantage of solving the target site restriction by selectively using an ultra-small base editing system with a wide base editing window. (Base Editor).

실시예 5-2. 본 발명의 시티딘 탈아미노화효소를 포함하는 초소형 염기교정(Base editing) 구조물에 의한 시토신 교정Example 5-2. Cytosine editing by a subminiature base editing construct containing the cytidine deaminase of the present invention

본 발명에서는 본 발명에 따른 초소형 염기교정(Base editing) 시스템이 세포 내에서 표적 핵산 또는 유전자의 표적 서열에 위치한 시토신 염기를 치환하여 시토신 염기 교정의 활성을 가지는지 여부를 실험하였다. 이를 확인하기 위해, Cas12f1의 PAM 서열을 포함하며 교정 윈도우 범위 내에 시토신이 다수 포함되어 있는 3개의 인간 내인성 DNA 타겟 부위를 동정하였다. 실험에 사용한 표적 서열은 다음 [표 8]에 나타내었다.In the present invention, it was tested whether the subminiature base editing system according to the present invention has cytosine base editing activity by substituting a cytosine base located in a target sequence of a target nucleic acid or gene in a cell. To confirm this, three human endogenous DNA target sites including the PAM sequence of Cas12f1 and containing a large number of cytosines within the correction window were identified. The target sequences used in the experiment are shown in the following [Table 8].

Target nameTarget name Target sequence(5' to 3')Target sequence (5' to 3') SEQ ID NOSEQ ID No. Target-2Target-2 [TTTG]CATCCCCAGGACACACACAC[TTTG]CATCCCCAGGACACACACAC 111111 Target-11Target-11 [TTTA]CCCCCACAGGATTGTAATAA[TTTA]CCCCCACAGGATTGTAATAA 120120 Target-12Target-12 [TTTA]GGCCAAGTGCGAAGTCAGAG[TTTA]GGCCAAGTGCGAAGTCAGAG 121121

상기 시토신 교정을 확인하기 위해서, 본 발명에 따른 CBE-N1, CBE-N2, CBE-C1 또는 CBE-C2인 초소형 염기교정(Base editing) 구조물을 발현하는 플라스미드 및 본 발명에서 제작한 엔지니어링된 sgRNA 중에서 그 크기가 가장 작은 Cas12f_ge4.1 sgRNA를 발현하는 플라스미드를 인간 HEK 293T 세포에 형질 감염시키고 3일 후에 게놈 DNA를 분리하였다. In order to confirm the cytosine editing, among the plasmids expressing the CBE-N1, CBE-N2, CBE-C1 or CBE-C2 subminiature base editing constructs according to the present invention and the engineered sgRNA produced in the present invention A plasmid expressing the smallest Cas12f_ge4.1 sgRNA was transfected into human HEK 293T cells, and 3 days later, genomic DNA was isolated.

PCR 방법으로 본 발명에 따른 초소형 염기교정(Base editing) 시스템의 타겟 부위를 증폭하고, 타겟 딥 시퀀싱으로 증폭된 앰플리콘을 처리하였다. 그 후, 염기 교정 분석기를 이용하여 상기 시토신 탈아미노화효소가 포함된 초소형 염기교정(Base editing) 구조물의 시토신 염기교정 유전자가위(Cytosine base editor) 활성을 테스트하였다. The target region of the base editing system according to the present invention was amplified by PCR method, and the amplified amplicon was processed by target deep sequencing. Thereafter, the cytosine base editing gene editing activity of the subminiature base editing construct containing the cytosine deaminase was tested using a base editing analyzer.

이를 위해 상기 [표 8]에 기재된 3개의 타겟 부위에 대해서 교정 윈도우(editing windows) 범위인 5'-말단 타겟 부위의 싱글 가이드 RNA(sgRNA) 결합영역 내 N2 내지 N20(PAM 서열 다음의 2번째 뉴클레오티드에서 20번째 뉴클레오티드)에 걸친 범위의 각 뉴클레오티드에서 모든 염기의 다른 염기로의 치환 여부를 분석하였다. To this end, for the three target sites described in [Table 8], N2 to N20 in the single guide RNA (sgRNA) binding region of the 5'-end target site, which is within the editing window range (the 2nd nucleotide following the PAM sequence) At each nucleotide in the range (from the 20th nucleotide), substitution of all bases with other bases was analyzed.

그 결과 도 17에서 나타낸 바와 같이, 본 발명에 따른 CBE-C1 및 CBE-C2인 초소형 염기교정(Base editing) 구조물을 포함하는 초소형 염기교정(Base editing) 시스템이 교정 윈도우 범위 내 시토신을 티민으로 교정함을 확인하였다. As a result, as shown in FIG. 17, the base editing system including the base editing structures CBE-C1 and CBE-C2 according to the present invention corrects cytosine to thymine within the correction window. It was confirmed that

Target-2의 경우에 CBE-C1 및 CBE-C2인 초소형 염기교정(Base editing) 구조물은 둘 다 C4 및 C5 위치의 시토신 염기를 티민 염기로 치환하는 빈도가 가장 높았다(도 17a). 또한 CBE-C2인 초소형 염기교정 구조물의 경우에, 상기 Target-12의 C3 및 C4 염기를 티민으로 교정하는 빈도가 각각 약 20 % 및 약 16 % 로 확인되었다(도 17b). In the case of Target-2, both CBE-C1 and CBE-C2 subminiature base editing structures had the highest frequency of substituting cytosine bases at positions C4 and C5 with thymine bases (FIG. 17a). In addition, in the case of the CBE-C2 subminiature base editing construct, the frequencies of correcting the C3 and C4 bases of Target-12 with thymine were confirmed to be about 20% and about 16%, respectively (FIG. 17b).

상기 결과로부터, 본 발명의 시티딘 탈아미노화효소를 포함하는 초소형 염기교정(Base editing) 구조물은 PAM 서열 다음의 C3 내지 C5에서 연속하여 위치한 2개의 시토신, 즉 C3 및 C4; 또는 C4 및 C5;를 동시에 티민으로 교정할 수 있음을 확인하였다. From the above results, the subminiature base editing construct containing the cytidine deaminase of the present invention has two cytosines located consecutively from C3 to C5 following the PAM sequence, that is, C3 and C4; or C4 and C5; were confirmed to be able to be corrected with thymine at the same time.

상기 결과로 본 발명에 따른 시토신 염기 교정을 위한 초소형 염기교정 시스템이 교정 윈도우가 C3 내지 C5 범위로 좁게 나타나고, 그 범위내의 연속하는 2개의 시토신 염기를 동시에 티민 염기로 교정할 수 있다는 것을 확인하였다. As a result, it was confirmed that the ultra-small base correction system for cytosine base correction according to the present invention has a narrow correction window in the range of C3 to C5, and two consecutive cytosine bases within that range can be simultaneously corrected with thymine base.

이는 본 발명에 따른 아데닌 염기 교정을 위한 초소형 염기교정(Base editing) 시스템과 마찬가지로, 본 발명에 따른 시토신 염기 교정을 위한 초소형 염기교정(Base editing) 시스템도 침묵 돌연변이(silent mutation)를 일으키는 염기 교정의 문제를 해결할 수 있고, 종결코돈 UAA의 경우에 3번째의 아데닌이 구아닌으로 염기 교정이 일어나도 여전히 종결코돈 UAG가 되어 염기 교정의 효과가 나타나지 않는 문제를 극복하는 장점을 가지는 새로운 염기교정 유전자가위(Base Editor)임을 의미하는 것이다. Like the base editing system for adenine base editing according to the present invention, the base editing system for cytosine base editing according to the present invention is also a base editing system that causes silent mutations. The problem can be solved, and in the case of the stop codon UAA, even if the third adenine is base-corrected with guanine, it still becomes the stop codon UAG and has the advantage of overcoming the problem that the effect of base correction does not appear. editor).

실시예 5-3. 원치 않는 indel 발생 여부 테스트Example 5-3. Testing for unwanted indels

한편, 아데노신 탈아미노화효소 또는 시티딘 탈아미노화효소가 dCas9 또는 nCas9 단백질에 결합되어 있는 기존의 아데닌 염기교정 유전자가위(ABEs) 또는 시토신 염기교정 유전자가위(CBEs)는 염기 교정 이외에, 표적 핵산의 이중가닥 DNA 절단에 의해 표적 핵산 내에 염기가 결실 또는 추가되는 '원치 않는 indel'을 야기하기 때문에 문제가 되었다. On the other hand, existing adenine base editing scissors (ABEs) or cytosine base editing scissors (CBEs) in which adenosine deaminase or cytidine deaminase are linked to dCas9 or nCas9 proteins are used to modify target nucleic acids in addition to base correction. This is a problem because double-stranded DNA cleavage causes 'unwanted indels' in which bases are deleted or added in the target nucleic acid.

이에, 본 발명에 따른 초소형 염기교정(Base editing) 구조물 및 이를 포함하는 초소형 염기교정 시스템이 염기교정의 유전자 편집 과정에서 원치 않는 indel을 일으키는지 여부를 확인하였다. Accordingly, it was confirmed whether the base editing structure and the base editing system including the base editing structure according to the present invention cause unwanted indels in the gene editing process of base editing.

그 결과 도 18에서 나타낸 바와 같이, 상기 본 발명에 따른 아데닌 염기 교정을 위한 초소형 염기교정(Base editing) 시스템 ABE-C2 및 시토신 염기 교정을 위한 초소형 염기교정(Base editing) 시스템 CBE-C2는 모두 원치 않는 indel을 거의 발생하지 않음을 확인하였다. As a result, as shown in FIG. 18, both the base editing system ABE-C2 for adenine base editing and the base editing system CBE-C2 for cytosine base editing according to the present invention are desired. It was confirmed that almost no indels occurred.

그러나 기존의 dCas9 또는 nCas9 단백질 기반의 아데닌 염기교정 유전자가위(ABEs) ABE7.10 및 ABE8e와 시토신 염기교정 유전자가위(CBEs) BE4 및 BE4-Gam에서는 본 발명에 따른 상기 ABE-C2 및 CBE-C2와 각각 비교하여 각각 10 배 이상의 원치 않는 indel을 발생시키는 것으로 확인되었다. However, in the existing dCas9 or nCas9 protein-based adenine base editing scissors (ABEs) ABE7.10 and ABE8e and cytosine base editing scissors (CBEs) BE4 and BE4-Gam, the ABE-C2 and CBE-C2 according to the present invention It was confirmed that each of them generated 10-fold or more unwanted indels compared to each other.

상기의 결과는 아데닌(A)을 구아닌(G)로 교정하거나, 시토신(C)을 티민(T)으로 교정하는 염기 교정 활성은 유사하게 나타난 것과는 뚜렷한 대조를 보이는 결과이다. 이는 indel은 발생시키지 않고 특정 염기의 교정만을 필요로 하는 상황에서, 본 발명에서 완성한 초소형 염기교정(Base editing) 구조물 및 이를 포함하는 초소형 염기교정(Base editing) 시스템이 매우 유용한 염기교정 유전자가위임을 시사한다. The above results are in stark contrast to the similar base proofreading activity of proofreading adenine (A) with guanine (G) or proofreading cytosine (C) with thymine (T). This indicates that the base editing structure completed in the present invention and the base editing system including the same are very useful in a situation where only specific base editing is required without generating indels. suggests

나아가, 상기 결과는 최소형의 염기교정(Base editing) 시스템으로써 넓은 적용 범위를 가지는 본 발명에 따른 상기 초소형 염기교정(Base editing) 구조물 및 이를 포함하는 초소형 염기교정 시스템이 indel, 염기 교정 또는 프라임 편집(prime editing) 등 목적하는 유전자 편집의 방식을 제약없이 선택할 수 있고, 부작용 없이 효과적으로 수행할 수 있다는 것을 새롭게 확인한 것이다.Furthermore, the results show that the base editing structure and the base editing system including the base editing system according to the present invention having a wide application range as the smallest base editing system have indel, base editing or prime editing ( It is a new confirmation that the target gene editing method, such as prime editing, can be selected without restrictions and can be performed effectively without side effects.

실시예 5-4. 본 발명에 따른 초소형 염기교정(Base editing) 시스템의 세포 내 염기 교정Example 5-4. Intracellular base editing of the ultra-small base editing system according to the present invention

본 발명에 따른 초소형 염기교정(Base editing) 시스템이 세포 내에서 표적 핵산 또는 표적 유전자의 표적 부위에 위치한 아데닌(A) 염기 또는 시토신(C) 염기를 다른 염기로 치환하는 염기교정의 효율을 확인하였다. The base editing system according to the present invention confirmed the efficiency of base editing by replacing an adenine (A) base or a cytosine (C) base located at a target site of a target nucleic acid or target gene in a cell with another base. .

상기 염기교정 효율을 확인하기 위해서, eGFP는 정상적으로 발현하지만, 앞부분에 존재하는 종결코돈 때문에 mRuby 유전자는 발현하지 못하도록 형질도입된 세포주를 제작하였다. 먼저 1) chicken β-actin(CBA) 프로모터, 5'- 및 3'-말단의 핵 위치 신호(nuclear localization signal, NLS) 서열 및 자가 절단 T2A 펩타이드(2A)로 연결된 eGFP를 인코딩하는 서열; 2) 본 발명에 따른 코돈-최적화 된 초소형 염기교정(Base editing) 구조물이 인식할 수 있으며, 종결 코돈(TAG)을 가지고 있는 표적 서열(Target) 및/또는 보조 표적 서열(Auxillary) 폴리뉴클레오타이드; 및 3) mRuby 유전자 서열이 작동가능하게 연결된 플라스미드 벡터를 제조하였다. 상기 벡터를 HEK 293T 세포에 형질도입시켰다. 상기 플라스미드 벡터가 염색체에 삽입된 HEK 293T 세포는 eGFP는 정상적으로 발현하지만, mRuby 유전자는 그 앞부분에 존재하는 종결코돈 때문에 발현하지 못한다. 상기 플라스미드 벡터 구조 및 상기 표적 서열은 도 19a 및 도 20a에서 자세히 나타냈다. In order to confirm the efficiency of the base editing, a transduced cell line was prepared to normally express eGFP but not to express the mRuby gene due to the stop codon present in the front part. First, 1) a chicken β-actin (CBA) promoter, a nuclear localization signal (NLS) sequence at the 5'- and 3'-ends, and a sequence encoding eGFP connected to the self-cleaved T2A peptide (2A); 2) a target sequence (Target) and / or an auxiliary target sequence (Auxillary) polynucleotide that can be recognized by the codon-optimized subminiature base editing construct according to the present invention and has a stop codon (TAG); and 3) a plasmid vector in which the mRuby gene sequence was operably linked. The vectors were transduced into HEK 293T cells. HEK 293T cells into which the plasmid vector was inserted normally express eGFP, but cannot express the mRuby gene due to the stop codon present in the front part of the HEK 293T cell. The plasmid vector structure and the target sequence are shown in detail in FIGS. 19A and 20A.

다음으로, 상기 플라스미드 벡터가 삽입된 HEK 293T 세포에, 실시예 2에서 제작한 본 발명의 초소형 염기교정(Base editing) 시스템을 암호화하는 핵산을 포함하는 AAV를 추가적으로 형질감염하였다. 여기서, 상기 AAV 벡터에는 실시예 1-6에서 제작한 아데닌 염기교정 활성을 가지는 초소형 염기교정(Base editing) 구조물 ABE-C2를 암호화하는 핵산 및/또는 보조 표적 서열(Auxillary) 또는 TnpB-ABE를 암호화하는 핵산의 폴리뉴클레오타이드가 포함되어 있다. Next, the HEK 293T cells into which the plasmid vector was inserted were additionally transfected with AAV containing the nucleic acid encoding the base editing system of the present invention prepared in Example 2. Here, the AAV vector encodes a nucleic acid encoding ABE-C2, a subminiature base editing construct having adenine base editing activity prepared in Examples 1-6, and/or an auxiliary target sequence (Auxillary) or TnpB-ABE. A polynucleotide of a nucleic acid is included.

이렇게 제작된 AAV는 본 발명에서 rAAV-ABE-C2 벡터 및 rAAV-TnpB-ABE 벡터라고 명명했다. 상기 벡터의 구조는 각각 도 19b 및 도 20b에서 자세히 나타냈다. The AAV thus prepared is named rAAV-ABE-C2 vector and rAAV-TnpB-ABE vector in the present invention. The structure of the vector is shown in detail in FIGS. 19B and 20B, respectively.

상기 rAAV-ABE-C2 벡터 또는 rAAV-TnpB-ABE 벡터가 형질감염된 HEK293T 세포에서 본 발명에 따른 초소형 염기교정(Base editing) 시스템이 아데닌(A) 염기를 구아닌(G) 염기로 치환하는 염기 교정이 발생했는지 mRuby 유전자의 발현을 여부를 확인하였다.In HEK293T cells transfected with the rAAV-ABE-C2 vector or the rAAV-TnpB-ABE vector, the base editing system according to the present invention replaces adenine (A) base with guanine (G) base. It was confirmed whether mRuby gene was expressed.

상기 mRuby의 발현을 여부를 확인하기로 한 이유는, 상기 벡터가 상기 형질도입된 HEK 293T 세포 내로 전달되어 표적 서열을 인식하여 그 부위에 위치하고, 상기 표적 서열 내에 존재하는 종결코돈 T A G의 아데닌(A) 염기를 구아닌(G) 염기로 치환하였다면, mRuby 유전자의 앞부분에 존재하던 종결코돈이 T G G(Trp)로 변경되어 종결코돈이 사라지기 때문에 상기 mRuby 유전자는 정상적으로 발현하게 될 것이기 때문이다. The reason for determining whether mRuby is expressed is that the vector is transferred into the transduced HEK 293T cells, recognizes the target sequence, is located at the site, and adenine of the stop codon T A G present in the target sequence (A) If the base is substituted with a guanine (G) base, the stop codon existing at the front of the mRuby gene is changed to T G G (Trp) and the stop codon disappears, so the mRuby gene will be normally expressed. .

그 결과 도 19c에서 나타낸 바와 같이, 상기 rAAV-ABE-C2 벡터에 포함된 본 발명에 따른 초소형 염기교정(Base editing) 시스템은 상기 형질도입된 HEK 293T 세포 내에서 mRuby 유전자를 정상적으로 발현시키는 것을 확인하였다. 그 염기 교정율은 25.2 %로 나타났다. As a result, as shown in FIG. 19c, it was confirmed that the base editing system according to the present invention included in the rAAV-ABE-C2 vector normally expresses the mRuby gene in the transduced HEK 293T cells. . The base correction rate was found to be 25.2%.

또한, 상기 rAAV-TnpB-ABE 벡터에 포함된 본 발명에 따른 초소형 염기교정(Base editing) 시스템은 형질도입된 후 6일째에 약 40%, 9일째에 60 % 이상의 염기 교정율을 나타내며, HEK 293T 세포 내에서 mRuby 유전자를 정상적으로 발현시키는 것을 확인하였다(도 20c). In addition, the base editing system according to the present invention included in the rAAV-TnpB-ABE vector shows a base editing rate of about 40% on the 6th day and 60% or more on the 9th day after transduction, HEK 293T It was confirmed that the mRuby gene was normally expressed in the cells (FIG. 20c).

실시예 5-5. 기존 염기교정 유전자가위(BEs)와의 세포 내 염기 교정 효율 비교Example 5-5. Comparison of intracellular base editing efficiency with existing base editing gene scissors (BEs)

또한, 본 발명에 따른 초소형 염기교정(Base editing) 시스템의 세포 내 염기 교정 활성을 기존의 AAV 벡터로 전달 가능한 크기를 가지는 아데닌 염기교정 유전자가위 miniABEmax와 비교하기로 하였다. In addition, the intracellular base editing activity of the ultra-small base editing system according to the present invention was compared with the adenine base editing gene scissors miniABEmax having a size capable of being transferred to an existing AAV vector.

이를 위해, 실시예 1-6에서 제작한 아데닌 염기교정 활성을 가지는 초소형 염기교정(Base editing) 구조물 ABE-C2을 암호화하는 핵산을 포함하는 AAV 벡터(ABE-C2), 이를 포함하는 본 발명의 초소형 염기교정(Base editing) 시스템을 암호화하는 핵산을 포함하는 AAV 벡터(ABE-C2+sgRNA) 및 상기 ABE-C2+sgRNA에 보조 표적 서열(Auxillary) 폴리뉴클레오타이드가 포함되어 있는 AAV 벡터(ABE-C2+ sgRNA+Auxillary)를 제작했다. To this end, an AAV vector (ABE-C2) containing a nucleic acid encoding the subminiature base editing construct ABE-C2 having an adenine base editing activity prepared in Examples 1-6, An AAV vector (ABE-C2 + sgRNA) containing nucleic acid encoding a base editing system and an AAV vector (ABE-C2 + sgRNA) containing an auxiliary target sequence (Auxillary) polynucleotide in the ABE-C2 + sgRNA + Auxillary).

또한, 상기 본 발명에 따른 초소형 염기교정(Base editing) 시스템과 세포 내 염기교정 효율을 비교할 기존의 spCas9n 기반의 아데닌 염기교정 유전자가위 AAV 벡터인 miniABEmax를 준비하였다. In addition, a conventional spCas9n-based adenine base editing gene scissors AAV vector, miniABEmax, was prepared to compare base editing efficiency with the miniaturized base editing system according to the present invention.

상기 준비된 벡터들은 HEK 293T 세포에 형질감염하였고, 3일 후 상기 감염된 HEK 293T 세포에서 게놈 DNA(genome DNA)를 수득하였다. 이의 PCR 생성물을 타겟 딥 시퀀싱(targeted deep sequencing)을 사용하여 아데닌(A) 염기가 구아닌(G) 염기로 치환되었는지를 분석하였다. The prepared vectors were transfected into HEK 293T cells, and 3 days later, genomic DNA was obtained from the infected HEK 293T cells. The PCR product thereof was analyzed for substitution of an adenine (A) base with a guanine (G) base using targeted deep sequencing.

분석 결과 도 21a에서 나타낸 바와 같이, 본 발명에 따른 초소형 염기교정(Base editing) 시스템인 ABE-C2+sgRNA 및 ABE-C2+sgRNA+Auxillary는 아데닌(A) 염기를 구아닌(G) 염기로 치환하는 염기 교정율이 각각 30 % 및 40 %로 나타났다. As shown in FIG. 21a, the ABE-C2 + sgRNA and ABE-C2 + sgRNA + Auxillary, which are subminiature base editing systems according to the present invention, replace adenine (A) bases with guanine (G) bases. Base correction rates were found to be 30% and 40%, respectively.

반면에, 기존의 SpCas9n 기반의 아데닌 염기교정 유전자가위 miniABEmax는 5 % 이하로, 낮은 아데닌 염기교정 특이성을 보였다. On the other hand, the existing SpCas9n-based adenine nucleotide editing scissors miniABEmax showed low adenine nucleotide editing specificity, less than 5%.

상기 결과는 본 발명에 따른 dCas12f1 또는 이의 기능적 유사체를 포함하는 초소형 염기교정(Base editing) 시스템은 앞서 설명한 작은 사이즈에서 기인한 다양한 유전자 편집 활용 범위의 장점에 더불어, 염기교정에 있어서 기존에 가장 많은 연구가 진행되고 현재 염기교정 유전자가위로 사용되고 있는 것보다 염기 교정 효율이 현저히 증가된 것을 확인한 것이다. The above results show that the subminiature base editing system containing dCas12f1 or its functional analogue according to the present invention has the advantage of a wide range of gene editing applications due to the small size described above, and the most existing research in base editing. was progressed, and it was confirmed that the base editing efficiency was significantly increased compared to those currently used as base editing gene scissors.

다음으로, 기존 Cas9 기반 ABE와 본 발명에 따른 Cas12f1 또는 TnpB 기반 ABE의 교정효율을 비교하였다. Next, the proofreading efficiency of the existing Cas9-based ABE and the Cas12f1 or TnpB-based ABE according to the present invention was compared.

그 결과 도 21b에서 나타낸 바와 같이, TnpB 기반 ABE-C3.1 (dTnpB- TadAeTadA3과 동일)은 Cas12f1 기반의 ABEMINI(TadAeTadA1-dCas12f1과 동일) 또는 Cas9 기반의 ABE7.10, 8e 및 9와 비교하여 A3 및 A4 위치에서 탁월한 염기교정율을 나타냈다. As a result, as shown in FIG. 21b, TnpB-based ABE-C3.1 (same as dTnpB-TadAeTadA3) is A3 compared to Cas12f1-based ABEMINI (same as TadAeTadA1-dCas12f1) or Cas9-based ABE7.10, 8e, and 9. and A4 showed excellent base proofreading rates.

이는 TnpB 기반 ABE가 가장 우수한 ABE 활성을 나타냄을 의미한다.This means that the TnpB-based ABE exhibits the best ABE activity.

실시예 5-6. AAV 전달을 통한 초소형 염기교정의 다중 유전자 교정Example 5-6. Multiplex gene editing of microbases through AAV delivery

본 발명에 따른 초소형 염기교정(Base editing) 시스템의 가장 큰 장점은 AAV가 가지는 전달 사이즈의 한계에 제약성이 없다는 점이다. 더욱이 본 발명을 통해 개발한 염기교정 시스템은 한 개의 가이드 RNA를 넣었을 경우 AAV 전달 한계 내에서 추가적인 공간의 여유가 존재한다. 이 추가 공간 안에 가이드 RNA 또는 shRNA와 같은 추가적인 요소를 추가함으로써 복수개의 유전자를 동시에 교정할 수 있는 장점을 지닌다. The greatest advantage of the ultra-small base editing system according to the present invention is that there is no restriction on the transfer size limit of AAV. Moreover, the base correction system developed through the present invention has an additional space within the AAV delivery limit when one guide RNA is inserted. By adding additional elements such as guide RNA or shRNA in this additional space, it has the advantage of being able to correct multiple genes simultaneously.

이를 증명하기 위해 도 22a에 기재한 바와 같이, 서로 다른 guide RNA 한 종류를 넣은 AAV2와 그 두 guide RNA를 동시에 탑재한 AAV2를 제작하였다. 그리고 dTnpB-TadAeTadA3(ABE-C3.1)을 암호화하는 핵산을 포함하는 AAV2를 같은 감염다중도(multiplicity of infection, MOI)로 HEK293T 세포에 감염시켰다. To prove this, as shown in FIG. 22a, AAV2 loaded with one different guide RNA and AAV2 loaded with the two guide RNAs were produced. Then, HEK293T cells were infected with AAV2 containing a nucleic acid encoding dTnpB-TadAeTadA3 (ABE-C3.1) at the same multiplicity of infection (MOI).

상기 준비된 AAV2 벡터들은 HEK 293T 세포에 형질감염하였고, 10일 후 상기 감염된 HEK 293T 세포에서 게놈 DNA(genome DNA)를 수득하였다. 이의 PCR 생성물을 타겟 딥 시퀀싱(targeted deep sequencing)을 사용하여 아데닌(A) 염기가 구아닌(G) 염기로 치환되었는지를 분석하였다. The prepared AAV2 vectors were transfected into HEK 293T cells, and 10 days later, genomic DNA was obtained from the infected HEK 293T cells. The PCR product thereof was analyzed for substitution of an adenine (A) base with a guanine (G) base using targeted deep sequencing.

분석 결과 도 22b에서 나타낸 바와 같이, 두 종류의 guide RNA를 탑재한 AAV2에서 두 타겟 모두 아데닌 염기교정의 효율을 확인하였다. 각각의 효율은 단독 guide RNA를 탑재한 경우와 비슷한 효율을 나타내었다. 이를 통해 초소형 염기교정 시스템이 AAV 전달체를 통하여 다중 타겟 염기교정이 가능함을 확인하였다. As a result of the analysis, as shown in FIG. 22B, the efficiency of adenine base correction was confirmed for both targets in AAV2 loaded with two types of guide RNAs. Each efficiency was similar to the case of loading a single guide RNA. Through this, it was confirmed that the ultra-small base editing system is capable of multi-target base editing through the AAV delivery system.

본 발명에 따른 상기 실시예의 결과들을 종합해보면, 본 발명의 Cas12f1 단백질 및 이의 기능적 유사체는 염기교정에 있어 우수한 교정효율 활성을 가지고 있다. 또한 Cas12f1 단백질 및 이의 기능적 유사체는 현저히 작은 크기 특성으로 인해, 베이스 에디터 또는 프라임 에디터 등의 기능적 도메인들을 하나의 AAV 벡터에 모두 포함시킬 수 있고, 나아가 2개 이상의 유전자 교정 구조물을 함께 포함시킬수 있는 장점이 있다. Summarizing the results of the above examples according to the present invention, the Cas12f1 protein and functional analogs thereof of the present invention have excellent proofreading efficiency activity in base proofreading. In addition, due to the remarkably small size of the Cas12f1 protein and its functional analogues, functional domains such as base editors or prime editors can be included in one AAV vector, and furthermore, two or more gene editing constructs can be included together. there is.

이는 본 발명에 따른 dCas12f1 및 이의 기능적 유사체를 포함하는 초소형 염기교정(Base editing) 시스템의 활용 범위는 다양한 분야에서 매우 넓게 나타나고, 궁극적으로 본 발명의 초소형 염기교정 시스템에 의해 차세대 유전자 편집 시스템의 세대 교체를 앞당길 것이다.This indicates that the scope of application of the miniaturized base editing system including dCas12f1 and its functional analogs according to the present invention is very wide in various fields, and ultimately, the next generation gene editing system is replaced by the ultraminiature base editing system of the present invention. will advance

상기 진술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해되어야 한다. The description of the present invention described above is for illustrative purposes, and those skilled in the art can understand that it can be easily modified into other specific forms without changing the technical spirit or essential features of the present invention. There will be. Therefore, it should be understood that the embodiments described above are illustrative in all respects and not restrictive.

<110> GenKOre Co., Ltd. Korea Research Institute of Bioscience and Biotechnology <120> Hypercompact base editing systems and use thereof <130> PN21407 <150> KR 10-2021-0087956 <151> 2021-07-05 <160> 178 <170> KoPatentIn 3.0 <210> 1 <211> 529 <212> PRT <213> Unknown <220> <223> Cas12f1 <400> 1 Met Ala Lys Asn Thr Ile Thr Lys Thr Leu Lys Leu Arg Ile Val Arg 1 5 10 15 Pro Tyr Asn Ser Ala Glu Val Glu Lys Ile Val Ala Asp Glu Lys Asn 20 25 30 Asn Arg Glu Lys Ile Ala Leu Glu Lys Asn Lys Asp Lys Val Lys Glu 35 40 45 Ala Cys Ser Lys His Leu Lys Val Ala Ala Tyr Cys Thr Thr Gln Val 50 55 60 Glu Arg Asn Ala Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys 65 70 75 80 Phe Tyr Gln Lys Leu Arg Gly Gln Phe Pro Asp Ala Val Phe Trp Gln 85 90 95 Glu Ile Ser Glu Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile 100 105 110 Tyr Asn Gln Ser Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly 115 120 125 Lys Gly Ile Ala Asn Ala Ser Ser Val Glu His Tyr Leu Ser Asp Val 130 135 140 Cys Tyr Thr Arg Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser 145 150 155 160 Gly Leu Arg Ser Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys 165 170 175 Asn Met Lys Ser Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile 180 185 190 Pro Leu Val Lys Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser 195 200 205 Asn His Asn Ser Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln 210 215 220 Val Lys Lys Glu Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe 225 230 235 240 Glu Gln Val Gln Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr 245 250 255 Gln Arg Arg Lys Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu 260 265 270 Ala Glu Ile Lys Lys Val Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile 275 280 285 Glu Val Lys Arg Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu 290 295 300 Asn Leu Ser Ile Asp Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser 305 310 315 320 Ile Ile Gly Gly Ile Asp Val Gly Val Lys Ser Pro Leu Val Cys Ala 325 330 335 Ile Asn Asn Ala Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe 340 345 350 His Phe Asn Lys Lys Met Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys 355 360 365 Asn Arg His Lys Arg Ala Gly His Gly Ala Lys Asn Lys Leu Lys Pro 370 375 380 Ile Thr Ile Leu Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile 385 390 395 400 Glu Arg Trp Ala Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val 405 410 415 Gly Thr Val Gln Met Glu Asn Leu Glu Ser Met Lys Arg Lys Glu Asp 420 425 430 Ser Tyr Phe Asn Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met 435 440 445 Gln Asn Lys Ile Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg 450 455 460 Lys Val Ala Pro Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys Gly His 465 470 475 480 Leu Asn Asn Tyr Phe Asn Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro 485 490 495 His Phe Lys Cys Glu Lys Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn 500 505 510 Ala Ala Leu Asn Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu 515 520 525 Pro <210> 2 <211> 1587 <212> DNA <213> Artificial Sequence <220> <223> Human codon-optimized Cas12f1 <400> 2 atggccaaga acacaattac aaagacactg aagctgagga tcgtgagacc atacaacagc 60 gctgaggtcg agaagattgt ggctgatgaa aagaacaaca gggaaaagat cgccctcgag 120 aagaacaagg ataaggtgaa ggaggcctgc tctaagcacc tgaaagtggc cgcctactgc 180 accacacagg tggagaggaa cgcctgtctg ttttgtaaag ctcggaagct ggatgataag 240 ttttaccaga agctgcgggg ccagttcccc gatgccgtct tttggcagga gattagcgag 300 atcttcagac agctgcagaa gcaggccgcc gagatctaca accagagcct gatcgagctc 360 tactacgaga tcttcatcaa gggcaagggc attgccaacg cctcctccgt ggagcactac 420 ctgagcgacg tgtgctacac aagagccgcc gagctcttta agaacgccgc tatcgcttcc 480 gggctgagga gcaagattaa gagtaacttc cggctcaagg agctgaagaa catgaagagc 540 ggcctgccca ctacaaagag cgacaacttc ccaattccac tggtgaagca gaaggggggc 600 cagtacacag ggttcgagat ttccaaccac aacagcgact ttattattaa gatccccttt 660 ggcaggtggc aggtcaagaa ggagattgac aagtacaggc cctgggagaa gtttgatttc 720 gagcaggtgc agaagagccc caagcctatt tccctgctgc tgtccacaca gcggcggaag 780 aggaacaagg ggtggtctaa ggatgagggg accgaggccg agattaagaa agtgatgaac 840 ggcgactacc agacaagcta catcgaggtc aagcggggca gtaagattgg cgagaagagc 900 gcctggatgc tgaacctgag cattgacgtg ccaaagattg ataagggcgt ggatcccagc 960 atcatcggag ggatcgatgt gggggtcaag agccccctcg tgtgcgccat caacaacgcc 1020 ttcagcaggt acagcatctc cgataacgac ctgttccact ttaacaagaa gatgttcgcc 1080 cggcggagga ttttgctcaa gaagaaccgg cacaagcggg ccggacacgg ggccaagaac 1140 aagctcaagc ccatcactat cctgaccgag aagagcgaga ggttcaggaa gaagctcatc 1200 gagagatggg cctgcgagat cgccgatttc tttattaaga acaaggtcgg aacagtgcag 1260 atggagaacc tcgagagcat gaagaggaag gaggattcct acttcaacat tcggctgagg 1320 gggttctggc cctacgctga gatgcagaac aagattgagt ttaagctgaa gcagtacggg 1380 attgagatcc ggaaggtggc ccccaacaac accagcaaga cctgcagcaa gtgcgggcac 1440 ctcaacaact acttcaactt cgagtaccgg aagaagaaca agttcccaca cttcaagtgc 1500 gagaagtgca actttaagga gaacgccgat tacaacgccg ccctgaacat cagcaaccct 1560 aagctgaaga gcactaagga ggagccc 1587 <210> 3 <211> 529 <212> PRT <213> Artificial Sequence <220> <223> DeadCas12f1(D326A) <400> 3 Met Ala Lys Asn Thr Ile Thr Lys Thr Leu Lys Leu Arg Ile Val Arg 1 5 10 15 Pro Tyr Asn Ser Ala Glu Val Glu Lys Ile Val Ala Asp Glu Lys Asn 20 25 30 Asn Arg Glu Lys Ile Ala Leu Glu Lys Asn Lys Asp Lys Val Lys Glu 35 40 45 Ala Cys Ser Lys His Leu Lys Val Ala Ala Tyr Cys Thr Thr Gln Val 50 55 60 Glu Arg Asn Ala Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys 65 70 75 80 Phe Tyr Gln Lys Leu Arg Gly Gln Phe Pro Asp Ala Val Phe Trp Gln 85 90 95 Glu Ile Ser Glu Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile 100 105 110 Tyr Asn Gln Ser Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly 115 120 125 Lys Gly Ile Ala Asn Ala Ser Ser Val Glu His Tyr Leu Ser Asp Val 130 135 140 Cys Tyr Thr Arg Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser 145 150 155 160 Gly Leu Arg Ser Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys 165 170 175 Asn Met Lys Ser Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile 180 185 190 Pro Leu Val Lys Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser 195 200 205 Asn His Asn Ser Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln 210 215 220 Val Lys Lys Glu Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe 225 230 235 240 Glu Gln Val Gln Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr 245 250 255 Gln Arg Arg Lys Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu 260 265 270 Ala Glu Ile Lys Lys Val Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile 275 280 285 Glu Val Lys Arg Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu 290 295 300 Asn Leu Ser Ile Asp Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser 305 310 315 320 Ile Ile Gly Gly Ile Ala Val Gly Val Lys Ser Pro Leu Val Cys Ala 325 330 335 Ile Asn Asn Ala Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe 340 345 350 His Phe Asn Lys Lys Met Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys 355 360 365 Asn Arg His Lys Arg Ala Gly His Gly Ala Lys Asn Lys Leu Lys Pro 370 375 380 Ile Thr Ile Leu Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile 385 390 395 400 Glu Arg Trp Ala Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val 405 410 415 Gly Thr Val Gln Met Glu Asn Leu Glu Ser Met Lys Arg Lys Glu Asp 420 425 430 Ser Tyr Phe Asn Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met 435 440 445 Gln Asn Lys Ile Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg 450 455 460 Lys Val Ala Pro Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys Gly His 465 470 475 480 Leu Asn Asn Tyr Phe Asn Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro 485 490 495 His Phe Lys Cys Glu Lys Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn 500 505 510 Ala Ala Leu Asn Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu 515 520 525 Pro <210> 4 <211> 529 <212> PRT <213> Artificial Sequence <220> <223> DeadCas12f1(E422A) <400> 4 Met Ala Lys Asn Thr Ile Thr Lys Thr Leu Lys Leu Arg Ile Val Arg 1 5 10 15 Pro Tyr Asn Ser Ala Glu Val Glu Lys Ile Val Ala Asp Glu Lys Asn 20 25 30 Asn Arg Glu Lys Ile Ala Leu Glu Lys Asn Lys Asp Lys Val Lys Glu 35 40 45 Ala Cys Ser Lys His Leu Lys Val Ala Ala Tyr Cys Thr Thr Gln Val 50 55 60 Glu Arg Asn Ala Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys 65 70 75 80 Phe Tyr Gln Lys Leu Arg Gly Gln Phe Pro Asp Ala Val Phe Trp Gln 85 90 95 Glu Ile Ser Glu Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile 100 105 110 Tyr Asn Gln Ser Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly 115 120 125 Lys Gly Ile Ala Asn Ala Ser Ser Val Glu His Tyr Leu Ser Asp Val 130 135 140 Cys Tyr Thr Arg Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser 145 150 155 160 Gly Leu Arg Ser Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys 165 170 175 Asn Met Lys Ser Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile 180 185 190 Pro Leu Val Lys Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser 195 200 205 Asn His Asn Ser Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln 210 215 220 Val Lys Lys Glu Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe 225 230 235 240 Glu Gln Val Gln Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr 245 250 255 Gln Arg Arg Lys Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu 260 265 270 Ala Glu Ile Lys Lys Val Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile 275 280 285 Glu Val Lys Arg Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu 290 295 300 Asn Leu Ser Ile Asp Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser 305 310 315 320 Ile Ile Gly Gly Ile Asp Val Gly Val Lys Ser Pro Leu Val Cys Ala 325 330 335 Ile Asn Asn Ala Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe 340 345 350 His Phe Asn Lys Lys Met Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys 355 360 365 Asn Arg His Lys Arg Ala Gly His Gly Ala Lys Asn Lys Leu Lys Pro 370 375 380 Ile Thr Ile Leu Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile 385 390 395 400 Glu Arg Trp Ala Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val 405 410 415 Gly Thr Val Gln Met Ala Asn Leu Glu Ser Met Lys Arg Lys Glu Asp 420 425 430 Ser Tyr Phe Asn Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met 435 440 445 Gln Asn Lys Ile Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg 450 455 460 Lys Val Ala Pro Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys Gly His 465 470 475 480 Leu Asn Asn Tyr Phe Asn Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro 485 490 495 His Phe Lys Cys Glu Lys Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn 500 505 510 Ala Ala Leu Asn Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu 515 520 525 Pro <210> 5 <211> 529 <212> PRT <213> Artificial Sequence <220> <223> DeadCas12f1(R490A) <400> 5 Met Ala Lys Asn Thr Ile Thr Lys Thr Leu Lys Leu Arg Ile Val Arg 1 5 10 15 Pro Tyr Asn Ser Ala Glu Val Glu Lys Ile Val Ala Asp Glu Lys Asn 20 25 30 Asn Arg Glu Lys Ile Ala Leu Glu Lys Asn Lys Asp Lys Val Lys Glu 35 40 45 Ala Cys Ser Lys His Leu Lys Val Ala Ala Tyr Cys Thr Thr Gln Val 50 55 60 Glu Arg Asn Ala Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys 65 70 75 80 Phe Tyr Gln Lys Leu Arg Gly Gln Phe Pro Asp Ala Val Phe Trp Gln 85 90 95 Glu Ile Ser Glu Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile 100 105 110 Tyr Asn Gln Ser Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly 115 120 125 Lys Gly Ile Ala Asn Ala Ser Ser Val Glu His Tyr Leu Ser Asp Val 130 135 140 Cys Tyr Thr Arg Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser 145 150 155 160 Gly Leu Arg Ser Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys 165 170 175 Asn Met Lys Ser Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile 180 185 190 Pro Leu Val Lys Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser 195 200 205 Asn His Asn Ser Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln 210 215 220 Val Lys Lys Glu Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe 225 230 235 240 Glu Gln Val Gln Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr 245 250 255 Gln Arg Arg Lys Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu 260 265 270 Ala Glu Ile Lys Lys Val Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile 275 280 285 Glu Val Lys Arg Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu 290 295 300 Asn Leu Ser Ile Asp Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser 305 310 315 320 Ile Ile Gly Gly Ile Asp Val Gly Val Lys Ser Pro Leu Val Cys Ala 325 330 335 Ile Asn Asn Ala Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe 340 345 350 His Phe Asn Lys Lys Met Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys 355 360 365 Asn Arg His Lys Arg Ala Gly His Gly Ala Lys Asn Lys Leu Lys Pro 370 375 380 Ile Thr Ile Leu Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile 385 390 395 400 Glu Arg Trp Ala Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val 405 410 415 Gly Thr Val Gln Met Glu Asn Leu Glu Ser Met Lys Arg Lys Glu Asp 420 425 430 Ser Tyr Phe Asn Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met 435 440 445 Gln Asn Lys Ile Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg 450 455 460 Lys Val Ala Pro Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys Gly His 465 470 475 480 Leu Asn Asn Tyr Phe Asn Phe Glu Tyr Ala Lys Lys Asn Lys Phe Pro 485 490 495 His Phe Lys Cys Glu Lys Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn 500 505 510 Ala Ala Leu Asn Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu 515 520 525 Pro <210> 6 <211> 529 <212> PRT <213> Artificial Sequence <220> <223> DeadCas12f1(D510A) <400> 6 Met Ala Lys Asn Thr Ile Thr Lys Thr Leu Lys Leu Arg Ile Val Arg 1 5 10 15 Pro Tyr Asn Ser Ala Glu Val Glu Lys Ile Val Ala Asp Glu Lys Asn 20 25 30 Asn Arg Glu Lys Ile Ala Leu Glu Lys Asn Lys Asp Lys Val Lys Glu 35 40 45 Ala Cys Ser Lys His Leu Lys Val Ala Ala Tyr Cys Thr Thr Gln Val 50 55 60 Glu Arg Asn Ala Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys 65 70 75 80 Phe Tyr Gln Lys Leu Arg Gly Gln Phe Pro Asp Ala Val Phe Trp Gln 85 90 95 Glu Ile Ser Glu Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile 100 105 110 Tyr Asn Gln Ser Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly 115 120 125 Lys Gly Ile Ala Asn Ala Ser Ser Val Glu His Tyr Leu Ser Asp Val 130 135 140 Cys Tyr Thr Arg Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser 145 150 155 160 Gly Leu Arg Ser Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys 165 170 175 Asn Met Lys Ser Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile 180 185 190 Pro Leu Val Lys Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser 195 200 205 Asn His Asn Ser Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln 210 215 220 Val Lys Lys Glu Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe 225 230 235 240 Glu Gln Val Gln Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr 245 250 255 Gln Arg Arg Lys Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu 260 265 270 Ala Glu Ile Lys Lys Val Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile 275 280 285 Glu Val Lys Arg Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu 290 295 300 Asn Leu Ser Ile Asp Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser 305 310 315 320 Ile Ile Gly Gly Ile Asp Val Gly Val Lys Ser Pro Leu Val Cys Ala 325 330 335 Ile Asn Asn Ala Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe 340 345 350 His Phe Asn Lys Lys Met Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys 355 360 365 Asn Arg His Lys Arg Ala Gly His Gly Ala Lys Asn Lys Leu Lys Pro 370 375 380 Ile Thr Ile Leu Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile 385 390 395 400 Glu Arg Trp Ala Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val 405 410 415 Gly Thr Val Gln Met Glu Asn Leu Glu Ser Met Lys Arg Lys Glu Asp 420 425 430 Ser Tyr Phe Asn Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met 435 440 445 Gln Asn Lys Ile Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg 450 455 460 Lys Val Ala Pro Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys Gly His 465 470 475 480 Leu Asn Asn Tyr Phe Asn Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro 485 490 495 His Phe Lys Cys Glu Lys Cys Asn Phe Lys Glu Asn Ala Ala Tyr Asn 500 505 510 Ala Ala Leu Asn Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu 515 520 525 Pro <210> 7 <211> 557 <212> PRT <213> Unknown <220> <223> TnpB <400> 7 Met Gly Glu Lys Ser Ser Arg Arg Arg Arg Asn Gly Lys Ser Gly Ala 1 5 10 15 Trp Thr Ala Ala Ile Thr Ser Cys Val Gly Gly Lys Met Ala Lys Asn 20 25 30 Thr Ile Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser 35 40 45 Ala Glu Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys 50 55 60 Ile Ala Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys 65 70 75 80 His Leu Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala 85 90 95 Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys 100 105 110 Leu Arg Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu 115 120 125 Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser 130 135 140 Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala 145 150 155 160 Asn Ala Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg 165 170 175 Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser 180 185 190 Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser 195 200 205 Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys 210 215 220 Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser 225 230 235 240 Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu 245 250 255 Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln 260 265 270 Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys 275 280 285 Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys 290 295 300 Lys Val Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg 305 310 315 320 Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile 325 330 335 Asp Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly 340 345 350 Ile Asp Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala 355 360 365 Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys 370 375 380 Lys Met Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys 385 390 395 400 Arg Ala Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu 405 410 415 Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala 420 425 430 Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln 435 440 445 Met Glu Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn 450 455 460 Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile 465 470 475 480 Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro 485 490 495 Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr 500 505 510 Phe Asn Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro His Phe Lys Cys 515 520 525 Glu Lys Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn Ala Ala Leu Asn 530 535 540 Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 8 <211> 555 <212> PRT <213> Artificial Sequence <220> <223> CasX-Cas12f1 <400> 8 Met Glu Lys Arg Ile Asn Lys Ile Arg Lys Lys Leu Ser Ala Asp Asn 1 5 10 15 Ala Thr Lys Pro Val Ser Arg Ser Gly Pro Met Ala Lys Asn Thr Ile 20 25 30 Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser Ala Glu 35 40 45 Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys Ile Ala 50 55 60 Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys His Leu 65 70 75 80 Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala Cys Leu 85 90 95 Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys Leu Arg 100 105 110 Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu Ile Phe 115 120 125 Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser Leu Ile 130 135 140 Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala Asn Ala 145 150 155 160 Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg Ala Ala 165 170 175 Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser Lys Ile 180 185 190 Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser Gly Leu 195 200 205 Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys Gln Lys 210 215 220 Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser Asp Phe 225 230 235 240 Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu Ile Asp 245 250 255 Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln Lys Ser 260 265 270 Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys Arg Asn 275 280 285 Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys Lys Val 290 295 300 Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg Gly Ser 305 310 315 320 Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile Asp Val 325 330 335 Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly Ile Asp 340 345 350 Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala Phe Ser 355 360 365 Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys Lys Met 370 375 380 Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys Arg Ala 385 390 395 400 Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu Thr Glu 405 410 415 Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala Cys Glu 420 425 430 Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln Met Glu 435 440 445 Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn Ile Arg 450 455 460 Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile Glu Phe 465 470 475 480 Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro Asn Asn 485 490 495 Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr Phe Asn 500 505 510 Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro His Phe Lys Cys Glu Lys 515 520 525 Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn Ala Ala Leu Asn Ile Ser 530 535 540 Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 9 <211> 557 <212> PRT <213> Artificial Sequence <220> <223> 28aa-extension Cas12f1 <400> 9 Met Ala Gly Gly Pro Gly Ala Gly Ser Ala Ala Pro Val Ser Ser Thr 1 5 10 15 Ser Ser Leu Pro Leu Ala Ala Leu Asn Met Arg Val Met Ala Lys Asn 20 25 30 Thr Ile Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser 35 40 45 Ala Glu Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys 50 55 60 Ile Ala Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys 65 70 75 80 His Leu Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala 85 90 95 Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys 100 105 110 Leu Arg Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu 115 120 125 Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser 130 135 140 Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala 145 150 155 160 Asn Ala Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg 165 170 175 Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser 180 185 190 Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser 195 200 205 Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys 210 215 220 Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser 225 230 235 240 Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu 245 250 255 Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln 260 265 270 Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys 275 280 285 Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys 290 295 300 Lys Val Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg 305 310 315 320 Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile 325 330 335 Asp Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly 340 345 350 Ile Asp Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala 355 360 365 Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys 370 375 380 Lys Met Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys 385 390 395 400 Arg Ala Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu 405 410 415 Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala 420 425 430 Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln 435 440 445 Met Glu Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn 450 455 460 Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile 465 470 475 480 Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro 485 490 495 Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr 500 505 510 Phe Asn Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro His Phe Lys Cys 515 520 525 Glu Lys Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn Ala Ala Leu Asn 530 535 540 Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 10 <211> 555 <212> PRT <213> Artificial Sequence <220> <223> 26aa-extension Cas12f1 <400> 10 Met Ala Gly Gly Pro Gly Ala Gly Ser Ala Ala Pro Val Ser Ser Thr 1 5 10 15 Ser Ser Leu Pro Leu Ala Ala Leu Asn Met Met Ala Lys Asn Thr Ile 20 25 30 Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser Ala Glu 35 40 45 Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys Ile Ala 50 55 60 Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys His Leu 65 70 75 80 Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala Cys Leu 85 90 95 Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys Leu Arg 100 105 110 Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu Ile Phe 115 120 125 Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser Leu Ile 130 135 140 Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala Asn Ala 145 150 155 160 Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg Ala Ala 165 170 175 Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser Lys Ile 180 185 190 Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser Gly Leu 195 200 205 Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys Gln Lys 210 215 220 Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser Asp Phe 225 230 235 240 Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu Ile Asp 245 250 255 Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln Lys Ser 260 265 270 Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys Arg Asn 275 280 285 Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys Lys Val 290 295 300 Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg Gly Ser 305 310 315 320 Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile Asp Val 325 330 335 Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly Ile Asp 340 345 350 Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala Phe Ser 355 360 365 Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys Lys Met 370 375 380 Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys Arg Ala 385 390 395 400 Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu Thr Glu 405 410 415 Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala Cys Glu 420 425 430 Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln Met Glu 435 440 445 Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn Ile Arg 450 455 460 Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile Glu Phe 465 470 475 480 Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro Asn Asn 485 490 495 Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr Phe Asn 500 505 510 Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro His Phe Lys Cys Glu Lys 515 520 525 Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn Ala Ala Leu Asn Ile Ser 530 535 540 Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 11 <211> 557 <212> PRT <213> Artificial Sequence <220> <223> dTnpB(D354A) <400> 11 Met Gly Glu Lys Ser Ser Arg Arg Arg Arg Asn Gly Lys Ser Gly Ala 1 5 10 15 Trp Thr Ala Ala Ile Thr Ser Cys Val Gly Gly Lys Met Ala Lys Asn 20 25 30 Thr Ile Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser 35 40 45 Ala Glu Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys 50 55 60 Ile Ala Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys 65 70 75 80 His Leu Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala 85 90 95 Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys 100 105 110 Leu Arg Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu 115 120 125 Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser 130 135 140 Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala 145 150 155 160 Asn Ala Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg 165 170 175 Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser 180 185 190 Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser 195 200 205 Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys 210 215 220 Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser 225 230 235 240 Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu 245 250 255 Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln 260 265 270 Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys 275 280 285 Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys 290 295 300 Lys Val Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg 305 310 315 320 Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile 325 330 335 Asp Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly 340 345 350 Ile Ala Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala 355 360 365 Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys 370 375 380 Lys Met Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys 385 390 395 400 Arg Ala Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu 405 410 415 Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala 420 425 430 Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln 435 440 445 Met Glu Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn 450 455 460 Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile 465 470 475 480 Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro 485 490 495 Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr 500 505 510 Phe Asn Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro His Phe Lys Cys 515 520 525 Glu Lys Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn Ala Ala Leu Asn 530 535 540 Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 12 <211> 557 <212> PRT <213> Artificial Sequence <220> <223> dTnpB(E450A) <400> 12 Met Gly Glu Lys Ser Ser Arg Arg Arg Arg Asn Gly Lys Ser Gly Ala 1 5 10 15 Trp Thr Ala Ala Ile Thr Ser Cys Val Gly Gly Lys Met Ala Lys Asn 20 25 30 Thr Ile Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser 35 40 45 Ala Glu Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys 50 55 60 Ile Ala Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys 65 70 75 80 His Leu Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala 85 90 95 Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys 100 105 110 Leu Arg Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu 115 120 125 Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser 130 135 140 Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala 145 150 155 160 Asn Ala Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg 165 170 175 Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser 180 185 190 Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser 195 200 205 Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys 210 215 220 Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser 225 230 235 240 Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu 245 250 255 Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln 260 265 270 Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys 275 280 285 Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys 290 295 300 Lys Val Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg 305 310 315 320 Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile 325 330 335 Asp Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly 340 345 350 Ile Asp Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala 355 360 365 Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys 370 375 380 Lys Met Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys 385 390 395 400 Arg Ala Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu 405 410 415 Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala 420 425 430 Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln 435 440 445 Met Ala Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn 450 455 460 Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile 465 470 475 480 Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro 485 490 495 Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr 500 505 510 Phe Asn Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro His Phe Lys Cys 515 520 525 Glu Lys Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn Ala Ala Leu Asn 530 535 540 Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 13 <211> 557 <212> PRT <213> Artificial Sequence <220> <223> dTnpB(R518A) <400> 13 Met Gly Glu Lys Ser Ser Arg Arg Arg Arg Asn Gly Lys Ser Gly Ala 1 5 10 15 Trp Thr Ala Ala Ile Thr Ser Cys Val Gly Gly Lys Met Ala Lys Asn 20 25 30 Thr Ile Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser 35 40 45 Ala Glu Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys 50 55 60 Ile Ala Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys 65 70 75 80 His Leu Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala 85 90 95 Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys 100 105 110 Leu Arg Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu 115 120 125 Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser 130 135 140 Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala 145 150 155 160 Asn Ala Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg 165 170 175 Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser 180 185 190 Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser 195 200 205 Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys 210 215 220 Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser 225 230 235 240 Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu 245 250 255 Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln 260 265 270 Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys 275 280 285 Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys 290 295 300 Lys Val Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg 305 310 315 320 Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile 325 330 335 Asp Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly 340 345 350 Ile Asp Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala 355 360 365 Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys 370 375 380 Lys Met Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys 385 390 395 400 Arg Ala Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu 405 410 415 Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala 420 425 430 Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln 435 440 445 Met Glu Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn 450 455 460 Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile 465 470 475 480 Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro 485 490 495 Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr 500 505 510 Phe Asn Phe Glu Tyr Ala Lys Lys Asn Lys Phe Pro His Phe Lys Cys 515 520 525 Glu Lys Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn Ala Ala Leu Asn 530 535 540 Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 14 <211> 557 <212> PRT <213> Artificial Sequence <220> <223> dTnpB(D538A) <400> 14 Met Gly Glu Lys Ser Ser Arg Arg Arg Arg Asn Gly Lys Ser Gly Ala 1 5 10 15 Trp Thr Ala Ala Ile Thr Ser Cys Val Gly Gly Lys Met Ala Lys Asn 20 25 30 Thr Ile Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser 35 40 45 Ala Glu Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys 50 55 60 Ile Ala Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys 65 70 75 80 His Leu Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala 85 90 95 Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys 100 105 110 Leu Arg Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu 115 120 125 Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser 130 135 140 Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala 145 150 155 160 Asn Ala Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg 165 170 175 Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser 180 185 190 Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser 195 200 205 Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys 210 215 220 Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser 225 230 235 240 Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu 245 250 255 Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln 260 265 270 Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys 275 280 285 Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys 290 295 300 Lys Val Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg 305 310 315 320 Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile 325 330 335 Asp Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly 340 345 350 Ile Asp Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala 355 360 365 Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys 370 375 380 Lys Met Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys 385 390 395 400 Arg Ala Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu 405 410 415 Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala 420 425 430 Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln 435 440 445 Met Glu Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn 450 455 460 Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile 465 470 475 480 Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro 485 490 495 Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr 500 505 510 Phe Asn Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro His Phe Lys Cys 515 520 525 Glu Lys Cys Asn Phe Lys Glu Asn Ala Ala Tyr Asn Ala Ala Leu Asn 530 535 540 Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 15 <211> 557 <212> PRT <213> Artificial Sequence <220> <223> 28aa-extension dCas12f1(D354A) <400> 15 Met Ala Gly Gly Pro Gly Ala Gly Ser Ala Ala Pro Val Ser Ser Thr 1 5 10 15 Ser Ser Leu Pro Leu Ala Ala Leu Asn Met Arg Val Met Ala Lys Asn 20 25 30 Thr Ile Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser 35 40 45 Ala Glu Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys 50 55 60 Ile Ala Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys 65 70 75 80 His Leu Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala 85 90 95 Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys 100 105 110 Leu Arg Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu 115 120 125 Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser 130 135 140 Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala 145 150 155 160 Asn Ala Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg 165 170 175 Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser 180 185 190 Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser 195 200 205 Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys 210 215 220 Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser 225 230 235 240 Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu 245 250 255 Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln 260 265 270 Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys 275 280 285 Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys 290 295 300 Lys Val Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg 305 310 315 320 Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile 325 330 335 Asp Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly 340 345 350 Ile Ala Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala 355 360 365 Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys 370 375 380 Lys Met Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys 385 390 395 400 Arg Ala Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu 405 410 415 Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala 420 425 430 Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln 435 440 445 Met Glu Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn 450 455 460 Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile 465 470 475 480 Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro 485 490 495 Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr 500 505 510 Phe Asn Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro His Phe Lys Cys 515 520 525 Glu Lys Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn Ala Ala Leu Asn 530 535 540 Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 16 <211> 557 <212> PRT <213> Artificial Sequence <220> <223> 28aa-extension dCas12f1(E450A) <400> 16 Met Ala Gly Gly Pro Gly Ala Gly Ser Ala Ala Pro Val Ser Ser Thr 1 5 10 15 Ser Ser Leu Pro Leu Ala Ala Leu Asn Met Arg Val Met Ala Lys Asn 20 25 30 Thr Ile Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser 35 40 45 Ala Glu Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys 50 55 60 Ile Ala Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys 65 70 75 80 His Leu Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala 85 90 95 Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys 100 105 110 Leu Arg Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu 115 120 125 Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser 130 135 140 Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala 145 150 155 160 Asn Ala Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg 165 170 175 Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser 180 185 190 Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser 195 200 205 Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys 210 215 220 Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser 225 230 235 240 Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu 245 250 255 Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln 260 265 270 Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys 275 280 285 Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys 290 295 300 Lys Val Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg 305 310 315 320 Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile 325 330 335 Asp Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly 340 345 350 Ile Asp Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala 355 360 365 Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys 370 375 380 Lys Met Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys 385 390 395 400 Arg Ala Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu 405 410 415 Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala 420 425 430 Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln 435 440 445 Met Ala Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn 450 455 460 Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile 465 470 475 480 Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro 485 490 495 Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr 500 505 510 Phe Asn Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro His Phe Lys Cys 515 520 525 Glu Lys Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn Ala Ala Leu Asn 530 535 540 Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 17 <211> 557 <212> PRT <213> Artificial Sequence <220> <223> 28aa-extension dCas12f1(R518A) <400> 17 Met Ala Gly Gly Pro Gly Ala Gly Ser Ala Ala Pro Val Ser Ser Thr 1 5 10 15 Ser Ser Leu Pro Leu Ala Ala Leu Asn Met Arg Val Met Ala Lys Asn 20 25 30 Thr Ile Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser 35 40 45 Ala Glu Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys 50 55 60 Ile Ala Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys 65 70 75 80 His Leu Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala 85 90 95 Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys 100 105 110 Leu Arg Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu 115 120 125 Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser 130 135 140 Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala 145 150 155 160 Asn Ala Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg 165 170 175 Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser 180 185 190 Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser 195 200 205 Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys 210 215 220 Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser 225 230 235 240 Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu 245 250 255 Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln 260 265 270 Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys 275 280 285 Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys 290 295 300 Lys Val Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg 305 310 315 320 Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile 325 330 335 Asp Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly 340 345 350 Ile Asp Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala 355 360 365 Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys 370 375 380 Lys Met Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys 385 390 395 400 Arg Ala Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu 405 410 415 Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala 420 425 430 Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln 435 440 445 Met Glu Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn 450 455 460 Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile 465 470 475 480 Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro 485 490 495 Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr 500 505 510 Phe Asn Phe Glu Tyr Ala Lys Lys Asn Lys Phe Pro His Phe Lys Cys 515 520 525 Glu Lys Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn Ala Ala Leu Asn 530 535 540 Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 18 <211> 557 <212> PRT <213> Artificial Sequence <220> <223> 28aa-extension dCas12f1(D538A) <400> 18 Met Ala Gly Gly Pro Gly Ala Gly Ser Ala Ala Pro Val Ser Ser Thr 1 5 10 15 Ser Ser Leu Pro Leu Ala Ala Leu Asn Met Arg Val Met Ala Lys Asn 20 25 30 Thr Ile Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser 35 40 45 Ala Glu Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys 50 55 60 Ile Ala Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys 65 70 75 80 His Leu Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala 85 90 95 Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys 100 105 110 Leu Arg Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu 115 120 125 Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser 130 135 140 Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala 145 150 155 160 Asn Ala Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg 165 170 175 Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser 180 185 190 Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser 195 200 205 Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys 210 215 220 Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser 225 230 235 240 Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu 245 250 255 Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln 260 265 270 Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys 275 280 285 Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys 290 295 300 Lys Val Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg 305 310 315 320 Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile 325 330 335 Asp Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly 340 345 350 Ile Asp Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala 355 360 365 Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys 370 375 380 Lys Met Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys 385 390 395 400 Arg Ala Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu 405 410 415 Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala 420 425 430 Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln 435 440 445 Met Glu Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn 450 455 460 Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile 465 470 475 480 Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro 485 490 495 Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr 500 505 510 Phe Asn Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro His Phe Lys Cys 515 520 525 Glu Lys Cys Asn Phe Lys Glu Asn Ala Ala Tyr Asn Ala Ala Leu Asn 530 535 540 Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 19 <211> 167 <212> PRT <213> Artificial Sequence <220> <223> Adenine deaminase Tad <400> 19 Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu 1 5 10 15 Thr Leu Ala Lys Arg Ala Trp Asp Glu Arg Glu Val Pro Val Gly Ala 20 25 30 Val Leu Val His Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Pro 35 40 45 Ile Gly Arg His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg 50 55 60 Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu 65 70 75 80 Tyr Val Thr Leu Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His 85 90 95 Ser Arg Ile Gly Arg Val Val Phe Gly Ala Arg Asp Ala Lys Thr Gly 100 105 110 Ala Ala Gly Ser Leu Met Asp Val Leu His His Pro Gly Met Asn His 115 120 125 Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu 130 135 140 Leu Ser Asp Phe Phe Arg Met Arg Arg Gln Glu Ile Lys Ala Gln Lys 145 150 155 160 Lys Ala Gln Ser Ser Thr Asp 165 <210> 20 <211> 167 <212> PRT <213> Artificial Sequence <220> <223> Adenine deaminase eTad <400> 20 Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu 1 5 10 15 Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg Glu Val Pro Val Gly Ala 20 25 30 Val Leu Val Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala 35 40 45 Ile Gly Leu His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg 50 55 60 Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu 65 70 75 80 Tyr Val Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His 85 90 95 Ser Arg Ile Gly Arg Val Val Phe Gly Val Arg Asn Ala Lys Thr Gly 100 105 110 Ala Ala Gly Ser Leu Met Asp Val Leu His Tyr Pro Gly Met Asn His 115 120 125 Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu 130 135 140 Leu Cys Tyr Phe Phe Arg Met Pro Arg Gln Val Phe Asn Ala Gln Lys 145 150 155 160 Lys Ala Gln Ser Ser Thr Asp 165 <210> 21 <211> 229 <212> PRT <213> Artificial Sequence <220> <223> cytidine deaminase APOBEC1 <400> 21 Met Ser Ser Glu Thr Gly Pro Val Ala Val Asp Pro Thr Leu Arg Arg 1 5 10 15 Arg Ile Glu Pro His Glu Phe Glu Val Phe Phe Asp Pro Arg Glu Leu 20 25 30 Arg Lys Glu Thr Cys Leu Leu Tyr Glu Ile Asn Trp Gly Gly Arg His 35 40 45 Ser Ile Trp Arg His Thr Ser Gln Asn Thr Asn Lys His Val Glu Val 50 55 60 Asn Phe Ile Glu Lys Phe Thr Thr Glu Arg Tyr Phe Cys Pro Asn Thr 65 70 75 80 Arg Cys Ser Ile Thr Trp Phe Leu Ser Trp Ser Pro Cys Gly Glu Cys 85 90 95 Ser Arg Ala Ile Thr Glu Phe Leu Ser Arg Tyr Pro His Val Thr Leu 100 105 110 Phe Ile Tyr Ile Ala Arg Leu Tyr His His Ala Asp Pro Arg Asn Arg 115 120 125 Gln Gly Leu Arg Asp Leu Ile Ser Ser Gly Val Thr Ile Gln Ile Met 130 135 140 Thr Glu Gln Glu Ser Gly Tyr Cys Trp Arg Asn Phe Val Asn Tyr Ser 145 150 155 160 Pro Ser Asn Glu Ala His Trp Pro Arg Tyr Pro His Leu Trp Val Arg 165 170 175 Leu Tyr Val Leu Glu Leu Tyr Cys Ile Ile Leu Gly Leu Pro Pro Cys 180 185 190 Leu Asn Ile Leu Arg Arg Lys Gln Pro Gln Leu Thr Phe Phe Thr Ile 195 200 205 Ala Leu Gln Ser Cys His Tyr Gln Arg Leu Pro Pro His Ile Leu Trp 210 215 220 Ala Thr Gly Leu Lys 225 <210> 22 <211> 199 <212> PRT <213> Artificial Sequence <220> <223> cytidine deaminase APOBEC3A <400> 22 Met Glu Ala Ser Pro Ala Ser Gly Pro Arg His Leu Met Asp Pro His 1 5 10 15 Ile Phe Thr Ser Asn Phe Asn Asn Gly Ile Gly Arg His Lys Thr Tyr 20 25 30 Leu Cys Tyr Glu Val Glu Arg Leu Asp Asn Gly Thr Ser Val Lys Met 35 40 45 Asp Gln His Arg Gly Phe Leu His Asn Gln Ala Lys Asn Leu Leu Cys 50 55 60 Gly Phe Tyr Gly Arg His Ala Glu Leu Arg Phe Leu Asp Leu Val Pro 65 70 75 80 Ser Leu Gln Leu Asp Pro Ala Gln Ile Tyr Arg Val Thr Trp Phe Ile 85 90 95 Ser Trp Ser Pro Cys Phe Ser Trp Gly Cys Ala Gly Glu Val Arg Ala 100 105 110 Phe Leu Gln Glu Asn Thr His Val Arg Leu Arg Ile Phe Ala Ala Arg 115 120 125 Ile Tyr Asp Tyr Asp Pro Leu Tyr Lys Glu Ala Leu Gln Met Leu Arg 130 135 140 Asp Ala Gly Ala Gln Val Ser Ile Met Thr Tyr Asp Glu Phe Lys His 145 150 155 160 Cys Trp Asp Thr Phe Val Asp His Gln Gly Cys Pro Phe Gln Pro Trp 165 170 175 Asp Gly Leu Asp Glu His Ser Gln Ala Leu Ser Gly Arg Leu Arg Ala 180 185 190 Ile Leu Gln Asn Gln Gly Asn 195 <210> 23 <211> 382 <212> PRT <213> Artificial Sequence <220> <223> cytidine deaminase APOBEC3B <400> 23 Met Asn Pro Gln Ile Arg Asn Pro Met Glu Arg Met Tyr Arg Asp Thr 1 5 10 15 Phe Tyr Asp Asn Phe Glu Asn Glu Pro Ile Leu Tyr Gly Arg Ser Tyr 20 25 30 Thr Trp Leu Cys Tyr Glu Val Lys Ile Lys Arg Gly Arg Ser Asn Leu 35 40 45 Leu Trp Asp Thr Gly Val Phe Arg Gly Gln Val Tyr Phe Lys Pro Gln 50 55 60 Tyr His Ala Glu Met Cys Phe Leu Ser Trp Phe Cys Gly Asn Gln Leu 65 70 75 80 Pro Ala Tyr Lys Cys Phe Gln Ile Thr Trp Phe Val Ser Trp Thr Pro 85 90 95 Cys Pro Asp Cys Val Ala Lys Leu Ala Glu Phe Leu Ser Glu His Pro 100 105 110 Asn Val Thr Leu Thr Ile Ser Ala Ala Arg Leu Tyr Tyr Tyr Trp Glu 115 120 125 Arg Asp Tyr Arg Arg Ala Leu Cys Arg Leu Ser Gln Ala Gly Ala Arg 130 135 140 Val Lys Ile Met Asp Tyr Glu Glu Phe Ala Tyr Cys Trp Glu Asn Phe 145 150 155 160 Val Tyr Asn Glu Gly Gln Gln Phe Met Pro Trp Tyr Lys Phe Asp Glu 165 170 175 Asn Tyr Ala Phe Leu His Arg Thr Leu Lys Glu Ile Leu Arg Tyr Leu 180 185 190 Met Asp Pro Asp Thr Phe Thr Phe Asn Phe Asn Asn Asp Pro Leu Val 195 200 205 Leu Arg Arg Arg Gln Thr Tyr Leu Cys Tyr Glu Val Glu Arg Leu Asp 210 215 220 Asn Gly Thr Trp Val Leu Met Asp Gln His Met Gly Phe Leu Cys Asn 225 230 235 240 Glu Ala Lys Asn Leu Leu Cys Gly Phe Tyr Gly Arg His Ala Glu Leu 245 250 255 Arg Phe Leu Asp Leu Val Pro Ser Leu Gln Leu Asp Pro Ala Gln Ile 260 265 270 Tyr Arg Val Thr Trp Phe Ile Ser Trp Ser Pro Cys Phe Ser Trp Gly 275 280 285 Cys Ala Gly Glu Val Arg Ala Phe Leu Gln Glu Asn Thr His Val Arg 290 295 300 Leu Arg Ile Phe Ala Ala Arg Ile Tyr Asp Tyr Asp Pro Leu Tyr Lys 305 310 315 320 Glu Ala Leu Gln Met Leu Arg Asp Ala Gly Ala Gln Val Ser Ile Met 325 330 335 Thr Tyr Asp Glu Phe Glu Tyr Cys Trp Asp Thr Phe Val Tyr Arg Gln 340 345 350 Gly Cys Pro Ser Gln Pro Trp Asp Gly Leu Glu Glu His Ser Gln Ala 355 360 365 Leu Ser Gly Arg Leu Arg Ala Ile Leu Gln Asn Gln Gly Asn 370 375 380 <210> 24 <211> 21 <212> RNA <213> Artificial Sequence <220> <223> The first region of tracrRNA for Cas12f1 gRNA <400> 24 cuucacugau aaaguggaga a 21 <210> 25 <211> 50 <212> RNA <213> Artificial Sequence <220> <223> The second region of tracrRNA for Cas12f1 gRNA <400> 25 ccgcuucacc aaaagcuguc ccuuagggga uuagaacuug agugaaggug 50 <210> 26 <211> 58 <212> RNA <213> Artificial Sequence <220> <223> The third region of tracrRNA for Cas12f1 gRNA <400> 26 ggcugcuugc aucagccuaa ugucgagaag ugcuuucuuc ggaaaguaac ccucgaaa 58 <210> 27 <211> 32 <212> RNA <213> Artificial Sequence <220> <223> The fourth region of tracrRNA for Cas12f1 gRNA <400> 27 caaauucann nvnccucucc aauucugcac aa 32 <210> 28 <211> 13 <212> RNA <213> Artificial Sequence <220> <223> The fourth region of tracrRNA for Cas12f1 gRNA <400> 28 caaauucann nvn 13 <210> 29 <211> 13 <212> RNA <213> Artificial Sequence <220> <223> The fourth region of tracrRNA for Cas12f1 gRNA <400> 29 caaauucann ncn 13 <210> 30 <211> 37 <212> RNA <213> Artificial Sequence <220> <223> crRNA for Cas12f1 gRNA <400> 30 guugcagaac ccgaauagac gaaugaagga augcaac 37 <210> 31 <211> 30 <212> RNA <213> Artificial Sequence <220> <223> The fifth region for Cas12f1 gRNA <400> 31 guugcagaac ccgaauagnb nnnugaagga 30 <210> 32 <211> 12 <212> RNA <213> Artificial Sequence <220> <223> The fifth region for Cas12f1 gRNA <400> 32 nbnnnugaag ga 12 <210> 33 <211> 7 <212> RNA <213> Artificial Sequence <220> <223> The sixth region for Cas12f1 gRNA <400> 33 augcaac 7 <210> 34 <211> 161 <212> RNA <213> Artificial Sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 34 cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60 gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120 cccucgaaac aaauucannn cnccucucca auucugcaca a 161 <210> 35 <211> 141 <212> RNA <213> Artificial Sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 35 accgcuucac caaaagcugu cccuuagggg auuagaacuu gagugaaggu gggcugcuug 60 caucagccua augucgagaa gugcuuucuu cggaaaguaa cccucgaaac aaauucannn 120 cnccucucca auucugcaca a 141 <210> 36 <211> 135 <212> RNA <213> Artificial Sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 36 cuucacugau aaaguggaga accgcuucac cuuagaguga aggugggcug cuugcaucag 60 ccuaaugucg agaagugcuu ucuucggaaa guaacccucg aaacaaauuc annncnccuc 120 uccaauucug cacaa 135 <210> 37 <211> 115 <212> RNA <213> Artificial Sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 37 accgcuucac cuuagaguga aggugggcug cuugcaucag ccuaaugucg agaagugcuu 60 ucuucggaaa guaacccucg aaacaaauuc annncnccuc uccaauucug cacaa 115 <210> 38 <211> 37 <212> RNA <213> Artificial Sequence <220> <223> engineered crRNA for Cas12f1 gRNA <400> 38 guugcagaac ccgaauagng nnnugaagga augcaac 37 <210> 39 <211> 161 <212> RNA <213> Artificial Sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 39 cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60 gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120 cccucgaaac aaauucagug cuccucucca auucugcaca a 161 <210> 40 <211> 141 <212> RNA <213> Artificial Sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 40 accgcuucac caaaagcugu cccuuagggg auuagaacuu gagugaaggu gggcugcuug 60 caucagccua augucgagaa gugcuuucuu cggaaaguaa cccucgaaac aaauucagug 120 cuccucucca auucugcaca a 141 <210> 41 <211> 134 <212> RNA <213> Artificial Sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 41 cuucacugau aaaguggaga accgcuucac uuagagugaa ggugggcugc uugcaucagc 60 cuaaugucga gaagugcuuu cuucggaaag uaacccucga aacaaauuca gugcuccucu 120 ccaauucugc acaa 134 <210> 42 <211> 114 <212> RNA <213> Artificial Sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 42 accgcuucac uuagagugaa ggugggcugc uugcaucagc cuaaugucga gaagugcuuu 60 cuucggaaag uaacccucga aacaaauuca gugcuccucu ccaauucugc acaa 114 <210> 43 <211> 37 <212> RNA <213> Artificial Sequence <220> <223> engineered crRNA for Cas12f1 gRNA <400> 43 guugcagaac ccgaauagag caaugaagga augcaac 37 <210> 44 <211> 148 <212> RNA <213> Artificial Sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 44 cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60 gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120 cccucgaaac aaauucannn cnccucuc 148 <210> 45 <211> 128 <212> RNA <213> Artificial Sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 45 accgcuucac caaaagcugu cccuuagggg auuagaacuu gagugaaggu gggcugcuug 60 caucagccua augucgagaa gugcuuucuu cggaaaguaa cccucgaaac aaauucannn 120 cnccucuc 128 <210> 46 <211> 127 <212> RNA <213> Artificial Sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 46 cuucacugau aaaguggaga accgcuucac caauuaguug agugaaggug ggcugcuugc 60 aucagccuaa ugucgagaag ugcuuucuuc ggaaaguaac ccucgaaaca aauucannnc 120 nccucuc 127 <210> 47 <211> 101 <212> RNA <213> Artificial Sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 47 accgcuucac uuagagugaa ggugggcugc uugcaucagc cuaaugucga gaagugcuuu 60 cuucggaaag uaacccucga aacaaauuca nnncnccucu c 101 <210> 48 <211> 25 <212> RNA <213> Artificial Sequence <220> <223> engineered crRNA for Cas12f1 gRNA <400> 48 gaauagngnn nugaaggaau gcaac 25 <210> 49 <211> 147 <212> RNA <213> Artificial Sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 49 cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60 gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120 cccucgaaac aaauucgugc uccucuc 147 <210> 50 <211> 128 <212> RNA <213> Artificial Sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 50 accgcuucac caaaagcugu cccuuagggg auuagaacuu gagugaaggu gggcugcuug 60 caucagccua augucgagaa gugcuuucuu cggaaaguaa cccucgaaac aaauucagug 120 cuccucuc 128 <210> 51 <211> 127 <212> RNA <213> Artificial Sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 51 cuucacugau aaaguggaga accgcuucac caauuaguug agugaaggug ggcugcuugc 60 aucagccuaa ugucgagaag ugcuuucuuc ggaaaguaac ccucgaaaca aauucagugc 120 uccucuc 127 <210> 52 <211> 107 <212> RNA <213> Artificial Sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 52 accgcuucac caauuaguug agugaaggug ggcugcuugc aucagccuaa ugucgagaag 60 ugcuuucuuc ggaaaguaac ccucgaaaca aauucagugc uccucuc 107 <210> 53 <211> 25 <212> RNA <213> Artificial Sequence <220> <223> engineered crRNA for Cas12f1 gRNA <400> 53 gaauagagca augaaggaau gcaac 25 <210> 54 <211> 222 <212> RNA <213> Artificial Sequence <220> <223> Canonical sgRNA for Cas12f1 <400> 54 cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60 gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120 cccucgaaac aaauucauuu uuccucucca auucugcaca agaaaguugc agaacccgaa 180 uagacgaaug aaggaaugca acnnnnnnnn nnnnnnnnnn nn 222 <210> 55 <211> 222 <212> RNA <213> Artificial Sequence <220> <223> Engineered sgRNA with modification of MS1 for Cas12f1 <400> 55 cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60 gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120 cccucgaaac aaauucagug cuccucucca auucugcaca agaaaguugc agaacccgaa 180 uagagcaaug aaggaaugca acnnnnnnnn nnnnnnnnnn nn 222 <210> 56 <211> 233 <212> RNA <213> Artificial Sequence <220> <223> Engineered sgRNA with modification of MS1/MS2 for Cas12f1 <400> 56 cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60 gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120 cccucgaaac aaauucagug cuccucucca auucugcaca agaaaguugc agaacccgaa 180 uagagcaaug aaggaaugca acnnnnnnnn nnnnnnnnnn nnuuuuauuu uuu 233 <210> 57 <211> 213 <212> RNA <213> Artificial Sequence <220> <223> Engineered sgRNA with modification of MS1/MS2/MS3 for Cas12f1 <400> 57 accgcuucac caaaagcugu cccuuagggg auuagaacuu gagugaaggu gggcugcuug 60 caucagccua augucgagaa gugcuuucuu cggaaaguaa cccucgaaac aaauucagug 120 cuccucucca auucugcaca agaaaguugc agaacccgaa uagagcaaug aaggaaugca 180 acnnnnnnnn nnnnnnnnnn nnuuuuauuu uuu 213 <210> 58 <211> 158 <212> RNA <213> Artificial Sequence <220> <223> Engineered sgRNA with modification of MS2/MS3/MS4 for Cas12f1 <400> 58 accgcuucac caaaagcugu cccuuagggg auuagaacuu gagugaaggu gggcugcuug 60 caucagccua augucgagaa gugcuuucuu cggaaaguaa cccucgaaac aaagaaagga 120 augcaacnnn nnnnnnnnnn nnnnnnnuuu uauuuuuu 158 <210> 59 <211> 131 <212> RNA <213> Artificial Sequence <220> <223> Engineered sgRNA with modification of MS2/MS3/MS4/MS5 for Cas12f1 <400> 59 accgcuucac uuagagugaa ggugggcugc uugcaucagc cuaaugucga gaagugcuuu 60 cuucggaaag uaacccucga aacaaagaaa ggaaugcaac nnnnnnnnnn nnnnnnnnnn 120 uuuuauuuuu u 131 <210> 60 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> NLS Sequence <400> 60 ccaaagaaga agcggaaggt c 21 <210> 61 <211> 48 <212> DNA <213> Artificial Sequence <220> <223> NLS Sequence <400> 61 aaaaggccgg cggccacgaa aaaggccggc caggcaaaaa agaaaaag 48 <210> 62 <211> 32 <212> PRT <213> Artificial Sequence <220> <223> Linker <400> 62 Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr 1 5 10 15 Ser Glu Ser Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly Gly Ser 20 25 30 <210> 63 <211> 14 <212> PRT <213> Artificial Sequence <220> <223> Linker <400> 63 Ser Gly Gly Ser Lys Arg Thr Ala Asp Gly Ser Glu Phe Glu 1 5 10 <210> 64 <211> 13 <212> PRT <213> Artificial Sequence <220> <223> Linker <400> 64 Glu Ala Ser Ser Pro Lys Lys Arg Lys Val Glu Ala Ser 1 5 10 <210> 65 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> NLS <400> 65 Pro Lys Lys Lys Arg Lys Val 1 5 <210> 66 <211> 16 <212> PRT <213> Artificial Sequence <220> <223> NLS <400> 66 Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys Lys Lys Lys 1 5 10 15 <210> 67 <211> 9 <212> PRT <213> Artificial Sequence <220> <223> NLS <400> 67 Pro Ala Ala Lys Arg Val Lys Leu Asp 1 5 <210> 68 <211> 11 <212> PRT <213> Artificial Sequence <220> <223> NLS <400> 68 Arg Gln Arg Arg Asn Glu Leu Lys Arg Ser Pro 1 5 10 <210> 69 <211> 161 <212> RNA <213> Artificial Sequence <220> <223> tracrRNA for Cas12f1 gRNA <400> 69 cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60 gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120 cccucgaaac aaauucauuu uuccucucca auucugcaca a 161 <210> 70 <211> 140 <212> RNA <213> Artificial Sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 70 cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60 gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120 cccucgaaac aaauucauuu 140 <210> 71 <211> 161 <212> RNA <213> Artificial Sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 71 cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60 gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120 cccucgaaac aaauucannn nnccucucca auucugcaca a 161 <210> 72 <211> 17 <212> RNA <213> Artificial Sequence <220> <223> engineered crRNA for Cas12f1 gRNA <400> 72 gaaugaagga augcaac 17 <210> 73 <211> 10 <212> RNA <213> Artificial Sequence <220> <223> engineered crRNA for Cas12f1 gRNA <400> 73 ggaaugcaac 10 <210> 74 <211> 32 <212> RNA <213> Artificial Sequence <220> <223> The fourth region of tracrRNA for Cas12f1 gRNA <400> 74 caaauucauu uuuccucucc aauucugcac aa 32 <210> 75 <211> 30 <212> RNA <213> Artificial Sequence <220> <223> The fifth region for Cas12f1 gRNA <400> 75 guugcagaac ccgaauagac gaaugaagga 30 <210> 76 <211> 10 <212> RNA <213> Artificial Sequence <220> <223> The fifth region for Cas12f1 gRNA <400> 76 gaaugaagga 10 <210> 77 <211> 7 <212> RNA <213> Artificial Sequence <220> <223> U-rich tail <400> 77 uuuruuu 7 <210> 78 <211> 11 <212> RNA <213> Artificial Sequence <220> <223> U-rich tail <400> 78 uuuruuuruu u 11 <210> 79 <211> 6 <212> RNA <213> Artificial Sequence <220> <223> U-rich tail <400> 79 uuuuru 6 <210> 80 <211> 7 <212> RNA <213> Artificial Sequence <220> <223> U-rich tail <400> 80 uuuuruu 7 <210> 81 <211> 8 <212> RNA <213> Artificial Sequence <220> <223> U-rich tail <400> 81 uuuuruuu 8 <210> 82 <211> 9 <212> RNA <213> Artificial Sequence <220> <223> U-rich tail <400> 82 uuuuruuuu 9 <210> 83 <211> 10 <212> RNA <213> Artificial Sequence <220> <223> U-rich tail <400> 83 uuuuruuuuu 10 <210> 84 <211> 11 <212> RNA <213> Artificial Sequence <220> <223> U-rich tail <400> 84 uuuuruuuuu u 11 <210> 85 <211> 7 <212> RNA <213> Artificial Sequence <220> <223> U-rich tail <400> 85 uuuauuu 7 <210> 86 <211> 11 <212> RNA <213> Artificial Sequence <220> <223> U-rich tail <400> 86 uuuauuuauu u 11 <210> 87 <211> 6 <212> RNA <213> Artificial Sequence <220> <223> U-rich tail <400> 87 uuuuau 6 <210> 88 <211> 7 <212> RNA <213> Artificial Sequence <220> <223> U-rich tail <400> 88 uuuuauu 7 <210> 89 <211> 8 <212> RNA <213> Artificial Sequence <220> <223> U-rich tail <400> 89 uuuuauuu 8 <210> 90 <211> 9 <212> RNA <213> Artificial Sequence <220> <223> U-rich tail <400> 90 uuuuauuuu 9 <210> 91 <211> 10 <212> RNA <213> Artificial Sequence <220> <223> U-rich tail <400> 91 uuuuauuuuu 10 <210> 92 <211> 11 <212> RNA <213> Artificial Sequence <220> <223> U-rich tail <400> 92 uuuuauuuuu u 11 <210> 93 <211> 7 <212> RNA <213> Artificial Sequence <220> <223> U-rich tail <400> 93 uuuguuu 7 <210> 94 <211> 11 <212> RNA <213> Artificial Sequence <220> <223> U-rich tail <400> 94 uuuguuuguu u 11 <210> 95 <211> 6 <212> RNA <213> Artificial Sequence <220> <223> U-rich tail <400> 95 uuuugu 6 <210> 96 <211> 7 <212> RNA <213> Artificial Sequence <220> <223> U-rich tail <400> 96 uuuuguu 7 <210> 97 <211> 8 <212> RNA <213> Artificial Sequence <220> <223> U-rich tail <400> 97 uuuuguuu 8 <210> 98 <211> 9 <212> RNA <213> Artificial Sequence <220> <223> U-rich tail <400> 98 uuuuguuuu 9 <210> 99 <211> 10 <212> RNA <213> Artificial Sequence <220> <223> U-rich tail <400> 99 uuuuguuuuu 10 <210> 100 <211> 11 <212> RNA <213> Artificial Sequence <220> <223> U-rich tail <400> 100 uuuuguuuuu u 11 <210> 101 <211> 6 <212> RNA <213> Artificial Sequence <220> <223> U-rich tail <400> 101 uuuuuu 6 <210> 102 <211> 110 <212> RNA <213> Artificial Sequence <220> <223> Engineered Cas12f1 gRNA <400> 102 cuucacugau aaaguggaga agcugcuugc aucagccuaa ugucgagaag ugcuuucuuc 60 ggaaaguaac ccucgaaaca aauucauuug aaagaaugaa ggaaugcaac 110 <210> 103 <211> 26 <212> RNA <213> Artificial Sequence <220> <223> The third region of tracrRNA for Cas12f1 gRNA <400> 103 gcugcuugca ucagccuaau gucgag 26 <210> 104 <211> 10 <212> RNA <213> Artificial Sequence <220> <223> The fourth region of tracrRNA for Cas12f1 gRNA <400> 104 aacaaauuca 10 <210> 105 <211> 11 <212> RNA <213> Artificial Sequence <220> <223> The fourth region of tracrRNA for Cas12f1 gRNA <400> 105 aacaaauuca u 11 <210> 106 <211> 12 <212> RNA <213> Artificial Sequence <220> <223> The fourth region of tracrRNA for Cas12f1 gRNA <400> 106 aacaaauuca uu 12 <210> 107 <211> 10 <212> RNA <213> Artificial Sequence <220> <223> The additional sequence for Cas12f1 gRNA <400> 107 auaaagguga 10 <210> 108 <211> 37 <212> RNA <213> Artificial Sequence <220> <223> The additional sequence for Cas12f1 gRNA <400> 108 cugaugaguc cgugaggacg aaacgaguaa gcucguc 37 <210> 109 <211> 37 <212> RNA <213> Artificial Sequence <220> <223> The additional sequence for Cas12f1 gRNA <400> 109 cugcucgaau gagcaaagca ggagugccug aguaguc 37 <210> 110 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-1 sequence <400> 110 tttgcacaca cacagtgggc tacc 24 <210> 111 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-2 sequence <400> 111 tttgcatccc caggacacac acac 24 <210> 112 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-3 sequence <400> 112 tttacaaaga cactcaccct gttg 24 <210> 113 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-4 sequence <400> 113 tttaaagaaa gctacaggaa agca 24 <210> 114 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-5 sequence <400> 114 tttacaaaac ccaactgatt cacc 24 <210> 115 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-6 sequence <400> 115 tttacaaaag ctaccacaca tagc 24 <210> 116 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-7 sequence <400> 116 tttacaaaac tgtggccaat acag 24 <210> 117 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-8 sequence <400> 117 tttggaaaac tgcaggcaag attc 24 <210> 118 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-9 sequence <400> 118 tttgcaaaac tgtacacgtg ggcc 24 <210> 119 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-10 sequence <400> 119 tttgcaaaac gtgcacaatg tgca 24 <210> 120 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-11 sequence <400> 120 tttaccccca caggattgta ataa 24 <210> 121 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-12 sequence <400> 121 tttaggccaa gtgcgaagtc agag 24 <210> 122 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-13 sequence <400> 122 tttactagga cactcaccct gttg 24 <210> 123 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-14 sequence <400> 123 tttgctagca cacagtgggc agag 24 <210> 124 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-15 sequence <400> 124 tttactagga cactcaccct ggag 24 <210> 125 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-16 sequence <400> 125 tttactagtc ggccattcag agag 24 <210> 126 <211> 167 <212> PRT <213> Artificial Sequence <220> <223> TadA <400> 126 Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu 1 5 10 15 Thr Leu Ala Lys Arg Ala Trp Asp Glu Arg Glu Val Pro Val Gly Ala 20 25 30 Val Leu Val His Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Pro 35 40 45 Ile Gly Arg His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg 50 55 60 Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu 65 70 75 80 Tyr Val Thr Leu Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His 85 90 95 Ser Arg Ile Gly Arg Val Val Phe Gly Ala Arg Asp Ala Lys Thr Gly 100 105 110 Ala Ala Gly Ser Leu Met Asp Val Leu His His Pro Gly Met Asn His 115 120 125 Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu 130 135 140 Leu Ser Asp Phe Phe Arg Met Arg Arg Gln Glu Ile Lys Ala Gln Lys 145 150 155 160 Lys Ala Gln Ser Ser Thr Asp 165 <210> 127 <211> 167 <212> PRT <213> Artificial Sequence <220> <223> eTadA1 <400> 127 Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu 1 5 10 15 Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg Glu Val Pro Val Gly Ala 20 25 30 Val Leu Val Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala 35 40 45 Ile Gly Leu His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg 50 55 60 Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu 65 70 75 80 Tyr Val Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His 85 90 95 Ser Arg Ile Gly Arg Val Val Phe Gly Val Arg Asn Ala Lys Thr Gly 100 105 110 Ala Ala Gly Ser Leu Met Asp Val Leu His Tyr Pro Gly Met Asn His 115 120 125 Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu 130 135 140 Leu Cys Tyr Phe Phe Arg Met Pro Arg Gln Val Phe Asn Ala Gln Lys 145 150 155 160 Lys Ala Gln Ser Ser Thr Asp 165 <210> 128 <211> 167 <212> PRT <213> Artificial Sequence <220> <223> dTadA(E59A) <400> 128 Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu 1 5 10 15 Thr Leu Ala Lys Arg Ala Trp Asp Glu Arg Glu Val Pro Val Gly Ala 20 25 30 Val Leu Val His Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Pro 35 40 45 Ile Gly Arg His Asp Pro Thr Ala His Ala Ala Ile Met Ala Leu Arg 50 55 60 Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu 65 70 75 80 Tyr Val Thr Leu Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His 85 90 95 Ser Arg Ile Gly Arg Val Val Phe Gly Ala Arg Asp Ala Lys Thr Gly 100 105 110 Ala Ala Gly Ser Leu Met Asp Val Leu His His Pro Gly Met Asn His 115 120 125 Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu 130 135 140 Leu Ser Asp Phe Phe Arg Met Arg Arg Gln Glu Ile Lys Ala Gln Lys 145 150 155 160 Lys Ala Gln Ser Ser Thr Asp 165 <210> 129 <211> 167 <212> PRT <213> Artificial Sequence <220> <223> deTadA1(E59A) <400> 129 Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu 1 5 10 15 Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg Glu Val Pro Val Gly Ala 20 25 30 Val Leu Val Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala 35 40 45 Ile Gly Leu His Asp Pro Thr Ala His Ala Ala Ile Met Ala Leu Arg 50 55 60 Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu 65 70 75 80 Tyr Val Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His 85 90 95 Ser Arg Ile Gly Arg Val Val Phe Gly Val Arg Asn Ala Lys Thr Gly 100 105 110 Ala Ala Gly Ser Leu Met Asp Val Leu His Tyr Pro Gly Met Asn His 115 120 125 Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu 130 135 140 Leu Cys Tyr Phe Phe Arg Met Pro Arg Gln Val Phe Asn Ala Gln Lys 145 150 155 160 Lys Ala Gln Ser Ser Thr Asp 165 <210> 130 <211> 167 <212> PRT <213> Artificial Sequence <220> <223> eTadA2 <400> 130 Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu 1 5 10 15 Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg Glu Val Pro Val Gly Ala 20 25 30 Val Leu Val Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala 35 40 45 Ile Gly Leu His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg 50 55 60 Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu 65 70 75 80 Tyr Val Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His 85 90 95 Ser Arg Ile Gly Arg Val Val Phe Gly Trp Arg Asn Ser Lys Arg Gly 100 105 110 Ala Ala Gly Ser Leu Met Asn Val Leu Asn Tyr Pro Gly Met Asn His 115 120 125 Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu 130 135 140 Leu Cys Asp Phe Tyr Arg Met Pro Arg Gln Val Phe Asn Ala Gln Lys 145 150 155 160 Lys Ala Gln Ser Ser Ile Asn 165 <210> 131 <211> 167 <212> PRT <213> Artificial Sequence <220> <223> eTadA3 <400> 131 Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu 1 5 10 15 Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg Glu Val Pro Val Gly Ala 20 25 30 Val Leu Val Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala 35 40 45 Ile Gly Leu His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg 50 55 60 Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu 65 70 75 80 Tyr Val Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His 85 90 95 Ser Arg Ile Gly Arg Val Val Phe Gly Trp Arg Gln Ser Lys Arg Gly 100 105 110 Ala Ala Gly Ser Leu Met Asn Val Leu Asn Tyr Pro Gly Met Asn His 115 120 125 Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu 130 135 140 Leu Cys Asp Phe Tyr Arg Met Pro Arg Gln Val Phe Asn Ala Gln Lys 145 150 155 160 Lys Ala Gln Ser Ser Ile Asn 165 <210> 132 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> Linker <400> 132 Gly Gly Gly Gly Ser 1 5 <210> 133 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> Linker <400> 133 Glu Ala Ala Ala Lys 1 5 <210> 134 <211> 16 <212> PRT <213> Artificial Sequence <220> <223> Linker <400> 134 Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser 1 5 10 15 <210> 135 <211> 4 <212> PRT <213> Artificial Sequence <220> <223> Linker <400> 135 Ser Gly Gly Ser 1 <210> 136 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Linker <400> 136 ggtatccacg gagtcccagc agcc 24 <210> 137 <211> 167 <212> PRT <213> Artificial Sequence <220> <223> eTadA7 <400> 137 Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu 1 5 10 15 Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg Glu Val Pro Val Gly Ala 20 25 30 Val Leu Val Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala 35 40 45 Ile Gly Leu His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg 50 55 60 Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu 65 70 75 80 Tyr Val Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His 85 90 95 Ser Arg Ile Gly Arg Val Val Phe Gly Val Arg Asn Ser Lys Arg Gly 100 105 110 Ala Ala Gly Ser Leu Met Asn Val Leu Asn Tyr Pro Gly Met Asn His 115 120 125 Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu 130 135 140 Leu Cys Asp Phe Tyr Arg Met Pro Arg Gln Val Phe Asn Ala Gln Lys 145 150 155 160 Lys Ala Gln Ser Ser Ile Asn 165 <210> 138 <211> 167 <212> PRT <213> Artificial Sequence <220> <223> eTadA8 <400> 138 Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu 1 5 10 15 Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg Glu Val Pro Val Gly Ala 20 25 30 Val Leu Val Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala 35 40 45 Ile Gly Leu His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg 50 55 60 Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu 65 70 75 80 Tyr Val Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His 85 90 95 Ser Arg Ile Gly Arg Val Val Phe Gly Trp Arg Asn Ala Lys Thr Gly 100 105 110 Ala Ala Gly Ser Leu Met Asp Val Leu His Tyr Pro Gly Met Asn His 115 120 125 Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu 130 135 140 Leu Cys Tyr Phe Phe Arg Met Pro Arg Gln Val Phe Asn Ala Gln Lys 145 150 155 160 Lys Ala Gln Ser Ser Thr Asp 165 <210> 139 <211> 167 <212> PRT <213> Artificial Sequence <220> <223> eTadA9 <400> 139 Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu 1 5 10 15 Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg Glu Val Pro Val Gly Ala 20 25 30 Val Leu Val Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala 35 40 45 Ile Gly Leu His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg 50 55 60 Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu 65 70 75 80 Tyr Val Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His 85 90 95 Ser Arg Ile Gly Arg Val Val Phe Gly Trp Arg Gln Ala Lys Thr Gly 100 105 110 Ala Ala Gly Ser Leu Met Asp Val Leu His Tyr Pro Gly Met Asn His 115 120 125 Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu 130 135 140 Leu Cys Tyr Phe Phe Arg Met Pro Arg Gln Val Phe Asn Ala Gln Lys 145 150 155 160 Lys Ala Gln Ser Ser Thr Asp 165 <210> 140 <211> 167 <212> PRT <213> Artificial Sequence <220> <223> eTadA10 <400> 140 Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu 1 5 10 15 Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg Glu Val Pro Val Gly Ala 20 25 30 Val Leu Val Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala 35 40 45 Ile Gly Leu His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg 50 55 60 Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Tyr Asp Ala Thr Leu 65 70 75 80 Tyr Ser Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His 85 90 95 Ser Arg Ile Gly Arg Val Val Phe Gly Val Arg Asn Ala Lys Thr Gly 100 105 110 Ala Ala Gly Ser Leu Met Asp Val Leu His His Pro Gly Met Asn His 115 120 125 Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu 130 135 140 Leu Cys Arg Phe Phe Arg Met Pro Arg Arg Val Phe Asn Ala Gln Lys 145 150 155 160 Lys Ala Gln Ser Ser Thr Asp 165 <210> 141 <211> 167 <212> PRT <213> Artificial Sequence <220> <223> eTadA11 <400> 141 Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu 1 5 10 15 Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg Glu Val Pro Val Gly Ala 20 25 30 Val Leu Val Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala 35 40 45 Ile Gly Leu His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg 50 55 60 Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu 65 70 75 80 Tyr Val Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His 85 90 95 Ser Arg Ile Gly Arg Val Val Phe Gly Trp Arg Asn Ala Lys Thr Gly 100 105 110 Ala Ala Gly Ser Leu Met Asp Val Leu His Tyr Pro Gly Met Asn His 115 120 125 Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu 130 135 140 Leu Cys Tyr Phe Phe Arg Met Pro Arg Gln Val Phe Asn Ala Gln Lys 145 150 155 160 Lys Ala Gln Ser Ser Thr Asp 165 <210> 142 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-17 sequence <400> 142 tttagcagtc ggaatggcgg atgg 24 <210> 143 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-18 sequence <400> 143 tttaagaaca catacccctg ggcc 24 <210> 144 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-19 sequence <400> 144 tttgcagtgt gtgcaggaac ggag 24 <210> 145 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-20 sequence <400> 145 tttaatacag aaatcctaaa tggt 24 <210> 146 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-21 sequence <400> 146 tttaaagaaa gctacaggaa agca 24 <210> 147 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-22 sequence <400> 147 tttaaataag tcttaccacg tgtc 24 <210> 148 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-23 sequence <400> 148 tttaacaaag aaaccagcag tggc 24 <210> 149 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-24 sequence <400> 149 tttaacaagt tcagaatcac ctta 24 <210> 150 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-25 sequence <400> 150 tttaaggact atgtgtggcc agtg 24 <210> 151 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-26 sequence <400> 151 tttacaaaga aatgtactgc ctta 24 <210> 152 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-27 sequence <400> 152 tttacaacag cctcaccagg aaca 24 <210> 153 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-28 sequence <400> 153 tttacacaag ggatctgaga cttg 24 <210> 154 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-29 sequence <400> 154 tttacacata ggccattcag aaac 24 <210> 155 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-30 sequence <400> 155 tttacagagt cccgggaaca agcc 24 <210> 156 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-31 sequence <400> 156 tttacataca gggctctgta ccca 24 <210> 157 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-32 sequence <400> 157 tttactgaga tttgcgaaga gtta 24 <210> 158 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-33 sequence <400> 158 tttacttagt agtctcagaa ccaa 24 <210> 159 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-34 sequence <400> 159 tttagaaata tgactggaag taaa 24 <210> 160 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-35 sequence <400> 160 tttagagaga ccgctcaggc tgga 24 <210> 161 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-36 sequence <400> 161 tttagcagta cacctgaggg aaca 24 <210> 162 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-37 sequence <400> 162 tttagcatta aggccagcgc tggg 24 <210> 163 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-38 sequence <400> 163 tttagccatg gtgaaggtga aatc 24 <210> 164 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-39 sequence <400> 164 tttaggcaag ggtcttgatg catc 24 <210> 165 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-40 sequence <400> 165 tttagtaggc tgctgttgga caga 24 <210> 166 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-41 sequence <400> 166 tttagtcaaa taaagaaaaa tacg 24 <210> 167 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Target-42 sequence <400> 167 tttaagagca gcgattgtaa ggag 24 <210> 168 <211> 555 <212> PRT <213> Artificial Sequence <220> <223> CasX-Cas12f1(D352A) <400> 168 Met Glu Lys Arg Ile Asn Lys Ile Arg Lys Lys Leu Ser Ala Asp Asn 1 5 10 15 Ala Thr Lys Pro Val Ser Arg Ser Gly Pro Met Ala Lys Asn Thr Ile 20 25 30 Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser Ala Glu 35 40 45 Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys Ile Ala 50 55 60 Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys His Leu 65 70 75 80 Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala Cys Leu 85 90 95 Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys Leu Arg 100 105 110 Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu Ile Phe 115 120 125 Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser Leu Ile 130 135 140 Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala Asn Ala 145 150 155 160 Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg Ala Ala 165 170 175 Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser Lys Ile 180 185 190 Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser Gly Leu 195 200 205 Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys Gln Lys 210 215 220 Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser Asp Phe 225 230 235 240 Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu Ile Asp 245 250 255 Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln Lys Ser 260 265 270 Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys Arg Asn 275 280 285 Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys Lys Val 290 295 300 Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg Gly Ser 305 310 315 320 Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile Asp Val 325 330 335 Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly Ile Ala 340 345 350 Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala Phe Ser 355 360 365 Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys Lys Met 370 375 380 Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys Arg Ala 385 390 395 400 Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu Thr Glu 405 410 415 Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala Cys Glu 420 425 430 Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln Met Glu 435 440 445 Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn Ile Arg 450 455 460 Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile Glu Phe 465 470 475 480 Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro Asn Asn 485 490 495 Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr Phe Asn 500 505 510 Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro His Phe Lys Cys Glu Lys 515 520 525 Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn Ala Ala Leu Asn Ile Ser 530 535 540 Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 169 <211> 483 <212> PRT <213> Artificial Sequence <220> <223> CasX-Cas12f1(E448A) <400> 169 Lys Glu Ala Cys Ser Lys His Leu Lys Val Ala Ala Tyr Cys Thr Thr 1 5 10 15 Gln Val Glu Arg Asn Ala Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp 20 25 30 Asp Lys Phe Tyr Gln Lys Leu Arg Gly Gln Phe Pro Asp Ala Val Phe 35 40 45 Trp Gln Glu Ile Ser Glu Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala 50 55 60 Glu Ile Tyr Asn Gln Ser Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile 65 70 75 80 Lys Gly Lys Gly Ile Ala Asn Ala Ser Ser Val Glu His Tyr Leu Ser 85 90 95 Asp Val Cys Tyr Thr Arg Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile 100 105 110 Ala Ser Gly Leu Arg Ser Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu 115 120 125 Leu Lys Asn Met Lys Ser Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe 130 135 140 Pro Ile Pro Leu Val Lys Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu 145 150 155 160 Ile Ser Asn His Asn Ser Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg 165 170 175 Trp Gln Val Lys Lys Glu Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe 180 185 190 Asp Phe Glu Gln Val Gln Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu 195 200 205 Ser Thr Gln Arg Arg Lys Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly 210 215 220 Thr Glu Ala Glu Ile Lys Lys Val Met Asn Gly Asp Tyr Gln Thr Ser 225 230 235 240 Tyr Ile Glu Val Lys Arg Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp 245 250 255 Met Leu Asn Leu Ser Ile Asp Val Pro Lys Ile Asp Lys Gly Val Asp 260 265 270 Pro Ser Ile Ile Gly Gly Ile Asp Val Gly Val Lys Ser Pro Leu Val 275 280 285 Cys Ala Ile Asn Asn Ala Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp 290 295 300 Leu Phe His Phe Asn Lys Lys Met Phe Ala Arg Arg Arg Ile Leu Leu 305 310 315 320 Lys Lys Asn Arg His Lys Arg Ala Gly His Gly Ala Lys Asn Lys Leu 325 330 335 Lys Pro Ile Thr Ile Leu Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys 340 345 350 Leu Ile Glu Arg Trp Ala Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn 355 360 365 Lys Val Gly Thr Val Gln Met Ala Asn Leu Glu Ser Met Lys Arg Lys 370 375 380 Glu Asp Ser Tyr Phe Asn Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala 385 390 395 400 Glu Met Gln Asn Lys Ile Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu 405 410 415 Ile Arg Lys Val Ala Pro Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys 420 425 430 Gly His Leu Asn Asn Tyr Phe Asn Phe Glu Tyr Arg Lys Lys Asn Lys 435 440 445 Phe Pro His Phe Lys Cys Glu Lys Cys Asn Phe Lys Glu Asn Ala Asp 450 455 460 Tyr Asn Ala Ala Leu Asn Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys 465 470 475 480 Glu Glu Pro <210> 170 <211> 555 <212> PRT <213> Artificial Sequence <220> <223> CasX-Cas12f1(R516A) <400> 170 Met Glu Lys Arg Ile Asn Lys Ile Arg Lys Lys Leu Ser Ala Asp Asn 1 5 10 15 Ala Thr Lys Pro Val Ser Arg Ser Gly Pro Met Ala Lys Asn Thr Ile 20 25 30 Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser Ala Glu 35 40 45 Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys Ile Ala 50 55 60 Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys His Leu 65 70 75 80 Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala Cys Leu 85 90 95 Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys Leu Arg 100 105 110 Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu Ile Phe 115 120 125 Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser Leu Ile 130 135 140 Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala Asn Ala 145 150 155 160 Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg Ala Ala 165 170 175 Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser Lys Ile 180 185 190 Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser Gly Leu 195 200 205 Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys Gln Lys 210 215 220 Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser Asp Phe 225 230 235 240 Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu Ile Asp 245 250 255 Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln Lys Ser 260 265 270 Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys Arg Asn 275 280 285 Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys Lys Val 290 295 300 Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg Gly Ser 305 310 315 320 Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile Asp Val 325 330 335 Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly Ile Asp 340 345 350 Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala Phe Ser 355 360 365 Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys Lys Met 370 375 380 Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys Arg Ala 385 390 395 400 Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu Thr Glu 405 410 415 Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala Cys Glu 420 425 430 Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln Met Glu 435 440 445 Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn Ile Arg 450 455 460 Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile Glu Phe 465 470 475 480 Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro Asn Asn 485 490 495 Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr Phe Asn 500 505 510 Phe Glu Tyr Ala Lys Lys Asn Lys Phe Pro His Phe Lys Cys Glu Lys 515 520 525 Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn Ala Ala Leu Asn Ile Ser 530 535 540 Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 171 <211> 555 <212> PRT <213> Artificial Sequence <220> <223> CasX-Cas12f1(D536A) <400> 171 Met Glu Lys Arg Ile Asn Lys Ile Arg Lys Lys Leu Ser Ala Asp Asn 1 5 10 15 Ala Thr Lys Pro Val Ser Arg Ser Gly Pro Met Ala Lys Asn Thr Ile 20 25 30 Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser Ala Glu 35 40 45 Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys Ile Ala 50 55 60 Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys His Leu 65 70 75 80 Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala Cys Leu 85 90 95 Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys Leu Arg 100 105 110 Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu Ile Phe 115 120 125 Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser Leu Ile 130 135 140 Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala Asn Ala 145 150 155 160 Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg Ala Ala 165 170 175 Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser Lys Ile 180 185 190 Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser Gly Leu 195 200 205 Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys Gln Lys 210 215 220 Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser Asp Phe 225 230 235 240 Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu Ile Asp 245 250 255 Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln Lys Ser 260 265 270 Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys Arg Asn 275 280 285 Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys Lys Val 290 295 300 Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg Gly Ser 305 310 315 320 Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile Asp Val 325 330 335 Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly Ile Asp 340 345 350 Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala Phe Ser 355 360 365 Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys Lys Met 370 375 380 Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys Arg Ala 385 390 395 400 Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu Thr Glu 405 410 415 Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala Cys Glu 420 425 430 Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln Met Glu 435 440 445 Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn Ile Arg 450 455 460 Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile Glu Phe 465 470 475 480 Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro Asn Asn 485 490 495 Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr Phe Asn 500 505 510 Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro His Phe Lys Cys Glu Lys 515 520 525 Cys Asn Phe Lys Glu Asn Ala Ala Tyr Asn Ala Ala Leu Asn Ile Ser 530 535 540 Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 172 <211> 555 <212> PRT <213> Artificial Sequence <220> <223> 26aa-Extension dCas12f1(D352A) <400> 172 Met Ala Gly Gly Pro Gly Ala Gly Ser Ala Ala Pro Val Ser Ser Thr 1 5 10 15 Ser Ser Leu Pro Leu Ala Ala Leu Asn Met Met Ala Lys Asn Thr Ile 20 25 30 Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser Ala Glu 35 40 45 Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys Ile Ala 50 55 60 Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys His Leu 65 70 75 80 Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala Cys Leu 85 90 95 Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys Leu Arg 100 105 110 Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu Ile Phe 115 120 125 Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser Leu Ile 130 135 140 Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala Asn Ala 145 150 155 160 Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg Ala Ala 165 170 175 Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser Lys Ile 180 185 190 Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser Gly Leu 195 200 205 Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys Gln Lys 210 215 220 Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser Asp Phe 225 230 235 240 Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu Ile Asp 245 250 255 Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln Lys Ser 260 265 270 Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys Arg Asn 275 280 285 Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys Lys Val 290 295 300 Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg Gly Ser 305 310 315 320 Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile Asp Val 325 330 335 Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly Ile Ala 340 345 350 Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala Phe Ser 355 360 365 Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys Lys Met 370 375 380 Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys Arg Ala 385 390 395 400 Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu Thr Glu 405 410 415 Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala Cys Glu 420 425 430 Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln Met Glu 435 440 445 Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn Ile Arg 450 455 460 Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile Glu Phe 465 470 475 480 Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro Asn Asn 485 490 495 Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr Phe Asn 500 505 510 Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro His Phe Lys Cys Glu Lys 515 520 525 Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn Ala Ala Leu Asn Ile Ser 530 535 540 Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 173 <211> 555 <212> PRT <213> Artificial Sequence <220> <223> 26aa-Extension dCas12f1(E448A) <400> 173 Met Ala Gly Gly Pro Gly Ala Gly Ser Ala Ala Pro Val Ser Ser Thr 1 5 10 15 Ser Ser Leu Pro Leu Ala Ala Leu Asn Met Met Ala Lys Asn Thr Ile 20 25 30 Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser Ala Glu 35 40 45 Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys Ile Ala 50 55 60 Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys His Leu 65 70 75 80 Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala Cys Leu 85 90 95 Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys Leu Arg 100 105 110 Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu Ile Phe 115 120 125 Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser Leu Ile 130 135 140 Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala Asn Ala 145 150 155 160 Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg Ala Ala 165 170 175 Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser Lys Ile 180 185 190 Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser Gly Leu 195 200 205 Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys Gln Lys 210 215 220 Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser Asp Phe 225 230 235 240 Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu Ile Asp 245 250 255 Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln Lys Ser 260 265 270 Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys Arg Asn 275 280 285 Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys Lys Val 290 295 300 Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg Gly Ser 305 310 315 320 Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile Asp Val 325 330 335 Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly Ile Asp 340 345 350 Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala Phe Ser 355 360 365 Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys Lys Met 370 375 380 Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys Arg Ala 385 390 395 400 Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu Thr Glu 405 410 415 Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala Cys Glu 420 425 430 Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln Met Ala 435 440 445 Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn Ile Arg 450 455 460 Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile Glu Phe 465 470 475 480 Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro Asn Asn 485 490 495 Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr Phe Asn 500 505 510 Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro His Phe Lys Cys Glu Lys 515 520 525 Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn Ala Ala Leu Asn Ile Ser 530 535 540 Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 174 <211> 555 <212> PRT <213> Artificial Sequence <220> <223> 26aa-Extension dCas12f1(R516A) <400> 174 Met Ala Gly Gly Pro Gly Ala Gly Ser Ala Ala Pro Val Ser Ser Thr 1 5 10 15 Ser Ser Leu Pro Leu Ala Ala Leu Asn Met Met Ala Lys Asn Thr Ile 20 25 30 Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser Ala Glu 35 40 45 Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys Ile Ala 50 55 60 Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys His Leu 65 70 75 80 Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala Cys Leu 85 90 95 Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys Leu Arg 100 105 110 Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu Ile Phe 115 120 125 Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser Leu Ile 130 135 140 Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala Asn Ala 145 150 155 160 Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg Ala Ala 165 170 175 Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser Lys Ile 180 185 190 Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser Gly Leu 195 200 205 Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys Gln Lys 210 215 220 Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser Asp Phe 225 230 235 240 Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu Ile Asp 245 250 255 Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln Lys Ser 260 265 270 Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys Arg Asn 275 280 285 Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys Lys Val 290 295 300 Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg Gly Ser 305 310 315 320 Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile Asp Val 325 330 335 Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly Ile Asp 340 345 350 Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala Phe Ser 355 360 365 Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys Lys Met 370 375 380 Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys Arg Ala 385 390 395 400 Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu Thr Glu 405 410 415 Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala Cys Glu 420 425 430 Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln Met Glu 435 440 445 Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn Ile Arg 450 455 460 Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile Glu Phe 465 470 475 480 Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro Asn Asn 485 490 495 Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr Phe Asn 500 505 510 Phe Glu Tyr Ala Lys Lys Asn Lys Phe Pro His Phe Lys Cys Glu Lys 515 520 525 Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn Ala Ala Leu Asn Ile Ser 530 535 540 Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 175 <211> 555 <212> PRT <213> Artificial Sequence <220> <223> 26aa-Extension dCas12f1(D536A) <400> 175 Met Ala Gly Gly Pro Gly Ala Gly Ser Ala Ala Pro Val Ser Ser Thr 1 5 10 15 Ser Ser Leu Pro Leu Ala Ala Leu Asn Met Met Ala Lys Asn Thr Ile 20 25 30 Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser Ala Glu 35 40 45 Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys Ile Ala 50 55 60 Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys His Leu 65 70 75 80 Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala Cys Leu 85 90 95 Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys Leu Arg 100 105 110 Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu Ile Phe 115 120 125 Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser Leu Ile 130 135 140 Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala Asn Ala 145 150 155 160 Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg Ala Ala 165 170 175 Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser Lys Ile 180 185 190 Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser Gly Leu 195 200 205 Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys Gln Lys 210 215 220 Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser Asp Phe 225 230 235 240 Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu Ile Asp 245 250 255 Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln Lys Ser 260 265 270 Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys Arg Asn 275 280 285 Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys Lys Val 290 295 300 Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg Gly Ser 305 310 315 320 Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile Asp Val 325 330 335 Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly Ile Asp 340 345 350 Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala Phe Ser 355 360 365 Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys Lys Met 370 375 380 Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys Arg Ala 385 390 395 400 Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu Thr Glu 405 410 415 Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala Cys Glu 420 425 430 Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln Met Glu 435 440 445 Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn Ile Arg 450 455 460 Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile Glu Phe 465 470 475 480 Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro Asn Asn 485 490 495 Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr Phe Asn 500 505 510 Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro His Phe Lys Cys Glu Lys 515 520 525 Cys Asn Phe Lys Glu Asn Ala Ala Tyr Asn Ala Ala Leu Asn Ile Ser 530 535 540 Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 176 <211> 159 <212> PRT <213> Artificial Sequence <220> <223> eTadA4 <400> 176 Met Val Glu Phe Ser Asp Glu Tyr Trp Met Arg His Ala Leu Thr Leu 1 5 10 15 Ala Lys Arg Ala Arg Asp Glu Gly Glu Val Pro Val Gly Ala Val Leu 20 25 30 Val Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala Ile Gly 35 40 45 Leu His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg Gln Gly 50 55 60 Gly Gln Val Leu Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu Tyr Val 65 70 75 80 Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His Ser Arg 85 90 95 Ile Lys Arg Val Val Phe Gly Trp Arg Asn Ser Lys Arg Gly Ala Ala 100 105 110 Gly Ser Leu Met Asn Val Leu Asn His Pro Gly Met Asn His Arg Val 115 120 125 Glu Ile Thr Glu Gly Val Leu Ala Asp Glu Cys Ala Ala Leu Leu Ser 130 135 140 Asp Phe Phe Arg Met Arg Arg Gln Gln Lys Lys Ala Gln Lys Lys 145 150 155 <210> 177 <211> 159 <212> PRT <213> Artificial Sequence <220> <223> eTadA5 <400> 177 Met Val Glu Phe Ser Asp Glu Tyr Trp Met Arg His Ala Leu Thr Leu 1 5 10 15 Ala Lys Arg Ala Arg Asp Glu Gly Glu Val Pro Val Gly Ala Val Leu 20 25 30 Val Leu Asn Asn Gln Val Ile Gly Glu Gly Trp Asn Arg Ser Ile Ser 35 40 45 Leu His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg Gln Gly 50 55 60 Gly Gln Val Leu Gln Asn Tyr Arg Leu Ile Asp Cys Thr Leu Tyr Val 65 70 75 80 Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His Ser Arg 85 90 95 Ile Lys Arg Val Val Phe Gly Trp Arg Asn Pro Lys Arg Gly Ala Ala 100 105 110 Gly Ser Leu Met Asn Val Leu Asn His Pro Gly Met Asn His Arg Ile 115 120 125 Glu Ile Thr Glu Gly Val Leu Ala Asp Glu Cys Ala Ala Met Leu Ser 130 135 140 Asp Phe Phe Arg Met Arg Arg Gln Gln Lys Lys Ala Gln Lys Lys 145 150 155 <210> 178 <211> 159 <212> PRT <213> Artificial Sequence <220> <223> eTadA6 <400> 178 Met Val Glu Phe Ser Asp Glu Tyr Trp Met Arg His Ala Leu Thr Leu 1 5 10 15 Ala Lys Arg Ala Arg Asp Glu Gly Glu Val Pro Val Gly Ala Val Leu 20 25 30 Val Leu Asn Asn Gln Val Ile Gly Glu Gly Trp Asn Arg Ser Ile Thr 35 40 45 His His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg Gln Gly 50 55 60 Gly Gln Val Leu Gln Asn Tyr Arg Leu Ile Asp Cys Thr Leu Tyr Val 65 70 75 80 Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His Ala Arg 85 90 95 Ile Lys Arg Val Val Phe Gly Trp Arg Asn Pro Lys Arg Gly Ala Ala 100 105 110 Gly Ser Val Met Asn Val Leu Asn His Pro Gly Met Asn His Arg Ile 115 120 125 Glu Ile Thr Glu Gly Val Leu Ala Asp Glu Cys Ala Ala Met Leu Ser 130 135 140 Asp Phe Phe Arg Met Arg Arg Gln Gln Lys Lys Ala Gln Lys Lys 145 150 155 <110> GenKOre Co., Ltd. Korea Research Institute of Bioscience and Biotechnology <120> Hypercompact base editing systems and use thereof <130> PN21407 <150> KR 10-2021-0087956 <151> 2021-07-05 <160> 178 <170> KoPatentIn 3.0 <210> 1 <211> 529 <212> PRT <213> unknown <220> <223> Cas12f1 <400> 1 Met Ala Lys Asn Thr Ile Thr Lys Thr Leu Lys Leu Arg Ile Val Arg 1 5 10 15 Pro Tyr Asn Ser Ala Glu Val Glu Lys Ile Val Ala Asp Glu Lys Asn 20 25 30 Asn Arg Glu Lys Ile Ala Leu Glu Lys Asn Lys Asp Lys Val Lys Glu 35 40 45 Ala Cys Ser Lys His Leu Lys Val Ala Ala Tyr Cys Thr Thr Gln Val 50 55 60 Glu Arg Asn Ala Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys 65 70 75 80 Phe Tyr Gln Lys Leu Arg Gly Gln Phe Pro Asp Ala Val Phe Trp Gln 85 90 95 Glu Ile Ser Glu Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile 100 105 110 Tyr Asn Gln Ser Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly 115 120 125 Lys Gly Ile Ala Asn Ala Ser Ser Val Glu His Tyr Leu Ser Asp Val 130 135 140 Cys Tyr Thr Arg Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser 145 150 155 160 Gly Leu Arg Ser Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys 165 170 175 Asn Met Lys Ser Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile 180 185 190 Pro Leu Val Lys Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser 195 200 205 Asn His Asn Ser Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln 210 215 220 Val Lys Lys Glu Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe 225 230 235 240 Glu Gln Val Gln Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr 245 250 255 Gln Arg Arg Lys Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu 260 265 270 Ala Glu Ile Lys Lys Val Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile 275 280 285 Glu Val Lys Arg Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu 290 295 300 Asn Leu Ser Ile Asp Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser 305 310 315 320 Ile Ile Gly Gly Ile Asp Val Gly Val Lys Ser Pro Leu Val Cys Ala 325 330 335 Ile Asn Asn Ala Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe 340 345 350 His Phe Asn Lys Lys Met Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys 355 360 365 Asn Arg His Lys Arg Ala Gly His Gly Ala Lys Asn Lys Leu Lys Pro 370 375 380 Ile Thr Ile Leu Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile 385 390 395 400 Glu Arg Trp Ala Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val 405 410 415 Gly Thr Val Gln Met Glu Asn Leu Glu Ser Met Lys Arg Lys Glu Asp 420 425 430 Ser Tyr Phe Asn Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met 435 440 445 Gln Asn Lys Ile Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg 450 455 460 Lys Val Ala Pro Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys Gly His 465 470 475 480 Leu Asn Asn Tyr Phe Asn Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro 485 490 495 His Phe Lys Cys Glu Lys Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn 500 505 510 Ala Ala Leu Asn Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu 515 520 525 Pro <210> 2 <211> 1587 <212> DNA <213> artificial sequence <220> <223> Human codon-optimized Cas12f1 <400> 2 atggccaaga acacaattac aaagacactg aagctgagga tcgtgagacc atacaacagc 60 gctgaggtcg agaagattgt ggctgatgaa aagaacaaca gggaaaagat cgccctcgag 120 aagaacaagg ataaggtgaa ggaggcctgc tctaagcacc tgaaagtggc cgcctactgc 180 accacacagg tggagaggaa cgcctgtctg ttttgtaaag ctcggaagct ggatgataag 240 ttttaccaga agctgcgggg ccagttcccc gatgccgtct tttggcagga gattagcgag 300 atcttcagac agctgcagaa gcaggccgcc gagatctaca accagagcct gatcgagctc 360 tactacgaga tcttcatcaa gggcaagggc attgccaacg cctcctccgt ggagcactac 420 ctgagcgacg tgtgctacac aagagccgcc gagctcttta agaacgccgc tatcgcttcc 480 gggctgagga gcaagattaa gagtaacttc cggctcaagg agctgaagaa catgaagagc 540 ggcctgccca ctacaaagag cgacaacttc ccaattccac tggtgaagca gaaggggggc 600 cagtacacag ggttcgagat ttccaaccac aacagcgact ttattattaa gatccccttt 660 ggcaggtggc aggtcaagaa ggagattgac aagtacaggc cctgggagaa gtttgatttc 720 gagcaggtgc agaagagccc caagcctatt tccctgctgc tgtccacaca gcggcggaag 780 aggaacaagg ggtggtctaa ggatgagggg accgaggccg agattaagaa agtgatgaac 840 ggcgactacc agacaagcta catcgaggtc aagcggggca gtaagattgg cgagaagagc 900 gcctggatgc tgaacctgag cattgacgtg ccaaagattg ataagggcgt ggatcccagc 960 atcatcggag ggatcgatgt gggggtcaag agccccctcg tgtgcgccat caacaacgcc 1020 ttcagcaggt acagcatctc cgataacgac ctgttccact ttaacaagaa gatgttcgcc 1080 cggcggagga ttttgctcaa gaagaaccgg cacaagcggg ccggacacgg ggccaagaac 1140 aagctcaagc ccatcactat cctgaccgag aagagcgaga ggttcaggaa gaagctcatc 1200 gagagatggg cctgcgagat cgccgatttc tttattaaga acaaggtcgg aacagtgcag 1260 atggagaacc tcgagagcat gaagaggaag gaggattcct acttcaacat tcggctgagg 1320 gggttctggc cctacgctga gatgcagaac aagattgagt ttaagctgaa gcagtacggg 1380 attgagatcc ggaaggtggc ccccaacaac accagcaaga cctgcagcaa gtgcgggcac 1440 ctcaacaact acttcaactt cgagtaccgg aagaagaaca agttcccaca cttcaagtgc 1500 gagaagtgca actttaagga gaacgccgat tacaacgccg ccctgaacat cagcaaccct 1560 aagctgaaga gcactaagga ggagccc 1587 <210> 3 <211> 529 <212> PRT <213> artificial sequence <220> <223> DeadCas12f1(D326A) <400> 3 Met Ala Lys Asn Thr Ile Thr Lys Thr Leu Lys Leu Arg Ile Val Arg 1 5 10 15 Pro Tyr Asn Ser Ala Glu Val Glu Lys Ile Val Ala Asp Glu Lys Asn 20 25 30 Asn Arg Glu Lys Ile Ala Leu Glu Lys Asn Lys Asp Lys Val Lys Glu 35 40 45 Ala Cys Ser Lys His Leu Lys Val Ala Ala Tyr Cys Thr Thr Gln Val 50 55 60 Glu Arg Asn Ala Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys 65 70 75 80 Phe Tyr Gln Lys Leu Arg Gly Gln Phe Pro Asp Ala Val Phe Trp Gln 85 90 95 Glu Ile Ser Glu Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile 100 105 110 Tyr Asn Gln Ser Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly 115 120 125 Lys Gly Ile Ala Asn Ala Ser Ser Val Glu His Tyr Leu Ser Asp Val 130 135 140 Cys Tyr Thr Arg Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser 145 150 155 160 Gly Leu Arg Ser Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys 165 170 175 Asn Met Lys Ser Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile 180 185 190 Pro Leu Val Lys Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser 195 200 205 Asn His Asn Ser Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln 210 215 220 Val Lys Lys Glu Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe 225 230 235 240 Glu Gln Val Gln Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr 245 250 255 Gln Arg Arg Lys Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu 260 265 270 Ala Glu Ile Lys Lys Val Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile 275 280 285 Glu Val Lys Arg Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu 290 295 300 Asn Leu Ser Ile Asp Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser 305 310 315 320 Ile Ile Gly Gly Ile Ala Val Gly Val Lys Ser Pro Leu Val Cys Ala 325 330 335 Ile Asn Asn Ala Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe 340 345 350 His Phe Asn Lys Lys Met Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys 355 360 365 Asn Arg His Lys Arg Ala Gly His Gly Ala Lys Asn Lys Leu Lys Pro 370 375 380 Ile Thr Ile Leu Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile 385 390 395 400 Glu Arg Trp Ala Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val 405 410 415 Gly Thr Val Gln Met Glu Asn Leu Glu Ser Met Lys Arg Lys Glu Asp 420 425 430 Ser Tyr Phe Asn Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met 435 440 445 Gln Asn Lys Ile Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg 450 455 460 Lys Val Ala Pro Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys Gly His 465 470 475 480 Leu Asn Asn Tyr Phe Asn Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro 485 490 495 His Phe Lys Cys Glu Lys Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn 500 505 510 Ala Ala Leu Asn Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu 515 520 525 Pro <210> 4 <211> 529 <212> PRT <213> artificial sequence <220> <223> DeadCas12f1(E422A) <400> 4 Met Ala Lys Asn Thr Ile Thr Lys Thr Leu Lys Leu Arg Ile Val Arg 1 5 10 15 Pro Tyr Asn Ser Ala Glu Val Glu Lys Ile Val Ala Asp Glu Lys Asn 20 25 30 Asn Arg Glu Lys Ile Ala Leu Glu Lys Asn Lys Asp Lys Val Lys Glu 35 40 45 Ala Cys Ser Lys His Leu Lys Val Ala Ala Tyr Cys Thr Thr Gln Val 50 55 60 Glu Arg Asn Ala Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys 65 70 75 80 Phe Tyr Gln Lys Leu Arg Gly Gln Phe Pro Asp Ala Val Phe Trp Gln 85 90 95 Glu Ile Ser Glu Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile 100 105 110 Tyr Asn Gln Ser Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly 115 120 125 Lys Gly Ile Ala Asn Ala Ser Ser Val Glu His Tyr Leu Ser Asp Val 130 135 140 Cys Tyr Thr Arg Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser 145 150 155 160 Gly Leu Arg Ser Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys 165 170 175 Asn Met Lys Ser Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile 180 185 190 Pro Leu Val Lys Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser 195 200 205 Asn His Asn Ser Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln 210 215 220 Val Lys Lys Glu Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe 225 230 235 240 Glu Gln Val Gln Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr 245 250 255 Gln Arg Arg Lys Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu 260 265 270 Ala Glu Ile Lys Lys Val Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile 275 280 285 Glu Val Lys Arg Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu 290 295 300 Asn Leu Ser Ile Asp Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser 305 310 315 320 Ile Ile Gly Gly Ile Asp Val Gly Val Lys Ser Pro Leu Val Cys Ala 325 330 335 Ile Asn Asn Ala Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe 340 345 350 His Phe Asn Lys Lys Met Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys 355 360 365 Asn Arg His Lys Arg Ala Gly His Gly Ala Lys Asn Lys Leu Lys Pro 370 375 380 Ile Thr Ile Leu Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile 385 390 395 400 Glu Arg Trp Ala Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val 405 410 415 Gly Thr Val Gln Met Ala Asn Leu Glu Ser Met Lys Arg Lys Glu Asp 420 425 430 Ser Tyr Phe Asn Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met 435 440 445 Gln Asn Lys Ile Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg 450 455 460 Lys Val Ala Pro Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys Gly His 465 470 475 480 Leu Asn Asn Tyr Phe Asn Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro 485 490 495 His Phe Lys Cys Glu Lys Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn 500 505 510 Ala Ala Leu Asn Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu 515 520 525 Pro <210> 5 <211> 529 <212> PRT <213> artificial sequence <220> <223> DeadCas12f1(R490A) <400> 5 Met Ala Lys Asn Thr Ile Thr Lys Thr Leu Lys Leu Arg Ile Val Arg 1 5 10 15 Pro Tyr Asn Ser Ala Glu Val Glu Lys Ile Val Ala Asp Glu Lys Asn 20 25 30 Asn Arg Glu Lys Ile Ala Leu Glu Lys Asn Lys Asp Lys Val Lys Glu 35 40 45 Ala Cys Ser Lys His Leu Lys Val Ala Ala Tyr Cys Thr Thr Gln Val 50 55 60 Glu Arg Asn Ala Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys 65 70 75 80 Phe Tyr Gln Lys Leu Arg Gly Gln Phe Pro Asp Ala Val Phe Trp Gln 85 90 95 Glu Ile Ser Glu Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile 100 105 110 Tyr Asn Gln Ser Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly 115 120 125 Lys Gly Ile Ala Asn Ala Ser Ser Val Glu His Tyr Leu Ser Asp Val 130 135 140 Cys Tyr Thr Arg Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser 145 150 155 160 Gly Leu Arg Ser Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys 165 170 175 Asn Met Lys Ser Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile 180 185 190 Pro Leu Val Lys Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser 195 200 205 Asn His Asn Ser Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln 210 215 220 Val Lys Lys Glu Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe 225 230 235 240 Glu Gln Val Gln Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr 245 250 255 Gln Arg Arg Lys Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu 260 265 270 Ala Glu Ile Lys Lys Val Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile 275 280 285 Glu Val Lys Arg Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu 290 295 300 Asn Leu Ser Ile Asp Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser 305 310 315 320 Ile Ile Gly Gly Ile Asp Val Gly Val Lys Ser Pro Leu Val Cys Ala 325 330 335 Ile Asn Asn Ala Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe 340 345 350 His Phe Asn Lys Lys Met Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys 355 360 365 Asn Arg His Lys Arg Ala Gly His Gly Ala Lys Asn Lys Leu Lys Pro 370 375 380 Ile Thr Ile Leu Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile 385 390 395 400 Glu Arg Trp Ala Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val 405 410 415 Gly Thr Val Gln Met Glu Asn Leu Glu Ser Met Lys Arg Lys Glu Asp 420 425 430 Ser Tyr Phe Asn Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met 435 440 445 Gln Asn Lys Ile Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg 450 455 460 Lys Val Ala Pro Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys Gly His 465 470 475 480 Leu Asn Asn Tyr Phe Asn Phe Glu Tyr Ala Lys Lys Asn Lys Phe Pro 485 490 495 His Phe Lys Cys Glu Lys Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn 500 505 510 Ala Ala Leu Asn Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu 515 520 525 Pro <210> 6 <211> 529 <212> PRT <213> artificial sequence <220> <223> DeadCas12f1(D510A) <400> 6 Met Ala Lys Asn Thr Ile Thr Lys Thr Leu Lys Leu Arg Ile Val Arg 1 5 10 15 Pro Tyr Asn Ser Ala Glu Val Glu Lys Ile Val Ala Asp Glu Lys Asn 20 25 30 Asn Arg Glu Lys Ile Ala Leu Glu Lys Asn Lys Asp Lys Val Lys Glu 35 40 45 Ala Cys Ser Lys His Leu Lys Val Ala Ala Tyr Cys Thr Thr Gln Val 50 55 60 Glu Arg Asn Ala Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys 65 70 75 80 Phe Tyr Gln Lys Leu Arg Gly Gln Phe Pro Asp Ala Val Phe Trp Gln 85 90 95 Glu Ile Ser Glu Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile 100 105 110 Tyr Asn Gln Ser Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly 115 120 125 Lys Gly Ile Ala Asn Ala Ser Ser Val Glu His Tyr Leu Ser Asp Val 130 135 140 Cys Tyr Thr Arg Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser 145 150 155 160 Gly Leu Arg Ser Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys 165 170 175 Asn Met Lys Ser Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile 180 185 190 Pro Leu Val Lys Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser 195 200 205 Asn His Asn Ser Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln 210 215 220 Val Lys Lys Glu Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe 225 230 235 240 Glu Gln Val Gln Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr 245 250 255 Gln Arg Arg Lys Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu 260 265 270 Ala Glu Ile Lys Lys Val Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile 275 280 285 Glu Val Lys Arg Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu 290 295 300 Asn Leu Ser Ile Asp Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser 305 310 315 320 Ile Ile Gly Gly Ile Asp Val Gly Val Lys Ser Pro Leu Val Cys Ala 325 330 335 Ile Asn Asn Ala Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe 340 345 350 His Phe Asn Lys Lys Met Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys 355 360 365 Asn Arg His Lys Arg Ala Gly His Gly Ala Lys Asn Lys Leu Lys Pro 370 375 380 Ile Thr Ile Leu Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile 385 390 395 400 Glu Arg Trp Ala Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val 405 410 415 Gly Thr Val Gln Met Glu Asn Leu Glu Ser Met Lys Arg Lys Glu Asp 420 425 430 Ser Tyr Phe Asn Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met 435 440 445 Gln Asn Lys Ile Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg 450 455 460 Lys Val Ala Pro Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys Gly His 465 470 475 480 Leu Asn Asn Tyr Phe Asn Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro 485 490 495 His Phe Lys Cys Glu Lys Cys Asn Phe Lys Glu Asn Ala Ala Tyr Asn 500 505 510 Ala Ala Leu Asn Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu 515 520 525 Pro <210> 7 <211> 557 <212> PRT <213> unknown <220> <223> TnpB <400> 7 Met Gly Glu Lys Ser Ser Arg Arg Arg Arg Asn Gly Lys Ser Gly Ala 1 5 10 15 Trp Thr Ala Ala Ile Thr Ser Cys Val Gly Gly Lys Met Ala Lys Asn 20 25 30 Thr Ile Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser 35 40 45 Ala Glu Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys 50 55 60 Ile Ala Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys 65 70 75 80 His Leu Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala 85 90 95 Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys 100 105 110 Leu Arg Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu 115 120 125 Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser 130 135 140 Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala 145 150 155 160 Asn Ala Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg 165 170 175 Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser 180 185 190 Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser 195 200 205 Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys 210 215 220 Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser 225 230 235 240 Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu 245 250 255 Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln 260 265 270 Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys 275 280 285 Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys 290 295 300 Lys Val Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg 305 310 315 320 Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile 325 330 335 Asp Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly 340 345 350 Ile Asp Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala 355 360 365 Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys 370 375 380 Lys Met Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys 385 390 395 400 Arg Ala Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu 405 410 415 Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala 420 425 430 Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln 435 440 445 Met Glu Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn 450 455 460 Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile 465 470 475 480 Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro 485 490 495 Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr 500 505 510 Phe Asn Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro His Phe Lys Cys 515 520 525 Glu Lys Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn Ala Ala Leu Asn 530 535 540 Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 8 <211> 555 <212> PRT <213> artificial sequence <220> <223> CasX-Cas12f1 <400> 8 Met Glu Lys Arg Ile Asn Lys Ile Arg Lys Lys Leu Ser Ala Asp Asn 1 5 10 15 Ala Thr Lys Pro Val Ser Arg Ser Gly Pro Met Ala Lys Asn Thr Ile 20 25 30 Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser Ala Glu 35 40 45 Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys Ile Ala 50 55 60 Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys His Leu 65 70 75 80 Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala Cys Leu 85 90 95 Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys Leu Arg 100 105 110 Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu Ile Phe 115 120 125 Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser Leu Ile 130 135 140 Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala Asn Ala 145 150 155 160 Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg Ala Ala 165 170 175 Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser Lys Ile 180 185 190 Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser Gly Leu 195 200 205 Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys Gln Lys 210 215 220 Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser Asp Phe 225 230 235 240 Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu Ile Asp 245 250 255 Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln Lys Ser 260 265 270 Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys Arg Asn 275 280 285 Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys Lys Val 290 295 300 Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg Gly Ser 305 310 315 320 Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile Asp Val 325 330 335 Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly Ile Asp 340 345 350 Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala Phe Ser 355 360 365 Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys Lys Met 370 375 380 Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys Arg Ala 385 390 395 400 Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu Thr Glu 405 410 415 Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala Cys Glu 420 425 430 Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln Met Glu 435 440 445 Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn Ile Arg 450 455 460 Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile Glu Phe 465 470 475 480 Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro Asn Asn 485 490 495 Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr Phe Asn 500 505 510 Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro His Phe Lys Cys Glu Lys 515 520 525 Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn Ala Ala Leu Asn Ile Ser 530 535 540 Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 9 <211> 557 <212> PRT <213> artificial sequence <220> <223> 28aa-extension Cas12f1 <400> 9 Met Ala Gly Gly Pro Gly Ala Gly Ser Ala Ala Pro Val Ser Ser Thr 1 5 10 15 Ser Ser Leu Pro Leu Ala Ala Leu Asn Met Arg Val Met Ala Lys Asn 20 25 30 Thr Ile Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser 35 40 45 Ala Glu Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys 50 55 60 Ile Ala Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys 65 70 75 80 His Leu Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala 85 90 95 Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys 100 105 110 Leu Arg Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu 115 120 125 Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser 130 135 140 Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala 145 150 155 160 Asn Ala Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg 165 170 175 Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser 180 185 190 Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser 195 200 205 Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys 210 215 220 Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser 225 230 235 240 Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu 245 250 255 Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln 260 265 270 Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys 275 280 285 Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys 290 295 300 Lys Val Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg 305 310 315 320 Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile 325 330 335 Asp Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly 340 345 350 Ile Asp Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala 355 360 365 Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys 370 375 380 Lys Met Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys 385 390 395 400 Arg Ala Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu 405 410 415 Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala 420 425 430 Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln 435 440 445 Met Glu Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn 450 455 460 Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile 465 470 475 480 Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro 485 490 495 Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr 500 505 510 Phe Asn Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro His Phe Lys Cys 515 520 525 Glu Lys Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn Ala Ala Leu Asn 530 535 540 Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 10 <211> 555 <212> PRT <213> artificial sequence <220> <223> 26aa-extension Cas12f1 <400> 10 Met Ala Gly Gly Pro Gly Ala Gly Ser Ala Ala Pro Val Ser Ser Thr 1 5 10 15 Ser Ser Leu Pro Leu Ala Ala Leu Asn Met Met Ala Lys Asn Thr Ile 20 25 30 Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser Ala Glu 35 40 45 Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys Ile Ala 50 55 60 Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys His Leu 65 70 75 80 Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala Cys Leu 85 90 95 Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys Leu Arg 100 105 110 Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu Ile Phe 115 120 125 Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser Leu Ile 130 135 140 Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala Asn Ala 145 150 155 160 Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg Ala Ala 165 170 175 Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser Lys Ile 180 185 190 Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser Gly Leu 195 200 205 Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys Gln Lys 210 215 220 Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser Asp Phe 225 230 235 240 Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu Ile Asp 245 250 255 Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln Lys Ser 260 265 270 Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys Arg Asn 275 280 285 Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys Lys Val 290 295 300 Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg Gly Ser 305 310 315 320 Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile Asp Val 325 330 335 Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly Ile Asp 340 345 350 Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala Phe Ser 355 360 365 Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys Lys Met 370 375 380 Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys Arg Ala 385 390 395 400 Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu Thr Glu 405 410 415 Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala Cys Glu 420 425 430 Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln Met Glu 435 440 445 Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn Ile Arg 450 455 460 Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile Glu Phe 465 470 475 480 Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro Asn Asn 485 490 495 Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr Phe Asn 500 505 510 Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro His Phe Lys Cys Glu Lys 515 520 525 Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn Ala Ala Leu Asn Ile Ser 530 535 540 Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 11 <211> 557 <212> PRT <213> artificial sequence <220> <223> dTnpB (D354A) <400> 11 Met Gly Glu Lys Ser Ser Arg Arg Arg Arg Asn Gly Lys Ser Gly Ala 1 5 10 15 Trp Thr Ala Ala Ile Thr Ser Cys Val Gly Gly Lys Met Ala Lys Asn 20 25 30 Thr Ile Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser 35 40 45 Ala Glu Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys 50 55 60 Ile Ala Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys 65 70 75 80 His Leu Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala 85 90 95 Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys 100 105 110 Leu Arg Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu 115 120 125 Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser 130 135 140 Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala 145 150 155 160 Asn Ala Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg 165 170 175 Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser 180 185 190 Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser 195 200 205 Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys 210 215 220 Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser 225 230 235 240 Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu 245 250 255 Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln 260 265 270 Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys 275 280 285 Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys 290 295 300 Lys Val Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg 305 310 315 320 Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile 325 330 335 Asp Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly 340 345 350 Ile Ala Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala 355 360 365 Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys 370 375 380 Lys Met Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys 385 390 395 400 Arg Ala Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu 405 410 415 Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala 420 425 430 Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln 435 440 445 Met Glu Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn 450 455 460 Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile 465 470 475 480 Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro 485 490 495 Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr 500 505 510 Phe Asn Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro His Phe Lys Cys 515 520 525 Glu Lys Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn Ala Ala Leu Asn 530 535 540 Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 12 <211> 557 <212> PRT <213> artificial sequence <220> <223> dTnpB (E450A) <400> 12 Met Gly Glu Lys Ser Ser Arg Arg Arg Arg Asn Gly Lys Ser Gly Ala 1 5 10 15 Trp Thr Ala Ala Ile Thr Ser Cys Val Gly Gly Lys Met Ala Lys Asn 20 25 30 Thr Ile Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser 35 40 45 Ala Glu Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys 50 55 60 Ile Ala Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys 65 70 75 80 His Leu Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala 85 90 95 Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys 100 105 110 Leu Arg Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu 115 120 125 Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser 130 135 140 Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala 145 150 155 160 Asn Ala Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg 165 170 175 Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser 180 185 190 Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser 195 200 205 Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys 210 215 220 Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser 225 230 235 240 Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu 245 250 255 Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln 260 265 270 Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys 275 280 285 Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys 290 295 300 Lys Val Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg 305 310 315 320 Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile 325 330 335 Asp Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly 340 345 350 Ile Asp Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala 355 360 365 Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys 370 375 380 Lys Met Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys 385 390 395 400 Arg Ala Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu 405 410 415 Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala 420 425 430 Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln 435 440 445 Met Ala Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn 450 455 460 Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile 465 470 475 480 Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro 485 490 495 Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr 500 505 510 Phe Asn Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro His Phe Lys Cys 515 520 525 Glu Lys Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn Ala Ala Leu Asn 530 535 540 Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 13 <211> 557 <212> PRT <213> artificial sequence <220> <223> dTnpB (R518A) <400> 13 Met Gly Glu Lys Ser Ser Arg Arg Arg Arg Asn Gly Lys Ser Gly Ala 1 5 10 15 Trp Thr Ala Ala Ile Thr Ser Cys Val Gly Gly Lys Met Ala Lys Asn 20 25 30 Thr Ile Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser 35 40 45 Ala Glu Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys 50 55 60 Ile Ala Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys 65 70 75 80 His Leu Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala 85 90 95 Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys 100 105 110 Leu Arg Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu 115 120 125 Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser 130 135 140 Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala 145 150 155 160 Asn Ala Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg 165 170 175 Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser 180 185 190 Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser 195 200 205 Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys 210 215 220 Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser 225 230 235 240 Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu 245 250 255 Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln 260 265 270 Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys 275 280 285 Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys 290 295 300 Lys Val Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg 305 310 315 320 Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile 325 330 335 Asp Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly 340 345 350 Ile Asp Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala 355 360 365 Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys 370 375 380 Lys Met Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys 385 390 395 400 Arg Ala Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu 405 410 415 Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala 420 425 430 Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln 435 440 445 Met Glu Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn 450 455 460 Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile 465 470 475 480 Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro 485 490 495 Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr 500 505 510 Phe Asn Phe Glu Tyr Ala Lys Lys Asn Lys Phe Pro His Phe Lys Cys 515 520 525 Glu Lys Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn Ala Ala Leu Asn 530 535 540 Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 14 <211> 557 <212> PRT <213> artificial sequence <220> <223> dTnpB (D538A) <400> 14 Met Gly Glu Lys Ser Ser Arg Arg Arg Arg Asn Gly Lys Ser Gly Ala 1 5 10 15 Trp Thr Ala Ala Ile Thr Ser Cys Val Gly Gly Lys Met Ala Lys Asn 20 25 30 Thr Ile Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser 35 40 45 Ala Glu Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys 50 55 60 Ile Ala Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys 65 70 75 80 His Leu Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala 85 90 95 Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys 100 105 110 Leu Arg Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu 115 120 125 Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser 130 135 140 Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala 145 150 155 160 Asn Ala Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg 165 170 175 Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser 180 185 190 Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser 195 200 205 Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys 210 215 220 Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser 225 230 235 240 Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu 245 250 255 Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln 260 265 270 Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys 275 280 285 Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys 290 295 300 Lys Val Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg 305 310 315 320 Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile 325 330 335 Asp Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly 340 345 350 Ile Asp Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala 355 360 365 Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys 370 375 380 Lys Met Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys 385 390 395 400 Arg Ala Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu 405 410 415 Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala 420 425 430 Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln 435 440 445 Met Glu Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn 450 455 460 Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile 465 470 475 480 Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro 485 490 495 Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr 500 505 510 Phe Asn Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro His Phe Lys Cys 515 520 525 Glu Lys Cys Asn Phe Lys Glu Asn Ala Ala Tyr Asn Ala Ala Leu Asn 530 535 540 Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 15 <211> 557 <212> PRT <213> artificial sequence <220> <223> 28aa-extension dCas12f1 (D354A) <400> 15 Met Ala Gly Gly Pro Gly Ala Gly Ser Ala Ala Pro Val Ser Ser Thr 1 5 10 15 Ser Ser Leu Pro Leu Ala Ala Leu Asn Met Arg Val Met Ala Lys Asn 20 25 30 Thr Ile Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser 35 40 45 Ala Glu Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys 50 55 60 Ile Ala Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys 65 70 75 80 His Leu Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala 85 90 95 Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys 100 105 110 Leu Arg Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu 115 120 125 Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser 130 135 140 Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala 145 150 155 160 Asn Ala Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg 165 170 175 Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser 180 185 190 Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser 195 200 205 Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys 210 215 220 Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser 225 230 235 240 Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu 245 250 255 Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln 260 265 270 Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys 275 280 285 Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys 290 295 300 Lys Val Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg 305 310 315 320 Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile 325 330 335 Asp Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly 340 345 350 Ile Ala Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala 355 360 365 Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys 370 375 380 Lys Met Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys 385 390 395 400 Arg Ala Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu 405 410 415 Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala 420 425 430 Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln 435 440 445 Met Glu Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn 450 455 460 Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile 465 470 475 480 Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro 485 490 495 Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr 500 505 510 Phe Asn Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro His Phe Lys Cys 515 520 525 Glu Lys Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn Ala Ala Leu Asn 530 535 540 Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 16 <211> 557 <212> PRT <213> artificial sequence <220> <223> 28aa-extension dCas12f1 (E450A) <400> 16 Met Ala Gly Gly Pro Gly Ala Gly Ser Ala Ala Pro Val Ser Ser Thr 1 5 10 15 Ser Ser Leu Pro Leu Ala Ala Leu Asn Met Arg Val Met Ala Lys Asn 20 25 30 Thr Ile Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser 35 40 45 Ala Glu Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys 50 55 60 Ile Ala Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys 65 70 75 80 His Leu Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala 85 90 95 Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys 100 105 110 Leu Arg Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu 115 120 125 Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser 130 135 140 Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala 145 150 155 160 Asn Ala Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg 165 170 175 Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser 180 185 190 Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser 195 200 205 Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys 210 215 220 Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser 225 230 235 240 Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu 245 250 255 Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln 260 265 270 Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys 275 280 285 Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys 290 295 300 Lys Val Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg 305 310 315 320 Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile 325 330 335 Asp Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly 340 345 350 Ile Asp Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala 355 360 365 Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys 370 375 380 Lys Met Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys 385 390 395 400 Arg Ala Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu 405 410 415 Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala 420 425 430 Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln 435 440 445 Met Ala Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn 450 455 460 Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile 465 470 475 480 Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro 485 490 495 Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr 500 505 510 Phe Asn Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro His Phe Lys Cys 515 520 525 Glu Lys Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn Ala Ala Leu Asn 530 535 540 Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 17 <211> 557 <212> PRT <213> artificial sequence <220> <223> 28aa-extension dCas12f1 (R518A) <400> 17 Met Ala Gly Gly Pro Gly Ala Gly Ser Ala Ala Pro Val Ser Ser Thr 1 5 10 15 Ser Ser Leu Pro Leu Ala Ala Leu Asn Met Arg Val Met Ala Lys Asn 20 25 30 Thr Ile Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser 35 40 45 Ala Glu Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys 50 55 60 Ile Ala Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys 65 70 75 80 His Leu Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala 85 90 95 Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys 100 105 110 Leu Arg Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu 115 120 125 Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser 130 135 140 Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala 145 150 155 160 Asn Ala Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg 165 170 175 Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser 180 185 190 Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser 195 200 205 Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys 210 215 220 Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser 225 230 235 240 Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu 245 250 255 Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln 260 265 270 Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys 275 280 285 Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys 290 295 300 Lys Val Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg 305 310 315 320 Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile 325 330 335 Asp Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly 340 345 350 Ile Asp Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala 355 360 365 Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys 370 375 380 Lys Met Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys 385 390 395 400 Arg Ala Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu 405 410 415 Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala 420 425 430 Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln 435 440 445 Met Glu Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn 450 455 460 Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile 465 470 475 480 Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro 485 490 495 Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr 500 505 510 Phe Asn Phe Glu Tyr Ala Lys Lys Asn Lys Phe Pro His Phe Lys Cys 515 520 525 Glu Lys Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn Ala Ala Leu Asn 530 535 540 Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 18 <211> 557 <212> PRT <213> artificial sequence <220> <223> 28aa-extension dCas12f1 (D538A) <400> 18 Met Ala Gly Gly Pro Gly Ala Gly Ser Ala Ala Pro Val Ser Ser Thr 1 5 10 15 Ser Ser Leu Pro Leu Ala Ala Leu Asn Met Arg Val Met Ala Lys Asn 20 25 30 Thr Ile Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser 35 40 45 Ala Glu Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys 50 55 60 Ile Ala Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys 65 70 75 80 His Leu Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala 85 90 95 Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys 100 105 110 Leu Arg Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu 115 120 125 Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser 130 135 140 Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala 145 150 155 160 Asn Ala Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg 165 170 175 Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser 180 185 190 Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser 195 200 205 Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys 210 215 220 Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser 225 230 235 240 Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu 245 250 255 Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln 260 265 270 Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys 275 280 285 Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys 290 295 300 Lys Val Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg 305 310 315 320 Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile 325 330 335 Asp Val Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly 340 345 350 Ile Asp Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala 355 360 365 Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys 370 375 380 Lys Met Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys 385 390 395 400 Arg Ala Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu 405 410 415 Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala 420 425 430 Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln 435 440 445 Met Glu Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn 450 455 460 Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile 465 470 475 480 Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro 485 490 495 Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr 500 505 510 Phe Asn Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro His Phe Lys Cys 515 520 525 Glu Lys Cys Asn Phe Lys Glu Asn Ala Ala Tyr Asn Ala Ala Leu Asn 530 535 540 Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 19 <211> 167 <212> PRT <213> artificial sequence <220> <223> Adenine deaminase Tad <400> 19 Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu 1 5 10 15 Thr Leu Ala Lys Arg Ala Trp Asp Glu Arg Glu Val Pro Val Gly Ala 20 25 30 Val Leu Val His Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Pro 35 40 45 Ile Gly Arg His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg 50 55 60 Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu 65 70 75 80 Tyr Val Thr Leu Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His 85 90 95 Ser Arg Ile Gly Arg Val Val Phe Gly Ala Arg Asp Ala Lys Thr Gly 100 105 110 Ala Ala Gly Ser Leu Met Asp Val Leu His His Pro Gly Met Asn His 115 120 125 Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu 130 135 140 Leu Ser Asp Phe Phe Arg Met Arg Arg Gln Glu Ile Lys Ala Gln Lys 145 150 155 160 Lys Ala Gln Ser Ser Thr Asp 165 <210> 20 <211> 167 <212> PRT <213> artificial sequence <220> <223> Adenine deaminase eTad <400> 20 Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu 1 5 10 15 Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg Glu Val Pro Val Gly Ala 20 25 30 Val Leu Val Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala 35 40 45 Ile Gly Leu His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg 50 55 60 Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu 65 70 75 80 Tyr Val Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His 85 90 95 Ser Arg Ile Gly Arg Val Val Phe Gly Val Arg Asn Ala Lys Thr Gly 100 105 110 Ala Ala Gly Ser Leu Met Asp Val Leu His Tyr Pro Gly Met Asn His 115 120 125 Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu 130 135 140 Leu Cys Tyr Phe Phe Arg Met Pro Arg Gln Val Phe Asn Ala Gln Lys 145 150 155 160 Lys Ala Gln Ser Ser Thr Asp 165 <210> 21 <211> 229 <212> PRT <213> artificial sequence <220> <223> cytidine deaminase APOBEC1 <400> 21 Met Ser Ser Glu Thr Gly Pro Val Ala Val Asp Pro Thr Leu Arg Arg 1 5 10 15 Arg Ile Glu Pro His Glu Phe Glu Val Phe Phe Asp Pro Arg Glu Leu 20 25 30 Arg Lys Glu Thr Cys Leu Leu Tyr Glu Ile Asn Trp Gly Gly Arg His 35 40 45 Ser Ile Trp Arg His Thr Ser Gln Asn Thr Asn Lys His Val Glu Val 50 55 60 Asn Phe Ile Glu Lys Phe Thr Thr Glu Arg Tyr Phe Cys Pro Asn Thr 65 70 75 80 Arg Cys Ser Ile Thr Trp Phe Leu Ser Trp Ser Pro Cys Gly Glu Cys 85 90 95 Ser Arg Ala Ile Thr Glu Phe Leu Ser Arg Tyr Pro His Val Thr Leu 100 105 110 Phe Ile Tyr Ile Ala Arg Leu Tyr His His Ala Asp Pro Arg Asn Arg 115 120 125 Gln Gly Leu Arg Asp Leu Ile Ser Ser Gly Val Thr Ile Gln Ile Met 130 135 140 Thr Glu Gln Glu Ser Gly Tyr Cys Trp Arg Asn Phe Val Asn Tyr Ser 145 150 155 160 Pro Ser Asn Glu Ala His Trp Pro Arg Tyr Pro His Leu Trp Val Arg 165 170 175 Leu Tyr Val Leu Glu Leu Tyr Cys Ile Ile Leu Gly Leu Pro Pro Cys 180 185 190 Leu Asn Ile Leu Arg Arg Lys Gln Pro Gln Leu Thr Phe Phe Thr Ile 195 200 205 Ala Leu Gln Ser Cys His Tyr Gln Arg Leu Pro Pro His Ile Leu Trp 210 215 220 Ala Thr Gly Leu Lys 225 <210> 22 <211> 199 <212> PRT <213> artificial sequence <220> <223> cytidine deaminase APOBEC3A <400> 22 Met Glu Ala Ser Pro Ala Ser Gly Pro Arg His Leu Met Asp Pro His 1 5 10 15 Ile Phe Thr Ser Asn Phe Asn Asn Gly Ile Gly Arg His Lys Thr Tyr 20 25 30 Leu Cys Tyr Glu Val Glu Arg Leu Asp Asn Gly Thr Ser Val Lys Met 35 40 45 Asp Gln His Arg Gly Phe Leu His Asn Gln Ala Lys Asn Leu Leu Cys 50 55 60 Gly Phe Tyr Gly Arg His Ala Glu Leu Arg Phe Leu Asp Leu Val Pro 65 70 75 80 Ser Leu Gln Leu Asp Pro Ala Gln Ile Tyr Arg Val Thr Trp Phe Ile 85 90 95 Ser Trp Ser Pro Cys Phe Ser Trp Gly Cys Ala Gly Glu Val Arg Ala 100 105 110 Phe Leu Gln Glu Asn Thr His Val Arg Leu Arg Ile Phe Ala Ala Arg 115 120 125 Ile Tyr Asp Tyr Asp Pro Leu Tyr Lys Glu Ala Leu Gln Met Leu Arg 130 135 140 Asp Ala Gly Ala Gln Val Ser Ile Met Thr Tyr Asp Glu Phe Lys His 145 150 155 160 Cys Trp Asp Thr Phe Val Asp His Gln Gly Cys Pro Phe Gln Pro Trp 165 170 175 Asp Gly Leu Asp Glu His Ser Gln Ala Leu Ser Gly Arg Leu Arg Ala 180 185 190 Ile Leu Gln Asn Gln Gly Asn 195 <210> 23 <211> 382 <212> PRT <213> artificial sequence <220> <223> cytidine deaminase APOBEC3B <400> 23 Met Asn Pro Gln Ile Arg Asn Pro Met Glu Arg Met Tyr Arg Asp Thr 1 5 10 15 Phe Tyr Asp Asn Phe Glu Asn Glu Pro Ile Leu Tyr Gly Arg Ser Tyr 20 25 30 Thr Trp Leu Cys Tyr Glu Val Lys Ile Lys Arg Gly Arg Ser Asn Leu 35 40 45 Leu Trp Asp Thr Gly Val Phe Arg Gly Gln Val Tyr Phe Lys Pro Gln 50 55 60 Tyr His Ala Glu Met Cys Phe Leu Ser Trp Phe Cys Gly Asn Gln Leu 65 70 75 80 Pro Ala Tyr Lys Cys Phe Gln Ile Thr Trp Phe Val Ser Trp Thr Pro 85 90 95 Cys Pro Asp Cys Val Ala Lys Leu Ala Glu Phe Leu Ser Glu His Pro 100 105 110 Asn Val Thr Leu Thr Ile Ser Ala Ala Arg Leu Tyr Tyr Tyr Trp Glu 115 120 125 Arg Asp Tyr Arg Arg Ala Leu Cys Arg Leu Ser Gln Ala Gly Ala Arg 130 135 140 Val Lys Ile Met Asp Tyr Glu Glu Phe Ala Tyr Cys Trp Glu Asn Phe 145 150 155 160 Val Tyr Asn Glu Gly Gln Gln Phe Met Pro Trp Tyr Lys Phe Asp Glu 165 170 175 Asn Tyr Ala Phe Leu His Arg Thr Leu Lys Glu Ile Leu Arg Tyr Leu 180 185 190 Met Asp Pro Asp Thr Phe Thr Phe Asn Phe Asn Asn Asp Pro Leu Val 195 200 205 Leu Arg Arg Arg Gln Thr Tyr Leu Cys Tyr Glu Val Glu Arg Leu Asp 210 215 220 Asn Gly Thr Trp Val Leu Met Asp Gln His Met Gly Phe Leu Cys Asn 225 230 235 240 Glu Ala Lys Asn Leu Leu Cys Gly Phe Tyr Gly Arg His Ala Glu Leu 245 250 255 Arg Phe Leu Asp Leu Val Pro Ser Leu Gln Leu Asp Pro Ala Gln Ile 260 265 270 Tyr Arg Val Thr Trp Phe Ile Ser Trp Ser Pro Cys Phe Ser Trp Gly 275 280 285 Cys Ala Gly Glu Val Arg Ala Phe Leu Gln Glu Asn Thr His Val Arg 290 295 300 Leu Arg Ile Phe Ala Ala Arg Ile Tyr Asp Tyr Asp Pro Leu Tyr Lys 305 310 315 320 Glu Ala Leu Gln Met Leu Arg Asp Ala Gly Ala Gln Val Ser Ile Met 325 330 335 Thr Tyr Asp Glu Phe Glu Tyr Cys Trp Asp Thr Phe Val Tyr Arg Gln 340 345 350 Gly Cys Pro Ser Gln Pro Trp Asp Gly Leu Glu Glu His Ser Gln Ala 355 360 365 Leu Ser Gly Arg Leu Arg Ala Ile Leu Gln Asn Gln Gly Asn 370 375 380 <210> 24 <211> 21 <212> RNA <213> artificial sequence <220> <223> The first region of tracrRNA for Cas12f1 gRNA <400> 24 cuucacugau aaaguggaga a 21 <210> 25 <211> 50 <212> RNA <213> artificial sequence <220> <223> The second region of tracrRNA for Cas12f1 gRNA <400> 25 ccgcuucacc aaaagcuguc ccuuagggga uuagaacuug agugaaggug 50 <210> 26 <211> 58 <212> RNA <213> artificial sequence <220> <223> The third region of tracrRNA for Cas12f1 gRNA <400> 26 58 <210> 27 <211> 32 <212> RNA <213> artificial sequence <220> <223> The fourth region of tracrRNA for Cas12f1 gRNA <400> 27 caaauucann nvnccucucc aauucugcac aa 32 <210> 28 <211> 13 <212> RNA <213> artificial sequence <220> <223> The fourth region of tracrRNA for Cas12f1 gRNA <400> 28 caaauucann nvn 13 <210> 29 <211> 13 <212> RNA <213> artificial sequence <220> <223> The fourth region of tracrRNA for Cas12f1 gRNA <400> 29 caaauucann ncn 13 <210> 30 <211> 37 <212> RNA <213> artificial sequence <220> <223> crRNA for Cas12f1 gRNA <400> 30 guugcagaac ccgaauagac gaaugaagga augcaac 37 <210> 31 <211> 30 <212> RNA <213> artificial sequence <220> <223> The fifth region for Cas12f1 gRNA <400> 31 guugcagaac ccgaauagnb nnnugaagga 30 <210> 32 <211> 12 <212> RNA <213> artificial sequence <220> <223> The fifth region for Cas12f1 gRNA <400> 32 nbnnnugaag ga 12 <210> 33 <211> 7 <212> RNA <213> artificial sequence <220> <223> The sixth region for Cas12f1 gRNA <400> 33 augcaac 7 <210> 34 <211> 161 <212> RNA <213> artificial sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 34 cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60 gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120 cccucgaaac aaauucannn cnccucucca auucugcaca a 161 <210> 35 <211> 141 <212> RNA <213> artificial sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 35 accgcuucac caaaagcugu cccuuagggg auuagaacuu gagugaaggu gggcugcuug 60 caucagccua augucgagaa gugcuuucuu cggaaaguaa cccucgaaac aaauucannn 120 cnccucucca auucugcaca a 141 <210> 36 <211> 135 <212> RNA <213> artificial sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 36 cuucacugau aaaguggaga accgcuucac cuuagaguga aggugggcug cuugcaucag 60 ccuaaugucg agaagugcuu ucuucggaaa guaacccucg aaacaaauuc annncnccuc 120 uccaauucug cacaa 135 <210> 37 <211> 115 <212> RNA <213> artificial sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 37 accgcuucac cuuagaguga aggugggcug cuugcaucag ccuaaugucg agaagugcuu 60 ucuucggaaa guaacccucg aaacaaauuc annncnccuc uccaauucug cacaa 115 <210> 38 <211> 37 <212> RNA <213> artificial sequence <220> <223> engineered crRNA for Cas12f1 gRNA <400> 38 guugcagaac ccgaauagng nnnugaagga augcaac 37 <210> 39 <211> 161 <212> RNA <213> artificial sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 39 cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60 gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120 cccucgaaac aaauucagug cuccucucca auucugcaca a 161 <210> 40 <211> 141 <212> RNA <213> artificial sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 40 accgcuucac caaaagcugu cccuuagggg auuagaacuu gagugaaggu gggcugcuug 60 caucagccua augucgagaa gugcuuucuu cggaaaguaa cccucgaaac aaauucagug 120 cuccucucca auucugcaca a 141 <210> 41 <211> 134 <212> RNA <213> artificial sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 41 cuucacugau aaaguggaga accgcuucac uuagagugaa ggugggcugc uugcaucagc 60 120 ccaauucugc acaa 134 <210> 42 <211> 114 <212> RNA <213> artificial sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 42 accgcuucac uuagagugaa ggugggcugc uugcaucagc cuaaugucga gaagugcuuu 60 cuucggaaag uaacccucga aacaaauuca gugcuccucu ccaauucugc acaa 114 <210> 43 <211> 37 <212> RNA <213> artificial sequence <220> <223> engineered crRNA for Cas12f1 gRNA <400> 43 guugcagaac ccgaauagag caaugaagga augcaac 37 <210> 44 <211> 148 <212> RNA <213> artificial sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 44 cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60 gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120 cccucgaaac aaauucannn cnccucuc 148 <210> 45 <211> 128 <212> RNA <213> artificial sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 45 accgcuucac caaaagcugu cccuuagggg auuagaacuu gagugaaggu gggcugcuug 60 caucagccua augucgagaa gugcuuucuu cggaaaguaa cccucgaaac aaauucannn 120 cnccucuc 128 <210> 46 <211> 127 <212> RNA <213> artificial sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 46 cuucacugau aaaguggaga accgcuucac caauuaguug agugaaggug ggcugcuugc 60 aucagccuaa ugucgagaag ugcuuucuuc ggaaaguaac ccucgaaaca aauucannnc 120 nccucuc 127 <210> 47 <211> 101 <212> RNA <213> artificial sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 47 accgcuucac uuagagugaa ggugggcugc uugcaucagc cuaaugucga gaagugcuuu 60 cuucggaaag uaacccucga aacaaauuca nnncnccucu c 101 <210> 48 <211> 25 <212> RNA <213> artificial sequence <220> <223> engineered crRNA for Cas12f1 gRNA <400> 48 gaauagngnn nugaaggaau gcaac 25 <210> 49 <211> 147 <212> RNA <213> artificial sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 49 cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60 gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120 cccucgaaac aaauucgugc uccucuc 147 <210> 50 <211> 128 <212> RNA <213> artificial sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 50 accgcuucac caaaagcugu cccuuagggg auuagaacuu gagugaaggu gggcugcuug 60 caucagccua augucgagaa gugcuuucuu cggaaaguaa cccucgaaac aaauucagug 120 128 <210> 51 <211> 127 <212> RNA <213> artificial sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 51 cuucacugau aaaguggaga accgcuucac caauuaguug agugaaggug ggcugcuugc 60 aucagccuaa ugucgagaag ugcuuucuuc ggaaaguaac ccucgaaaca aauucagugc 120 127 <210> 52 <211> 107 <212> RNA <213> artificial sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 52 accgcuucac caauuaguug agugaaggug ggcugcuugc aucagccuaa ugucgagaag 60 ugcuuucuuc ggaaaguaac ccucgaaaca aauucagugc uccucuc 107 <210> 53 <211> 25 <212> RNA <213> artificial sequence <220> <223> engineered crRNA for Cas12f1 gRNA <400> 53 gaauagagca augaaggaau gcaac 25 <210> 54 <211> 222 <212> RNA <213> artificial sequence <220> <223> Canonical sgRNA for Cas12f1 <400> 54 cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60 gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120 cccucgaaac aaauucauuu uuccucucca auucugcaca agaaaguugc agaacccgaa 180 uagacgaaug aaggaaugca acnnnnnnnn nnnnnnnnnn nn 222 <210> 55 <211> 222 <212> RNA <213> artificial sequence <220> <223> Engineered sgRNA with modification of MS1 for Cas12f1 <400> 55 cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60 gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120 cccucgaaac aaauucagug cuccucucca auucugcaca agaaaguugc agaacccgaa 180 uagagcaaug aaggaaugca acnnnnnnnn nnnnnnnnnn nn 222 <210> 56 <211> 233 <212> RNA <213> artificial sequence <220> <223> Engineered sgRNA with modification of MS1/MS2 for Cas12f1 <400> 56 cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60 gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120 cccucgaaac aaauucagug cuccucucca auucugcaca agaaaguugc agaacccgaa 180 uagagcaaug aaggaaugca acnnnnnnnn nnnnnnnnnn nnuuuuauuu uuu 233 <210> 57 <211> 213 <212> RNA <213> artificial sequence <220> <223> Engineered sgRNA with modification of MS1/MS2/MS3 for Cas12f1 <400> 57 accgcuucac caaaagcugu cccuuagggg auuagaacuu gagugaaggu gggcugcuug 60 caucagccua augucgagaa gugcuuucuu cggaaaguaa cccucgaaac aaauucagug 120 cuccucucca auucugcaca agaaaguugc agaacccgaa uagagcaaug aaggaaugca 180 acnnnnnnnn nnnnnnnnnn nnuuuuauuu uuu 213 <210> 58 <211> 158 <212> RNA <213> artificial sequence <220> <223> Engineered sgRNA with modification of MS2/MS3/MS4 for Cas12f1 <400> 58 accgcuucac caaaagcugu cccuuagggg auuagaacuu gagugaaggu gggcugcuug 60 caucagccua augucgagaa gugcuuucuu cggaaaguaa cccucgaaac aaagaaagga 120 augcaacnnn nnnnnnnnnn nnnnnnnuuu uauuuuuu 158 <210> 59 <211> 131 <212> RNA <213> artificial sequence <220> <223> Engineered sgRNA with modification of MS2/MS3/MS4/MS5 for Cas12f1 <400> 59 accgcuucac uuagagugaa ggugggcugc uugcaucagc cuaaugucga gaagugcuuu 60 cuucggaaag uaacccucga aacaaagaaa ggaugcaac nnnnnnnnnn nnnnnnnnnn 120 uuuuauuuuu u 131 <210> 60 <211> 21 <212> DNA <213> artificial sequence <220> <223> NLS Sequence <400> 60 ccaaagaaga agcggaaggt c 21 <210> 61 <211> 48 <212> DNA <213> artificial sequence <220> <223> NLS Sequence <400> 61 aaaaggccgg cggccacgaa aaaggccggc caggcaaaaa agaaaaag 48 <210> 62 <211> 32 <212> PRT <213> artificial sequence <220> <223> linker <400> 62 Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr 1 5 10 15 Ser Glu Ser Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly Gly Ser 20 25 30 <210> 63 <211> 14 <212> PRT <213> artificial sequence <220> <223> linker <400> 63 Ser Gly Gly Ser Lys Arg Thr Ala Asp Gly Ser Glu Phe Glu 1 5 10 <210> 64 <211> 13 <212> PRT <213> artificial sequence <220> <223> linker <400> 64 Glu Ala Ser Ser Pro Lys Lys Arg Lys Val Glu Ala Ser 1 5 10 <210> 65 <211> 7 <212> PRT <213> artificial sequence <220> <223> NLS <400> 65 Pro Lys Lys Lys Arg Lys Val 1 5 <210> 66 <211> 16 <212> PRT <213> artificial sequence <220> <223> NLS <400> 66 Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys Lys Lys Lys 1 5 10 15 <210> 67 <211> 9 <212> PRT <213> artificial sequence <220> <223> NLS <400> 67 Pro Ala Ala Lys Arg Val Lys Leu Asp 1 5 <210> 68 <211> 11 <212> PRT <213> artificial sequence <220> <223> NLS <400> 68 Arg Gln Arg Arg Asn Glu Leu Lys Arg Ser Pro 1 5 10 <210> 69 <211> 161 <212> RNA <213> artificial sequence <220> <223> tracrRNA for Cas12f1 gRNA <400> 69 cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60 gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120 cccucgaaac aaauucauuu uuccucucca auucugcaca a 161 <210> 70 <211> 140 <212> RNA <213> artificial sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 70 cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60 gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120 cccucgaaac aaauucauuu 140 <210> 71 <211> 161 <212> RNA <213> artificial sequence <220> <223> engineered tracrRNA for Cas12f1 gRNA <400> 71 cuucacugau aaaguggaga accgcuucac caaaagcugu cccuuagggg auuagaacuu 60 gagugaaggu gggcugcuug caucagccua augucgagaa gugcuuucuu cggaaaguaa 120 cccucgaaac aaauucannn nnccucucca auucugcaca a 161 <210> 72 <211> 17 <212> RNA <213> artificial sequence <220> <223> engineered crRNA for Cas12f1 gRNA <400> 72 gaaugaagga augcaac 17 <210> 73 <211> 10 <212> RNA <213> artificial sequence <220> <223> engineered crRNA for Cas12f1 gRNA <400> 73 ggaaugcaac 10 <210> 74 <211> 32 <212> RNA <213> artificial sequence <220> <223> The fourth region of tracrRNA for Cas12f1 gRNA <400> 74 caaauucauu uuuccucucc aauucugcac aa 32 <210> 75 <211> 30 <212> RNA <213> artificial sequence <220> <223> The fifth region for Cas12f1 gRNA <400> 75 guugcagaac ccgaauagac gaaugaagga 30 <210> 76 <211> 10 <212> RNA <213> artificial sequence <220> <223> The fifth region for Cas12f1 gRNA <400> 76 gaaugaagga 10 <210> 77 <211> 7 <212> RNA <213> artificial sequence <220> <223> U-rich tail <400> 77 uuuruuu 7 <210> 78 <211> 11 <212> RNA <213> artificial sequence <220> <223> U-rich tail <400> 78 uuuruuuruu u 11 <210> 79 <211> 6 <212> RNA <213> artificial sequence <220> <223> U-rich tail <400> 79 uuuuru 6 <210> 80 <211> 7 <212> RNA <213> artificial sequence <220> <223> U-rich tail <400> 80 uuuuruu 7 <210> 81 <211> 8 <212> RNA <213> artificial sequence <220> <223> U-rich tail <400> 81 uuuuruuu 8 <210> 82 <211> 9 <212> RNA <213> artificial sequence <220> <223> U-rich tail <400> 82 uuuuruuuu 9 <210> 83 <211> 10 <212> RNA <213> artificial sequence <220> <223> U-rich tail <400> 83 uuuuruuuuu 10 <210> 84 <211> 11 <212> RNA <213> artificial sequence <220> <223> U-rich tail <400> 84 uuuuruuuuu u 11 <210> 85 <211> 7 <212> RNA <213> artificial sequence <220> <223> U-rich tail <400> 85 uuuauuu 7 <210> 86 <211> 11 <212> RNA <213> artificial sequence <220> <223> U-rich tail <400> 86 uuuauuuuu u 11 <210> 87 <211> 6 <212> RNA <213> artificial sequence <220> <223> U-rich tail <400> 87 uuuuu 6 <210> 88 <211> 7 <212> RNA <213> artificial sequence <220> <223> U-rich tail <400> 88 uuuuauu 7 <210> 89 <211> 8 <212> RNA <213> artificial sequence <220> <223> U-rich tail <400> 89 uuuuauuu 8 <210> 90 <211> 9 <212> RNA <213> artificial sequence <220> <223> U-rich tail <400> 90 uuuuauuuu 9 <210> 91 <211> 10 <212> RNA <213> artificial sequence <220> <223> U-rich tail <400> 91 uuuuauuuuu 10 <210> 92 <211> 11 <212> RNA <213> artificial sequence <220> <223> U-rich tail <400> 92 uuuuauuuuu u 11 <210> 93 <211> 7 <212> RNA <213> artificial sequence <220> <223> U-rich tail <400> 93 uuuguuu 7 <210> 94 <211> 11 <212> RNA <213> artificial sequence <220> <223> U-rich tail <400> 94 uuuguuuguu u 11 <210> 95 <211> 6 <212> RNA <213> artificial sequence <220> <223> U-rich tail <400> 95 uuuugu 6 <210> 96 <211> 7 <212> RNA <213> artificial sequence <220> <223> U-rich tail <400> 96 uuuuguu 7 <210> 97 <211> 8 <212> RNA <213> artificial sequence <220> <223> U-rich tail <400> 97 uuuuguuu 8 <210> 98 <211> 9 <212> RNA <213> artificial sequence <220> <223> U-rich tail <400> 98 uuuuguuuu 9 <210> 99 <211> 10 <212> RNA <213> artificial sequence <220> <223> U-rich tail <400> 99 uuuuguuuuu 10 <210> 100 <211> 11 <212> RNA <213> artificial sequence <220> <223> U-rich tail <400> 100 uuuuguuuuu u 11 <210> 101 <211> 6 <212> RNA <213> artificial sequence <220> <223> U-rich tail <400> 101 uuuuuu 6 <210> 102 <211> 110 <212> RNA <213> artificial sequence <220> <223> Engineered Cas12f1 gRNA <400> 102 cuucacugau aaaguggaga agcugcuugc aucagccuaa ugucgagaag ugcuuucuuc 60 ggaaaguaac ccucgaaaca aauucauuug aaagaaugaa ggaaugcaac 110 <210> 103 <211> 26 <212> RNA <213> artificial sequence <220> <223> The third region of tracrRNA for Cas12f1 gRNA <400> 103 gcugcuugca ucagccuaau gucgag 26 <210> 104 <211> 10 <212> RNA <213> artificial sequence <220> <223> The fourth region of tracrRNA for Cas12f1 gRNA <400> 104 aacaaauuca 10 <210> 105 <211> 11 <212> RNA <213> artificial sequence <220> <223> The fourth region of tracrRNA for Cas12f1 gRNA <400> 105 aacaaauuca u 11 <210> 106 <211> 12 <212> RNA <213> artificial sequence <220> <223> The fourth region of tracrRNA for Cas12f1 gRNA <400> 106 aacaaauuca uu 12 <210> 107 <211> 10 <212> RNA <213> artificial sequence <220> <223> The additional sequence for Cas12f1 gRNA <400> 107 auaaagguga 10 <210> 108 <211> 37 <212> RNA <213> artificial sequence <220> <223> The additional sequence for Cas12f1 gRNA <400> 108 cugaugaguc cgugaggacg aaacgaguaa gcucguc 37 <210> 109 <211> 37 <212> RNA <213> artificial sequence <220> <223> The additional sequence for Cas12f1 gRNA <400> 109 cugcucgaau gagcaaagca ggagugccug aguaguc 37 <210> 110 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-1 sequence <400> 110 tttgcacaca cacagtgggc tacc 24 <210> 111 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-2 sequence <400> 111 tttgcatccc caggacacac acac 24 <210> 112 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-3 sequence <400> 112 tttacaaaga cactcaccct gttg 24 <210> 113 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-4 sequence <400> 113 tttaaagaaa gctacaggaa agca 24 <210> 114 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-5 sequence <400> 114 tttacaaaac ccaactgatt cacc 24 <210> 115 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-6 sequence <400> 115 tttacaaaag ctaccacaca tagc 24 <210> 116 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-7 sequence <400> 116 tttacaaaac tgtggccaat acag 24 <210> 117 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-8 sequence <400> 117 tttggaaaac tgcaggcaag attc 24 <210> 118 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-9 sequence <400> 118 tttgcaaaac tgtacacgtg ggcc 24 <210> 119 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-10 sequence <400> 119 tttgcaaaac gtgcacaatg tgca 24 <210> 120 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-11 sequence <400> 120 tttaccccca caggattgta ataa 24 <210> 121 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-12 sequence <400> 121 tttaggccaa gtgcgaagtc agag 24 <210> 122 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-13 sequence <400> 122 tttactagga cactcaccct gttg 24 <210> 123 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-14 sequence <400> 123 tttgctagca cacagtgggc agag 24 <210> 124 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-15 sequence <400> 124 tttactagga cactcaccct ggag 24 <210> 125 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-16 sequence <400> 125 tttactagtc ggccattcag agag 24 <210> 126 <211> 167 <212> PRT <213> artificial sequence <220> <223> TadA <400> 126 Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu 1 5 10 15 Thr Leu Ala Lys Arg Ala Trp Asp Glu Arg Glu Val Pro Val Gly Ala 20 25 30 Val Leu Val His Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Pro 35 40 45 Ile Gly Arg His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg 50 55 60 Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu 65 70 75 80 Tyr Val Thr Leu Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His 85 90 95 Ser Arg Ile Gly Arg Val Val Phe Gly Ala Arg Asp Ala Lys Thr Gly 100 105 110 Ala Ala Gly Ser Leu Met Asp Val Leu His His Pro Gly Met Asn His 115 120 125 Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu 130 135 140 Leu Ser Asp Phe Phe Arg Met Arg Arg Gln Glu Ile Lys Ala Gln Lys 145 150 155 160 Lys Ala Gln Ser Ser Thr Asp 165 <210> 127 <211> 167 <212> PRT <213> artificial sequence <220> <223> eTadA1 <400> 127 Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu 1 5 10 15 Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg Glu Val Pro Val Gly Ala 20 25 30 Val Leu Val Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala 35 40 45 Ile Gly Leu His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg 50 55 60 Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu 65 70 75 80 Tyr Val Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His 85 90 95 Ser Arg Ile Gly Arg Val Val Phe Gly Val Arg Asn Ala Lys Thr Gly 100 105 110 Ala Ala Gly Ser Leu Met Asp Val Leu His Tyr Pro Gly Met Asn His 115 120 125 Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu 130 135 140 Leu Cys Tyr Phe Phe Arg Met Pro Arg Gln Val Phe Asn Ala Gln Lys 145 150 155 160 Lys Ala Gln Ser Ser Thr Asp 165 <210> 128 <211> 167 <212> PRT <213> artificial sequence <220> <223> dTadA (E59A) <400> 128 Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu 1 5 10 15 Thr Leu Ala Lys Arg Ala Trp Asp Glu Arg Glu Val Pro Val Gly Ala 20 25 30 Val Leu Val His Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Pro 35 40 45 Ile Gly Arg His Asp Pro Thr Ala His Ala Ala Ile Met Ala Leu Arg 50 55 60 Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu 65 70 75 80 Tyr Val Thr Leu Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His 85 90 95 Ser Arg Ile Gly Arg Val Val Phe Gly Ala Arg Asp Ala Lys Thr Gly 100 105 110 Ala Ala Gly Ser Leu Met Asp Val Leu His His Pro Gly Met Asn His 115 120 125 Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu 130 135 140 Leu Ser Asp Phe Phe Arg Met Arg Arg Gln Glu Ile Lys Ala Gln Lys 145 150 155 160 Lys Ala Gln Ser Ser Thr Asp 165 <210> 129 <211> 167 <212> PRT <213> artificial sequence <220> <223> deTadA1 (E59A) <400> 129 Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu 1 5 10 15 Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg Glu Val Pro Val Gly Ala 20 25 30 Val Leu Val Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala 35 40 45 Ile Gly Leu His Asp Pro Thr Ala His Ala Ala Ile Met Ala Leu Arg 50 55 60 Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu 65 70 75 80 Tyr Val Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His 85 90 95 Ser Arg Ile Gly Arg Val Val Phe Gly Val Arg Asn Ala Lys Thr Gly 100 105 110 Ala Ala Gly Ser Leu Met Asp Val Leu His Tyr Pro Gly Met Asn His 115 120 125 Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu 130 135 140 Leu Cys Tyr Phe Phe Arg Met Pro Arg Gln Val Phe Asn Ala Gln Lys 145 150 155 160 Lys Ala Gln Ser Ser Thr Asp 165 <210> 130 <211> 167 <212> PRT <213> artificial sequence <220> <223> eTadA2 <400> 130 Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu 1 5 10 15 Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg Glu Val Pro Val Gly Ala 20 25 30 Val Leu Val Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala 35 40 45 Ile Gly Leu His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg 50 55 60 Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu 65 70 75 80 Tyr Val Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His 85 90 95 Ser Arg Ile Gly Arg Val Val Phe Gly Trp Arg Asn Ser Lys Arg Gly 100 105 110 Ala Ala Gly Ser Leu Met Asn Val Leu Asn Tyr Pro Gly Met Asn His 115 120 125 Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu 130 135 140 Leu Cys Asp Phe Tyr Arg Met Pro Arg Gln Val Phe Asn Ala Gln Lys 145 150 155 160 Lys Ala Gln Ser Ser Ile Asn 165 <210> 131 <211> 167 <212> PRT <213> artificial sequence <220> <223> eTadA3 <400> 131 Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu 1 5 10 15 Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg Glu Val Pro Val Gly Ala 20 25 30 Val Leu Val Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala 35 40 45 Ile Gly Leu His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg 50 55 60 Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu 65 70 75 80 Tyr Val Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His 85 90 95 Ser Arg Ile Gly Arg Val Val Phe Gly Trp Arg Gln Ser Lys Arg Gly 100 105 110 Ala Ala Gly Ser Leu Met Asn Val Leu Asn Tyr Pro Gly Met Asn His 115 120 125 Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu 130 135 140 Leu Cys Asp Phe Tyr Arg Met Pro Arg Gln Val Phe Asn Ala Gln Lys 145 150 155 160 Lys Ala Gln Ser Ser Ile Asn 165 <210> 132 <211> 5 <212> PRT <213> artificial sequence <220> <223> linker <400> 132 Gly Gly Gly Gly Ser 1 5 <210> 133 <211> 5 <212> PRT <213> artificial sequence <220> <223> linker <400> 133 Glu Ala Ala Ala Lys 1 5 <210> 134 <211> 16 <212> PRT <213> artificial sequence <220> <223> linker <400> 134 Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser 1 5 10 15 <210> 135 <211> 4 <212> PRT <213> artificial sequence <220> <223> linker <400> 135 Ser Gly Gly Ser One <210> 136 <211> 24 <212> DNA <213> artificial sequence <220> <223> linker <400> 136 ggtatccacg gagtcccagc agcc 24 <210> 137 <211> 167 <212> PRT <213> artificial sequence <220> <223> eTadA7 <400> 137 Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu 1 5 10 15 Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg Glu Val Pro Val Gly Ala 20 25 30 Val Leu Val Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala 35 40 45 Ile Gly Leu His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg 50 55 60 Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu 65 70 75 80 Tyr Val Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His 85 90 95 Ser Arg Ile Gly Arg Val Val Phe Gly Val Arg Asn Ser Lys Arg Gly 100 105 110 Ala Ala Gly Ser Leu Met Asn Val Leu Asn Tyr Pro Gly Met Asn His 115 120 125 Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu 130 135 140 Leu Cys Asp Phe Tyr Arg Met Pro Arg Gln Val Phe Asn Ala Gln Lys 145 150 155 160 Lys Ala Gln Ser Ser Ile Asn 165 <210> 138 <211> 167 <212> PRT <213> artificial sequence <220> <223> eTadA8 <400> 138 Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu 1 5 10 15 Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg Glu Val Pro Val Gly Ala 20 25 30 Val Leu Val Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala 35 40 45 Ile Gly Leu His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg 50 55 60 Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu 65 70 75 80 Tyr Val Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His 85 90 95 Ser Arg Ile Gly Arg Val Val Phe Gly Trp Arg Asn Ala Lys Thr Gly 100 105 110 Ala Ala Gly Ser Leu Met Asp Val Leu His Tyr Pro Gly Met Asn His 115 120 125 Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu 130 135 140 Leu Cys Tyr Phe Phe Arg Met Pro Arg Gln Val Phe Asn Ala Gln Lys 145 150 155 160 Lys Ala Gln Ser Ser Thr Asp 165 <210> 139 <211> 167 <212> PRT <213> artificial sequence <220> <223> eTadA9 <400> 139 Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu 1 5 10 15 Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg Glu Val Pro Val Gly Ala 20 25 30 Val Leu Val Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala 35 40 45 Ile Gly Leu His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg 50 55 60 Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu 65 70 75 80 Tyr Val Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His 85 90 95 Ser Arg Ile Gly Arg Val Val Phe Gly Trp Arg Gln Ala Lys Thr Gly 100 105 110 Ala Ala Gly Ser Leu Met Asp Val Leu His Tyr Pro Gly Met Asn His 115 120 125 Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu 130 135 140 Leu Cys Tyr Phe Phe Arg Met Pro Arg Gln Val Phe Asn Ala Gln Lys 145 150 155 160 Lys Ala Gln Ser Ser Thr Asp 165 <210> 140 <211> 167 <212> PRT <213> artificial sequence <220> <223> eTadA10 <400> 140 Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu 1 5 10 15 Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg Glu Val Pro Val Gly Ala 20 25 30 Val Leu Val Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala 35 40 45 Ile Gly Leu His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg 50 55 60 Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Tyr Asp Ala Thr Leu 65 70 75 80 Tyr Ser Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His 85 90 95 Ser Arg Ile Gly Arg Val Val Phe Gly Val Arg Asn Ala Lys Thr Gly 100 105 110 Ala Ala Gly Ser Leu Met Asp Val Leu His His Pro Gly Met Asn His 115 120 125 Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu 130 135 140 Leu Cys Arg Phe Phe Arg Met Pro Arg Arg Val Phe Asn Ala Gln Lys 145 150 155 160 Lys Ala Gln Ser Ser Thr Asp 165 <210> 141 <211> 167 <212> PRT <213> artificial sequence <220> <223> eTadA11 <400> 141 Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu 1 5 10 15 Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg Glu Val Pro Val Gly Ala 20 25 30 Val Leu Val Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala 35 40 45 Ile Gly Leu His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg 50 55 60 Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu 65 70 75 80 Tyr Val Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His 85 90 95 Ser Arg Ile Gly Arg Val Val Phe Gly Trp Arg Asn Ala Lys Thr Gly 100 105 110 Ala Ala Gly Ser Leu Met Asp Val Leu His Tyr Pro Gly Met Asn His 115 120 125 Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu 130 135 140 Leu Cys Tyr Phe Phe Arg Met Pro Arg Gln Val Phe Asn Ala Gln Lys 145 150 155 160 Lys Ala Gln Ser Ser Thr Asp 165 <210> 142 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-17 sequence <400> 142 tttagcagtc ggaatggcgg atgg 24 <210> 143 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-18 sequence <400> 143 tttaagaaca catacccctg ggcc 24 <210> 144 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-19 sequence <400> 144 tttgcagtgt gtgcaggaac ggag 24 <210> 145 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-20 sequence <400> 145 tttaatacag aaatcctaaa tggt 24 <210> 146 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-21 sequence <400> 146 tttaaagaaa gctacaggaa agca 24 <210> 147 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-22 sequence <400> 147 tttaaataag tcttaccacg tgtc 24 <210> 148 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-23 sequence <400> 148 tttaacaaag aaaccagcag tggc 24 <210> 149 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-24 sequence <400> 149 tttaacaagt tcagaatcac ctta 24 <210> 150 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-25 sequence <400> 150 tttaaggact atgtgtggcc agtg 24 <210> 151 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-26 sequence <400> 151 tttacaaaga aatgtactgc ctta 24 <210> 152 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-27 sequence <400> 152 tttacaacag cctcaccagg aaca 24 <210> 153 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-28 sequence <400> 153 tttacacaag ggatctgaga cttg 24 <210> 154 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-29 sequence <400> 154 tttacacata ggccattcag aaac 24 <210> 155 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-30 sequence <400> 155 tttacagagt cccgggaaca agcc 24 <210> 156 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-31 sequence <400> 156 tttacataca gggctctgta ccca 24 <210> 157 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-32 sequence <400> 157 tttactgaga tttgcgaaga gtta 24 <210> 158 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-33 sequence <400> 158 tttacttagt agtctcagaa ccaa 24 <210> 159 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-34 sequence <400> 159 tttagaaata tgactggaag taaa 24 <210> 160 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-35 sequence <400> 160 tttagagaga ccgctcaggc tgga 24 <210> 161 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-36 sequence <400> 161 tttagcagta cacctgaggg aaca 24 <210> 162 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-37 sequence <400> 162 tttagcatta aggccagcgc tggg 24 <210> 163 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-38 sequence <400> 163 tttagccatg gtgaaggtga aatc 24 <210> 164 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-39 sequence <400> 164 tttaggcaag ggtcttgatg catc 24 <210> 165 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-40 sequence <400> 165 tttagtaggc tgctgttgga caga 24 <210> 166 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-41 sequence <400> 166 tttagtcaaa taaagaaaaa tacg 24 <210> 167 <211> 24 <212> DNA <213> artificial sequence <220> <223> Target-42 sequence <400> 167 tttaagagca gcgattgtaa ggag 24 <210> 168 <211> 555 <212> PRT <213> artificial sequence <220> <223> CasX-Cas12f1 (D352A) <400> 168 Met Glu Lys Arg Ile Asn Lys Ile Arg Lys Lys Leu Ser Ala Asp Asn 1 5 10 15 Ala Thr Lys Pro Val Ser Arg Ser Gly Pro Met Ala Lys Asn Thr Ile 20 25 30 Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser Ala Glu 35 40 45 Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys Ile Ala 50 55 60 Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys His Leu 65 70 75 80 Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala Cys Leu 85 90 95 Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys Leu Arg 100 105 110 Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu Ile Phe 115 120 125 Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser Leu Ile 130 135 140 Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala Asn Ala 145 150 155 160 Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg Ala Ala 165 170 175 Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser Lys Ile 180 185 190 Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser Gly Leu 195 200 205 Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys Gln Lys 210 215 220 Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser Asp Phe 225 230 235 240 Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu Ile Asp 245 250 255 Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln Lys Ser 260 265 270 Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys Arg Asn 275 280 285 Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys Lys Val 290 295 300 Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg Gly Ser 305 310 315 320 Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile Asp Val 325 330 335 Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly Ile Ala 340 345 350 Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala Phe Ser 355 360 365 Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys Lys Met 370 375 380 Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys Arg Ala 385 390 395 400 Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu Thr Glu 405 410 415 Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala Cys Glu 420 425 430 Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln Met Glu 435 440 445 Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn Ile Arg 450 455 460 Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile Glu Phe 465 470 475 480 Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro Asn Asn 485 490 495 Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr Phe Asn 500 505 510 Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro His Phe Lys Cys Glu Lys 515 520 525 Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn Ala Ala Leu Asn Ile Ser 530 535 540 Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 169 <211> 483 <212> PRT <213> artificial sequence <220> <223> CasX-Cas12f1 (E448A) <400> 169 Lys Glu Ala Cys Ser Lys His Leu Lys Val Ala Ala Tyr Cys Thr Thr 1 5 10 15 Gln Val Glu Arg Asn Ala Cys Leu Phe Cys Lys Ala Arg Lys Leu Asp 20 25 30 Asp Lys Phe Tyr Gln Lys Leu Arg Gly Gln Phe Pro Asp Ala Val Phe 35 40 45 Trp Gln Glu Ile Ser Glu Ile Phe Arg Gln Leu Gln Lys Gln Ala Ala 50 55 60 Glu Ile Tyr Asn Gln Ser Leu Ile Glu Leu Tyr Tyr Glu Ile Phe Ile 65 70 75 80 Lys Gly Lys Gly Ile Ala Asn Ala Ser Ser Val Glu His Tyr Leu Ser 85 90 95 Asp Val Cys Tyr Thr Arg Ala Ala Glu Leu Phe Lys Asn Ala Ala Ile 100 105 110 Ala Ser Gly Leu Arg Ser Lys Ile Lys Ser Asn Phe Arg Leu Lys Glu 115 120 125 Leu Lys Asn Met Lys Ser Gly Leu Pro Thr Thr Lys Ser Asp Asn Phe 130 135 140 Pro Ile Pro Leu Val Lys Gln Lys Gly Gly Gln Tyr Thr Gly Phe Glu 145 150 155 160 Ile Ser Asn His Asn Ser Asp Phe Ile Ile Lys Ile Pro Phe Gly Arg 165 170 175 Trp Gln Val Lys Lys Glu Ile Asp Lys Tyr Arg Pro Trp Glu Lys Phe 180 185 190 Asp Phe Glu Gln Val Gln Lys Ser Pro Lys Pro Ile Ser Leu Leu Leu 195 200 205 Ser Thr Gln Arg Arg Lys Arg Asn Lys Gly Trp Ser Lys Asp Glu Gly 210 215 220 Thr Glu Ala Glu Ile Lys Lys Val Met Asn Gly Asp Tyr Gln Thr Ser 225 230 235 240 Tyr Ile Glu Val Lys Arg Gly Ser Lys Ile Gly Glu Lys Ser Ala Trp 245 250 255 Met Leu Asn Leu Ser Ile Asp Val Pro Lys Ile Asp Lys Gly Val Asp 260 265 270 Pro Ser Ile Ile Gly Gly Ile Asp Val Gly Val Lys Ser Pro Leu Val 275 280 285 Cys Ala Ile Asn Asn Ala Phe Ser Arg Tyr Ser Ile Ser Asp Asn Asp 290 295 300 Leu Phe His Phe Asn Lys Lys Met Phe Ala Arg Arg Arg Ile Leu Leu 305 310 315 320 Lys Lys Asn Arg His Lys Arg Ala Gly His Gly Ala Lys Asn Lys Leu 325 330 335 Lys Pro Ile Thr Ile Leu Thr Glu Lys Ser Glu Arg Phe Arg Lys Lys 340 345 350 Leu Ile Glu Arg Trp Ala Cys Glu Ile Ala Asp Phe Phe Ile Lys Asn 355 360 365 Lys Val Gly Thr Val Gln Met Ala Asn Leu Glu Ser Met Lys Arg Lys 370 375 380 Glu Asp Ser Tyr Phe Asn Ile Arg Leu Arg Gly Phe Trp Pro Tyr Ala 385 390 395 400 Glu Met Gln Asn Lys Ile Glu Phe Lys Leu Lys Gln Tyr Gly Ile Glu 405 410 415 Ile Arg Lys Val Ala Pro Asn Asn Thr Ser Lys Thr Cys Ser Lys Cys 420 425 430 Gly His Leu Asn Asn Tyr Phe Asn Phe Glu Tyr Arg Lys Lys Asn Lys 435 440 445 Phe Pro His Phe Lys Cys Glu Lys Cys Asn Phe Lys Glu Asn Ala Asp 450 455 460 Tyr Asn Ala Ala Leu Asn Ile Ser Asn Pro Lys Leu Lys Ser Thr Lys 465 470 475 480 Glu Glu Pro <210> 170 <211> 555 <212> PRT <213> artificial sequence <220> <223> CasX-Cas12f1 (R516A) <400> 170 Met Glu Lys Arg Ile Asn Lys Ile Arg Lys Lys Leu Ser Ala Asp Asn 1 5 10 15 Ala Thr Lys Pro Val Ser Arg Ser Gly Pro Met Ala Lys Asn Thr Ile 20 25 30 Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser Ala Glu 35 40 45 Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys Ile Ala 50 55 60 Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys His Leu 65 70 75 80 Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala Cys Leu 85 90 95 Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys Leu Arg 100 105 110 Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu Ile Phe 115 120 125 Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser Leu Ile 130 135 140 Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala Asn Ala 145 150 155 160 Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg Ala Ala 165 170 175 Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser Lys Ile 180 185 190 Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser Gly Leu 195 200 205 Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys Gln Lys 210 215 220 Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser Asp Phe 225 230 235 240 Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu Ile Asp 245 250 255 Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln Lys Ser 260 265 270 Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys Arg Asn 275 280 285 Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys Lys Val 290 295 300 Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg Gly Ser 305 310 315 320 Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile Asp Val 325 330 335 Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly Ile Asp 340 345 350 Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala Phe Ser 355 360 365 Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys Lys Met 370 375 380 Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys Arg Ala 385 390 395 400 Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu Thr Glu 405 410 415 Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala Cys Glu 420 425 430 Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln Met Glu 435 440 445 Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn Ile Arg 450 455 460 Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile Glu Phe 465 470 475 480 Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro Asn Asn 485 490 495 Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr Phe Asn 500 505 510 Phe Glu Tyr Ala Lys Lys Asn Lys Phe Pro His Phe Lys Cys Glu Lys 515 520 525 Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn Ala Ala Leu Asn Ile Ser 530 535 540 Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 171 <211> 555 <212> PRT <213> artificial sequence <220> <223> CasX-Cas12f1 (D536A) <400> 171 Met Glu Lys Arg Ile Asn Lys Ile Arg Lys Lys Leu Ser Ala Asp Asn 1 5 10 15 Ala Thr Lys Pro Val Ser Arg Ser Gly Pro Met Ala Lys Asn Thr Ile 20 25 30 Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser Ala Glu 35 40 45 Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys Ile Ala 50 55 60 Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys His Leu 65 70 75 80 Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala Cys Leu 85 90 95 Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys Leu Arg 100 105 110 Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu Ile Phe 115 120 125 Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser Leu Ile 130 135 140 Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala Asn Ala 145 150 155 160 Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg Ala Ala 165 170 175 Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser Lys Ile 180 185 190 Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser Gly Leu 195 200 205 Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys Gln Lys 210 215 220 Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser Asp Phe 225 230 235 240 Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu Ile Asp 245 250 255 Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln Lys Ser 260 265 270 Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys Arg Asn 275 280 285 Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys Lys Val 290 295 300 Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg Gly Ser 305 310 315 320 Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile Asp Val 325 330 335 Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly Ile Asp 340 345 350 Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala Phe Ser 355 360 365 Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys Lys Met 370 375 380 Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys Arg Ala 385 390 395 400 Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu Thr Glu 405 410 415 Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala Cys Glu 420 425 430 Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln Met Glu 435 440 445 Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn Ile Arg 450 455 460 Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile Glu Phe 465 470 475 480 Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro Asn Asn 485 490 495 Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr Phe Asn 500 505 510 Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro His Phe Lys Cys Glu Lys 515 520 525 Cys Asn Phe Lys Glu Asn Ala Ala Tyr Asn Ala Ala Leu Asn Ile Ser 530 535 540 Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 172 <211> 555 <212> PRT <213> artificial sequence <220> <223> 26aa-Extension dCas12f1 (D352A) <400> 172 Met Ala Gly Gly Pro Gly Ala Gly Ser Ala Ala Pro Val Ser Ser Thr 1 5 10 15 Ser Ser Leu Pro Leu Ala Ala Leu Asn Met Met Ala Lys Asn Thr Ile 20 25 30 Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser Ala Glu 35 40 45 Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys Ile Ala 50 55 60 Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys His Leu 65 70 75 80 Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala Cys Leu 85 90 95 Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys Leu Arg 100 105 110 Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu Ile Phe 115 120 125 Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser Leu Ile 130 135 140 Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala Asn Ala 145 150 155 160 Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg Ala Ala 165 170 175 Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser Lys Ile 180 185 190 Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser Gly Leu 195 200 205 Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys Gln Lys 210 215 220 Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser Asp Phe 225 230 235 240 Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu Ile Asp 245 250 255 Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln Lys Ser 260 265 270 Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys Arg Asn 275 280 285 Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys Lys Val 290 295 300 Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg Gly Ser 305 310 315 320 Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile Asp Val 325 330 335 Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly Ile Ala 340 345 350 Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala Phe Ser 355 360 365 Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys Lys Met 370 375 380 Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys Arg Ala 385 390 395 400 Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu Thr Glu 405 410 415 Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala Cys Glu 420 425 430 Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln Met Glu 435 440 445 Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn Ile Arg 450 455 460 Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile Glu Phe 465 470 475 480 Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro Asn Asn 485 490 495 Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr Phe Asn 500 505 510 Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro His Phe Lys Cys Glu Lys 515 520 525 Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn Ala Ala Leu Asn Ile Ser 530 535 540 Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 173 <211> 555 <212> PRT <213> artificial sequence <220> <223> 26aa-Extension dCas12f1 (E448A) <400> 173 Met Ala Gly Gly Pro Gly Ala Gly Ser Ala Ala Pro Val Ser Ser Thr 1 5 10 15 Ser Ser Leu Pro Leu Ala Ala Leu Asn Met Met Ala Lys Asn Thr Ile 20 25 30 Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser Ala Glu 35 40 45 Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys Ile Ala 50 55 60 Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys His Leu 65 70 75 80 Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala Cys Leu 85 90 95 Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys Leu Arg 100 105 110 Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu Ile Phe 115 120 125 Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser Leu Ile 130 135 140 Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala Asn Ala 145 150 155 160 Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg Ala Ala 165 170 175 Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser Lys Ile 180 185 190 Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser Gly Leu 195 200 205 Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys Gln Lys 210 215 220 Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser Asp Phe 225 230 235 240 Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu Ile Asp 245 250 255 Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln Lys Ser 260 265 270 Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys Arg Asn 275 280 285 Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys Lys Val 290 295 300 Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg Gly Ser 305 310 315 320 Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile Asp Val 325 330 335 Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly Ile Asp 340 345 350 Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala Phe Ser 355 360 365 Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys Lys Met 370 375 380 Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys Arg Ala 385 390 395 400 Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu Thr Glu 405 410 415 Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala Cys Glu 420 425 430 Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln Met Ala 435 440 445 Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn Ile Arg 450 455 460 Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile Glu Phe 465 470 475 480 Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro Asn Asn 485 490 495 Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr Phe Asn 500 505 510 Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro His Phe Lys Cys Glu Lys 515 520 525 Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn Ala Ala Leu Asn Ile Ser 530 535 540 Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 174 <211> 555 <212> PRT <213> artificial sequence <220> <223> 26aa-Extension dCas12f1 (R516A) <400> 174 Met Ala Gly Gly Pro Gly Ala Gly Ser Ala Ala Pro Val Ser Ser Thr 1 5 10 15 Ser Ser Leu Pro Leu Ala Ala Leu Asn Met Met Ala Lys Asn Thr Ile 20 25 30 Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser Ala Glu 35 40 45 Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys Ile Ala 50 55 60 Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys His Leu 65 70 75 80 Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala Cys Leu 85 90 95 Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys Leu Arg 100 105 110 Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu Ile Phe 115 120 125 Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser Leu Ile 130 135 140 Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala Asn Ala 145 150 155 160 Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg Ala Ala 165 170 175 Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser Lys Ile 180 185 190 Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser Gly Leu 195 200 205 Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys Gln Lys 210 215 220 Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser Asp Phe 225 230 235 240 Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu Ile Asp 245 250 255 Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln Lys Ser 260 265 270 Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys Arg Asn 275 280 285 Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys Lys Val 290 295 300 Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg Gly Ser 305 310 315 320 Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile Asp Val 325 330 335 Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly Ile Asp 340 345 350 Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala Phe Ser 355 360 365 Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys Lys Met 370 375 380 Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys Arg Ala 385 390 395 400 Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu Thr Glu 405 410 415 Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala Cys Glu 420 425 430 Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln Met Glu 435 440 445 Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn Ile Arg 450 455 460 Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile Glu Phe 465 470 475 480 Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro Asn Asn 485 490 495 Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr Phe Asn 500 505 510 Phe Glu Tyr Ala Lys Lys Asn Lys Phe Pro His Phe Lys Cys Glu Lys 515 520 525 Cys Asn Phe Lys Glu Asn Ala Asp Tyr Asn Ala Ala Leu Asn Ile Ser 530 535 540 Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 175 <211> 555 <212> PRT <213> artificial sequence <220> <223> 26aa-Extension dCas12f1 (D536A) <400> 175 Met Ala Gly Gly Pro Gly Ala Gly Ser Ala Ala Pro Val Ser Ser Thr 1 5 10 15 Ser Ser Leu Pro Leu Ala Ala Leu Asn Met Met Ala Lys Asn Thr Ile 20 25 30 Thr Lys Thr Leu Lys Leu Arg Ile Val Arg Pro Tyr Asn Ser Ala Glu 35 40 45 Val Glu Lys Ile Val Ala Asp Glu Lys Asn Asn Arg Glu Lys Ile Ala 50 55 60 Leu Glu Lys Asn Lys Asp Lys Val Lys Glu Ala Cys Ser Lys His Leu 65 70 75 80 Lys Val Ala Ala Tyr Cys Thr Thr Gln Val Glu Arg Asn Ala Cys Leu 85 90 95 Phe Cys Lys Ala Arg Lys Leu Asp Asp Lys Phe Tyr Gln Lys Leu Arg 100 105 110 Gly Gln Phe Pro Asp Ala Val Phe Trp Gln Glu Ile Ser Glu Ile Phe 115 120 125 Arg Gln Leu Gln Lys Gln Ala Ala Glu Ile Tyr Asn Gln Ser Leu Ile 130 135 140 Glu Leu Tyr Tyr Glu Ile Phe Ile Lys Gly Lys Gly Ile Ala Asn Ala 145 150 155 160 Ser Ser Val Glu His Tyr Leu Ser Asp Val Cys Tyr Thr Arg Ala Ala 165 170 175 Glu Leu Phe Lys Asn Ala Ala Ile Ala Ser Gly Leu Arg Ser Lys Ile 180 185 190 Lys Ser Asn Phe Arg Leu Lys Glu Leu Lys Asn Met Lys Ser Gly Leu 195 200 205 Pro Thr Thr Lys Ser Asp Asn Phe Pro Ile Pro Leu Val Lys Gln Lys 210 215 220 Gly Gly Gln Tyr Thr Gly Phe Glu Ile Ser Asn His Asn Ser Asp Phe 225 230 235 240 Ile Ile Lys Ile Pro Phe Gly Arg Trp Gln Val Lys Lys Glu Ile Asp 245 250 255 Lys Tyr Arg Pro Trp Glu Lys Phe Asp Phe Glu Gln Val Gln Lys Ser 260 265 270 Pro Lys Pro Ile Ser Leu Leu Leu Ser Thr Gln Arg Arg Lys Arg Asn 275 280 285 Lys Gly Trp Ser Lys Asp Glu Gly Thr Glu Ala Glu Ile Lys Lys Val 290 295 300 Met Asn Gly Asp Tyr Gln Thr Ser Tyr Ile Glu Val Lys Arg Gly Ser 305 310 315 320 Lys Ile Gly Glu Lys Ser Ala Trp Met Leu Asn Leu Ser Ile Asp Val 325 330 335 Pro Lys Ile Asp Lys Gly Val Asp Pro Ser Ile Ile Gly Gly Ile Asp 340 345 350 Val Gly Val Lys Ser Pro Leu Val Cys Ala Ile Asn Asn Ala Phe Ser 355 360 365 Arg Tyr Ser Ile Ser Asp Asn Asp Leu Phe His Phe Asn Lys Lys Met 370 375 380 Phe Ala Arg Arg Arg Ile Leu Leu Lys Lys Asn Arg His Lys Arg Ala 385 390 395 400 Gly His Gly Ala Lys Asn Lys Leu Lys Pro Ile Thr Ile Leu Thr Glu 405 410 415 Lys Ser Glu Arg Phe Arg Lys Lys Leu Ile Glu Arg Trp Ala Cys Glu 420 425 430 Ile Ala Asp Phe Phe Ile Lys Asn Lys Val Gly Thr Val Gln Met Glu 435 440 445 Asn Leu Glu Ser Met Lys Arg Lys Glu Asp Ser Tyr Phe Asn Ile Arg 450 455 460 Leu Arg Gly Phe Trp Pro Tyr Ala Glu Met Gln Asn Lys Ile Glu Phe 465 470 475 480 Lys Leu Lys Gln Tyr Gly Ile Glu Ile Arg Lys Val Ala Pro Asn Asn 485 490 495 Thr Ser Lys Thr Cys Ser Lys Cys Gly His Leu Asn Asn Tyr Phe Asn 500 505 510 Phe Glu Tyr Arg Lys Lys Asn Lys Phe Pro His Phe Lys Cys Glu Lys 515 520 525 Cys Asn Phe Lys Glu Asn Ala Ala Tyr Asn Ala Ala Leu Asn Ile Ser 530 535 540 Asn Pro Lys Leu Lys Ser Thr Lys Glu Glu Pro 545 550 555 <210> 176 <211> 159 <212> PRT <213> artificial sequence <220> <223> eTadA4 <400> 176 Met Val Glu Phe Ser Asp Glu Tyr Trp Met Arg His Ala Leu Thr Leu 1 5 10 15 Ala Lys Arg Ala Arg Asp Glu Gly Glu Val Pro Val Gly Ala Val Leu 20 25 30 Val Leu Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Ala Ile Gly 35 40 45 Leu His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg Gln Gly 50 55 60 Gly Gln Val Leu Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu Tyr Val 65 70 75 80 Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His Ser Arg 85 90 95 Ile Lys Arg Val Val Phe Gly Trp Arg Asn Ser Lys Arg Gly Ala Ala 100 105 110 Gly Ser Leu Met Asn Val Leu Asn His Pro Gly Met Asn His Arg Val 115 120 125 Glu Ile Thr Glu Gly Val Leu Ala Asp Glu Cys Ala Ala Leu Leu Ser 130 135 140 Asp Phe Phe Arg Met Arg Arg Gln Gln Lys Lys Ala Gln Lys Lys 145 150 155 <210> 177 <211> 159 <212> PRT <213> artificial sequence <220> <223> eTadA5 <400> 177 Met Val Glu Phe Ser Asp Glu Tyr Trp Met Arg His Ala Leu Thr Leu 1 5 10 15 Ala Lys Arg Ala Arg Asp Glu Gly Glu Val Pro Val Gly Ala Val Leu 20 25 30 Val Leu Asn Asn Gln Val Ile Gly Glu Gly Trp Asn Arg Ser Ile Ser 35 40 45 Leu His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg Gln Gly 50 55 60 Gly Gln Val Leu Gln Asn Tyr Arg Leu Ile Asp Cys Thr Leu Tyr Val 65 70 75 80 Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His Ser Arg 85 90 95 Ile Lys Arg Val Val Phe Gly Trp Arg Asn Pro Lys Arg Gly Ala Ala 100 105 110 Gly Ser Leu Met Asn Val Leu Asn His Pro Gly Met Asn His Arg Ile 115 120 125 Glu Ile Thr Glu Gly Val Leu Ala Asp Glu Cys Ala Ala Met Leu Ser 130 135 140 Asp Phe Phe Arg Met Arg Arg Gln Gln Lys Lys Ala Gln Lys Lys 145 150 155 <210> 178 <211> 159 <212> PRT <213> artificial sequence <220> <223> eTadA6 <400> 178 Met Val Glu Phe Ser Asp Glu Tyr Trp Met Arg His Ala Leu Thr Leu 1 5 10 15 Ala Lys Arg Ala Arg Asp Glu Gly Glu Val Pro Val Gly Ala Val Leu 20 25 30 Val Leu Asn Asn Gln Val Ile Gly Glu Gly Trp Asn Arg Ser Ile Thr 35 40 45 His His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg Gln Gly 50 55 60 Gly Gln Val Leu Gln Asn Tyr Arg Leu Ile Asp Cys Thr Leu Tyr Val 65 70 75 80 Thr Phe Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His Ala Arg 85 90 95 Ile Lys Arg Val Val Phe Gly Trp Arg Asn Pro Lys Arg Gly Ala Ala 100 105 110 Gly Ser Val Met Asn Val Leu Asn His Pro Gly Met Asn His Arg Ile 115 120 125 Glu Ile Thr Glu Gly Val Leu Ala Asp Glu Cys Ala Ala Met Leu Ser 130 135 140 Asp Phe Phe Arg Met Arg Arg Gln Gln Lys Lys Ala Gln Lys Lys 145 150 155

Claims (31)

Cas12f1, TnpB 또는 이들의 기능적 유사체; 및 탈아미노화효소(deaminase)를 포함하는 융합 단백질.
Cas12f1, TnpB or functional analogues thereof; and a deaminase.
제1항에 있어서, 상기 Cas12f1, TnpB 또는 이들의 기능적 유사체는 DNA 이중가닥 절단 활성이 상실된 dead TnpB(dTnpB); dead Cas12f1(dCas12f1); 또는 dTnpB 또는 dCas12f1의 기능적 유사체;인 것을 특징으로 하는, 융합 단백질.
The method of claim 1, wherein the Cas12f1, TnpB or functional analogues thereof are dead TnpB (dTnpB) having lost DNA double-strand cleavage activity; dead Cas12f1 (dCas12f1); or a functional analog of dTnpB or dCas12f1; characterized in that, the fusion protein.
제1항에 있어서, 상기 Cas12f1, TnpB 또는 이들의 기능적 유사체는 서열번호 3 내지 서열번호 6, 서열번호 11 내지 서열번호 18 및 서열번호 168 내지 서열번호 175 중 선택된 어느 하나의 아미노산 서열을 포함하는 것 또는 서열번호 7에서 D354A, E450A, R518A 및 D538A 중 2개 이상의 아미노산 변이를 포함하는 것을 특징으로 하는, 융합 단백질.
The method of claim 1, wherein the Cas12f1, TnpB or a functional analogue thereof comprises any one amino acid sequence selected from SEQ ID NO: 3 to SEQ ID NO: 6, SEQ ID NO: 11 to SEQ ID NO: 18, and SEQ ID NO: 168 to SEQ ID NO: 175 or at least two amino acid mutations among D354A, E450A, R518A and D538A in SEQ ID NO: 7.
제1항에 있어서, 상기 탈아미노화효소(deaminase)는 융합단백질의 N-말단 또는 C-말단에 결합되는 아데노신 탈아미노화효소(adenosine deaminase) 및/또는 시티딘 탈아미노화효소(cytidine deaminase)인 것을 특징으로 하는, 융합 단백질.
The method of claim 1, wherein the deaminase is an adenosine deaminase and/or cytidine deaminase linked to the N-terminus or C-terminus of the fusion protein. Characterized in that, the fusion protein.
제4항에 있어서, 상기 아데노신 탈아미노화효소(adenosine deaminase)는 TadA(tRNA-specific adenosine deaminase) 및/또는 eTadA(evolved tRNA-specific adenosine deaminase)인 것이거나, 시티딘 탈아미노화효소(cytidine deaminase)는 APOBEC1(아포지단백질 B mRNA-편집 복합체 1), APOBEC2, APOBEC3A, APOBEC3B, APOBEC3C, APOBEC3D, APOBEC3F, APOBEC3G, APOBEC3H, 활성화-유도된 탈아미노화효소(AID), FERNY 탈아미노화 효소, CDA1 아라비돕시스 탈리아나(Arabidopsis thaliana)로부터의 시티딘 탈아미노화효소 1(AtCDA1) 및/또는 페트로미존 마리누스(Petromyzon marinus)로부터의 시티딘 탈아미노화효소 1(PmCDA1)인 것을 특징으로 하는, 융합 단백질.
The method of claim 4, wherein the adenosine deaminase is TadA (tRNA-specific adenosine deaminase) and/or eTadA (evolved tRNA-specific adenosine deaminase), or cytidine deaminase ) are APOBEC1 (apolipoprotein B mRNA-editing complex 1), APOBEC2, APOBEC3A, APOBEC3B, APOBEC3C, APOBEC3D, APOBEC3F, APOBEC3G, APOBEC3H, activation-induced deaminase (AID), FERNY deaminase, CDA1 Arabidopsis A fusion protein, characterized in that it is cytidine deaminase 1 (AtCDA1) from Arabidopsis thaliana and/or cytidine deaminase 1 (PmCDA1) from Petromyzon marinus.
제5항에 있어서, 상기 아데노신 탈아미노화효소(adenosine deaminase)는 단량체 TadA(서열번호 126), eTadA1(evolved tRNA-specific adenosine deaminase1, 서열번호 127), dTadA(서열번호 128), deTadA1(서열번호 129), eTadA2(서열번호 130), eTadA3(서열번호 131), eTadA4(서열번호 176), eTadA5(서열번호 177), eTadA6(서열번호 178), eTadA7(서열번호 137), eTadA8(서열번호 138), eTadA9(서열번호 139), eTadA10(서열번호 140), 또는 eTadA11(서열번호 141), 또는 이종이량체(heterodimer) TadA-eTadA , eTadA-TadA, dTadA-eTadA 또는 TadA-deTadA인 것을 특징으로 하는, 융합 단백질.
The method of claim 5, wherein the adenosine deaminase (adenosine deaminase) is monomeric TadA (SEQ ID NO: 126), eTadA1 (evolved tRNA-specific adenosine deaminase1, SEQ ID NO: 127), dTadA (SEQ ID NO: 128), deTadA1 (SEQ ID NO: 128) 129), eTadA2 (SEQ ID NO: 130), eTadA3 (SEQ ID NO: 131), eTadA4 (SEQ ID NO: 176), eTadA5 (SEQ ID NO: 177), eTadA6 (SEQ ID NO: 178), eTadA7 (SEQ ID NO: 137), eTadA8 (SEQ ID NO: 138 ), eTadA9 (SEQ ID NO: 139), eTadA10 (SEQ ID NO: 140), or eTadA11 (SEQ ID NO: 141), or the heterodimer TadA-eTadA , eTadA-TadA, dTadA-eTadA or TadA-deTadA, characterized in that the fusion protein.
제1항에 있어서, UGI(Uracil Glycosylase Inhibitor) 또는 GAM(Gam protein)을 더 포함하는 것을 특징으로 하는, 융합 단백질.
The fusion protein according to claim 1, further comprising UGI (Uracil Glycosylase Inhibitor) or GAM (Gam protein).
제1항에 있어서, Cas12f1, TnpB, 또는 이들의 기능적 유사체와 탈아미노화효소는 5'-GAAA-3', 서열번호 132인 (GGGGS)n, (G)n, 서열번호 133인 (EAAAK)n, (GGS)n, 서열번호 134인 SGSETPGTSESATPES, 서열번호 135인 SGGS, (XP)n 또는 이들의 조합을 포함하는 링커로 연결된 것을 특징으로 하는, 융합 단백질.
The method of claim 1, wherein the Cas12f1, TnpB, or functional analogues thereof and the deaminase are 5'-GAAA-3', SEQ ID NO: 132 (GGGGS)n, (G)n, SEQ ID NO: 133 (EAAAK) n, (GGS)n, SGSETPGTSESATPES of SEQ ID NO: 134, SGGS of SEQ ID NO: 135, (XP)n, or a combination thereof, characterized in that connected by a linker.
제1항 내지 제8항 중 어느 한 항의 융합 단백질을 암호화하는 핵산.
A nucleic acid encoding the fusion protein of any one of claims 1 to 8.
제9항에 있어서, 핵 위치 신호(nuclear localization signal, NLS) 서열 및/또는 핵 분비 신호(nuclear export signal, NES) 서열을 1개 이상 더 포함하는 것을 특징으로 하는, 핵산.
The nucleic acid according to claim 9, further comprising at least one nuclear localization signal (NLS) sequence and/or nuclear export signal (NES) sequence.
제1항의 융합 단백질 또는 이를 암호화하는 핵산; 및 가이드 RNA;를 포함하는 초소형 염기교정(Base editing) 시스템.
The fusion protein of claim 1 or a nucleic acid encoding the same; And guide RNA; subminiature base editing (Base editing) system containing.
제11항에 있어서, 상기 융합 단백질은 탈아미노화 효소가 결합된 핵산분해 단백질이고, 상기 가이드 RNA는 야생형 또는 엔지니어링된 가이드 RNA(engineered guide RNA)를 1개 또는 2개 이상 포함하는 것을 특징으로 하는, 초소형 염기교정 시스템.
The method of claim 11, wherein the fusion protein is a deaminase-linked nucleolytic protein, and the guide RNA includes one or two or more wild-type or engineered guide RNAs. , a microbase correction system.
제11항에 있어서, 상기 가이드 RNA는 야생형 또는 엔지니어링된 가이드 RNA(engineered guide RNA)인 것을 특징으로 하는, 초소형 염기교정 시스템.
[Claim 12] The subminiature base correction system according to claim 11, wherein the guide RNA is wild-type or engineered guide RNA.
제11항에 있어서, 상기 가이드 RNA는 엔지니어링된 tracrRNA (transactivating CRISPR RNA) 또는 엔지니어링된 crRNA(CRISPR RNA)를 포함하고 단일가닥 또는 이중가닥 형태의 가이드 RNA인 것을 특징으로 하는, 초소형 염기교정 시스템.
[Claim 12] The subminiature base correction system according to claim 11, wherein the guide RNA includes an engineered tracrRNA (transactivating CRISPR RNA) or an engineered crRNA (CRISPR RNA) and is a single-stranded or double-stranded guide RNA.
제14항에 있어서, 상기 엔지니어링된 tracrRNA는 연속된 다섯 개 이상의 유리딘 서열을 포함하지 않도록 변형되고, 야생형 tracrRNA 보다 길이가 짧도록 변형된 tracrRNA이고, 상기 엔지니어링된 crRNA는 서열번호 38 또는 서열번호 38의 일부 서열을 포함하는 것을 특징으로 하는, 초소형 염기교정 시스템.
15. The method of claim 14, wherein the engineered tracrRNA is a tracrRNA modified not to include five or more contiguous uridine sequences and modified to be shorter than wild-type tracrRNA, wherein the engineered crRNA is SEQ ID NO: 38 or SEQ ID NO: 38 Characterized in that it comprises a part of the sequence of, the ultra-small base correction system.
제11항에 있어서, 상기 가이드 RNA는 서열번호 55 내지 서열번호 59 중 선택된 어느 하나의 핵산 서열을 포함하는 것을 특징으로 하는, 초소형 염기교정 시스템.
12. The microbase correction system according to claim 11, wherein the guide RNA comprises a nucleic acid sequence selected from SEQ ID NO: 55 to SEQ ID NO: 59.
제11항에 따른 초소형 염기교정 시스템의 구성요소를 암호화하는 핵산 서열이 작동가능하게 연결된 핵산 구조물을 포함하는, 벡터.
A vector comprising a nucleic acid construct in which a nucleic acid sequence encoding a component of the miniaturization system according to claim 11 is operably linked.
제17항에 있어서, 상기 벡터는 상기 가이드 RNA를 1개 또는 2개 이상 암호화하는 핵산 및 이를 위한 1개 또는 2개 이상의 프로모터를 더 포함하는 것을 특징으로 하는, 벡터.
The vector according to claim 17, wherein the vector further comprises nucleic acids encoding one or two or more guide RNAs and one or two or more promoters therefor.
제18항에 있어서, 상기 프로모터는 U6 프로모터, H1 프로모터 또는 7SK 프로모터인 것을 특징으로 하는, 벡터.
The vector according to claim 18, wherein the promoter is a U6 promoter, H1 promoter or 7SK promoter.
제17항에 있어서, 상기 벡터는 RNA, 플라스미드, 선형의 PCR 엠플리콘, 바이러스 벡터 또는 리보뉴클레오단백질(ribonucleoprotein, RNP)인 것을 특징으로 하는, 벡터.
The vector according to claim 17, characterized in that the vector is RNA, plasmid, linear PCR amplicon, viral vector or ribonucleoprotein (RNP).
제20항에 있어서, 상기 바이러스 벡터는 레트로바이러스 벡터, 렌티바이러스 벡터, 아데노바이러스 벡터, 아데노-연관 바이러스 벡터, 백시니아바이러스 벡터, 폭스바이러스 벡터 또는 단순포진 바이러스 벡터인 것을 특징으로 하는, 벡터.
21. The vector according to claim 20, characterized in that the viral vector is a retroviral vector, a lentiviral vector, an adenoviral vector, an adeno-associated viral vector, a vaccinia virus vector, a poxvirus vector or a herpes simplex virus vector.
제11항 내지 제16항 중 어느 한 항의 초소형 염기교정(Base editing) 시스템 또는 제17항 내지 제21항 중 어느 한 항의 벡터를 포함하는, 염기교정용 조성물.
A base editing composition comprising the subminiature base editing system according to any one of claims 11 to 16 or the vector according to any one of claims 17 to 21.
제22항에 있어서, 상기 염기교정용 조성물은 엔지니어링된 가이드 RNA; 및 TnpB 유래의 분자량이 작은 핵산분해 단백질 또는 이의 기능적 유사체;가 (ribonucleoprotein, RNP)형태인 것을 특징으로 하는, 염기교정용 조성물.
[Claim 23] The method of claim 22, wherein the base correction composition is engineered guide RNA; and TnpB-derived low-molecular-weight nucleic acid degrading protein or a functional analogue thereof; characterized in that it is in the form of a ribonucleoprotein (RNP), a composition for base correction.
제22항에 있어서, 상기 염기교정용 조성물은 아데닌(A) 및/또는 시토신(C)을 다른 염기로 치환하는 것을 특징으로 하는, 염기교정용 조성물.
23. The composition for base correction according to claim 22, characterized in that adenine (A) and/or cytosine (C) are substituted with other bases.
제22항에 있어서, 상기 염기 교정용 조성물은 교정 윈도우(editing window)가 표적 서열의 5'-말단으로부터 2번째 내지 8번째, 15번째 내지 19번째 또는 2번째 내지 20번째에 위치한 아데닌(A) 및/또는 표적 서열의 2번째 내지 7번째 또는 3번째 내지 5번째에 위치한 시토신(C) 범위 것을 특징으로 하는, 염기교정용 조성물.
The method of claim 22, wherein the composition for base editing comprises adenine (A) whose editing window is located 2nd to 8th, 15th to 19th, or 2nd to 20th from the 5'-end of the target sequence. and/or a cytosine (C) located at the 2nd to 7th or 3rd to 5th positions of the target sequence.
제11항 내지 제16항 중 어느 한 항의 초소형 염기교정 시스템 및 제17항 내지 제21항 중 어느 한 항의 벡터를 표적 핵산 또는 표적 유전자와 접촉시키는 단계를 포함하는, 염기를 교정하는 방법.
A method for correcting bases, comprising contacting the miniaturized base correction system according to any one of claims 11 to 16 and the vector according to any one of claims 17 to 21 with a target nucleic acid or a target gene.
제26항에 있어서, 상기 표적 핵산 또는 상기 표적 유전자는 표적 서열을 가지는 표적 가닥을 포함하는 이중가닥 DNA; 단일가닥 DNA 또는 RNA; 또는 혼성 이중가닥 DNA 및 RNA인 것을 특징으로 하는, 염기를 교정하는 방법.
The method of claim 26, wherein the target nucleic acid or the target gene is a double-stranded DNA comprising a target strand having a target sequence; single-stranded DNA or RNA; or hybrid double-stranded DNA and RNA.
제26항에 있어서, 상기 방법은 표적 핵산 또는 표적 유전자가 존재하는 원핵 세포 또는 진핵 세포 내에서 이루어지는 것을 특징으로 하는, 염기를 교정하는 방법.
27. The method of claim 26, wherein the method is performed in a prokaryotic or eukaryotic cell in which the target nucleic acid or target gene is present.
제28항에 있어서, 상기 진핵 세포는 효모(yeast), 식물 세포, 비인간-동물 세포 또는 인간 세포인 것을 특징으로 하는, 염기를 교정하는 방법.
29. The method of claim 28, wherein the eukaryotic cell is a yeast, plant cell, non-human-animal cell or human cell.
제26항에 있어서, 상기 염기 교정은 교정 윈도우(editing window)가 표적 서열의 5'-말단으로부터 2번째 내지 8번째, 15번째 내지 19번째 또는 2번째 내지 20번째에 위치한 아데닌(A) 및/또는 2번째 내지 8번째 또는 3번째 내지 5번째에 위치한 시토신(C) 범위인 것을 특징으로 하는, 염기를 교정하는 방법.
The method of claim 26, wherein the base editing is carried out with adenine (A) and / Or a cytosine (C) located at the 2nd to 8th or 3rd to 5th positions, characterized in that, a method for correcting bases.
제26항에 있어서, 상기 초소형 염기교정 시스템, 상기 벡터 또는 상기 초소형 염기교정 구조물은 레트로바이러스, 렌티바이러스, 아데노바이러스, 아데노-연관 바이러스, 백시니아바이러스, 폭스바이러스 및 단순포진 바이러스 벡터로 구성된 군에서 선택된 바이러스 벡터에 패키징되어 원핵 세포 또는 진핵 세포 내로 전달되는 것을 특징으로 하는, 염기를 교정하는 방법. 27. The method of claim 26, wherein the miniaturization system, the vector or the minibase editing construct is from the group consisting of retroviruses, lentiviruses, adenoviruses, adeno-associated viruses, vacciniaviruses, poxviruses and herpes simplex virus vectors. A method for correcting a base, characterized in that it is packaged in a selected viral vector and delivered into a prokaryotic or eukaryotic cell.
KR1020210181875A 2021-07-05 2021-12-17 Hypercompact base editing systems and use thereof KR20230007218A (en)

Priority Applications (5)

Application Number Priority Date Filing Date Title
AU2022307018A AU2022307018A1 (en) 2021-07-05 2022-07-05 Cleavage-inactive cas12f1, cleavage-inactive cas12f1-based fusion protein, crispr gene-editing system comprising same, and preparation method and use thereof
EP22837949.1A EP4368713A1 (en) 2021-07-05 2022-07-05 Cleavage-inactive cas12f1, cleavage-inactive cas12f1-based fusion protein, crispr gene-editing system comprising same, and preparation method and use thereof
CN202280060155.7A CN117916372A (en) 2021-07-05 2022-07-05 Cleavage-free CAS12F1, fusion protein based on cleavage-free CAS12F1, CRISPR gene editing system comprising same, and preparation method and application thereof
PCT/KR2022/009701 WO2023282597A1 (en) 2021-07-05 2022-07-05 Cleavage-inactive cas12f1, cleavage-inactive cas12f1-based fusion protein, crispr gene-editing system comprising same, and preparation method and use thereof
KR1020237015257A KR20230074819A (en) 2021-07-05 2022-07-05 Cleavage-inactive CAS12F1, cleavage-inactive CAS12F1-based fusion protein, CRISPR gene control system including the same, manufacturing method and use thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210087956 2021-07-05
KR20210087956 2021-07-05

Publications (1)

Publication Number Publication Date
KR20230007218A true KR20230007218A (en) 2023-01-12

Family

ID=84923635

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210181875A KR20230007218A (en) 2021-07-05 2021-12-17 Hypercompact base editing systems and use thereof

Country Status (1)

Country Link
KR (1) KR20230007218A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023168242A1 (en) * 2022-03-01 2023-09-07 Epicrispr Biotechnologies, Inc. Engineered nucleases, compositions, and methods of use thereof

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023168242A1 (en) * 2022-03-01 2023-09-07 Epicrispr Biotechnologies, Inc. Engineered nucleases, compositions, and methods of use thereof

Similar Documents

Publication Publication Date Title
US20220307018A1 (en) ENGINEERED GUIDE RNA FOR THE OPTIMIZED CRISPR/Cas12f1 SYSTEM AND USE THEREOF
CN116801913A (en) Compositions and methods for targeting BCL11A
KR20220144343A (en) An engineered guide RNA including a U-rich tail for the optimized CRISPR/Cas12f1 system and use thereof
KR20240023081A (en) An engineered guide RNA for the optimized CRISPR/Cas12f1(Cas14a1) system and use thereof
US20230374500A1 (en) Engineered guide rna comprising u-rich tail for optimized crispr/cas12f1 system and use thereof
EP4227411A1 (en) Engineered guide rna for increasing efficiency of crispr/cas12f1 system, and use of same
KR20230007218A (en) Hypercompact base editing systems and use thereof
KR20230051095A (en) Novel genome editing TaRGET system and uses thereof
KR20200135225A (en) Single base editing proteins and composition comprising the same
KR20230121569A (en) TaRGET system for homology-directed repair and gene editing method using the same
WO2023046153A1 (en) Circular rna and preparation method thereof
KR102638799B1 (en) An engineered guide RNA for the optimized CRISPR/Cas12f1(Cas14a1) system and use thereof
KR20220145438A (en) An engineered guide RNA for the optimized CRISPR/Cas12f1 system and use thereof
EP4368713A1 (en) Cleavage-inactive cas12f1, cleavage-inactive cas12f1-based fusion protein, crispr gene-editing system comprising same, and preparation method and use thereof
CN117916372A (en) Cleavage-free CAS12F1, fusion protein based on cleavage-free CAS12F1, CRISPR gene editing system comprising same, and preparation method and application thereof
CN116568806A (en) Engineered guide RNAs for increasing efficiency of CRISPR/CAS12F1 (CAS 14 A1) systems and uses thereof
AU2018279569B2 (en) System for DNA editing and application thereof
US20240026345A1 (en) Parallel single-cell reporter assays and compositions
US20240067957A1 (en) Autocatalytic base editing for rna-responsive translational control
KR20240034661A (en) An improved Campylobacter jejuni derived CRISPR/Cas9 gene-editing system by structure modification of a guide RNA
WO2024089629A1 (en) Cas12 protein, crispr-cas system and uses thereof
WO2024137392A1 (en) Method of preparing self-circularized rna
KR20230166041A (en) Engineered Cas12f protein with expanded targetable range and uses thereof

Legal Events

Date Code Title Description
N231 Notification of change of applicant