KR20230166041A - 확장된 표적 범위를 갖는 엔지니어링된 Cas12f 단백질 및 이의 용도 - Google Patents

확장된 표적 범위를 갖는 엔지니어링된 Cas12f 단백질 및 이의 용도 Download PDF

Info

Publication number
KR20230166041A
KR20230166041A KR1020230048491A KR20230048491A KR20230166041A KR 20230166041 A KR20230166041 A KR 20230166041A KR 1020230048491 A KR1020230048491 A KR 1020230048491A KR 20230048491 A KR20230048491 A KR 20230048491A KR 20230166041 A KR20230166041 A KR 20230166041A
Authority
KR
South Korea
Prior art keywords
sequence
seq
engineered
clause
protein
Prior art date
Application number
KR1020230048491A
Other languages
English (en)
Inventor
김용삼
김도연
이유진
정동민
Original Assignee
주식회사 진코어
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 진코어 filed Critical 주식회사 진코어
Publication of KR20230166041A publication Critical patent/KR20230166041A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/85Vectors or expression systems specially adapted for eukaryotic hosts for animal cells
    • C12N15/86Viral vectors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/10Transferases (2.)
    • C12N9/12Transferases (2.) transferring phosphorus containing groups, e.g. kinases (2.7)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Plant Pathology (AREA)
  • Medicinal Chemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Virology (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)

Abstract

본 발명은 확장된 표적 범위를 갖는 엔지니어링된 Cas12 단백질(예컨대 Cas12f 단백질) 및 이의 용도에 관한 것이다. 상기 엔지니어링된 Cas 단백질은 서열번호 1을 기준으로 159, 164, 170, 174, 184, 188, 191, 225, 230 및 272로 이루어진 군에서 선택되는 하나 이상의 아미노산 위치 또는 그에 상응하는 하나 이상의 아미노산 위치에서 아미노산 치환을 포함하고, 서열번호 1로 표시되는 서열과 80% 이상의 서열 동일성을 갖는 아미노산 서열을 포함한다.

Description

확장된 표적 범위를 갖는 엔지니어링된 Cas12f 단백질 및 이의 용도{Engineered Cas12f protein with expanded targetable range and uses thereof}
본 발명은 확장된 표적 범위를 갖는 엔지니어링된 Cas12 단백질(예컨대 Cas12f 단백질) 및 이의 용도에 관한 것이다.
박테리아, 고생물 등에서 적응 면역 체계로 기능하는 CRISPR/Cas 시스템은 다양한 질환(예컨대, 유전질환, 암 등)의 유전자 치료를 포함한 다양한 분야에서 다목적의 유전자 편집 도구로 개발되고 있다. CRISPR/Cas 시스템은 일반적으로 단백질 성분(RNA-가이드되는 뉴클레아제) 및 핵산 성분(가이드 RNA 또는 gRNA)을 포함하고, 이 두 성분은 복합체를 형성하여 특정 표적 DNA 서열과 상호작용한다. 또한, 상기 복합체는 예컨대 부위-특이적 DNA 절단에 의해 표적 서열을 편집 또는 변경할 수 있다. 이중가닥 DNA의 표적 서열이 복합체와 상호작용하기 위해서는, 이중가닥 DNA는 가이드 RNA의 가이드 서열에 상보적인 표적 서열을 함유하는 표적 가닥 및 Cas 단백질의 표적 인식을 위한 프로토스페이서 인접 모티프(Protospacer adjacent motif, PAM)을 함유하는 비-표적 가닥을 포함하여야 한다.
클래스 2의 타입 V CRISPR 뉴클레아제로 분류되는 Cas12f(Cas14로도 지칭됨) 및 Cas12j(Cas Φ)와 같은 소형 Cas 단백질이 고세균 및 거대 박테리오파지에서 동정되었다(문헌 [Harrington, L. B. et al. Programmed DNA destruction by miniature CRISPR-Cas14 enzymes. Science 362, 839-842, 2018] 참조). 이들 소형 CRIPSR-Cas 이펙터들은 약 400 내지 700개 아미노산 잔기로 이루어지고 하나의 RuvC 뉴클레아제 도메인을 포함한다. Cas12f 이펙터는 원래 단일가닥 DNA 절단 활성만을 나타내거나 진핵세포에서 극히 낮은 인델(indel) 활성을 나타내는 것으로 보고된 바 있다(문헌 [Karvelis, T. et al. PAM recognition by miniature CRISPR-Cas14 triggers programmable double-stranded DNA cleavage. Preprint at bioRxiv https://doi.org/10.1101/654897, 2019] 참조). 그러나 본 발명자들은 고세균 Un1Cas12f1의 천연 가이드 RNA의 엔지니어링을 통해 진핵세포에서 평균 인델 활성을 800배 이상 증가시킬 수 있음을 확인하고 Cas12f 이펙터와 같은 소형 Cas 단백질을 효율적인 유전자 편집 도구로 전환시키는데 성공하였다(문헌 [Kim, D. Y. et al. Efficient CRISPR editing with a hypercompact Cas12f1 and engineered guide RNAs delivered by adeno-associated virus. Nat. Biotechnol.40, 94-102, 2021] 참조). 이 엔지니어링된 가이드 RNA는 천연 가이드 RNA에 비해 크기도 작기 때문에 Cas12f와 같은 소형 Cas 단백질과 함께, 검증된 전달 플랫폼으로 간주되지만 제한된 패키징 사이즈(약 4.7kb)를 갖는 아데노-관련 바이러스(AAV)로 전달될 수 있다. AAV는 안전성, 지속성 및 대량 생산 가능성이 입증되어 미국 FDA에 의해 승인된 비히클로서, AAV로 전달가능한 CRISPR 시스템은 생체 내 유전 질환의 치료제로 특히 유망하다.
이와 같은 이점에도 불구하고, 다른 여타 Cas 단백질과 마찬가지로, Cas12f 이펙터는 표적 DNA 결합을 위해 특정 PAM 서열을 필요로 하기 때문에 표적화 가능한 범위가 해당 PAM 서열이 존재하는 일정 범위의 게놈 부위로 제한된다. 예컨대 야생형 Cas12f 단백질은 TTTR(TTTA 또는 TTTG) PAM 서열에 대해 선호도를 갖는데(문헌 [Harrington, L. B. et al. Programmed DNA destruction by miniature CRISPR-Cas14 enzymes. Science 362, 839, 2018] 참조), 표적 유전자 근처에 PAM 서열이 없는 경우, 그 표적 유전자의 편집이 제한될 수 있다. 이는 진핵세포 유전체, 특히 포유동물과 식물의 유전체는 DNA 서열이 매우 복잡하고 이질적이기 때문이다. 더욱이, 상동 재조합(HDR) 또는 염기 편집기(예컨대, dCas12f/시티딘 탈아미노효소 및 dCas12f/아데노신 탈아미노효소)에 기초한 편집은 최적의 편집 결과를 구현하기 위해 정확한 DNA 결합 위치를 필요로 한다.
그러므로, 유전체 표적 범위의 확장을 위해서 표적화에 새로운 PAM 서열을 인식할 수 있는 새로운 CRISPR/Cas 시스템을 개발할 필요성이 존재한다.
Harrington, L. B. et al. Programmed DNA destruction by miniature CRISPR-Cas14 enzymes. Science 362, 839-842(2018) Karvelis, T. et al. PAM recognition by miniature CRISPR-Cas14 triggers programmable double-stranded DNA cleavage. Preprint at bioRxiv https://doi.org/10.1101/654897 (2019) Kim, D. Y. et al. Efficient CRISPR editing with a hypercompact Cas12f1 and engineered guide RNAs delivered by adeno-associated virus. Nat. Biotechnol.40, 94-102 (2021)
본 발명은 전술한 종래 기술의 문제점을 모두 해결하는 것을 그 목적으로 한다.
본 발명은 확장된 표적화 가능 부위(expanded targetable sites)를 갖도록 엔지니어링된 Cas12f 단백질을 제공하는 것을 일 목적으로 한다.
본 발명은 표적 유전자에 따라 적절한 PAM 특이성을 갖도록 프로그래밍할 수 있는 엔지니어링된 Cas12f 단백질을 제공하는 것을 다른 목적으로 한다.
본 발명은 확장된 표적화 가능 부위를 갖거나 표적 유전자에 따라 적절한 PAM 특이성을 갖도록 프로그래밍할 수 있는 엔지니어링된 Cas12f 단백질을 포함하는 유전자 편집 시스템, 조성물 또는 키트를 제공하는 것을 또 다른 목적으로 한다.
그 외에, 본 발명은 상기 엔지니어링된 Cas12f 분자를 포함하는 벡터 또는 벡터 시스템, 상기 엔지니어링된 Cas12f 분자를 이용하는 방법 등을 제공하는 것을 또 다른 목적으로 한다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않는다. 본 발명의 목적은 이하의 설명으로 보다 분명해질 것이며, 청구범위에 기재된 수단 및 그 조합으로 실현될 것이다.
상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.
본 발명의 일 구현예에 따르면, 서열번호 1을 기준으로 잔기 159, 164, 170, 174, 184, 188, 191, 225, 230 및 272로 이루어진 군에서 선택되는 하나 이상의 아미노산 위치 또는 그에 상응하는 하나 이상의 아미노산 위치에서 아미노산 치환을 포함하고, 서열번호 1로 표시되는 서열과 80% 이상의 서열 동일성을 갖는 아미노산 서열을 포함하는 엔지니어링된 Cas 단백질이 제공된다.
일 구현예에서, 상기 치환은 잔기 170, 174, 184, 188, 191, 225, 230 및 272로 이루어진 군에서 선택되는 하나 이상의 아미노산 위치 또는 그에 상응하는 하나 이상의 아미노산 위치에서 아미노산 치환을 포함하고, PAM(protospacer-adjacent motif) 인식 특이성이 변경된 것일 수 있다.
일 구현예에서, 상기 치환은 잔기 159 및 164로 이루어진 군에서 선택되는 하나 이상의 아미노산 위치 또는 그에 상응하는 아미노산 위치에서 아미노산 치환을 포함하고, PAM 근위 영역의 편집 윈도우가 변경된 것일 수 있다.
일 구현예에서, 상기 치환은 잔기 159 및 164로 이루어진 군에서 선택되는 하나 이상의 아미노산 위치 또는 그에 상응하는 하나 이상의 아미노산 위치에서 아미노산 치환을 추가로 포함하는 것일 수 있다.
일 구현예에서, 상기 치환은 하기 (1) 내지 (10)로 이루어진 군에서 선택된 하나 이상의 아미노산 치환을 포함할 수 있다:
(1) 159W;
(2) 164Y;
(3) 170C 또는 170T;
(4) 174H, 174A, 174E, 174K, 174N, 174R 또는 174T;
(5) 184H, 184N, 184R, 184S 또는 184T;
(6) 188G, 188H, 188K, 188N, 188Q, 188R, 188S, 188T 또는 188V;
(7) 191G, 191H, 191K, 191Q 또는 191W;
(8) 225F 또는 225T;
(9) 230A, 230H, 230I, 230S 또는 230T; 및
(10) 272C, 272K 또는 272R.
일 구현예에서, 상기 치환은 하기 (1) 내지 (10)로 이루어진 군에서 선택된 하나 이상의 아미노산 치환을 포함할 수 있다:
(1) I159W;
(2) S164Y;
(3) S170C 또는 S170T;
(4) Y174H, Y174A, Y174E, Y174K, Y174N, Y174R 또는 Y174T;
(5) A184H, A184N, A184R, A184S 또는 A184T;
(6) S188G, S188H, S188K, S188N, S188Q, S188R, S188S, S188T 또는 S188V;
(7) R191G, R191H, R191K, R191Q 또는 R191W;
(8) Q225F 또는 Q225T;
(9) Y230A, Y230H, Y230I, Y230S 또는 Y230T; 및
(10) Q272C, Q272K 또는 Q272R.
일 구현예에서, 상기 치환은 표 1에 기재된 아미노산 치환으로 구성된 군으로서 선택된 아미노산 치환을 포함하는 것일 수 있다.
일 구현예에서, 상기 엔지니어링된 Cas 단백질은 야생형 Cas12f 단백질이 인식하지 못하거나 인식도가 떨어지는 PAM 서열을 인식하는 것일 수 있다.
일 구현예에서, 5'-TVTN-3', 5'-TTVV-3', 5'-TGGG-3' 및 5'-TTTN-3'(N은 A, T, G 또는 C이고 V는 A, G 또는 C이다)로 이루어진 군에서 선택된 하나 이상의 PAM 서열을 인식하는 것일 수 있다.
일 구현예에서, 상기 엔지니어링된 Cas 단백질은 엔지니어링된 Un1Cas12f1 단백질 또는 엔지니어링된 CWCas12f 단백질일 수 있다.
일 구현예에서, 상기 엔지니어링된 Cas 단백질은 I159W 및 S164Y로 이루어진 군에서 선택된 하나 이상의 치환을 추가로 포함하는 것일 수 있다.
일 구현예에서, 상기 엔지니어링된 Cas 단백질은 DNA 절단 활성이 제거된 것일 수 있다.
일 구현예에서, 서열번호 1을 기준으로 잔기 354, 450, 518 및 538로 이루어진 군에서 선택된 하나 이상의 아미노산 위치 또는 그에 상응하는 하나 이상의 아미노산 위치에서 아미노산 치환을 추가로 포함하는 것일 수 있다.
일 구현예에서, 상기 아미노산 치환은 하기 (a) 내지 (d)로부터 선택된 하나 이상의 아미노산 치환을 추가로 포함하는 것일 수 있다:
(a) 354A, 354Q, 354L, 354W 또는 354V;
(b) 450A, 450Q, 450L, 450W 또는 450V;
(c) 518A, 518Q, 518L, 518W 또는 518V; 및
(d) 538A, 538Q, 538L, 538W 또는 538V.
일 구현예에서, 상기 엔지니어링된 Cas 단백질은 하나 이상의 아미노산의 결실, 삽입, 치환 또는 부가를 추가로 포함하고 가이드 RNA와 복합체를 형성할 수 있는 것일 수 있다.
본 발명의 다른 측면에서, (i) 상술한 엔지니어링된 Cas 단백질, (ii) 작용기 도메인, 및 임의적으로 (iii) 링커를 포함하는 융합 단백질이 제공된다.
일 구현예에서, 상기 작용기 도메인은 뉴클라아제 활성, 니카아제 활성, 레콤비나아제 활성, 데아미나제 활성, 메틸트랜스퍼라아제 활성, 메틸라아제 활성, 아세틸라아제 활성, 아세틸트랜스퍼라아제 활성, 전사 활성화 활성, 전사 억제 활성 또는 역전사효소 활성을 포함하는 것일 수 있다.
일 구현예에서, 상기 작용기 도메인은 데아미나제 활성을 갖는 것일 수 있다.
일 구현예에서, 상기 작용기 도메인은 하나 이상의 발현조절 도메인을 포함하는 것일 수 있다.
일 구현예에서, 상기 발현조절 도메인은 VP64, VPR, KRAB, MeCP2, DNMT, HAT, HDAC, TET 및 p300으로 이루어진 군에서 선택되는 것일 수 있다.
본 발명의 또 다른 측면에서, 상술한 어느 한 구현예의 엔지니어링된 Cas 단백질 또는 상술한 어느 한 구현예의 융합 단백질을 암호화하는 폴리뉴클레오티드가 제공된다.
본 발명의 또 다른 측면에서, (i) 상술한 어느 한 구현예의 엔지니어링된 Cas 단백질 또는 상기 단백질을 암호화하는 핵산, 및 (ii) PAM에 인접한 표적 서열과 혼성화가능한 가이드 서열을 포함하는 가이드 RNA 또는 상기 가이드 RNA를 암호화하는 핵산을 포함하는 엔지니어링된 CRISPR/Cas 시스템 또는 조성물이 제공된다.
본 발명의 다른 측면에서, (i) 상술한 엔지니어링된 Cas 단백질을 암호화하는 뉴클레오티드 서열이 작동가능하게 연결된 제1 핵산 구조물; 및 (ii) PAM에 인접한 표적 서열과 혼성화가능한 가이드 서열을 포함하는 가이드 RNA를 암호화하는 뉴클레오티드 서열이 작동가능하게 연결된 제2 핵산 구조물을 포함하는 하나 이상의 벡터를 포함하고, 상기 핵산 구조물 (i) 및 (ii)는 동일하거나 상이한 벡터에 위치할 수 있는 벡터 시스템이 제공된다.
일 구현예에서, 상기 가이드 RNA는 엔지니어링된 가이드 RNA일 수 있다.
일 구현예에서, 상기 가이드 RNA는 가이드 서열의 3'-말단에 연결된 U-rich tail 서열을 포함하고, 상기 U-rich tail은 5'-(UmV)nUo-3'로 표시되고, 여기서 V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수일 수 있다.
일 구현예에서, 상기 가이드 RNA는 엔지니어링된 스캐폴드 영역을 포함하고, 상기 엔지니어링된 스캐폴드 영역은 5'-말단부터 순차적으로 제1 스템-루프 영역, 제2 스템-루프 영역, 제3 스템-루프 영역, 제4 스템-루프 영역 및 tracrRNA-crRNA 상보성 영역을 포함하는 야생형 Cas12f1 가이드 RNA 서열의 스캐폴드 영역과 50% 이상 서열 동일성을 갖는 뉴클레오티드 서열을 포함하고, 상기 야생형 Cas12f1 가이드 RNA 서열에 대해 하기 (1) 내지 (4)로 이루어진 군에서 선택되는 하나 이상의 변형을 포함하는 것일 수 있다:
(1) 제1 스템-루프 영역의 일부 또는 전부의 결실;
(2) 제2 스템-루프 영역의 일부 또는 전부의 결실;
(3) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실; 및
(4) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환.
일 구현예에서, 상기 야생형 Cas12f1 가이드 RNA는 서열번호 11의 핵산 서열을 포함하는 tracrRNA 및 서열번호 12의 핵산 서열을 포함하는 crRNA를 포함하는 것일 수 있다.
일 구현예에서, 상기 엔지니어링된 스캐폴드 영역은 하기 식 (I)로 표시되는 서열과 80% 이상 서열 동일성을 갖는 서열을 포함하는 것일 수 있다.
식 (I)에서,
Xa는 서열번호 14의 핵산 서열 또는 서열번호 14의 서열에서 1 내지 20개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
Xb1은 서열번호 25의 핵산 서열 또는 서열번호 25의 서열에서 1 내지 13개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
Xb2는 서열번호 29의 핵산 서열 또는 서열번호 29의 서열에서 1 내지 14개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
Xc1은 서열번호 39의 핵산 서열 또는 서열번호 39의 서열에서 1 내지 28개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
Xc2는 서열번호 58의 핵산 서열 또는 서열번호 58의 서열에서 1 내지 27개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
Lk는 길이 2 내지 20의 폴리뉴클레오티드 링커이거나 부존재한다.
일 구현예에서, 상기 Xc1 서열 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 이들 중 하나 이상의 U가 A, G 또는 C로 치환되는 변형을 포함하는 것일 수 있다.
일 구현예에서, Xa 핵산 서열의 결실, Xb1 및 Xb2 핵산 서열의 결실, 및/또는 Xc1 및 Xc2 핵산 서열의 결실은 하나 이상의 상보적인 뉴클레오티드 쌍의 결실을 포함하는 것일 수 있다.
일 구현예에서, 상기 식 (I)에서 서열 5'-Xb1UUAGXb2-3'은 서열번호 34 내지 서열번호 38 및 5'-UUAG-3'로 이루어진 군에서 선택되는 것일 수 있다.
일 구현예에서, 상기 식 (I) 내의 서열 5'-Xc1-Lk-Xc2-3'은 서열번호 80 내지 서열번호 86 및 5'-Lk-3'으로 이루어진 군에서 선택되는 것일 수 있다.
일 구현예에서, 상기 Lk는 5'-GAAA-3', 5'-UUAG-3', 5'-UGAAAA-3', 5'-UUGAAAAA-3', 5'-UUCGAAAGAA-3'(서열번호 76), 5'-UUCAGAAAUGAA-3'(서열번호 77), 5'-UUCAUGAAAAUGAA-3'(서열번호 78) 및 5'-UUCAUUGAAAAAUGAA-3'(서열번호 79)로 이루어진 군에서 선택되는 핵산 서열을 포함하는 것일 수 있다.
일 구현예에서, 상기 스캐폴드 영역은 서열번호 87 내지 서열번호 132로 이루어진 군에서 선택된 핵산 서열로 이루어진 엔지니어링된 tracrRNA를 포함하고/거나, 서열번호 133 내지 서열번호 148로 이루어진 군에서 선택된 핵산 서열로 이루어진 엔지니어링된 crRNA을 포함하는 것일 수 있다.
일 구현예에서, 상기 가이드 RNA는 서열번호 13 및 서열번호 149 내지 서열번호 186으로 이루어진 군에서 선택된 핵산 서열의 스캐폴드 영역 서열을 포함하는 것일 수 있다.
일 구현예에서, 상기 엔지니어링된 Cas12 단백질은 상기 가이드 RNA와 복합체를 형성하는 것일 수 있다.
일 구현예에서, 상기 벡터는 레트로바이러스 벡터(retrovirus vector), 렌티바이러스 벡터(lentivirus vector), 아데노바이러스 벡터(adenovirus vector), 아데노-연관 바이러스 벡터(adeno-associated virus vector), 백시니아바이러스 벡터(vaccinia virus vector), 폭스바이러스 벡터(poxvirus vector), 단순포진 바이러스 벡터(herpes simplex virus vector) 및 파지미드 벡터(phagemid vector)로 구성된 군에서 선택되는 것일 수 있다.
일 구현예에서, 상기 벡터는 플라스미드, 네이키드 DNA, DNA 복합체, mRNA(전사물) 및 앰플리콘(amplicon)으로 이루어진 군에서 선택되는 것일 수 있다.
본 발명의 다른 측면에 있어서, 상술한 벡터 시스템으로부터 제조된 재조합 바이러스가 제공된다.
본 발명의 또 다른 측면에 있어서, 상술한 엔지니어링된 Cas 단백질 및 가이드 RNA, 상술한 시스템 또는 조성물, 상술한 벡터 시스템, 또는 상술한 재조합 바이러스를 세포와 접촉시키는 것을 포함하는, 세포 내 표적 핵산을 변경하는 방법이 제공된다.
일 구현예에서, 상기 접촉은 시험관 내에서 수행되는 것일 수 있다.
일 구현예에서, 상기 접촉은 생체 내에서 수행되는 것일 수 있다.
본 발명은 적어도 부분적으로 Cas12f 단백질(예컨대, Un1Cas12f1 또는 CWCas12f 단백질)에서 PAM 특이성 또는 PAM 근위 영역의 편집 윈도우를 변경할 수 있는 아미노산 위치 및 아미노산 치환을 밝혀내어, 이전에는 표적화가 가능하지 않았던 서열의 유전자 편집을 위해 변경된 PAM 특이성을 나타내도록 프로그래밍 가능한 Cas12f 단백질 변이체를 제공하는 것에 기초한다. 본 발명에 개시된 Cas12f 단백질 변이체는 천연의 단백질이 갖는 PAM 서열과는 상이한 PAM 서열에 특이성 또는 선호도를 갖고, 아미노산 치환 위치 및 내용을 선별 또는 조합하여 Cas12f 단백질이 인식하는 PAM 서열을 변경할 수 있다. 따라서, 표적화하고자 하는 서열 부근의 PAM 서열에 따라 적절한 Cas12f 단백질 변이체를 선별하여 사용할 수 있으므로, 이들 PAM 변이체는 야생형 Cas12f 단백질로는 표적화할 수 없었던 서열의 유전자 편집이 가능하게 한다. 소형의 Cas12 단백질, 특히 Cas12f 단백질과 본 명세서에 개시된 바와 같은 엔지니어링된 가이드 RNA를 포함하는 초소형의 CRISPR/Cas12f 시스템은 생체 내 전달을 위해 검증된 비히클인 AAV의 패키징이 가능하여 특히 다양한 질환의 치료제로 유망하다는 점을 고려할 때, 이와 같은 표적화 가능한 서열 범위의 확장은 보다 넓은 범위의 질환의 치료를 가능하게 한다.
도 1은 CWCas12f의 PAM 변이체의 개발을 위한 PAM 라이브러리 제작(도 1a) 및 CWCas12f의 PAM 변이체의 절단 분석(도 1b)을 설명하는 플로우 차트를 나타내는 도면이다.
도 2는 촉매 비활성 CWCas12f(dCWCas12f, dTnpB)의 구성 및 HEK293T 세포에서의 인델-널(indel-null) 활성의 확인을 도시한다. 도 2a는 야생형 또는 여러 dCWCas12f에 의한 플라스미드 벡터의 절단 패턴을 보여주는 아가로스 겔 이미지이다. 여기서, M은 분자 사다리(molecular ladder)를 나타낸다. 이미지는 3회의 독립적 실험에 대한 대표적인 실험에 해당한다. 도 2b는 HEK293T 세포의 NLRC4 유전자좌에서 CWCas12f 또는 dCWCas12f의 인델 효율을 확인한 그래프이다(n = 3회의 독립적 실험).
도 3은 CRISPR-Cas9 시스템을 사용하여 상동지정복구를 통해 NLRC4 유전자좌에서 PAM 서열이 다른 HEK293T 클론의 준비하는 과정을 나타내는 도면이다.
도 4a는 자연 발생적 또는 엔지니어링된 gRNA에 의해 가이드되는 CWCas12f의 인델 효율에 대한 바이올린 플롯(Violin plot)을 나타낸다(n = 14개 부위). 도 4b는 Un1Cas12f1과 CWCas12f의 인델 형성 활성을 비교하기 위해 사용된 부위의 서열 정보 및 다양한 엔지니어링된 gRNA 버전의 존재 하의 Un1Cas12f1과 CWCas12f의 인델 효율의 비교를 나타내는 도면이다(평균 ± 표준편차, n = 3회의 독립적 실험). P 값은 양측 스튜던트 t-테스트로 도출하였다. ns, 유의하지 않음.
도 5는 TaRGET 시스템이 다른 RNA-가이드된 TnpB 시스템에 비해 높은 인델 효율로 인해 아데닌 염기 편집기를 위한 유리한 스캐폴드를 제공함을 시사하는 바이올린 플롯을 나타내는 도면이다. 사각형 점은 PCSK9 유전자 내의 표적 부위를 나타낸다. P 값은 양측 웰치 t-테스트(TaRGET 대 ISDra2TnpB) 및 양측 만-휘트니 순위합 테스트(TaRGET 대 AmaTnpB)로 도출하였다. n = 11개 부위.
도 6은 단일 가닥 가이드 RNA의 존재 하에서 CWCas12f의 이량체화를 나타낸 도면이다. 도 6a는 정제된 CWCas12f 용출 분획에 대한 SDS-PAGE 겔 이미지를 나타내는 도면이고, 도 6b는 sgRNA의 존재 또는 부재 하의 CWCas12f 단백질의 크기 배제 크로마토그래피 프로파일 나타내는 도면이다.
도 7은 야생형 CWCas12f의 PAM 선호도의 서열 로고를 분석한 도면이다.
도 8은 시험관 내(in vitro) DNA 절단 분석을 통한 PAM 변이체 후보의 스크리닝 결과를 나타내는 도면이다: 도 8a(S170X), 도 8b(Y174X), 도 8c(A184X), 도 8d(S188X), 도 8e(R191X), 도 8f(Q225X), 도 8g(Y230X), 도 8h(V271X) 및 도 8i(Q272X).
도 9는 캐노니컬 TTTR 서열 이외의 다른 PAM 서열에 대한 PAM 변이체의 인델 형성 활성을 확인한 도면이다(평균 ± 표준편차, n = 3회의 독립적 실험): TGTA(도 9a), TCTG(도 9b), TGTG(도 9c) 및 TTTC(도 9d). P 값은 양측 스튜던트 t-테스트로 도출하였다.
도 10은 확장된 TTTN PAM 서열에 대한 S188K CWCas12f 변이체의 선호도를 나타낸 도면이다(평균 ± 표준편차, n = 3회의 독립적 실험). P 값은 양측 스튜던트 t-테스트로 도출하였다.
도 11a는 야생형 Tad 및 돌연변이 Tad(Tad*)의 배향 및 순서에 따른 TaRGET-ABE 모듈의 구조 및 명칭을 나타내는 도면이다. 도 11b는 HEK293T 세포의 두 부위(부위 4 및 부위 2)에 대한 TaRGET-ABE 모듈의 A에서 G로의 전환 효율을 나타내는 도면이다.
도 12는 TaRGET-ABE-C2 시스템의 염기 편집 윈도우를 확인한 도면이다.
도 13a는 dCWCas12f(D354A)의 C-말단에 융합된 엔지니어링된 단량체 또는 이종이량체 형태의 다양한 Tad 모듈의 전환 효율을 나타내는 도면이다. 도 13b는 dCWCas12f와 Tad를 연결하는 데 사용되는 링커의 최적화된 길이를 확인한 도면이다. 도 13c는 SpCas9, Un1Cas12f1 및 CWCas12f 기반 아데닌 염기 편집기의 아키텍처를 나타내는 도면이고, 여기서, Tad**는 Tad* 단백질에서 V106W 및 D108Q 돌연변이가 있는 엔지니어링된 형태를 나타낸다. 도 13d는 SpCas9, Un1Cas12f1 및 CWCas12f 기반 아데닌 염기 편집기에 대한 3개의 상이한 부위에서의 A에서 G로의 전환 효율의 히트맵을 나타내는 도면이다. 여기서, X는 비-A(non-A) 서열을 나타낸다. 오른쪽 패널에서, Cas12f 기반 ABEMINI와 TaRGET-ABE-C3.0 간의 전환 효율을 비교했다(평균 ± 표준 편차, n = 3회의 독립적 실험). 도 13e는 엔지니어링된 sgRNA의 유형에 따른 인델 효율 및 A에서 G로의 전환 효율의 의존성을 나타내는 도면이다. n = 18개 부위. P 값은 양측 스튜던트 t-테스트로 도출하였다.
도 14a는 비-TTTR PAM 부위에서 CWCas12f PAM 변이체의 A에서 G로의 전환 효율을 보여주는 히트맵을 나타낸 도면이다. 도 14b는 누적(stacked) PAM 돌연변이(S188Q/Q272K, S188K/Q272K 및 S188Q/R191K/Q272K)에 의한 표적화 가능 부위의 추가 확장을 나타낸 도면이다. 도 14c는 CWCas12f의 S188Q/Q272K 및 S188K/Q272K PAM 변이체에 의한 다양한 PAM 서열을 갖는 부위에서의 멀티플렉싱된(multiplexed) 아데닌 염기 편집을 나타낸 도면이다(평균 ± 표준편차, n = 3회의 독립적 실험).
도 15는 CWCas12f가 PAM을 포함하는 프로토스페이서와 결합한 구조 모델링을 나타낸 도면이다. S164 및 I159의 위치가 B 체인에 표시되어 있다.
도 16은 CWCas12f 돌연변이(I159W 및/또는 S164Y)를 통한 염기 편집 윈도우의 확장을 나타낸다. 도 16a는 PAM-근위 영역에서 편집 윈도우를 이동 또는 변경하기 위한 아미노산 치환 모델링을 나타낸 도면이다. 도 16b는 Ile159를 트립토판으로 치환하여 염기 편집 윈도우의 확장을 확인한 결과를 도시한다. 상대 값은 3개의 다른 부위에 대한 각각의 포지션에서 전환 효율을 도출하여 얻었다(평균 ± 표준 편차, n = 3회의 독립적 실험).
도 17a는 데아미나제 모듈의 다양한 구조에 따른 염기 편집 윈도우의 확장을 확인한 결과를 나타낸다. 값들은 3회 실험의 평균이다. 도 17b는 총 25개의 내인성 유전자좌에 대하여 TaRGET-ABE-C3.1의 A에서 G로의 전환 효율을 확인한 결과이다. 값들은 3회 실험의 평균이다.
도 18은 도 17b에서 사용된 25개의 다중 부위에서 TaRGET-ABE-C3.1의 A에서 G로의 전환 활성을 확인한 결과를 나타내는 도면이다: 도 18a(연번 1 내지 6번의 표적 유전자의 전환 효율), 도 18b(연번 7 내지 12번의 표적 유전자의 전환 효율), 도 18c(연번 13 내지 19번의 표적 유전자의 전환 효율) 및 도 18d(연번 20 내지 25번의 표적 유전자의 전환 효율).
도 19는 TaRGET 기반 아데닌 염기 편집기(TaRGET-ABE-C2, TaRGET-ABE-C3.0 및 TaRGET-ABE-C3.1)와 Un1Cas12f 기반 ABEMINI의 A에서 G로의 전환 효율을 일대일 비교한 도면이다. 색상의 강도는 전환 효율을 나타낸다. 값들은 3회의 독립적 실험의 평균을 나타낸다.
도 20은 일 실시예에 따른 시스템의 엔지니어링된 가이드 RNA의 변형부위를 도시한 도면이다.
도 21a 내지 도 21p는 캐노니컬 TTTR 서열 이외의 다른 PAM 서열에 대한 PAM 변이체의 인델 형성 활성을 진핵 세포주에서 확인한 도면이다(평균 ± 표준편차, n = 3회의 독립적 실험).
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 구현예에 관하여 특정 도면을 참조하여(도면이 있는 경우에 한함) 기술될 것이지만, 본 발명은 이에 한정되지 않고, 청구항들이 기술하는 것과 동일하거나 균등한 모든 범위에 관하여 첨부된 청구항에 의해서만 한정된다. 본 발명의 다양한 구현예/실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 기술적 사상과 범위를 벗어나지 않으면서 일 구현예/실시예에서 다른 구현예/실시예로 변경되거나 복수의 구현예/실시예가 조합되어 실현될 수 있다. 본 명세서에서 사용된 기술 및 학술 용어들은, 달리 정의되지 않는 한, 본 발명이 속하는 분야에서 일반적으로 사용되는 것과 같은 의미를 갖는다. 본 명세서의 해석을 위한 목적으로 하기 정의들이 적용될 것이고, 단수형으로 표현된 용어는 적절한 경우에는 복수형(예컨대, 적어도 하나)을 나타내는 것으로 그 의미가 해석되어야 할 것이며 그 반대도 마찬가지이다.
이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 바람직한 구현예/실시예에 관하여 첨부된 도면을 참조하여(도면이 있는 경우에 한함) 상세히 설명하기로 한다.
I. 정의
명세서 전반에 걸쳐 다음에서 정의되는 용어들이 사용된다. 다른 정의들 또한 명세서 다른 부분에서 확인된다.
본 명세서에 사용되는 "약"은 대략, 부근, 거의 또는 ~쯤을 의미한다. "약"이라는 용어가 수치 범위와 함께 사용되는 경우, 이는 명시된 수치의 앞뒤 경계를 확장함으로써 그 범위를 수정한다. 일반적으로, "약"이라는 용어는 본 명세서에서 10%의 변동량으로 명시된 값의 앞뒤로 수치를 수정하는 데 사용된다.
용어 A, T, C, G 및 U는 문맥에 따라 DNA 또는 RNA 상에서 염기(base), 뉴클레오시드(nucleoside) 또는 뉴클레오티드(nucleotide)로 적절히 해석될 수 있다. 예를 들어, A, T, C, G 및 U가 염기를 의미하는 경우는 각각 아데닌(A), 구아닌(G), 시토신(C), 티민(T) 및 유라실(U)로 해석될 수 있다. A, T, C, G 및 U가 뉴클레오시드를 의미하는 경우는 각각 아데노신(A), 티미딘(T), 사이티딘(C), 구아노신(G) 및 유리딘(U)으로 해석될 수 있으며, 서열에서 뉴클레오티드를 의미하는 경우는 각 뉴클레오시드를 포함하는 뉴클레오티드를 의미하는 것으로 해석되어야 한다.
본원에서 사용되는 용어 "핵산", "핵산 분자" 또는 "폴리뉴클레오타이드"는 본원에서 상호교환 가능하게 사용된다. 이들은 단일- 또는 이중-가닥 형태의 데옥시리보뉴클레오타이드 또는 리보뉴클레오타이드의 폴리머를 지칭하고, 달리 명시되지 않는 한, 자연 발생 뉴클레오타이드와 유사한 방식으로 기능할 수 있는 천연 뉴클레오타이드의 공지된 유사체를 포괄한다. 이 용어는 합성 백본, 뿐만 아니라 증폭물을 갖는 핵산-유사 구조체를 포괄한다. DNA와 RNA는 둘 모두 폴리뉴클레오타이드이다. 폴리머는 천연 뉴클레오사이드(즉, 아데노신, 티미딘, 구아노신, 시티딘, 우리딘, 데옥시아데노신, 데옥시티미딘, 데옥시구아노신, 및 데옥시시티딘), 뉴클레오사이드 유사체(예를 들어, 2-아미노아데노신, 2-티오티미딘, 이노신, 피롤로-피리미딘, 3-메틸 아데노신, C5-프로피닐시티딘, C5-프로피닐우리딘, C5-브로모우리딘, C5-플루오로우리딘, C5-아이오도우리딘, C5-메틸시티딘, 7-데아자아데노신, 7-데아자구아노신, 8-옥소아데노신, 8-옥소구아노신, O(6)-메틸구아닌, 및 2-티오시티딘), 화학적으로 변형된 염기, 생물학적으로 변형된 염기(예를 들어, 메틸화된 염기), 삽입된 염기(intercalated base), 변형된 당(예를 들어, 2'-플루오로리보스, 리보스, 2'-데옥시리보스, 아라비노스, 및 헥소스), 또는 변형된 포스페이트 기(예를 들어, 포스포로티오에이트 및 5'-N-포스포라미디트 연결)를 포함할 수 있다.
용어 "아미노산"은 유기체의 체내에서 유전자의 전사 및 번역 과정을 통해 합성되는 20 종의 아미노산을 통틀어 의미한다. 구체적으로, 상기 아미노산은 알라닌(Alanine; Ala, A), 아르기닌(Arginine; Arg, R), 아스파라긴(Asparagine; Asn, N), 아스파르트산(Aspartic acid; Asp, D), 시스테인(Cysteine; Cys, C), 글루탐산(Glutamic acid; Glu, E), 글루타민(Glutamine; Gln, Q), 글리신(Glycine; Gly, G), 히스티딘(Histidine; His, H), 이소류신(Isoleucine; Ile, I), 류신(Leucine; Leu, L), 리신(Lysine; Lys K), 메티오닌(Methionine; Met, M), 페닐알라닌(Phenylalanine; Phe, F), 프롤린(Proline; Pro, P), 세린(Serine; Ser, S), 트레오닌(Threonine; Thr, T), 트립토판(Tryptophan; Trp, W), 티로신(Tyrosine; Tyr, Y), 및 발린(Valine; Val, V)을 포함한다. 상기 아미노산 각각은 모두 대응하는 DNA 코돈이 존재한다. 상기 아미노산이라는 용어는 일반적으로 자연적으로 발생하는 표준 아미노산을 지칭하나, 비-자연 발생적 아미노산, 인공 아미노산, 변형된 아미노산 등 또한 포함될 수 있다.
본 명세서에서 사용되는 용어 "동일성"은 폴리머 분자들 간의, 예를 들어, 핵산 분자들(예를 들어, DNA 분자들 및/또는 RNA 분자들) 간 및/또는 폴리펩타이드 분자들 간 전체 관련성을 지칭한다. 일부 구현예에서, 폴리머 분자는 이들의 서열이 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 또는 99% 동일성을 가지는 경우 서로 "실질적으로 동일한" 것으로 간주될 수 있다. 두 핵산 또는 폴리펩타이드 서열의 동일성 퍼센트의 계산은, 예를 들어, 최적의 비교 목적을 위해 두 서열을 정렬함으로써 수행될 수 있다(예를 들어, 최적의 정렬을 위해 제1 및 제2 서열 중 하나 또는 둘 모두에 갭이 도입될 수 있고, 비교 목적을 위해 비-동일 서열이 무시될 수 있다). 일부 구현예에서, 비교 목적으로 정렬된 서열의 길이는 참조 서열 길이의 적어도 50%, 적어도 60%, 적어도 70%, 적어도 80%, 적어도 90%, 적어도 95%, 또는 실질적으로 100%이다. 두 서열 간의 동일성 퍼센트의 결정 및 서열의 비교는 수학적 알고리즘을 이용하여 달성될 수 있다. 통상의 기술자에게 널리 공지된 바와 같이, 아미노산 또는 핵산 서열은 뉴클레오타이드 서열의 경우 BLASTN, 및 아미노산 서열의 경우 BLASTP, gapped BLAST, 및 PSI-BLAST와 같이 상업적 컴퓨터 프로그램에서 입수 가능한 것들을 포함하는 임의의 다양한 알고리즘을 이용하여 비교될 수 있다.
본 명세서에서 사용되는 "보존적 치환"은 기능 또는 물리/화학적 특성이 유사한 아미노산으로 치환을 의미하고, 아미노산의 보존적 치환은 관련 기술 분야에 잘 알려져 있다. 예컨대, 다음 그룹 내의 아미노산들 중에서 일어나는 아미노산의 치환일 수 있다: i) 메티오닌, 이소류신, 류신, 발린, ii) 페닐알라닌, 티로신, 트립토판, iii) 라이신, 아르기닌, 히스티딘, iv) 알라닌, 글리신, v) 세린, 트레오닌, vi) 글루타민, 아스파라긴 및 vii) 글루탐산, 아스파트산. 일부 실시형태에서, 보존적 아미노산 치환은 아미노산 치환이 일어난 단백질의 상대 전하 또는 크기 특징을 변경시키지 않는 아미노산 치환을 지칭한다.
용어 "융합 단백질"은 둘 이상의 본래 별개인 단백질, 또는 이의 일부의 결합을 통해 형성된 단백질을 지칭한다. 일부 구현예에서, 링커 또는 스페이서가 각각의 단백질 사이에 존재할 것이다. 구체적으로, 링커는 2 내지 20개 아미노산을 포함하는 펩티드 링커일 수 있다. 링커는 예를 들어 GGGS, GGGGS, 또는 이들의 2개, 3개, 4개 또는 그 이상의 반복체일 수 있다.
용어 "CRISPR/Cas 시스템"은 "유전자 편집 시스템"과 상호교환적으로 사용된다. CRISPR/Cas 시스템은 Cas 단백질 및/또는 핵산 표적화 분자(예컨대, 가이드 RNA) 관련 성분을 포함하여 표적 유전자 또는 표적 핵산에 상호작용하고/거나 표적 부위를 변경(예컨대, 절단, 편집, 수선 및/또는 복구)할 수 있는 시스템을 의미한다. CRISPR/Cas 시스템은 표적 부위와 상호작용 및/또는 표적 부위의 변경이 가능한 모든 형태로 존재할 수 있으며, 예를 들어, Cas 단백질과 가이드 RNA를 포함하는 복합체를 포함하는 조성물 형태일 수 있고, Cas 단백질과 가이드 RNA가 각각 별개의 조성물에 포함된 키트 형태일 수 있다. 다른 예로, 시스템은 Cas 단백질을 암호화하는 핵산 및 가이드 RNA를 암호화하는 핵산을 포함하는 하나 이상의 벡터를 포함하는 벡터 시스템 또는 조성물 형태일 수 있다.
본 명세서에서 사용되는 용어 "표적 부위"는 결합에 충분한 조건이 존재하는 경우에 결합 분자가 결합할 핵산 부분을 규정하는 핵산 서열을 지칭한다. 일부 구현예에서, 표적 부위는 본원에 기재된 Cas 단백질이 결합하고/거나 그러한 Cas 단백질에 의해 변경되는 핵산 서열이다. 일부 구현예에서, 표적 부위는 본원에 기재된 가이드 RNA가 결합하는 핵산 서열이다. 표적 부위는 단일가닥 또는 이중가닥일 수 있다. RNA-가이드되는(예를 들어, RNA-프로그래밍 가능한) 뉴클레아제(예를 들어 Cas 단백질)의 문맥에서, 표적 부위는 전형적으로 가이드 RNA의 가이드 서열에 상보적인 뉴클레오타이드 서열(표적 서열, 표적 가닥에 존재) 및 상기 뉴클레오타이드 서열에 상보적인 프로토스페이서 서열 및 그에 인접한 3' 말단 또는 5' 말단에 프로토스페이서 인접 모티프(PAM)(비-표적 가닥에 존재)를 포함할 수 있다. 프로토스페이서 서열은 PAM 서열의 5' 말단 또는 3' 말단에 위치하는 서열로, 상기 프로토스페이서 서열은 표적 서열에 상보성을 가지는 서열 또는 표적 서열과 상보적인 결합을 하는 서열이다. 프로토스페이서 서열과 표적 서열 간의 관계는 표적 서열과 가이드 서열 간의 관계와 유사하다. 이러한 특징에 의해, 가이드 서열은 통상 프로토스페이서 서열을 이용하여 설계할 수 있다.
용어 "가이드 RNA(gRNA)"는 통상 Cas 단백질로 지칭되는 분자와 복합체를 형성할 수 있고, 표적 핵산 서열과 상호작용(예컨대, 혼성화, 상보적 결합 또는 수소 결합 등)할 수 있으며, 표적 핵산 서열에 대한 복합체의 서열-특이적 결합(sequence-specific binding)을 야기하기에 충분한 정도로 표적 핵산 서열과 상보성을 갖는 가이드(guide) 서열을 포함하는 RNA를 의미한다. 본 명세서에서 가이드 RNA 또는 가이드 분자는 상호 교환적으로 사용될 수 있다. 가이드 RNA는 통상 스캐폴드(Scaffold) 영역 및 가이스 서열을 포함하는 스페이서 영역을 포함한다.
용어 "가이드 서열(guide sequence)"은 "스페이서(spacer)" 또는 "스페이서 서열(spacer sequence)"과 상호 교환적으로 사용될 수 있으며, CRISPR/Cas 시스템에서 표적 서열 부분과 상호작용(예를 들어, 혼성화, 상보적 결합 또는 수소 결합 등)할 수 있는 폴리뉴클레오티드를 의미한다. 예컨대, 가이드 서열은 유전자 편집 시스템에서 가이드 RNA를 구성하는 crRNA의 3'-말단부 또는 3'-말단 부근에 직접 또는 링커 등을 통해 간접적으로 연결된 10개 내지 50개의 연속된 뉴클레오티드를 지칭한다.
용어 "스캐폴드(Scaffold) 영역"은 가이드 RNA가 유전자 편집 단백질로 지칭되는 분자(예컨대 Cas 단백질)와 상호작용할 수 있는 부분을 지칭하며, 자연계에서 발견되는 가이드 RNA에서 스페이서(spacer)를 제외한 나머지 부분을 지칭하는데 사용될 수 있다.
본 명세서에 사용된"스템"은 이중가닥을 형성할 수 있는 뉴클레오티드 영역을 포함하는 2차 구조를 갖는 핵산 영역을 의미한다. 이중가닥이 주로 단일가닥 뉴클레오티드의 영역(루프 영역)에 의해 연결된 형태를 "스템-루프"라고 지칭한다. "스템" 또는 "스템-루프"는 상호교환적으로 사용될 수 있으며, 문맥에 따라 적절히 해석되어야 한다.
용어 "엔지니어링된"은 자연계에 천연적으로 존재하는 구성을 가진 물질 또는 분자와 구분하기 위해 사용하는 용어로서, 상기 물질 또는 분자에 인위적인 변형이 가해진 것을 의미한다. 예를 들어, "엔지니어링된 Cas 단백질"은 자연계에 존재하는 Cas 단백질의 구성(예를 들어, 아미노산 서열)에 인위적인 변형이 가해진 것을 의미하며, 본 명세서 내에서 "변이체(variant)" 또는 "(돌연)변이체(mutant)"로도 지칭될 수 있다. 예를 들어, "엔지니어링된 가이드 RNA(engineered guide RNA)"는 자연계에 존재하는 가이드 RNA(gRNA)의 구성(예를 들어, 서열)에 인위적인 변형이 가해진 gRNA를 의미하며, 본 명세서 내에서 "augmented RNA"로도 지칭될 수 있다.
용어 "변이체"는 참조 대상(reference entiry)(예를 들어, 야생형 서열)과 상당한 구조적 동일성을 나타내지만, 참조 대상과 비교할 때 하나 이상의 화학적 모이어티(moiety)의 존재 또는 수준에서 참조 대상과 구조적으로 상이한 것을 의미한다. 일부 구현예에서, 변이체는 기능적으로 참조 대상과 상이할 수 있다. 일반적으로, 특정 대상이 참조 대상의 "변이체"로 적절하게 여겨지는지 여부는 참조 대상과 구조적 동일성 정도에 기초한다. 단백질 또는 폴리펩티드를 예로 들면, 관심 폴리펩타이드는, 관심 폴리펩타이드가 모체의 아미노산 서열과 동일하지만 특정 위치에서 소수의 서열 변경이 있는 아미노산 서열을 갖는 경우, 모 또는 참조 폴리펩타이드의 "변이체"로 여겨진다. 일부 실시 형태에서, 모체와 비교할 때 변이체에서 50%, 40%, 30%, 20%, 15%, 10%, 9%, 8%, 7%, 6%, 5%, 4%, 3%, 2% 미만의 잔기가 치환된다. 일부 실시형태에서, 모 또는 참조 폴리펩타이드는 자연계에서 발견된 것이다.
용어 "벡터(vector)"는 달리 특정되지 않는 한, 유전 물질을 세포 내로 운반할 수 있는 물질을 의미한다. 예를 들어, 벡터는 대상이 되는 유전 물질, 예를 들어, CRISPR/Cas 시스템의 이펙터 단백질(Cas 단백질)을 암호화하는 핵산, 및/또는 가이드 RNA를 암호화하는 핵산을 포함하는 핵산, 통상 DNA 분자일 수 있으나, 이에 제한되는 것은 아니다. 또한, 본 발명에서 "벡터"는 삽입된 유전자가 정상적으로 발현되도록 작동가능하게 연결된 필수적인 조절 요소를 포함하는 "발현 벡터" 일 수 있다.
용어 "작동가능하게 연결된(operably linked)"은 기술된 구성이 의도된 방식으로 기능하는 것을 허용하도록 배치된 둘 이상 구성의 기능적 연결을 의미한다. 예를 들어, 프로모터 서열이 A 단백질을 암호화하는 서열과 작동가능하게 연결되어 있을 때, 이는 상기 프로모터가 세포 내에서 A 단백질을 암호화하는 서열을 전사 및/또는 발현하도록 A 단백질을 암호화하는 서열에 연결된 것을 의미한다. 또한, 상기 용어는 관련 기술분야에서 통상의 기술자에 의해 일반적으로 인식되는 다른 의미를 모두 포함하며, 문맥에 따라 적절히 해석될 수 있다.
II. 엔지니어링된 Cas 단백질
본 발명은 적어도 부분적으로 변경된 PAM 인식 특이성 또는 PAM 근위 영역의 편집 윈도우가 변경되도록 엔지니어링된 Cas 단백질, 구체적으로 엔지니어링된 Cas12 단백질, 보다 구체적으로 엔지니어링된 Cas12f 단백질에 관한 것이다. 본 발명자들은 놀랍게도 Cas12f가 PAM 인식을 변경하도록 변이될 수 있음을 발견하였다. 이는 본원에 개시된 바와 같은 엔지니어링된 Cas12f 단백질(즉, Cas12f 단백질 변이체)에 의해 인식되는 PAM 서열 범위를 확대할 수 있음을 의미한다. 본원에 개시된 바와 같은 엔지니어링된 Cas12f 단백질은 대응하는 야생형 단백질에 의해 인식되는 PAM 서열과 상이한 서열을 인식할 수 있다. 또한, 본 발명자들은 PAM 변이를 통해 표적화할 수 있는 범위를 확대하더라도, Cas 단백질이 구조적으로 예컨대 다른 기능성 도메인들의 기능을 방해하여 편집이 제한될 수 있음을 확인하였고, Cas12f의 특정 위치에서 아미노산 치환을 통해 PAM 근위 영역의 편집 윈도우를 변경할 수 있음을 발견하였다. PAM 근위 영역의 편집 윈도우가 변경된 Cas12f 변이체는, 예컨대, 염기 편집 도메인과 같은 다른 기능성 도메인들과 융합된 형태로 정교한 염기 치환을 유도하는 데 유용하다.
이에 따라, 본 발명의 일 태양에 따르면, 하나 이상의 변이를 포함하는 엔지니어링된 Cas 단백질, 구체적으로 엔지니어링된 Cas12 단백질, 보다 구체적으로 엔지니어링된 Cas12f 단백질이 제공된다. 본원에 개시된 바와 같은 엔지니어링된 Cas 단백질은 야생형 Cas12f 단백질에 비해 접근할 수 있는 표적 부위의 범위를 크게 확장한다.
클래스 2, 타입 V에 속하는 Cas12f 단백질은 선행연구(문헌 [Harrington et al., Science, 362, 839-842, 2018] 참조)에서 Cas14로 명명된 이펙터 단백질 중 하나로, Cas14a1 단백질로도 불린다. Cas12f 단백질은 두 개의 Cas12f 단백질 분자가 이량체(dimer) 형태로 가이드 RNA와 복합체를 형성할 수 있으며, Cas12f 단백질의 도메인 전부 또는 일부가 Cas12f 가이드 RNA의 스캐폴드 영역의 특정 부분을 인식하여 CRISPR/Cas12f1 복합체를 형성하는 것으로 보고되었다(문헌 [Takeda et al., Structure of the miniature type V-F CRISPR-Cas effector enzyme, Molecular Cell 81, 1-13, 2021] 및 문헌[Xiao et al., Structural basis for the dimerization-dependent CRISPR-Cas12f nuclease, bioRxiv, 2020] 참조). 일 구현예에서, Cas12f 단백질은 Cas14 패밀리에서 유래한 것일 수 있다(문헌 [Harrington et al., Science 362, 839-842, 2018] 및 문헌[미국 특허 공보 US 2020/0172886 A1]을 참조할 수 있고, 상기 문헌의 전체 내용이 본 명세서에 포함된다). 다른 구현예에서, Cas12f 단백질은 uncultured archaeon 유래의 Cas14a1 또는 Un1Cas12f1 단백질일 수 있다(문헌 [Harrington et al., Science 362, 839-842, 2018] 및 문헌[미국 특허 공보 US 2020/0172886 A1]을 참조할 수 있고, 상기 문헌의 전체 내용이 본 명세서에 참조로 포함된다). 일 예로서, 야생형 Cas12f 단백질(예컨대, Cas14a1 또는 Un1Cas12f1 단백질)는 서열번호 5의 아미노산 서열을 포함하거나 이로 이루어진 것일 수 있다(표 2 참조). 또 다른 구현예에서, Cas12f 단백질은 Candidatus Woesearchaeota archaeon 유래의 TnpB(Transposon-associated transposase B) 단백질일 수 있다. TnpB 단백질은 종래에 전이효소(transposase)로 알려진 단백질이고, Un1Cas12f1 단백질과의 서열 유사성으로 인해 CWCas12f으로 명명되었다(본 명세서에서 TnpB와 CWCas12f는 상호 교환적으로 사용된다). CWCas12f 단백질에 대한 가이드 RNA는 알려진 바 없었으나, 본 발명자들은 CWCas12f가 핵산 분해 단백질 중 분자량이 가장 작은 그룹에 속하는 Cas12f1 단백질과 그 크기가 유사하면서, 표적 핵산 또는 표적 유전자를 인식하여 표적 부위의 이중가닥 DNA를 절단하는 탁월한 엔도뉴클레아제 활성을 가지고 있음을 처음으로 확인하고, CWCas12f와 함께 사용되어 우수한 유전자 편집 활성을 나타내는 엔지니어링된 가이드 RNA를 성공적으로 제작하였다. 엔지니어링된 가이드 RNA에 대해서는 후술한다. 일 예로서, 야생형 Cas12f 단백질은 서열번호 1의 아미노산 서열을 포함하거나 이로 이루어진 것일 수 있다(표 2 참조). 그 외에 Cas12f1 단백질은 다른 명칭을 갖더라도 관련 기술 분야에서 그의 기능, 구조 및/또는 서열 유사성 등에 기초하여 동등한 단백질로 분류될 수 있는 임의의 단백질일 수 있다. 또한, 야생형 Cas12f 단백질의 변이체가 본원에 개시된 바와 같은 유전체 표적 범위 확장을 위한 하나 이상의 변이를 포함할 수 있다.
일 측면에서, 엔지니어링된 Cas 단백질은 서열번호 1을 기준으로 잔기 159, 164, 170, 174, 184, 188, 191, 225, 230, 271 및 272로 이루어진 군에서 선택되는 하나 이상의 아미노산 위치 또는 그에 상응하는 하나 이상의 아미노산 위치에서 아미노산 치환을 포함하고, 서열번호 1로 표시되는 서열과 80% 이상, 85% 이상, 86% 이상, 87% 이상, 88% 이상, 89% 이상, 90% 이상, 91% 이상, 92% 이상, 93% 이상, 94% 이상, 95% 이상, 96% 이상, 97% 이상, 또는 98% 이상의 서열 동일성을 갖는 아미노산 서열을 포함할 수 있다. 본 명세서에서 사용되는 바와 같은 "서열번호 1을 기준으로"는 아미노산 치환 위치를 설명하기 위한 기준 서열을 의미한다. 예컨대, Un1Cas12f1의 아미노산 서열인 서열번호 5(서열번호 1의 아미노산 서열의 N-말단 28개 아미노산이 제거된 서열)를 기준으로 하면, 서열번호 1과 정렬했을 때에 "그에 상응하는 위치"는 131, 136, 142, 146, 156, 160, 163, 197, 202, 243 및 244가 될 것이다. 다른 유사한 서열을 갖는 Cas12f 단백질의 경우에도 서열 정렬을 통해 상응하는 위치를 용이하게 결정할 수 있을 것이다. 또한, 서열번호 1의 아미노산 서열에서 상기 치환 위치는 각각 S170, Y174, A184, S188, R191, Q225, Y230 및 Q272에 해당하지만, 예컨대 아미노산의 보존적 치환이 있거나, Cas 단백질의 기능을 훼손하지 않는 범위에서 아미노산 변이가 있는 경우에 그 치환 위치에 대응하는 아미노산은 상이한 것일 수 있음을 이해하여야 한다.
일 구현예에서, 상기 치환은 서열번호 1을 기준으로 잔기 170, 174, 184, 188, 191, 225, 230, 271 및 272로 이루어진 군에서 선택되는 하나 이상의 아미노산 위치 또는 그에 상응하는 하나 이상의 아미노산 위치에서 아미노산 치환을 포함하고, PAM(protospacer-adjacent motif) 인식 특이성이 변경된 것일 수 있다. 야생형 Cas12f1 단백질, 예를 들어 야생형 Un1Cas12f1 또는 CWCas12f 단백질은 5'-TTTR-3' (5'-TTTA-3' 또는 5'-TTTG-3') PAM에 선호도를 나타내지만, 상기 하나 이상의 아미노산 위치에서 아미노산 치환을 포함하는 변이체는, 예컨대 5'-TVTN-3', 5'-TTVV-3', 5'-TGGG-3' 및 5'-TTTN-3'(N은 A, T, G 또는 C이고, V는 A, G 또는 C이다)로 이루어진 군에서 선택된 하나 이상의 PAM 서열을 인식하여 우수한 인델 효과를 나타내었다. 보다 구체적으로, 변이체가 인식하는 PAM 서열은 표 1을 참조한다.
일 구현예에서, 아미노산 치환은 170C 또는 170T; 174H, 174A, 174E, 174K, 174N, 174R 또는 174T; 184H, 184N, 184R, 184S 또는 184T; 188G, 188H, 188K, 188N, 188Q, 188R, 188S, 188T 또는 188V; 191G, 191H, 191K, 191Q 또는 191W; 225F 또는 225T; 230A, 230H, 230I, 230S 또는 230T; 및 272K, 272C 또는 272R로 이루어진 군에서 선택된 하나 이상의 아미노산 치환을 포함할 수 있다.
다른 구현예에서, 아미노산 치환은 S170C 또는 S170T; Y174H, Y174A, Y174E, Y174K, Y174N, Y174R 또는 Y174T; A184H, A184N, A184R, A184S 또는 A184T; S188G, S188H, S188K, S188N, S188Q, S188R, S188S, S188T 또는 S188V; R191G, R191H, R191K, R191Q 또는 R191W; Q225F 또는 Q225T; Y230A, Y230H, Y230I, Y230S 또는 Y230T; 및 Q272K, Q272C 또는 Q272R로 이루어진 군에서 선택된 하나 이상의 아미노산 치환을 포함할 수 있다. 구체적으로, 아미노산 치환은 S170C 또는 S170T; Y174H, Y174A, Y174E, Y174K, Y174N, Y174R 또는 Y174T; A184H, A184N, A184R, A184S 또는 A184T; S188G, S188H, S188K, S188N, S188Q, S188R, S188S, S188T 또는 S188V; R191G, R191H, R191K, R191Q 또는 R191W; Q225F 또는 Q225T; Y230A, Y230H, Y230I, Y230S 또는 Y230T; 및 Q272K, Q272C 또는 Q272R로 이루어진 군에서 선택된 1개, 2개 또는 3개의 아미노산 치환을 포함할 수 있다. 또 다른 구현예에서, 아미노산 치환은 (a) S188Q/Q272K; (b) S188K/Q272K; 또는 (c) S188Q/R191K/Q272K를 포함할 수 있다.
본 발명의 예시적인 Cas12f1 단백질 변이체는 아래와 같이 PAM 서열 선호도를 나타낸다.
Cas 단백질 유형 아미노산 치환 변경된 PAM 선호도
Un1Cas12f1 wild type - TTTA, TTTG
CWCas12f wild type - TTTA, TTTG
변이체 8 S170C TTTT, TTTG, TTTA
변이체 9 S170T TATA, TTTA, TTTT, TTTG, TGTA, TCTA, TGGG, TTAG, TTCA, TCTG, TGTG, TGGG
변이체 11 Y174H TGTA, TTTG, TTTA
변이체 44 Y174A TGTA, TTTG, TTTA, CGAG
변이체 45 Y174E CGAG, TGTA, TTTG, GGCA
변이체 12 Y174K TGTA, TTGA, TTTG, TGGG
변이체 46 Y174N TGTA, TTTG, TTTA
변이체 47 Y174R TGTA, TTGA, TTTG
변이체 13 Y174T TGTA, TTTG, TTGA, CGAG
변이체 15 A184H TGTA, TGTG
변이체 16 A184N TTTC, TGTA, TGTG, TTTG
변이체 17 A184R TGTG, TGTA
변이체 18 A184S TCTG, TTTC, TGTA, TTTG, TTTA
변이체 48 A184T TTTG, TTTA, TGTA, TCTG
변이체 49 S188G TTTG, TCTT, GACC, CGGA
변이체 20 S188H TGTA, TGTG, TGCA
변이체 21 S188K TTTA, TTTG, TTTC, TGTA, TGTG, TGGG, TTAG
변이체 22 S188N TATC, TGTC, TCTC, TCTG, TTCG, TTTC, TTTG, TTTA, TGTG, TGTA, TTCA, TGCA
변이체 23 S188Q TATC, TTTT, TTTG, TTTC, TGTA, TGTC, TGTG, TCTT, TCTG, TCTC, TATA, TGGG, TTTA, TGCA
변이체 24 S188R TTTG, TTTC, TTTA, TGTG, TGTA, TTCG, TTCA, TGCA
변이체 50 S188S TTTG, TTTA, TGTA, TCTG, TTGA
변이체 51 S188T TTTG, TTTA, TGTA, TGTG, TCTG, TTGA, TTCG, TTCA, TTAG
변이체 52 S188V TTTG, TTTA, TGTA, TTGA, TTAG
변이체 53 R191G TTTA, TTTG, TTTC, TGTA
변이체 54 R191H TTTA, TTTG, TTTC, TTCA
변이체 25 R191K TTTC
변이체 26 R191Q TATT, TATC, TTTT, TTTG, TTTC, TGTA, TGTC, TCTT, TCTC, TTTA, TCTG, TGTG, TATG, TCTT
변이체 27 R191W TCTG
변이체 28 Q225F TATA, TATT, TGTA, TGTG, TCTT, TGGG, TTTG, TATG, TATA
변이체 30 Q225T TATA, TGTA, TGTG, TCTT, TGGG, TCTA, TGCA
변이체 55 Y230A TTTG, TTTA, TGTA, TCTG, TTCA
변이체 32 Y230H TCTC, TTTG, TTTA, TGTA, TCTG, TTCA
변이체 56 Y230I TTTG, TTTA, TGTA, TCTG, TATT
변이체 35 Y230S TTTG, TCTG, TATA, TTTA, TTCA
변이체 36 Y230T TGTA, TCTC
변이체 38 Q272C TCTA
변이체 39 Q272K TATT, TATG, TTTA, TTTT, TTTG, TGTC, TCTT, TCTC, TTAG, TTCA, TTTC, TGTA, TCTG, TCTT, TATA, TTCG
변이체 40 Q272R TTTC, TGTA, TCTG, TTTG, TTGA, TTCG, TTCA, TTAG
변이체 41 S188Q/Q272K TATC, TCTG, TCTA, TGTC, TGTG, TGTT, TATG, TATA, TTTG, TTTA, TGTA
변이체 42 S188K/Q272K TATC, TCTA, TCTT, TGTC, TGTA, TGTT, TATG, TATA, TTTG, TTTT, TTTA, TCTG, TGTG
변이체 43 S188Q/R191K/Q272K TATC, TCTG, TCTA, TCTT, TGTG, TGTT, TATA, TTTC, TTTG, TTTA, TGTC, TGTA, TATG,
다른 구현예에서, 아미노산 치환은 잔기 159 및 164로 이루어진 군에서 선택되는 하나 이상의 아미노산 위치 또는 그에 상응하는 아미노산 위치에서 아미노산 치환을 포함하고, PAM 근위 영역의 편집 윈도우가 변경된 것일 수 있다. PAM 근위 영역은 PAM 서열로부터 0개 뉴클레오티드 이상 떨어져 있거나, PAM 서열로부터 3개 내지 30개 뉴클레오티드, 구체적으로 2개 내지 10개, 15개 내지 20개 뉴클레오티드의 범위를 의미하지만, 이에 제한되지 않는다. 본 명세서에 사용된 용어 "편집 윈도우"는 본원에 개시된 바와 같은 엔지니어링된 Cas 단백질 또는 융합 단백질이 표적 서열에 위치하여 이에 변경을 가할 수 있는 범위를 의미한다.
다른 구현예에서, 아미노산 치환은 159W 및 164Y로 이루어진 군에서 선택된 하나 이상의 아미노산 치환을 포함할 수 있다. 구체적으로 아미노산 치환은 I159W 및 S164Y로 이루어진 군에서 선택된 하나 이상의 아미노산 치환을 포함할 수 있다.
또 다른 구현예에서, 엔지니어링된 Cas12f1 단백질은 170C 또는 170T; 174H, 174A, 174E, 174K, 174N, 174R 또는 174T; 184H, 184N, 184R, 184S 또는 184T; 188G, 188H, 188K, 188N, 188Q, 188R, 188S, 188T 또는 188V; 191G, 191H, 191K, 191Q 또는 191W; 225F 또는 225T; 230A, 230H, 230I, 230S 또는 230T; 및 272K, 272C 또는 272R 로 이루어진 군에서 선택된 하나 이상의 아미노산 치환을 포함하고, 159W 및 164Y로 이루어진 군에서 선택된 하나 이상의 아미노산 치환을 추가로 포함할 수 있다. 예컨대, 엔지니어링된 Cas12f1 단백질은 S170C 또는 S170T; Y174H, Y174A, Y174E, Y174K, Y174N, Y174R 또는 Y174T; A184H, A184N, A184R, A184S 또는 A184T; S188G, S188H, S188K, S188N, S188Q, S188R, S188S, S188T 또는 S188V; R191G, R191H, R191K, R191Q 또는 R191W; Q225F 또는 Q225T; Y230A, Y230H, Y230I, Y230S 또는 Y230T; 및 Q272K, Q272C 또는 Q272R로 이루어진 군에서 선택된 하나 이상(예컨대, 1개, 2개 또는 3개)의 아미노산 치환을 포함하고, I159W 및 S164Y로 이루어진 군에서 선택된 하나 이상의 아미노산 치환을 추가로 포함할 수 있다.
야생형 Cas12f1 단백질(예컨대, Un1Cas12f1 또는 CWCas12f) 및 본 발명의 예시적인 엔지니어링된 Cas 단백질의 구체적인 아미노산 서열 정보는 하기 표 2에서 제공된다.
명칭 아미노산 서열 서열번호
CWCas12f MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 1
Un1Cas12f1 MAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 5
Engineered CWCas12f (D354A) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIAVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 223
Engineered CWCas12f (E450A) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMANLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 224
Engineered CWCas12f (R518A) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYAKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 225
Engineered CWCas12f (D538A) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENAAYNAALNISNPKLKSTKEEP 226
Engineered CWCas12f (I159W) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGWANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 227
Engineered CWCas12f (S164Y) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASYVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 228
Engineered CWCas12f (I159W/S164Y) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGWANASYVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 229
Engineered CWCas12f (S170C) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLCDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 230
Engineered CWCas12f (S170T) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLTDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 231
Engineered CWCas12f (S170Y) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLYDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 232
Engineered CWCas12f (Y174H) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCHTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 233
Engineered CWCas12f (Y174K) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCKTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 234
Engineered CWCas12f (Y174T) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCTTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 235
Engineered CWCas12f (A184G) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNGAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 236
Engineered CWCas12f (A184H) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNHAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 237
Engineered CWCas12f (A184N) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNNAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 238
Engineered CWCas12f (A184R) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNRAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 239
Engineered CWCas12f (A184S) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNSAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 240
Engineered CWCas12f (A184W) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNWAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 241
Engineered CWCas12f (S188H) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIAHGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 242
Engineered CWCas12f (S188K) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIAKGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 243
Engineered CWCas12f (S188N) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIANGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 244
Engineered CWCas12f (S188Q) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIAQGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 245
Engineered CWCas12f (S188R) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIARGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 246
Engineered CWCas12f (R191K) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLKSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 247
Engineered CWCas12f (R191Q) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLQSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 248
Engineered CWCas12f (R191W) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLWSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 249
Engineered CWCas12f (Q225F) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKFKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 250
Engineered CWCas12f (Q225R) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKRKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 251
Engineered CWCas12f (Q225T) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKTKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 252
Engineered CWCas12f (Y230C) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQCTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 253
Engineered CWCas12f (Y230H) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQHTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 254
Engineered CWCas12f (Y230K) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQKTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 255
Engineered CWCas12f (Y230R) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQRTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 256
Engineered CWCas12f (Y230S) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQSTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 257
Engineered CWCas12f (Y230T) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQTTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 258
Engineered CWCas12f (V271T) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQTQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 259
Engineered CWCas12f (Q272C) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVCKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 260
Engineered CWCas12f (Q272K) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVKKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 261
Engineered CWCas12f (Q272R) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVRKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 262
Engineered CWCas12f (S188Q/Q272K) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIAQGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVKKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 263
Engineered CWCas12f (S188K/Q272K) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIAKGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVKKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 264
Engineered CWCas12f (S188Q/R191K/Q272K) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIAQGLKSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVKKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 265
Engineered CWCas12f1 (Y174A) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCATRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 345
Engineered CWCas12f1 (Y174E) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCETRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 346
Engineered CWCas12f1 (Y174N) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCNTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 347
Engineered CWCas12f1 (Y174R) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCRTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 348
Engineered CWCas12f1 (A184T) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNTAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 349
Engineered CWCas12f1 (S188G) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIAGGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 350
Engineered CWCas12f1 (S188S) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 351
Engineered CWCas12f1 (S188T) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIATGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 352
Engineered CWCas12f1 (S188V) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIAVGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 353
Engineered CWCas12f1 (R191G) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLGSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 354
Engineered CWCas12f1 (R191H) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLHSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 355
Engineered CWCas12f1 (Y230A) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQATGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 356
Engineered CWCas12f1 (Y230I) MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQITGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP 357
다른 구현예에서, 엔지니어링된 Cas 단백질은 촉매적으로 비활성인(DNA 절단 활성이 제거된) 변이체일 수 있다. 구체적으로, 엔지니어링된 Cas 단백질은 서열번호 1을 기준으로 잔기 354, 450, 518 및 538로 이루어진 군에서 선택된 하나 이상의 아미노산 위치 또는 그에 상응하는 하나 이상의 아미노산 위치에서 아미노산 치환을 추가로 포함하는 촉매적으로 비활성인 dead 형태일 수 있다. 보다 구체적으로, 엔지니어링된 Cas12f1 단백질은 (a) 354A, 354Q, 354L, 354W 또는 354V; (b) 450A, 450Q, 450L, 450W 또는 450V; (c) 518A, 518Q, 518L, 518W 또는 518V; 및 (d) 538A, 538Q, 538L, 538W 또는 538V로 이루어진 군에서 선택된 하나 이상의 아미노산 치환을 추가로 포함할 수 있다.
일 구현예에서, 엔지니어링된 Cas 단백질은 D354A, E450A, R518A 및 D538A로 이루어진 군에서 선택된 하나 이상의 아미노산 치환을 추가로 포함하는 촉매적으로 비활성인 dead 형태일 수 있다.
또 다른 구현예에서, 엔지니어링된 Cas12f1 단백질은 하나 이상의 아미노산의 변형, 예컨대 결실, 삽입, 치환 또는 부가를 추가로 포함할 수 있다. 상기 하나 이상의 아미노산의 결실, 삽입, 치환 또는 부가는 Cas12f1 단백질의 촉매적 활성 또는 안정성 등 기능에 영향을 주는 임의의 변이일 수 있다. 상기 변이는 PAM 인식 특이성의 변경 및/또는 PAM 근위 영역의 편집 윈도우의 변경에 영향을 미치지 않고, 상기 하나 이상의 아미노산의 결실, 삽입, 치환 또는 부가는 Cas12f1 단백질이 가이드 RNA와 복합체를 형성하여 표적 유전자 서열과 상호작용하는 기능을 손상시키지 않는 한, 임의의 변이일 수 있다. 예컨대, 엔지니어링된 Cas12f1 단백질은 C-말단, N-말단 또는 서열 내부에 적어도 하나 이상의 아미노산 잔기가 결실, 치환, 삽입 및/또는 부가된 서열을 추가로 포함할 수 있다.
일 구현예에서, 엔지니어링된 Cas12f1 단백질은 N-말단 및/또는 C-말단에 부가된 적어도 하나 이상의 임의의 아미노산을 추가로 포함할 수 있다. 본 발명자들은 야생형 Cas12f1 단백질의 N-말단 및/또는 C-말단에 아미노산이 부가된 변이체 중에 야생형 Cas12f1과 동등한 기능을 갖는 변이체가 있음을 확인하였다. 이를 위해 한국특허출원 제10-2021-0181875호 및 제10-2022-0128219호를 참조할 수 있고, 해당 명세서는 그 전체로서 여기에 편입된 것으로 간주되어야 한다. 바람직하게, 엔지니어링된 Cas 단백질은 N-말단 및/또는 C-말단에 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개, 또는 30개의 아미노산을 추가로 포함할 수 있다. 일 예로, 엔지니어링된 Cas12f1 단백질은 N-말단에 1개 내지 28개의 아미노산이 부가된 아미노산 서열을 포함하는 것일 수 있다. 구체화된 예로, 엔지니어링된 Cas12f1 단백질은 N-말단에 CasX의 N-말단에서 유래한 26개 아미노산을 더 포함하는 CWCas12f-v1 단백질(서열번호 2), 28개의 무작위 아미노산 서열을 더 포함하는 CWCas12f-v2 단백질(서열번호 3) 또는 26개의 무작위 아미노산 서열을 더 포함하는 CWCas12f-v3 단백질(서열번호 4)의 상응하는 위치에 PAM 인식 특이성 변경 또는 PAM 근위 영역의 편집 윈도우 변경을 위한 하나 이상의 아미노산 치환을 포함할 수 있다. 상기 CWCas12f-v1 단백질(서열번호 2), CWCas12f-v2 단백질(서열번호 3) 및 CWCas12f-v3 단백질(서열번호 4)의 구체적인 아미노산 서열은 다음과 같다:
"CWCas12f-v1 단백질", MEKRINKIRKKLSADNATKPVSRSGPMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP (서열번호 2);
"CWCas12f-v2 단백질", MAGGPGAGSAAPVSSTSSLPLAALNMRVMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP (서열번호 3);
"CWCas12f-v3 단백질", MAGGPGAGSAAPVSSTSSLPLAALNMMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP (서열번호 4).
상기 CWCas12f-v1 단백질, CWCas12f-v2 단백질 및 CWCas12f-v3 단백질을 암호화하는 인간 코돈 최적화된 핵산 서열은 서열번호 7 내지 서열번호 9을 참조한다.
다른 구현예에서, 엔지니어링된 Cas12f1 단백질은 N-말단 또는 C-말단에 1개 내지 600개의 임의의 아미노산을 추가로 포함할 수 있다. 여기서, 추가된 1개 내지 600개의 아미노산 서열에는 제한이 없다. 예컨대, 상기 추가된 1개 내지 600개의 아미노산은 서열번호 190 또는 서열번호 191의 아미노산 서열일 수 있다. 한편, 상기 추가된 서열과 Cas12f1 변이체 단백질 사이에는 NLS 또는 NES 서열이 더 포함될 수 있다. 상기 NLS 또는 NES에 관한 사항은 후술되는 내용 전체를 참조한다.
또 다른 구현예에서, 엔지니어링된 Cas 단백질은 RuvC 도메인 내의 적어도 하나 이상의 아미노산 잔기의 제거 또는 치환을 추가로 포함할 수 있다. 상기 RuvC(또는 RuvC-유사) 도메인은 엔도뉴클레아제 도메인으로도 지칭되며, 핵산 절단을 촉매하는 활성 부위(catalytically active site)를 포함하므로 핵산 절단 효율과 직접적으로 연관되어 있다. 따라서 RuvC 도메인의 변이에 의해 Cas12f1 단백질은 야생형 Cas12f1 단백질과 동일한 기능(예컨대, 핵산 절단 기능)을 유지하면서도 동등하거나 동등 이상의 효과(예컨대, 향상된 핵산 절단 효율)가 나타나도록 조작될 수 있다.
III. 융합 단백질
본원에 개시된 바와 같은 엔지니어링된 Cas 단백질은 다른 기능 또는 활성을 갖는 작용기 도메인과 융합되어 사용될 수 있다. 따라서, 본 발명의 다른 태양에 따르면, (i) 본원에 개시된 엔지니어링된 Cas 단백질 및 (ii) 작용기 도메인을 포함하는 융합 단백질이 제공된다.
일 구현예에 있어서, 작용기 도메인은 뉴클라아제 활성, 니카아제 활성, 레콤비나아제 활성, 데아미나제 활성, 메틸트랜스퍼라아제 활성, 메틸라아제 활성, 아세틸라아제 활성, 아세틸트랜스퍼라아제 활성, 전사 활성화 활성, 전사 억제 활성, 핵산 결합 활성 또는 역전사효소 활성을 포함하는 도메인일 수 있으나, 이에 제한되지 않는다. 예컨대, 데아미나제 활성을 갖는 도메인이 융합되는 경우에, 융합 단백질은 염기 편집기로 기능할 수 있다. 아데닌 염기 교정을 위한 아데노신 데아미나제에는 대장균(E. Coli) 유래의 tRNA 데아미나제(TadA) 및/또는 이의 변이체가 포함된다. 본 발명의 융합 단백질의 작용기 도메인은 예컨대 TadA 및 이의 변이체로부터 선택된 하나 이상을 포함할 수 있다. 또한, 작용기 도메인은 DNMT, TET, KRAB, DHAC, LSD, p300, M-MLV(moloney murine leukemia virus) 역전사 효소와 같은 세포 내 유전자 발현에 다양한 양적 및/또는 질적 변화를 초래하는 효소일 수 있다. 역전사 효소가 융합되는 경우에, 융합 단백질은 프라임 편집기(prime editor)로 기능할 수 있다.
일 구현예에서, 작용기 도메인은 데아미나제 활성을 갖는 것일 수 있다. 예컨대, 작용기 도메인은 아데노신 데아미나제 또는 시티딘 데아미나제일 수 있다. 아데노신 데아미나제에는 대장균(E.coli) 유래의 tRNA 아데노신 데아미나제(TadA), 상기 TadA의 변이체, 또는 이들의 조합이 포함되지만 이에 제한되지 않는다. 시티딘 데아미나제에는 인간 AID(Activation-induced cytidine deaminase), 인간 APOBEC3G, 쥐 APOBEC1, APOBEC3A, APOBEC3B 또는 AID, 칠성장어 PmCDA1이 포함되지만 이에 제한되지 않는다.
다른 구현예에서, 작용기 도메인은 전사 활성화 활성 또는 전사 억제 활성을 갖는 하나 이상의 발현조절 도메인을 포함할 수 있다. 예컨대, 전사 활성화 도메인은 VP64, Sun Tag, VPR(VP64, p65, Rta) 또는 TV(TAL, VP64)일 수 있다. 또한, 전사 억제 도메인은 p300, KRAB, DNMT, MeCP2, HDAC, LSD, SRDX, SALL1 또는 SDS3일 수 있다.
다른 구현예에서, 작용기 도메인은 분리 및/또는 정제를 위한 태그(tag) 또는 리포터 단백질일 수 있다. 예컨대, 태그 또는 리포터 단백질은 히스티딘(His) 태그, V5 태그, FLAG 태그, 인플루엔자 헤마글루티닌(HA) 태그, Myc 태그, VSV-G 태그 및 티오레독신(Trx) 태그 등의 태그 단백질; 녹색 형광 단백질(GFP), 황색 형광 단백질(YFP), 청록색 형광 단백질(CFP), 청색 형광 단백질(BFP), HcRED, DsRed 등의 형광 단백질; 및 글루타티온-S-트랜스 퍼라제(GST), 호스래디시 과산화효소(horseradish peroxidase, HRP), 클로람페니콜 아세틸트랜스퍼라제(chloramphenicol acetyltransferase, CAT), β-갈락토시다제(galactosidase), β-글루쿠로니다제(glucuronidase), 루시퍼라제(luciferase) 등의 리포터 단백질(효소)를 포함하지만, 이에 제한되는 것은 아니다.
또 다른 구현예에서, 작용기 도메인은 엔지니어링된 Cas12f1 단백질을 핵 내로 위치시키는 하나 이상의 핵 위치 신호(nuclear localization signal, NLS) 서열을 포함할 수 있다. 예컨대, 하나 이상의 핵 위치 신호 서열은 엔지니어링된 Cas12f1 단백질이 진핵세포(예컨대, 포유동물 세포)의 핵에서 검출 가능한 양으로 핵 내로 표적화되거나 수송되도록 유도하는 데 충분한 양 또는 활성을 가질 수 있다. 예컨대, 그 활성의 강도 차이는 Cas12f1 단백질 내에 포함되는 NLS의 수, 사용되는 특정 NLS(들)의 종류 또는 이들 인자의 조합으로부터 야기될 수 있다. 구체적으로, 본 발명의 엔지니어링된 Cas12f1 단백질에 융합되는 NLS는 N-말단에서 또는 그 근처에서 약 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 이상의 NLS, C-말단에서 또는 그 근처에서 약 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 이상의 NLS, 또는 이들의 조합이 다양하게 선택될 수 있다. 예컨대, N-말단에서 0 또는 적어도 하나 이상의 NLS 서열 및/또는 C-말단에서 0 또는 하나 이상의 NLS 서열을 포함할 수 있다. 하나 초과의 NLS 서열이 존재할 때, 단일 NLS가 하나 초과의 복제물에 존재할 수 있고, 하나 초과의 복제물에 존재하는 하나 초과의 다른 NLS와 조합하여 존재할 수 있도록 각각의 NLS 서열은 다른 것과 독립적으로 선택될 수 있다.
또한, 엔지니어링된 Cas 단백질은 NES(nuclear export signal)과 융합될 수 있다. NES 서열은 핵 수송(nuclear transport) 작용으로 세포 핵 내부의 물질을 핵 외부로 수송할 때, 수송 대상인 단백질에 붙어 일종의 "태그" 역할을 하는 일정 길이의 펩티드 또는 그 서열을 의미한다.
IV. 가이드 RNA
가이드 RNA는 PAM에 인접한 표적 서열과 혼성화가능한 가이드 서열을 포함하는 스페이서 영역(또는 가이드 영역) 및 Cas 단백질과 상호작용하여 복합체를 형성할 수 있는 스캐폴드 영역을 포함한다. 본 명세서에 사용되는 "표적 서열"은 표적 유전자 또는 표적 영역 내에 존재하는 서열로서, 가이드 RNA에 의해 인식되는 서열 또는 유전자 편집 시스템에 의해 변경의 대상이 되는 서열을 의미한다. 가이드 RNA의 가이드 서열은 그 표적 서열에 상보성을 갖도록 설계된다. 가이드 서열과 표적 서열 간의 혼성화로 Cas 단백질이 표적 서열에 위치하는 것이 가능하게 된다. 완전한 상보성이 반드시 요구되는 것은 아니고 가이드 서열과 표적 서열 간의 혼성화를 가능하게 하는 상보성이면 충분하다. 일 구현예에서, 가이드 서열과 표적 서열 간의 상보적인 결합은 하나 이상의 미스매치(mismatch) 결합, 바람직하게는 0 내지 7개, 보다 바람직하게는 0 내지 6개, 보다 더 바람직하게는 0 내지 5개의 미스매치를 포함할 수 있다.
야생형 Cas12f 가이드 RNA는 tracrRNA 및 crRNA를 포함한다. 이들 tracrRNA 및 crRNA는 sgRNA로 연결될 수 있다. 구체적으로, 야생형 gRNA는 서열번호 11의 염기서열을 갖는 야생형 tracrRNA를 포함하거나, 서열번호 12의 염기서열을 갖는 야생형 crRNA를 포함할 수 있다. 또한, 야생형 gRNA는 싱글 가이드 RNA 형태로 융합되어 서열번호 13의 염기서열을 갖는 싱글 가이드 RNA(sgRNA)일 수 있다. 상기 야생형의 tracrRNA, crRNA 및 sgRNA의 대표적인 서열은 표 3에 제시되어 있다.
명칭 염기서열 (5' → 3') 서열번호
Wild-type tracrRNA CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUUUCCUCUCCAAUUCUGCACAA 11
Wild-type crRNA GUUGCAGAACCCGAAUAGACGAAUGAAGGAAUGCAAC 12
Canonical sgRNA CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUUUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGacgaaUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 13
표 3, 그리고 명세서 전반에서 'NNNNNNNNNNNNNNNNNNNN'으로 표시된 서열은 표적 부위 내의 표적 서열과 혼성화할 수 있는 임의의 길이(예컨대, 15 내지 40 뉴클레오티드 길이)를 갖는 가이드 서열(스페이서 서열)을 의미한다. 야생형 Cas12f 가이드 RNA의 crRNA는 직접반복부서열(direct repeat sequence) 및 가이드 서열을 포함할 수 있고, 직접반복부서열은 가이드 서열의 5'말단에 위치할 수 있다. 또한, crRNA는 tracrRNA의 3' 말단에 위치할 수 있다. 야생형 Cas12f 가이드 RNA의 스캐폴드 영역은 tracrRNA 및 crRNA의 일부를 포함한다. 상기 스캐폴드 영역은 다시 하나 이상의 스템 영역(즉, 제1 스템 영역, 제2 스템 영역, 제3 스템 영역 및 제4 스템 영역) 및 tracrRNA-crRNA 상보성 영역(제5 스템 영역으로 지칭될 수 있음)을 포함할 수 있다. 또한, 야생형 Cas12f 가이드 RNA는 (i) 하나 이상의 스템-루프(stem-loop) 영역, (ii) tracrRNA-crRNA 상보성 영역 및 임의적으로 (iii) 연속되는 3개 이상, 4개 이상 또는 5개 이상의 유라실(U)을 포함하는 영역을 포함할 수 있다. Cas12f 가이드 RNA의 구조에 대한 상세한 정보는 문헌[Takeda et al., Structure of the miniature type V-F CRISPR-Cas effector enzyme, Molecular Cell 81, 1-13(2021)]를 참조하고, 본 명세서에 참조로 포함된다.
다른 구현예에서, 본원에 개시된 가이드 RNA는 엔지니어링된 가이드 RNA일 수 있다. 본 발명자들은 앞선 연구를 통해 새로운 CRISPR/Cas 시스템인 CRISPR/Cas12f 시스템의 효율을 증가시켜 이를 TaRGET(Tiny nuclease augmented RNA-based Genome Editing Technology) 시스템으로 명명하였다. CRISPR/Cas12f 시스템은 선행연구[문헌 (Harrington et al., Science, 362, 839-842, 2018) 참조]에서 최초로 보고된 새로운 CRISPR/Cas 시스템으로, 현저히 작은 크기의 이펙터 단백질을 가진다는 장점에도 불구하고 이중가닥 DNA 절단 활성이 없거나 극히 낮아 유전자 편집 기술에 응용하는 데 한계가 있다고 보고되었다. 이러한 한계를 극복하기 위해 본 발명자들은 이중가닥 DNA(double strand DNA; dsDNA)에 대한 절단 활성을 높이는 엔지니어링된 가이드 RNA를 연구 개발하고 완성하여 유전자 편집에 활용할 수 있도록 하였다. 엔지니어링된 가이드 RNA에 대한 상세한 설명은 한국특허 출원번호 제10-2021-0051552호, 제10-2021-0050093호 및 제10-2021-0044152호; 국제출원번호 제PCT/KR2021/013898호, 제PCT/KR2021/013923호 및 제PCT/KR2021/013933호; 및 문헌[[Kim, D. Y. et al. Efficient CRISPR editing with a hypercompact Cas12f1 and engineered guide RNAs delivered by adeno-associated virus. Nat. Biotechnol.40, 94-102, 2021]를 참조할 수 있고, 이들 문헌의 내용은 그 전체가 본원에 포함된 것으로 간주되어야 한다. 본 발명의 일 실시예에서, TaRGET 시스템은 Un1Cas12f1 또는 CWCas12 기반 단백질(야생형 또는 본 발명에 개시된 엔지니어링된 형태) 및 엔지니어링된 gRNA를 포함하는 시스템일 수 있다.
일 구현예에서, 엔지니어링된 gRNA는 야생형 gRNA 서열에서 1개 이상의 뉴클레오티드가 치환, 결실, 삽입 또는 부가된 서열을 포함하고, 가이드 서열을 제외한 부분이 야생형 Cas12f1 gRNA와 적어도 50%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 95% 서열 동일성을 갖는 엔지니어링된 gRNA이다.
이하, 야생형과 엔지니어링된 gRNA의 구조 및 그의 변형에 대해 5개의 변형부위 별로 상세히 설명한다. 변형부위는 본 명세서 전체에 걸쳐 "MS(modification site)"로 약칭되었으며, "변형부위" 또는 "MS" 뒤의 숫자는 일 실시예에 따른 각 변형부위의 실험적 엔지니어링 흐름에 따라 순차적으로 부여한 것이나, 뒤의 숫자를 가지는 변형부위에서의 엔지니어링(변형)이 앞선 숫자의 변형부위에서의 엔지니어링(변형)을 반드시 포함한다는 의미는 아니다. 도 20은 본 발명의 구현예에 따른 엔지니어링된 가이드 RNA(engineered gRNA)가 포함하는 변형부위인 MS1 내지 MS5를 야생형 가이드 RNA 서열 상에 도시한 것이다.
일 구현예에서, 상술한 gRNA의 세분화된 영역 중 변형부위 3(MS3)을 포함하는 제1 스템-루프 영역, 변형부위 5(MS5)를 포함하는 제2 스템-루프 영역 및 변형부위 1(MS1)과 변형부위 4(MS4)를 포함하는 tracrRNA-crRNA 상보성 영역(제5 스템 영역 또는 제5 스템-루프 영역)은 도 20에서 각기 다른 색의 음영으로 구분된 1점쇄선 박스로 표시된 영역에 대응되거나 이를 포함하는 영역으로 정의될 수 있다. 그 외, 제3 스템-루프 영역은 도 20에서 G(-90)-C(-74) 서열에 대응되거나 이를 포함하는 영역이고, 제4 스템-루프 영역은 도 20에서 U(-68)-A(-35) 서열에 대응되거나 이를 포함하는 영역으로 정의될 수 있다.
본 발명에 개시된 엔지니어링된 가이드 RNA(gRNA)에 적용된 변형은 궁극적으로 높은 유전자 편집 효율을 달성함과 동시에 길이는 더 짧은 gRNA를 도출하기 위한 목적을 가진다. 즉, 본 발명에서 개시하는 변형들은 길이가 더 긴 야생형의 gRNA와 비교하여 표적 핵산에 대한 인식/절단 효율이 유지 또는 향상된 더 짧은 길이의 엔지니어링된 gRNA를 제조함으로써, 아데노-연관 바이러스(AAV)와 같은 전달체의 패키징 한계치(약 4.7 kb) 내에서 더 많은 공간을 다양한 목적 또는 용도로 사용하기 위한 다른 구성요소들(예를 들어, 추가의 가이드 RNA, 특정 유전자 발현을 억제하기 위한 shRNA 등)에 할당할 수 있도록 하여 기존의 CRISPR/Cas 시스템으로는 달성할 수 없었던 고효율의 유전자 편집 효과를 부여하고자 함에 있다.
다른 구현예에서, 엔지니어링된 가이드 RNA는, (i) 하나 이상의 스템-루프(stem-loop) 영역, (ii) tracrRNA-crRNA 상보성 영역 및 임의적으로 (iii) 연속되는 3개 이상, 4개 이상 또는 5개 이상의 유라실(U)을 포함하는 영역을 포함하는 야생형 Cas12f1 gRNA와 비교하여, 본 발명의 엔지니어링된 gRNA는 (a) 하나 이상의 스템-루프 영역의 일부 또는 전부의 결실; (b) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실; (c) 연속되는 3개 이상, 4개 이상 또는 5개 이상의 유라실(U)이 존재하는 경우 그 중 하나 이상의 U의 치환; 및 (d) crRNA 서열의 3'-말단에 하나 이상의 유리딘(uridine)의 부가로 이루어진 군에서 선택되는 하나 이상의 변형을 포함할 수 있다.
또 다른 구현예에서, 엔지니어링된 가이드 RNA는 (a1) 제1 스템-루프 영역의 일부 또는 전부의 결실; (a2) 제2 스템-루프 영역의 일부 또는 전부의 결실; (b) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실; (c) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상, 4개 이상 또는 5개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환; 및 (d) crRNA 서열의 3'-말단에 U-rich tail의 부가(상기 U-rich tail의 서열은 5'-(UmV)nUo-3'로 표시되고, 여기서 V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수임)로 이루어진 군에서 선택되는 하나 이상의 변형을 포함할 수 있다.
또 다른 구현예에서, 엔지니어링된 가이드 RNA는 U-rich tail 서열을 포함한다. 상기 U-rich tail은 5'-(UmV)nUo-3'로 표시되고, 여기서 V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수이다. U-rich tail 서열에 대한 상세한 설명은 후술한다.
또 다른 구현예에서, 엔지니어링된 가이드 RNA는 하기 식 (I)로 표시되는 (스캐폴드) 서열을 포함하는 스캐폴드 영역을 포함할 수 있다.
식 (I)에서, Xa, Xb1, Xb2, Xc1 및 Xc2는 각각 독립적으로 0 내지 35개의 (폴리)뉴클레오티드로 이루어지고, Lk는 길이 2 내지 20의 폴리뉴클레오티드 링커이거나 부존재한다.
[식 (I)에서, 검정색 실선은 뉴클레오티드 사이의 화학적 결합(예를 들어, 포스포다이에스터 결합)을 의미하고, 회색 굵은선은 뉴클레오티드 사이의 상보적 결합을 의미한다.]
식 (I)에서, Xa, Xb1, Xb2, Xc1 또는 Xc2가 0개의 뉴클레오티드로 이루어지는 경우는 Xa, Xb1, Xb2, Xc1 또는 Xc2가 부존재한다는 의미로 해석된다.
또한, 식 (I)에서 상기 Xa, Xb1, Xb2, Xc1 또는 Xc2가 0개의 뉴클레오티드로 이루어지거나 부존재하는 경우에는 Xa, Xb1, Xb2, Xc1 또는 Xc2를 통해 연결된 2 이상의 뉴클레오티드가 존재하였을 경우 이들이 어떠한 방식으로든 직접 연결된 상태인 것으로 해석된다. 예를 들어, 식 (I)에서 Xb1이 0개의 뉴클레오티드로 이루어지거나 부존재하는 경우 Xb1의 5'-말단에 직접 연결된 뉴클레오티드와 Xb1의 3'-말단에 직접 연결된 뉴클레오티드가 예를 들어, 포스포다이에스터 결합으로 직접 연결된 상태일 수 있다.
일 구현예에서, Xa는 존재하지 않거나 스템-루프 형태를 가질 수 있는 (폴리)뉴클레오티드일 수 있다. 다른 구현예에서, 상기 Xa는 0 내지 20개의 (폴리)뉴클레오티드로 이루어질 수 있다.
일 구현예에서, Xb1 및 Xb2는 상보적 결합을 할 수 있는 (폴리)뉴클레오티드일 수 있다. 다른 구현예에서, Xb1은 0 내지 13개의 (폴리)뉴클레오티드로 이루어질 수 있고, 또는 Xb2는 0 내지 14개의 (폴리)뉴클레오티드로 이루어질 수 있다.
일 구현예에서, Xc1 및 Xc2는 상보적 결합을 할 수 있는 (폴리)뉴클레오티드일 수 있다. 다른 구현예에서, Xc1은 0 내지 28개의 (폴리)뉴클레오티드로 이루어질 수 있고, 또는 Xc2는 0 내지 27개의 (폴리)뉴클레오티드로 이루어질 수 있다.
일 구현예에서, Lk는 길이 2 내지 20, 길이 2 내지 15, 길이 2 내지 10, 또는 길이 2 내지 8의 폴리뉴클레오티드 링커이거나 부존재한다.
또 다른 구현예에서, 엔지니어링된 gRNA의 스캐폴드 영역은 식 (I)로 표시되는 스캐폴드 서열로 이루어지거나 상기 서열과 80% 이상, 85% 이상, 90% 이상 또는 95% 이상의 서열 동일성을 갖는 gRNA일 수 있다. 이때, 식 (I)에 대한 서열 동일성은 부호로 표시된 영역을 제외한 서열을 기준으로 한다.
야생형 가이드 RNA의 스캐폴드 영역을 참조할 때, 스캐폴드 서열의 제1 스템-루프 영역은 식 (I)에서 Xa에 대응되거나 Xa를 포함하는 영역일 수 있다. 스캐폴드 서열의 제2 스템-루프 영역은 식 (I)에서 Xb1 및 Xb2에 대응되거나 이들을 포함하는 영역일 수 있다. 예컨대, Xb1 및 Xb2을 포함하는 제2 스템-루프 5'-CCGCUUCAC-Xb1-uuag-Xb2-AGUGAAGGUG―3' 서열에 해당하는 영역일 수 있다. 스캐폴드 서열의 제3 스템 영역은 식 (I)에서 5'-GGCUGCUUGCAUCAGCC-3' 서열에 대응되거나 이를 포함하는 영역일 수 있다. 스캐폴드 서열의 제4 스템-루프 영역은 식 (I)에서 5'-UCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGA-3' 서열에 대응되거나 이를 포함하는 영역일 수 있다. 또한, 스캐폴드 서열의 tracrRNA-crRNA 상보성 영역(제5 스템(-루프) 영역)은 식 (I)에서 Xc1 및 Xc2에 대응되는 영역일 수 있다.
이하, 엔지니어링된 gRNA에서의 각 변형부위별 변형에 대해 자세히 설명한다.
(1) 변형부위 1(modification site 1, MS1)에서의 변형
본 항목에서는 MS1에서의 변형을 기술한다(도 20). 일 구현예에서, 자연에 존재하는 가이드 RNA(gRNA)가 포함할 수 있는 야생형 tracrRNA(예컨대, 서열번호 11)는 서열 내에 연속된 다섯 개의 유라실(U)을 포함하는 서열을 가질 수 있다. 이는 상기 야생형 tracrRNA를 세포 내에서 벡터 등을 이용하여 발현시키고자 할 때, 특정 조건에서는 상기 서열이 전사종결신호로써 작용하여 의도하지 않은 전사의 조기 종결을 야기하는 문제를 안고 있다. 즉, 상기 연속된 다섯 개의 U를 포함하는 서열이 전사종결신호로써 작동하게 되는 경우에는 상기 tracrRNA의 정상적인 또는 완전한 발현이 억제되고, 정상적인 또는 완전한 gRNA의 형성 또한 저해되어 결과적으로 유전자 편집 효율을 감소시킨다.
따라서 상술한 문제점을 해결하기 위해, 엔지니어링된 gRNA는 야생형 tracrRNA(예컨대, 서열번호 11)의 연속된 세 개 이상, 네 개 이상, 다섯 개 이상의 U, 바람직하게는 네 개 또는 다섯 개의 U 중 적어도 하나의 U를 다른 뉴클레오티드인 A, C, T 또는 G로 인위적으로 변형시킨 것일 수 있다.
일 구현예로, MS1으로 지칭되는 연속되는 3개 이상, 4개 이상 또는 5개 이상의 유라실(U)을 포함하는 영역에서 연속되는 3개 이상, 4개 이상 또는 5개 이상의 U 중 적어도 하나의 U를 다른 종류의 뉴클레오티드로 치환된 변형을 포함하는 엔지니어링된 gRNA가 제공된다. 일 예로, 상기 연속되는 3개 이상, 4개 이상 또는 5개 이상의 U는 tracrRNA의 tracrRNA-crRNA 상보성 영역 내에 존재할 수 있으며, 여기서 상기 연속되는 3개 이상, 바람직하게는 4개 이상 또는 5개 이상의 U 중 하나 이상을 A, G 또는 C로 치환함으로써 3개 이상, 바람직하게는 4개 이상 또는 5개 이상의 U가 연속되는 서열이 나타나지 않도록 변형될 수 있다.
이때, 상기 변형되는 서열에 대응되는 crRNA의 tracrRNA-crRNA 상보성 영역 내 서열 또한 함께 변형되는 것이 바람직하다. 일 구현예로, tracrRNA의 tracrRNA-crRNA 상보성 영역 내에서 서열 5'-UUUUU-3'과 일부 상보적 결합을 이루는 crRNA의 tracrRNA-crRNA 상보성 영역 내에 서열 5'-ACGAA-3'가 존재하는 경우 해당 서열은 5'-NGNNN-3'로 치환될 수 있다. 여기서, N은 각각 독립적으로 A, C, G 또는 U이다.
일 구현예에서, 상기 식 (I)의 엔지니어링된 gRNA에서 Xc1 서열 내에 연속되는 3개 이상, 4개 이상 또는 5개 이상의 유라실(U)이 존재하는 경우 이들 중 하나 이상의 U가 A, G 또는 C로 치환되는 변형을 포함할 수 있다. 예컨대, Xc1 서열 내에 서열 5'-UUUUU-3'이 존재하는 경우 해당 서열은 5'-NNNCN-3'으로 치환될 수 있다. 여기서, N은 각각 독립적으로 A, C, G 또는 U이다. 보다 구체화된 예로, Xc1 서열 내의 서열 5'-UUUUU-3'은 하기 서열로 이루어진 군에서 선택된 어느 하나의 핵산 서열로 치환될 수 있으나, 연속되는 3개 이상, 바람직하게는 4개 이상 또는 5개 이상의 U를 포함하는 서열을 나타나지 않게 하는 것이라면 하기 서열로 제한되지 않는다: 5'-UUUCU-3', 5'-GUUCU-3', 5'-UCUCU-3', 5'-UUGCU-3', 5'-UUUCC-3', 5'-GCUCU-3', 5'-GUUCC-3', 5'-UCGCU-3', 5'-UCUCC-3', 5'-UUGCC-3', 5'-GCGCU-3', 5'-GCUCC-3', 5'-GUGCC-3', 5'-UCGCC-3', 5'-GCGCC-3' 및 5'-GUGCU-3'.
다른 구현예에서, 식 (I)의 엔지니어링된 gRNA에서 Xc2 서열은 Xc1 서열과 적어도 일부 서열이 상보적 결합을 이루는 영역을 포함하며(tracrRNA-crRNA 상보성 영역으로도 지칭됨), 이때 Xc1 서열 내에 존재하는 연속되는 3개 이상, 4개 이상 또는 5개 이상의 U와 적어도 하나의 상보성 결합을 형성하는 Xc2 서열 내의 대응 서열도 함께 변형될 수 있다. 예컨대, 상기 식 (I)의 Xc2 서열 내에 서열 5'-ACGAA-3'가 존재하는 경우 해당 서열은 5'-NGNNN-3'로 치환될 수 있다. 여기서, N은 각각 독립적으로 A, C, G 또는 U이다. 보다 구체화된 예로, 식 (I)의 Xc1 서열 내의 서열 5'-ACGAA-3'은 하기 서열로 이루어진 군에서 선택된 어느 하나의 핵산 서열로 치환될 수 있으나 하기 서열에 제한되는 것은 아니다: 5'-AGGAA-3', 5'-AGCAA-3', 5'-AGAAA-3', 5'-AGCAU-3', 5'-AGCAG-3', 5'-AGCAC-3', 5'-AGCUA-3', 5'-AGCGA-3', 5'-AGCCA-3', 5'-UGCAA-3', 5'-UGCUA-3', 5'-UGCGA-3', 5'-UGCCA-3', 5'-GGCAA-3', 5'-GGCUA-3', 5'-GGCGA-3', 5'-GGCCA-3', 5'-CGCAA-3', 5'-CGCUA-3', 5'-CGCGA-3' 및 5'-CGCCA-3'.
다른 구현예에서, 식 (I)의 Xc1 서열 내의 연속되는 3개 이상, 4개 이상 또는 5개 이상의 U를 포함하는 서열이 다른 서열로 변형되는 경우, 이에 대응되는(즉, 적어도 일부가 상보적 결합을 형성하는) Xc2 서열 내의 대응되는 뉴클레오티드는 변형된 뉴클레오티드와 상보적 결합을 이룰 수 있도록 변형되는 것이 바람직하다. 예를 들어, Xc1 서열 내의 서열 5'-UUUUU-3'이 5'-GUGCU-3'으로 변형되는 경우 Xc2 서열 내의 서열 5'-ACGAA-3'은 5'-AGCAA-3'로 변형되는 것이 바람직하나, 상보적 결합이 필수로 요구되는 것은 아니다.
(2) 변형부위 2(modification site 2, MS2)에서의 변형
본 항목에서는 MS2에서의 변형을 기술한다(도 20). 일 구현예에서, 엔지니어링된 가이드 RNA(gRNA)는 자연계에서 발견되는 gRNA에 새로운 구성을 추가한 것으로서 crRNA 서열의 3'-말단, 보다 구체적으로 crRNA에 포함된 스페이서 서열의 3'-말단에 하나 이상의 유리딘(uridine)이 부가된 것일 수 있다. 여기서, 상기 crRNA 서열의 3'-말단은 가이드 서열(스페이서)의 3'-말단일 수 있다. 본 명세서에서 상기 3'-말단에 부가된 하나 이상의 유리딘은 "U-rich tail"로도 지칭된다. 상기 3'-말단에 부가된 하나 이상의 유리딘 또는 U-rich tail을 포함하는 엔지니어링된 gRNA는 초소형 CRISPR/Cas12f1 시스템의 표적 유전자 또는 표적 핵산에 대한 핵산 절단 또는 인델(indel) 효율을 높이는 역할을 한다.
본 명세서에서 사용되는 용어 "U-rich tail"은 유리딘(U)이 풍부하게 포함된 RNA 서열 그 자체뿐 아니라, 이를 암호화하는 DNA 서열을 의미할 수도 있으며, 이는 문맥에 따라서 적절하게 해석된다. 본 발명자들은 U-rich tail 서열의 구조 및 그 효과에 대해 실험적으로 자세히 밝혔으며, 이하 구체적인 구현예로 더 자세히 설명한다.
일 구현예에서, U-rich tail 서열은 Ux로 표현될 수 있다. 상기 x는 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20일 수 있다. 일 예로, x는 상기 나열된 수치 중에서 선택된 두 수치 범위 내의 정수일 수 있다. 예를 들어, x는 1 내지 6 사이의 정수일 수 있다. 또 다른 예를 들어, x는 1 내지 20 사이의 정수일 수 있다. 일 구현예로, x는 20 이상의 정수일 수 있다.
다른 구현예에서, U-rich tail의 서열은 5'-(UmV)nUo-3'로 표시되고 여기서 상기 V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수일 수 있다. 일 예로, 상기 n은 0, 1 또는 2일 수 있다. 일 예로, 상기 m 및 o는 각각 독립적으로 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10일 수 있다.
또 다른 구현예에서, U-rich tail의 서열은 5'-(UmV)nUo-3'로 표시되는 서열에서 (i) n은 0이고, o는 1 내지 6 사이의 정수이거나, (ii) V는 각각 독립적으로 A 또는 G이고, m 및 o는 각각 독립적으로 3 내지 6 사이의 정수이고, n은 1 내지 3 사이의 정수인 U-rich tail일 수 있다. 구체화된 예에서, U-rich tail은 5'-U-3', 5'-UU-3', 5'-UUU-3', 5'-UUUU-3', 5'-UUUUU-3', 5'-UUUUUU-3', 5'-UUURUUU-3', 5'-UUURUUURUUU-3', 5'-UUUURU-3', 5'-UUUURUU-3', 5'-UUUURUUU-3', 5'-UUUURUUUU-3', 5'-UUUURUUUUU-3' 및 5'-UUUURUUUUUU-3'로 이루어진 군에서 선택된 어느 하나의 서열로 이루어지고, 상기 R은 A 또는 G인 U-rich tail일 수 있다. 예컨대, U-rich tail은 5'-UUUUUUUUUU-3'(서열번호 341), 5'-UUAUUUAUUU-3'(서열번호 342), 5'-UUUCUAUUUU-3'(서열번호 343) 또는 5'-UUAUGUUUUU-3'(서열번호 344)의 서열로 이루어지거나 이를 포함하는 서열일 수 있다.
또 다른 구현예에서, U-rich tail 서열은 유리딘이 1개 내지 5개 반복될 때마다 유리딘이 아닌 다른 리보뉴클레오시드(A, C 또는 G)가 하나씩 포함된 변형된 유리딘 반복 서열을 포함할 수 있다. 상기 변형된 유리딘 연속 서열은 특히 엔지니어링된 crRNA를 발현하는 벡터를 설계할 때 유용하다. 일 구현예로, U-rich tail 서열은 UV, UUV, UUUV, UUUUV 및/또는 UUUUUV가 하나 이상 반복된 서열을 포함할 수 있다. 이때, 상기 V는 A, C, G 중 하나이다.
또한, 상기 U-rich tail 서열은 Ux로 표현되는 서열 및 5'-(UmV)n-3'으로 표현되는 서열이 조합된 형태일 수 있다. 일 구현예로, 상기 U-rich tail 서열은 (U)n1-V1-(U)n2-V2-Ux로 표현될 수 있다. 이때, V1 및 V2는 각각 아데닌(A), 사이티딘(C), 구아닌(G) 중 하나이다. 이때, 상기 n1 및 n2는 각각 1 내지 4 사이의 정수일 수 있다. 이때, 상기 x는 1 내지 20 사이의 정수일 수 있다. 또한, 상기 U-rich tail 서열의 길이는 1nt, 2nt, 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 또는 20nt일 수 있다. 일 구현예로, 상기 U-rich tail 서열의 길이는 20nt 이상일 수 있다.
다른 구현예에서, 엔지니어링된 gRNA가 세포 내에서 발현될 경우 U-rich tail은 전사 조기 종결에 의해 한 가지 이상의 서열로 발현될 수 있다. 예를 들어, 일 구현예에 따라 5'-UUUUAUUUUUU-3' 서열의 U-rich tail이 포함되도록 의도한 gRNA가 세포 내에서 전사될 때 4개 이상 또는 5개 이상의 T는 종결 시퀀스로 작용할 수 있으므로, 5'-UUUUAUUUU-3', 5'-UUUUAUUUUU-3' 또는 5'-UUUUAUUUUUU-3' 등의 U-rich tail을 포함하는 gRNA가 동시에 생성될 수 있다. 따라서, 본 발명에서 4개 이상의 U가 포함된 U-rich tail은 의도한 길이보다 더 짧은 길이의 U-rich tail 서열을 함께 포함하는 것으로 이해될 수 있다.
또 다른 구현예에서, U-rich tail 서열은 본 발명의 유전자 편집 시스템의 실사용 환경 및 발현 환경, 예를 들어 진핵 세포 또는 원핵 세포 내부 환경에 따라 유리딘 외에 추가적인 염기를 더 포함할 수 있다.
(3) 변형부위 3(modification site 3, MS3)에서의 변형
본 항목에서는 MS3에서의 변형을 기술한다(도 20). 상술한 바와 같이 MS3은 gRNA 및 이펙터 단백질 복합체 내에서 스템-루프 구조를 형성하는 뉴클레오티드의 일부 또는 전부를 포함하는 부위(제1 스템-루프 영역으로 지칭될 수 있음)로서, 상기 MS3는 gRNA 및 이펙터 단백질이 복합체를 이룰 때 이펙터 단백질과 상호작용하지 않는 영역을 포함할 수 있다. MS3에서의 변형은 tracrRNA의 5'-말단 부근의 제1 스템-루프 영역의 일부 또는 전부의 제거를 포함한다.
일 구현예에서, 엔지니어링된 gRNA는 제1 스템-루프 영역(예컨대, 서열번호 14의 서열)의 일부 또는 전부가 결실된 변형을 포함한다.
다른 구현예에서, 엔지니어링된 gRNA는 tracrRNA 상의 제1 스템-루프 영역의 일부 또는 전부가 결실된 변형을 포함하며, 이때 상기 결실되는 제1 스템-루프 영역의 일부 또는 전부는 1개 내지 20개 뉴클레오티드일 수 있다. 구체적으로, 상기 제1 스템-루프 영역의 일부 또는 전부는 2개 내지 20개, 3개 내지 20개, 4개 내지 20개, 5개 내지 20개, 6개 내지 20개, 7개 내지 20개, 8개 내지 20개, 9개 내지 20개, 10개 내지 20개, 11개 내지 20개, 12개 내지 20개, 13개 내지 20개, 14개 내지 20개, 15개 내지 20개, 16개 내지 20개, 17개 내지 20개, 18개 내지 20개, 19개 또는 20개 뉴클레오티드일 수 있다.
또 다른 구현예에서, MS3 또는 제1 스템-루프 영역은 식 (I)의 Xa로 표시된 폴리뉴클레오티드에 대응되는 부위로서, 제1 스템-루프 영역의 일부 또는 전부가 결실된 변형에 의해 상기 Xa는 0 내지 35개의 (폴리)뉴클레오티드로 이루어질 수 있고, 바람직하게는 0 내지 20개, 0 내지 19개, 0 내지 18개, 0 내지 17개, 0 내지 16개, 0 내지 15개, 0 내지 14개, 0 내지 13개, 0 내지 12개, 0 내지 11개, 0 내지 10개, 0 내지 9개, 0 내지 8개, 0 내지 7개, 0 내지 6개, 0 내지 5개, 0 내지 4개, 0 내지 3개, 0 내지 2개, 1개 또는 0개의 (폴리)뉴클레오티드로 이루어질 수 있다.
일 구현예로, 상기 식 (I)의 스캐폴드 서열에서 Xa는 서열번호 14의 핵산 서열을 포함하거나 상기 서열의 전부 또는 일부, 바람직하게는 상기 서열번호 14의 서열에서 1 내지 20개의 뉴클레오티드가 결실된 핵산 서열을 포함할 수 있다. 예컨대, 상기 뉴클레오티드의 결실은 서열번호 14의 서열에서 뉴클레오티드가 무작위로 적어도 1개, 2개, 3개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개 15개, 16개, 17개, 18개, 19개 또는 20개가 결실된 것일 수 있다. 바람직한 예로, 상기 뉴클레오티드의 결실은 서열번호 14의 서열에서 5'-말단으로부터 적어도 1개, 2개, 3개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개 15개, 16개, 17개, 18개, 19개 또는 20개의 뉴클레오티드가 5'-말단부터 순차적으로 결실된 것일 수 있다. 이러한 관점에서, Xa에서 뉴클레오티드의 결실은 상보적 뉴클레오티드 쌍의 결실일 수 있다. 보다 구체적으로, 식 (I)의 Xa는 5'-CUUCACUGAUAAAGUGGAGA-3'(서열번호 14), 5'-UUCACUGAUAAAGUGGAGA-3'(서열번호 15), 5'-UCACUGAUAAAGUGGAGA-3'(서열번호 16), 5'-CACUGAUAAAGUGGAGA-3'(서열번호 17), 5'-ACUGAUAAAGUGGAGA-3'(서열번호 18), 5'-CUGAUAAAGUGGAGA-3'(서열번호 19), 5'-UGAUAAAGUGGAGA-3'(서열번호 20), 5'-GAUAAAGUGGAGA-3'(서열번호 21), 5'-AUAAAGUGGAGA-3'(서열번호 22), 5'-UAAAGUGGAGA-3'(서열번호 23), 5'-AAAGUGGAGA-3'(서열번호 24), 5'-AAGUGGAGA-3', 5'-AGUGGAGA-3', 5'-GUGGAGA-3', 5'-UGGAGA-3', 5'-GGAGA-3', 5'-GAGA-3', 5'-AGA-3', 5'-GA-3' 또는 5'-A-3'의 서열을 포함하거나 이로 이루어질 수 있고, 또는 Xa는 부존재할 수 있다.
(4) 변형부위 4(modification site 4, MS4)에서의 변형
본 항목에서는 MS4에서의 변형을 기술한다(도 20). MS4는 tracrRNA의 3'-말단부 및 crRNA의 5'-말단부에 걸쳐 위치한 부위, 또는 싱글 가이드 RNA 형태인 경우 tracrRNA에 해당하는 서열과 crRNA에 해당하는 서열이 적어도 일부 상보적 결합을 이루는 부위로서 tracrRNA-crRNA 상보성 영역(제5 스템 영역으로도 지칭될 수 있음)으로 지칭되는 서열의 일부 또는 전부를 포함할 수 있다. 본 발명에서 tracrRNA-crRNA 상보성 영역은 변형부위 1(MS1)과 변형부위 4(MS4)를 함께 포함할 수 있다. MS4에서의 변형은 tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실을 포함한다. 상기 tracrRNA-crRNA 상보성 영역은 tracrRNA의 일부 및 crRNA의 일부를 포함하여, gRNA 및 핵산 분해 단백질의 복합체 내에서 tracrRNA에 포함된 일부 뉴클레오티드가 crRNA에 포함된 일부 뉴클레오티드와 상보적인 결합을 형성할 수 있는 뉴클레오티드를 포함하고, 이와 인접한 뉴클레오티드를 포함할 수 있다. tracrRNA의 tracrRNA-crRNA 상보성 영역은 gRNA와 핵산 분해 단백질 복합체 내에서 핵산 분해 단백질과 상호작용하지 않는 영역을 포함할 수 있다.
일부 구현예에서, 엔지니어링된 gRNA는 tracrRNA에서의 tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실, crRNA에서의 tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실, 또는 상기 tracrRNA 및 crRNA 모두에서의 tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실을 포함한다.
일 구현예에서, tracrRNA-crRNA 상보성 영역은 서열번호 39의 뉴클레오티드 서열 및/또는 서열번호 58의 뉴클레오티드 서열을 포함할 수 있다.
다른 구현예에서, tracrRNA-crRNA 상보성 영역은 tracrRNA의 3'-말단과 crRNA의 5'-말단을 연결하는 링커(예컨대, 폴리뉴클레오티드)를 추가로 포함할 수 있다.
일 구현예에서, 엔지니어링된 gRNA는 tracrRNA-crRNA 상보성 영역의 일부가 결실된 변형을 포함하며, 이때 결실되는 상기 상보성 영역의 일부는 1개 내지 54개 뉴클레오티드일 수 있다.
다른 구현예에서, 엔지니어링된 gRNA는 tracrRNA-crRNA 상보성 영역의 전부가 결실된 변형을 포함하며, 이때 결실되는 상기 상보성 영역의 전부는 55개 뉴클레오티드일 수 있다.
구체적으로, 상기 tracrRNA-crRNA 상보성 영역의 일부 또는 전부는 3개 내지 55개, 5개 내지 55개, 7개 내지 55개, 9개 내지 55개, 11개 내지 55개, 13개 내지 55개, 15개 내지 55개, 17개 내지 55개, 19개 내지 55개, 21개 내지 55개, 23개 내지 55개, 25개 내지 55개, 27개 내지 55개, 29개 내지 55개, 31개 내지 55개, 33개 내지 55개, 35개 내지 55개, 37개 내지 55개, 39개 내지 55개 또는 41개 내지 55개 뉴클레오티드일 수 있으며, 바람직하게는 42개 내지 55개, 43개 내지 55개, 44개 내지 55개, 45개 내지 55개, 46개 내지 55개, 47개 내지 55개, 48개 내지 55개, 49개 내지 55개, 50개 내지 55개, 51개 내지 55개, 52개 내지 55개, 53개 내지 55개, 54개 또는 55개 뉴클레오티드일 수 있다.
또 다른 구현예에서, MS4 또는 tracrRNA-crRNA 상보성 영역은 식 (I)의 Xc1 및 Xc2로 표시된 폴리뉴클레오티드에 대응되거나 이를 포함하는 영역으로서, tracrRNA-crRNA 상보성 영역의 일부 또는 전부가 결실된 변형에 의해 상기 Xc1 및 Xc2는 각각 독립적으로 0 내지 35개의 (폴리)뉴클레오티드로 이루어질 수 있다.
바람직하게, Xc1은 0 내지 28개, 0 내지 27개, 0 내지 26개, 0 내지 25개, 0 내지 24개, 0 내지 23개, 0 내지 22개, 0 내지 21개, 0 내지 20개, 0 내지 19개, 0 내지 18개, 0 내지 17개, 0 내지 16개, 0 내지 15개, 0 내지 14개, 0 내지 13개, 0 내지 12개, 0 내지 11개, 0 내지 10개, 0 내지 9개, 0 내지 8개, 0 내지 7개, 0 내지 6개, 0 내지 5개, 0 내지 4개, 0 내지 3개, 0 내지 2개, 1개 또는 0개의 (폴리)뉴클레오티드로 이루어질 수 있다. 또한, 바람직하게, 상기 Xc2는 0 내지 27개, 0 내지 26개, 0 내지 25개, 0 내지 24개, 0 내지 23개, 0 내지 22개, 0 내지 21개, 0 내지 20개, 0 내지 19개, 0 내지 18개, 0 내지 17개, 0 내지 16개, 0 내지 15개, 0 내지 14개, 0 내지 13개, 0 내지 12개, 0 내지 11개, 0 내지 10개, 0 내지 9개, 0 내지 8개, 0 내지 7개, 0 내지 6개, 0 내지 5개, 0 내지 4개, 0 내지 3개, 0 내지 2개, 1개 또는 0개의 (폴리)뉴클레오티드로 이루어질 수 있다.
일 구현예에서, 상기 식 (I)의 스캐폴드 서열에서 Xc1은 서열번호 39의 핵산 서열을 포함하거나 서열번호 39의 서열에서 1 내지 28개의 뉴클레오티드가 결실된 핵산 서열을 포함할 수 있다. 바람직하게, 상기 뉴클레오티드의 결실은 서열번호 39의 서열에서 5'-말단으로부터 적어도 1개, 2개, 3개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개 또는 28개의 뉴클레오티드가 순차적으로 제거된 것일 수 있다. 보다 구체적으로, 상기 Xc1은 5'-UUCAUUUUUCCUCUCCAAUUCUGCACAA-3'(서열번호 39), 5'-UUCAUUUUUCCUCUCCAAUUCUGCACA-3'(서열번호 40), 5'-UUCAUUUUUCCUCUCCAAUUCUGCAC-3'(서열번호 41), 5'-UUCAUUUUUCCUCUCCAAUUCUGCA-3'(서열번호 42), 5'-UUCAUUUUUCCUCUCCAAUUCUGC-3'(서열번호 43), 5'-UUCAUUUUUCCUCUCCAAUUCUG-3'(서열번호 44), 5'-UUCAUUUUUCCUCUCCAAUUCU-3'(서열번호 45), 5'-UUCAUUUUUCCUCUCCAAUUC-3'(서열번호 46), 5'-UUCAUUUUUCCUCUCCAAUU-3'(서열번호 47), 5'-UUCAUUUUUCCUCUCCAAU-3'(서열번호 48), 5'-UUCAUUUUUCCUCUCCAA-3'(서열번호 49), 5'-UUCAUUUUUCCUCUCCA-3'(서열번호 50), 5'-UUCAUUUUUCCUCUCC-3'(서열번호 51), 5'-UUCAUUUUUCCUCUC-3'(서열번호 52), 5'-UUCAUUUUUCCUCU-3'(서열번호 53), 5'-UUCAUUUUUCCUC-3'(서열번호 54), 5'-UUCAUUUUUCCU-3'(서열번호 55), 5'-UUCAUUUUUCC-3'(서열번호 56), 5'-UUCAUUUUUC-3'(서열번호 57), 5'-UUCAUUUUU-3', 5'-UUCAUUUU-3', 5'-UUCAUUU-3', 5'-UUCAUU-3', 5'-UUCAU-3', 5'-UUCA-3', 5'-UUC-3', 5'-UU-3' 또는 5'-U-3'의 서열을 포함하거나 이로 이루어질 수 있고, 또는 Xc1은 부존재할 수 있다.
이때, 일부 뉴클레오티드가 제거된 Xc1 서열 내에 3개, 4개 또는 5개 이상의 유라실(U)을 포함하는 영역이 존재하는 경우에는 상술한 MS1에서의 변형이 또한 적용될 수 있다. MS1에 대한 구체적인 내용은 상기 "(1) 변형부위 1(modification site 1, MS1)에서의 변형" 항목을 참조한다.
또 다른 구현예로, 식 (I)의 스캐폴드 서열에서 Xc2는 서열번호 58의 핵산 서열을 포함하거나 서열번호 58의 서열에서 1 내지 27개의 뉴클레오티드가 결실된 핵산 서열을 포함할 수 있다. 바람직하게, 상기 뉴클레오티드의 결실은 서열번호 58의 서열에서 5'-말단으로부터 적어도 1개, 2개, 3개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개 또는 27개의 뉴클레오티드가 순차적으로 제거된 것일 수 있다. 보다 구체적으로, 상기 Xc2는 5'-GUUGCAGAACCCGAAUAGACGAAUGAA-3'(서열번호 58), 5'-UUGCAGAACCCGAAUAGACGAAUGAA-3'(서열번호 59), 5'-UGCAGAACCCGAAUAGACGAAUGAA-3'(서열번호 60), 5'-GCAGAACCCGAAUAGACGAAUGAA-3'(서열번호 61), 5'-CAGAACCCGAAUAGACGAAUGAA-3'(서열번호 62), 5'-AGAACCCGAAUAGACGAAUGAA-3'(서열번호 63), 5'-GAACCCGAAUAGACGAAUGAA-3'(서열번호 64), 5'-AACCCGAAUAGACGAAUGAA-3'(서열번호 65), 5'-ACCCGAAUAGACGAAUGAA-3'(서열번호 66), 5'-CCCGAAUAGACGAAUGAA-3'(서열번호 67), 5'-CCGAAUAGACGAAUGAA-3'(서열번호 68), 5'-CGAAUAGACGAAUGAA-3'(서열번호 69), 5'-GAAUAGACGAAUGAA-3'(서열번호 70), 5'-AAUAGACGAAUGAA-3'(서열번호 71), 5'-AUAGACGAAUGAA-3'(서열번호 72), 5'-UAGACGAAUGAA-3'(서열번호 73), 5'-AGACGAAUGAA-3'(서열번호 74), 5'-GACGAAUGAA-3'(서열번호 75), 5'-ACGAAUGAA-3', 5'-CGAAUGAA-3', 5'-GAAUGAA-3', 5'-AAUGAA-3', 5'-AUGAA-3', 5'-UGAA-3', 5'-GAA-3', 5'-AA-3' 또는 5'-A-3'의 서열을 포함하거나 이로 이루어질 수 있고, 또는 Xc2는 부존재할 수 있다.
이때, 일부 뉴클레오티드가 제거된 Xc2 서열 내에 Xc1 서열 내 3개 이상, 또는 3개, 4개 또는 5개 이상의 U를 포함하는 서열에 대응되는 서열이 존재하는 경우에는 상술한 MS1에서의 변형이 또한 적용될 수 있다. MS1에 대한 구체적인 내용은 상기 "(1) 변형부위 1(modification site 1, MS1)에서의 변형" 항목을 참조한다.
식 (I)의 스캐폴드 서열에서 Xc1과 Xc2에 해당하는 영역은 각각 독립적으로 상술한 변형이 적용될 수 있으나, MS4 또는 tracrRNA-crRNA 상보성 영역은 tracrRNA와 crRNA가 상보적 결합을 이루는 영역으로서 듀얼 가이드 RNA로 작동하기 위해서는 Xc1 및 Xc2 각각에서 결실되는 뉴클레오티드의 위치와 개수를 동일하거나 유사하게 하는 것이 바람직하다. 즉, Xc1과 Xc2 서열의 상보성을 보존하기 위해, MS4(tracrRNA-crRNA 상보성 영역)에서 tracrRNA의 3'-말단에 위치한 서열부터 순차적으로 결실시키는 경우 crRNA는 5'-말단 서열부터 순차적으로 결실시키는 것이 바람직하다. 이러한 관점에 따른 일 구현예에서, Xc1 및 Xc2 핵산 서열의 결실은 하나 이상의 상보적인 뉴클레오티드 쌍의 결실일 수 있다.
일 구현예에서, 상기 식 (I)의 스캐폴드 서열에서 Xc1의 3'-말단과 Xc2의 5'-말단은 링커(Lk)로 연결되어 싱글 가이드 RNA(sgRNA) 형태로 변형될 수 있다. 상기 Lk는 tracrRNA 및 crRNA을 물리적 또는 화학적으로 연결하는 서열로서, 길이 1 내지 30개의 폴리뉴클레오티드 서열일 수 있다. 일 구현예로서, 상기 Lk는 1 내지 5개, 5 내지 10개, 10 내지 15개, 2 내지 20개, 15 내지 20개, 20개 내지 25개 또는 25 내지 30개의 뉴클레오티드 서열일 수 있다. 예를 들어, 상기 Lk는 5'-GAAA-3' 서열일 수 있으나, 이에 제한되는 것은 아니다. 다른 예로, 상기 Lk는 5'-UUAG-3', 5'-UGAAAA-3', 5'-UUGAAAAA-3', 5'-UUCGAAAGAA-3'(서열번호 76), 5'-UUCAGAAAUGAA-3'(서열번호 77), 5'-UUCAUGAAAAUGAA-3'(서열번호 78) 또는 5'-UUCAUUGAAAAAUGAA-3'(서열번호 79)의 서열을 포함하거나 이로 이루어진 링커일 수 있다.
한편, 싱글 가이드 RNA(sgRNA)로 만들기 위해 링커(Lk)를 사용하는 것도 가능하지만, 3'-말단부의 일부 서열이 제거된 tracrRNA의 3'-말단부와 5'-말단부의 일부 서열이 제거된 crRNA의 3'-말단부를 직접 연결하는 것도 가능하다.
또 다른 구현예로, 상기 식 (I)의 스캐폴드 서열에서 Xc1과 Xc2가 링커로 연결되는 경우에는 식 (I)에 표시된 바와 같이 5'-Xc1-Lk-Xc2-3'로 표현될 수 있으며, 상기 5'-Xc1-Lk-Xc2-3'는 서열번호 80 내지 서열번호 86 및 5'-Lk-3'(Xc1 및 Xc2이 모두 결실된 형태)으로 이루어진 군에서 선택된 어느 하나의 핵산 서열일 수 있으나, 이에 제한되는 것은 아니다.
(5) 변형부위 5(modification site 5, MS5)에서의 변형
본 항목에서는 MS5에서의 변형을 기술한다(도 20). 상술한 바와 같이, MS5는 제2 스템-루프 영역으로 지칭되는 tracrRNA 내 3'-말단 방향에 위치한 영역에 대응된다. 상기 제2 스템-루프 영역은 가이드 RNA(gRNA) 및 핵산 편집 단백질 복합체 내에서 스템 구조를 형성하는 뉴클레오티드를 포함하고, 이와 인접한 뉴클레오티드를 포함할 수 있다. 이때, 상기 스템 또는 스템-루프 구조는 상술한 제1 스템-루프 영역에 포함된 스템과는 구분되는 것이다.
일 구현예에서, 제2 스템-루프 영역은 서열번호 25의 뉴클레오티드 서열 및/또는 서열번호 29의 뉴클레오티드 서열을 포함할 수 있다.
다른 구현예에서, MS5 또는 제2 스템-루프 영역은 식 (I)의 Xb1 및 Xb2로 표시된 폴리뉴클레오티드와 인접한 (폴리)뉴클레오티드(5'-UUAG-3' 서열의 루프 포함)를 포함하는 부위로서, 제2 스템-루프 영역의 일부 또는 전부가 결실된 변형에 의해 상기 Xb1 및 Xb2는 각각 독립적으로 0 내지 35개의 (폴리)뉴클레오티드로 이루어질 수 있다.
일 구현예에서, 엔지니어링된 gRNA는 제2 스템-루프 영역의 일부 또는 전부가 결실된 변형을 포함한다.
다른 구현예에서, 엔지니어링된 gRNA는 제2 스템-루프 영역의 일부 또는 전부의 결실을 포함하고, 이때 상기 결실되는 제2 스템-루프 영역의 일부 또는 전부는 1개 내지 27개 뉴클레오티드일 수 있다. 구체적으로, 상기 제2 스템 영역의 일부 또는 전부는 2개 내지 27개, 3개 내지 27개, 4개 내지 27개, 5개 내지 27개, 6개 내지 27개, 7개 내지 27개, 8개 내지 27개, 9개 내지 27개, 10개 내지 27개, 11개 내지 27개, 12개 내지 27개, 13개 내지 27개, 14개 내지 27개, 15개 내지 27개, 16개 내지 27개, 17개 내지 27개, 18개 내지 27개, 19개 내지 27개, 20개 내지 27개, 21개 내지 27개, 22개 내지 27개, 23개 내지 27개, 24개 내지 27개, 25개 내지 27개, 26개 또는 27개의 뉴클레오티드일 수 있다.
바람직하게, 상기 식 (I)의 Xb1은 0 내지 13개, 0 내지 12개, 0 내지 11개, 0 내지 10개, 0 내지 9개, 0 내지 8개, 0 내지 7개, 0 내지 6개, 0 내지 5개, 0 내지 4개, 0 내지 3개, 0 내지 2개, 1개 또는 0개의 (폴리)뉴클레오티드로 이루어질 수 있다. 또한, 바람직하게, 상기 Xb2는 0 내지 14개, 0 내지 13개, 0 내지 12개, 0 내지 11개, 0 내지 10개, 0 내지 9개, 0 내지 8개, 0 내지 7개, 0 내지 6개, 0 내지 5개, 0 내지 4개, 0 내지 3개, 0 내지 2개, 1개 또는 0개의 (폴리)뉴클레오티드로 이루어질 수 있다.
일 구현예에서, 식 (I)의 스캐폴드 서열에서 Xb1은 서열번호 25의 핵산 서열을 포함하거나 서열번호 25의 서열에서 1 내지 13개의 뉴클레오티드가 결실된 핵산 서열을 포함할 수 있다. 바람직하게, 상기 뉴클레오티드의 결실은 서열번호 25의 서열에서 5'-말단으로부터 적어도 1개, 2개, 3개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개 또는 13개의 뉴클레오티드가 순차적으로 제거된 것일 수 있다. 보다 구체적으로, 상기 Xb1은 5'-CAAAAGCUGUCCC-3'(서열번호 25), 5'-CAAAAGCUGUCC-3'(서열번호 26), 5'-CAAAAGCUGUC-3'(서열번호 27), 5'-CAAAAGCUGU-3'(서열번호 28), 5'-CAAAAGCUG-3', 5'-CAAAAGCU-3', 5'-CAAAAGC-3', 5'-CAAAAG-3', 5'-CAAAA-3', 5'-CAAA-3', 5'-CAA-3', 5'-CA-3' 또는 5'-C-3'의 서열을 포함하거나 이로 이루어질 수 있고, 또는 Xb1은 부존재할 수 있다.
다른 구현예에서, 식 (I)의 스캐폴드 서열에서 Xb2는 서열번호 29의 핵산 서열을 포함하거나 서열번호 29의 서열에서 1 내지 14개의 뉴클레오티드가 결실된 핵산 서열을 포함할 수 있다. 바람직하게, 상기 뉴클레오티드의 결실은 서열번호 29의 서열에서 5'-말단으로부터 적어도 1개, 2개, 3개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개 또는 14개의 뉴클레오티드가 순차적으로 제거된 것일 수 있다. 보다 구체적으로, 상기 Xb2는 5'-GGGAUUAGAACUUG-3' (서열번호 29), 5'-GGAUUAGAACUUG-3'(서열번호 30), 5'-GAUUAGAACUUG-3'(서열번호 31), 5'-AUUAGAACUUG-3'(서열번호 32), 5'-UUAGAACUUG-3'(서열번호 33), 5'-UAGAACUUG-3', 5'-AGAACUUG-3', 5'-GAACUUG-3', 5'-AACUUG-3', 5'-ACUUG-3', 5'-CUUG-3', 5'-UUG-3', 5'-UG-3' 또는 5'-G-3'의 서열을 포함하거나 이로 이루어질 수 있고, 또는 Xb1은 부존재할 수 있다.
식 (I)의 스캐폴드 서열에서 Xb1과 Xb2에 해당하는 영역은 각각 독립적으로 변형될 수 있으나, 정상적인 스템-루프 구조의 보존을 위해 Xb1 및 Xb2 각각에서 결실되는 뉴클레오티드의 위치와 개수를 동일하거나 유사하게 하는 것이 바람직하다. 예를 들어, Xb1에서 5'-말단 방향의 서열부터 순차적으로 결실시키는 경우 Xb2에서는 3'-말단 방향의 서열부터 순차적으로 결실시키는 것이 바람직하다. 이러한 관점에 따른 일 구현예에서, Xb1 및 Xb2 핵산 서열의 결실은 하나 이상의 상보적인 뉴클레오티드 쌍의 결실일 수 있다.
다른 구현예에서, 식 (I)의 스캐폴드 서열의 Xb1과 Xb2를 연결하는 루프(Loop) 부분의 서열은 5'-UUAG-3'로 표시되어 있으나, 이는 필요에 따라 5'-NNNN-3', '5-NNN-3' 등의 다른 서열로 치환될 수 있다. 여기서, N은 각각 독립적으로 A, C, G 또는 U이다. 예를 들면, 상기 5'-NNNN-3'는 5'-GAAA-3'일 수 있고, 상기 '5-NNN-3'은 5'-CGA-3'일 수 있다.
예를 들어, 식 (I)의 스캐폴드 서열에서 Xb1과 Xb2를 연결하는 루프(Loop) 부분의 서열은 5'-UUAG-3'이고, 상기 식 (I) 내의 서열 5'-Xb1UUAGXb2-3'은 서열번호 34 내지 서열번호 38 및 5'-UUAG-3'(Xb1 및 Xb2가 모두 결실된 형태)로 이루어진 군에서 선택된 어느 하나의 핵산 서열을 포함하거나 이로 이루어진 것일 수 있다.
(6) 변형부위 1 내지 변형부위 5에서의 변형이 적용된 gRNA의 예시
본원에 개시된 바와 같은 엔지니어링된 가이드 RNA는 상술한 변형부위 1(MS1) 내지 변형부위 5(MS5) 중 둘 이상의 변형부위에서의 변형을 포함하는 것일 수 있다.
일 구현예에서, 엔지니어링된 가이드 RNA는 (a1) 제1 스템-루프 영역의 일부 또는 전부의 결실; (a2) 제2 스템-루프 영역의 일부 또는 전부의 결실; (b) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실; (c) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상, 4개 이상 또는 5개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환; 및 (d) crRNA 서열의 3'-말단에 U-rich tail의 부가로 이루어진 군에서 선택되는 하나 이상의 변형을 포함하는 것일 수 있다. 상기 U-rich tail의 서열은 5'-(UmV)nUo-3'로 표시될 수 있고, 여기서 상기 V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수이다.
예컨대, 엔지니어링된 가이드 RNA는 (d) crRNA 서열의 3'-말단에 U-rich tail의 부가 및 (c) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상, 4개 이상 또는 5개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환을 포함하는 것일 수 있다.
다른 예로, 엔지니어링된 가이드 RNA는 (d) crRNA 서열의 3'-말단에 U-rich tail의 부가, (c) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상, 4개 이상 또는 5개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환 및 (a1) 제1 스템-루프 영역의 일부 또는 전부의 결실을 포함하는 것일 수 있다.
또 다른 예로, 엔지니어링된 가이드 RNA는 (d) crRNA 서열의 3'-말단에 U-rich tail의 부가, (c) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상, 4개 이상 또는 5개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환 및 (a1) 제1 스템-루프 영역의 일부 또는 전부의 결실을 포함하는 것일 수 있다.
또 다른 예로, 엔지니어링된 가이드 RNA는 (d) crRNA 서열의 3'-말단에 U-rich tail의 부가, (a1) 제1 스템-루프 영역의 일부 또는 전부의 결실 및 (b) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실을 포함하는 것일 수 있으며, 상기 일부 결실을 포함하는 tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상, 4개 이상 또는 5개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로의 치환이 추가로 포함될 수 있다.
또 다른 예로, 엔지니어링된 가이드 RNA는 (d) crRNA 서열의 3'-말단에 U-rich tail의 부가, (a1) 제1 스템-루프 영역의 일부 또는 전부의 결실, (b) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실 및 (a2) 제2 스템-루프 영역의 일부 또는 전부의 결실을 포함하는 것일 수 있으며, 상기 일부 결실을 포함하는 tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상, 4개 이상 또는 5개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로의 치환이 추가로 포함될 수 있다.
상술한 복수의 변형부위(MS)에서의 변형이 적용된 tracrRNA의 예시로서 서열번호 87 내지 서열번호 132의 뉴클레오티드 서열 포함하는 엔지니어링된 tracrRNA가 제공된다.
구체적으로, 상기 엔지니어링된 tracrRNA는 서열번호 87(MS1), 서열번호 88(MS1/MS3-1), 서열번호 89(MS1/MS3-2), 서열번호 90(MS1/MS3-3), 서열번호 91(MS1/MS4*-1), 서열번호 92(MS1/MS4*-2), 서열번호 93(MS1/MS4*-3), 서열번호 94(MS1/MS5-1), 서열번호 95(MS1/MS5-2), 서열번호 96(MS1/MS5-3), 서열번호 97(MS1/MS3-3/MS4*-1), 서열번호 98(MS1/MS3-3/MS4*-2), 서열번호 99(MS1/MS3-3/MS4*-3), 서열번호 100(MS1/MS4*-2/MS5-1), 서열번호 101(MS1/MS4*-2/MS5-2), 서열번호 102(MS1/MS4*-2/MS5-3), 서열번호 103(MS1/MS3-3/MS5-1), 서열번호 104(MS1/MS3-3/MS5-2), 서열번호 105(MS1/MS3-3/MS5-3), 서열번호 106(MS1/MS3-3/MS4*-2/MS5-3), 서열번호 107(mature form, MF), 서열번호 108(MF/MS3-1), 서열번호 109(MF/MS3-2), 서열번호 110(MF/MS3-3), 서열번호 111(MF/MS4-1), 서열번호 112(MF/MS4-2), 서열번호 113(MF/MS4-3), 서열번호 114(MF/MS5-1), 서열번호 115(MF/MS5-2), 서열번호 116(MF/MS5-3), 서열번호 117(MF/MS5), 서열번호 118(MF/MS3-3/MS4-1), 서열번호 119(MF/MS3-3/MS4-2), 서열번호 120(MF/MS3-3/MS4-3), 서열번호 121(MF/MS4-3/MS5-1), 서열번호 122(MF/MS4-3/MS5-2), 서열번호 123(MF/MS4-3/MS5-3), 서열번호 124(MF/MS4-3/MS5), 서열번호 125(MF/MS3-3/MS5-1), 서열번호 126(MF/MS3-3/MS5-2), 서열번호 127(MF/MS3-3/MS5-3), 서열번호 128(MF/MS3-3/MS5), 서열번호 129(MF/MS3-3/MS4-3/MS5-3), 서열번호 130(MF/MS3-3/MS4-1/MS5), 서열번호 131(MF/MS3-3/MS4-2/MS5) 또는 서열번호 132(MF/MS3-3/MS4-3/MS5)의 뉴클레오티드 서열을 포함하거나 이로 이루어진 것일 수 있다.
보다 구체화된 예로서, MS1, MS3, MS4 및 MS5에서 선택된 어느 하나 이상의 변형부위에서 하나 이상의 변형을 갖는 엔지니어링된 tracrRNA의 예시적인 서열이 하기 표 4에서 제공된다. 이와 같은 엔지니어링된 tracrRNA는 스캐폴드 영역의 스캐폴드 서열 일부를 구성한다.
tracrRNA 염기서열 서열번호
MS1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA 87
MS1/MS3-1 GAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA 88
MS1/MS3-2 UGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA 89
MS1/MS3-3 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA 90
MS1/MS4*-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUC 91
MS1/MS4*-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUC 92
MS1/MS4*-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCU 93
MS1/MS5-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA 94
MS1/MS5-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUUAGGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA 95
MS1/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA 96
MS1/MS3-3/MS4*-1 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUC 97
MS1/MS3-3/MS4*-2 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUC 98
MS1/MS3-3/MS4*-3 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCU 99
MS1/MS4*-2/MS5-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUC 100
MS1/MS4*-2/MS5-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUUAGGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUC 101
MS1/MS4*-2/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUC 102
MS1/MS3-3/MS5-1 ACCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA 103
MS1/MS3-3/MS5-2 ACCGCUUCACCAAAAGCUUAGGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA 104
MS1/MS3-3/MS5-3 ACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA 105
MS1/MS3-3/MS4*-2/MS5-3 ACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUC 106
Mature Form(MF) CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 107
MF/MS3-1 GAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 108
MF/MS3-2 UGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 109
MF/MS3-3 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 110
MF/MS4-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAU 111
MF/MS4-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUC 112
MF/MS4-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAA 113
MF/MS5-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 114
MF/MS5-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUUUAGAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 115
MF/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 116
MF/MS5 CUUCACUGAUAAAGUGGAGAACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 117
MF/MS3-3/MS4-1 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAU 118
MF/MS3-3/MS4-2 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUC 119
MF/MS3-3/MS4-3 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAA 120
MF/MS4-3/MS5-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAA 121
MF/MS4-3/MS5-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUUUAGAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAA 122
MF/MS4-3/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAA 123
MF/MS4-3/MS5 CUUCACUGAUAAAGUGGAGAACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAA 124
MF/MS3-3/MS5-1 ACCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 125
MF/MS3-3/MS5-2 ACCGCUUCACCAAAAGCUUUAGAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 125
MF/MS3-3/MS5-3 ACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 127
MF/MS3-3/MS5 ACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 128
MF/MS3-3/MS4-3/MS5-3 ACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAA 129
MF/MS3-3/MS4-1/MS5 ACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAU 130
MF/MS3-3/MS4-2/MS5 ACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUC 131
MF/MS3-3/MS4-3/MS5 ACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAA 132
또한, 상기 복수의 변형부위(MS)에서의 변형이 적용된 crRNA의 예시로서 서열번호 133 내지 서열번호 148의 뉴클레오티드 서열 포함하는 엔지니어링된 crRNA가 제공된다.
구체적으로, 본 발명의 엔지니어링된 crRNA는 서열번호 133(MS1), 서열번호 134(MS1/MS4*-1), 서열번호 135(MS1/MS4*-2), 서열번호 136(MS1/MS4*-3), 서열번호 137(mature form; MF), 서열번호 138(MF/MS4-1), 서열번호 139(MF/MS4-2), 서열번호 140(MF/MS4-3), 서열번호 141(MS1/MS2), 서열번호 142(MS1/MS2/MS4*-1), 서열번호 143(MS1/MS2/MS4*-2), 서열번호 144(MS1/MS2/MS4*-3), 서열번호 145(MF/MS2), 서열번호 146(MF/MS2/MS4-1), 서열번호 147(MF/MS2/MS4-2) 또는 서열번호 148(MF/MS2/MS4-3)의 뉴클레오티드 서열을 포함하거나 이로 이루어진 것일 수 있다.
일부 구현예로서, MS1, MS2 및 MS4에서 선택된 어느 하나 이상의 변형부위에서 하나 이상의 변형을 갖는 엔지니어링된 crRNA의 예시적인 서열이 하기 표 5에서 제공된다.
crRNA 염기서열 서열번호
MS1 GUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAAC 133
MS1/MS4*-1 GAACCCGAAUAGAGCAAUGAAGGAAUGCAAC 134
MS1/MS4*-2 GAAUAGAGCAAUGAAGGAAUGCAAC 135
MS1/MS4*-3 AGCAAUGAAGGAAUGCAAC 136
MF GAAUGAAGGAAUGCAAC 137
MF/MS4-1 AUGAAGGAAUGCAAC 138
MF/MS4-2 GAAGGAAUGCAAC 139
MF/MS4-3 GGAAUGCAAC 140
MS1/MS2 GUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 141
MS1/MS2/MS4*-1 GAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 142
MS1/MS2/MS4*-2 GAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 143
MS1/MS2/MS4*-3 AGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 144
MF/MS2 GAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 145
MF/MS2/MS4-1 AUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 146
MF/MS2/MS4-2 GAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 147
MF/MS2/MS4-3 GGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 148
표 5에서, 필요한 경우를 제외하고 모든 crRNA 서열은 가이드 서열(스페이서)은 표시를 생략하였으며, 'NNNNNNNNNNNNNNNNNNNN'으로 표시된 서열은 표적 유전자 내의 표적 서열과 혼성화할 수 있는 임의의 가이드 서열(스페이서)을 의미한다. 상기 가이드 서열은, 상술한 바와 같이 목적하는 표적 유전자 및/또는 상기 표적 유전자 내 표적 서열에 따라 통상의 기술자에 의해 적절하게 설계될 수 있으며, 따라서 특정 길이의 특정 서열로 한정되는 것은 아니다.다른 구현예에서, 엔지니어링된 gRNA의 스캐폴드 영역은 서열번호 87 내지 서열번호 132로 이루어진 군에서 선택된 어느 하나의 핵산 서열을 포함하거나 이로 이루어진 tracrRNA; 및 서열번호 133 내지 서열번호 148로 이루어진 군에서 선택된 어느 하나의 핵산 서열을 포함하거나 이로 이루어진 crRNA를 포함하는 것일 수 있다.
또 다른 구현예에서, 본 발명의 가이드 RNA는 서열번호 149 내지 서열번호 186으로 이루어진 군에서 선택된 핵산 서열의 스캐폴드 영역의 서열을 포함할 수 있다. 여기서, 상기 핵산 서열의 스캐폴드 영역은 crRNA의 3'-말단 부분에 존재하는 스페이서 영역(핵산 서열에서 5'-NNNNNNNNNNNNNNNNNNNN-3'로 표시된 영역)이 제외된 나머지 영역을 의미한다.
또 다른 구현예에서, 본 발명의 엔지니어링된 gRNA가 싱글 가이드 RNA(sgRNA) 형태인 경우, 상기 엔지니어링된 sgRNA의 스캐폴드 영역은 서열번호 149 내지 서열번호 186으로 이루어진 군에서 선택된 어느 하나의 핵산 서열을 포함하거나 이로 이루어진 것일 수 있다. 여기서, 상기 서열번호 149 내지 서열번호 186의 3'-말단에 존재하는 5'-NNNNNNNNNNNNNNNNNNNN-3', 5'-NNNNNNNNNNNNNNNNNNNNUUUUAUUUU-3' 또는 5'-NNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU-3' 서열은 제외된다.
예컨대, 엔지니어링된 sgRNA는 MS1에서의 변형을 포함하는 서열번호 149의 sgRNA, MS1/MS2에서의 변형을 포함하는 서열번호 150의 sgRNA, MS1/MS2/MS3에서의 변형을 포함하는 서열번호 151의 sgRNA, MS2/MS3/MS4에서의 변형을 포함하는 서열번호 152의 sgRNA 또는 MS2/MS3/MS4/MS5에서 변형을 포함하는 서열번호 153의 sgRNA일 수 있다. 여기서, 상기 서열번호 150 내지 153의 핵산 서열에서 5'-NNNNNNNNNNNNNNNNNNNN-3'로 표시된 서열은 가이드 서열을 의미한다.
또 다른 구체예로, 상기 엔지니어링된 sgRNA는 서열번호 154(MS1/MS3-1), 서열번호 155(MS1/MS3-2), 서열번호 156(MS1/MS3-3), 서열번호 157(MS1/MS4*-1), 서열번호 158(MS1/MS4*-2), 서열번호 159(MS1/MS4*-3), 서열번호 160(MS1/MS5-1), 서열번호 161(MS1/MS5-2), 서열번호 162(MS1/MS5-3), 서열번호 163(MS1/MS2/MS4*-2), 서열번호 164(MS1/MS3-3/MS4*-2), 서열번호 165(MS1/MS2/MS5-3), 서열번호 166(MS1/MS3-3/MS5-3), 서열번호 167(MS1/MS4*-2/MS5-3), 서열번호 168(MS1/MS2/MS3-3/MS4*-2), 서열번호 169(MS1/MS2/MS3-3/MS5-3), 서열번호 170(MS1/MS2/MS4*-2/MS5-3), 서열번호 171(MS1/MS3-3/MS4*-2/MS5-3) 또는 서열번호 172(MS1/MS2/MS3-3/MS4*-2/MS5-3)의 뉴클레오티드 서열을 포함하거나 이로 이루어진 sgRNA일 수 있다. 여기서, 상기 핵산 서열에서 5'-NNNNNNNNNNNNNNNNNNNN-3'로 표시된 서열은 가이드 서열을 의미한다.
또한, 상기 sgRNA는 성숙형(mature form, MF로 약칭됨)의 sgRNA인 서열번호 173의 뉴클레오티드 서열을 포함하거나 이로 이루어진 sgRNA일 수 있다.
다른 구체예로, 상기 MF sgRNA에서 핵산 서열의 일부 변형을 포함하는 예시적인 sgRNA가 제공된다. 구체적으로, 상기 MF sgRNA는 서열번호 174(MS3-1), 서열번호 175(MS3-2), 서열번호 176(MS3-3), 서열번호 177(MS4-1), 서열번호 178(MS4-2), 서열번호 179(MS4-3), 서열번호 180(MS5-1), 서열번호 181(MS5-2), 서열번호 182(MS5-3), 서열번호 183(MS3-3/MS4-3), 서열번호 184(MS3-3/MS5-3), 서열번호 185(MS4-3/MS5-3) 또는 서열번호 186(MS3-3/MS4-3/MS5-3) 뉴클레오티드 서열을 포함하거나 이로 이루어진 sgRNA일 수 있다. 여기서, 상기 핵산 서열에서 5'-NNNNNNNNNNNNNNNNNNNN-3'로 표시된 서열은 가이드 서열을 의미한다.
바람직한 구현예로, 엔지니어링된 sgRNA는 서열번호 151(Cas12f1 ver3.0), 서열번호 152(Cas12f1 ver4.0) 또는 서열번호 153(Cas12f1 ver4.1)의 뉴클레오티드 서열로 이루어진 것일 수 있다. 여기서, 상기 핵산 서열에서 5'-NNNNNNNNNNNNNNNNNNNN-3'로 표시된 서열은 가이드 서열을 의미한다.
엔지니어링된 sgRNA는 도 20에 나타낸 바와 같은 5개의 변형 부위(MS1, MS2, MS3, MS4 및 MS5) 중 하나 이상을 갖는 엔지니어링된 gRNA이며, 구체적인 서열은 아래 표 6에 나타내었다.
gRNA Sequence(5' to 3') 서열번호
Canonical sgRNA CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUUUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGacgaaUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 13
MS1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 149
MS1/MS2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 150
MS1/MS2/MS3(ge3.0) ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 151
MS2/MS3/MS4(ge4.0) ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 152
MS2/MS3/MS4/MS5(ge4.1) ACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 153
MS1/MS3-1 GAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 154
MS1/MS3-2 UGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 155
MS1/MS3-3 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 156
MS1/MS4*-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCgaaaGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 157
MS1/MS4*-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 158
MS1/MS4*-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUgaaaAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 159
MS1/MS5-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUuuagAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 160
MS1/MS5-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCuuagGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 161
MS1/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 162
MS1/MS2/MS4*-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU 163
MS1/MS3-3/MS4*-2 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 164
MS1/MS2/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU 165
MS1/MS3-3/MS5-3 ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 166
MS1/MS4*-2/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 167
MS1/MS2/MS3-3/MS4*-2 ACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU 168
MS1/MS2/MS3-3/MS5-3 ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU 169
MS1/MS2/MS4*-2/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU 170
MS1/MS3-3/MS4*-2/MS5-3 ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 171
MS1/MS2/MS3-3/MS4*-2/MS5-3 ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU 172
또한, 상기 Canonical gRNA에서 변형부위 MS1이 제거된 성숙된 형태의 gRNA(mature form gRNA)를 제작하였으며, 구체적인 서열을 아래 표 7에 나타내었다.
gRNA Sequence(5' to 3') 서열번호
Mature form gRNA CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 173
MS3-1 GAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 174
MS3-2 UGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 175
MS3-3 ACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 176
MS4-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUgaaaAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 177
MS4-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCgaaaGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 178
MS4-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 179
MS5-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUuuagAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 180
MS5-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUuuagAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 181
MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 182
MS3-3/MS4-3 ACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 183
MS3-3/MS5-3 ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 184
MS4-3/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 185
MS3-3/MS4-3/MS5-3 ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 186
(7) 추가 서열(additional sequence)
본 발명의 상기 엔지니어링된 tracrRNA는 추가 서열(additional sequence)을 선택적으로 더 포함할 수 있다. 상기 추가 서열은 엔지니어링된 tracrRNA의 3'-말단에 위치할 수 있다. 또한, 상기 추가 서열은 엔지니어링된 tracrRNA의 5'-말단에 위치할 수도 있다. 예를 들어, 상기 추가 서열은 제1 스템-루프 영역의 5'-말단에 위치할 수 있다.
상기 추가 서열은 1개 내지 40개의 뉴클레오티드일 수 있다. 일 구현예로서, 상기 추가 서열은 임의의 뉴클레오티드 서열 또는 임의로 배열된 뉴클레오티드 서열일 수 있다. 예를 들어, 상기 추가 서열은 5'-AUAAAGGUGA-3'(서열번호 187) 서열일 수 있다.
또한, 상기 추가 서열은 공지된 뉴클레오티드 서열일 수 있다. 일 예로, 상기 추가 서열은 망치머리형 리보자임(hammerhead ribozyme) 뉴클레오티드 서열일 수 있다. 여기서, 상기 망치머리형 리보자임의 뉴클레오티드 서열은 5'-CUGAUGAGUCCGUGAGGACGAAACGAGUAAGCUCGUC-3'(서열번호 188) 서열 또는 5'-CUGCUCGAAUGAGCAAAGCAGGAGUGCCUGAGUAGUC-3'(서열번호 189) 서열일 수 있다. 상기 열거한 서열들은 단순 예시로서, 추가 서열이 이에 제한되는 것은 아니다.
(8) 화학적 변형(Chemical modification)
일부 구현예에서, 상기 엔지니어링된 gRNA에 포함되는 엔지니어링된 tracrRNA 또는 엔지니어링된 crRNA는 필요에 따라 적어도 하나 이상의 뉴클레오티드가 화학적 변형을 가질 수 있다. 이때, 상기 화학적 변형은 뉴클레오티드의 염기 및/또는 당에서 발생할 수 있는 다양한 공유 결합의 변형일 수 있다.
일 구현예에서, 상기 화학적 변형은 메틸화(methylation), 할로젠화(halogenation), 아세틸화(acetylation), 인산화(phosphorylation), PS(phosphorothioate) 연결, LNA(locked nucleic acid), 2'-O-methyl 3'phosphorothioate(MS) 또는 2'-O-methyl 3'thioPACE(MSP)일 수 있다. 상기 예시는 단순 예시로, 이에 제한되지 않는다.
본 발명의 엔지니어링된 gRNA와 엔지니어링된 Cas 단백질을 포함하는 초소형 유전자 편집 시스템을 사용하는 경우, 자연계에서 발견되는 가이드 RNA를 사용하는 경우에 비해 세포 내에서 표적 유전자 또는 표적 핵산의 인델(indel) 효율이 현저하게 향상되어 대규모 결실 효과가 나타날 수 있다. 게다가, 본 발명의 엔지니어링된 Cas 단백질은 변경된 PAM 서열 특이성을 가져서 표적가능한 게놈 범위를 확장할 수 있는 이점을 가진다.
상기 엔지니어링된 gRNA는 고효율을 나타내는 길이의 최적화와 이에 따른 gRNA 합성 비용 절감, 바이러스 벡터에 삽입하는 경우에 추가 공간 또는 용량 확보, gRNA의 정상적인 발현, 작동 가능한 gRNA 발현의 증가, gRNA의 안정성(stability) 증가, gRNA와 Cas 단백질 복합체의 안정성 증가, 고효율의 gRNA 및 Cas 단백질 복합체 형성 유도, gRNA 및 Cas 단백질 복합체를 포함하는 초소형 유전자 편집 시스템에 의한 표적 핵산의 절단 효율 증가 및 표적가능한 게놈 범위 확대를 수반할 수 있다.
본 발명의 구현예에 따른 엔지니어링된 가이드 RNA는 싱글 가이드 RNA 또는 듀얼 가이드 RNA일 수 있다. 듀얼 가이드 RNA는 가이드 RNA가 tracrRNA 및 crRNA의 두 분자 RNA로 구성된 것을 의미한다. 싱글 가이드 RNA(sgRNA)는 tracrRNA의 3'-말단 및 crRNA의 5'-말단이 링커를 통해 연결된 것을 의미한다.
일 구현예에서, 엔지니어링된 싱글 가이드 RNA(sgRNA)는 링커 서열을 추가적으로 더 포함할 수 있고, tracrRNA 서열 및 crRNA 서열이 링커 서열을 통해 연결될 수 있다. 바람직하게, 엔지니어링된 스캐폴드 서열에 포함된 tracrRNA의 tracrRNA-crRNA 상보성 서열의 3'-말단 및 crRNA의 tracrRNA-crRNA 상보성 서열의 5'-말단이 링커를 통해 연결된 것을 포함할 수 있다. 보다 바람직하게, tracrRNA와 crRNA의 tracrRNA-crRNA 상보성 영역은 각각의 3'-말단 및 5'-말단이 링커 5'-GAAA-3'로 연결될 수 있다. 상기 링커에 대한 구체적인 내용은 상술한 식 (I)의 Lk에 대한 내용을 참조한다.
일 구현예에서, 싱글 가이드 RNA의 서열은 5'-말단에서 3'-말단 방향으로, tracrRNA 서열, 링커 서열, crRNA 서열 및 U-rich tail 서열이 순차적으로 연결되어 있다. tracrRNA 서열의 일부 및 crRNA 서열에 포함된 CRISPR RNA 반복 서열의 전부 및 일부는 서로 상보적인 서열을 가진다.
또한, 본 발명의 구현예에 따른 엔지니어링된 가이드 RNA는 tracrRNA 및 crRNA가 별개의 RNA 분자를 이루고 있는 듀얼 가이드 RNA일 수 있다. 이때, tracrRNA의 일부 및 crRNA의 일부는 서로 상보적인 서열을 가져 이중가닥 RNA를 형성할 수 있다. 보다 구체적으로, 듀얼 가이드 RNA에서 tracrRNA의 3'-말단을 포함하는 일부 및 crRNA의 CRISPR RNA 반복 서열을 포함하는 일부가 이중가닥을 형성할 수 있다. 엔지니어링된 가이드 RNA는 Cas12f1 또는 이의 변이체 단백질과 결합하여 가이드 RNA 및 상기 단백질의 복합체를 형성할 수 있으며, crRNA 서열에 포함된 가이드 서열과 상보적인 표적 서열을 인식하여 표적 서열을 포함하는 표적 유전자 또는 표적 핵산을 편집할 수 있도록 한다.
일 구현예에서, tracrRNA 서열은 상기 CRISPR RNA 반복 서열과 0개 내지 20개의 미스매치가 있는 상보적인 서열을 포함할 수 있다. 바람직하게, tracrRNA 서열은 CRISPR RNA 반복 서열과 0개 내지 8개 또는 8개 내지 12개의 미스매치가 있는 상보적인 서열을 포함할 수 있다.
V. 핵산
본 발명의 또 다른 태양에 따르면, 상술한 본 발명의 엔지니어링된 Cas 단백질을 암호화하는 핵산 또는 상술한 본 발명의 가이드 RNA를 암호화하는 핵산이 제공된다. 일 구현예에서, 핵산은 DNA 핵산을 포함하거나 이로 이루어질 수 있다. 다른 구현예에서, 핵산은 RNA, 예컨대 mRNA를 포함하거나 이로 이루어질 수 있다. 또 다른 구현예에서, 핵산은 대상 세포(예컨대, 게놈 편집을 하고자 하는 세포)에서 코돈-최적화된 서열을 포함할 수 있다.
VI. 벡터 또는 벡터 시스템
본 발명의 또 다른 태양에 따르면, (i) 상술한 본 발명의 엔지니어링된 Cas 단백질을 암호화하는 뉴클레오티드 서열이 작동가능하게 연결된 제1 핵산 구조물; 및 (ii) 본원에 개시된 바와 같은, PAM에 인접한 표적 서열과 혼성화가능한 가이드 서열을 포함하는 가이드 RNA를 암호화하는 뉴클레오티드 서열이 작동가능하게 연결된 제2 핵산 구조물을 포함하는 하나 이상의 벡터를 포함하는 벡터 시스템이 제공된다.
일 구현예에서, 제1 및 제2 핵산 구조물은 동일하거나 상이한 벡터에 위치할 수 있다. 바람직하게, 제1 및 제2 핵산 구조물은 동일한 벡터에 위치할 수 있다.
일 구현예에서, 엔지니어링된 Cas 단백질은 상술한 바와 같은 융합 단백질일 수 있다.
일 구현예에서, 벡터 시스템은 관련 기술의 통상의 기술자가 필요에 의해 발현시키고자 하는 부가 발현 요소를 암호화하는 핵산 서열을 추가로 포함할 수 있다. 예컨대, 부가 발현 요소는 태그(tag)일 수 있다. 다른 예로, 부가 발현 요소는, 글리포세이트(glyphosate), 글루포시네이트암모늄(glufosinate ammonium) 또는 포스피노트리신(phosphinothricin)과 같은 제초제 저항성 유전자, 암피실린(ampicillin), 카나마이신(kanamycin), G418, 블레오마이신(bleomycin), 하이그로마이신(hygromycin), 클로람페니콜(chloramphenicol)과 같은 항생제 내성 유전자일 수 있다.
다른 구현예에서, 벡터 시스템을 직접 세포 내에서 발현시키기 위해서는 하나 이상의 조절 및/또는 제어 구성요소를 포함해야 한다. 구체적으로, 조절 및/또는 제어 구성요소는 프로모터, 인핸서, 인트론, 폴리아데닐화 신호, 코작 컨센서스(Kozak consensus) 서열, 내부 리보솜 유입 부위(internal ribosome entry site, IRES), 스플라이스 억셉터, 2A 서열 및/또는 복제원점(replication origin)을 포함할 수 있으나, 이에 제한되는 것은 아니다. 상기 복제원점은 f1 복제원점, SV40 복제원점, pMB1 복제원점, 아데노 복제원점, AAV 복제원점 및/또는 BBV 복제원점일 수 있으나, 이에 제한되는 것은 아니다.
다른 구현예에서, 벡터 시스템에 포함된 구성요소를 암호화하는 핵산 서열을 세포 내에서 발현시키기 위해서, 각 구성요소를 암호화하는 서열에 프로모터 서열을 작동가능하게 연결시켜 세포 내에서 RNA 전사인자가 활성화될 수 있도록 해야 할 수 있다. 상기 프로모터 서열은 대응하는 RNA 전사인자 또는 발현 환경에 따라 달리 설계할 수 있으며, 본 발명의 유전자 편집 시스템의 구성요소를 세포 내에서 적절히 발현시킬 수 있는 것이라면 제한되지 않는다.
예컨대, 프로모터 서열은 RNA 중합효소 RNA Pol I, Pol II 또는 Pol III의 전사를 촉진시키는 프로모터일 수 있다. 구체적으로, 상기 프로모터는 U6 프로모터, EFS 프로모터, EF1-α 프로모터, H1 프로모터, 7SK 프로모터, CMV 프로모터, LTR 프로모터, Ad MLP 프로모터, HSV 프로모터, SV40 프로모터, CBA 프로모터 또는 RSV 프로모터 중 하나일 수 있다.
또 다른 구현예에서, 상기 벡터 서열이 프로모터 서열을 포함하는 경우에 RNA 전사인자에 의해 상기 프로모터와 작동가능하게 연결된 서열의 전사가 유도되는데, 이러한 RNA 전사 인자의 전사 종결을 유도하는 종결 신호가 포함될 수 있다. 상기 종결 신호는 프로모터 서열의 종류에 따라 달라질 수 있다. 구체적으로, 상기 프로모터가 U6, 또는 H1 프로모터일 경우, 상기 프로모터는 티미딘(T) 연속 서열인 TTTTT(T5) 또는 TTTTTT(T6) 서열을 종결 신호로 인식한다.
본 발명에서 제공하는 엔지니어링된 가이드 RNA의 서열은 그 3'-말단에 U-rich tail 서열을 포함할 수 있다. 이에 따라, 상기 엔지니어링된 가이드 RNA를 암호화하는 서열은 그 3'-말단에 U-rich tail 서열에 대응하는 T-rich 서열을 포함하게 된다. 전술한 바와 같이, 일부 프로모터 서열은 티미딘(T) 연속 서열, 예를 들어 티미딘(T)이 5개 이상 연속으로 연결된 서열을 종결 신호로 인식하므로, 경우에 따라 상기 T-rich 서열을 종결 신호로 인식하게 될 수 있다. 다시 말해, 본 명세서에서 제공하는 벡터 서열이 엔지니어링된 가이드 RNA를 암호화하는 서열을 포함하는 경우, 상기 엔지니어링된 gRNA 서열에 포함된 U-rich tail 서열을 암호화하는 서열이 종결 신호로 사용될 수 있다.
일 구현예로, 상기 벡터 서열이 U6 또는 H1 프로모터 서열을 포함하고, 이와 작동가능하게 연결된 엔지니어링된 가이드 RNA를 암호화하는 서열을 포함할 때, 상기 가이드 RNA 서열에 포함된 U-rich tail 서열을 암호화하는 서열 부분이 종결 신호로 인식될 수 있다. 구체적으로, U-rich tail 서열은 유리딘(U)이 5개 이상 연속으로 연결된 서열을 포함할 수 있다.
일 구현예에서, 벡터는 바이러스 벡터일 수 있다. 구체적으로, 바이러스 벡터는 레트로바이러스 벡터, 렌티바이러스 벡터, 아데노바이러스 벡터, 아데노-연관 바이러스 벡터, 백시니아바이러스 벡터, 폭스바이러스 벡터, 단순포진 바이러스 벡터 및 파지미드 벡터로 구성된 군에서 선택되는 하나 이상일 수 있다. 바람직하게는, 바이러스 벡터는 아데노-연관 바이러스 벡터일 수 있다. 또한, 바이러스 벡터는 SIN 렌티바이러스 벡터, 레트로바이러스 벡터, 폼(foamy) 바이러스 벡터, 아데노바이러스 벡터, 아데노-연관 바이러스(AAV) 벡터, 하이브리드 벡터 및/또는 플라스미드 트랜스포존(예를 들어, 슬리핑 뷰티 트랜스포존 시스템) 또는 인테그라제 기반 벡터 시스템을 포함하지만 이들로 제한되지 않는다.
다른 구현예에서는, 벡터는 비-바이러스 벡터일 수 있다. 구체적으로, 비-바이러스 벡터는 플라스미드, 네이키드 DNA, DNA 복합체, mRNA(전사물) 및 앰플리콘(amplicon)으로 구성된 군에서 선택되는 하나 이상일 수 있으나, 이에 제한되지 않는다. 예컨대, 플라스미드는 pcDNA 시리즈, pSC101, pGV1106, pACYC177, ColE1, pKT230, pME290, pBR322, pUC8/9, pUC6, pBD9, pHC79, pIJ61, pLAFR1, pHV14, pGEX 시리즈, pET 시리즈, 및 pUC19으로 이루어진 군에서 선택된 것일 수 있다.
용어 "네이키드 DNA"는 발현을 위해서 적절한 배향으로 적합한 발현 벡터(예를 들어, 플라스미드) 내에 클로닝된 단백질, 예컨대, 본 발명의 Cas12f1 또는 이의 변이체를 암호화하는 DNA(예를 들어, 히스톤이 없는 DNA)를 지칭한다.
용어 "앰플리콘"은 핵산에 대해 이용되는 경우, 핵산 복제 산물을 의미하며, 여기서 산물은 핵산의 적어도 일부 뉴클레오티드 서열과 동일하거나 상보적인 뉴클레오티드 서열을 갖는다. 예를 들어, 앰플리콘은 폴리머라제 확장, 폴리머라제 연쇄 반응(PCR), 롤링 서클 증폭(RCA), 다중 변위 증폭(MDA), 결찰 확장, 또는 결찰 연쇄 반응을 포함하는, 주형으로서 핵산 또는 이들의 앰플리콘을 이용하는 다양한 임의의 증폭 방법에 의해 생성될 수 있다. 앰플리콘은 특정 뉴클레오티드 서열의 단일 복사체(예를 들어, PCR 산물) 또는 뉴클레오티드 서열의 다중 사본(예로서 RCA의 콘카타머 산물)을 갖는 핵산 분자일 수 있다.
본 명세서에 개시된 벡터는 선형(linear) 또는 원형(circular) 벡터 형태로 설계될 수 있다. 벡터가 선형 벡터인 경우, 선형 벡터 서열이 종결 신호를 따로 포함하지 않더라도, 그 3'-말단에서 RNA 전사가 종결된다. 그러나 벡터가 원형 벡터인 경우, 상기 원형 벡터 서열이 종결 신호를 따로 포함하지 않는다면, RNA 전사가 종결되지 않게 된다. 그러므로 원형 벡터를 사용하는 경우에는 의도한 대상을 발현하기 위해서는 각 프로모터 서열과 관련된 전사 인자에 대응하는 종결 신호가 포함되어야 한다.
일 구현예에서, 바이러스 벡터 또는 비-바이러스 벡터는 리포좀, 폴리머 나노파티클(예컨대, 지질 나노파티클), 수중유 나노에멀젼 또는 이들의 조합과 같은 전달 시스템에 의해 전달될 수 있거나, 바이러스 형태로 전달될 수 있다.
VII. 재조합 바이러스
본 발명의 또 다른 태양에 따르면, 본 발명에서 제공되는 벡터 시스템에 의해 제조된 재조합 바이러스 또는 재조합 바이러스 입자가 제공된다.
일 구현예에서, 상기 바이러스 벡터는 예를 들어, 레트로바이러스 벡터, 렌티바이러스 벡터, 아데노바이러스 벡터, 아데노 연관 바이러스 벡터, 백시니아바이러스 벡터, 폭스바이러스 벡터, 단순포진 바이러스 벡터 및 파지미드 벡터로 구성된 군에서 선택되는 하나 이상의 바이러스 벡터일 수 있다. 바람직하게, 상기 바이러스 벡터는 아데노 연관 바이러스 벡터일 수 있다.
다른 구현예에서, 상기 바이러스는 레트로바이러스, 렌티바이러스, 아데노바이러스, 아데노-연관 바이러스, 백시니아바이러스, 폭스바이러스, 단순포진 바이러스 및 파지로 구성된 군에서 선택될 수 있다.
또 다른 구현예에서, 상기 파지는 λgt4λB, λ-charon, λΔz1, 및 M13으로 이루어진 군에서 선택된 것일 수 있다.
유전자 편집 시스템을 바이러스, 특히 아데노 연관 바이러스(AAV)를 통해 표적 세포 또는 표적 부위로 효율적으로 전달하기 위해서는 편집 시스템의 구성요소를 모두 암호화하는 뉴클레오티드 서열의 크기를 AAV의 패키징 한계인 4.7 kb 내로 설계하는 것이 중요하다. 본 발명의 엔지니어링된 Cas 단백질 및 (엔지니어링된) 가이드 RNA는 그 크기가 매우 작기 때문에 추가적인 성분을 더 포함하더라도 AAV 전달체 내에 충분히 패키징될 수 있다는 이점이 있다.
VIII. 유전자 편집 시스템(CRISPR/Cas 시스템) 또는 조성물
본 발명의 또 다른 태양에 따르면, (i) 하나 이상의 엔지니어링된 Cas12f 단백질 또는 상기 단백질을 암호화하는 핵산 및 (ii) 하나 이상의 가이드 RNA 또는 상기 가이드 RNA를 암호화하는 핵산을 포함하는 CRISPR/Cas 시스템 또는 조성물이 제공된다.
일 구현예에서, 엔지니어링된 Cas12f 단백질은 본원에 개시되고 위에서 상세히 기술된 엔지니어링된 Cas12f 단백질 중 어느 하나일 수 있다.
다른 구현예에서, 엔지니어링된 Cas12f 단백질은 본원에 개시되고 위에서 상세히 기술된 융합단백질의 형태로 존재할 수 있다.
또 다른 구현예에서, 가이드 RNA는 본원에 개시되고 위에서 상세히 기술된 야생형 가이드 RNA 또는 엔지니어링된 가이드 RNA 중 어느 하나일 수 있다.
또 다른 구현예에서, 시스템 또는 조성물은 본원에 개시된 바와 같은 엔지니어링된 Cas 단백질을 암호화하는 핵산 및 본원에 개시된 바와 같은 핵산을 암호화하는 핵산을 포함할 수 있다. 핵산에 관해서는 상술한 바를 참조한다.
또 다른 구현예에서, 엔지니어링된 Cas12f 단백질 및 가이드 RNA는 복합체 형태, 예를 들어, 리보뉴클레오단백질 입자(ribonucleoprotein particle, RNP) 형태로 포함될 수 있다. 상기 복합체는 가이드 RNA 및 두 개의 Cas12f1 또는 이의 변이체 단백질을 포함할 수 있다(문헌 [Satoru N. Takeda et al., Molecular Cell, 81, 1-13, (2021)] 참조). 상기 복합체는 가이드 RNA와 Cas12f1 분자 사이의 상호작용에 의해 형성될 수 있다.
또 다른 구현예에서, 조성물은 약학 조성물일 수 있다. 일 구현예에서, 약학 조성물은 약학적으로 허용되는 담체 또는 부형제를 추가로 포함할 수 있다. 다른 구현예에서, 약학 조성물은 투여 방식에 따라 제형화될 수 있다. 약학적으로 허용되는 담체 또는 부형제, 제형화 방법에 대해서는 관련 기술분야에 잘 알려져 있는 물질 및/또는 방법을 사용할 수 있다.
일 구현예에서, 조성물은 유전자 도입 촉진제를 포함할 수 있다. 유전자 도입 촉진제는 포리아니온, 폴리 양이온(폴리-L-글루탐산(LGS)을 포함하고), 또는 지질일 수 있다.
일 구현예에서, 상술한 벡터 시스템에 포함되는 하나 이상의 벡터를 포함하는 조성물은 유전자 도입 촉진제, 예를 들면 지질, 리포좀(레시틴 리포좀, 또는 해당 기술 분야에서 공지된 다른 리포좀을 포함하고), DNA-리포좀 혼합물, 칼슘 이온, 바이러스 단백질, 포리아니온, 폴리 양이온, 또는 나노 입자, 또는 다른 공지된 유전자 도입 촉진제를 포함할 수 있다. 바람직하게는, 유전자 도입 촉진제는 포리아니온, 폴리 양이온(예컨대, 폴리-L-글루탐산(LGS)) 또는 지질이다.
IX. 핵산 변경 방법
본 발명의 또 다른 태양에 따르면, 상술한 바와 같은 본 발명의 엔지니어링된 Cas 단백질 및 가이드 RNA를 세포와 접촉시키거나 상술한 바와 같은 본 발명의 시스템 또는 조성물, 상술한 바와 같은 본 발명의 벡터 시스템, 또는 상술한 바와 같은 본 발명의 재조합 바이러스를 세포와 접촉시키는 것을 포함하는 세포 내 핵산의 변경 방법이 제공된다. 엔지니어링된 Cas 단백질은 가이드 RNA와 복합체를 형성하고 이 복합체가 표적 핵산에 결합하면 표적 핵산이 변경되게 된다.
일 구현예에서, 세포 내 핵산의 변경은 세포 내 표적 핵산을 편집하는 것을 포함한다.
일 구현예에서, 세포 내 핵산의 변경은 세포 내 표적 핵산의 발현을 조절하는 것을 포함한다.
일 구현예에서, 세포 내 핵산의 변경은 세포 내 표적 핵산을 표적화하는 것을 포함한다.
일 구현예에서, 접촉은 시험관 내(in vitro), 생체 내(in vivo) 또는 생체 외(ex vivo)에서 수행될 수 있다.
일 구현예에서, 세포는 식물세포, 비인간 동물 세포 또는 인간 세포일 수 있다. 또한, 세포는 진핵 세포 또는 원핵 세포일 수 있다.
이하, 본 발명을 하기 실시예에 의하여 더욱 상세하게 설명한다. 단, 실시예는 본 발명을 예시하기 위한 것일 뿐, 본 발명의 범위가 이들만으로 한정되는 것은 아니다.
실시예 1. 실험방법 및 재료
실시예 1.1. Cas12f1 단백질의 제조
인간 세포내 발현을 위해 CWCas12f 유전자를 코돈-최적화시키고(서열번호 6), 코돈-최적화된 서열을 벡터 제조를 위해 합성하였다. 최종적으로 Cas12f1 단백질을 암호화하는 서열에는 chicken β-actin 프로모터, 5'- 및 3'-말단의 핵 위치 신호 서열(nuclear localization signal sequence), 자가 절단 T2A 펩타이드로 연결된 eGFP를 인코딩하는 서열이 부가되었다.
(엔지니어링된) CWCas12f 가이드 RNA를 암호화하는 주형 DNA를 합성하고, pTwist Amp plasmid vector(Twist Bioscience)에 클로닝하였다. 필요한 경우, U6-상보적 정방향 프라이머 및 프로토스페이서-상보적 역방향 프라이머를 사용하여, 상기 벡터를 상기 가이드 RNA 암호화 서열의 증폭을 위한 주형으로 사용하였다.
Gibson assembly를 사용하여, 상기 코돈-최적화된 CWCas12f 유전자를 포함하는 벡터에 상기 가이드 RNA를 암호화하는 핵산을 클로닝함으로써, 엔지니어링된 CRISPR/CWCas12f 시스템에 대한 벡터를 제조하였다.
실시예 1.2. Cas12f1 PAM 변이체의 구성
CWCas12f PAM 변이체의 구성은 부위-지정 돌연변이 유발에 의해 수행하였다. CWCas12f PAM 변이체를 제조하기 위하여, Un1Cas12f1의 구조적 특성에 기초하여 CWCas12f에서 다음의 후보 아미노산을 선택했다: S170, Y174, A184, S188, R191, Q225, Y230, V271 및 Q272. 각 후보 부위를 가능한 모든 19개 아미노산으로 돌연변이시켰다. 각 PAM 변이체 후보는 도 1b에 도시된 바와 같이, PAM 라이브러리 플라스미드 벡터(실시예 1.8) 및 gRNA와 함께(실시예 1.6) 최종 혼합물로 배양되어 PCR 앰플리콘으로 제작되었다. 최종 PCR 산물은 Illumina iSeq 100을 사용하여 150-bp 페어드-엔드 시퀀싱(paired-end sequencing)에 적용하였다. 실시예 1.10의 CWCas12f 변이체의 PAM 선호도 결정 방법에 따라 변경된 PAM에 대한 시험관내 dsDNA 절단 활성과 관련하여 시험하였다.
PAM 변이체 후보를 1) 높은 총 시퀀싱 리드(reads) 및 2) 특정 PAM에 대한 높은 시퀀싱 리드 비율의 기준에 대해 선택하였다. 시험관내 절단 및 딥-시퀀싱 분석은 PAM 변이체 후보의 스크리닝을 가능하게 하였다. 구체적으로, 다양한 PAM 서열에 대한 절단 특성은 특정 PAM 서열에 대한 리드(reads)의 백분율을 집계함으로써 조사하였다.
PCR 증폭은 Q5 Hot Start high-fidelity DNA polymerase(NEB)를 사용하여 수행하였고, PCR 산물들은 KLD Enzyme Mix(NEB)를 사용하여 라이게이션했다. 라이게이션된 산물들은 DH5α 대장균 세포(E. coli)에 형질전환시켰다. 돌연변이 유발은 생어(Sanger) 시퀀싱 분석으로 확인하였다. 변형된 플라스미드 벡터는 NucleoBond Xtra Midi EF 키트(MN)를 사용하여 정제하였다.
실시예 1.3. Dead Cas12f1 단백질의 제조
Un1Cas12f1 단백질의 촉매 활성에 관여하는 아미노산 잔기에 대한 정보를 바탕으로 CWCas12f에 돌연변이(D354A, E450A, R518A 및 D538A)를 유발시켜 4개의 촉매 비활성 CWCas12f돌연변이체(dCWCas12f(dTnpB))를 구성하였다. 이들 dCWCas12f 돌연변이체는 염기 변화를 포함하는 프라이머에 의한 부위-지정 돌연변이 유발에 의해 생성하였다. 각각의 dCWCas12f를 DNA 절단 활성은 완전히 제거되었지만 유전자 표적 능력은 보존할 수 있는지 여부에 대해 시험하였다.
시험관내(In vitro) DNA 분해 분석 및 HEK293T 세포의 NLRC4 유전자좌에서의 인델 효율 분석을 진행하였다. 간략히 설명하면, sgRNA에 대한 프로토스페이서 및 PAM 서열을 포함하도록 플라스미드 벡터를 구성하였다. 5 마이크로그램의 플라스미드 벡터를 1 마이크로그램의 gRNA 및 2 마이크로그램의 CWCas12f 또는 dCWCas12f와 함께 37℃에서 1시간 동안 인큐베이션하였다. 절단된 벡터 샘플을 0.8% 아가로스 겔에서 분석하였다. 그 결과, 모든 dCWCas12f가 엔도뉴클레아제 활성이 없음(null endonuclease activity)을 확인하였다(도 2a 및 도 2b). 상기 돌연변이체들 중에서, 이전 실험을 기반으로 dCWCas12f(D354A)를 선택하였다.
실시예 1.4. 아데닌 염기 편집기 융합 단백질의 제조
각 실험에 사용할 아데닌 염기 편집기(Adenine Base Editor, ABE) 융합 단백질을 암호화하는 핵산 서열을 특정한 후, 다음과 같은 방법으로 융합 단백질을 제조했다: 상기 암호화 핵산 서열을 pMAL-c2 플라스미드 벡터에 클로닝하여 복제시켰다. 상기 플라스미드 벡터를 이용하여 BL21(DE3) E. coli를 형질전환시켰다. 상기 형질전환된 E. coli 콜로니를 광학 밀도가 0.7에 도달할 때까지 37℃의 LB 배지에서 성장시켰다. 상기 형질전환된 E. coli는 0.1 mM 이소프로필티오-β-D-갈락토시드의 존재 하에 18℃에서 하룻밤(overnight) 동안 인큐베이션하였다.
그 후, 상기 형질전환된 E. coli를 3,500g에서 30분간 원심분리하여 수집하였다. 수집된 형질전환된 E. coli를 20 mM Tris-HCl(pH 7.6), 500 mM NaCl, 5 mM β-머캅토에탄올, 5 % 글리세롤에 재현탁시켰다. 상기 재현탁된 E. coli를 용해시키고, 초음파 처리를 통하여 파쇄시켰다. 파쇄된 E. coli가 포함된 샘플을 15,000g로 30분 간 원심분리한 후, 상층액을 0.45 ㎛ 주사기 필터(Millipore)를 통해 여과하였다. 여과된 상층액 내에 존재하는 아데노신 탈아미노화효소와 결합된 dCWCas12f 단백질을 FPLC 정제 시스템(KTA Purifier, GE Healthcare)을 사용하여, Ni2+-친화성 컬럼에 로딩하였다. 상기 로딩된 dCWCas12f 단백질을 80-400 mM 이마다졸, 20 mM Tris-HCl(pH 7.5) 구배에서 용출시켰다.
상기 용출된 단백질을 TEV 프로테아제로 16시간 동안 처리하였다. 상기 분리된 단백질을 0.15-1.6 M NaCl 선형 농도구배의 Heparin 컬럼에서 정제하였다. Heparin 컬럼에서 정제된 재조합 Cas12f1 단백질을 20 mM Tris pH 7.6, 150 mM NaCl, 5 mM β-머캅토에탄올, 5 % 글리세롤에 대해 투석시켰다. 상기 투석된 단백질을 MBP 컬럼을 통과시켜 정제한 후, 0.5-1.2 M NaCl의 선형 구배로 monoS 컬럼(GE Healthcare) 또는 EnrichS에서 재정제하였다. 상기 재정제된 단백질들을 모아, 20 mM Tris pH 7.6, 150 mM NaCl, 5 mM β-머캅토에탄올, 5 % 글리세롤에 대해 투석시켜 초소형 염기교정(Base editing) 구조물을 정제하였다. 상기 생산된 단백질의 농도는 소 혈청 알부민(BSA)을 표준으로 사용하여 Bradford 정량법을 이용하여 정량하여 coomassie blue-stained SDS-PAGE 겔에서 전기영동법으로 측정하였다.
실시예 1.5. 예시적인 CWCas12f 변이체
본 실시예에서 사용되는 CWCas12f 변이체(PAM 변이체, 프로토스페이서 돌출 유도 변이체 및 촉매 비활성 변이체)는 서열번호 1의 야생형 CWCas12f 단백질에서 특정 아미노산이 치환된 형태이며, 하기의 표 8에 나타내었다.
변이체 종류 돌연변이 위치 구분 서열번호
변이체 1 D354A CWCas12f의 촉매 비활성 변이체 223
변이체 2 E450A CWCas12f의 촉매 비활성 변이체 224
변이체 3 R518A CWCas12f의 촉매 비활성 변이체 225
변이체 4 D538A CWCas12f의 촉매 비활성 변이체 226
변이체 5 I159W 프로토스페이서 돌출 유도 변이체 227
변이체 6 S164Y 프로토스페이서 돌출 유도 변이체 228
변이체 7 I159W/S164Y 프로토스페이서 돌출 유도 변이체 229
변이체 8 S170C PAM 변이체 230
변이체 9 S170T PAM 변이체 231
변이체 10 S170Y PAM 변이체 232
변이체 11 Y174H PAM 변이체 233
변이체 12 Y174K PAM 변이체 234
변이체 13 Y174T PAM 변이체 235
변이체 14 A184G PAM 변이체 236
변이체 15 A184H PAM 변이체 237
변이체 16 A184N PAM 변이체 238
변이체 17 A184R PAM 변이체 239
변이체 18 A184S PAM 변이체 240
변이체 19 A184W PAM 변이체 241
변이체 20 S188H PAM 변이체 242
변이체 21 S188K PAM 변이체 243
변이체 22 S188N PAM 변이체 244
변이체 23 S188Q PAM 변이체 245
변이체 24 S188R PAM 변이체 246
변이체 25 R191K PAM 변이체 247
변이체 26 R191Q PAM 변이체 248
변이체 27 R191W PAM 변이체 249
변이체 28 Q225F PAM 변이체 250
변이체 29 Q225R PAM 변이체 251
변이체 30 Q225T PAM 변이체 252
변이체 31 Y230C PAM 변이체 253
변이체 32 Y230H PAM 변이체 254
변이체 33 Y230K PAM 변이체 255
변이체 34 Y230R PAM 변이체 256
변이체 35 Y230S PAM 변이체 257
변이체 36 Y230T PAM 변이체 258
변이체 37 V271T PAM 변이체 259
변이체 38 Q272C PAM 변이체 260
변이체 39 Q272K PAM 변이체 261
변이체 40 Q272R PAM 변이체 262
변이체 41 S188Q/Q272K PAM 다중 변이체 263
변이체 42 S188K/Q272K PAM 다중 변이체 264
변이체 43 S188Q/R191K/Q272K PAM 다중 변이체 265
변이체 44 Y174A PAM 변이체 345
변이체 45 Y174E PAM 변이체 346
변이체 46 Y174N PAM 변이체 347
변이체 47 Y174R PAM 변이체 348
변이체 48 A184T PAM 변이체 349
변이체 49 S188G PAM 변이체 350
변이체 50 S188S PAM 변이체 351
변이체 51 S188T PAM 변이체 352
변이체 52 S188V PAM 변이체 353
변이체 53 R191G PAM 변이체 354
변이체 54 R191H PAM 변이체 355
변이체 55 Y230A PAM 변이체 356
변이체 56 Y230I PAM 변이체 357
실시예 1.6. 가이드 RNA의 제조
각 실험에 사용할 가이드 RNA의 핵산 서열을 특정한 후, 다음과 같은 방법으로 가이드 RNA를 제조했다:
엔지니어링된 CWCas12f 싱글 가이드 RNA(sgRNA)는 이를 제조하기 위해 미리 설계한 가이드 RNA를 화학적으로 합성하여 가이드 RNA를 제조한 후, 미리 설계한 가이드 RNA 서열 및 T7 프로모터 서열을 포함하는 PCR 앰플리콘을 제조했다.
엔지니어링된 CWCas12f sgRNA의 3'-말단에 대한 U-rich tail 연결은 서열-변형된 프라이머 및 CWCas12f 가이드 RNA 플라스미드 벡터의 존재 하에서 Pfu PCR Master Mix5(Biofact)를 사용하여 수행하였다. 상기 PCR 앰플리콘은 HiGene™ Gel & PCR Purification System(Biofact)을 사용하여 정제하였다.
또한, 상기 엔지니어링된 CWCas12f sgRNA의 엔지니어링된 스캐폴드 영역 중 제2 영역, 제4 영역 및 제5 영역의 변형은 ApoI 및 BamHI 제한 효소를 사용하여 선형화된 가이드 RNA를 암호화하는 벡터에 변형된 서열을 포함하는 합성 올리고뉴클레오타이드를 클로닝하여 수행하였다.
상기 엔지니어링된 CWCas12f sgRNA의 엔지니어링된 스캐폴드 영역 중 제1 영역의 변형은 tracrRNA의 5'-말단 부분을 표적으로 하는 정방향 프라이머및 U6 프로모터 영역을 표적으로 하는 역방향 프라이머를 사용하여 원형(canonical) 또는 엔지니어링된 주형 플라스미드 벡터의 PCR 증폭에 의해 수행하였다.
상기 PCR 증폭은 Q5 Hot Start high-fidelity DNA polymerase(NEB)에 의해 수행하였으며, PCR 산물은 KLD Enzyme Mix(NEB)를 사용하여 라이게이션하였다. 상기 라이게이션된 PCR 산물은 DH5α E.coli 세포로 트랜스펙션시켰다. 생어 시퀀싱 분석에 의해 변이를 확인하였다.
변형된 플라스미드 벡터는 NucleoBond Xtra Midi EF kit(MN)를 사용하여 정제하였다. 정제된 플라스미드 1 마이크로그램을 T7 RNA polymerase(NEB) 및 NTPs(Jena Bioscience)를 사용한 mRNA 합성의 주형으로 사용하였다. 상기 제조된 엔지니어링된 CWCas12f 가이드 RNA를 Monarch RNA cleanup kit(NEB)를 사용하여 정제하고, 극저온 바이알(cryogenic vials)에 분취하여 액체 질소에 보관하였다.
가이드 RNA 및 엔지니어링된 가이드 RNA 앰플리콘을 제조하기 위해, KAPA HiFi HotStart DNA polymerase(Roche) 또는 Pfu DNA polymerase(Biofact)를 이용하여, 원형 가이드 RNA의 주형 DNA 플라스미드 및 엔지니어링된 가이드 RNA의 주형 DNA 플라스미드를 U6-상보적인 정방향 프라이머 및 프로토스페이서 서열 상보적인 역방향 프라이머를 사용하여 PCR 증폭을 수행하였다. 상기 PCR 증폭 결과물을 Higene™ Gel & PCR purification system(Biofact)를 사용하여 정제하여 가이드 RNA 및 엔지니어링된 가이드 RNA 앰플리콘을 수득하였다.
상기 PCR 앰플리콘을 주형으로, NEB T7 polymerase를 사용하여 시험관 내 전사를 수행했다. 상기 시험관 내 전사 수행 결과물에 NEB DNase I을 처리한 후 Monarch RNA Cleanup Kit(NEB)를 이용하여 정제한 후, 가이드 RNA를 수득했다. 이후, 미리 설계한 가이드 RNA 서열 및 T7 프로모터 서열을 포함하는 플라스미드 벡터를 Tblunt 플라스미드 클로닝 방법에 따라 제조했다.
상기 벡터를 T7 프로모터 서열을 포함하는 가이드 RNA 서열 양 끝을 절단(double cut)하여 정제한 후, 그 결과물에 NEB T7 polymerase를 사용하여 시험관 내 전사를 수행했다. 상기 시험관 내 전사 수행 결과물에 NEB DNase I를 처리한 후, Monarch RNA Cleanup Kit(NEB)를 이용하여 정제한 후, 가이드 RNA를 수득했다.
이하 실시예에 사용한 가이드 RNA 서열은 서열번호 13의 Canonical sgRNA, 서열번호 151의 ge3.0, 서열번호 152의 ge4.0 및 서열번호 153의 ge4.1을 이용하였다. 상기 가이드 RNA는 5'-스캐폴드-스페이서-U-rich tail-3' 구조이고, 상기 스페이서는 각 실시예의 프로토스페이서와 동등한 RNA 서열(DNA 서열의 T를 U로 치환한 것)로 설계된다.
실시예 1.7. 리보핵산단백질(ribonucleoprotein; RNP) 입자 제조
각 실험에 사용할 엔지니어링된 CWCas12f 단백질(CWCas12f PAM 변이체, Dead CWCas12f 단백질 및/또는 dCWCas12f-아데닌 염기 편집기 융합 단백질) 및 가이드 RNA의 조합을 특정한 후, 다음과 같은 방법으로 RNP 입자를 제조했다:
실시예 1.1 내지 실시예 1.4에 의해 제조된 엔지니어링된 CWCas12f 단백질 300 nM 및 실시예 1.6에 의해 제조된 가이드 RNA를 900 nM을 10분 동안 실온에서 인큐베이션하여 리보핵산단백질 입자(RNP)를 제조하였다.
실시예 1.8. 플라스미드 벡터 구성
인간 코돈-최적화 CWCas12f 유전자를 합성하고, CWCas12f-코딩 서열을 Cas12f1 서열로 대체함으로써 pCas12f-2A-EGFP 벡터(Addgene)에 클로닝했다. 그런 다음 다양한 버전의 Tad 서열을 NEBuilder HiFi DNA 어셈블리 마스터 믹스(New England BioLabs)를 사용하여 10개 내지 40개 아미노산 길이의 링커로 CWCas12f의 5'- 또는 3'-영역에서 융합했다. 가이드 RNA 서열은 Mlul 제한 효소를 사용하여 CMV 프로모터의 5'-업스트림에 U6 프로모터 하에 위치시켰다. 37℃에서 1시간 동안 BbsI 제한 효소로 벡터를 분해하여 스페이서 서열을 클로닝했다. 세포 트렌스팩션을 위한 플라스미드 벡터는 Nucleobond Xtra midi(MACHEREY-NEGEL)를 사용하여 준비하였다. 모든 벡터 구성물은 생어 시퀀싱을 사용하여 서열 검증하였다.
실시예 1.9. PAM 라이브러리 구성
프로토스페이서(5'-CACACACACAGTGGGCTACC-3') 및 PAM 라이브러리 서열(NNNN)이 포함된 올리고뉴클레오티드를 Bionics에 의뢰하여 합성하고 All in One PCR 클로닝 키트(Biofact)를 사용하여 PUC19 벡터에 클로닝했다. 각 클로닝된 벡터를 사용하여 전기천공기(Bio-Rad)로 DH5α E. coli 세포를 형질전환시켰다. 각각의 형질전환체 콜로니는 배양물이 0.6의 광학 밀도에 도달할 때까지 LB 배지(broth)에서 37℃에서 성장시켰다. 세포를 3,500 g에서 15분 동안 원심분리하여 수집했다. 플라스미드 벡터는 플라스미드 제조 키트(Biofact)를 사용하여 제조하였다. 서열은 생어 시퀀싱 분석을 사용하여 검증하였다. 각각의 벡터를 265 nm에서 분광광도계로 정량화하고, 동일한 몰비로 혼합하여 256개의 PAM 라이브러리 벡터를 제조하였다(도 1a).
실시예 1.10. PAM 선호도 결정
실시예 1.2에서 제작한 CWCas12f PAM 변이체를 암호화하는 플라스미드 벡터를 사용하여 BL21(DE3) E. coli 세포를 형질전환시켰다. 각각의 형질전환체 콜로니는 배양물이 0.6의 광학 밀도에 도달할 때까지 LB 배지에서 37℃에서 성장시켰다. 세포를 0.1 mM 이소프로필티오-β-D 갈락토시드의 존재 하에 18℃에서 밤새 인큐베이션한 다음, 3,500g에서 15분 동안 원심분리하여 수집했다. 세포를 20 mM Tris-HCl(pH 7.6), 500 mM NaCl, 5 mM β-머캅토에탄올, 5% 글리세롤에 재현탁시켰다. 세포 용해물은 초음파 처리 후 15분 동안 15,000g에서 원심분리하여 준비했다. CWCas12f 단백질을 Ni2+-친화도 컬럼 및 Heparin 컬럼 상에서 정제하였다. 정제된 플라스미드 1 μg과 4 mM NTP(Jena Bioscience)의 존재 하에 T7 RNA 폴리머라제(NEB)를 사용하여 가이드 RNA를 합성하고, Monarch RNA cleanup 키트(NEB)를 사용하여 정제하고, 극저온 바이알에 분취하여 액체 질소에 보관하였다. 정제된 CWCas12f(5μg), gRNA(1μg) 및 PAM 라이브러리 플라스미드 벡터(1μg)를 5 mM Tris-HCl(pH7.5), 25 mM NaCl, 5 mM MgCl2, 1 mM 디티오트레이톨 완충액에서 최종 혼합물 100 μl로 혼합하고, 37℃에서 2시간 동안 인큐베이션했다. 인큐베이션된 샘플을 NEBNext Ultra II End Repair/dA-Tailing Module(NEB, E7546)을 사용하여 20℃에서 30분 동안 말단 복구하고, 65℃에서 30분 동안 인큐베이션하여 반응을 종료시켰다. 실온에서 15분 동안 100 mg/ml의 RNase A로 처리한 후, HiGene™ Gel&PCR 정제 키트(Biofact)를 사용하여 플라스미드 DNA를 정제하였다. 정제된 DNA(10 μl당 200 ng)는 LigaFast Rapid DNA 라이게이션 키트(Promega)를 사용하여 어댑터 DNA(5'-AGATCGGAAGAGCACACGTCTGAACTCCAGTCAC-3')(200 ng)와 라이게이션했다. DNA는 KOD One™ PCR Master Mix(TOYOBO)를 사용하여 정방향 프라이머(5'-GTAAAACGACGGCCAGT-3') 및 역방향 프라이머(5'-GTGACTGGAGTTC-3')를 사용하여 PCR 증폭시켰다. 생성된 PCR 앰플리콘을 Illumina TruSeq HT 이중 인덱스로 라벨링하였다. 최종 PCR 산물은 Illumina iSeq 100을 사용하여 150-bp 페어드-엔드 시퀀싱(paired-end sequencing)에 적용하였다(도 1b).
실시예 1.11. PAM-돌연변이체 세포주 구축
CWCas12f PAM 변이체의 상대적 인델 효율을 측정하기 위하여 PAM-돌연변이체 세포주를 구축하였다. HEK293T 세포(LentX-293T, Takara)를 인큐베이터(37℃, 5% CO2 분위기)에서 10% 열-불활성화 소태아혈청(VWR) 및 1% 페니실린-스트렙토마이신(WELGENE)이 보충된 DMEM(Corning)에 유지시켰다. 다음, PAM-변형 올리고뉴클레오티드(90-mer)를 공여자 DNA로 합성하고, 상동지정복구(HDR)를 통해 NLRC4 유전자좌(5'-TTTAGAGGGAGACACAAGTTGATA-3')에서 서로 다른 PAM 돌연변이를 각각 보유하는 서로 다른 HEK293T 클론을 준비하였다(도 3). 공여자 DNA(서열번호 196)는 Cas9 및 CWCas12f의 PAM 서열에 대하여 변경된 PAM 서열을 가지며, PAM 서열을 기준으로 48-nt 왼쪽 상동 암(arm)과 44-nt 오른쪽 상동 암(arm)을 갖도록 설계되었다. 트랜스펙션을 위해, Neon 트랜스펙션 시스템(Invitrogen)을 사용하여 SpCas9 플라스미드 벡터 4 ㎍를 공여자 DNA 4 ㎍와 함께 4 X 105 개의 HEK293T 세포에 트랜스펙션시켰다. 전기천공 조건은 다음과 같았다: 1,300 V, 20 mA, 2회 펄스. 트랜스펙션 3일 후, 단일 세포를 24-웰 플레이트(Corning)의 각 웰에 넣고 3주 동안 성장시켰다. PureHelix 게놈 DNA 제조 키트(NanoHelix)를 사용하여 각 콜로니 세포로부터 게놈 DNA를 준비했다. PAM 함유 영역은 제조업체의 지침에 따라 KOD One™ PCR Master Mix(TOYOBO)를 사용하여 증폭시켰다. PAM 서열은 Illumina iSeq 100을 사용하여 딥 시퀀싱으로 검증하였다.
실시예 1.12. 세포 배양 및 트랜스펙션
HEK293T(LentX-293T, Takara) 세포를 10% 열-비활성화 FBS, 1% 페니실린/스트렙토마이신 및 0.1 mM 비-필수 아미노산들이 보충된 DMEM 배지에서, 37℃ 5% CO2 조건 하에서 배양하였다.
실시예 1.8에 의해 제조된 벡터의 세포 트랜스펙션을 위해, 1.0 x 105 HEK293T 세포를 트랜스펙션 1일 전에 분주하였다. 세포 트랜스펙션은 전기천공법(electroporation) 또는 리포펙션(lipofection)으로 수행하였다.
전기천공법의 경우, 상기 엔지니어링된 CWCas12f 단백질을 암호화하는 플라스미드 벡터 및 가이드 RNA를 암호화하는 DNA 각 2 내지 5 ㎍을 Neon transfection system (Invitrogen)을 사용해 4 X 105 HEK293T세포에 트랜스펙션시켰다.
리포펙션의 경우에는, 6 내지 15㎕ FuGene 시약(Promega)을 2 내지 5 ㎍의 엔지니어링된 CWCas12f 단백질을 암호화하는 플라스미드 벡터 및 1.5 내지 5 ㎍의 PCR 앰플리콘과 15 분 동안 혼합하였다. 상기 혼합물(300 ㎕)을 트랜스펙션 1일 전에 1 X 106 개의 세포가 플레이팅된 1.5 ml DMEM 배지에 첨가하였다. 상기 세포들을 상기 혼합물의 존재하에서 1 내지 10일 간 배양시켰다. 배양 후, 상기 세포들을 수집하고, 상기 세포의 게놈 DNA는 PureHelix™ 게놈 DNA 제조 키트(NanoHelix)를 사용하거나, Maxwell RSC Cultured cells DNA Kit(Promega)를 사용하여 수작업으로 분리하였다.
또한, 실시예 1.7에 의해 제조된 리보핵산단백질 입자(RNP)를 전기천공법 또는 리포펙션 방법을 통하여 트랜스펙션시킨 후, 1일 후 실시예 1.6에 따라 제조된 가이드 RNA를 전기천공법을 사용하여 트랜스펙션시켰다.
실시예 1.13. 인델(Indel) 효율 측정
HEK293T 세포를 리포펙션 방법을 사용하여 벡터로 트랜스펙션시켰다. HEK293T 세포를 트랜스펙션 1일 전에 웰당 1.0×105의 밀도로 24-웰 플레이트에 시딩하였다. 6 마이크로리터의 FuGene 시약(Promega)을 300 μl의 Opti-MEM 중의 1.5 μg의 CWCas12f-ABE 벡터 + 500 ng의 gRNA-인코딩 PCR 앰플리콘과 혼합하고 실온에서 15분 동안 인큐베이션했다. 혼합물을 각 웰에 첨가하고, 세포를 37℃ 및 5% CO2에서 3 내지 5일 동안 성장시켰다. 게놈 DNA는 Martin 용액(50mM Tris-HCl(pH 8.5), 1mM EDTA, 0.005% SDS 및 프로테이나제 K)을 사용하여 세포 용해에 의해 추출하였다. 딥 시퀀싱 분석을 위한 샘플은 3회 PCR 증폭에 의해 준비하였다. 1차 PCR의 경우, 총 부피 10 μl에서 표적화된 유전자좌를 증폭시키도록 설계된 표적-특이적 프라이머로 세포 용해물 1 μl를 증폭시켰다. 1차 PCR 산물 1 μl를 Illumina 어댑터 서열이 있는 프라이머로 증폭시켜 150bp 길이의 앰플리콘을 생성했다. 마지막으로, Illumina TruSeq HT 이중 인덱스를 PCR 반응에 의해 PCR 앰플리콘에 라벨링시켰다. 모든 PCR 반응은 제조업체의 지침에 따라 KOD One™ PCR Master Mix(TOYOBO)를 사용하여 수행하였다. 풀링된 앰플리콘은 PCR 정제 키트(BioFact)를 사용하여 컬럼 정제하였다. 최종 PCR 산물은 Illumina iSeq 100에 설치된 iSeq Control 소프트웨어(v.1.4.1.1700)를 사용하여 150bp 페어드 엔드 시퀀싱에 적용하였다. 인델 빈도는 https://github.com/ibs-cge/maund에서 이용 가능한 MAUND에 의해 계산하였다. 시험된 부위(표적 서열)는 하기의 표 9을 참조한다.
표적명
(부위)
유전자명 표적 서열 Chr 위치
부위 1 NLRC4 [TTTA]GAGGGAGACACAAGTTGATA chr2 32228455
부위 2 KRT1 [TTTG]CATCCCCAGGACACACACAC chr12 52679076
부위 3 Intergene [TTTA]AGAACACATACCCCTGGGCC chr5 148270685
부위 4 Intergene [TTTG]CACACACACAGTGGGCTACC chr3 120228353
부위 5 Intergene [TTTA]CAAAGACACTCACCCTGTTG chr4 54520536
부위 6 ErbB4 [TTTG]ATACAGAAATCCTAAATGG chr2 212124887
부위 7 EGFR [TGTG]TGAAACCATCTCTTCTTAAA chr7 55030839
부위 8 EGFR [TGTG]CTAAAGGAACACACGTCAGA chr7 55132671
부위 9 EGFR [TGTG]TGAAAGGGCTGGCACATCGC chr7 55189362
부위 10 EGFR [TCTG]CTAAATGCTGTCCCTCCCAC chr7 55109063
부위 11 EGFR [TCTG]TCAAAGCTAAACATTCAGGG chr7 55113727
부위 12 EPHA3 [TCTG]GTAAACCTAAAACGACCTCC chr3 89152307
부위 13 EPHA3 [TGTA]GCAAACCTGTACATGGCCCA chr3 89207445
부위 14 EPHA3 [TGTA]GTAAATTGTTATAGCAGCCC chr3 89262247
부위 15 EPHA3 [TGTA]GTAAATTGTTATAGCAGCCC chr3 89262270
실시예 1.14. 세포 내 염기 교정 활성 분석
표적 핵산 또는 표적 유전자의 표적 부위를 PCR로 증폭시킨 후, 최종 PCR 생성물을 타겟 딥 시퀀싱(targeted deep sequencing)을 사용하여 분석하였다.
KAPA HiFi HotStart PCR 키트(KAPA Biosystems #: KK2501)를 사용하여 라이브러리 생성을 위해 타겟 부위를 증폭시켰다. 이 라이브러리를 TruSeq HT Dual Index 시스템(Illumina)이 있는 MiniSeq을 사용하여 시퀀싱하였다.
실시예 1.15. 통계적 분석
통계적 유의성 테스트는 SigmaPlot 소프트웨어(버전 14.0)를 사용하여 양측 스튜던트 t-테스트(two-tailed Student’s t-test) 또는 웰치 t-테스트(Welch’s t-test)를 통해 수행하였다. 정규성이 만족되지 않을 경우, Mann-Whitney Rank Sum 테스트를 사용하였다. P 값 <0.05가 유의한 것으로 간주되었다. 바이올린 플롯의 데이터 포인트는 사분위수 범위(25번째 내지 75번째 백분위수)와 함께 전체 값 범위를 나타내며 평균값은 수평선으로 표시된다. 모든 점 및 막대 플롯의 오차 막대는 표준 편차를 나타내며 SigmaPlot(v. 14.0)으로 플로팅하였다. 샘플 크기는 통계적 방법에 기초하여 미리 결정하지 않았다.
실시예 2. 야생형 CWCas12f 단백질을 포함하는 시스템의 유전자 편집 활성
Un1Cas12f1 및 CWCas12f 단백질의 인델 효율
CWCas12f(TnpB) 단백질(서열번호 1)은 Un1Cas12f1(Cas12f1) 단백질(서열번호 5)의 5' 말단에 28개의 아미노산 잔기가 추가된 형태로서, 추가된 아미노산을 제외한 나머지 부분은 완벽하게 일치하는 뉴클레오티드 서열을 공유한다. CWCas12f를 실시예 1.6의 gRNA 제조 방법을 참조하여 원형 gRNA(canonical gRNA) 또는 엔지니어링 gRNA(예컨대, ge3.0, 4.0 및 4.1)와 함께 TaRGET 시스템을 구성하여 인델 효율을 확인하였다. HEK293T 세포에서 CWCas12f는 원형 gRNA와 함께 사용시 인델 형성 활성을 나타내지 않았다(도 4a의 왼쪽). 그러나, CWCas12f는 엔지니어링된(augment) gRNA와 함께 사용시 유의하게 증가된 인델 활성을 나타냈다(도 4a의 오른쪽). Un1Cas12f1과 CWCas12f 사이의 인델 수준에서의 약간의 표적 의존적 차이에도 불구하고, 상기 두 개의 단백질은 3개 유전자(NLRC4(부위 1), KRT1(부위 2) 및 Intergene(부위 3)에 대하여 사용된 엔지니어링된 gRNA의 종류에 따라 전체적인 절단 패턴이 거의 동일하게 나타났다. 이는 두 Cas12f1 뉴클레아제에 대한 엔지니어링된 RNA의 직교 사용(orthogonal use)을 나타낸다(도 4b). 여기서, 부위 1 내지 3에 관한 정보 및 후술하는 모든 부위에 관한 정보는 실시예 1.13의 표 10을 참조한다.
TaRGET, ISDra2TnpB 및 AmaTnpB의 인델 효율 비교
염기 편집 효율은 일반적으로 야생형 Cas 이펙터 단백질의 인델 효율에 의존하기 때문에 충분히 높은 인델 효율을 보이는 Cas 시스템으로 시작할 필요가 있다. 따라서, HEK293T 세포의 PCSK9 유전자좌에서 TaRGET, ISDra2TnpB 및 AmaTnpB의 인델 효율 비교하였다. 표적 부위는 각 PAM 서열의 차이로 인해 정확히 공유되지 않는다. 따라서, PCSK9 게놈 서열에서 엑손 5와 엑손 8 사이의 11개 부위를 대신 선택하였다. 그 결과, TaRGET 시스템은 ISDra2TnpB 및 AmaTnpB에 비해 상당히 높은 인델 효율을 보였다(도 5). 따라서, TaRGET 시스템이 소형 염기 편집 시스템 개발을 위한 플랫폼으로 사용하기에 적합하다고 결론내렸다.
CWCas12f 및 gRNA의 동종이량체 형성 확인
실시예 1.7의 리보핵산단백질 입자 제조 방법을 이용하여, CWCas12f 단백질을 gRNA와 함께 배양하여 리보핵산단백질 복합체를 생성하였다. 상기 리보핵산단백질 복합체는 Superdex 200 컬럼을 사용하여 크기 배제 크로마토그램으로 분석했다. sgRNA 결합 CWCas12f의 분자량은 약 194kDa로 추정되었으며, 이는 CWCas12f가 Un1Cas12f1과 유사하게 엔지니어링된 gRNA의 존재 하에서 동종이량체를 형성하였음을 시사한다(도 6a 및 도 6b).
실시예 3. CWCas12f PAM 변이체의 PAM 선호도 평가
CWCas12f의 시험관내 절단 분석을 수행한 결과, CWCas12f는 Un1Cas12f1과 동일하게 TTTR(TTTA 및 TTTG)에 대한 PAM 선호도를 나타냈으며, 이는 표적화 가능 부위가 상당히 제한적이라는 것을 의미한다(도 7). 따라서 비-TTTR PAM에 대한 선호도를 갖는 CWCas12f 돌연변이체를 개발하고 PAM 변이체를 더 넓은 범위의 부위에 적용하고자 하였다. 이를 위해, 도 1b에 도시된 바와 같이, PAM 서열에 다양성을 갖는 개별 PAM 클론(44=256 클론)을 확보한 다음 PAM 라이브러리 플라스미드 벡터(실시예 1.9), gRNA(실시예 1.6) 및 CWCas12f PAM 변이체(실시예 1.2)를 포함하는 CWCas12f PAM 변이체 후보에 대한 시험관 내 dsDNA 절단 활성을 시험하였다. 후보 아미노산인 S170, Y174, A184, S188, R191, Q225, Y230, V271 및 Q272에 대하여, 도 8a 내지 도 8i에 다양한 PAM 서열에 대한 각 돌연변이체의 선호도를 히트맵 테이블로 나타내었다. 여기서, 유망한 PAM 변이체를 "Total read" 행의 음영으로 표시하였다. 왼쪽 열은 대부분 PAM 변이체가 "TNTN" 서열 내에서 선호도를 보임을 나타낸다. 또한, 상기 후보 아미노산에 대하여, 추가 실험을 도 3에 제시된 절차에 의해 만들어진 NLRC4 유전자좌 표적의 PAM 돌연변이체 세포주(HEK293T)에 각각의 돌연변이체와 NLRC4를 타겟하는 sgRNA를 코-트랜스펙션하여 인델 분석을 진행하였고, 그 결과를 도 21a 내지 도 21p에 나타내었다.
상기 결과들로부터 확인된 유망한 PAM 변이체는 다음과 같았다: S170C(변이체 8), S170T(변이체 9), Y174H(변이체 11), A184H(변이체 15), A184S(변이체 18), S188H(변이체 20), S188K(변이체 21), S188N(변이체 22), S188Q(변이체 23), R191K(변이체 25), R191Q(변이체 26), R191W(변이체 27), Q225F(변이체 28), Q225T(변이체 30), Y230C(변이체 31), Y230S(변이체 35), Y230T(변이체 36), Q272K(변이체 39) 및 Q272R(변이체 40).
예를 들어, S170T, S188Q, S188H, Q225T, Q225F 및 Q272K 변이체는 높은 TGTA PAM 선호도를 나타냈다. 그 중, S188Q 변이체는 실시예 1.10에 따라 PAM 서열이 변경된 HEK293T 세포에서 시험했을 때 다른 변이체와 비교하여 TGTA PAM에 대해 가장 높은 인델 빈도를 보였다(도 9a). 마찬가지로, S188Q, S188K 및 R191K 돌연변이체는 각각 TCTG, TGTG 및 TTTC PAM에 대해 높은 인델 빈도를 보였다(도 9b 내지 도 9d). S188K 변이체는 더 넓은 PAM 특이성을 보였으며, 이 경우 TTTT 및 TTTC뿐만 아니라 TTTA 및 TTTG, 즉 TTTN에 대해 선호도를 보였다(도 10). 본 실시예에서 확인된 PAM 변이체들의 PAM 선호도를 하기 표 10에 나타내었다.
Cas 단백질 유형 아미노산 치환 변경된 PAM 선호도
Un1Cas12f1 wild type - TTTA, TTTG
CWCas12f wild type - TTTA, TTTG
변이체 8 S170C TTTT, TTTG, TTTA
변이체 9 S170T TATA, TTTA, TTTT, TTTG, TGTA, TCTA, TGGG, TTAG, TTCA, TCTG, TGTG, TGGG
변이체 11 Y174H TGTA, TTTG, TTTA
변이체 44 Y174A TGTA, TTTG, TTTA, CGAG
변이체 45 Y174E CGAG, TGTA, TTTG, GGCA
변이체 12 Y174K TGTA, TTGA, TTTG, TGGG
변이체 46 Y174N TGTA, TTTG, TTTA
변이체 47 Y174R TGTA, TTGA, TTTG
변이체 13 Y174T TGTA, TTTG, TTGA, CGAG
변이체 15 A184H TGTA, TGTG
변이체 16 A184N TTTC, TGTA, TGTG, TTTG
변이체 17 A184R TGTG, TGTA
변이체 18 A184S TCTG, TTTC, TGTA, TTTG, TTTA
변이체 48 A184T TTTG, TTTA, TGTA, TCTG
변이체 49 S188G TTTG, TCTT, GACC, CGGA
변이체 20 S188H TGTA, TGTG, TGCA
변이체 21 S188K TTTA, TTTG, TTTC, TGTA, TGTG, TGGG, TTAG
변이체 22 S188N TATC, TGTC, TCTC, TCTG, TTCG, TTTC, TTTG, TTTA, TGTG, TGTA, TTCA, TGCA
변이체 23 S188Q TATC, TTTT, TTTG, TTTC, TGTA, TGTC, TGTG, TCTT, TCTG, TCTC, TATA, TGGG, TTTA, TGCA
변이체 24 S188R TTTG, TTTC, TTTA, TGTG, TGTA, TTCG, TTCA, TGCA
변이체 50 S188S TTTG, TTTA, TGTA, TCTG, TTGA
변이체 51 S188T TTTG, TTTA, TGTA, TGTG, TCTG, TTGA, TTCG, TTCA, TTAG
변이체 52 S188V TTTG, TTTA, TGTA, TTGA, TTAG
변이체 53 R191G TTTA, TTTG, TTTC, TGTA
변이체 54 R191H TTTA, TTTG, TTTC, TTCA
변이체 25 R191K TTTC
변이체 26 R191Q TATT, TATC, TTTT, TTTG, TTTC, TGTA, TGTC, TCTT, TCTC, TTTA, TCTG, TGTG, TATG, TCTT
변이체 27 R191W TCTG
변이체 28 Q225F TATA, TATT, TGTA, TGTG, TCTT, TGGG, TTTG, TATG, TATA
변이체 30 Q225T TATA, TGTA, TGTG, TCTT, TGGG, TCTA, TGCA
변이체 55 Y230A TTTG, TTTA, TGTA, TCTG, TTCA
변이체 32 Y230H TCTC, TTTG, TTTA, TGTA, TCTG, TTCA
변이체 56 Y230I TTTG, TTTA, TGTA, TCTG, TATT
변이체 35 Y230S TTTG, TCTG, TATA, TTTA, TTCA
변이체 36 Y230T TGTA, TCTC
변이체 38 Q272C TCTA
변이체 39 Q272K TATT, TATG, TTTA, TTTT, TTTG, TGTC, TCTT, TCTC, TTAG, TTCA, TTTC, TGTA, TCTG, TCTT, TATA, TTCG
변이체 40 Q272R TTTC, TGTA, TCTG, TTTG, TTGA, TTCG, TTCA, TTAG
변이체 41 S188Q/Q272K TATC, TCTG, TCTA, TGTC, TGTG, TGTT, TATG, TATA, TTTG, TTTA, TGTA
변이체 42 S188K/Q272K TATC, TCTA, TCTT, TGTC, TGTA, TGTT, TATG, TATA, TTTG, TTTT, TTTA, TCTG, TGTG
변이체 43 S188Q/R191K/Q272K TATC, TCTG, TCTA, TCTT, TGTG, TGTT, TATA, TTTC, TTTG, TTTA, TGTC, TGTA, TATG,
실시예 4. 표적화 가능 부위의 확장을 위한 CWCas12f 변이체
실시예 4.1. dCWCas12f 기반 아데닌 염기 편집기의 선정
dCWCas12f 기반 아데닌 염기 편집기(ABE) 융합 단백질은 데아미나제(deaminase) 융합의 배향에 따라 4종으로 구성하였다: TaRGET-ABE-N1(서열번호 201), TaRGET-ABE-N2(서열번호 202), TaRGET-ABE-C1(서열번호 203) 및 TaRGET-ABE-C2(서열번호 204). 구체적으로, ABE를 구성하는 야생형 Tad-돌연변이체 Tad(Tad-Tad*) 또는 Tad*-Tad를 dCWCas12f의 N- 또는 C-말단에 융합하여 4종의 CWCas12f-기반 아데닌 염기 편집기를 구성하였다(도 11a).
이 구성물을 두 개의 검증된 표적(부위 4 및 부위 2)에 대해 시험하였는데, 하나는 PAM-근위 영역의 A-풍부 서열을 나타내고(부위 4) 다른 하나는 PAM-원위 영역의 A-풍부 서열을 나타낸다(부위 2). 시험 결과, 도 11b에 도시된 바와 같이, C-말단 배향으로 융합된 데아미나제 아키텍처(TaRGET-ABE-C1 및 TaRGET-ABE-C2)는 상당한 수준의 A에서 G로의 전환 활성을 보인 반면, N-말단 융합된 모듈(TaRGET-ABE-N1 및 TaRGET-ABE-N2)은 미미한 전환 활성을 보였다. 또한, A에서 G로의 전환은 PAM-근위 영역에서만 관찰되었다.
TaRGET-ABE-C2(dCWCas12f-링커-Tad-링커-Tad*-NLS)는 다른 ABE에 비해 전환율이 높았기 때문에 염기 편집 윈도우(window)을 확인하는 데 사용되었다. 여기서, 염기 편집 윈도우는 ABE에 의하여 염기가 전환될 수 있는 포지션을 나타내며, 후술하는 윈도우 확장은 염기가 전환되는 포지션의 확장을 의미한다. 추가적으로, TaRGET-ABE-C2의 염기 편집 윈도우를 정의하기 위하여, 도 12에 도시된 바와 같이, HEK293T 세포의 5개 내인성 부위(부위 a 내지 부위 e)에 대해 TaRGET-ABE-C2의 치환 프로파일을 탐색했다. 내인성 부위는 상당한 A에서 G로의 전환 활성을 나타내고, 또한 PAM-근위 영역에서 다수의 아데닌 서열을 갖는 검증된 부위로부터 선택하였다. TaRGET-ABE 시스템은 포지션 2 내지 6 범위에서 A에서 G로의 전환을 유도하지만 포지션 3 및 4(A3 및 A4)에서 가장 우세하였다. 여기서, 포지션은 PAM-근위 서열로부터 떨어진 위치를 나타낸다. 서열 프로파일은 TaRGET-ABE-C2 벡터를 트랜스펙션시킨 후 상기 포지션에 대하여 딥-시퀀싱 분석을 통해 얻었다.
지금까지 개발된 다양한 Tad 변이체를 dCWCas12f(D354A, 변이체 1)의 C-말단에 융합한 형태로 A3에서 G3로의 전환율을 비교한 결과, 코돈 최적화된 Tad-Tad*(V106W, D108Q)가 다른 형태들에 비해 가장 높은 전환율을 나타냄을 확인하였다(도 13a).
최적화된 Tad 이량체를 Tad-Tad**로 표기하고, 이러한 ABE 형태를 TaRGET-ABE-C3.0(서열번호 206)로 명명하였다. 다양한 길이의 링커로 dCWCas12f 및 Tad 이량체(Tad-Tad**)를 연결하여 A3에서 G3으로의 전환 효율을 비교한 결과를 통해 링커 길이는 32개로 결정되었다(도 13b). 도 13c에 도시된 여러 아데닌 염기 편집기 구조체의 A에서 G로의 전환 효율을 나타낸 히트맵 결과(도 13d)를 살펴보면, TaRGET-ABE-C3.0의 염기 편집 윈도우는 최근 보고된 ABEMINI와 유사하게 비교적 좁은 범위로 형성되었다(포지션 3 내지 포지션 5). TaRGET-ABE-C3.0의 전반적인 전환 효율은 Cas12f 기반 ABEMINI보다 유의하게 높았지만 ABE7.10, ABE8e25 및 ABE9과 같은 SpCas9 니카아제 기반 ABE보다는 낮았다. 여기서, ABE8e는 단량체 Tad를 엔지니어링된 형태로 사용하였고 ABE9는 추가로 엔지니어링된 단량체 Tad 단백질(V82S/Q154R)의 형태로 사용하였다.
최적의 염기 편집 결과를 위해서는, CWCas12f에 가장 적합한 gRNA를 선택하여야 한다. 실시예 1.6에 기술된 세 가지 다른 버전(ge3.0, ge4.0 및 ge4.1)의 sgRNA를 이용한 인델 활성 결과를 비교하기 위하여, 18개의 표적을 선택하여 실험하였다. 그 결과, 18개 부위 중 15개에서 상기 gRNA 버전(ge3.0, ge4.0 및 ge4.1)에 대하여 인델 효율과 전환 효율 사이에 상관관계가 나타났다(도 13e). 따라서, 최적의 gRNA 버전에 의해 가이드된 TaRGET-ABE-C3.0은 최적의 염기 편집 성능을 나타낸다.
실시예 4.2. PAM 변이체가 적용된 아데닌 염기 편집기의 멀티플렉싱된 염기 편집 활성
비-TTTR PAM 컨텍스트에서 아데닌 염기 편집에 대한 PAM 변이체의 적용을 시험하기 위해, PAM 변이체의 A에서 G로의 전환 활성을 변경된 PAM을 갖는 다양한 부위에 대해 시험하였다. 이때, 아데닌 염기 편집기 융합 단백질은 실시예 4.1에 기술된 TaRGET-ABE-C3.0을 사용하였다.
도 14a와 같이 PAM 변이체에 따라 A3에서 G3로, A4에서 G4로, A5에서 G5로의 전환 활성 수준이 서로 다르다. 전환 효율을 추적하기 위해 포지션 3, 4 및 5의 A가 있는 부위를 선택했다. 이때, 테스트 1 내지 테스트 3은 같은 실험을 3번 반복하였음을 나타낸다.
PAM 변이체는 특정 서열 컨텍스트에 대해 선택적으로(단독으로) 사용될 수 있거나, 멀티플렉싱된 염기 편집을 위해 다중 PAM 선호도를 나타내는 변이체를 사용할 수 있다. 이러한 가능성을 조사하기 위해, PAM 돌연변이가 누적된(즉, 복수의 PAM 돌연변이를 갖는) 변이체의 염기 편집 활성을 시험한 결과, S188Q/Q272K 변이체(변이체 41) 및 S188K/Q272K 변이체(변이체 42)가 TTTA, TTTG, TTTC, TATG, TGTA, TGTG, TGTC, 및 TCTG를 포함하여 더 넓은 PAM 선호도를 보이고, S188Q/R191K/Q272K(변이체 43)도 넓은 PAM 선호도를 보임을 확인하였다(도 14b). 누적된 돌연변이체의 염기 편집 활성은 도 3에 도시된 바와 같이 PAM 변경된 NLRC4 유전자좌를 보유하는 HEK293T 세포에서 측정하였다. 멀티플렉싱된 염기 편집은 다수의 gRNA와 함께 CWCas12f의 누적된 PAM 돌연변이체를 트랜스펙션시킴으로써 야생형 HEK293T 세포에서 검증하였다. 특히, S188Q/Q272K 및 S188K/Q272K 변이체는 동시에 5개의 다른 내인성 유전자좌(부위 5, 6, 7, 11 및 15)에서 염기 편집 가능성을 보여주었다(도 14c). 이러한 누적된 돌연변이체들에 대한 PAM 선호도는 상기 표 1에 나타내었다. 종합하면, CWCas12f의 엔지니어링은 표적화 가능 염기 편집 부위의 점유율을 0.78%에서 3.12%로 확장하였다.
실시예 4.3. CWCas12f-gRNA 리보핵단백질 복합체의 프로토스페이서 결합 영역 돌연변이를 통한 표적화 가능 부위의 확장
실시예 4.2에서 PAM 변이체를 사용하여 표적화 가능 부위를 확장했음에도 불구하고, 두드러진 편집 윈도우는 포지션 3과 4에 형성되었기 때문에 편집 발생율은 여전히 제한적이다. 포지션 3, 4에 한정된 편집 윈도우는 때때로 특이적 편집에 유리하기도 하지만, 윈도우를 확장하거나 이동하는 것이 TaRGET-ABE 시스템의 적용 가능성을 확장하는 추가 옵션이 될 수 있다. 따라서, CWCas12f-gRNA 리보핵단백질 복합체의 구조적 모델링을 통하여 Ile159 및 Ser164의 가능한 돌연변이 위치를 확인하였다.
구조적 모델링에 따르면, 프로토스페이서의 5번과 6번 포지션의 염기가 WED 도메인의 포켓에 숨겨져 있음을 확인할 수 있다(도 15). 따라서, Ile159와 Ser164를 부피가 큰 아미노산으로 교체하면, 도 16a에 도시된 바와 같이, 5번과 6번 포지션의 염기가 더 돌출되어 데아미나제가 해당 염기에 더 쉽게 접근할 수 있을 것이라고 추측하였다. I159W 변이체(변이체 5), S164Y 변이체(변이체 6) 또는 I159W/S164Y 변이체(변이체 7)를 제작하고, 이를 각각 다른 포지션에서 A를 가지는 여러 표적에 대한 아데닌 염기 편집에 적용했다. 이때, 아데닌 염기 편집기 융합 단백질은 실시예 4.1에 기술된 TaRGET-ABE-C2.0을 사용하였다. 상기 변이체들의 편집 효율을 야생형 TaRGET-ABE-C2의 편집 효율과 비교했을 때, S164Y 돌연변이체는 윈도우 확장없이 포지션 3과 4에서 A에서 G로의 전환율이 극적으로 감소했다. 이에 반해, I159W 돌연변이체는 A3 및 A4 전환을 보유하면서 포지션 5 및 6에서 전환율을 유지하였다(도 16b).
실시예 4.4. 데아미나제 모듈의 변형을 통한 표적화 가능 부위의 확장
데드(dead) 변이체 dCWCas12f(D538A)를 I159W Tad 돌연변이체에 대해 사용하였다(D538A뿐만 아니라 D354A, E450A 및 R518A 모두 사용 가능함). 이 접근법은 데아미나제 모듈의 다양한 아키텍처와 관련이 있었다. Tad 변이체의 다양한 조합을 구성하는 동안 dCWCas12f-Tad-Tad8e(WQ) 모듈이 포지션 2에서 윈도우 확장을 나타내는 것을 우연히 발견했다. eTad(Tad8e) 서열은 원래 ABE8e 버전에 대한 단량체 데아미나제로 사용되었다. dCWCas12f(D354A)과 Tad-Tad8e(WQ) 이량체 모듈의 융합체(이하, TaRGET-ABE-C3.1로 지칭됨)는 포지션 3 및 4에서 지속적인 전환 효율 결과와 함께 포지션 2에서 극적으로 증가된 전환을 유도하였다(도 17a).
추가적으로, 25개의 내인성 부위(특정 유전자)에 대해 TaRGET-ABE-C3.1 시스템을 검증하였다(도 17b). 표적 유전자의 정보 및 프라이머 정보는 하기의 표 11에 나타내었다.
유전자명 PAM 프로토스페이서 프라이머
정방향(5´→3´) 역방향(5´→3´)
LOC105370393 TTTA AAGAAAGCTACAGGAAAGCA(서열 번호 266) TGACCAGGGAGTTCCTCACA(서열 번호 267) GAAGCCGAGCTCAGTTACCC(서열 번호 268)
intergenic TTTA AAGAGGGGAGGTTGACTTTG(서열 번호 269) CCTCCCAGATCCCACTCAGA(서열 번호 270) CCCAAAGTCAACCTCCCCTC(서열 번호 271)
ZNF10 TTTA AATAAGTCTTACCACGTGTC(서열 번호 272) GTTCGTGCCACTGTACTCCA(서열 번호 273) TTCTGCTTCCAGCCGAGATG(서열 번호 274)
FUS TTTA ACAAAGAAACCAGCAGTGGC(서열 번호 275) TACTTCCCCTGCCAGCATTG(서열 번호 276) GGAAGATCCCCCCAAACTGG(서열 번호 277)
OR4K17 TTTA ACAAGTTCAGAATCACCTTA(서열 번호 278) TGACCAGCTCCCAGGATGTA(서열 번호 279) GTGAAGGAGACCCAAGAGCC(서열 번호 280)
POLRMT TTTA AGGACTATGTGTGGCCAGTG(서열 번호 281) GAGACGGGGTTTCACTGTGT(서열 번호 282) CTCTCTGTCTGTTGCCCAGG(서열 번호 283)
LOC100128398 TTTA CAAAGAAATGTACTGCCTTA(서열 번호 284) GGGCCACTGGTCACCATATT(서열 번호 285) GCACCATGTCGTCCCATTTG(서열 번호 286)
CARS TTTA CAACAGCCTCACCAGGAACA(서열 번호 287) ACAAGCCAGGGTGATCCATG(서열 번호 288) ATCACACCACTGCACTCTGG(서열 번호 289)
RPH3AL TTTA CACAAGGGATCTGAGACTTG(서열 번호 290) GCCCCTCCGATCATAAGCTC(서열 번호 291) GAGGGTGAAGTTGGGTCCAG(서열 번호 292)
P2RX5-TAX1BP3 TTTA CACATAGGCCATTCAGAAAC(서열 번호 293) GTCTACTGAAATGGGGGCCC(서열 번호 294) GGCCAGGTTGGTCTTGAACT(서열 번호 295)
GAK TTTA CAGAGTCCCGGGAACAAGCC(서열 번호 296) CAGCTCCTCAGAAGAGCCAG(서열 번호 297) AGTGAGTGTGAGGCTCCAGA(서열 번호 298)
Intergene TTTA CATACAGGGCTCTGTACCCA(서열 번호 299) GGCCCAGAACCTTGCTCTTT(서열 번호 300) ACCACCCTGCGTAACATAGC(서열 번호 301)
Intergene TTTA CTGAGATTTGCGAAGAGTTA(서열 번호 302) GTGGCAGTGGCTGTATTCCT(서열 번호 303) GCTTGAAAGCCAAAGCCTCC(서열 번호 304)
Intergene TTTA CTTAGTAGTCTCAGAACCAA(서열 번호 305) CTTGCTAAAGGGCTGGCTCT(서열 번호 306) GCCCAGCTGATTCTAAGGCA(서열 번호 307)
Intergene TTTA GAAATATGACTGGAAGTAAA(서열 번호 308) CACTCTCGCTTACCCTGCTC(서열 번호 309) ACACAGCCAACACCCCTATG(서열 번호 310)
KLHL29 TTTA GAGAGACCGCTCAGGCTGGA(서열 번호 311) GCCGAAAGCCTACACCTCTT(서열 번호 312) AGTGAGAGGAGAGAGGCTGG(서열 번호 313)
LOC105370393 TTTA GCAGTACACCTGAGGGAACA(서열 번호 314) TGACCAGGGAGTTCCTCACA(서열 번호 315) GAAGCCGAGCTCAGTTACCC(서열 번호 316)
OSBPL5 TTTA GCATTAAGGCCAGCGCTGGG(서열 번호 317) CAGAGTGGCCCTAACCTGTC(서열 번호 318) CGATCCTGGTTCCTGCTCTG(서열 번호 319)
LOC105369597 TTTA GCCATGGTGAAGGTGAAATC(서열 번호 320) ACTGTGCTGCTGAGAGGAAC(서열 번호 321) GAAGCAGGGATGTCAGTGCT(서열 번호 322)
CCDC127 TTTA GGCAAGGGTCTTGATGCATC(서열 번호 323) CACCAGCTTGAAGGCTCTGA(서열 번호 324) CCTCCTGGGTTCAAGCGATT(서열 번호 325)
ZMYM2 TTTA GTAGGCTGCTGTTGGACAGA(서열 번호 326) GAGCTCTGAGTTACCCGACA(서열 번호 327) CAGGCTTGTGGGAGAAGGAA(서열 번호 328)
Intergene TTTA GTCAAATAAAGAAAAATACG(서열 번호 329) TGGAGAGATGGGATGGCTGA(서열 번호 330) AGCAGAGAAATTGGGAAGCA(서열 번호 331)
Intergene TTTA CAAAGACACTCACCCTGTTG(서열 번호 332) GGCCCAGAACCTTGCTCTTT(서열 번호 333) ACCACCCTGCGTAACATAGC(서열 번호 334)
Intergene TTTA AGAACACATACCCCTGGGCC(서열 번호 335) CACCACCACACCTGGCTAAT(서열 번호 336) ATGTCCGAGCAAGGCTTTGA(서열 번호 337)
INIP TTTA AGAGCAGCGATTGTAAGGAG(서열 번호 338) ACAGGGCCATCTTGTGACAG(서열 번호 339) AAGTGACGTCTGCACTGAGG(서열 번호 340)
상기 표적 유전자에 대한 A에서 G로의 전환 효율은 도 18a 내지 도 18d에 나타내었다. 이때, 각 위치에서의 전환율은 MAUND 소프트웨어를 사용하여 딥 시퀀싱 데이터에서 계산하였다. 프로토스페이서 서열에서 A의 위치는 음영으로 표시하였다. 값은 가능한 모든 전환율의 합계이다. "wt"는 ABE-미처리 대조군 세포의 전환율을 나타낸다.
분포에 따르면, I159W 돌연변이 적용 없이도 포지션 2 내지 5에서 가장 두드러진 염기 편집 효과가 확인되었지만, 포지션 6의 경우 I159W 돌연변이를 적용하였을 때 현저하게 윈도우 확장이 일어난 것을 확인할 수 있었고(도 17a), 이는 윈도우가 포지션 6 이상의 범위까지 확장됨을 나타낸다. 그럼에도 불구하고, 포지션 17 및/또는 18이 상대적으로 높은 효율로 편집된 두 개 이상의 타겟을 확인했다(도 17b).
PAM-근위 편집은 R-루프 내의 gRNA 독립적 편집 또는 넌-캐노니컬(non-canonical) 윈도우로부터 발생할 수 있다. 염기 편집 윈도우 및 효율 측면에서 TaRGET-ABE의 모든 버전(ABEMINI, TaRGET-ABE-C2, TaRGET-ABE-C3.0 및 TaRGET-ABE-C3.1)의 일대일 비교는 도 19에 도시하였다. TaRGET-ABE-C3.0 및 TaRGET-ABE-C3.1에서 A에서 G로의 높은 전환을 확인할 수 있다. 또한, Cas12f1 기반의 ABEMINI와 TaRGET-ABE-C2를 비교해 보면, 염기 편집 윈도우에서 ABEMINI의 염기 편집 효율이 현저하게 낮음을 확인할 수 있다. 이를 통해, CWCas12f가 초소형 아데닌 염기 편집기에 대한 바람직한 뉴클레아제임을 확인할 수 있다.
종합하면, CWCas12f 및 Tad 모듈의 엔지니어링 및 재구성은 PAM 인식 범위를 확장하고 염기 편집 윈도우를 이동 또는 확장하여 그렇지 않으면 매우 제한적인 염기 편집 범위를 크게 확장하였다.

Claims (53)

  1. 서열번호 1을 기준으로 잔기 159, 164, 170, 174, 184, 188, 191, 225, 230 및 272로 이루어진 군에서 선택되는 하나 이상의 아미노산 위치 또는 그에 상응하는 하나 이상의 아미노산 위치에서 아미노산 치환을 포함하고, 서열번호 1로 표시되는 서열과 80% 이상의 서열 동일성을 갖는 아미노산 서열을 포함하는
    엔지니어링된 Cas 단백질.
  2. 제1항에 있어서,
    상기 치환은 잔기 170, 174, 184, 188, 191, 225, 230 및 272로 이루어진 군에서 선택되는 하나 이상의 아미노산 위치 또는 그에 상응하는 하나 이상의 아미노산 위치에서 아미노산 치환을 포함하고, PAM(protospacer-adjacent motif) 인식 특이성이 변경된 것인
    엔지니어링된 Cas 단백질.
  3. 제1항에 있어서,
    상기 치환은 잔기 159 및 164로 이루어진 군에서 선택되는 하나 이상의 아미노산 위치 또는 그에 상응하는 아미노산 위치에서 아미노산 치환을 포함하고, PAM 근위 영역의 편집 윈도우가 변경된 것인
    엔지니어링된 Cas 단백질.
  4. 제2항에 있어서,
    상기 치환은 잔기 159 및 164로 이루어진 군에서 선택되는 하나 이상의 아미노산 위치 또는 그에 상응하는 하나 이상의 아미노산 위치에서 아미노산 치환을 추가로 포함하는
    엔지니어링된 Cas 단백질.
  5. 제1항에 있어서,
    상기 치환은 하기 (1) 내지 (10)로 이루어진 군에서 선택된 하나 이상의 아미노산 치환을 포함하는
    엔지니어링된 Cas12 단백질:
    (1) 159W;
    (2) 164Y;
    (3) 170C 또는 170T;
    (4) 174H, 174A, 174E, 174K, 174N, 174R 또는 174T;
    (5) 184H, 184N, 184R, 184S 또는 184T;
    (6) 188G, 188H, 188K, 188N, 188Q, 188R, 188S, 188T 또는 188V;
    (7) 191G, 191H, 191K, 191Q 또는 191W;
    (8) 225F 또는 225T;
    (9) 230A, 230H, 230I, 230S 또는 230T; 및
    (10) 272C, 272K 또는 272R.
  6. 제1항에 있어서,
    상기 치환은 하기 (1) 내지 (10)로 이루어진 군에서 선택된 하나 이상의 아미노산 치환을 포함하는
    엔지니어링된 Cas 단백질:
    (1) I159W;
    (2) S164Y;
    (3) S170C 또는 S170T;
    (4) Y174H, Y174A, Y174E, Y174K, Y174N, Y174R 또는 Y174T;
    (5) A184H, A184N, A184R, A184S 또는 A184T;
    (6) S188G, S188H, S188K, S188N, S188Q, S188R, S188S, S188T 또는 S188V;
    (7) R191G, R191H, R191K, R191Q 또는 R191W;
    (8) Q225F 또는 Q225T;
    (9) Y230A, Y230H, Y230I, Y230S 또는 Y230T; 및
    (10) Q272C, Q272K 또는 Q272R.
  7. 제2항에 있어서,
    상기 치환은 표 1에 기재된 아미노산 치환으로 구성된 군으로서 선택된 아미노산 치환을 포함하는
    엔지니어링된 Cas 단백질.
  8. 제2항에 있어서,
    상기 엔지니어링된 Cas 단백질은 야생형 Cas12f 단백질이 인식하지 못하거나 인식도가 떨어지는 PAM 서열을 인식하는
    엔지니어링된 Cas 단백질.
  9. 제2항에 있어서,
    5'-TVTN-3', 5'-TTVV-3', 5'-TGGG-3' 및 5'-TTTN-3'(N은 A, T, G 또는 C이고 V는 A, G 또는 C이다)로 이루어진 군에서 선택된 하나 이상의 PAM 서열을 인식하는
    엔지니어링된 Cas 단백질.
  10. 제8항에 있어서,
    상기 엔지니어링된 Cas 단백질은 엔지니어링된 Un1Cas12f1 단백질 또는 엔지니어링된 CWCas12f 단백질인
    엔지니어링된 Cas 단백질.
  11. 제7항에 있어서,
    상기 엔지니어링된 Cas 단백질은 I159W 및 S164Y로 이루어진 군에서 선택된 하나 이상의 치환을 추가로 포함하는
    엔지니어링된 Cas 단백질.
  12. 제1항에 있어서,
    상기 엔지니어링된 Cas 단백질은 DNA 절단 활성이 제거된
    엔지니어링된 Cas 단백질.
  13. 제12항에 있어서,
    서열번호 1을 기준으로 잔기 354, 450, 518 및 538로 이루어진 군에서 선택된 하나 이상의 아미노산 위치 또는 그에 상응하는 하나 이상의 아미노산 위치에서 아미노산 치환을 추가로 포함하는
    엔지니어링된 Cas 단백질.
  14. 제13항에 있어서,
    상기 아미노산 치환은 하기 (a) 내지 (d)로부터 선택된 하나 이상의 아미노산 치환을 추가로 포함하는
    엔지니어링된 Cas12 단백질:
    (a) 354A, 354Q, 354L, 354W 또는 354V;
    (b) 450A, 450Q, 450L, 450W 또는 450V;
    (c) 518A, 518Q, 518L, 518W 또는 518V; 및
    (d) 538A, 538Q, 538L, 538W 또는 538V.
  15. 제1항에 있어서,
    상기 엔지니어링된 Cas 단백질은 하나 이상의 아미노산의 결실, 삽입, 치환 또는 부가를 추가로 포함하고 가이드 RNA와 복합체를 형성할 수 있는
    엔지니어링된 Cas 단백질.
  16. (i) 제1항 내지 제15항 중 어느 한 항의 엔지니어링된 Cas 단백질, (ii) 작용기 도메인, 및 임의적으로 (iii) 링커를 포함하는 융합 단백질.
  17. 제16항에 있어서,
    상기 작용기 도메인은 뉴클라아제 활성, 니카아제 활성, 레콤비나아제 활성, 데아미나제 활성, 메틸트랜스퍼라아제 활성, 메틸라아제 활성, 아세틸라아제 활성, 아세틸트랜스퍼라아제 활성, 전사 활성화 활성, 전사 억제 활성 또는 역전사효소 활성을 포함하는
    융합 단백질.
  18. 제16항에 있어서,
    상기 작용기 도메인은 데아미나제 활성을 갖는 것인
    융합 단백질.
  19. 제16항에 있어서,
    상기 작용기 도메인은 하나 이상의 발현조절 도메인을 포함하는
    융합 단백질.
  20. 제19항에 있어서,
    상기 발현조절 도메인은 VP64, VPR, KRAB, MeCP2, DNMT, HAT, HDAC, TET 및 p300으로 이루어진 군에서 선택되는
    융합 단백질.
  21. 제1항 내지 제15항 중 어느 한 항의 엔지니어링된 Cas 단백질 또는 제16항 내지 제20항 중 어느 한 항의 융합 단백질을 암호화하는 폴리뉴클레오티드.
  22. (i) 제1항 내지 제15항 중 어느 한 항의 엔지니어링된 Cas 단백질 또는 상기 단백질을 암호화하는 핵산, 및
    (ii) PAM에 인접한 표적 서열과 혼성화가능한 가이드 서열을 포함하는 가이드 RNA 또는 상기 가이드 RNA를 암호화하는 핵산을 포함하는
    엔지니어링된 CRISPR/Cas 시스템 또는 조성물.
  23. 제22항에 있어서,
    상기 가이드 RNA는 엔지니어링된 가이드 RNA인
    시스템 또는 조성물.
  24. 제23항에 있어서,
    상기 가이드 RNA는 가이드 서열의 3'-말단에 연결된 U-rich tail 서열을 포함하고, 상기 U-rich tail은 5'-(UmV)nUo-3'로 표시되고, 여기서 V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수인
    시스템 또는 조성물.
  25. 제23항에 있어서,
    상기 가이드 RNA는 엔지니어링된 스캐폴드 영역을 포함하고, 상기 엔지니어링된 스캐폴드 영역은 5'-말단부터 순차적으로 제1 스템-루프 영역, 제2 스템-루프 영역, 제3 스템-루프 영역, 제4 스템-루프 영역 및 tracrRNA-crRNA 상보성 영역을 포함하는 야생형 Cas12f1 가이드 RNA 서열의 스캐폴드 영역과 50% 이상 서열 동일성을 갖는 뉴클레오티드 서열을 포함하고, 상기 야생형 Cas12f1 가이드 RNA 서열에 대해 하기 (1) 내지 (4)로 이루어진 군에서 선택되는 하나 이상의 변형을 포함하는
    시스템 또는 조성물:
    (1) 제1 스템-루프 영역의 일부 또는 전부의 결실;
    (2) 제2 스템-루프 영역의 일부 또는 전부의 결실;
    (3) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실; 및
    (4) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환.
  26. 제25항에 있어서,
    상기 야생형 Cas12f1 가이드 RNA는 서열번호 11의 핵산 서열을 포함하는 tracrRNA 및 서열번호 12의 핵산 서열을 포함하는 crRNA를 포함하는
    시스템 또는 조성물.
  27. 제25항에 있어서,
    상기 엔지니어링된 스캐폴드 영역은 하기 식 (I)로 표시되는 서열과 80% 이상 서열 동일성을 갖는 서열을 포함하는
    시스템 또는 조성물:

    식 (I)에서,
    Xa는 서열번호 14의 핵산 서열 또는 서열번호 14의 서열에서 1 내지 20개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
    Xb1은 서열번호 25의 핵산 서열 또는 서열번호 25의 서열에서 1 내지 13개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
    Xb2는 서열번호 29의 핵산 서열 또는 서열번호 29의 서열에서 1 내지 14개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
    Xc1은 서열번호 39의 핵산 서열 또는 서열번호 39의 서열에서 1 내지 28개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
    Xc2는 서열번호 58의 핵산 서열 또는 서열번호 58의 서열에서 1 내지 27개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
    Lk는 길이 2 내지 20의 폴리뉴클레오티드 링커이거나 부존재한다.
  28. 제27항에 있어서,
    상기 Xc1 서열 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 이들 중 하나 이상의 U가 A, G 또는 C로 치환되는 변형을 포함하는
    시스템 또는 조성물.
  29. 제27항에 있어서,
    Xa 핵산 서열의 결실, Xb1 및 Xb2 핵산 서열의 결실, 및/또는 Xc1 및 Xc2 핵산 서열의 결실은 하나 이상의 상보적인 뉴클레오티드 쌍의 결실을 포함하는
    시스템 또는 조성물.
  30. 제27항에 있어서,
    상기 식 (I)에서 서열 5'-Xb1UUAGXb2-3'은 서열번호 34 내지 서열번호 38 및 5'-UUAG-3'로 이루어진 군에서 선택되는
    시스템 또는 조성물.
  31. 제27항에 있어서,
    상기 식 (I) 내의 서열 5'-Xc1-Lk-Xc2-3'은 서열번호 80 내지 서열번호 86 및 5'-Lk-3'으로 이루어진 군에서 선택되는
    시스템 또는 조성물.
  32. 제27항에 있어서,
    상기 Lk는 5'-GAAA-3', 5'-UUAG-3', 5'-UGAAAA-3', 5'-UUGAAAAA-3', 5'-UUCGAAAGAA-3'(서열번호 76), 5'-UUCAGAAAUGAA-3'(서열번호 77), 5'-UUCAUGAAAAUGAA-3'(서열번호 78) 및 5'-UUCAUUGAAAAAUGAA-3'(서열번호 79)로 이루어진 군에서 선택되는 핵산 서열을 포함하는
    시스템 또는 조성물.
  33. 제25항에 있어서,
    상기 스캐폴드 영역은 서열번호 87 내지 서열번호 132로 이루어진 군에서 선택된 핵산 서열로 이루어진 엔지니어링된 tracrRNA를 포함하고/거나, 서열번호 133 내지 서열번호 148로 이루어진 군에서 선택된 핵산 서열로 이루어진 엔지니어링된 crRNA을 포함하는
    시스템 또는 조성물.
  34. 제22항에 있어서,
    상기 가이드 RNA는 서열번호 13 및 서열번호 149 내지 서열번호 186으로 이루어진 군에서 선택된 핵산 서열의 스캐폴드 영역 서열을 포함하는
    시스템 또는 조성물.
  35. 제22항에 있어서,
    상기 엔지니어링된 Cas12 단백질은 상기 가이드 RNA와 복합체를 형성하는
    시스템 또는 조성물.
  36. (i) 제1항 내지 제15항 중 어느 한 항의 엔지니어링된 Cas 단백질을 암호화하는 뉴클레오티드 서열이 작동가능하게 연결된 제1 핵산 구조물; 및
    (ii) PAM에 인접한 표적 서열과 혼성화가능한 가이드 서열을 포함하는 가이드 RNA를 암호화하는 뉴클레오티드 서열이 작동가능하게 연결된 제2 핵산 구조물을 포함하는 하나 이상의 벡터를 포함하고,
    상기 핵산 구조물 (i) 및 (ii)는 동일하거나 상이한 벡터에 위치할 수 있는
    벡터 시스템.
  37. 제36항에 있어서,
    상기 가이드 RNA는 가이드 서열의 3'-말단에 연결된 U-rich tail 서열을 포함하고, 상기 U-rich tail은 5'-(UmV)nUo-3'로 표시되고, 여기서 V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수인
    벡터 시스템.
  38. 제36항에 있어서,
    상기 가이드 RNA는 엔지니어링된 스캐폴드 영역을 포함하고, 상기 엔지니어링된 스캐폴드 영역은 5'-말단부터 순차적으로 제1 스템-루프 영역, 제2 스템-루프 영역, 제3 스템-루프 영역, 제4 스템-루프 영역 및 tracrRNA-crRNA 상보성 영역을 포함하는 야생형 Cas12f1 가이드 RNA 서열의 스캐폴드 영역과 50% 이상 서열 동일성을 갖는 뉴클레오티드 서열을 포함하고, 상기 야생형 Cas12f1 가이드 RNA 서열에 대해 하기 (1) 내지 (4)로 이루어진 군에서 선택되는 하나 이상의 변형을 포함하는
    벡터 시스템:
    (1) 제1 스템-루프 영역의 일부 또는 전부의 결실;
    (2) 제2 스템-루프 영역의 일부 또는 전부의 결실;
    (3) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실; 및
    (4) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환.
  39. 제38항에 있어서,
    상기 야생형 Cas12f1 가이드 RNA는 서열번호 11의 핵산 서열을 포함하는 tracrRNA 및 서열번호 12의 핵산 서열을 포함하는 crRNA를 포함하는
    벡터 시스템.
  40. 제38항에 있어서,
    상기 엔지니어링된 스캐폴드 영역은 하기 식 (I)로 표시되는 서열과 80% 이상 서열 동일성을 갖는 서열을 포함하는
    벡터 시스템:

    식 (I)에서,
    Xa는 서열번호 14의 핵산 서열 또는 서열번호 14의 서열에서 1 내지 20개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
    Xb1은 서열번호 25의 핵산 서열 또는 서열번호 25의 서열에서 1 내지 13개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
    Xb2는 서열번호 29의 핵산 서열 또는 서열번호 29의 서열에서 1 내지 14개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
    Xc1은 서열번호 39의 핵산 서열 또는 서열번호 39의 서열에서 1 내지 28개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
    Xc2는 서열번호 58의 핵산 서열 또는 서열번호 58의 서열에서 1 내지 27개의 뉴클레오티드가 결실된 핵산 서열을 포함하고,
    Lk는 길이 2 내지 20의 폴리뉴클레오티드 링커이거나 부존재한다.
  41. 제40항에 있어서,
    상기 Xc1 서열 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 이들 중 하나 이상의 U가 A, G 또는 C로 치환되는 변형을 포함하는
    벡터 시스템.
  42. 제40항에 있어서,
    Xa 핵산 서열의 결실, Xb1 및 Xb2 핵산 서열의 결실, 및/또는 Xc1 및 Xc2 핵산 서열의 결실은 하나 이상의 상보적인 뉴클레오티드 쌍의 결실을 포함하는
    벡터 시스템.
  43. 제40항에 있어서,
    상기 식 (I)에서 서열 5'-Xb1UUAGXb2-3'은 서열번호 34 내지 서열번호 38 및 5'-UUAG-3'로 이루어진 군에서 선택되는
    벡터 시스템.
  44. 제40항에 있어서,
    상기 식 (I) 내의 서열 5'-Xc1-Lk-Xc2-3'은 서열번호 80 내지 서열번호 86 및 5'-Lk-3'으로 이루어진 군에서 선택되는
    벡터 시스템.
  45. 제40항에 있어서,
    상기 Lk는 5'-GAAA-3', 5'-UUAG-3', 5'-UGAAAA-3', 5'-UUGAAAAA-3', 5'-UUCGAAAGAA-3'(서열번호 76), 5'-UUCAGAAAUGAA-3'(서열번호 77), 5'-UUCAUGAAAAUGAA-3'(서열번호 78) 및 5'-UUCAUUGAAAAAUGAA-3'(서열번호 79)로 이루어진 군에서 선택되는 핵산 서열을 포함하는
    벡터 시스템.
  46. 제38항에 있어서,
    상기 스캐폴드 영역은 서열번호 87 내지 서열번호 132로 이루어진 군에서 선택된 핵산 서열로 이루어진 엔지니어링된 tracrRNA를 포함하고/거나, 서열번호 133 내지 서열번호 148로 이루어진 군에서 선택된 핵산 서열로 이루어진 엔지니어링된 crRNA을 포함하는
    벡터 시스템.
  47. 제38항에 있어서,
    상기 가이드 RNA는 서열번호 13 및 서열번호 149 내지 서열번호 186으로 이루어진 군에서 선택된 핵산 서열의 스캐폴드 영역 서열을 포함하는
    벡터 시스템.
  48. 제36항에 있어서,
    상기 벡터는 레트로바이러스 벡터(retrovirus vector), 렌티바이러스 벡터(lentivirus vector), 아데노바이러스 벡터(adenovirus vector), 아데노-연관 바이러스 벡터(adeno-associated virus vector), 백시니아바이러스 벡터(vaccinia virus vector), 폭스바이러스 벡터(poxvirus vector), 단순포진 바이러스 벡터(herpes simplex virus vector) 및 파지미드 벡터(phagemid vector)로 구성된 군에서 선택되는
    벡터 시스템.
  49. 제36항에 있어서,
    상기 벡터는 플라스미드, 네이키드 DNA, DNA 복합체, mRNA(전사물) 및 앰플리콘(amplicon)으로 이루어진 군에서 선택되는
    벡터 시스템.
  50. 제36항 내지 제49항 중 어느 한 항의 벡터 시스템으로부터 제조된 재조합 바이러스.
  51. 제1항 내지 제15항 중 어느 한 항의 엔지니어링된 Cas 단백질 및 가이드 RNA, 제22항 내지 제35항 중 어느 한 항의 시스템 또는 조성물, 제36항 내지 제49항 중 어느 한 항의 벡터 시스템, 또는 제50항의 재조합 바이러스를 세포와 접촉시키는 것을 포함하는, 세포 내 표적 핵산을 변경하는 방법.
  52. 제51항에 있어서,
    상기 접촉은 시험관 내에서 수행되는
    방법.
  53. 제51항에 있어서,
    상기 접촉은 생체 내에서 수행되는
    방법.
KR1020230048491A 2022-05-27 2023-04-12 확장된 표적 범위를 갖는 엔지니어링된 Cas12f 단백질 및 이의 용도 KR20230166041A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20220065600 2022-05-27
KR1020220065600 2022-05-27

Publications (1)

Publication Number Publication Date
KR20230166041A true KR20230166041A (ko) 2023-12-06

Family

ID=88919470

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230048491A KR20230166041A (ko) 2022-05-27 2023-04-12 확장된 표적 범위를 갖는 엔지니어링된 Cas12f 단백질 및 이의 용도

Country Status (2)

Country Link
KR (1) KR20230166041A (ko)
WO (1) WO2023229222A1 (ko)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114846146B (zh) * 2019-10-29 2024-04-12 基恩科雷有限责任公司 用于增加CRISPR/Cas12f1系统的效率的工程化引导RNA及其用途

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Harrington, L. B. et al. Programmed DNA destruction by miniature CRISPR-Cas14 enzymes. Science 362, 839-842(2018)
Karvelis, T. et al. PAM recognition by miniature CRISPR-Cas14 triggers programmable double-stranded DNA cleavage. Preprint at bioRxiv https://doi.org/10.1101/654897 (2019)
Kim, D. Y. et al. Efficient CRISPR editing with a hypercompact Cas12f1 and engineered guide RNAs delivered by adeno-associated virus. Nat. Biotechnol.40, 94-102 (2021)

Also Published As

Publication number Publication date
WO2023229222A1 (ko) 2023-11-30

Similar Documents

Publication Publication Date Title
US11060078B2 (en) Engineered CRISPR-Cas9 nucleases
US10633642B2 (en) Engineered CRISPR-Cas9 nucleases
AU2016316845B2 (en) Engineered CRISPR-Cas9 nucleases
JP2023126956A (ja) 望ましくないオフターゲット塩基エディター脱アミノ化を制限するためのスプリットデアミナーゼの使用
CA3059956A1 (en) Variants of cpf1 (cas12a) with altered pam specificity
US20220307018A1 (en) ENGINEERED GUIDE RNA FOR THE OPTIMIZED CRISPR/Cas12f1 SYSTEM AND USE THEREOF
JP2015536680A (ja) 分子の作製
CN116438313A (zh) 用于真核生物基因组工程的合成微型crispr-cas(casmini)系统
KR20240023081A (ko) CRISPR/Cas12f1(Cas14a1) system 효율화를 위한 engineered guide RNA 및 이의 용도
KR20210060541A (ko) 개선된 고처리량 조합 유전적 변형 시스템 및 최적화된 Cas9 효소 변이체
US20230374500A1 (en) Engineered guide rna comprising u-rich tail for optimized crispr/cas12f1 system and use thereof
KR20220144343A (ko) CRISPR/Cas12f1 시스템 효율화를 위한 U-rich tail을 포함하는 엔지니어링 된 가이드 RNA 및 그 용도
KR20230166041A (ko) 확장된 표적 범위를 갖는 엔지니어링된 Cas12f 단백질 및 이의 용도
KR20190122596A (ko) 염기 교정용 유전자 구조체, 이를 포함하는 벡터 및 이를 이용한 염기 교정 방법
KR20230051095A (ko) 유전자 편집을 위한 TaRGET 시스템 및 이의 용도
KR20240027724A (ko) 폴리뉴클레오티드 표적화를 위한 신규한 rna-프로그래밍 가능 시스템
KR102638799B1 (ko) CRISPR/Cas12f1(Cas14a1) system 효율화를 위한 engineered guide RNA 및 이의 용도
CN116568806A (zh) 用于增加crispr/cas12f1(cas14a1)系统的效率的经工程化的引导rna及其用途
KR20230142365A (ko) 어셔 증후군 치료를 위한 유전자 편집 시스템
KR20240034661A (ko) 캄필로박터 제주니 유래 Cas9의 가이드 RNA 구조변화를 통한 유전자교정 향상 시스템
CA3163369A1 (en) Variant cas9
WO2024091907A1 (en) Compositions and methods for modifying the hpv16 genome
WO2021151756A1 (en) Base editor lacking hnh and use thereof
JP2024513087A (ja) 部位特異的改変のための組成物及び方法

Legal Events

Date Code Title Description
A201 Request for examination