KR102623312B1 - Ruvc 도메인이 존재하는 효소 - Google Patents

Ruvc 도메인이 존재하는 효소 Download PDF

Info

Publication number
KR102623312B1
KR102623312B1 KR1020217028874A KR20217028874A KR102623312B1 KR 102623312 B1 KR102623312 B1 KR 102623312B1 KR 1020217028874 A KR1020217028874 A KR 1020217028874A KR 20217028874 A KR20217028874 A KR 20217028874A KR 102623312 B1 KR102623312 B1 KR 102623312B1
Authority
KR
South Korea
Prior art keywords
delete delete
sequence
seq
endonuclease
cases
Prior art date
Application number
KR1020217028874A
Other languages
English (en)
Other versions
KR20210139254A (ko
Inventor
브라이언 토마스
크리스토퍼 브라운
로즈 칸터
아우드라 드보토
크리스티나 버터필드
리사 알렉산더
대니엘라 에스 에이 골츠만
제이슨 리우
Original Assignee
메타지노미, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 메타지노미, 인크. filed Critical 메타지노미, 인크.
Priority to KR1020247000311A priority Critical patent/KR20240007322A/ko
Publication of KR20210139254A publication Critical patent/KR20210139254A/ko
Application granted granted Critical
Publication of KR102623312B1 publication Critical patent/KR102623312B1/ko

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • C12N15/902Stable introduction of foreign DNA into chromosome using homologous recombination
    • C12N15/907Stable introduction of foreign DNA into chromosome using homologous recombination in mammalian cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y301/00Hydrolases acting on ester bonds (3.1)
    • C12Y301/21Endodeoxyribonucleases producing 5'-phosphomonoesters (3.1.21)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/50Physical structure
    • C12N2310/53Physical structure partially self-complementary or closed
    • C12N2310/531Stem-loop; Hairpin

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Zoology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Microbiology (AREA)
  • Plant Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Medicinal Chemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Mycology (AREA)
  • Cell Biology (AREA)
  • Enzymes And Modification Thereof (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Immobilizing And Processing Of Enzymes And Microorganisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Peptides Or Proteins (AREA)

Abstract

본 개시내용은 구별되는 도메인 특징을 갖는 엔도뉴클레아제 효소, 및 이러한 효소 또는 그의 변이체를 사용하는 방법을 제공한다.

Description

RUVC 도메인이 존재하는 효소
상호 참조
본 출원은 2019년 2월 14일에 출원되고 발명의 명칭이 "MG1 ENZYMES WITH RUVC DOMAINS"인 미국 특허 가출원 제62/805,868호, 2019년 7월 15일에 출원되고 발명의 명칭이 "MG1 ENZYMES WITH RUVC DOMAINS"인 미국 특허 가출원 제62/874,414호, 2019년 2월 14일에 출원되고 발명의 명칭이 "MG2 ENZYMES CONTAINING RUVC DOMAINS"인 미국 특허 가출원 제62/805,878호, 및 2019년 2월 14일에 출원되고 발명의 명칭이 "MG3 ENZYMES WITH RUVC DOMAINS"인 미국 특허 가출원 제62/805,899호의 이익을 주장하고, 이들 출원은 각각 그 전체가 본 명세서에 참고로 포함된다.
Cas 효소와 연관된 일정한 간격을 두고 주기적으로 분포하는 짧은 회문 반복서열(CRISPR: Clustered Regularly Interspaced Short Palindromic Repeat) 가이드 리보핵산(RNA)과 함께 Cas 효소는 원핵생물 면역계의 만연한(박테리아의 ~45%, 고세균의 ~84%) 성분으로 보이며, CRISPR-RNA 유도 핵산 절단에 의해 감염성 바이러스 및 플라스미드와 같은 비자기 핵산으로부터 상기 미생물을 보호하는 역할을 한다. CRISPR RNA 요소를 코딩하는 데옥시리보핵산(DNA) 요소는 구조 및 길이가 상대적으로 보존될 수 있지만, 그의 CRISPR 연관된(Cas) 단백질은 매우 다양하며, 다양한 핵산 상호작용 도메인을 포함한다. CRISPR DNA 요소는 1987년도에 일찍 관찰되었지만, CRISPR/Cas 복합체의 프로그래밍 가능한 엔도뉴클레아제 절단 능력은 비교적 최근에야 인식되어, 다양한 DNA 조작 및 유전자 편집 응용 분야에서 재조합 CRISPR/Cas 시스템을 사용하게 되었다.
서열 목록
본 출원은 ASCII 형식으로 전자적으로 제출된 서열 목록을 포함하고, 그 전체가 본원에 참고로 포함된다. 2020년 2월 13일에 생성된 상기 ASCII 사본의 명칭은 55921-703_601_SL.txt이고, 크기는 23,363,113 바이트이다.
요약
일부 측면에서, 본 개시내용은 조작된 뉴클레아제 시스템을 제공하며, 상기 시스템은 (a) RuvC_III 도메인 및 HNH 도메인을 포함하는 엔도뉴클레아제로서, 배양되지 않은 미생물로부터 유래되고, 클래스 2, 타입 II Cas 엔도뉴클레아제인 엔도뉴클레아제; 및 (b) (i) 표적 데옥시리보핵산 서열에 혼성화하도록 구성된 가이드 리보핵산 서열; 및 (ii) 엔도뉴클레아제에 결합하도록 구성된 tracr 리보핵산 서열을 포함하는, 엔도뉴클레아제와 복합체를 형성하도록 구성된 조작된 가이드 리보핵산 구조를 포함한다. 일부 실시양태에서, RuvC_III 도메인은 서열 번호(SEQ ID NO) 1827-3637 중 어느 하나에 대해 적어도 70%, 적어도 75%, 적어도 80% 또는 적어도 90%의 서열 동일성을 갖는 서열을 포함한다.
일부 측면에서, 본 개시내용은 조작된 뉴클레아제 시스템을 제공하며, 상기 시스템은 (a) 서열 번호 1827-3637 중 어느 하나에 대해 적어도 75%의 서열 동일성을 갖는 RuvC_III 도메인을 포함하는 엔도뉴클레아제; 및 (b) (i) 표적 데옥시리보핵산 서열에 혼성화하도록 구성된 가이드 리보핵산 서열; 및 (ii) 엔도뉴클레아제에 결합하도록 구성된 tracr 리보핵산 서열을 포함하는, 엔도뉴클레아제와 복합체를 형성하도록 구성된 조작된 가이드 리보핵산 구조를 포함한다.
일부 측면에서, 본 개시내용은 조작된 뉴클레아제 시스템을 제공하며, 상기 시스템은 (a) 서열 번호 5512-5537을 포함하는 프로토스페이서 인접 모티프(PAM: protospacer adjacent motif) 서열에 결합하도록 구성된 엔도뉴클레아제로서, 클래스 2, 타입 II Cas 엔도뉴클레아제인 엔도뉴클레아제; 및 (b) (i) 표적 데옥시리보핵산 서열에 혼성화하도록 구성된 가이드 리보핵산 서열; 및 (ii) 엔도뉴클레아제에 결합하도록 구성된 tracr 리보핵산 서열을 포함하는, 엔도뉴클레아제와 복합체를 형성하도록 구성된 조작된 가이드 리보핵산 구조를 포함한다.
일부 실시양태에서, 엔도뉴클레아제는 배양되지 않은 미생물로부터 유래된 것이다. 일부 실시양태에서, 엔도뉴클레아제는 상이한 PAM 서열에 결합하도록 조작되지 않았다. 일부 실시양태에서, 엔도뉴클레아제는 Cas9 엔도뉴클레아제, Cas14 엔도뉴클레아제, Cas12a 엔도뉴클레아제, Cas12b 엔도뉴클레아제, Cas12c 엔도뉴클레아제, Cas12d 엔도뉴클레아제, Cas12e 엔도뉴클레아제, Cas13a 엔도뉴클레아제, Cas13b 엔도뉴클레아제, Cas13c 엔도뉴클레아제, 또는 Cas13d 엔도뉴클레아제가 아니다. 일부 실시양태에서, 엔도뉴클레아제는 Cas9 엔도뉴클레아제에 대해 80% 미만의 동일성을 갖는다. 일부 실시양태에서, 엔도뉴클레아제는 HNH 도메인을 추가로 포함한다. 일부 실시양태에서, tracr 리보핵산 서열은 서열 번호 5476-5511 및 서열 번호 5538 중 어느 하나로부터 선택되는 약 60 내지 90개의 연속적인 뉴클레오타이드에 대해 적어도 80%의 서열 동일성을 갖는 서열을 포함한다.
일부 측면에서, 본 개시내용은 조작된 뉴클레아제 시스템을 제공하며, 상기 시스템은 (a) 조작된 가이드 리보핵산 구조로서, (i) 표적 데옥시리보핵산 서열에 혼성화하도록 구성된 가이드 리보핵산 서열; 및 (ii) 엔도뉴클레아제에 결합하도록 구성된 tracr 리보핵산 서열을 포함하고, 여기서 tracr 리보핵산 서열은 서열 번호 5476-5511 및 서열 번호 5538 중 어느 하나로부터 선택되는 약 60 내지 90개의 연속적인 뉴클레오타이드에 대해 적어도 80%의 서열 동일성을 갖는 서열을 포함하는 것인 조작된 가이드 리보핵산 구조; 및 (b) 조작된 가이드 리보핵산에 결합하도록 구성된 클래스 2, 타입 II Cas 엔도뉴클레아제를 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 5512-5537을 포함하는 군으로부터 선택되는 프로토스페이서 인접 모티프(PAM) 서열에 결합하도록 구성된다.
일부 실시양태에서, 조작된 가이드 리보핵산 구조는 적어도 2개의 리보핵산 폴리뉴클레오타이드를 포함한다. 일부 실시양태에서, 조작된 가이드 리보핵산 구조는 가이드 리보핵산 서열; 및 tracr 리보핵산 서열을 포함하는 하나의 리보핵산 폴리뉴클레오타이드를 포함한다.
일부 실시양태에서, 가이드 리보핵산 서열은 원핵생물, 박테리아, 고세균, 진핵생물, 진균, 식물, 포유동물, 또는 인간 게놈 서열에 상보성이다. 일부 실시양태에서, 가이드 리보핵산 서열의 길이는 15-24개 뉴클레오타이드이다. 일부 실시양태에서, 엔도뉴클레아제는 엔도뉴클레아제의 N- 또는 C-말단에 근접한 하나 이상의 핵 국소화 서열(NLS: nuclear localization sequence)을 포함한다. 일부 실시양태에서, NLS는 서열 번호 5597-5612로부터 선택되는 서열을 포함한다.
일부 실시양태에서, 조작된 뉴클레아제 시스템은 5'에서 3'으로 표적 데옥시리보핵산 서열의 5'에 적어도 20개의 뉴클레오타이드의 서열을 포함하는 제1 상동성 아암(arm), 적어도 10개의 뉴클레오타이드의 합성 DNA 서열, 및 표적 서열의 3'에 적어도 20개의 뉴클레오타이드의 서열을 포함하는 제2 상동성 아암을 포함하는 단일 가닥 또는 이중 가닥 DNA 복구 주형을 추가로 포함한다. 일부 실시양태에서, 제1 또는 제2 상동성 아암은 적어도 40, 80, 120, 150, 200, 300, 500, 또는 1,000개의 뉴클레오타이드의 서열을 포함한다.
일부 실시양태에서, 시스템은 Mg2+의 공급원을 추가로 포함한다.
일부 실시양태에서, 엔도뉴클레아제 및 tracr 리보핵산 서열은 동일한 문(phylum) 내의 별개의 박테리아 종으로부터 유래된다. 일부 실시양태에서, 엔도뉴클레아제는 더마박터(Dermabacter) 속에 속하는 박테리아로부터 유래된다. 일부 실시양태에서, 엔도뉴클레아제는 베루코미크로비아(Verrucomicrobia) 문, 칸디다투스 페레그리니박테리아(Candidatus Peregrinibacteria) 문, 또는 칸디다투스 멜라이나박테리아(Candidatus Melainabacteria) 문에 속하는 박테리아로부터 유래된다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 5592-5595 중 어느 하나에 대해 적어도 90%의 동일성을 갖는 16S rRNA 유전자를 포함하는 박테리아로부터 유래된다.
일부 실시양태에서, HNH 도메인은 서열 번호 5638-5460 중 어느 하나에 대해 적어도 70% 또는 적어도 80%의 동일성을 갖는 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 1-1826 또는 그에 대해 적어도 55%의 동일성을 갖는 그의 변이체를 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 1827-1830 또는 서열 번호 1827-2140으로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다.
일부 실시양태에서, 엔도뉴클레아제는 서열 번호 3638-3641 또는 서열 번호 3638-3954로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 5615-5632로 이루어지는 군으로부터 선택되는 적어도 1개, 적어도 2개, 적어도 3개, 적어도 4개, 또는 적어도 5개의 펩타이드 모티프를 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 1-4 또는 서열 번호 1-319로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다.
일부 실시양태에서, 가이드 RNA 구조는 서열 번호 5461-5464, 서열 번호 5476-5479, 또는 서열 번호 5476-5489로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 가이드 RNA 구조는 줄기 및 루프로 이루어지는 헤어핀, 및 루프의 4개 염기쌍 내의 비대칭 돌출부를 포함하는 것으로 예측되는 RNA 서열을 포함하고, 여기서 줄기는 적어도 10개, 적어도 12개 또는 적어도 14개의 염기쌍을 이룬 리보뉴클레오타이드를 포함한다.
일부 실시양태에서, 엔도뉴클레아제는 서열 번호 5512-5515 또는 서열 번호 5527-5530으로 이루어지는 군으로부터 선택되는 서열을 포함하는 PAM에 결합하도록 구성된다.
일부 실시양태에서, (a) 엔도뉴클레아제는 서열 번호 1827에 대해 적어도 70%, 적어도 80%, 또는 적어도 90% 동일한 서열을 포함하고; (b) 가이드 RNA 구조는 서열 번호 5461 또는 서열 번호 5476 중 적어도 하나에 대해 적어도 70%, 적어도 80%, 또는 적어도 90% 동일한 서열을 포함하고; (c) 엔도뉴클레아제는 서열 번호 5512 또는 서열 번호 5527을 포함하는 PAM에 결합하도록 구성된다. 일부 실시양태에서, (a) 엔도뉴클레아제는 서열 번호 1828에 대해 적어도 70%, 적어도 80%, 또는 적어도 90% 동일한 서열을 포함하고; (b) 가이드 RNA 구조는 서열 번호 5462 또는 서열 번호 5477 중 적어도 하나에 대해 적어도 70%, 적어도 80%, 또는 적어도 90% 동일한 서열을 포함하고; (c) 엔도뉴클레아제는 서열 번호 5513 또는 서열 번호 5528을 포함하는 PAM에 결합하도록 구성된다. 일부 실시양태에서, (a) 엔도뉴클레아제는 서열 번호 1829에 대해 적어도 70%, 적어도 80%, 또는 적어도 90% 동일한 서열을 포함하고; (b) 가이드 RNA 구조는 서열 번호 5463 또는 서열 번호 5478 중 적어도 하나에 대해 적어도 70%, 적어도 80%, 또는 적어도 90% 동일한 서열을 포함하고; (c) 엔도뉴클레아제는 서열 번호 5514 또는 서열 번호 5529를 포함하는 PAM에 결합하도록 구성된다. 일부 실시양태에서, (a) 엔도뉴클레아제는 서열 번호 1830에 대해 적어도 70%, 적어도 80%, 또는 적어도 90% 동일한 서열을 포함하고; (b) 가이드 RNA 구조는 서열 번호 5464 또는 서열 번호 5479 중 적어도 하나에 대해 적어도 70%, 적어도 80%, 또는 적어도 90% 동일한 서열을 포함하고; (c) 엔도뉴클레아제는 서열 번호 5515 또는 서열 번호 5530을 포함하는 PAM에 결합하도록 구성된다.
일부 실시양태에서, 엔도뉴클레아제는 서열 번호 2141-2142 또는 서열 번호 2141-2241로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 3955-3956 또는 서열 번호 3955-4055로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 5632-5638로 이루어지는 군으로부터 선택되는 적어도 1개, 적어도 2개, 적어도 3개, 적어도 4개, 또는 적어도 5개의 펩타이드 모티프를 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 320-321 또는 서열 번호 320-420으로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 가이드 RNA 구조는 서열 번호 5465, 서열 번호 5490-5491 또는 서열 번호 5490-5494로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 가이드 RNA 구조는 적어도 8개, 적어도 10개, 또는 적어도 12개의 염기쌍을 이룬 리보뉴클레오타이드를 포함하는 헤어핀을 포함하는 tracr 리보핵산 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 5516 및 서열 번호 5531로 이루어지는 군으로부터 선택되는 서열을 포함하는 PAM에 결합하도록 구성된다. 일부 실시양태에서, (a) 엔도뉴클레아제는 서열 번호 2141에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함하고; (b) 가이드 RNA 구조는 서열 번호 5490에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함하고; (c) 엔도뉴클레아제는 서열 번호 5531을 포함하는 PAM에 결합하도록 구성된다. 일부 실시양태에서, (a) 엔도뉴클레아제는 서열 번호 2142에 대해 적어도 70%, 80% 또는 90% 동일한 서열을 포함하고; (b) 가이드 RNA 구조는 서열 번호 5465 또는 서열 번호 5491에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함하고; (c) 엔도뉴클레아제는 서열 번호 5516을 포함하는 PAM에 결합하도록 구성된다.
일부 실시양태에서, 엔도뉴클레아제는 서열 번호 2245-2246으로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 4059-4060으로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 5639-5648로 이루어지는 군으로부터 선택되는 적어도 1개, 적어도 2개, 적어도 3개, 적어도 4개, 또는 적어도 5개의 펩타이드 모티프를 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 424-425로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 가이드 RNA 구조는 5498-5499 및 서열 번호 5539로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 가이드 RNA 구조는 가이드 리보핵산 서열의 적어도 8개의 뉴클레오타이드 및 tracr 리보핵산 서열의 적어도 8개의 뉴클레오타이드를 포함하는 중단되지 않은(uninterrupted) 염기쌍을 이룬 영역을 갖는 헤어핀을 포함하는 것으로 예측되는 가이드 리보핵산 서열을 포함하고, 여기서 tracr 리보핵산 서열은 5'에서 3'으로 제1 헤어핀 및 제2 헤어핀을 포함하고, 제1 헤어핀은 제2 헤어핀보다 긴 줄기를 갖는다.
일부 실시양태에서, 엔도뉴클레아제는 서열 번호 2242-2244 또는 서열 번호 2247-2249로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 4056-4058 및 서열 번호 4061-4063으로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80% 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 5639-5648로 이루어지는 군으로부터 선택되는 적어도 1개, 적어도 2개, 적어도 3개, 적어도 4개, 또는 적어도 5개의 펩타이드 모티프를 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 421-423 또는 서열 번호 426-428로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 가이드 RNA 구조는 서열 번호 5466-5467, 서열 번호 5495-5497, 서열 번호 5500-5502, 및 서열 번호 5539로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 가이드 RNA 구조는 가이드 리보핵산 서열의 적어도 8개의 뉴클레오타이드 및 tracr 리보핵산 서열의 적어도 8개의 뉴클레오타이드를 포함하는 중단되지 않은 염기쌍을 이룬 영역을 갖는 헤어핀을 포함하는 것으로 예측되는 가이드 리보핵산 서열을 포함하고, 여기서 tracr 리보핵산 서열은 5'에서 3'으로 제1 헤어핀 및 제2 헤어핀을 포함하고, 제1 헤어핀은 제2 헤어핀보다 긴 줄기를 갖는다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 5517-5518 또는 서열 번호 5532-5534로 이루어지는 군으로부터 선택되는 서열을 포함하는 PAM에 결합하도록 구성된다. 일부 실시양태에서, (a) 엔도뉴클레아제는 서열 번호 2247에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함하고, (b) 가이드 RNA 구조는 서열 번호 5500에 대해 70%, 80%, 또는 90% 동일한 서열을 포함하고; (c) 엔도뉴클레아제는 서열 번호 5517 또는 서열 번호 5532를 포함하는 PAM에 결합하도록 구성된다. 일부 실시양태에서, (a) 엔도뉴클레아제는 서열 번호 2248에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함하고, (b) 가이드 RNA 구조는 서열 번호 5501에 대해 70%, 80%, 또는 90% 동일한 서열을 포함하고; (c) 엔도뉴클레아제는 서열 번호 5518 또는 서열 번호 5533을 포함하는 PAM에 결합하도록 구성된다. 일부 실시양태에서, (a) 엔도뉴클레아제는 서열 번호 2249에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함하고, (b) 가이드 RNA 구조는 서열 번호 5502에 대해 70%, 80%, 또는 90% 동일한 서열을 포함하고; (c) 엔도뉴클레아제는 서열 번호 5534를 포함하는 PAM에 결합하도록 구성된다.
일부 실시양태에서, 엔도뉴클레아제는 서열 번호 2253 또는 서열 번호 2253-2481로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 4067 또는 서열 번호 4067-4295로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 5649에 따른 펩타이드 모티프를 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 432 또는 서열 번호 432-660으로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 가이드 RNA 구조는 서열 번호 5468 또는 서열 번호 5503으로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 5519로 이루어지는 군으로부터 선택되는 서열을 포함하는 PAM에 결합하도록 구성된다. 일부 실시양태에서, (a) 엔도뉴클레아제는 서열 번호 2253에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함하고; (b) 가이드 RNA 구조는 서열 번호 5468 또는 서열 번호 5503에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함하고; (c) 엔도뉴클레아제는 서열 번호 5519를 포함하는 PAM에 결합하도록 구성된다.
일부 실시양태에서, 엔도뉴클레아제는 서열 번호 2482-2489로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 4296-4303으로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 661-668로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 2490-2498로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 4304-4312로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 669-677로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 가이드 RNA 구조는 서열 번호 5504로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다.
일부 실시양태에서, 엔도뉴클레아제는 서열 번호 2499 또는 서열 번호 2499-2750으로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 4313 또는 서열 번호 4313-4564로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 5650-5667로 이루어지는 군으로부터 선택되는 적어도 1개, 적어도 2개, 적어도 3개, 적어도 4개, 또는 적어도 5개의 펩타이드 모티프를 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 678 또는 서열 번호 678-929로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 가이드 RNA 구조는 서열 번호 5469 또는 서열 번호 5505에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 5520 또는 서열 번호 5535를 포함하는 PAM에 결합하도록 구성된다. 일부 실시양태에서, (a) 엔도뉴클레아제는 서열 번호 2499에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함하고; (b) 가이드 RNA 구조는 서열 번호 5469 또는 서열 번호 5505에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함하고; (c) 엔도뉴클레아제는 서열 번호 5520 또는 서열 번호 5535를 포함하는 PAM에 결합하도록 구성된다.
일부 실시양태에서, 엔도뉴클레아제는 서열 번호 2751 또는 서열 번호 2751-2913으로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 4565 또는 서열 번호 4565-4727로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 5668-5678로 이루어지는 군으로부터 선택되는 적어도 1개, 적어도 2개, 적어도 3개, 적어도 4개, 또는 적어도 5개의 펩타이드 모티프를 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 930 또는 서열 930-1092로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 가이드 RNA 구조는 서열 번호 5470 또는 서열 번호 5506에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 5521 또는 서열 번호 5536으로 이루어지는 군으로부터 선택되는 서열을 포함하는 PAM에 결합하도록 구성된다. 일부 실시양태에서, (a) 엔도뉴클레아제는 서열 번호 2751에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함하고; (b) 가이드 RNA 구조는 서열 번호 5470 또는 서열 번호 5506에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함하고; (c) 엔도뉴클레아제는 서열 번호 5521 또는 서열 번호 5536을 포함하는 PAM에 결합하도록 구성된다.
일부 실시양태에서, 엔도뉴클레아제는 서열 번호 2914 또는 서열 번호 2914-3174로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 4728 또는 서열 번호 4728-4988로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 5676-5678로 이루어지는 군으로부터 선택되는 적어도 1개, 적어도 2개, 또는 적어도 3개의 펩타이드 모티프를 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 1093 또는 서열 번호 1093-1353으로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 가이드 RNA 구조는 서열 번호 5471, 서열 번호 5507, 및 서열 번호 5540-5542로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 가이드 RNA 구조는 5개 미만의 염기쌍을 이룬 리보뉴클레오타이드를 포함하는 적어도 2개의 헤어핀을 포함하는 것으로 예측되는 tracr 리보핵산 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 5522를 포함하는 PAM에 결합하도록 구성된다. 일부 실시양태에서, (a) 엔도뉴클레아제는 서열 번호 2914에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함하고; (b) 가이드 RNA 구조는 서열 번호 5471 또는 서열 번호 5507에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함하고; (c) 엔도뉴클레아제는 서열 번호 5522를 포함하는 PAM에 결합하도록 구성된다.
일부 실시양태에서, 엔도뉴클레아제는 서열 번호 3175 또는 서열 번호 3175-3330으로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 4989 또는 서열 번호 4989-5146으로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 5679-5686으로 이루어지는 군으로부터 선택되는 적어도 1개, 적어도 2개, 적어도 3개, 적어도 4개, 또는 적어도 5개의 펩타이드 모티프를 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 1354 또는 서열 번호 1354-1511로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 가이드 RNA 구조는 서열 번호 5472 또는 서열 번호 5508로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 5523 또는 서열 번호 5537로 이루어지는 군으로부터 선택되는 서열을 포함하는 PAM에 결합하도록 구성된다. 일부 실시양태에서, (a) 엔도뉴클레아제는 서열 번호 3175에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함하고; (b) 가이드 RNA 구조는 서열 번호 5472 또는 서열 번호 5508에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함하고; (c) 엔도뉴클레아제는 서열 번호 5523 또는 서열 번호 5537을 포함하는 PAM에 결합하도록 구성된다.
일부 실시양태에서, 엔도뉴클레아제는 서열 번호 3331 또는 서열 번호 3331-3474로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 5147 또는 서열 번호 5147-5290으로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 5674-5675 및 서열 번호 5687-5693으로 이루어지는 군으로부터 선택되는 적어도 1개, 적어도 2개, 적어도 3개, 적어도 4개, 또는 적어도 5개의 펩타이드 모티프를 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 1512 또는 서열 번호 1512-1655로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 가이드 RNA 구조는 서열 번호 5473 또는 서열 번호 5509로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 5524를 포함하는 PAM에 결합하도록 구성된다. 일부 실시양태에서, (a) 엔도뉴클레아제는 서열 번호 3331에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함하고; (b) 가이드 RNA 구조는 서열 번호 5473 또는 서열 번호 5509에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함하고; (c) 엔도뉴클레아제는 서열 번호 5524를 포함하는 PAM에 결합하도록 구성된다.
일부 실시양태에서, 엔도뉴클레아제는 서열 번호 3475 또는 서열 번호 3475-3568로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 5291 또는 서열 번호 5291-5389로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 5694-5699로 이루어지는 군으로부터 선택되는 적어도 1개, 적어도 2개, 적어도 3개, 적어도 4개, 또는 적어도 5개의 펩타이드 모티프를 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 1656 또는 서열 번호 1656-1755로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 가이드 RNA 구조는 서열 번호 5474 또는 서열 번호 5510에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 5525를 포함하는 PAM에 결합하도록 구성된다. 일부 실시양태에서, (a) 엔도뉴클레아제는 서열 번호 3475에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함하고; (b) 가이드 RNA 구조는 서열 번호 5474 또는 서열 번호 5510에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함하고; (c) 엔도뉴클레아제는 서열 번호 5525를 포함하는 PAM에 결합하도록 구성된다.
일부 실시양태에서, 엔도뉴클레아제는 서열 번호 3569 또는 서열 번호 3569-3637로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 5390 또는 서열 번호 5390-5460으로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 5700-5717로 이루어지는 군으로부터 선택되는 적어도 1개, 적어도 2개, 적어도 3개, 적어도 4개, 또는 적어도 5개의 펩타이드 모티프를 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 1756 또는 서열 번호 1756-1826으로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 가이드 RNA 구조는 서열 번호 5475 또는 서열 번호 5511에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 5526을 포함하는 PAM에 결합하도록 구성된다. 일부 실시양태에서, (a) 엔도뉴클레아제는 서열 번호 3569에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함하고; (b) 가이드 RNA 구조는 서열 번호 5475 또는 서열 번호 5511에 대해 적어도 70%, 80%, 또는 90% 동일한 서열을 포함하고; (c) 엔도뉴클레아제는 서열 번호 5526을 포함하는 PAM에 결합하도록 구성된다. 일부 실시양태에서, 서열 동일성은 BLASTP, CLUSTALW, MUSCLE, MAFFT, 또는 스미스-워터만(Smith-Waterman) 상동성 검색 알고리즘에 의해 결정될 수 있다. 일부 실시양태에서, 서열 동일성은 단어 길이(W) 3, 기대값(E) 10, BLOSUM62 스코어링 매트릭스 설정 갭 코스트(gap cost)(기존(existence) 11, 연장(extension) 1) 및 조건부 조합 점수 매트릭스 조정(conditional compositional score matrix adjustment)을 사용하여 BLASTP 상동성 검색 알고리즘에 의해 결정된다.
일부 측면에서, 본 개시내용은 조작된 가이드 리보핵산 폴리뉴클레오타이드를 제공하고, 상기 폴리뉴클레오타이드는 (a) 표적 DNA 분자의 표적 서열에 상보성인 뉴클레오타이드 서열을 포함하는 DNA-표적화 세그먼트; 및 (b) 이중 가닥 RNA(dsRNA) 이중체를 형성하도록 혼성화하는 뉴클레오타이드의 2개의 상보성 스트레치를 포함하는 단백질-결합 세그먼트를 포함하고, 여기서 뉴클레오타이드의 2개의 상보성 스트레치는 개재하는 뉴클레오타이드로 서로 공유 연결되고, 조작된 가이드 리보핵산 뉴클레오타이드는 서열 번호 1827-3637 중 어느 하나에 대해 적어도 75%의 서열 동일성을 갖는 RuvC_III 도메인을 포함하는 엔도뉴클레아제와 복합체를 형성하고 복합체를 표적 DNA 분자의 표적 서열에 대해 표적화하도록 구성된다. 일부 실시양태에서, DNA-표적화 세그먼트는 뉴클레오타이드의 2개의 상보성 스트레치 둘 모두의 5'에 위치한다.
일부 실시양태에서, (a) 단백질 결합 세그먼트는 서열 번호 5476-5479 또는 서열 번호 5476-5489로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 적어도 80%, 또는 적어도 90%의 동일성을 갖는 서열을 포함하거나; (b) 단백질 결합 세그먼트는 (서열 번호 5490-5491 또는 서열 번호 5490 -5494) 및 서열 번호 5538로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 적어도 80%, 또는 적어도 90%의 동일성을 갖는 서열을 포함하거나; (c) 단백질 결합 세그먼트는 서열 번호 5498-5499로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 적어도 80%, 또는 적어도 90%의 동일성을 갖는 서열을 포함하거나; (d) 단백질 결합 세그먼트는 서열 번호 5495-5497 및 서열 번호 5500-5502로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 적어도 80%, 또는 적어도 90%의 동일성을 갖는 서열을 포함하거나; (e) 단백질 결합 세그먼트는 서열 번호 5503에 대해 적어도 70%, 적어도 80%, 또는 적어도 90%의 동일성을 갖는 서열을 포함하거나; (f) 단백질 결합 세그먼트는 서열 번호 5504에 대해 적어도 70%, 적어도 80%, 또는 적어도 90%의 동일성을 갖는 서열을 포함하거나; (g) 단백질 결합 세그먼트는 서열 번호 5505에 대해 적어도 70%, 적어도 80%, 또는 적어도 90%의 동일성을 갖는 서열을 포함하거나; (h) 단백질 결합 세그먼트는 서열 번호 5506에 대해 적어도 70%, 적어도 80%, 또는 적어도 90%의 동일성을 갖는 서열을 포함하거나; (i) 단백질 결합 세그먼트는 서열 번호 5507에 대해 적어도 70%, 적어도 80%, 또는 적어도 90%의 동일성을 갖는 서열을 포함하거나; (j) 단백질 결합 세그먼트는 서열 번호 5508에 대해 적어도 70%, 적어도 80%, 또는 적어도 90%의 동일성을 갖는 서열을 포함하거나; (k) 단백질 결합 세그먼트는 서열 번호 5509에 대해 적어도 70%, 적어도 80%, 또는 적어도 90%의 동일성을 갖는 서열을 포함하거나; (l) 단백질 결합 세그먼트는 서열 번호 5510에 대해 적어도 70%, 적어도 80%, 또는 적어도 90%의 동일성을 갖는 서열을 포함하거나; 또는 (m) 단백질 결합 세그먼트는 서열 번호 5511에 대해 적어도 70%, 적어도 80%, 또는 적어도 90%의 동일성을 갖는 서열을 포함한다.
일부 실시양태에서, (a) 가이드 리보핵산 폴리뉴클레오타이드는 줄기 및 루프를 포함하는 헤어핀, 및 루프의 4개 염기쌍 내의 비대칭 돌출부를 포함하는 RNA 서열을 포함하고, 여기서 줄기는 적어도 10개, 적어도 12개 또는 적어도 14개의 염기쌍을 이룬 리보뉴클레오타이드를 포함하거나; (b) 가이드 리보핵산 폴리뉴클레오타이드는 적어도 8개, 적어도 10개, 또는 적어도 12개의 염기쌍을 이룬 리보뉴클레오타이드를 포함하는 헤어핀을 포함하는 것으로 예측되는 tracr 리보핵산 서열을 포함하거나; (c) 가이드 리보핵산 폴리뉴클레오타이드는 가이드 리보핵산 서열의 적어도 8개의 뉴클레오타이드 및 tracr 리보핵산 서열의 적어도 8개의 뉴클레오타이드를 포함하는 중단되지 않은 염기쌍을 이룬 영역을 갖는 헤어핀을 포함하는 것으로 예측되는 가이드 리보핵산 서열을 포함하고, 여기서 tracr 리보핵산 서열은 5'에서 3'으로 제1 헤어핀 및 제2 헤어핀을 포함하고, 제1 헤어핀은 제2 헤어핀보다 긴 줄기를 갖거나; (d) 가이드 리보핵산 폴리뉴클레오타이드는 5개 미만의 염기쌍을 이룬 리보뉴클레오타이드를 포함하는 적어도 2개의 헤어핀을 포함하는 것으로 예측되는 tracr 리보핵산 서열을 포함한다.
일부 측면에서, 본 개시내용은 본원에서 설명되는 조작된 가이드 리보핵산 폴리뉴클레오타이드 중 어느 하나를 코딩하는 데옥시리보핵산 폴리뉴클레오타이드를 제공한다.
일부 측면에서, 본 개시내용은 유기체에서의 발현을 위해 최적화된 조작된 핵산 서열을 포함하는 핵산을 제공하며, 여기서 핵산은 RuvC_III 도메인 및 HNH 도메인을 포함하는 클래스 2, 타입 II Cas 엔도뉴클레아제를 코딩하고, 엔도뉴클레아제는 배양되지 않은 미생물로부터 유래된 것이다.
일부 측면에서, 본 개시내용은 유기체에서의 발현을 위해 최적화된 조작된 핵산 서열을 포함하는 핵산을 제공하며, 여기서 핵산은 서열 번호 1827-3637 중 어느 하나에 대해 적어도 70%의 서열 동일성을 갖는 RuvC_III 도메인을 포함하는 엔도뉴클레아제를 코딩한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 3638-5460 중 어느 하나에 대해 적어도 70% 또는 적어도 80%의 서열 동일성을 갖는 HNH 도메인을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 서열 번호 5572-5591 또는 그에 대해 적어도 70%의 서열 동일성을 갖는 그의 변이체를 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 엔도뉴클레아제의 N- 또는 C-말단에 근접한 하나 이상의 핵 국소화 서열(NLS)을 코딩하는 서열을 포함한다. 일부 실시양태에서, NLS는 서열 번호 5597-5612로부터 선택되는 서열을 포함한다.
일부 실시양태에서, 유기체는 원핵생물, 박테리아, 진핵생물, 진균, 식물, 포유동물, 설치류, 또는 인간이다. 일부 실시양태에서, 유기체는 이. 콜라이(E. coli)이고, (a) 핵산 서열은 서열 번호 5572-5575로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90%의 동일성을 갖거나; (b) 핵산 서열은 서열 번호 5576-5577로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90%의 동일성을 갖거나; (c) 핵산 서열은 서열 번호 5578-5580으로 이루어지는 군으로부터 선택되는 서열에 대해 적어도 70%, 80%, 또는 90%의 동일성을 갖거나; (d) 핵산 서열은 서열 번호 5581에 대해 적어도 70%, 80%, 또는 90%의 동일성을 갖거나; (e) 핵산 서열은 서열 번호 5582에 대해 적어도 70%, 80%, 또는 90%의 동일성을 갖거나; (f) 핵산 서열은 서열 번호 5583에 대해 적어도 70%, 80%, 또는 90%의 동일성을 갖거나; (g) 핵산 서열은 서열 번호 5584에 대해 적어도 70%, 80%, 또는 90%의 동일성을 갖거나; (h) 핵산 서열은 서열 번호 5585에 대해 적어도 70%, 80%, 또는 90%의 동일성을 갖거나; (i) 핵산 서열은 서열 번호 5586에 대해 적어도 70%, 80%, 또는 90%의 동일성을 갖거나; 또는 (j) 핵산 서열은 서열 번호 5587에 대해 적어도 70%, 80%, 또는 90%의 동일성을 갖는다. 일부 실시양태에서, 유기체는 인간이고, (a) 핵산 서열은 서열 번호 5588 또는 서열 번호 5589에 대해 적어도 70%, 80%, 또는 90% 동일성을 갖거나; (b) 핵산 서열은 서열 번호 5590 또는 서열 번호 5591에 대해 적어도 70%, 80%, 또는 90%의 동일성을 갖는다.
일부 측면에서, 본 개시내용은 RuvC_III 도메인 및 HNH 도메인을 포함하는 클래스 2, 타입 II Cas 엔도뉴클레아제를 코딩하는 핵산 서열을 포함하는 벡터를 제공하며, 여기서 엔도뉴클레아제는 배양되지 않은 미생물로부터 유래된 것이다.
일부 측면에서, 본 개시내용은 본원에서 설명되는 임의의 핵산을 포함하는 벡터를 제공한다. 일부 실시양태에서, 벡터는 (a) 표적 데옥시리보핵산 서열에 혼성화하도록 구성된 가이드 리보핵산 서열; 및 (b) 엔도뉴클레아제에 결합하도록 구성된 tracr 리보핵산 서열을 포함하는, 엔도뉴클레아제와 복합체를 형성하도록 구성된 조작된 가이드 리보핵산 구조를 포함한다. 일부 실시양태에서, 벡터는 플라스미드, 미니서클, CELiD, 아데노 관련 바이러스(AAV) 유래 비리온, 또는 렌티바이러스이다.
일부 측면에서, 본 개시내용은 본원에서 설명되는 임의의 벡터를 포함하는 세포를 제공한다.
일부 측면에서, 본 개시내용은 본원에서 설명되는 임의의 세포를 배양하는 것을 포함하는, 엔도뉴클레아제를 제조하는 방법을 제공한다.
일부 측면에서, 본 개시내용은 이중 가닥 데옥시리보핵산 폴리뉴클레오타이드를 결합, 절단, 마킹 또는 변형하는 방법을 제공하고, 상기 방법은 (a) 클래스 2, 타입 II Cas 엔도뉴클레아제 및 상기 이중 가닥 데옥시리보핵산 폴리뉴클레오타이드에 결합하도록 구성된 조작된 가이드 리보핵산 구조와 복합체를 형성한 상기 엔도뉴클레아제를 상기 이중 가닥 데옥시리보핵산 폴리뉴클레오타이드와 접촉시키는 단계를 포함하고; (b) 여기서, 이중 가닥 데옥시리보핵산 폴리뉴클레오타이드는 프로토스페이서 인접 모티프(PAM)를 포함하고; (c) 여기서, PAM은 서열 번호 5512-5526 또는 서열 번호 5527-5537로 이루어지는 군으로부터 선택되는 서열을 포함한다. 일부 실시양태에서, 이중 가닥 데옥시리보핵산 폴리뉴클레오타이드는 조작된 가이드 리보핵산 구조의 서열에 상보성인 서열을 포함하는 제1 가닥 및 PAM을 포함하는 제2 가닥을 포함한다. 일부 실시양태에서, PAM은 조작된 가이드 리보핵산 구조의 서열에 상보성인 서열의 3' 말단에 직접 인접한다.
일부 실시양태에서, 클래스 2, 타입 II Cas 엔도뉴클레아제는 Cas9 엔도뉴클레아제, Cas14 엔도뉴클레아제, Cas12a 엔도뉴클레아제, Cas12b 엔도뉴클레아제, Cas12c 엔도뉴클레아제, Cas12d 엔도뉴클레아제, Cas12e 엔도뉴클레아제, Cas13a 엔도뉴클레아제, Cas13b 엔도뉴클레아제, Cas13c 엔도뉴클레아제 또는 Cas13d 엔도뉴클레아제가 아니다. 일부 실시양태에서, 클래스 2, 타입 II Cas 엔도뉴클레아제는 배양되지 않은 미생물로부터 유래된 것이다. 일부 실시양태에서, 이중 가닥 데옥시리보핵산 폴리뉴클레오타이드는 진핵생물, 식물, 진균, 포유동물, 설치류, 또는 인간 이중 가닥 데옥시리보핵산 폴리뉴클레오타이드이다.
일부 실시양태에서, (a) PAM은 서열 번호 5512-5515 및 서열 번호 5527-5530으로 이루어지는 군으로부터 선택되는 서열을 포함하거나; (b) PAM은 서열 번호 5516 또는 서열 번호 5531을 포함하거나; (c) PAM은 서열 번호 5539를 포함하거나; (d) PAM은 서열 번호 5517 또는 서열 번호 5518을 포함하거나; (e) PAM은 서열 번호 5519를 포함하거나; (f) PAM은 서열 번호 5520 또는 서열 번호 5535를 포함하거나; (g) PAM은 서열 번호 5521 또는 서열 번호 5536을 포함하거나; (h) PAM은 서열 번호 5522를 포함하거나; (i) PAM은 서열 번호 5523 또는 서열 번호 5537을 포함하거나; (j) PAM은 서열 번호 5524를 포함하거나; (k) PAM은 서열 번호 5525를 포함하거나; 또는 (l) PAM은 서열 번호 5526을 포함한다.
일부 측면에서, 본 개시내용은 표적 핵산 유전자좌를 변형하는 방법을 제공하며, 상기 방법은 본원에서 설명되는 임의의 조작된 뉴클레아제 시스템을 표적 핵산 유전자좌에 전달하는 것을 포함하고, 여기서 엔도뉴클레아제는 조작된 가이드 리보핵산 구조와 복합체를 형성하도록 구성되고, 여기서 복합체는 복합체가 표적 핵산 유전자좌에 결합할 때 복합체가 표적 핵산 유전자좌를 변형하도록 구성된다. 일부 실시양태에서, 표적 핵산 유전자좌를 변형하는 것은 표적 핵산 유전자좌를 결합, 니킹(nicking), 절단 또는 마킹하는 것을 포함한다. 일부 실시양태에서, 표적 핵산 유전자좌는 데옥시리보핵산(DNA) 또는 리보핵산(RNA)을 포함한다. 일부 실시양태에서, 표적 핵산은 게놈 DNA, 바이러스 DNA, 바이러스 RNA, 또는 박테리아 DNA를 포함한다. 일부 실시양태에서, 표적 핵산 유전자좌는 시험관 내에 존재한다. 일부 실시양태에서, 표적 핵산 유전자좌는 세포 내에 존재한다. 일부 실시양태에서, 세포는 원핵 세포, 박테리아 세포, 진핵 세포, 진균 세포, 식물 세포, 동물 세포, 포유동물 세포, 설치류 세포, 영장류 세포, 또는 인간 세포이다.
일부 실시양태에서, 조작된 뉴클레아제 시스템을 표적 핵산 유전자좌로 전달하는 것은 제135항 내지 제140항 중 어느 한 항의 핵산 또는 제142항 내지 제146항 중 어느 한 항의 벡터를 전달하는 것을 포함한다. 일부 실시양태에서, 조작된 뉴클레아제 시스템을 표적 핵산 유전자좌로 전달하는 것은 엔도뉴클레아제를 코딩하는 개방 해독 프레임을 포함하는 핵산을 전달하는 것을 포함한다. 일부 실시양태에서, 핵산은 엔도뉴클레아제를 코딩하는 개방 해독 프레임이 작동 가능하게 연결된 프로모터를 포함한다. 일부 실시양태에서, 조작된 뉴클레아제 시스템을 표적 핵산 유전자좌로 전달하는 것은 엔도뉴클레아제를 코딩하는 개방 해독 프레임을 함유하는 캡핑된 mRNA를 전달하는 것을 포함한다. 일부 실시양태에서, 조작된 뉴클레아제 시스템을 표적 핵산 유전자좌로 전달하는 것은 번역된 폴리펩타이드를 전달하는 것을 포함한다. 일부 실시양태에서, 조작된 뉴클레아제 시스템을 표적 핵산 유전자좌로 전달하는 것은 리보핵산(RNA) pol III 프로모터에 작동 가능하게 연결된 조작된 가이드 리보핵산 구조를 코딩하는 데옥시리보핵산(DNA)을 전달하는 것을 포함한다. 일부 실시양태에서, 엔도뉴클레아제는 표적 유전자좌에서 또는 표적 유전자좌에 근접하여 단일 가닥 파손 또는 이중 가닥 파손을 유도한다.
본 개시내용의 추가의 측면 및 이점은 본 개시내용의 예시적인 실시양태만이 제시되고 설명되는 다음의 상세한 설명으로부터 관련 기술 분야의 통상의 기술자에게 용이하게 명백해질 것이다. 알 수 있는 바와 같이, 본 개시내용은 다른 및 상이한 실시양태가 가능하고, 그에 대한 여러 세부사항은 개시내용으로부터 벗어나지 않으면서 다양한 명백한 측면에서 변형될 수 있다. 따라서, 도면 및 설명은 본질적으로 예시적인 것으로 간주되어야 하며, 제한적인 것으로 간주되지 않아야 한다.
참조에 의한 통합
본 명세서에 언급된 모든 간행물, 특허 및 특허 출원은 마치 각각의 개별 간행물, 특허 또는 특허 출원이 참조로 포함된다고 구체적이고 개별적으로 표시된 것과 동일한 정도로 본 명세서에 참조로 포함된다.
본 발명의 신규한 특징은 첨부된 청구범위에서 구체적으로 제시된다. 본 발명의 특징 및 이점에 대한 더 나은 이해는 본 발명의 원리가 활용되는 예시적인 실시양태를 제시하는 다음의 상세한 설명, 및 첨부 도면(또한 "도면" 및 "도")을 참고로 하여 가능할 것이다:
도 1은 상이한 클래스 및 타입의 CRISPR/Cas 유전자좌의 전형적인 구조를 도시한 것이다.
도 2는 천연 클래스2/타입 II crRNA/tracrRNA 쌍의 구조를, 둘 모두가 결합된 하이브리드 sgRNA와 비교하여 도시한 것이다.
도 3은 MG1 패밀리로부터의 효소를 코딩하는 CRISPR 유전자좌의 조직을 보여주는 개략도를 도시한 것이다.
도 4는 MG2 패밀리로부터의 효소를 코딩하는 CRISPR 유전자좌의 조직을 보여주는 개략도를 도시한 것이다.
도 5는 MG3 패밀리로부터의 효소를 코딩하는 CRISPR 유전자좌의 조직을 보여주는 개략도를 도시한 것이다.
도 6은 본 개시내용의 효소(MG1-1) 대 스타필로코커스 아우레우스(Staphylococcus aureus)(서열 번호 5613)로부터의 Cas9의 구조 기반 정렬을 도시한 것이다.
도 7은 본 개시내용의 효소(MG2-1) 대 스타필로코커스 아우레우스(서열 번호 5613)로부터의 Cas9의 구조 기반 정렬을 도시한 것이다.
도 8은 본 개시내용의 효소(MG3-1) 대 악티노마이세스 나에슬룬디(Actinomyces naeslundii)로부터의 Cas9(서열 번호 5614)의 구조 기반 정렬을 도시한 것이다.
도 9a, 9b, 9c, 9d, 9e, 9f, 9g 및 9h는 MG1 패밀리 효소 MG1-1 내지 MG1-6(서열 번호 5, 6, 9, 1, 2, 3)의 구조 기반 정렬을 도시한 것이다.
도 10은 다양한 길이의 표적화 서열을 포함하는 상응하는 그의 sgRNA와 복합체를 형성한 MG1-4에 의한 DNA의 시험관내 절단을 도시한 것이다.
도 11은 상응하는 sgRNA와 함께 MG1-4를 사용한 이. 콜라이 게놈 DNA의 세포내 절단을 도시한 것이다. 표적 또는 비표적 스페이서(상단)와 함께 MG1-4로 형질전환된 세포의 희석 시리즈가 도시되어 있으며; 하단 패널은 정량된 데이터를 보여주고, 여기서 왼쪽 막대는 비표적 sgRNA를 나타내고, 오른쪽 막대는 표적 sgRNA를 나타낸다.
도 12는 인간 게놈의 다양한 위치를 표적으로 하는 다양한 상이한 표적화 서열을 함유하는 그의 상응하는 sgRNA와 함께 실시예 11에서 설명되는 MG1-4 또는 MG1-6 구축물로 HEK 세포를 형질감염시킴으로써 생성된 세포내 삽입결실(indel) 형성을 도시한 것이다.
도 13은 다양한 길이의 표적화 서열을 함유하는 그의 상응하는 sgRNA와 복합체를 형성한 MG3-6에 의한 DNA의 시험관내 절단을 도시한 것이다.
도 14는 그의 상응하는 sgRNA와 함께 MG3-7을 사용한 이. 콜라이 게놈 DNA의 세포내 절단을 도시한 것이다. 표적 또는 비표적 스페이서(상단)와 함께 MG3-7로 형질전환된 세포의 희석 시리즈가 도시되어 있으며; 하단 패널은 정량된 데이터를 보여주고, 여기서 왼쪽 막대는 비표적 sgRNA를 나타내고, 오른쪽 막대는 표적 sgRNA를 나타낸다.
도 15는 인간 게놈의 다양한 위치를 표적으로 하는 다양한 상이한 표적화 서열을 함유하는 그의 상응하는 sgRNA와 함께 실시예 13에서 설명되는 MG3-7 구축물로 HEK 세포를 형질감염시킴으로써 생성된 세포내 삽입결실 형성을 도시한 것이다.
도 16은 다양한 길이의 표적화 서열을 함유하는 그의 상응하는 sgRNA와 복합체를 형성한 MG15-1에 의한 DNA의 시험관내 절단을 도시한 것이다.
도 17, 18, 19 및 20은 다양한 MG 패밀리 뉴클레아제 및 이들의 상응하는 tracrRNA 또는 sgRNA를 함유하는 TXTL 추출물의 존재 하에 PAM 벡터 라이브러리 절단의 결과를 보여주는 아가로스 겔을 도시한 것이다.
도 21, 22, 23, 24, 25 및 26은 본원에서 설명되는 MG 효소의 상응하는 sgRNA의 예측된 구조(예를 들어, 실시예 7에서와 같이 예측된)를 도시한 것이다.
도 27, 28, 29, 30, 31, 32 및 33은 본원에서 설명되는 바와 같은(예를 들어, 실시예 6에서 설명되는 바와 같은) NGS를 통해 유도된 PAM 서열의 seqLogo 표현을 도시한 것이다.
도 34는 그의 상응하는 sgRNA와 함께 MG2-7을 사용한 이. 콜라이 게놈 DNA의 세포내 절단을 도시한 것이다. 표적 또는 비표적 스페이서(상단)와 함께 MG2-7로 형질전환된 세포의 희석 시리즈가 도시되어 있으며; 하단 패널은 정량된 데이터를 보여주고, 여기서 오른쪽 막대는 비표적 sgRNA를 나타내고, 왼쪽 막대는 표적 sgRNA를 나타낸다.
도 35는 그의 상응하는 sgRNA와 함께 MG14-1을 사용한 이. 콜라이 게놈 DNA의 세포내 절단을 도시한 것이다. 표적 또는 비표적 스페이서(상단)와 함께 MG14-1로 형질전환된 세포의 희석 시리즈가 도시되어 있으며; 하단 패널은 정량된 데이터를 보여주고, 여기서 오른쪽 막대는 비표적 sgRNA를 나타내고, 왼쪽 막대는 표적 sgRNA를 나타낸다.
도 36은 그의 상응하는 sgRNA와 함께 MG15-1을 사용한 이. 콜라이 게놈 DNA의 세포내 절단을 도시한 것이다. 표적 또는 비표적 스페이서(상단)와 함께 MG15-1로 형질전환된 세포의 희석 시리즈가 도시되어 있으며; 하단 패널은 정량된 데이터를 보여주고, 여기서 오른쪽 막대는 비표적 sgRNA를 나타내고, 왼쪽 막대는 표적 sgRNA를 나타낸다.
서열 목록의 간단한 설명
본원과 함께 제출된 서열 목록은 본 개시내용에 따른 방법, 조성물 및 시스템에서 사용하기 위한 예시적인 폴리뉴클레오타이드 및 폴리펩타이드 서열을 제공한다. 다음은 서열 목록 내의 서열에 대한 예시적인 설명이다.
MG1
서열 번호 1-319는 MG1 뉴클레아제의 전장 펩타이드 서열을 나타낸다.
서열 번호 1827-2140은 상기 MG1 뉴클레아제의 RuvC_III 도메인의 펩타이드 서열을 나타낸다.
서열 번호 3638-3955는 상기 MG1 뉴클레아제의 HNH 도메인의 펩타이드를 나타낸다.
서열 번호 5476-5479는 상기 MG1 뉴클레아제와 동일한 유전자좌(예를 들어, 각각 서열 번호 1-4와 동일한 유전자좌)로부터 유래된 MG1 tracrRNA의 뉴클레오타이드 서열을 나타낸다.
서열 번호 5461-5464는 MG1 뉴클레아제(예를 들어, 각각 서열 번호 1-4)와 함께 기능하도록 조작된 sgRNA의 뉴클레오타이드 서열을 나타내며, 여기서 N은 표적화 서열의 뉴클레오타이드를 나타낸다.
서열 번호 5572-5575는 MG1 패밀리 효소(서열 번호 1-4)에 대한 이. 콜라이 코돈 최적화된 코딩 서열에 대한 뉴클레오타이드 서열을 나타낸다.
서열 번호 5588-5589는 MG1 패밀리 효소(서열 번호 1 및 3)에 대한 인간 코돈 최적화된 코딩 서열에 대한 뉴클레오타이드 서열을 나타낸다.
서열 번호 5616-5632는 MG1 패밀리 효소의 특징인 펩타이드 모티프를 나타낸다.
MG2
서열 번호 320-420은 MG2 뉴클레아제의 전장 펩타이드 서열을 나타낸다.
서열 번호 2141-2241은 상기 MG2 뉴클레아제의 RuvC_III 도메인의 펩타이드 서열을 나타낸다.
서열 번호 3955-4055는 상기 MG2 뉴클레아제의 HNH 도메인의 펩타이드를 나타낸다.
서열 번호 5490-5494는 상기 MG2 뉴클레아제와 동일한 유전자좌(예를 들어, 각각 서열 번호 320, 321, 323, 325, 및 326과 동일한 유전자좌)로부터 유래된 MG2 tracrRNA의 뉴클레오타이드 서열을 나타낸다.
서열 번호 5465는 MG2 뉴클레아제(예를 들어, 상기 서열 번호 321)와 함께 기능하도록 조작된 sgRNA의 뉴클레오타이드 서열을 보여준다.
서열 번호 5572-5575는 MG2 패밀리 효소에 대한 이. 콜라이 코돈 최적화된 코딩 서열에 대한 뉴클레오타이드 서열을 나타낸다.
서열 번호 5631-5638은 MG2 패밀리 효소의 특징적인 펩타이드 서열을 나타낸다.
MG3
서열 번호 421-431은 MG3 뉴클레아제의 전장 펩타이드 서열을 나타낸다.
서열 번호 2242-2251은 상기 MG3 뉴클레아제의 RuvC_III 도메인의 펩타이드 서열을 나타낸다.
서열 번호 4056-4066은 상기 MG3 뉴클레아제의 HNH 도메인의 펩타이드를 나타낸다.
서열 번호 5495-5502는 상기 MG3 뉴클레아제와 동일한 유전자좌(예를 들어, 각각 서열 번호 421-428과 동일한 유전자좌)로부터 유래된 MG3 tracrRNA의 뉴클레오타이드 서열을 나타낸다.
서열 번호 5466-5467은 MG3 뉴클레아제(예를 들어, 서열 번호 421-423)와 함께 기능하도록 조작된 sgRNA의 뉴클레오타이드 서열을 보여준다.
서열 번호 5578-5580은 MG3 패밀리 효소에 대한 이. 콜라이 코돈 최적화된 코딩 서열에 대한 뉴클레오타이드 서열을 나타낸다.
서열 번호 5639-5648은 MG3 패밀리 효소의 특징적인 펩타이드 서열을 나타낸다.
MG4
서열 번호 432-660은 MG4 뉴클레아제의 전장 펩타이드 서열을 나타낸다.
서열 번호 2253-2481은 상기 MG4 뉴클레아제의 RuvC_III 도메인의 펩타이드 서열을 나타낸다.
서열 번호 4067-4295는 상기 MG4 뉴클레아제의 HNH 도메인의 펩타이드를 나타낸다.
서열 번호 5503은 상기 MG4 뉴클레아제와 동일한 유전자좌로부터 유래된 MG4 tracrRNA의 뉴클레오타이드 서열을 나타낸다.
서열 번호 5468은 MG4 뉴클레아제와 함께 기능하도록 조작된 sgRNA의 뉴클레오타이드 서열을 보여준다.
서열 번호 5649는 MG4 패밀리 효소의 특징적인 펩타이드 서열을 나타낸다.
MG6
서열 번호 661-668은 MG6 뉴클레아제의 전장 펩타이드 서열을 나타낸다.
서열 번호 2482-2489는 상기 MG6 뉴클레아제의 RuvC_III 도메인의 펩타이드 서열을 나타낸다.
서열 번호 4296-4303은 상기 MG3 뉴클레아제의 HNH 도메인의 펩타이드를 나타낸다.
MG7
서열 번호 669-677은 MG7 뉴클레아제의 전장 펩타이드 서열을 나타낸다.
서열 번호 2490-2498은 상기 MG7 뉴클레아제의 RuvC_III 도메인의 펩타이드 서열을 나타낸다.
서열 번호 4304-4312는 상기 MG3 뉴클레아제의 HNH 도메인의 펩타이드를 나타낸다.
서열 번호 5504는 상기 MG7 뉴클레아제와 동일한 유전자좌로부터 유래된 MG7 tracrRNA의 뉴클레오타이드 서열을 나타낸다.
MG14
서열 번호 678-929는 MG14 뉴클레아제의 전장 펩타이드 서열을 나타낸다.
서열 번호 2499-2750은 상기 MG14 뉴클레아제의 RuvC_III 도메인의 펩타이드 서열을 나타낸다.
서열 번호 4313-4564는 상기 MG14 뉴클레아제의 HNH 도메인의 펩타이드를 나타낸다.
서열 번호 5505는 상기 MG14 뉴클레아제와 동일한 유전자좌로부터 유래된 MG14 tracrRNA의 뉴클레오타이드 서열을 나타낸다.
서열 번호 5581은 MG14 패밀리 효소에 대한 이. 콜라이 코돈 최적화된 코딩 서열에 대한 뉴클레오타이드 서열을 나타낸다.
서열 번호 5650-5667은 MG14 패밀리 효소의 특징적인 펩타이드 서열을 나타낸다.
MG15
서열 번호 930-1092는 MG15 뉴클레아제의 전장 펩타이드 서열을 나타낸다.
서열 번호 2751-2913은 상기 MG15 뉴클레아제의 RuvC_III 도메인의 펩타이드 서열을 나타낸다.
서열 번호 4565-4727은 상기 MG15 뉴클레아제의 HNH 도메인의 펩타이드를 나타낸다.
서열 번호 5506은 상기 MG15 뉴클레아제와 동일한 유전자좌로부터 유래된 MG15 tracrRNA의 뉴클레오타이드 서열을 나타낸다.
서열 번호 5470은 MG15 뉴클레아제와 함께 기능하도록 조작된 sgRNA의 뉴클레오타이드 서열을 보여준다.
서열 번호 5582는 MG15 패밀리 효소에 대한 이. 콜라이 코돈 최적화된 코딩 서열에 대한 뉴클레오타이드 서열을 보여준다.
서열 번호 5668-5675는 MG15 패밀리 효소의 특징적인 펩타이드 서열을 나타낸다.
MG16
서열 번호 1093-1353은 MG16 뉴클레아제의 전장 펩타이드 서열을 나타낸다.
서열 번호 2914-3174는 상기 MG16 뉴클레아제의 RuvC_III 도메인의 펩타이드 서열을 나타낸다.
서열 번호 4728-4988은 상기 MG16 뉴클레아제의 HNH 도메인의 펩타이드를 나타낸다.
서열 번호 5507은 상기 MG3 뉴클레아제와 동일한 유전자좌로부터 유래된 MG16 tracrRNA의 뉴클레오타이드 서열을 나타낸다.
서열 번호 5471은 MG16 뉴클레아제와 함께 기능하도록 조작된 sgRNA의 뉴클레오타이드 서열을 보여준다.
서열 번호 5583은 MG16 패밀리 효소에 대한 이. 콜라이 코돈 최적화된 코딩 서열에 대한 뉴클레오타이드 서열을 보여준다.
서열 번호 5676-5678은 MG16 패밀리 효소의 특징적인 펩타이드 서열을 나타낸다.
MG18
서열 번호 1354-1511은 MG18 뉴클레아제의 전장 펩타이드 서열을 나타낸다.
서열 번호 3175-3330은 상기 MG18 뉴클레아제의 RuvC_III 도메인의 펩타이드 서열을 나타낸다.
서열 번호 4989-5146은 상기 MG18 뉴클레아제의 HNH 도메인의 펩타이드를 나타낸다.
서열 번호 5508은 상기 MG18 뉴클레아제와 동일한 유전자좌로부터 유래된 MG18 tracrRNA의 뉴클레오타이드 서열을 나타낸다.
서열 번호 5472는 MG18 뉴클레아제와 함께 기능하도록 조작된 sgRNA의 뉴클레오타이드 서열을 보여준다.
서열 번호 5584는 MG18 패밀리 효소에 대한 이. 콜라이 코돈 최적화된 코딩 서열에 대한 뉴클레오타이드 서열을 보여준다.
서열 번호 5679-5686은 MG18 패밀리 효소의 특징적인 펩타이드 서열을 나타낸다.
MG21
서열 번호 1512-1655는 MG21 뉴클레아제의 전장 펩타이드 서열을 나타낸다.
서열 번호 3331-3474는 상기 MG21 뉴클레아제의 RuvC_III 도메인의 펩타이드 서열을 나타낸다.
서열 번호 5147-5290은 상기 MG21 뉴클레아제의 HNH 도메인의 펩타이드를 나타낸다.
서열 번호 5509는 상기 MG21 뉴클레아제와 동일한 유전자좌로부터 유래된 MG21 tracrRNA의 뉴클레오타이드 서열을 나타낸다.
서열 번호 5473은 MG21 뉴클레아제와 함께 기능하도록 조작된 sgRNA의 뉴클레오타이드 서열을 보여준다.
서열 번호 5585는 MG21 패밀리 효소에 대한 이. 콜라이 코돈 최적화된 코딩 서열에 대한 뉴클레오타이드 서열을 보여준다.
서열 번호 5687-5692 및 5674-5675는 MG21 패밀리 효소의 특징적인 펩타이드 서열을 나타낸다.
MG22
서열 번호 1656-1755는 MG22 뉴클레아제의 전장 펩타이드 서열을 나타낸다.
서열 번호 3475-3568은 상기 MG22 뉴클레아제의 RuvC_III 도메인의 펩타이드 서열을 나타낸다.
서열 번호 5291-5389는 상기 MG22 뉴클레아제의 HNH 도메인의 펩타이드를 나타낸다.
서열 번호 5510은 상기 MG22 뉴클레아제와 동일한 유전자좌로부터 유래된 MG22 tracrRNA의 뉴클레오타이드 서열을 나타낸다.
서열 번호 5474는 MG22 뉴클레아제와 함께 기능하도록 조작된 sgRNA의 뉴클레오타이드 서열을 보여준다.
서열 번호 5586은 MG22 패밀리 효소에 대한 이. 콜라이 코돈 최적화된 코딩 서열에 대한 뉴클레오타이드 서열을 보여준다.
서열 번호 5694-5699는 MG22 패밀리 효소의 특징적인 펩타이드 서열을 나타낸다.
MG23
서열 번호 1756-1826은 MG23 뉴클레아제의 전장 펩타이드 서열을 나타낸다.
서열 번호 3569-3637은 상기 MG23 뉴클레아제의 RuvC_III 도메인의 펩타이드 서열을 나타낸다.
서열 번호 5390-5460은 상기 MG23 뉴클레아제의 HNH 도메인의 펩타이드를 나타낸다.
서열 번호 5511은 상기 MG23 뉴클레아제와 동일한 유전자좌로부터 유래된 MG23 tracrRNA의 뉴클레오타이드 서열을 나타낸다.
서열 번호 5475는 MG23 뉴클레아제와 함께 기능하도록 조작된 sgRNA의 뉴클레오타이드 서열을 보여준다.
서열 번호 5587은 MG23 패밀리 효소에 대한 이. 콜라이 코돈 최적화된 코딩 서열에 대한 뉴클레오타이드 서열을 보여준다.
서열 번호 5700-5717은 MG23 패밀리 효소의 특징적인 펩타이드 서열을 나타낸다.
상세한 설명
본 발명의 다양한 실시양태가 본 명세서에서 제시되고 설명되었지만, 이러한 실시양태는 단지 예로서 제공된다는 것이 관련 기술 분야의 통상의 기술자에게 명백할 것이다. 본 발명을 벗어나지 않으면서 관련 기술 분야의 통상의 기술자에 의해 수많은 변형, 변경 및 대체가 이루어질 수 있다. 본 명세서에서 설명되는 본 발명의 실시양태에 대한 다양한 대안이 사용될 수 있음을 이해해야 한다.
본원에서 설명되는 일부 방법의 실행은 달리 명시되지 않는 한, 면역학, 생화학, 화학, 분자 생물학, 미생물학, 세포 생물학, 유전체학 및 재조합 DNA의 기술을 사용한다. 예를 들어, 문헌 [Sambrook and Green, Molecular Cloning: A Laboratory Manual, 4th Edition (2012)]; [the series Current Protocols in Molecular Biology (F. M. Ausubel, et al. eds.)]; [the series Methods In Enzymology (Academic Press, Inc.), PCR 2: A Practical Approach (M.J. MacPherson, B.D. Hames and G.R. Taylor eds. (1995))], [Harlow and Lane, eds. (1988) Antibodies, A Laboratory Manual, and Culture of Animal Cells: A Manual of Basic Technique and Specialized Applications, 6th Edition (R.I. Freshney, ed. (2010))] (전체가 본원에 참조로 포함됨)을 참조한다.
본 명세서에 사용되는 바와 같이, 단수 형태 "a", "an" 및 "the"는 문맥이 명백하게 달리 나타내지 않는 한, 복수 형태도 포함하도록 의도된다. 또한, "포함하는", "포함하다", "갖는", "갖다", "~와 함께" 또는 이들의 변형 용어가 상세한 설명 및/또는 청구범위에서 사용되는 한, 이들 용어는 "망라하는"이라는 용어와 유사한 방식으로 포괄적인 것으로 의도된다.
용어 "약" 또는 "대략"은 관련 기술 분야의 통상의 기술자에 의해 결정된 특정 값에 대해 허용 가능한 오차 범위 내를 의미하며, 이는 값이 어떻게 측정 또는 결정되는지에 따라, 즉, 측정 시스템의 한계에 따라 부분적으로 결정될 것이다. 예를 들어, "약"은 관련 기술 분야의의 관행에 따라 1 또는 1 초과의 표준 편차 이내를 의미할 수 있다. 대안적으로, "약"은 주어진 값의 20% 이하, 15% 이하, 10% 이하, 5% 이하, 또는 1% 이하의 범위를 의미할 수 있다.
본원에서 사용되는 바와 같이, "세포"는 일반적으로 생물학적 세포를 의미한다. 세포는 살아있는 유기체의 기본적인 구조적, 기능적 및/또는 생물학적 단위일 수 있다. 세포는 하나 이상의 세포를 갖는 유기체로부터 유래할 수 있다. 일부 비제한적인 예는 다음을 포함한다: 원핵 세포, 진핵 세포, 박테리아 세포, 고세균 세포, 단세포 진핵 유기체의 세포, 원생동물 세포, 식물 세포(예를 들어, 식물 작물, 과일 , 채소, 곡물, 대두, 옥수수, 메이즈, 밀, 씨앗, 토마토, 쌀, 카사바, 사탕수수, 호박, 건초, 감자, 면, 대마, 담배, 꽃 피는 식물, 침엽수, 겉씨 식물, 양치류, 석송, 붕어마름(hornwort), 우산이끼, 이끼로부터의 세포), 조류 세포(예를 들어, 보트리코커스 브라우니이(Botryococcus braunii), 클라미도모나스 레인하르드티이(Chlamydomonas reinhardtii), 나노클로롭시스 가디타나(Nannochloropsis gaditana), 클로렐아 피레노이도사(Chlorella pyrenoidosa), 사르가숨 파텐스 씨. 아가르드(Sargassum patens C. Agardh) 등), 해조류(예를 들어, 다시마), 진균 세포(예를 들어, 효모 세포, 버섯으로부터의 세포), 동물 세포, 무척추 동물(예를 들어, 초파리, 자포동물, 극피동물, 선충류 등)로부터의 세포, 척추동물(예를 들어, 물고기, 양서류, 파충류, 새, 포유동물)로부터의 세포, 포유동물(예를 들어, 돼지, 소, 염소, 양, 설치류, 래트, 마우스, 인간이 아닌 영장류, 인간 등)의 세포 등. 때때로, 세포는 천연 유기체로부터 유래하지 않는다(예를 들어, 세포는 합성으로 만들어질 수 있으며, 때로는 인공 세포로 언급됨).
본원에서 사용되는 바와 같이, 용어 "뉴클레오타이드"는 일반적으로 염기-당-포스페이트 조합물을 지칭한다. 뉴클레오타이드는 합성 뉴클레오타이드를 포함할 수 있다. 뉴클레오타이드는 합성 뉴클레오타이드 유사체를 포함할 수 있다. 뉴클레오타이드는 핵산 서열의 단량체 단위(예를 들어, 데옥시리보핵산(DNA) 및 리보핵산(RNA))일 수 있다. 뉴클레오타이드라는 용어는 리보뉴클레오사이드 트리포스페이트 아데노신 트리포스페이트(ATP), 우리딘 트리포스페이트(UTP), 시토신 트리포스페이트(CTP), 구아노신 트리포스페이트(GTP) 및 데옥시리보뉴클레오사이드 트리포스페이트, 예를 들어 dATP, dCTP, dITP, dUTP, dGTP, dTTP 또는 이들의 유도체를 포함할 수 있다. 이러한 유도체는 예를 들어 [αSJdATP, 7-데아자-dGTP 및 7-데아자-dATP, 및 이들을 함유하는 핵산 분자에 뉴클레아제 내성을 부여하는 뉴클레오타이드 유도체를 포함할 수 있다. 본 명세서에서 사용되는 바와 같이, 용어 뉴클레오타이드는 디데옥시리보뉴클레오사이드 트리포스페이트(ddNTP) 및 이들의 유도체를 지칭할 수 있다. 디데옥시리보뉴클레오사이드 트리포스페이트의 예시적인 예는 ddATP, ddCTP, ddGTP, ddITP 및 ddTTP를 포함할 수 있지만, 이에 제한되지는 않는다. 뉴클레오타이드는 표지되지 않거나, 광학적으로 검출 가능한 모이어티(예를 들어, 형광단)을 포함하는 모이어티를 사용하는 것과 같이 검출 가능하게 표지될 수 있다. 표지화는 양자점으로 수행할 수도 있다. 검출 가능한 표지는 예를 들어 방사성 동위원소, 형광 표지, 화학발광 표지, 생물발광 라벨 및 효소 표지를 포함할 수 있다. 뉴클레오타이드의 형광 표지는 플루오레세인, 5-카르복시플루오레세인(FAM), 2'7'-디메톡시-4'5-디클로로-6-카르복시플루오레세인(JOE), 로다민, 6-카르복시로다민(R6G), N,N,N',N'-테트라메틸-6-카르복시로다민(TAMRA), 6-카르복시-X-로다민(ROX), 4-(4'디메틸아미노페닐아조)벤조산(DABCYL), 캐스케이드 블루, 오레곤 그린, 텍사스 레드, 시아닌 및 5-(2'-아미노에틸)아미노나프탈렌-1-설폰산(EDANS)을 포함할 수 있다. 형광 표지된 뉴클레오타이드의 구체적인 예는 [R6G]dUTP, [TAMRA]dUTP, [R110]dCTP, [R6G]dCTP, [TAMRA]dCTP, [JOE]ddATP, [R6G]ddATP, [FAM]ddCTP, [R110]ddCTP, [TAMRA]ddGTP, [ROX]ddTTP, [dR6G]ddATP, [dR110]ddCTP, [dTAMRA]ddGTP, 및 [dROX]ddTTP(미국 캘리포니아주 포스터 시티 소재의 Perkin Elmer로부터 입수 가능함); 플루오로링크(FluoroLink) 데옥시뉴클레오타이드, 플루오로링크 Cy3-dCTP, 플루오로링크 Cy5-dCTP, 플루오로링크 플루오르(Fluor) X-dCTP, 플루오로링크 Cy3-dUTP, 및 플루오로링크 Cy5-dUTP(미국 일리노이주 알링턴 하이츠 소재의 Amersham으로부터 입수 가능); 플루오레세인-15-dATP, 플루오레세인-12-dUTP, 테트라메틸-로다민-6-dUTP, IR770-9-dATP, 플루오레세인-12-ddUTP, 플루오레세인-12-UTP, 및 플루오레세인-15-2'-dATP(미국 인디애나주 인디애나폴리스 소재의 Boehringer Mannheim으로부터 입수 가능함); 및 염색체 표지 뉴클레오타이드, BODIPY-FL-14-UTP, BODIPY-FL-4-UTP, BODIPY-TMR-14-UTP, BODIPY-TMR-14-dUTP, BODIPY-TR-14-UTP, BODIPY-TR-14-dUTP, 캐스케이드 블루-7-UTP, 캐스케이드 블루-7-dUTP, 플루오레세인-12-UTP, 플루오레세인-12-dUTP, 오레곤 그린 488-5-dUTP, 로다민 그린-5-UTP, 로다민 그린-5-dUTP, 테트라메틸로다민-6-UTP, 테트라메틸로다민-6-dUTP, 텍사스 레드-5-UTP, 텍사스 레드-5-dUTP 및 텍사스 레드-12-dUTP(미국 오레곤주 유진 소재의 Molecular Probes메)를 포함할 수 있다. 뉴클레오타이드는 또한 화학적 변형에 의해 표지되거나 표시될 수 있다. 화학적으로 변형된 단일 뉴클레오타이드는 비오틴-dNTP일 수 있다. 비오티닐화된 dNTP의 일부 비제한적 예는 비오틴-dATP(예를 들어, 비오-N6-ddATP, 비오틴-14-dATP), 비오틴-dCTP(예를 들어, 비오틴-11-dCTP, 비오틴-14-dCTP), 및 비오틴-dUTP(예를 들어, 비오틴-11-dUTP, 비오틴-16-dUTP, 비오틴-20-dUTP)를 포함할 수 있다.
"폴리뉴클레오타이드", "올리고뉴클레오타이드" 및 "핵산"이라는 용어는 일반적으로 단일 가닥, 이중 가닥 또는 다중 가닥 형태의 데옥시리보뉴클레오타이드 또는 리보뉴클레오타이드 또는 이들의 유사체인 임의의 길이의 뉴클레오타이드의 중합체 형태를 지칭하기 위해 상호 교환 가능하게 사용된다. 폴리뉴클레오타이드는 세포에 대해 외인성 또는 내인성일 수 있다. 폴리뉴클레오타이드는 무세포 환경에 존재할 수 있다. 폴리뉴클레오타이드는 유전자 또는 그의 단편일 수 있다. 폴리뉴클레오타이드는 DNA일 수 있다. 폴리뉴클레오타이드는 RNA일 수 있다. 폴리뉴클레오타이드는 임의의 3차원 구조를 가질 수 있고, 임의의 기능을 수행할 수 있다. 폴리뉴클레오타이드는 하나 이상의 유사체(예를 들어, 변경된 골격, 당 또는 핵염기)를 포함할 수 있다. 존재하는 경우, 뉴클레오타이드 구조에 대한 변형은 중합체의 조립 전 또는 후에 부여될 수 있다. 유사체의 일부 비제한적 예에는 다음이 포함되다: 5-브로모우라실, 펩타이드 핵산, 제노 핵산, 모르폴리노, 잠금 핵산, 글리콜 핵산, 트레오스 핵산, 디데옥시뉴클레오타이드, 코르디세핀, 7-데아자-GTP, 형광단(예를 들어, 당에 연결된 로다민 또는 플루오레세인), 티올 함유 뉴클레오타이드, 비오틴 연결된 뉴클레오타이드, 형광 염기 유사체, CpG 섬, 메틸-7-구아노신, 메틸화된 뉴클레오타이드, 이노신, 티오우리딘, 슈도우리딘, 디히드로우리딘, 쿠에오신 및 와이오신. 폴리뉴클레오타이드의 비제한적인 예는 유전자 또는 유전자 단편의 코딩 또는 비코딩 영역, 연관 분석으로부터 정의된 유전자좌들(유전자좌), 엑손, 인트론, 메신저 RNA(mRNA), 전달 RNA(tRNA), 리보솜 RNA(rRNA), 짧은 간섭 RNA(siRNA), 짧은 헤어핀 RNA(shRNA), 마이크로 RNA(miRNA), 리보자임, cDNA, 재조합 폴리뉴클레오타이드, 분지형 폴리뉴클레오타이드, 플라스미드, 벡터, 임의의 서열의 단리된 DNA, 임의의 서열의 단리된 RNA, 무세포 DNA(cfDNA) 및 무세포 RNA(cfRNA)를 포함하는 무세포 폴리뉴클레오타이드, 핵산 프로브 및 프라이머를 포함한다. 뉴클레오타이드의 서열은 비뉴클레오타이드 성분에 의해 중단될 수 있다.
용어 "형질감염" 또는 "형질감염된"은 일반적으로 비-바이러스 또는 바이러스-기반 방법에 의해 핵산의 세포 내로의 도입을 지칭한다. 핵산 분자는 완전한 단백질 또는 그의 기능적 부분을 코딩하는 유전자 서열일 수 있다. 예를 들어, 문헌 [Sambrook et al., 1989, Molecular Cloning: A Laboratory Manual, 18.1-18.88]을 참조한다.
용어 "펩타이드", "폴리펩타이드" 및 "단백질"은 일반적으로 펩타이드 결합(들)에 의해 연결된 적어도 2개의 아미노산 잔기의 중합체를 지칭하기 위해 본원에서 상호 교환 가능하게 사용된다. 이 용어는 특정 길이의 중합체를 의미하지 않으며, 펩타이드가 재조합 기술, 화학적 또는 효소적 합성을 사용하여 생산되는지 또는 자연적으로 발생하는지를 암시하거나 구별하려는 의도도 아니다. 상기 용어는 천연 발생 아미노산 중합체뿐만 아니라, 적어도 하나의 변형된 아미노산을 포함하는 아미노산 중합체에도 적용된다. 일부 경우에, 중합체는 비아미노산에 의해 중단될 수 있다. 상기 용어는 전장 단백질, 및 2차 및/또는 3차 구조(예를 들어, 도메인)를 갖거나 갖지 않는 단백질을 포함하는 임의의 길이의 아미노산 사슬을 포함한다. 이 용어는 또한 예를 들어 디설파이드 결합 형성, 글리코실화, 지질화, 아세틸화, 인산화, 산화 및 표지 성분과의 접합과 같은 기타 조작에 의해 변형된 아미노산 중합체를 포함한다. 본원에서 사용되는 바와 같이, 용어 "아미노산" 및 "아미노산들"은 일반적으로 변형된 아미노산 및 아미노산 유사체를 포함하지만 이에 제한되지 않는 천연 및 비-천연 아미노산을 지칭한다. 변형된 아미노산은 천연 아미노산 및 비-천연 아미노산을 포함할 수 있으며, 이는 아미노산 상에 자연적으로 존재하지 않는 기 또는 화학적 모이어티를 포함하도록 화학적으로 변형된 것이다. 아미노산 유사체는 아미노산 유도체를 지칭할 수 있다. 용어 "아미노산"은 D-아미노산 및 L-아미노산 둘 모두를 포함한다.
본원에서 사용되는 바와 같이, "비-천연"은 일반적으로 천연 핵산 또는 단백질에서 발견되지 않는 핵산 또는 폴리펩타이드 서열을 지칭할 수 있다. 비-천연은 친화도 태그를 지칭할 수 있다. 비-천연은 융합을 나타낼 수 있다. 비-천연은 돌연변이, 삽입 및/또는 결실을 포함하는 천연 발생 핵산 또는 폴리펩타이드 서열을 지칭할 수 있다. 비-천연 서열은 비-천연 서열이 융합되는 핵산 및/또는 폴리펩타이드 서열에 의해서도 나타날 수 있는 활성(예를 들어, 효소 활성, 메틸트랜스퍼라제 활성, 아세틸트랜스퍼라제 활성, 키나제 활성, 유비퀴틴화 활성 등)을 나타내거나 이를 코딩할 수 있다. 비-천연 핵산 또는 폴리뉴클레오타이드 서열은 키메라 핵산 및/또는 폴리펩타이드를 코딩하는 키메라 핵산 및/또는 폴리펩티드 서열을 생성하기 위해 유전 공학에 의해 자연 발생 핵산 또는 폴리펩티드 서열(또는 그의 변이체)에 연결될 수 있다.
본원에서 사용되는 바와 같이, 용어 "프로모터"는 일반적으로 유전자의 전사 또는 발현을 제어하고 RNA 전사가 개시되는 뉴클레오타이드 또는 뉴클레오타이드의 영역에 인접하거나 중첩될 수 있는 조절 DNA 영역을 지칭한다. 프로모터는 종종 전사 인자라고 지징되는 단백질 인자에 결합하는 특정 DNA 서열을 포함할 수 있으며, 이는 RNA 폴리머라제가 DNA에 결합하여 유전자 전사를 용이하게 한다. '코어 프로모터'로도 지칭되는 '기본 프로모터'는 일반적으로 작동 가능하게 연결된 폴리뉴클레오타이드의 전사 발현을 촉진하기 위해 필요한 모든 기본 요소를 함유하는 프로모터를 지칭할 수 있다. 일반적으로 진핵생물의 기본 프로모터는 반드시 그런 것은 아니지만, TATA 박스 및/또는 CAAT 박스를 포함한다.
본원에서 사용되는 바와 같이, 용어 "발현"은 일반적으로 핵산 서열 또는 폴리뉴클레오타이드가 DNA 주형으로부터 전사되는 과정(예를 들어, mRNA 또는 다른 RNA 전사체로) 및/또는 전사된 mRNA가 이후에 펩타이드, 폴리펩타이드 또는 단백질로 번역되는 과정을 지칭한다. 전사체 및 코딩된 폴리펩타이드는 집합적으로 "유전자 생성물"로 지칭될 수 있다. 폴리뉴클레오타이드가 게놈 DNA로부터 유래된 경우, 발현은 진핵 세포에서 mRNA의 스플라이싱을 포함할 수 있다.
본원에서 사용되는 바와 같이, "작동 가능하게 연결된", "작동 가능한 연결", "작동하게 연결된" 또는 그의 문법적 등가물은 일반적으로 유전 요소, 예를 들어 프로모터, 인핸서, 폴리아데닐화 서열 등의 병치를 지칭하며, 여기서 요소는 예상된 방식으로 작동하도록 허용하는 관계에 있다. 예를 들어, 프로모터 및/또는 인핸서 서열을 포함할 수 있는 조절 요소는 조절 요소가 코딩 서열의 전사 개시를 돕는 경우 코딩 영역에 작동 가능하게 연결된 것이다. 이 기능적 관계가 유지되는 한, 조절 요소와 코딩 영역 사이에 중간 잔기가 있을 수 있다.
본원에서 사용되는 바와 같이, "벡터"는 일반적으로 폴리뉴클레오타이드를 포함하거나 이와 회합하고 폴리뉴클레오타이드를 세포로 전달하는 것을 매개하는데 사용될 수 있는 거대분자 또는 거대분자의 회합체를 지칭한다. 벡터의 예는 플라스미드, 바이러스 벡터, 리포솜 및 기타 유전자 전달 비히클을 포함한다. 벡터는 일반적으로 표적에서 유전자의 발현을 촉진하기 위해 유전자에 작동 가능하게 연결된 유전 요소, 예를 들어 조절 요소를 포함한다.
본원에서 사용되는 바와 같이, "발현 카세트" 및 "핵산 카세트"는 일반적으로 함께 발현되거나 발현을 위해 작동 가능하게 연결된 핵산 서열 또는 요소의 조합물을 지칭하기 위해 상호 교환 가능하게 사용된다. 일부 경우에, 발현 카세트는 조절 요소 및 발현을 위해 작동 가능하게 연결된 유전자 또는 유전자들의 조합물을 의미한다.
DNA 또는 단백질 서열의 "기능적 단편"은 일반적으로 전장 DNA 또는 단백질 서열의 생물학적 활성과 실질적으로 유사한 생물학적 활성(기능적 또는 구조적)을 보유하는 단편을 지칭한다. DNA 서열의 생물학적 활성은 전장 서열에 기인하는 것으로 알려진 방식으로 발현에 영향을 미치는 능력일 수 있다.
본원에서 사용되는 바와 같이, "조작된" 대상은 일반적으로 대상이 인간의 개입에 의해 변형되었음을 나타낸다. 비제한적 예에 따르면, 핵산은 자연에서 발생하지 않는 서열로 그의 서열을 변경함으로써 변형될 수 있으며; 핵산은 라이게이션된 생성물이 원래 핵산에 존재하지 않는 기능을 갖도록 자연적으로 결합되지 않는 핵산에 핵산을 라이게이션시킴으로써 변형될 수 있고; 조작된 핵산은 자연에 존재하지 않는 서열로 시험관 내에서 합성될 수 있고; 단백질은 그의 아미노산 서열을 자연에 존재하지 않는 서열로 변경함으로써 변형될 수 있고; 조작된 단백질은 새로운 기능 또는 특성을 획득할 수 있다. "조작된" 시스템은 적어도 하나의 조작된 구성요소를 포함한다.
본원에서 사용되는 바와 같이, "합성" 및 "인공"은 자연 발생 인간 단백질에 대한 낮은 서열 동일성(예를 들어, 50% 미만의 서열 동일성, 25% 미만의 서열 동일성, 10% 미만의 서열 동일성, 5% 미만의 서열 동일성, 1% 미만의 서열 동일성)을 갖는 단백질 또는 그의 도메인을 지칭하기 위해 상호 교환 가능하게 사용된다. 예를 들어, VPR 및 VP64 도메인은 합성 전이 활성화(transactivation) 도메인이다.
본원에서 사용되는 바와 같이, 용어 "tracrRNA" 또는 "tracr 서열"은 일반적으로 예시적인 야생형 tracrRNA 서열(예를 들어, 에스. 피오게네스(S. pyogenes), 에스. 아우레우스(S. aureus) 등으로부터의 tracrRNA 또는 서열 번호 5476- 5511)에 대해 적어도 약 5%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 95%, 또는 100%의 서열 동일성 및/또는 유사성을 갖는 핵산을 지칭할 수 있다. tracrRNA는 예시적인 야생형 tracrRNA 서열(예를 들어, 에스. 피오게네스, 에스. 아우레우스 등으로부터의 tracrRNA)에 대해 최대 약 5%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 또는 100%의 서열 동일성 및/또는 서열 유사성을 갖는 핵산을 지칭할 수 있다. tracrRNA는 결실, 삽입, 또는 치환, 변이체, 돌연변이 또는 키메라와 같은 뉴클레오타이드 변화를 포함할 수 있는 tracrRNA의 변형된 형태를 지칭할 수 있다. tracrRNA는 적어도 6개의 인접하는 뉴클레오타이드의 스트레치에 걸쳐 예시적인 야생형 tracrRNA(예를 들어, 에스. 피오게네스, 에스. 아우레우스 등으로부터의 tracrRNA) 서열에 대해 적어도 약 60% 동일할 수 있는 핵산을 지칭할 수 있다. 예를 들어, tracrRNA 서열은 적어도 6개의 인접하는 뉴클레오타이드의 스트레치에 걸쳐 예시적인 야생형 tracrRNA(예를 들어, 에스. 피오게네스, 에스. 아우레우스 등으로부터의 tracrRNA) 서열에 대해 적어도 약 60% 동일, 적어도 약 65% 동일, 적어도 약 70% 동일, 적어도 약 75% 동일, 적어도 약 80% 동일, 적어도 약 85% 동일, 적어도 약 90% 동일, 적어도 약 95% 동일, 적어도 약 98% 동일, 적어도 약 99% 동일, 또는 적어도 약 100% 동일할 수 있다. 타입 II tracrRNA 서열은 인접한 CRISPR 어레이에서 반복 서열의 일부에 상보성을 갖는 영역을 확인함으로써 게놈 서열에서 예측할 수 있다.
본원에서 사용되는 바와 같이, "가이드 핵산"은 일반적으로 또 다른 핵산에 혼성화할 수 있는 핵산을 지칭할 수 있다. 가이드 핵산은 RNA일 수 있다. 가이드 핵산은 DNA일 수 있다. 가이드 핵산은 핵산 서열에 부위-특이적으로 결합하도록 프로그래밍될 수 있다. 표적화될 핵산, 또는 표적 핵산은 뉴클레오타이드를 포함할 수 있다. 가이드 핵산은 뉴클레오타이드를 포함할 수 있다. 표적 핵산의 일부는 가이드 핵산의 일부에 상보성일 수 있다. 가이드 핵산에 상보성이고 혼성화하는 이중 가닥 표적 폴리뉴클레오타이드의 가닥을 상보성 가닥이라고 지칭할 수 있다. 상보성 가닥에 상보성고, 따라서 가이드 핵산에 상보성이지 않을 수 있는 이중 가닥 표적 폴리뉴클레오타이드의 가닥을 비-상보성 가닥이라고 부를 수 있다. 가이드 핵산은 폴리뉴클레오타이드 사슬을 포함할 수 있으며, "단일 가이드 핵산"으로 불릴 수 있다. 가이드 핵산은 2개의 폴리뉴클레오타이드 사슬을 포함할 수 있으며, "이중 가이드 핵산"으로 불릴 수 있다. 달리 명시되지 않은 경우, "가이드 핵산"이라는 용어는 단일 가이드 핵산 및 이중 가이드 핵산 둘 모두를 지칭하는 포괄적인 의미일 수 있다. 가이드 핵산은 "핵산-표적화 세그먼트" 또는 "핵산-표적화 서열"로 지칭될 수 있는 세그먼트를 포함할 수 있다. 핵산-표적화 세그먼트는 "단백질 결합 세그먼트" 또는 "단백질 결합 서열" 또는 "Cas 단백질 결합 세그먼트"로 지칭될 수 있는 하위 세그먼트를 포함할 수 있다.
2개 이상의 핵산 또는 폴리펩타이드 서열의 맥락에서 "서열 동일성" 또는 "동일성 백분율"이라는 용어는 일반적으로 서열 비교 알고리즘을 사용하여 측정할 때 국소적 또는 전체적 비교 창에 걸쳐 최대 일치를 위해 비교되고 정렬될 때 동일한, 또는 동일한 아미노산 잔기 또는 뉴클레오타이드의 지정된 백분율을 갖는 2개(예를 들어, 쌍 정렬) 이상(예를 들어, 다중 서열 정렬)을 지칭한다. 폴리펩타이드 서열에 대한 적합한 서열 비교 알고리즘은 예를 들어 단어 길이(W) 3, 기대값(E) 10, 및 존재 11, 연장 1에서의 BLOSUM62 스코어링 매트릭스 설정 갭 코스트 및 사용 30개 잔기보다 긴 폴리펩타이드 서열에 대한 조건부 조성 스코어 매트릭스 조정의 매개변수를 사용하는 BLASTP; 단어 길이(W) 2, 기대값(E) 1000000, 및 30개 미만의 잔기의 서열에 대한 오픈 갭 9 및 연장 갭 1의 PAM30 스코어링 매트릭스 설정 갭 코스트의 매개변수를 사용하는 BLASTP(이들은 https://blast.ncbi.nlm.nih.gov에서 이용 가능한 BLAST 스위트의 BLASTP에 대한 디폴트 매개변수임); CLUSTALW; 일치 2, 불일치 -1 및 갭 -1의 매개변수를 갖는 스미쓰-워터맨(Smith-Waterman) 상동성 검색 알고리즘; 기본 매개변수가 있는 MUSCLE; retre가 2 및 최대값이 1000의 매개변수를 갖는 MAFFT; 디폴트 매개변수를 갖는 Novafold; 디폴트 매개변수를 갖는 HMMER hmmalign을 포함한다.
본원에서 사용되는 바와 같이, 용어 "RuvC_III 도메인"은 일반적으로 RuvC 엔도뉴클레아제 도메인(RuvC 뉴클레아제 도메인은 3개의 불연속적인 세그먼트, 즉 RuvC_I, RuvC_II 및 RuvC_III으로 이루어짐)의 불연속적인 제3 세그먼트를 지칭한다. RuvC 도메인 또는 그의 세그먼트는 일반적으로 알려진 도메인 서열에 대한 정렬, 주석이 달린 도메인이 있는 단백질에 대한 구조적 정렬에 의해, 또는 알려진 도메인 서열(예를 들어, RuvC_III의 경우 Pfam HMM PF18541)에 기초하여 구축된 히든 마르코프 모델(HMM: Hidden Markov Model)과의 비교에 의해 확인될 수 있다.
본원에서 사용되는 바와 같이, 용어 "HNH 도메인"은 일반적으로 특징적인 히스티딘 및 아스파라긴 잔기를 갖는 엔도뉴클레아제 도메인을 지칭한다. HNH 도메인은 일반적으로 알려진 도메인 서열에 대한 정렬, 주석이 달린 도메인이 있는 단백질에 대한 구조적 정렬에 의해, 또는 알려진 도메인 서열(예를 들어, 도메인 HNH의 경우 Pfam HMM PF01844)에 기초하여 구축된 히든 마르코프 모델(HMM)과의 비교에 의해 확인될 수 있다.
개요
고유한 기능 및 구조를 갖는 새로운 Cas 효소의 발견은 데옥시리보핵산(DNA) 편집 기술을 추가로 변경하여 속도, 특이성, 기능 및 사용 용이성을 개선할 가능성을 제공할 수 있다. 미생물에서 일정한 간격을 두고 주기적으로 분포하는 짧은 회문 반복서열(CRISPR) 시스템의 예측된 유병률 및 미생물 종의 완전한 다양성에 비해, 기능적으로 특성화된 CRISPR/Cas 효소는 문헌에 상대적으로 거의 없다. 이것은 부분적으로 엄청난 수의 미생물 종들이 실험실 조건에서 쉽게 배양되지 않을 수 있기 때문이다. 매우 많은 수의 미생물 종을 대표하는 자연 환경적 지위(environmental niche)로부터 메타게놈 시퀀싱(metagenomic sequencing)은 알려진 새로운 CRISPR/Cas 시스템의 수를 크게 증가시키고, 새로운 올리고뉴클레오타이드 편집 기능의 발견을 가속화할 가능성을 제공할 수 있다. 이러한 접근 방식의 결실에 대한 최근의 예는 2016년에 천연 미생물 군집의 메타게놈 분석으로부터 CasX/CasY CRISPR 시스템의 발견으로 입증되었다.
CRISPR/Cas 시스템은 미생물에서 적응 면역 시스템으로서 기능하는 것으로 기술된 RNA-유도 뉴클레아제 복합체이다. 자연적 맥락에서, CRISPR/Cas 시스템은 CRISPR(일정한 간격을 두고 주기적으로 분포하는 짧은 회문 반복서열) 오페론 또는 유전자좌에서 발생하며, 일반적으로 다음과 같은 2개의 부분을 포함한다: (i) RNA 기반 표적화 요소를 코딩하는 동등하게 짧은 스페이서 서열에 의해 분리된 짧은 반복 서열(30-40 bp)의 어레이, 및 (ii) 부속 단백질/효소와 함께 RNA 기반 표적화 요소에 의해 유도되는 뉴클레아제 폴리펩타이드를 코딩하는 Cas를 코딩하는 ORF. 특정 표적 핵산 서열의 효율적인 뉴클레아제 표적화는 일반적으로 (i) 표적의 처음 6-8개의 핵산(표적 씨드)과 crRNA 가이드 사이의 상보성 혼성화; 및 (ii) 표적 씨드의 정의된 부근 내에 프로토스페이서 인접 모티프(PAM) 서열의 존재(PAM은 일반적으로 숙주 게놈 내에서 일반적으로 나타내지 않는 서열임)를 필요로 한다. 시스템의 정확한 기능 및 구성에 따라, CRISPR-Cas 시스템은 공통된 기능적 특성 및 진화적 유사성을 기반으로 하여 일반적으로 2가지 클래스, 5가지 타입 및 16가지 하위 타입으로 구성된다.
클래스 I CRISPR-Cas 시스템은 큰 다중서브유닛 이펙터 복합체를 가지며, 타입 I, III 및 IV를 포함한다.
유형 I CRISPR-Cas 시스템은 구성 요소 측면에서 중간 정도의 복잡성으로 간주된다. 타입 I CRISPR-Cas 시스템에서, RNA 표적화 요소의 어레이는 프로토스페이서 인접 모티프(PAM)라고 하는 적절한 짧은 컨센서스 서열이 뒤따를 때 뉴클레아제 복합체를 핵산 표적으로 유도하는 짧고 성숙한 crRNA를 방출시키도록 반복 요소에서 처리되는 긴 전구체 crRNA(프리-crRNA)로서 전사된다. 상기 처리는 crRNA 유도 뉴클레아제 복합체의 뉴클레아제(Cas3) 단백질 구성 요소를 또한 포함하는, 캐스케이드(Cascade)라고 하는 큰 엔도뉴클레아제 복합체의 엔도리보뉴클레아제 서브유닛(Cas6)을 통해 이루어진다. Cas I 뉴클레아제는 주로 DNA 뉴클레아제로 기능한다.
타입 III CRISPR 시스템은 Csm 또는 Cmr 단백질 서브유닛을 포함하는 반복체 관련 신비 단백질(RAMP: repeat-associated mysterious protein)과 함께 Cas10으로 알려진 중심 뉴클레아제의 존재를 특징으로 할 수 있다. 유형 I 시스템에서와 같이, 성숙한 crRNA는 Cas6 유사 효소를 사용하여 프리-crRNA로부터 처리된다. 타입 I 및 II 시스템과 달리, 타입 III 시스템은 DNA-RNA 이중체(예를 들어, RNA 폴리머라제의 주형으로 사용되는 DNA 가닥)를 표적으로 하고 절단하는 것으로 보인다.
타입 IV CRISPR-Cas 시스템은 고도로 감소된 대형 서브유닛 뉴클레아제(csf1), Cas5(csf3) 및 Cas7(csf2) 그룹의 RAMP 단백질에 대한 2개의 유전자, 및 일부 경우에, 예측된 작은 서브유닛에 대한 유전자로 이루어지는 이펙터 복합체를 보유하고; 이러한 시스템은 일반적으로 내인성 플라스미드에서 발견된다.
클래스 II CRISPR-Cas 시스템은 일반적으로 단일-폴리펩타이드 다중도메인 뉴클레아제 이펙터를 가지며, 타입 II, V 및 VI을 포함한다.
타입 II CRISPR-Cas 시스템은 구성요소 측면에서 가장 단순한 것으로 간주된다. 타입 II CRISPR-Cas 시스템에서, CRISPR 어레이를 성숙 crRNA로 처리하는 것은 특별한 엔도뉴클레아제 서브유닛의 존재를 필요로 하지 않지만, 어레이 반복 서열에 상보성인 영역이 있는 작은 트랜스 코딩되는 crRNA(tracrRNA)를 필요로 하고; tracrRNA는 그의 상응하는 이펙터 뉴클레아제(예를 들어, Cas9) 및 반복 서열 둘 모두와 상호작용하여 전구체 dsRNA 구조를 형성하고, 이는 내인성 RNAse III에 의해 절단되어 tracrRNA 및 crRNA 둘 모두가 로딩된 성숙한 이펙터 효소를 생성한다. Cas II 뉴클레아제는 DNA 뉴클레아제로 알려져 있다. 타입 2 이펙터는 일반적으로 RuvC 유사 뉴클레아제 도메인의 폴드 내에 삽입된 관련 없는 HNH 뉴클레아제 도메인과 함께 RNase H 폴드를 채택하는 RuvC 유사 엔도뉴클레아제 도메인으로 이루어진 구조를 나타낸다. RuvC 유사 도메인은 표적(예를 들어, crRNA 상보성) DNA 가닥의 절단을 담당하는 반면, HNH 도메인은 치환된 DNA 가닥의 절단을 담당한다.
타입 V CRISPR-Cas 시스템은 RuvC-유사 도메인을 포함하는 타입 II 이펙터의 구조와 유사한 뉴클레아제 이펙터(예를 들어, Cas12) 구조를 특징으로 한다. 타입 II와 유사하게, 타입 V CRISPR 시스템의 대부분(전부는 아님)은 tracrRNA를 사용하여 프리-crRNA를 성숙 crRNA로 처리하지만; 프리-crRNA를 여러 crRNA로 절단하기 위해 RNAse III를 필요로 하는 타입 II 시스템과는 달리 타입 V 시스템은 이펙터 뉴클레아제 자체를 사용하여 프리-crRNA를 절단할 수 있다. 타입-II CRISPR-Cas 시스템과 마찬가지로, 타입 V CRISPR-Cas 시스템은 다시 DNA 뉴클레아제로 알려져 있다. 타입 II CRISPR-Cas 시스템과 달리, 일부 타입 V 효소(예를 들어, Cas12a)는 이중 가닥 표적 서열의 첫 번째 crRNA 유도 절단에 의해 활성화되는 강력한 단일 가닥 비특이적 데옥시리보뉴클레아제 활성을 갖는 것으로 보인다.
타입 VI CRIPSR-Cas 시스템에는 RNA-가이드 RNA 엔도뉴클레아제가 있다. RuvC유사 도메인 대신에, 타입 VI 시스템(예를 들어, Cas13)의 단일 폴리펩타이드 이펙터는 2개의 HEPN 리보뉴클레아제 도메인을 포함한다. 타입 II 및 V 시스템과 달리, 타입 VI 시스템은 또한 프리-crRNA를 crRNA로 처리하기 위해 tracrRNA가 필요하지 않는 것으로 보인다. 그러나, 타입 V 시스템과 유사하게, 일부 타입 VI 시스템(예를 들어, C2C2)은 표적 RNA의 첫 번째 crRNA 유도 절단에 의해 활성화된 강력한 단일 가닥 비특이적 뉴클레아제(리보뉴클레아제) 활성을 보유하는 것으로 보인다.
그의 단순한 구조 때문에, 클래스 II CRISPR-Cas는 디자이너 뉴클레아제/게놈 편집 활용으로서 조작 및 개발을 위해 가장 널리 채택되었다.
시험관내 사용을 위한 상기 시스템의 초기 변경 중 하나는 그 전체가 본원에 참고로 포함된 문헌 [Jinek et al., Science. 2012 Aug 17;337(6096):816-21]에서 볼 수 있다. 제넥(Jinek) 연구는 먼저 (i) 에스. 피오게네스 SF370으로부터 단리된, 재조합 방식으로 발현되고 정제된 전장 Cas9(예를 들어, 클래스 II, 타입 II Cas 효소), (ii) 절단하고자 하는 표적 DNA 서열에 상보성인 ~20 nt 5' 서열, 이어서 3' tracr 결합 서열을 보유하는 정제된 성숙 ~42 nt crRNA(전체 crRNA는 T7 프로모터 서열을 보유하는 합성 DNA 주형으로부터 시험관 내에서 전사됨); (iii) T7 프로모터 서열을 보유하는 합성 DNA 주형으로부터 전사된, 시험관 내에서 정제된 tracrRNA, 및 (iv) Mg2+. 지넥은 나중에 Jinek은 나중에 (ii)의 crRNA가 링커(예를 들어, GAAA)에 의해 (iii)의 5' 말단에 연결되어 Cas9를 표적 자체에 유도할 수 있는 하나의 융합된 합성 가이드 RNA(sgRNA)를 형성하는 개선된 조작 시스템을 설명하였다(도 2의 상단 및 하단 패널 비교).
그 전체가 본원에 참고로 포함된 문헌 [Mali et al., Science. 2013 Feb 15; 339(6121): 823-826]은 나중에 (i) C-말단 핵 국소화 서열(예를 들어, SV40 NLS) 및 적합한 폴리아데닐화 신호(예를 들어, TK pA 신호)를 갖는 적합한 포유동물 프로모터 하의 코돈 최적화 Cas9(예를 들어, 클래스 II, 타입 II Cas 효소)를 코딩하는 ORF; 및 (ii) 적합한 폴리머라제 III 프로모터(예를 들어, U6 프로모터) 하의 sgRNA(G로 시작하는 5' 서열, 이어서 3' tracr 결합 서열에 연결된 20 nt의 상보성 표적화 핵산 서열, 링커 및 tracrRNA 서열)를 코딩하는 ORF를 코딩하는 DNA 벡터를 제공함으로써 포유동물 세포에서 사용하기 위해 상기 시스템을 변경하였다.
MG1 효소
한 측면에서, 본 개시내용은 (a) 엔도뉴클레아제를 포함하는 조작된 뉴클레아제 시스템을 제공한다. 일부 경우에, 엔도뉴클레아제는 Cas 엔도뉴클레아제이다. 일부 경우에, 엔도뉴클레아제는 타입 II, 클래스 II Cas 엔도뉴클레아제이다. 엔도뉴클레아제는 RuvC_III 도메인을 포함할 수 있고, 여기서 상기 RuvC_III 도메인은 서열 번호 1827-2140 중 어느 하나에 대해 적어도 약 70%의 서열 동일성을 갖는다. 일부 경우에, 엔도뉴클레아제는 RuvC_III 도메인을 포함할 수 있으며, 여기서 RuvC_III 도메인은 서열 번호 1827-2140 중 어느 하나에 대해 적어도 약 20%, 적어도 약 25%, 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는다. 일부 경우에, 엔도뉴클레아제는 서열 번호 1827-2140 중 어느 하나에 대해 실질적으로 동일한 RuvC_III 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 1827-1831 중 어느 하나에 대해 적어도 약 70%의 서열 동일성을 갖는 RuvC_III 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 1827-1831 중 어느 하나에 대해 적어도 약 20%, 적어도 약 25%, 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는 RuvC_III 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 1827-1831 중 어느 하나에 대해 실질적으로 동일한 RuvC_III 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 1827에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는 RuvC_III 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 1828에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는 RuvC_III 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 1829에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는 RuvC_III 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 1830에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는 RuvC_III 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 1831에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는 RuvC_III 도메인을 포함할 수 있다.
엔도뉴클레아제는 서열 번호 3638-3955 중 어느 하나에 대해 적어도 약 70%의 동일성을 갖는 HNH 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 3638-3955 중 어느 하나에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99% 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 3638-3955 중 어느 하나에 대해 실질적으로 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 3638-3955 중 어느 하나에 대해 적어도 약 70%의 동일성을 갖는 HNH 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 3638-3955 중 어느 하나에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99% 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 3638-3955 중 어느 하나에 대해 실질적으로 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 3638-3641 중 어느 하나에 대해 적어도 약 70%의 동일성을 갖는 HNH 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 3638-3641 중 어느 하나에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99% 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 3638-3641 중 어느 하나에 대해 실질적으로 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 3638 중 어느 하나에 대해 적어도 약 70%의 동일성을 갖는 HNH 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 3638 중 어느 하나에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99% 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 3638 중 어느 하나에 대해 실질적으로 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 3639 중 어느 하나에 대해 적어도 약 70%의 동일성을 갖는 HNH 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 3639 중 어느 하나에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99% 동일한 HNH 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 3639 중 어느 하나에 대해 실질적으로 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 3640 중 어느 하나에 대해 적어도 약 70%의 동일성을 갖는 HNH 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 3640 중 어느 하나에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99% 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 3640 중 어느 하나에 대해 실질적으로 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 3641 중 어느 하나에 대해 적어도 약 70%의 동일성을 갖는 HNH 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 3641 중 어느 하나에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99% 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 3641 중 어느 하나에 대해 실질적으로 동일한 HNH 도메인을 포함할 수 있다.
일부 경우에, 엔도뉴클레아제는 서열 번호 1-6 또는 9-319 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 1-6 또는 9-319 중 어느 하나에 대해 실질적으로 동일할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 1-4 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 1-4 중 어느 하나에 대해 실질적으로 동일할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 5615, 5616, 또는 5617 중 어느 하나에 대해 실질적으로 동일한 펩타이드 모티프를 포함할 수 있다.
일부 경우에, 엔도뉴클레아제는 하나 이상의 핵 국소화 서열(NLS)을 갖는 변이체를 포함할 수 있다. NLS는 상기 엔도뉴클레아제의 N- 또는 C-말단에 근접할 수 있다. NLS는 서열 번호 1-6 또는 9-319 중 어느 하나의 N-말단 또는 C-말단에 부가될 수 있거나, 또는 서열 번호 1-319 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체의 N-말단 또는 C-말단에 부가될 수 있다. NLS는 SV40 대형 T 항원 NLS일 수 있다. NLS는 c-myc NLS일 수 있다. NLS는 서열 번호 5593-5608 중 어느 하나에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%의 동일성을 갖는 서열을 포함할 수 있다. NLS는 서열 번호 5593-5608 중 어느 하나에 대해 실질적으로 동일한 서열을 포함할 수 있다. NLS는 하기 표 1의 임의의 서열, 또는 이들의 조합을 포함할 수 있다:
일부 경우에, 엔도뉴클레아제는 재조합체일 수 있다(예를 들어, 이. 콜라이에서의 발현 후 에피토프-태그 정제와 같은 적합한 방법에 의해 클로닝, 발현 및 정제됨). 일부 경우에, 엔도뉴클레아제는 서열 번호 5592-5595 중 어느 하나에 대해 적어도 약 90%의 동일성을 갖는 16S rRNA 유전자를 갖는 박테리아로부터 유래될 수 있다. 엔도뉴클레아제는 서열 번호 5592-5595 중 어느 하나에 대해 적어도 약 80%, 적어도 약 82%, 적어도 약 83%, 적어도 약 84%, 적어도 약 85%, 적어도 약 86%, 적어도 약 87%, 약 88% 이상, 약 89% 이상, 약 90% 이상, 약 91% 이상, 약 92% 이상, 약 93% 이상, 약 94% 이상, 약 95% 이상, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 16S rRNA 유전자를 갖는 종으로부터 유래될 수 있다. 엔도뉴클레아제는 서열 번호 5592-5595 중 어느 하나에 대해 실질적으로 동일한 16S rRNA 유전자를 갖는 종으로부터 유래될 수 있다. 엔도뉴클레아제는 베루코미크로비아 문, 칸디다투스 페레그리니박테리아 문에 속하는 박테리아로부터 유래될 수 있다.
일부 경우에, 서열 동일성은 BLASTP, CLUSTALW, MUSCLE, MAFFT, Novafold, 또는 스미스-워터만 상동성 검색 알고리즘에 의해 결정될 수 있다. 서열 동일성은 단어 길이(W) 3, 기대값(E) 10을 사용하고, BLOSUM62 스코어링 매트릭스 설정 갭 코스트(기존 11, 연장 1)를 사용하고, 조건부 조합 점수 매트릭스 조정을 사용하여 BLASTP 알고리즘에 의해 결정될 수 있다.
일부 경우에, 상기 시스템은 (b) 원하는 절단 서열에 상보성인 5' 표적화 영역을 보유하는 엔도뉴클레아제와 복합체를 형성할 수 있는 적어도 하나의 조작된 합성 가이드 리보핵산(sgRNA)을 포함할 수 있다. 일부 경우에, 5' 표적화 영역은 엔도뉴클레아제와 상용성인 PAM 서열을 포함할 수 있다. 일부 경우에, 표적화 영역의 5'의 대부분의 뉴클레오타이드는 G일 수 있다. 일부 경우에, 5' 표적화 영역은 길이가 15-23개의 뉴클레오타이드일 수 있다. 가이드 서열; 및 tracr 서열은 별개의 리보핵산(RNA) 또는 단일 리보핵산(RNA)으로서 공급될 수 있다. 가이드 RNA는 표적화 영역의 3'에 crRNA tracrRNA 결합 서열을 포함할 수 있다. 가이드 RNA는 crRNA tracrRNA 결합 영역의 3'에 4-뉴클레오타이드 링커가 선행하는 tracrRNA 서열을 포함할 수 있다. sgRNA는 5'에서 3'으로, 세포에서 표적 서열에 혼성화할 수 있는 비천연 가이드 핵산 서열; 및 tracr 서열을 포함할 수 있다. 일부 경우에, 비천연 가이드 핵산 서열; 및 tracr 서열은 공유적으로 연결된다.
일부 경우에, tracr 서열은 특정 서열을 가질 수 있다. tracr 서열은 천연 tracrRNA 서열의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%의 서열 동일성을 가질 수 있다. tracr 서열은 서열 번호 5476-5489 중 어느 하나의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%의 서열 동일성을 가질 수 있다. 일부 경우에, tracrRNA는 서열 번호 5476-5489 중 어느 하나의 적어도 약 60-90개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 가질 수 있다. 일부 경우에, tracrRNA는 서열 번호 5476-5489 중 어느 하나의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 실질적으로 동일할 수 있다. tracrRNA는 서열 번호 5476-5489 중 임의의 것을 포함할 수 있다.
일부 경우에, 엔도뉴클레아제와 복합체를 형성할 수 있는 적어도 하나의 조작된 합성 가이드 리보핵산(sgRNA)은 서열 번호 5461-5464 중 어느 하나에 대해 적어도 약 80%의 동일성을 갖는 서열을 포함할 수 있다. sgRNA는 서열 번호 5461-5464 중 어느 하나에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 서열을 포함할 수 있다. sgRNA는 서열 번호 5461-5464 중 어느 하나에 대해 실질적으로 동일한 서열을 포함할 수 있다.
일부 경우에, 상기 시스템은 표적 DNA 유전자좌 내의 절단을 위한 제1 영역 및 제2 영역을 표적화하는 2개의 상이한 sgRNA를 포함할 수 있으며, 여기서 제2 영역은 제1 영역의 3'에 위치한다. 일부 경우에, 상기 시스템은 5'에서 3'으로 다음을 포함하는 단일 가닥 또는 이중 가닥 DNA 복구 주형을 포함할 수 있다: 제1 영역의 5'에 위치하는 적어도 약 20개(예를 들어, 적어도 약 40, 80, 120, 150, 200, 300, 500, 또는 1 kb) 뉴클레오타이드의 서열을 포함하는 제1 상동성 아암, 적어도 약 10개 뉴클레오타이드의 합성 DNA 서열, 및 제2 영역의 3'에 위치하는 적어도 약 20개(예를 들어, 적어도 약 40, 80, 120, 150, 200, 300, 500, 또는 1 kb) 뉴클레오타이드의 서열을 포함하는 제2 상동성 아암.
또 다른 측면에서, 본 개시내용은 표적 핵산 유전자좌를 변형시키는 방법을 제공한다. 상기 방법은 본 명세서에서 개시되는 효소 및 적어도 하나의 합성 가이드 RNA(sgRNA)를 포함하는, 본 명세서에서 개시되는 비-천연 시스템 중 임의의 것을 표적 핵산 유전자좌에 전달하는 단계를 포함할 수 있다. 효소는 적어도 하나의 sgRNA와 복합체를 형성할 수 있고, 복합체가 표적 핵산 유전자좌에 결합할 때 표적 핵산 유전자좌를 변형시킬 수 있다. 상기 유전자좌에 효소를 전달하는 것은 세포를 시스템 또는 시스템을 코딩하는 핵산으로 형질감염시키는 것을 포함할 수 있다. 뉴클레아제를 상기 유전자좌에 전달하는 것은 시스템 또는 시스템을 코딩하는 핵산으로 세포를 전기천공하는 것을 포함할 수 있다. 뉴클레아제를 상기 유전자좌에 전달하는 것은 관심 유전자좌를 포함하는 핵산과 함께 완충액에서 시스템을 인큐베이션하는 것을 포함할 수 있다. 일부 경우에, 표적 핵산 유전자좌는 데옥시리보핵산(DNA) 또는 리보핵산(RNA)을 포함한다. 표적 핵산 유전자좌는 게놈 DNA, 바이러스 DNA, 바이러스 RNA, 또는 박테리아 DNA를 포함할 수 있다. 표적 핵산 유전자좌는 세포 내에 있을 수 있다. 표적 핵산 유전자좌는 시험관 내에 존재할 수 있다. 표적 핵산 유전자좌는 진핵 세포 또는 원핵 세포 내에 존재할 수 있다. 세포는 동물 세포, 인간 세포, 박테리아 세포, 고세균 세포, 또는 식물 세포일 수 있다. 효소는 관심 표적 유전자좌에서 또는 그 부근에서 단일 또는 이중 가닥 파손을 유도할 수 있다.
표적 핵산 유전자좌가 세포 내에 존재할 수 있는 경우에, 효소는 서열 번호 1827-2140 중 어느 하나에 대해 적어도 약 75%(예를 들어, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%)의 동일성을 갖는 RuvC_III 도메인이 존재하는 효소를 코딩하는 개방 해독 프레임을 함유하는 핵산으로서 공급될 수 있다. 상기 엔도뉴클레아제를 코딩하는 개방 해독 프레임을 함유하는 데옥시리보핵산(DNA)은 서열 번호 5572-5575 중 어느 하나에 대해 실질적으로 동일한 서열 또는 서열 번호 5572-5575 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 핵산은 엔도뉴클레아제를 코딩하는 개방 해독 프레임이 작동 가능하게 연결된 프로모터를 포함한다. 프로모터는 CMV, EF1a, SV40, PGK1, Ubc, 인간 베타 액틴, CAG, TRE, 또는 CaMKIIa 프로모터일 수 있다. 엔도뉴클레아제는 상기 엔도뉴클레아제를 코딩하는 상기 개방 해독 프레임을 함유하는 캡핑된 mRNA로서 공급될 수 있다. 엔도뉴클레아제는 번역된 폴리펩타이드로 공급될 수 있다. 적어도 하나의 조작된 sgRNA는 리보핵산(RNA) pol III 프로모터에 작동 가능하게 연결된 상기 적어도 하나의 조작된 sgRNA를 코딩하는 유전자 서열을 함유하는 데옥시리보핵산(DNA)으로서 공급될 수 있다. 일부 경우에, 유기체는 진핵생물일 수 있다. 일부 경우에, 유기체는 진균일 수 있다. 일부 경우에, 유기체는 인간일 수 있다.
일부 경우에, 본 개시내용은 본 명세서에서 개시되는 시스템, 또는 본 명세서에서 설명되는 핵산을 포함하는 발현 카세트를 제공할 수 있다. 일부 경우에, 발현 카세트 또는 핵산은 벡터로서 공급될 수 있다. 일부 경우에, 발현 카세트, 핵산 또는 벡터가 세포에 공급될 수 있다. 일부 경우에, 세포는 서열 번호 5592-5595 중 어느 하나에 대해 적어도 약 90%(예를 들어, 적어도 약 99%)의 동일성을 갖는 16S rRNA 유전자를 갖는 박테리아의 세포이다.
MG2 효소
한 측면에서, 본 개시내용은 (a) 엔도뉴클레아제를 포함하는 조작된 뉴클레아제 시스템을 제공한다. 일부 경우에, 엔도뉴클레아제는 Cas 엔도뉴클레아제이다. 일부 경우에, 엔도뉴클레아제는 타입 II, 클래스 II Cas 엔도뉴클레아제이다. 엔도뉴클레아제는 RuvC_III 도메인을 포함할 수 있고, 여기서 상기 RuvC_III 도메인은 서열 번호 2141-2241 중 어느 하나에 대해 적어도 약 70%의 서열 동일성을 갖는다. 일부 경우에, 엔도뉴클레아제는 RuvC_III 도메인을 포함할 수 있으며, 여기서 RuvC_III 도메인은 서열 번호 2141-2241 중 어느 하나에 대해 적어도 약 20%, 적어도 약 25%, 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는다. 일부 경우에, 엔도뉴클레아제는 서열 번호 2141-2142 중 어느 하나에 대해 실질적으로 동일한 RuvC_III 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 2141-2142 중 어느 하나에 대해 적어도 약 70%의 서열 동일성을 갖는 RuvC_III 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 2141-2142 중 어느 하나에 대해 적어도 약 20%, 적어도 약 25%, 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는 RuvC_III 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 2141-2142 중 어느 하나에 대해 실질적으로 동일한 RuvC_III 도메인을 포함할 수 있다.
엔도뉴클레아제는 서열 번호 3955-4055 중 어느 하나에 대해 적어도 약 70%의 동일성을 갖는 HNH 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 3955-4055 중 어느 하나에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99% 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 3955-4055 중 어느 하나에 대해 실질적으로 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 3955-3956 중 어느 하나에 대해 적어도 약 70%의 동일성을 갖는 HNH 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 3955-3956 중 어느 하나에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99% 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 3955-3956 중 어느 하나에 대해 실질적으로 동일한 HNH 도메인을 포함할 수 있다.
일부 경우에, 엔도뉴클레아제는 서열 번호 320-420 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 320-420 중 어느 하나에 대해 실질적으로 동일할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 320-321 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 320-321 중 어느 하나에 대해 실질적으로 동일할 수 있다.
일부 경우에, 엔도뉴클레아제는 하나 이상의 핵 국소화 서열(NLS)을 갖는 변이체를 포함할 수 있다. NLS는 상기 엔도뉴클레아제의 N- 또는 C-말단에 근접할 수 있다. NLS는 서열 번호 320-420 중 어느 하나의 N-말단 또는 C-말단에 부가될 수 있거나, 또는 서열 번호 320-420 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체의 N-말단 또는 C-말단에 부가될 수 있다. NLS는 SV40 대형 T 항원 NLS일 수 있다. NLS는 c-myc NLS일 수 있다. NLS는 서열 번호 5593-5608 중 어느 하나에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%의 동일성을 갖는 서열을 포함할 수 있다. NLS는 서열 번호 5593-5608 중 어느 하나에 대해 실질적으로 동일한 서열을 포함할 수 있다. NLS는 표 1의 임의의 서열, 또는 이들의 조합을 포함할 수 있다:
일부 경우에, 서열 동일성은 BLASTP, CLUSTALW, MUSCLE, MAFFT, Novafold, 또는 스미스-워터만 상동성 검색 알고리즘에 의해 결정될 수 있다. 서열 동일성은 단어 길이(W) 3, 기대값(E) 10을 사용하고, BLOSUM62 스코어링 매트릭스 설정 갭 코스트(기존 11, 연장 1)를 사용하고, 조건부 조합 점수 매트릭스 조정을 사용하여 BLASTP 알고리즘에 의해 결정될 수 있다.
일부 경우에, 상기 시스템은 (b) 원하는 절단 서열에 상보성인 5' 표적화 영역을 보유하는 엔도뉴클레아제와 복합체를 형성할 수 있는 적어도 하나의 조작된 합성 가이드 리보핵산(sgRNA)을 포함할 수 있다. 일부 경우에, 5' 표적화 영역은 엔도뉴클레아제와 상용성인 PAM 서열을 포함할 수 있다. 일부 경우에, 표적화 영역의 5'의 대부분의 뉴클레오타이드는 G일 수 있다. 일부 경우에, 5' 표적화 영역은 길이가 15-23개의 뉴클레오타이드일 수 있다. 가이드 서열; 및 tracr 서열은 별개의 리보핵산(RNA) 또는 단일 리보핵산(RNA)으로서 공급될 수 있다. 가이드 RNA는 표적화 영역의 3'에 crRNA tracrRNA 결합 서열을 포함할 수 있다. 가이드 RNA는 crRNA tracrRNA 결합 영역의 3'에 4-뉴클레오타이드 링커가 선행하는 tracrRNA 서열을 포함할 수 있다. sgRNA는 5'에서 3'으로, 세포에서 표적 서열에 혼성화할 수 있는 비천연 가이드 핵산 서열; 및 tracr 서열을 포함할 수 있다. 일부 경우에, 비천연 가이드 핵산 서열; 및 tracr 서열은 공유적으로 연결된다.
일부 경우에, tracr 서열은 특정 서열을 가질 수 있다. tracr 서열은 천연 tracrRNA 서열의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%의 서열 동일성을 가질 수 있다. tracr 서열은 서열 번호 5490-5494 중 어느 하나의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%의 서열 동일성을 가질 수 있다. 일부 경우에, tracrRNA는 서열 번호 5490-5494 중 어느 하나의 적어도 약 60-90개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 가질 수 있다. 일부 경우에, tracrRNA는 서열 번호 5490-5494 중 어느 하나의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 실질적으로 동일할 수 있다. tracrRNA는 서열 번호 5490-5494 중 임의의 것을 포함할 수 있다.
일부 경우에, 엔도뉴클레아제와 복합체를 형성할 수 있는 적어도 하나의 조작된 합성 가이드 리보핵산(sgRNA)은 서열 번호 5465에 대해 적어도 약 80%의 동일성을 갖는 서열을 포함할 수 있다. sgRNA는 서열 번호 5465에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 서열을 포함할 수 있다. sgRNA는 서열 번호 5465에 대해 실질적으로 동일한 서열을 포함할 수 있다.
일부 경우에, 상기 시스템은 표적 DNA 유전자좌 내의 절단을 위한 제1 영역 및 제2 영역을 표적화하는 2개의 상이한 sgRNA를 포함할 수 있으며, 여기서 제2 영역은 제1 영역의 3'에 위치한다. 일부 경우에, 상기 시스템은 5'에서 3'으로 다음을 포함하는 단일 가닥 또는 이중 가닥 DNA 복구 주형을 포함할 수 있다: 제1 영역의 5'에 위치하는 적어도 약 20개(예를 들어, 적어도 약 40, 80, 120, 150, 200, 300, 500, 또는 1 kb) 뉴클레오타이드의 서열을 포함하는 제1 상동성 아암, 적어도 약 10개 뉴클레오타이드의 합성 DNA 서열, 및 제2 영역의 3'에 위치하는 적어도 약 20개(예를 들어, 적어도 약 40, 80, 120, 150, 200, 300, 500, 또는 1 kb) 뉴클레오타이드의 서열을 포함하는 제2 상동성 아암.
또 다른 측면에서, 본 개시내용은 관심 표적 핵산 유전자좌를 변형시키는 방법을 제공한다. 상기 방법은 본 명세서에서 개시되는 효소 및 적어도 하나의 합성 가이드 RNA(sgRNA)를 포함하는, 본 명세서에서 개시되는 비-천연 시스템 중 임의의 것을 표적 핵산 유전자좌에 전달하는 단계를 포함할 수 있다. 효소는 적어도 하나의 sgRNA와 복합체를 형성할 수 있고, 복합체가 관심 표적 핵산 유전자좌에 결합할 때 관심 표적 핵산 유전자좌를 변형시킬 수 있다. 상기 유전자좌에 효소를 전달하는 것은 세포를 시스템 또는 시스템을 코딩하는 핵산으로 형질감염시키는 것을 포함할 수 있다. 뉴클레아제를 상기 유전자좌에 전달하는 것은 시스템 또는 시스템을 코딩하는 핵산으로 세포를 전기천공하는 것을 포함할 수 있다. 뉴클레아제를 상기 유전자좌에 전달하는 것은 관심 유전자좌를 포함하는 핵산과 함께 완충액에서 시스템을 인큐베이션하는 것을 포함할 수 있다. 일부 경우에, 표적 핵산 유전자좌는 데옥시리보핵산(DNA) 또는 리보핵산(RNA)을 포함한다. 표적 핵산 유전자좌는 게놈 DNA, 바이러스 DNA, 바이러스 RNA, 또는 박테리아 DNA를 포함할 수 있다. 표적 핵산 유전자좌는 세포 내에 있을 수 있다. 표적 핵산 유전자좌는 시험관 내에 존재할 수 있다. 표적 핵산 유전자좌는 진핵 세포 또는 원핵 세포 내에 존재할 수 있다. 세포는 동물 세포, 인간 세포, 박테리아 세포, 고세균 세포, 또는 식물 세포일 수 있다. 효소는 관심 표적 유전자좌에서 또는 그 부근에서 단일 또는 이중 가닥 파손을 유도할 수 있다.
표적 핵산 유전자좌가 세포 내에 존재할 수 있는 경우에, 효소는 서열 번호 2141-2241 중 어느 하나에 대해 적어도 약 75%(예를 들어, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%)의 동일성을 갖는 RuvC_III 도메인이 존재하는 효소를 코딩하는 개방 해독 프레임을 함유하는 핵산으로서 공급될 수 있다. 상기 엔도뉴클레아제를 코딩하는 개방 해독 프레임을 함유하는 데옥시리보핵산(DNA)은 서열 번호 5576-5577 중 어느 하나에 대해 실질적으로 동일한 서열 또는 서열 번호 5576-5577 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 핵산은 엔도뉴클레아제를 코딩하는 개방 해독 프레임이 작동 가능하게 연결된 프로모터를 포함한다. 프로모터는 CMV, EF1a, SV40, PGK1, Ubc, 인간 베타 액틴, CAG, TRE, 또는 CaMKIIa 프로모터일 수 있다. 엔도뉴클레아제는 상기 엔도뉴클레아제를 코딩하는 상기 개방 해독 프레임을 함유하는 캡핑된 mRNA로서 공급될 수 있다. 엔도뉴클레아제는 번역된 폴리펩타이드로 공급될 수 있다. 적어도 하나의 조작된 sgRNA는 리보핵산(RNA) pol III 프로모터에 작동 가능하게 연결된 상기 적어도 하나의 조작된 sgRNA를 코딩하는 유전자 서열을 함유하는 데옥시리보핵산(DNA)으로서 공급될 수 있다. 일부 경우에, 유기체는 진핵생물일 수 있다. 일부 경우에, 유기체는 진균일 수 있다. 일부 경우에, 유기체는 인간일 수 있다.
MG3 효소
한 측면에서, 본 개시내용은 (a) 엔도뉴클레아제를 포함하는 조작된 뉴클레아제 시스템을 제공한다. 일부 경우에, 엔도뉴클레아제는 Cas 엔도뉴클레아제이다. 일부 경우에, 엔도뉴클레아제는 타입 II, 클래스 II Cas 엔도뉴클레아제이다. 엔도뉴클레아제는 RuvC_III 도메인을 포함할 수 있고, 여기서 상기 RuvC_III 도메인은 서열 번호 2242-2251 중 어느 하나에 대해 적어도 약 70%의 서열 동일성을 갖는다. 일부 경우에, 엔도뉴클레아제는 RuvC_III 도메인을 포함할 수 있으며, 여기서 RuvC_III 도메인은 서열 번호 2242-2251 중 어느 하나에 대해 적어도 약 20%, 적어도 약 25%, 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는다. 일부 경우에, 엔도뉴클레아제는 서열 번호 2242-2251 중 어느 하나에 대해 실질적으로 동일한 RuvC_III 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 2242-2244 중 어느 하나에 대해 적어도 약 70%의 서열 동일성을 갖는 RuvC_III 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 2242-2244 중 어느 하나에 대해 적어도 약 20%, 적어도 약 25%, 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는 RuvC_III 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 2242-2244 중 어느 하나에 대해 실질적으로 동일한 RuvC_III 도메인을 포함할 수 있다.
엔도뉴클레아제는 서열 번호 4056-4066 중 어느 하나에 대해 적어도 약 70%의 동일성을 갖는 HNH 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 4056-4066 중 어느 하나에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99% 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 4056-4066 중 어느 하나에 대해 실질적으로 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 4056-4058 중 어느 하나에 대해 적어도 약 70%의 동일성을 갖는 HNH 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 4056-4058 중 어느 하나에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99% 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 4056-4058 중 어느 하나에 대해 실질적으로 동일한 HNH 도메인을 포함할 수 있다.
일부 경우에, 엔도뉴클레아제는 서열 번호 421-431 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 421-431 중 어느 하나에 대해 실질적으로 동일할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 421-423 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 421-423 중 어느 하나에 대해 실질적으로 동일할 수 있다.
일부 경우에, 엔도뉴클레아제는 하나 이상의 핵 국소화 서열(NLS)을 갖는 변이체를 포함할 수 있다. NLS는 상기 엔도뉴클레아제의 N- 또는 C-말단에 근접할 수 있다. NLS는 서열 번호 421-431 중 어느 하나의 N-말단 또는 C-말단에 부가될 수 있거나, 또는 서열 번호 421-431 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체의 N-말단 또는 C-말단에 부가될 수 있다. NLS는 SV40 대형 T 항원 NLS일 수 있다. NLS는 c-myc NLS일 수 있다. NLS는 서열 번호 5593-5608 중 어느 하나에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%의 동일성을 갖는 서열을 포함할 수 있다. NLS는 서열 번호 5593-5608 중 어느 하나에 대해 실질적으로 동일한 서열을 포함할 수 있다. NLS는 표 1의 임의의 서열, 또는 이들의 조합을 포함할 수 있다:
일부 경우에, 서열 동일성은 BLASTP, CLUSTALW, MUSCLE, MAFFT, Novafold, 또는 스미스-워터만 상동성 검색 알고리즘에 의해 결정될 수 있다. 서열 동일성은 단어 길이(W) 3, 기대값(E) 10을 사용하고, BLOSUM62 스코어링 매트릭스 설정 갭 코스트(기존 11, 연장 1)를 사용하고, 조건부 조합 점수 매트릭스 조정을 사용하여 BLASTP 알고리즘에 의해 결정될 수 있다.
일부 경우에, 상기 시스템은 (b) 원하는 절단 서열에 상보성인 5' 표적화 영역을 보유하는 엔도뉴클레아제와 복합체를 형성할 수 있는 적어도 하나의 조작된 합성 가이드 리보핵산(sgRNA)을 포함할 수 있다. 일부 경우에, 5' 표적화 영역은 엔도뉴클레아제와 상용성인 PAM 서열을 포함할 수 있다. 일부 경우에, 표적화 영역의 5'의 대부분의 뉴클레오타이드는 G일 수 있다. 일부 경우에, 5' 표적화 영역은 길이가 15-23개의 뉴클레오타이드일 수 있다. 가이드 서열; 및 tracr 서열은 별개의 리보핵산(RNA) 또는 단일 리보핵산(RNA)으로서 공급될 수 있다. 가이드 RNA는 표적화 영역의 3'에 crRNA tracrRNA 결합 서열을 포함할 수 있다. 가이드 RNA는 crRNA tracrRNA 결합 영역의 3'에 4-뉴클레오타이드 링커가 선행하는 tracrRNA 서열을 포함할 수 있다. sgRNA는 5'에서 3'으로, 세포에서 표적 서열에 혼성화할 수 있는 비천연 가이드 핵산 서열; 및 tracr 서열을 포함할 수 있다. 일부 경우에, 비천연 가이드 핵산 서열; 및 tracr 서열은 공유적으로 연결된다.
일부 경우에, tracr 서열은 특정 서열을 가질 수 있다. tracr 서열은 천연 tracrRNA 서열의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%의 서열 동일성을 가질 수 있다. tracr 서열은 서열 번호 5495-5502 중 어느 하나의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%의 서열 동일성을 가질 수 있다. 일부 경우에, tracrRNA는 서열 번호 5495-5502 중 어느 하나의 적어도 약 60-90개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 가질 수 있다. 일부 경우에, tracrRNA는 서열 번호 5495-5502 중 어느 하나의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 실질적으로 동일할 수 있다. tracrRNA는 서열 번호 5495-5502 중 임의의 것을 포함할 수 있다.
일부 경우에, 엔도뉴클레아제와 복합체를 형성할 수 있는 적어도 하나의 조작된 합성 가이드 리보핵산(sgRNA)은 서열 번호 5466-5467에 대해 적어도 약 80%의 동일성을 갖는 서열을 포함할 수 있다. sgRNA는 서열 번호 5466-5467에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 서열을 포함할 수 있다. sgRNA는 서열 번호 5466-5467에 대해 실질적으로 동일한 서열을 포함할 수 있다.
일부 경우에, 상기 시스템은 표적 DNA 유전자좌 내의 절단을 위한 제1 영역 및 제2 영역을 표적화하는 2개의 상이한 sgRNA를 포함할 수 있으며, 여기서 제2 영역은 제1 영역의 3'에 위치한다. 일부 경우에, 상기 시스템은 5'에서 3'으로 다음을 포함하는 단일 가닥 또는 이중 가닥 DNA 복구 주형을 포함할 수 있다: 제1 영역의 5'에 위치하는 적어도 약 20개(예를 들어, 적어도 약 40, 80, 120, 150, 200, 300, 500, 또는 1 kb) 뉴클레오타이드의 서열을 포함하는 제1 상동성 아암, 적어도 약 10개 뉴클레오타이드의 합성 DNA 서열, 및 제2 영역의 3'에 위치하는 적어도 약 20개(예를 들어, 적어도 약 40, 80, 120, 150, 200, 300, 500, 또는 1 kb) 뉴클레오타이드의 서열을 포함하는 제2 상동성 아암.
또 다른 측면에서, 본 개시내용은 관심 표적 핵산 유전자좌를 변형시키는 방법을 제공한다. 상기 방법은 본 명세서에서 개시되는 효소 및 적어도 하나의 합성 가이드 RNA(sgRNA)를 포함하는, 본 명세서에서 개시되는 비-천연 시스템 중 임의의 것을 표적 핵산 유전자좌에 전달하는 단계를 포함할 수 있다. 효소는 적어도 하나의 sgRNA와 복합체를 형성할 수 있고, 복합체가 관심 표적 핵산 유전자좌에 결합할 때 관심 표적 핵산 유전자좌를 변형시킬 수 있다. 상기 유전자좌에 효소를 전달하는 것은 세포를 시스템 또는 시스템을 코딩하는 핵산으로 형질감염시키는 것을 포함할 수 있다. 뉴클레아제를 상기 유전자좌에 전달하는 것은 시스템 또는 시스템을 코딩하는 핵산으로 세포를 전기천공하는 것을 포함할 수 있다. 뉴클레아제를 상기 유전자좌에 전달하는 것은 관심 유전자좌를 포함하는 핵산과 함께 완충액에서 시스템을 인큐베이션하는 것을 포함할 수 있다. 일부 경우에, 표적 핵산 유전자좌는 데옥시리보핵산(DNA) 또는 리보핵산(RNA)을 포함한다. 표적 핵산 유전자좌는 게놈 DNA, 바이러스 DNA, 바이러스 RNA, 또는 박테리아 DNA를 포함할 수 있다. 표적 핵산 유전자좌는 세포 내에 있을 수 있다. 표적 핵산 유전자좌는 시험관 내에 존재할 수 있다. 표적 핵산 유전자좌는 진핵 세포 또는 원핵 세포 내에 존재할 수 있다. 세포는 동물 세포, 인간 세포, 박테리아 세포, 고세균 세포, 또는 식물 세포일 수 있다. 효소는 관심 표적 유전자좌에서 또는 그 부근에서 단일 또는 이중 가닥 파손을 유도할 수 있다.
표적 핵산 유전자좌가 세포 내에 존재할 수 있는 경우에, 효소는 서열 번호 2242-2251 중 어느 하나에 대해 적어도 약 75%(예를 들어, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%)의 동일성을 갖는 RuvC_III 도메인이 존재하는 효소를 코딩하는 개방 해독 프레임을 함유하는 핵산으로서 공급될 수 있다. 상기 엔도뉴클레아제를 코딩하는 개방 해독 프레임을 함유하는 데옥시리보핵산(DNA)은 서열 번호 5578-5580 중 어느 하나에 대해 실질적으로 동일한 서열 또는 서열 번호 5578-5580 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 핵산은 엔도뉴클레아제를 코딩하는 개방 해독 프레임이 작동 가능하게 연결된 프로모터를 포함한다. 프로모터는 CMV, EF1a, SV40, PGK1, Ubc, 인간 베타 액틴, CAG, TRE, 또는 CaMKIIa 프로모터일 수 있다. 엔도뉴클레아제는 상기 엔도뉴클레아제를 코딩하는 상기 개방 해독 프레임을 함유하는 캡핑된 mRNA로서 공급될 수 있다. 엔도뉴클레아제는 번역된 폴리펩타이드로 공급될 수 있다. 적어도 하나의 조작된 sgRNA는 리보핵산(RNA) pol III 프로모터에 작동 가능하게 연결된 상기 적어도 하나의 조작된 sgRNA를 코딩하는 유전자 서열을 함유하는 데옥시리보핵산(DNA)으로서 공급될 수 있다. 일부 경우에, 유기체는 진핵생물일 수 있다. 일부 경우에, 유기체는 진균일 수 있다. 일부 경우에, 유기체는 인간일 수 있다.
MG4 효소
한 측면에서, 본 개시내용은 (a) 엔도뉴클레아제를 포함하는 조작된 뉴클레아제 시스템을 제공한다. 일부 경우에, 엔도뉴클레아제는 Cas 엔도뉴클레아제이다. 일부 경우에, 엔도뉴클레아제는 타입 II, 클래스 II Cas 엔도뉴클레아제이다. 엔도뉴클레아제는 RuvC_III 도메인을 포함할 수 있고, 여기서 상기 RuvC_III 도메인은 서열 번호 2253-2481 중 어느 하나에 대해 적어도 약 70%의 서열 동일성을 갖는다. 일부 경우에, 엔도뉴클레아제는 RuvC_III 도메인을 포함할 수 있으며, 여기서 RuvC_III 도메인은 서열 번호 2253-2481 중 어느 하나에 대해 적어도 약 20%, 적어도 약 25%, 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는다. 일부 경우에, 엔도뉴클레아제는 서열 번호 2253-2481 중 어느 하나에 대해 실질적으로 동일한 RuvC_III 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 2253-2481 중 어느 하나에 대해 적어도 약 70%의 서열 동일성을 갖는 RuvC_III 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 2253-2481 중 어느 하나에 대해 적어도 약 20%, 적어도 약 25%, 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는 RuvC_III 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 2253-2481 중 어느 하나에 대해 실질적으로 동일한 RuvC_III 도메인을 포함할 수 있다.
엔도뉴클레아제는 서열 번호 4067-4295 중 어느 하나에 대해 적어도 약 70%의 동일성을 갖는 HNH 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 4067-4295 중 어느 하나에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99% 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 4067-4295 중 어느 하나에 대해 실질적으로 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 4067-4295 중 어느 하나에 대해 적어도 약 70%의 동일성을 갖는 HNH 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 4067-4295 중 어느 하나에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99% 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 4067-4295 중 어느 하나에 대해 실질적으로 동일한 HNH 도메인을 포함할 수 있다.
일부 경우에, 엔도뉴클레아제는 서열 번호 432-660 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 432-660 중 어느 하나에 대해 실질적으로 동일할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 432-660 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 432-660 중 어느 하나에 대해 실질적으로 동일할 수 있다.
일부 경우에, 엔도뉴클레아제는 하나 이상의 핵 국소화 서열(NLS)을 갖는 변이체를 포함할 수 있다. NLS는 상기 엔도뉴클레아제의 N- 또는 C-말단에 근접할 수 있다. NLS는 서열 번호 432-660 중 어느 하나의 N-말단 또는 C-말단에 부가될 수 있거나, 또는 서열 번호 432-660 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체의 N-말단 또는 C-말단에 부가될 수 있다. NLS는 SV40 대형 T 항원 NLS일 수 있다. NLS는 c-myc NLS일 수 있다. NLS는 서열 번호 5593-5608 중 어느 하나에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%의 동일성을 갖는 서열을 포함할 수 있다. NLS는 서열 번호 5593-5608 중 어느 하나에 대해 실질적으로 동일한 서열을 포함할 수 있다. NLS는 표 1의 임의의 서열, 또는 이들의 조합을 포함할 수 있다.
일부 경우에, 서열 동일성은 BLASTP, CLUSTALW, MUSCLE, MAFFT, Novafold, 또는 스미스-워터만 상동성 검색 알고리즘에 의해 결정될 수 있다. 서열 동일성은 단어 길이(W) 3, 기대값(E) 10을 사용하고, BLOSUM62 스코어링 매트릭스 설정 갭 코스트(기존 11, 연장 1)를 사용하고, 조건부 조합 점수 매트릭스 조정을 사용하여 BLASTP 알고리즘에 의해 결정될 수 있다.
일부 경우에, 상기 시스템은 (b) 원하는 절단 서열에 상보성인 5' 표적화 영역을 보유하는 엔도뉴클레아제와 복합체를 형성할 수 있는 적어도 하나의 조작된 합성 가이드 리보핵산(sgRNA)을 포함할 수 있다. 일부 경우에, 5' 표적화 영역은 엔도뉴클레아제와 상용성인 PAM 서열을 포함할 수 있다. 일부 경우에, 표적화 영역의 5'의 대부분의 뉴클레오타이드는 G일 수 있다. 일부 경우에, 5' 표적화 영역은 길이가 15-23개의 뉴클레오타이드일 수 있다. 가이드 서열; 및 tracr 서열은 별개의 리보핵산(RNA) 또는 단일 리보핵산(RNA)으로서 공급될 수 있다. 가이드 RNA는 표적화 영역의 3'에 crRNA tracrRNA 결합 서열을 포함할 수 있다. 가이드 RNA는 crRNA tracrRNA 결합 영역의 3'에 4-뉴클레오타이드 링커가 선행하는 tracrRNA 서열을 포함할 수 있다. sgRNA는 5'에서 3'으로, 세포에서 표적 서열에 혼성화할 수 있는 비천연 가이드 핵산 서열; 및 tracr 서열을 포함할 수 있다. 일부 경우에, 비천연 가이드 핵산 서열; 및 tracr 서열은 공유적으로 연결된다.
일부 경우에, tracr 서열은 특정 서열을 가질 수 있다. tracr 서열은 천연 tracrRNA 서열의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%의 서열 동일성을 가질 수 있다. tracr 서열은 서열 번호 5503의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%의 서열 동일성을 가질 수 있다. 일부 경우에, tracrRNA는 서열 번호 5503의 적어도 약 60-90개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 가질 수 있다. 일부 경우에, tracrRNA는 서열 번호 5503의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 실질적으로 동일할 수 있다. tracrRNA는 서열 번호 5503을 포함할 수 있다.
일부 경우에, 엔도뉴클레아제와 복합체를 형성할 수 있는 적어도 하나의 조작된 합성 가이드 리보핵산(sgRNA)은 서열 번호 5468에 대해 적어도 약 80%의 동일성을 갖는 서열을 포함할 수 있다. sgRNA는 서열 번호 5468에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 서열을 포함할 수 있다. sgRNA는 서열 번호 5468에 대해 실질적으로 동일한 서열을 포함할 수 있다.
일부 경우에, 상기 시스템은 표적 DNA 유전자좌 내의 절단을 위한 제1 영역 및 제2 영역을 표적화하는 2개의 상이한 sgRNA를 포함할 수 있으며, 여기서 제2 영역은 제1 영역의 3'에 위치한다. 일부 경우에, 상기 시스템은 5'에서 3'으로 다음을 포함하는 단일 가닥 또는 이중 가닥 DNA 복구 주형을 포함할 수 있다: 제1 영역의 5'에 위치하는 적어도 약 20개(예를 들어, 적어도 약 40, 80, 120, 150, 200, 300, 500, 또는 1 kb) 뉴클레오타이드의 서열을 포함하는 제1 상동성 아암, 적어도 약 10개 뉴클레오타이드의 합성 DNA 서열, 및 제2 영역의 3'에 위치하는 적어도 약 20개(예를 들어, 적어도 약 40, 80, 120, 150, 200, 300, 500, 또는 1 kb) 뉴클레오타이드의 서열을 포함하는 제2 상동성 아암.
또 다른 측면에서, 본 개시내용은 관심 표적 핵산 유전자좌를 변형시키는 방법을 제공한다. 상기 방법은 본 명세서에서 개시되는 효소 및 적어도 하나의 합성 가이드 RNA(sgRNA)를 포함하는, 본 명세서에서 개시되는 비-천연 시스템 중 임의의 것을 표적 핵산 유전자좌에 전달하는 단계를 포함할 수 있다. 효소는 적어도 하나의 sgRNA와 복합체를 형성할 수 있고, 복합체가 관심 표적 핵산 유전자좌에 결합할 때 관심 표적 핵산 유전자좌를 변형시킬 수 있다. 상기 유전자좌에 효소를 전달하는 것은 세포를 시스템 또는 시스템을 코딩하는 핵산으로 형질감염시키는 것을 포함할 수 있다. 뉴클레아제를 상기 유전자좌에 전달하는 것은 시스템 또는 시스템을 코딩하는 핵산으로 세포를 전기천공하는 것을 포함할 수 있다. 뉴클레아제를 상기 유전자좌에 전달하는 것은 관심 유전자좌를 포함하는 핵산과 함께 완충액에서 시스템을 인큐베이션하는 것을 포함할 수 있다. 일부 경우에, 표적 핵산 유전자좌는 데옥시리보핵산(DNA) 또는 리보핵산(RNA)을 포함한다. 표적 핵산 유전자좌는 게놈 DNA, 바이러스 DNA, 바이러스 RNA, 또는 박테리아 DNA를 포함할 수 있다. 표적 핵산 유전자좌는 세포 내에 있을 수 있다. 표적 핵산 유전자좌는 시험관 내에 존재할 수 있다. 표적 핵산 유전자좌는 진핵 세포 또는 원핵 세포 내에 존재할 수 있다. 세포는 동물 세포, 인간 세포, 박테리아 세포, 고세균 세포, 또는 식물 세포일 수 있다. 효소는 관심 표적 유전자좌에서 또는 그 부근에서 단일 또는 이중 가닥 파손을 유도할 수 있다.
표적 핵산 유전자좌가 세포 내에 존재할 수 있는 경우에, 효소는 서열 번호 2253-2481 중 어느 하나에 대해 적어도 약 75%(예를 들어, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%)의 동일성을 갖는 RuvC_III 도메인이 존재하는 효소를 코딩하는 개방 해독 프레임을 함유하는 핵산으로서 공급될 수 있다. 일부 경우에, 핵산은 엔도뉴클레아제를 코딩하는 개방 해독 프레임이 작동 가능하게 연결된 프로모터를 포함한다. 프로모터는 CMV, EF1a, SV40, PGK1, Ubc, 인간 베타 액틴, CAG, TRE, 또는 CaMKIIa 프로모터일 수 있다. 엔도뉴클레아제는 상기 엔도뉴클레아제를 코딩하는 상기 개방 해독 프레임을 함유하는 캡핑된 mRNA로서 공급될 수 있다. 엔도뉴클레아제는 번역된 폴리펩타이드로 공급될 수 있다. 적어도 하나의 조작된 sgRNA는 리보핵산(RNA) pol III 프로모터에 작동 가능하게 연결된 상기 적어도 하나의 조작된 sgRNA를 코딩하는 유전자 서열을 함유하는 데옥시리보핵산(DNA)으로서 공급될 수 있다. 일부 경우에, 유기체는 진핵생물일 수 있다. 일부 경우에, 유기체는 진균일 수 있다. 일부 경우에, 유기체는 인간일 수 있다.
MG6 효소
한 측면에서, 본 개시내용은 (a) 엔도뉴클레아제를 포함하는 조작된 뉴클레아제 시스템을 제공한다. 일부 경우에, 엔도뉴클레아제는 Cas 엔도뉴클레아제이다. 일부 경우에, 엔도뉴클레아제는 타입 II, 클래스 II Cas 엔도뉴클레아제이다. 엔도뉴클레아제는 RuvC_III 도메인을 포함할 수 있고, 여기서 상기 RuvC_III 도메인은 서열 번호 2482-2489 중 어느 하나에 대해 적어도 약 70%의 서열 동일성을 갖는다. 일부 경우에, 엔도뉴클레아제는 RuvC_III 도메인을 포함할 수 있으며, 여기서 RuvC_III 도메인은 서열 번호 2482-2489 중 어느 하나에 대해 적어도 약 20%, 적어도 약 25%, 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는다. 일부 경우에, 엔도뉴클레아제는 서열 번호 2482-2489 중 어느 하나에 대해 실질적으로 동일한 RuvC_III 도메인을 포함할 수 있다.
엔도뉴클레아제는 서열 번호 4296-4303 중 어느 하나에 대해 적어도 약 70%의 동일성을 갖는 HNH 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 4296-4303 중 어느 하나에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99% 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 4056-4066 중 어느 하나에 대해 실질적으로 동일한 HNH 도메인을 포함할 수 있다.
일부 경우에, 엔도뉴클레아제는 서열 번호 661-668 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 661-668 중 어느 하나에 대해 실질적으로 동일할 수 있다.
일부 경우에, 엔도뉴클레아제는 하나 이상의 핵 국소화 서열(NLS)을 갖는 변이체를 포함할 수 있다. NLS는 상기 엔도뉴클레아제의 N- 또는 C-말단에 근접할 수 있다. NLS는 서열 번호 661-668 중 어느 하나의 N-말단 또는 C-말단에 부가될 수 있거나, 또는 서열 번호 661-668 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체의 N-말단 또는 C-말단에 부가될 수 있다. NLS는 SV40 대형 T 항원 NLS일 수 있다. NLS는 c-myc NLS일 수 있다. NLS는 서열 번호 5593-5608 중 어느 하나에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%의 동일성을 갖는 서열을 포함할 수 있다. NLS는 서열 번호 5593-5608 중 어느 하나에 대해 실질적으로 동일한 서열을 포함할 수 있다. NLS는 표 1의 임의의 서열, 또는 이들의 조합을 포함할 수 있다:
일부 경우에, 서열 동일성은 BLASTP, CLUSTALW, MUSCLE, MAFFT, Novafold, 또는 스미스-워터만 상동성 검색 알고리즘에 의해 결정될 수 있다. 서열 동일성은 단어 길이(W) 3, 기대값(E) 10을 사용하고, BLOSUM62 스코어링 매트릭스 설정 갭 코스트(기존 11, 연장 1)를 사용하고, 조건부 조합 점수 매트릭스 조정을 사용하여 BLASTP 알고리즘에 의해 결정될 수 있다.
일부 경우에, 상기 시스템은 (b) 원하는 절단 서열에 상보성인 5' 표적화 영역을 보유하는 엔도뉴클레아제와 복합체를 형성할 수 있는 적어도 하나의 조작된 합성 가이드 리보핵산(sgRNA)을 포함할 수 있다. 일부 경우에, 5' 표적화 영역은 엔도뉴클레아제와 상용성인 PAM 서열을 포함할 수 있다. 일부 경우에, 표적화 영역의 5'의 대부분의 뉴클레오타이드는 G일 수 있다. 일부 경우에, 5' 표적화 영역은 길이가 15-23개의 뉴클레오타이드일 수 있다. 가이드 서열; 및 tracr 서열은 별개의 리보핵산(RNA) 또는 단일 리보핵산(RNA)으로서 공급될 수 있다. 가이드 RNA는 표적화 영역의 3'에 crRNA tracrRNA 결합 서열을 포함할 수 있다. 가이드 RNA는 crRNA tracrRNA 결합 영역의 3'에 4-뉴클레오타이드 링커가 선행하는 tracrRNA 서열을 포함할 수 있다. sgRNA는 5'에서 3'으로, 세포에서 표적 서열에 혼성화할 수 있는 비천연 가이드 핵산 서열; 및 tracr 서열을 포함할 수 있다. 일부 경우에, 비천연 가이드 핵산 서열; 및 tracr 서열은 공유적으로 연결된다.
일부 경우에, tracr 서열은 특정 서열을 가질 수 있다. tracr 서열은 천연 tracrRNA 서열의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%의 서열 동일성을 가질 수 있다.
일부 경우에, 상기 시스템은 표적 DNA 유전자좌 내의 절단을 위한 제1 영역 및 제2 영역을 표적화하는 2개의 상이한 sgRNA를 포함할 수 있으며, 여기서 제2 영역은 제1 영역의 3'에 위치한다. 일부 경우에, 상기 시스템은 5'에서 3'으로 다음을 포함하는 단일 가닥 또는 이중 가닥 DNA 복구 주형을 포함할 수 있다: 제1 영역의 5'에 위치하는 적어도 약 20개(예를 들어, 적어도 약 40, 80, 120, 150, 200, 300, 500, 또는 1 kb) 뉴클레오타이드의 서열을 포함하는 제1 상동성 아암, 적어도 약 10개 뉴클레오타이드의 합성 DNA 서열, 및 제2 영역의 3'에 위치하는 적어도 약 20개(예를 들어, 적어도 약 40, 80, 120, 150, 200, 300, 500, 또는 1 kb) 뉴클레오타이드의 서열을 포함하는 제2 상동성 아암.
또 다른 측면에서, 본 개시내용은 관심 표적 핵산 유전자좌를 변형시키는 방법을 제공한다. 상기 방법은 본 명세서에서 개시되는 효소 및 적어도 하나의 합성 가이드 RNA(sgRNA)를 포함하는, 본 명세서에서 개시되는 비-천연 시스템 중 임의의 것을 표적 핵산 유전자좌에 전달하는 단계를 포함할 수 있다. 효소는 적어도 하나의 sgRNA와 복합체를 형성할 수 있고, 복합체가 관심 표적 핵산 유전자좌에 결합할 때 관심 표적 핵산 유전자좌를 변형시킬 수 있다. 상기 유전자좌에 효소를 전달하는 것은 세포를 시스템 또는 시스템을 코딩하는 핵산으로 형질감염시키는 것을 포함할 수 있다. 뉴클레아제를 상기 유전자좌에 전달하는 것은 시스템 또는 시스템을 코딩하는 핵산으로 세포를 전기천공하는 것을 포함할 수 있다. 뉴클레아제를 상기 유전자좌에 전달하는 것은 관심 유전자좌를 포함하는 핵산과 함께 완충액에서 시스템을 인큐베이션하는 것을 포함할 수 있다. 일부 경우에, 표적 핵산 유전자좌는 데옥시리보핵산(DNA) 또는 리보핵산(RNA)을 포함한다. 표적 핵산 유전자좌는 게놈 DNA, 바이러스 DNA, 바이러스 RNA, 또는 박테리아 DNA를 포함할 수 있다. 표적 핵산 유전자좌는 세포 내에 있을 수 있다. 표적 핵산 유전자좌는 시험관 내에 존재할 수 있다. 표적 핵산 유전자좌는 진핵 세포 또는 원핵 세포 내에 존재할 수 있다. 세포는 동물 세포, 인간 세포, 박테리아 세포, 고세균 세포, 또는 식물 세포일 수 있다. 효소는 관심 표적 유전자좌에서 또는 그 부근에서 단일 또는 이중 가닥 파손을 유도할 수 있다.
표적 핵산 유전자좌가 세포 내에 존재할 수 있는 경우에, 효소는 서열 번호 2482-2489 중 어느 하나에 대해 적어도 약 75%(예를 들어, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%)의 동일성을 갖는 RuvC_III 도메인이 존재하는 효소를 코딩하는 개방 해독 프레임을 함유하는 핵산으로서 공급될 수 있다. 일부 경우에, 핵산은 엔도뉴클레아제를 코딩하는 개방 해독 프레임이 작동 가능하게 연결된 프로모터를 포함한다. 프로모터는 CMV, EF1a, SV40, PGK1, Ubc, 인간 베타 액틴, CAG, TRE, 또는 CaMKIIa 프로모터일 수 있다. 엔도뉴클레아제는 상기 엔도뉴클레아제를 코딩하는 상기 개방 해독 프레임을 함유하는 캡핑된 mRNA로서 공급될 수 있다. 엔도뉴클레아제는 번역된 폴리펩타이드로 공급될 수 있다. 적어도 하나의 조작된 sgRNA는 리보핵산(RNA) pol III 프로모터에 작동 가능하게 연결된 상기 적어도 하나의 조작된 sgRNA를 코딩하는 유전자 서열을 함유하는 데옥시리보핵산(DNA)으로서 공급될 수 있다. 일부 경우에, 유기체는 진핵생물일 수 있다. 일부 경우에, 유기체는 진균일 수 있다. 일부 경우에, 유기체는 인간일 수 있다.
MG7 효소
한 측면에서, 본 개시내용은 (a) 엔도뉴클레아제를 포함하는 조작된 뉴클레아제 시스템을 제공한다. 일부 경우에, 엔도뉴클레아제는 Cas 엔도뉴클레아제이다. 일부 경우에, 엔도뉴클레아제는 타입 II, 클래스 II Cas 엔도뉴클레아제이다. 엔도뉴클레아제는 RuvC_III 도메인을 포함할 수 있고, 여기서 상기 RuvC_III 도메인은 서열 번호 2490-2498 중 어느 하나에 대해 적어도 약 70%의 서열 동일성을 갖는다. 일부 경우에, 엔도뉴클레아제는 RuvC_III 도메인을 포함할 수 있으며, 여기서 RuvC_III 도메인은 서열 번호 2490-2498 중 어느 하나에 대해 적어도 약 20%, 적어도 약 25%, 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는다. 일부 경우에, 엔도뉴클레아제는 서열 번호 2490-2498 중 어느 하나에 대해 실질적으로 동일한 RuvC_III 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 2490-2498 중 어느 하나에 대해 적어도 약 70%의 서열 동일성을 갖는 RuvC_III 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 2490-2498 중 어느 하나에 대해 적어도 약 20%, 적어도 약 25%, 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는 RuvC_III 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 2490-2498 중 어느 하나에 대해 실질적으로 동일한 RuvC_III 도메인을 포함할 수 있다.
엔도뉴클레아제는 서열 번호 4304-4312 중 어느 하나에 대해 적어도 약 70%의 동일성을 갖는 HNH 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 4304-4312 중 어느 하나에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99% 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 4304-4312 중 어느 하나에 대해 실질적으로 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 4304-4312 중 어느 하나에 대해 적어도 약 70%의 동일성을 갖는 HNH 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 4304-4312 중 어느 하나에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99% 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 4304-4312 중 어느 하나에 대해 실질적으로 동일한 HNH 도메인을 포함할 수 있다.
일부 경우에, 엔도뉴클레아제는 서열 번호 669-677 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 669-677 중 어느 하나에 대해 실질적으로 동일할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 669-677 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 669-677 중 어느 하나에 대해 실질적으로 동일할 수 있다.
일부 경우에, 엔도뉴클레아제는 하나 이상의 핵 국소화 서열(NLS)을 갖는 변이체를 포함할 수 있다. NLS는 상기 엔도뉴클레아제의 N- 또는 C-말단에 근접할 수 있다. NLS는 서열 번호 669-677 중 어느 하나의 N-말단 또는 C-말단에 부가될 수 있거나, 또는 서열 번호 669-677 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체의 N-말단 또는 C-말단에 부가될 수 있다. NLS는 SV40 대형 T 항원 NLS일 수 있다. NLS는 c-myc NLS일 수 있다. NLS는 서열 번호 5593-5608 중 어느 하나에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%의 동일성을 갖는 서열을 포함할 수 있다. NLS는 서열 번호 5593-5608 중 어느 하나에 대해 실질적으로 동일한 서열을 포함할 수 있다. NLS는 표 1의 임의의 서열, 또는 이들의 조합을 포함할 수 있다.
일부 경우에, 서열 동일성은 BLASTP, CLUSTALW, MUSCLE, MAFFT, Novafold, 또는 스미스-워터만 상동성 검색 알고리즘에 의해 결정될 수 있다. 서열 동일성은 단어 길이(W) 3, 기대값(E) 10을 사용하고, BLOSUM62 스코어링 매트릭스 설정 갭 코스트(기존 11, 연장 1)를 사용하고, 조건부 조합 점수 매트릭스 조정을 사용하여 BLASTP 알고리즘에 의해 결정될 수 있다.
일부 경우에, 상기 시스템은 (b) 원하는 절단 서열에 상보성인 5' 표적화 영역을 보유하는 엔도뉴클레아제와 복합체를 형성할 수 있는 적어도 하나의 조작된 합성 가이드 리보핵산(sgRNA)을 포함할 수 있다. 일부 경우에, 5' 표적화 영역은 엔도뉴클레아제와 상용성인 PAM 서열을 포함할 수 있다. 일부 경우에, 표적화 영역의 5'의 대부분의 뉴클레오타이드는 G일 수 있다. 일부 경우에, 5' 표적화 영역은 길이가 15-23개의 뉴클레오타이드일 수 있다. 가이드 서열; 및 tracr 서열은 별개의 리보핵산(RNA) 또는 단일 리보핵산(RNA)으로서 공급될 수 있다. 가이드 RNA는 표적화 영역의 3'에 crRNA tracrRNA 결합 서열을 포함할 수 있다. 가이드 RNA는 crRNA tracrRNA 결합 영역의 3'에 4-뉴클레오타이드 링커가 선행하는 tracrRNA 서열을 포함할 수 있다. sgRNA는 5'에서 3'으로, 세포에서 표적 서열에 혼성화할 수 있는 비천연 가이드 핵산 서열; 및 tracr 서열을 포함할 수 있다. 일부 경우에, 비천연 가이드 핵산 서열; 및 tracr 서열은 공유적으로 연결된다.
일부 경우에, tracr 서열은 특정 서열을 가질 수 있다. tracr 서열은 천연 tracrRNA 서열의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%의 서열 동일성을 가질 수 있다. tracr 서열은 서열 번호 5504의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%의 서열 동일성을 가질 수 있다. 일부 경우에, tracrRNA는 서열 번호 5504의 적어도 약 60-90개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 가질 수 있다. 일부 경우에, tracrRNA는 서열 번호 5504의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 실질적으로 동일할 수 있다. tracrRNA는 서열 번호 5504를 포함할 수 있다.
일부 경우에, 상기 시스템은 표적 DNA 유전자좌 내의 절단을 위한 제1 영역 및 제2 영역을 표적화하는 2개의 상이한 sgRNA를 포함할 수 있으며, 여기서 제2 영역은 제1 영역의 3'에 위치한다. 일부 경우에, 상기 시스템은 5'에서 3'으로 다음을 포함하는 단일 가닥 또는 이중 가닥 DNA 복구 주형을 포함할 수 있다: 제1 영역의 5'에 위치하는 적어도 약 20개(예를 들어, 적어도 약 40, 80, 120, 150, 200, 300, 500, 또는 1 kb) 뉴클레오타이드의 서열을 포함하는 제1 상동성 아암, 적어도 약 10개 뉴클레오타이드의 합성 DNA 서열, 및 제2 영역의 3'에 위치하는 적어도 약 20개(예를 들어, 적어도 약 40, 80, 120, 150, 200, 300, 500, 또는 1 kb) 뉴클레오타이드의 서열을 포함하는 제2 상동성 아암.
또 다른 측면에서, 본 개시내용은 관심 표적 핵산 유전자좌를 변형시키는 방법을 제공한다. 상기 방법은 본 명세서에서 개시되는 효소 및 적어도 하나의 합성 가이드 RNA(sgRNA)를 포함하는, 본 명세서에서 개시되는 비-천연 시스템 중 임의의 것을 표적 핵산 유전자좌에 전달하는 단계를 포함할 수 있다. 효소는 적어도 하나의 sgRNA와 복합체를 형성할 수 있고, 복합체가 관심 표적 핵산 유전자좌에 결합할 때 관심 표적 핵산 유전자좌를 변형시킬 수 있다. 상기 유전자좌에 효소를 전달하는 것은 세포를 시스템 또는 시스템을 코딩하는 핵산으로 형질감염시키는 것을 포함할 수 있다. 뉴클레아제를 상기 유전자좌에 전달하는 것은 시스템 또는 시스템을 코딩하는 핵산으로 세포를 전기천공하는 것을 포함할 수 있다. 뉴클레아제를 상기 유전자좌에 전달하는 것은 관심 유전자좌를 포함하는 핵산과 함께 완충액에서 시스템을 인큐베이션하는 것을 포함할 수 있다. 일부 경우에, 표적 핵산 유전자좌는 데옥시리보핵산(DNA) 또는 리보핵산(RNA)을 포함한다. 표적 핵산 유전자좌는 게놈 DNA, 바이러스 DNA, 바이러스 RNA, 또는 박테리아 DNA를 포함할 수 있다. 표적 핵산 유전자좌는 세포 내에 있을 수 있다. 표적 핵산 유전자좌는 시험관 내에 존재할 수 있다. 표적 핵산 유전자좌는 진핵 세포 또는 원핵 세포 내에 존재할 수 있다. 세포는 동물 세포, 인간 세포, 박테리아 세포, 고세균 세포, 또는 식물 세포일 수 있다. 효소는 관심 표적 유전자좌에서 또는 그 부근에서 단일 또는 이중 가닥 파손을 유도할 수 있다.
표적 핵산 유전자좌가 세포 내에 존재할 수 있는 경우에, 효소는 서열 번호 2490-2498 중 어느 하나에 대해 적어도 약 75%(예를 들어, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%)의 동일성을 갖는 RuvC_III 도메인이 존재하는 효소를 코딩하는 개방 해독 프레임을 함유하는 핵산으로서 공급될 수 있다. 일부 경우에, 핵산은 엔도뉴클레아제를 코딩하는 개방 해독 프레임이 작동 가능하게 연결된 프로모터를 포함한다. 프로모터는 CMV, EF1a, SV40, PGK1, Ubc, 인간 베타 액틴, CAG, TRE, 또는 CaMKIIa 프로모터일 수 있다. 엔도뉴클레아제는 상기 엔도뉴클레아제를 코딩하는 상기 개방 해독 프레임을 함유하는 캡핑된 mRNA로서 공급될 수 있다. 엔도뉴클레아제는 번역된 폴리펩타이드로 공급될 수 있다. 적어도 하나의 조작된 sgRNA는 리보핵산(RNA) pol III 프로모터에 작동 가능하게 연결된 상기 적어도 하나의 조작된 sgRNA를 코딩하는 유전자 서열을 함유하는 데옥시리보핵산(DNA)으로서 공급될 수 있다. 일부 경우에, 유기체는 진핵생물일 수 있다. 일부 경우에, 유기체는 진균일 수 있다. 일부 경우에, 유기체는 인간일 수 있다.
MG14 효소
한 측면에서, 본 개시내용은 (a) 엔도뉴클레아제를 포함하는 조작된 뉴클레아제 시스템을 제공한다. 일부 경우에, 엔도뉴클레아제는 Cas 엔도뉴클레아제이다. 일부 경우에, 엔도뉴클레아제는 타입 II, 클래스 II Cas 엔도뉴클레아제이다. 엔도뉴클레아제는 RuvC_III 도메인을 포함할 수 있고, 여기서 상기 RuvC_III 도메인은 서열 번호 2499-2750 중 어느 하나에 대해 적어도 약 70%의 서열 동일성을 갖는다. 일부 경우에, 엔도뉴클레아제는 RuvC_III 도메인을 포함할 수 있으며, 여기서 RuvC_III 도메인은 서열 번호 2499-2750 중 어느 하나에 대해 적어도 약 20%, 적어도 약 25%, 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는다. 일부 경우에, 엔도뉴클레아제는 서열 번호 2499-2750 중 어느 하나에 대해 실질적으로 동일한 RuvC_III 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 2499-2750 중 어느 하나에 대해 적어도 약 70%의 서열 동일성을 갖는 RuvC_III 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 2499-2750 중 어느 하나에 대해 적어도 약 20%, 적어도 약 25%, 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는 RuvC_III 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 2499-2750 중 어느 하나에 대해 실질적으로 동일한 RuvC_III 도메인을 포함할 수 있다.
엔도뉴클레아제는 서열 번호 4313-4564 중 어느 하나에 대해 적어도 약 70%의 동일성을 갖는 HNH 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 4313-4564 중 어느 하나에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99% 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 4313-4564 중 어느 하나에 대해 실질적으로 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 4313-4564 중 어느 하나에 대해 적어도 약 70%의 동일성을 갖는 HNH 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 4067-4295 중 어느 하나에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99% 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 4313-4564 중 어느 하나에 대해 실질적으로 동일한 HNH 도메인을 포함할 수 있다.
일부 경우에, 엔도뉴클레아제는 서열 번호 678-929 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 678-929 중 어느 하나에 대해 실질적으로 동일할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 678-929 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 678-929 중 어느 하나에 대해 실질적으로 동일할 수 있다.
일부 경우에, 엔도뉴클레아제는 하나 이상의 핵 국소화 서열(NLS)을 갖는 변이체를 포함할 수 있다. NLS는 상기 엔도뉴클레아제의 N- 또는 C-말단에 근접할 수 있다. NLS는 서열 번호 678-929 중 어느 하나의 N-말단 또는 C-말단에 부가될 수 있거나, 또는 서열 번호 678-929 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체의 N-말단 또는 C-말단에 부가될 수 있다. NLS는 SV40 대형 T 항원 NLS일 수 있다. NLS는 c-myc NLS일 수 있다. NLS는 서열 번호 5593-5608 중 어느 하나에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%의 동일성을 갖는 서열을 포함할 수 있다. NLS는 서열 번호 5593-5608 중 어느 하나에 대해 실질적으로 동일한 서열을 포함할 수 있다. NLS는 표 1의 임의의 서열, 또는 이들의 조합을 포함할 수 있다.
일부 경우에, 서열 동일성은 BLASTP, CLUSTALW, MUSCLE, MAFFT, Novafold, 또는 스미스-워터만 상동성 검색 알고리즘에 의해 결정될 수 있다. 서열 동일성은 단어 길이(W) 3, 기대값(E) 10을 사용하고, BLOSUM62 스코어링 매트릭스 설정 갭 코스트(기존 11, 연장 1)를 사용하고, 조건부 조합 점수 매트릭스 조정을 사용하여 BLASTP 알고리즘에 의해 결정될 수 있다.
일부 경우에, 상기 시스템은 (b) 원하는 절단 서열에 상보성인 5' 표적화 영역을 보유하는 엔도뉴클레아제와 복합체를 형성할 수 있는 적어도 하나의 조작된 합성 가이드 리보핵산(sgRNA)을 포함할 수 있다. 일부 경우에, 5' 표적화 영역은 엔도뉴클레아제와 상용성인 PAM 서열을 포함할 수 있다. 일부 경우에, 표적화 영역의 5'의 대부분의 뉴클레오타이드는 G일 수 있다. 일부 경우에, 5' 표적화 영역은 길이가 15-23개의 뉴클레오타이드일 수 있다. 가이드 서열; 및 tracr 서열은 별개의 리보핵산(RNA) 또는 단일 리보핵산(RNA)으로서 공급될 수 있다. 가이드 RNA는 표적화 영역의 3'에 crRNA tracrRNA 결합 서열을 포함할 수 있다. 가이드 RNA는 crRNA tracrRNA 결합 영역의 3'에 4-뉴클레오타이드 링커가 선행하는 tracrRNA 서열을 포함할 수 있다. sgRNA는 5'에서 3'으로, 세포에서 표적 서열에 혼성화할 수 있는 비천연 가이드 핵산 서열; 및 tracr 서열을 포함할 수 있다. 일부 경우에, 비천연 가이드 핵산 서열; 및 tracr 서열은 공유적으로 연결된다.
일부 경우에, tracr 서열은 특정 서열을 가질 수 있다. tracr 서열은 천연 tracrRNA 서열의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%의 서열 동일성을 가질 수 있다. tracr 서열은 서열 번호 5505의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%의 서열 동일성을 가질 수 있다. 일부 경우에, tracrRNA는 서열 번호 5505의 적어도 약 60-90개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 가질 수 있다. 일부 경우에, tracrRNA는 서열 번호 5505의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 실질적으로 동일할 수 있다. tracrRNA는 서열 번호 5505를 포함할 수 있다.
일부 경우에, 엔도뉴클레아제와 복합체를 형성할 수 있는 적어도 하나의 조작된 합성 가이드 리보핵산(sgRNA)은 서열 번호 5469에 대해 적어도 약 80%의 동일성을 갖는 서열을 포함할 수 있다. sgRNA는 서열 번호 5469에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 서열을 포함할 수 있다. sgRNA는 서열 번호 5469에 대해 실질적으로 동일한 서열을 포함할 수 있다.
일부 경우에, 상기 시스템은 표적 DNA 유전자좌 내의 절단을 위한 제1 영역 및 제2 영역을 표적화하는 2개의 상이한 sgRNA를 포함할 수 있으며, 여기서 제2 영역은 제1 영역의 3'에 위치한다. 일부 경우에, 상기 시스템은 5'에서 3'으로 다음을 포함하는 단일 가닥 또는 이중 가닥 DNA 복구 주형을 포함할 수 있다: 제1 영역의 5'에 위치하는 적어도 약 20개(예를 들어, 적어도 약 40, 80, 120, 150, 200, 300, 500, 또는 1 kb) 뉴클레오타이드의 서열을 포함하는 제1 상동성 아암, 적어도 약 10개 뉴클레오타이드의 합성 DNA 서열, 및 제2 영역의 3'에 위치하는 적어도 약 20개(예를 들어, 적어도 약 40, 80, 120, 150, 200, 300, 500, 또는 1 kb) 뉴클레오타이드의 서열을 포함하는 제2 상동성 아암.
또 다른 측면에서, 본 개시내용은 관심 표적 핵산 유전자좌를 변형시키는 방법을 제공한다. 상기 방법은 본 명세서에서 개시되는 효소 및 적어도 하나의 합성 가이드 RNA(sgRNA)를 포함하는, 본 명세서에서 개시되는 비-천연 시스템 중 임의의 것을 표적 핵산 유전자좌에 전달하는 단계를 포함할 수 있다. 효소는 적어도 하나의 sgRNA와 복합체를 형성할 수 있고, 복합체가 관심 표적 핵산 유전자좌에 결합할 때 관심 표적 핵산 유전자좌를 변형시킬 수 있다. 상기 유전자좌에 효소를 전달하는 것은 세포를 시스템 또는 시스템을 코딩하는 핵산으로 형질감염시키는 것을 포함할 수 있다. 뉴클레아제를 상기 유전자좌에 전달하는 것은 시스템 또는 시스템을 코딩하는 핵산으로 세포를 전기천공하는 것을 포함할 수 있다. 뉴클레아제를 상기 유전자좌에 전달하는 것은 관심 유전자좌를 포함하는 핵산과 함께 완충액에서 시스템을 인큐베이션하는 것을 포함할 수 있다. 일부 경우에, 표적 핵산 유전자좌는 데옥시리보핵산(DNA) 또는 리보핵산(RNA)을 포함한다. 표적 핵산 유전자좌는 게놈 DNA, 바이러스 DNA, 바이러스 RNA, 또는 박테리아 DNA를 포함할 수 있다. 표적 핵산 유전자좌는 세포 내에 있을 수 있다. 표적 핵산 유전자좌는 시험관 내에 존재할 수 있다. 표적 핵산 유전자좌는 진핵 세포 또는 원핵 세포 내에 존재할 수 있다. 세포는 동물 세포, 인간 세포, 박테리아 세포, 고세균 세포, 또는 식물 세포일 수 있다. 효소는 관심 표적 유전자좌에서 또는 그 부근에서 단일 또는 이중 가닥 파손을 유도할 수 있다.
표적 핵산 유전자좌가 세포 내에 존재할 수 있는 경우에, 효소는 서열 번호 2499-2750 중 어느 하나에 대해 적어도 약 75%(예를 들어, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%)의 동일성을 갖는 RuvC_III 도메인이 존재하는 효소를 코딩하는 개방 해독 프레임을 함유하는 핵산으로서 공급될 수 있다. 상기 엔도뉴클레아제를 코딩하는 개방 해독 프레임을 함유하는 데옥시리보핵산(DNA)은 서열 번호 5581에 대해 실질적으로 동일한 서열 또는 서열 번호 5581에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 핵산은 엔도뉴클레아제를 코딩하는 개방 해독 프레임이 작동 가능하게 연결된 프로모터를 포함한다. 프로모터는 CMV, EF1a, SV40, PGK1, Ubc, 인간 베타 액틴, CAG, TRE, 또는 CaMKIIa 프로모터일 수 있다. 엔도뉴클레아제는 상기 엔도뉴클레아제를 코딩하는 상기 개방 해독 프레임을 함유하는 캡핑된 mRNA로서 공급될 수 있다. 엔도뉴클레아제는 번역된 폴리펩타이드로 공급될 수 있다. 적어도 하나의 조작된 sgRNA는 리보핵산(RNA) pol III 프로모터에 작동 가능하게 연결된 상기 적어도 하나의 조작된 sgRNA를 코딩하는 유전자 서열을 함유하는 데옥시리보핵산(DNA)으로서 공급될 수 있다. 일부 경우에, 유기체는 진핵생물일 수 있다. 일부 경우에, 유기체는 진균일 수 있다. 일부 경우에, 유기체는 인간일 수 있다.
MG15 효소
한 측면에서, 본 개시내용은 (a) 엔도뉴클레아제를 포함하는 조작된 뉴클레아제 시스템을 제공한다. 일부 경우에, 엔도뉴클레아제는 Cas 엔도뉴클레아제이다. 일부 경우에, 엔도뉴클레아제는 타입 II, 클래스 II Cas 엔도뉴클레아제이다. 엔도뉴클레아제는 RuvC_III 도메인을 포함할 수 있고, 여기서 상기 RuvC_III 도메인은 서열 번호 2751-2913 중 어느 하나에 대해 적어도 약 70%의 서열 동일성을 갖는다. 일부 경우에, 엔도뉴클레아제는 RuvC_III 도메인을 포함할 수 있으며, 여기서 RuvC_III 도메인은 서열 번호 2751-2913 중 어느 하나에 대해 적어도 약 20%, 적어도 약 25%, 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는다. 일부 경우에, 엔도뉴클레아제는 서열 번호 2751-2913 중 어느 하나에 대해 실질적으로 동일한 RuvC_III 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 2751-2913 중 어느 하나에 대해 적어도 약 70%의 서열 동일성을 갖는 RuvC_III 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 2751-2913 중 어느 하나에 대해 적어도 약 20%, 적어도 약 25%, 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는 RuvC_III 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 2751-2913 중 어느 하나에 대해 실질적으로 동일한 RuvC_III 도메인을 포함할 수 있다.
엔도뉴클레아제는 서열 번호 4565-4727 중 어느 하나에 대해 적어도 약 70%의 동일성을 갖는 HNH 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 4565-4727 중 어느 하나에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99% 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 4565-4727 중 어느 하나에 대해 실질적으로 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 4565-4727 중 어느 하나에 대해 적어도 약 70%의 동일성을 갖는 HNH 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 4565-4727 중 어느 하나에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99% 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 4565-4727 중 어느 하나에 대해 실질적으로 동일한 HNH 도메인을 포함할 수 있다.
일부 경우에, 엔도뉴클레아제는 서열 번호 930-1092 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 930-1092 중 어느 하나에 대해 실질적으로 동일할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 930-1092 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 930-1092 중 어느 하나에 대해 실질적으로 동일할 수 있다.
일부 경우에, 엔도뉴클레아제는 하나 이상의 핵 국소화 서열(NLS)을 갖는 변이체를 포함할 수 있다. NLS는 상기 엔도뉴클레아제의 N- 또는 C-말단에 근접할 수 있다. NLS는 서열 번호 930-1092 중 어느 하나의 N-말단 또는 C-말단에 부가될 수 있거나, 또는 서열 번호 930-1092 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체의 N-말단 또는 C-말단에 부가될 수 있다. NLS는 SV40 대형 T 항원 NLS일 수 있다. NLS는 c-myc NLS일 수 있다. NLS는 서열 번호 5593-5608 중 어느 하나에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%의 동일성을 갖는 서열을 포함할 수 있다. NLS는 서열 번호 5593-5608 중 어느 하나에 대해 실질적으로 동일한 서열을 포함할 수 있다. NLS는 표 1의 임의의 서열, 또는 이들의 조합을 포함할 수 있다.
일부 경우에, 서열 동일성은 BLASTP, CLUSTALW, MUSCLE, MAFFT, Novafold, 또는 스미스-워터만 상동성 검색 알고리즘에 의해 결정될 수 있다. 서열 동일성은 단어 길이(W) 3, 기대값(E) 10을 사용하고, BLOSUM62 스코어링 매트릭스 설정 갭 코스트(기존 11, 연장 1)를 사용하고, 조건부 조합 점수 매트릭스 조정을 사용하여 BLASTP 알고리즘에 의해 결정될 수 있다.
일부 경우에, 상기 시스템은 (b) 원하는 절단 서열에 상보성인 5' 표적화 영역을 보유하는 엔도뉴클레아제와 복합체를 형성할 수 있는 적어도 하나의 조작된 합성 가이드 리보핵산(sgRNA)을 포함할 수 있다. 일부 경우에, 5' 표적화 영역은 엔도뉴클레아제와 상용성인 PAM 서열을 포함할 수 있다. 일부 경우에, 표적화 영역의 5'의 대부분의 뉴클레오타이드는 G일 수 있다. 일부 경우에, 5' 표적화 영역은 길이가 15-23개의 뉴클레오타이드일 수 있다. 가이드 서열; 및 tracr 서열은 별개의 리보핵산(RNA) 또는 단일 리보핵산(RNA)으로서 공급될 수 있다. 가이드 RNA는 표적화 영역의 3'에 crRNA tracrRNA 결합 서열을 포함할 수 있다. 가이드 RNA는 crRNA tracrRNA 결합 영역의 3'에 4-뉴클레오타이드 링커가 선행하는 tracrRNA 서열을 포함할 수 있다. sgRNA는 5'에서 3'으로, 세포에서 표적 서열에 혼성화할 수 있는 비천연 가이드 핵산 서열; 및 tracr 서열을 포함할 수 있다. 일부 경우에, 비천연 가이드 핵산 서열; 및 tracr 서열은 공유적으로 연결된다.
일부 경우에, tracr 서열은 특정 서열을 가질 수 있다. tracr 서열은 천연 tracrRNA 서열의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%의 서열 동일성을 가질 수 있다. tracr 서열은 서열 번호 5506의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%의 서열 동일성을 가질 수 있다. 일부 경우에, tracrRNA는 서열 번호 5506의 적어도 약 60-90개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 가질 수 있다. 일부 경우에, tracrRNA는 서열 번호 5506의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 실질적으로 동일할 수 있다. tracrRNA는 서열 번호 5506을 포함할 수 있다.
일부 경우에, 엔도뉴클레아제와 복합체를 형성할 수 있는 적어도 하나의 조작된 합성 가이드 리보핵산(sgRNA)은 서열 번호 5470에 대해 적어도 약 80%의 동일성을 갖는 서열을 포함할 수 있다. sgRNA는 서열 번호 5470에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 서열을 포함할 수 있다. sgRNA는 서열 번호 5470에 대해 실질적으로 동일한 서열을 포함할 수 있다.
일부 경우에, 상기 시스템은 표적 DNA 유전자좌 내의 절단을 위한 제1 영역 및 제2 영역을 표적화하는 2개의 상이한 sgRNA를 포함할 수 있으며, 여기서 제2 영역은 제1 영역의 3'에 위치한다. 일부 경우에, 상기 시스템은 5'에서 3'으로 다음을 포함하는 단일 가닥 또는 이중 가닥 DNA 복구 주형을 포함할 수 있다: 제1 영역의 5'에 위치하는 적어도 약 20개(예를 들어, 적어도 약 40, 80, 120, 150, 200, 300, 500, 또는 1 kb) 뉴클레오타이드의 서열을 포함하는 제1 상동성 아암, 적어도 약 10개 뉴클레오타이드의 합성 DNA 서열, 및 제2 영역의 3'에 위치하는 적어도 약 20개(예를 들어, 적어도 약 40, 80, 120, 150, 200, 300, 500, 또는 1 kb) 뉴클레오타이드의 서열을 포함하는 제2 상동성 아암.
또 다른 측면에서, 본 개시내용은 관심 표적 핵산 유전자좌를 변형시키는 방법을 제공한다. 상기 방법은 본 명세서에서 개시되는 효소 및 적어도 하나의 합성 가이드 RNA(sgRNA)를 포함하는, 본 명세서에서 개시되는 비-천연 시스템 중 임의의 것을 표적 핵산 유전자좌에 전달하는 단계를 포함할 수 있다. 효소는 적어도 하나의 sgRNA와 복합체를 형성할 수 있고, 복합체가 관심 표적 핵산 유전자좌에 결합할 때 관심 표적 핵산 유전자좌를 변형시킬 수 있다. 상기 유전자좌에 효소를 전달하는 것은 세포를 시스템 또는 시스템을 코딩하는 핵산으로 형질감염시키는 것을 포함할 수 있다. 뉴클레아제를 상기 유전자좌에 전달하는 것은 시스템 또는 시스템을 코딩하는 핵산으로 세포를 전기천공하는 것을 포함할 수 있다. 뉴클레아제를 상기 유전자좌에 전달하는 것은 관심 유전자좌를 포함하는 핵산과 함께 완충액에서 시스템을 인큐베이션하는 것을 포함할 수 있다. 일부 경우에, 표적 핵산 유전자좌는 데옥시리보핵산(DNA) 또는 리보핵산(RNA)을 포함한다. 표적 핵산 유전자좌는 게놈 DNA, 바이러스 DNA, 바이러스 RNA, 또는 박테리아 DNA를 포함할 수 있다. 표적 핵산 유전자좌는 세포 내에 있을 수 있다. 표적 핵산 유전자좌는 시험관 내에 존재할 수 있다. 표적 핵산 유전자좌는 진핵 세포 또는 원핵 세포 내에 존재할 수 있다. 세포는 동물 세포, 인간 세포, 박테리아 세포, 고세균 세포, 또는 식물 세포일 수 있다. 효소는 관심 표적 유전자좌에서 또는 그 부근에서 단일 또는 이중 가닥 파손을 유도할 수 있다.
표적 핵산 유전자좌가 세포 내에 존재할 수 있는 경우에, 효소는 서열 번호 2751-2913 중 어느 하나에 대해 적어도 약 75%(예를 들어, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%)의 동일성을 갖는 RuvC_III 도메인이 존재하는 효소를 코딩하는 개방 해독 프레임을 함유하는 핵산으로서 공급될 수 있다. 상기 엔도뉴클레아제를 코딩하는 개방 해독 프레임을 함유하는 데옥시리보핵산(DNA)은 서열 번호 5582에 대해 실질적으로 동일한 서열 또는 서열 번호 5582에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 핵산은 엔도뉴클레아제를 코딩하는 개방 해독 프레임이 작동 가능하게 연결된 프로모터를 포함한다. 프로모터는 CMV, EF1a, SV40, PGK1, Ubc, 인간 베타 액틴, CAG, TRE, 또는 CaMKIIa 프로모터일 수 있다. 엔도뉴클레아제는 상기 엔도뉴클레아제를 코딩하는 상기 개방 해독 프레임을 함유하는 캡핑된 mRNA로서 공급될 수 있다. 엔도뉴클레아제는 번역된 폴리펩타이드로 공급될 수 있다. 적어도 하나의 조작된 sgRNA는 리보핵산(RNA) pol III 프로모터에 작동 가능하게 연결된 상기 적어도 하나의 조작된 sgRNA를 코딩하는 유전자 서열을 함유하는 데옥시리보핵산(DNA)으로서 공급될 수 있다. 일부 경우에, 유기체는 진핵생물일 수 있다. 일부 경우에, 유기체는 진균일 수 있다. 일부 경우에, 유기체는 인간일 수 있다.
MG16 효소
한 측면에서, 본 개시내용은 (a) 엔도뉴클레아제를 포함하는 조작된 뉴클레아제 시스템을 제공한다. 일부 경우에, 엔도뉴클레아제는 Cas 엔도뉴클레아제이다. 일부 경우에, 엔도뉴클레아제는 타입 II, 클래스 II Cas 엔도뉴클레아제이다. 엔도뉴클레아제는 RuvC_III 도메인을 포함할 수 있고, 여기서 상기 RuvC_III 도메인은 서열 번호 2914-3174 중 어느 하나에 대해 적어도 약 70%의 서열 동일성을 갖는다. 일부 경우에, 엔도뉴클레아제는 RuvC_III 도메인을 포함할 수 있으며, 여기서 RuvC_III 도메인은 서열 번호 2914-3174 중 어느 하나에 대해 적어도 약 20%, 적어도 약 25%, 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는다. 일부 경우에, 엔도뉴클레아제는 서열 번호 2914-3174 중 어느 하나에 대해 실질적으로 동일한 RuvC_III 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 2914-3174 중 어느 하나에 대해 적어도 약 70%의 서열 동일성을 갖는 RuvC_III 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 2914-3174 중 어느 하나에 대해 적어도 약 20%, 적어도 약 25%, 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는 RuvC_III 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 2914-3174 중 어느 하나에 대해 실질적으로 동일한 RuvC_III 도메인을 포함할 수 있다.
엔도뉴클레아제는 서열 번호 4728-4988 중 어느 하나에 대해 적어도 약 70%의 동일성을 갖는 HNH 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 4728-4988 중 어느 하나에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99% 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 4728-4988 중 어느 하나에 대해 실질적으로 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 4728-4988 중 어느 하나에 대해 적어도 약 70%의 동일성을 갖는 HNH 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 4728-4988 중 어느 하나에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99% 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 4728-4988 중 어느 하나에 대해 실질적으로 동일한 HNH 도메인을 포함할 수 있다.
일부 경우에, 엔도뉴클레아제는 서열 번호 1093-1353 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 1093-1353 중 어느 하나에 대해 실질적으로 동일할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 1093-1353 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 1093-1353 중 어느 하나에 대해 실질적으로 동일할 수 있다.
일부 경우에, 엔도뉴클레아제는 하나 이상의 핵 국소화 서열(NLS)을 갖는 변이체를 포함할 수 있다. NLS는 상기 엔도뉴클레아제의 N- 또는 C-말단에 근접할 수 있다. NLS는 서열 번호 1093-1353 중 어느 하나의 N-말단 또는 C-말단에 부가될 수 있거나, 또는 서열 번호 1093-1353 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체의 N-말단 또는 C-말단에 부가될 수 있다. NLS는 SV40 대형 T 항원 NLS일 수 있다. NLS는 c-myc NLS일 수 있다. NLS는 서열 번호 5593-5608 중 어느 하나에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%의 동일성을 갖는 서열을 포함할 수 있다. NLS는 서열 번호 5593-5608 중 어느 하나에 대해 실질적으로 동일한 서열을 포함할 수 있다. NLS는 표 1의 임의의 서열, 또는 이들의 조합을 포함할 수 있다.
일부 경우에, 서열 동일성은 BLASTP, CLUSTALW, MUSCLE, MAFFT, Novafold, 또는 스미스-워터만 상동성 검색 알고리즘에 의해 결정될 수 있다. 서열 동일성은 단어 길이(W) 3, 기대값(E) 10을 사용하고, BLOSUM62 스코어링 매트릭스 설정 갭 코스트(기존 11, 연장 1)를 사용하고, 조건부 조합 점수 매트릭스 조정을 사용하여 BLASTP 알고리즘에 의해 결정될 수 있다.
일부 경우에, 상기 시스템은 (b) 원하는 절단 서열에 상보성인 5' 표적화 영역을 보유하는 엔도뉴클레아제와 복합체를 형성할 수 있는 적어도 하나의 조작된 합성 가이드 리보핵산(sgRNA)을 포함할 수 있다. 일부 경우에, 5' 표적화 영역은 엔도뉴클레아제와 상용성인 PAM 서열을 포함할 수 있다. 일부 경우에, 표적화 영역의 5'의 대부분의 뉴클레오타이드는 G일 수 있다. 일부 경우에, 5' 표적화 영역은 길이가 15-23개의 뉴클레오타이드일 수 있다. 가이드 서열; 및 tracr 서열은 별개의 리보핵산(RNA) 또는 단일 리보핵산(RNA)으로서 공급될 수 있다. 가이드 RNA는 표적화 영역의 3'에 crRNA tracrRNA 결합 서열을 포함할 수 있다. 가이드 RNA는 crRNA tracrRNA 결합 영역의 3'에 4-뉴클레오타이드 링커가 선행하는 tracrRNA 서열을 포함할 수 있다. sgRNA는 5'에서 3'으로, 세포에서 표적 서열에 혼성화할 수 있는 비천연 가이드 핵산 서열; 및 tracr 서열을 포함할 수 있다. 일부 경우에, 비천연 가이드 핵산 서열; 및 tracr 서열은 공유적으로 연결된다.
일부 경우에, tracr 서열은 특정 서열을 가질 수 있다. tracr 서열은 천연 tracrRNA 서열의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%의 서열 동일성을 가질 수 있다. tracr 서열은 서열 번호 5507의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%의 서열 동일성을 가질 수 있다. 일부 경우에, tracrRNA는 서열 번호 5507의 적어도 약 60-90개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 가질 수 있다. 일부 경우에, tracrRNA는 서열 번호 5507의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 실질적으로 동일할 수 있다. tracrRNA는 서열 번호 5507을 포함할 수 있다.
일부 경우에, 엔도뉴클레아제와 복합체를 형성할 수 있는 적어도 하나의 조작된 합성 가이드 리보핵산(sgRNA)은 서열 번호 5471에 대해 적어도 약 80%의 동일성을 갖는 서열을 포함할 수 있다. sgRNA는 서열 번호 5471에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 서열을 포함할 수 있다. sgRNA는 서열 번호 5471에 대해 실질적으로 동일한 서열을 포함할 수 있다.
일부 경우에, 상기 시스템은 표적 DNA 유전자좌 내의 절단을 위한 제1 영역 및 제2 영역을 표적화하는 2개의 상이한 sgRNA를 포함할 수 있으며, 여기서 제2 영역은 제1 영역의 3'에 위치한다. 일부 경우에, 상기 시스템은 5'에서 3'으로 다음을 포함하는 단일 가닥 또는 이중 가닥 DNA 복구 주형을 포함할 수 있다: 제1 영역의 5'에 위치하는 적어도 약 20개(예를 들어, 적어도 약 40, 80, 120, 150, 200, 300, 500, 또는 1 kb) 뉴클레오타이드의 서열을 포함하는 제1 상동성 아암, 적어도 약 10개 뉴클레오타이드의 합성 DNA 서열, 및 제2 영역의 3'에 위치하는 적어도 약 20개(예를 들어, 적어도 약 40, 80, 120, 150, 200, 300, 500, 또는 1 kb) 뉴클레오타이드의 서열을 포함하는 제2 상동성 아암.
또 다른 측면에서, 본 개시내용은 관심 표적 핵산 유전자좌를 변형시키는 방법을 제공한다. 상기 방법은 본 명세서에서 개시되는 효소 및 적어도 하나의 합성 가이드 RNA(sgRNA)를 포함하는, 본 명세서에서 개시되는 비-천연 시스템 중 임의의 것을 표적 핵산 유전자좌에 전달하는 단계를 포함할 수 있다. 효소는 적어도 하나의 sgRNA와 복합체를 형성할 수 있고, 복합체가 관심 표적 핵산 유전자좌에 결합할 때 관심 표적 핵산 유전자좌를 변형시킬 수 있다. 상기 유전자좌에 효소를 전달하는 것은 세포를 시스템 또는 시스템을 코딩하는 핵산으로 형질감염시키는 것을 포함할 수 있다. 뉴클레아제를 상기 유전자좌에 전달하는 것은 시스템 또는 시스템을 코딩하는 핵산으로 세포를 전기천공하는 것을 포함할 수 있다. 뉴클레아제를 상기 유전자좌에 전달하는 것은 관심 유전자좌를 포함하는 핵산과 함께 완충액에서 시스템을 인큐베이션하는 것을 포함할 수 있다. 일부 경우에, 표적 핵산 유전자좌는 데옥시리보핵산(DNA) 또는 리보핵산(RNA)을 포함한다. 표적 핵산 유전자좌는 게놈 DNA, 바이러스 DNA, 바이러스 RNA, 또는 박테리아 DNA를 포함할 수 있다. 표적 핵산 유전자좌는 세포 내에 있을 수 있다. 표적 핵산 유전자좌는 시험관 내에 존재할 수 있다. 표적 핵산 유전자좌는 진핵 세포 또는 원핵 세포 내에 존재할 수 있다. 세포는 동물 세포, 인간 세포, 박테리아 세포, 고세균 세포, 또는 식물 세포일 수 있다. 효소는 관심 표적 유전자좌에서 또는 그 부근에서 단일 또는 이중 가닥 파손을 유도할 수 있다.
표적 핵산 유전자좌가 세포 내에 존재할 수 있는 경우에, 효소는 서열 번호 2914-3174 중 어느 하나에 대해 적어도 약 75%(예를 들어, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%)의 동일성을 갖는 RuvC_III 도메인이 존재하는 효소를 코딩하는 개방 해독 프레임을 함유하는 핵산으로서 공급될 수 있다. 상기 엔도뉴클레아제를 코딩하는 개방 해독 프레임을 함유하는 데옥시리보핵산(DNA)은 서열 번호 5583에 대해 실질적으로 동일한 서열 또는 서열 번호 5583에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 핵산은 엔도뉴클레아제를 코딩하는 개방 해독 프레임이 작동 가능하게 연결된 프로모터를 포함한다. 프로모터는 CMV, EF1a, SV40, PGK1, Ubc, 인간 베타 액틴, CAG, TRE, 또는 CaMKIIa 프로모터일 수 있다. 엔도뉴클레아제는 상기 엔도뉴클레아제를 코딩하는 상기 개방 해독 프레임을 함유하는 캡핑된 mRNA로서 공급될 수 있다. 엔도뉴클레아제는 번역된 폴리펩타이드로 공급될 수 있다. 적어도 하나의 조작된 sgRNA는 리보핵산(RNA) pol III 프로모터에 작동 가능하게 연결된 상기 적어도 하나의 조작된 sgRNA를 코딩하는 유전자 서열을 함유하는 데옥시리보핵산(DNA)으로서 공급될 수 있다. 일부 경우에, 유기체는 진핵생물일 수 있다. 일부 경우에, 유기체는 진균일 수 있다. 일부 경우에, 유기체는 인간일 수 있다.
MG18 효소
한 측면에서, 본 개시내용은 (a) 엔도뉴클레아제를 포함하는 조작된 뉴클레아제 시스템을 제공한다. 일부 경우에, 엔도뉴클레아제는 Cas 엔도뉴클레아제이다. 일부 경우에, 엔도뉴클레아제는 타입 II, 클래스 II Cas 엔도뉴클레아제이다. 엔도뉴클레아제는 RuvC_III 도메인을 포함할 수 있고, 여기서 상기 RuvC_III 도메인은 서열 번호 3175-3300 중 어느 하나에 대해 적어도 약 70%의 서열 동일성을 갖는다. 일부 경우에, 엔도뉴클레아제는 RuvC_III 도메인을 포함할 수 있으며, 여기서 RuvC_III 도메인은 서열 번호 3175-3300 중 어느 하나에 대해 적어도 약 20%, 적어도 약 25%, 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는다. 일부 경우에, 엔도뉴클레아제는 서열 번호 3175-3300 중 어느 하나에 대해 실질적으로 동일한 RuvC_III 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 3175-3300 중 어느 하나에 대해 적어도 약 70%의 서열 동일성을 갖는 RuvC_III 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 3175-3300 중 어느 하나에 대해 적어도 약 20%, 적어도 약 25%, 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는 RuvC_III 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 3175-3300 중 어느 하나에 대해 실질적으로 동일한 RuvC_III 도메인을 포함할 수 있다.
엔도뉴클레아제는 서열 번호 4989-5146 중 어느 하나에 대해 적어도 약 70%의 동일성을 갖는 HNH 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 4989-5146 중 어느 하나에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99% 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 4989-5146 중 어느 하나에 대해 실질적으로 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 4989-5146 중 어느 하나에 대해 적어도 약 70%의 동일성을 갖는 HNH 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 4989-5146 중 어느 하나에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99% 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 4989-5146 중 어느 하나에 대해 실질적으로 동일한 HNH 도메인을 포함할 수 있다.
일부 경우에, 엔도뉴클레아제는 서열 번호 1354-1511 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 1354-1511 중 어느 하나에 대해 실질적으로 동일할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 1354-1511 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 1354-1511 중 어느 하나에 대해 실질적으로 동일할 수 있다.
일부 경우에, 엔도뉴클레아제는 하나 이상의 핵 국소화 서열(NLS)을 갖는 변이체를 포함할 수 있다. NLS는 상기 엔도뉴클레아제의 N- 또는 C-말단에 근접할 수 있다. NLS는 서열 번호 1354-1511 중 어느 하나의 N-말단 또는 C-말단에 부가될 수 있거나, 또는 서열 번호 1354-1511 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체의 N-말단 또는 C-말단에 부가될 수 있다. NLS는 SV40 대형 T 항원 NLS일 수 있다. NLS는 c-myc NLS일 수 있다. NLS는 서열 번호 5593-5608 중 어느 하나에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%의 동일성을 갖는 서열을 포함할 수 있다. NLS는 서열 번호 5593-5608 중 어느 하나에 대해 실질적으로 동일한 서열을 포함할 수 있다. NLS는 표 1의 임의의 서열, 또는 이들의 조합을 포함할 수 있다.
일부 경우에, 서열 동일성은 BLASTP, CLUSTALW, MUSCLE, MAFFT, Novafold, 또는 스미스-워터만 상동성 검색 알고리즘에 의해 결정될 수 있다. 서열 동일성은 단어 길이(W) 3, 기대값(E) 10을 사용하고, BLOSUM62 스코어링 매트릭스 설정 갭 코스트(기존 11, 연장 1)를 사용하고, 조건부 조합 점수 매트릭스 조정을 사용하여 BLASTP 알고리즘에 의해 결정될 수 있다.
일부 경우에, 상기 시스템은 (b) 원하는 절단 서열에 상보성인 5' 표적화 영역을 보유하는 엔도뉴클레아제와 복합체를 형성할 수 있는 적어도 하나의 조작된 합성 가이드 리보핵산(sgRNA)을 포함할 수 있다. 일부 경우에, 5' 표적화 영역은 엔도뉴클레아제와 상용성인 PAM 서열을 포함할 수 있다. 일부 경우에, 표적화 영역의 5'의 대부분의 뉴클레오타이드는 G일 수 있다. 일부 경우에, 5' 표적화 영역은 길이가 15-23개의 뉴클레오타이드일 수 있다. 가이드 서열; 및 tracr 서열은 별개의 리보핵산(RNA) 또는 단일 리보핵산(RNA)으로서 공급될 수 있다. 가이드 RNA는 표적화 영역의 3'에 crRNA tracrRNA 결합 서열을 포함할 수 있다. 가이드 RNA는 crRNA tracrRNA 결합 영역의 3'에 4-뉴클레오타이드 링커가 선행하는 tracrRNA 서열을 포함할 수 있다. sgRNA는 5'에서 3'으로, 세포에서 표적 서열에 혼성화할 수 있는 비천연 가이드 핵산 서열; 및 tracr 서열을 포함할 수 있다. 일부 경우에, 비천연 가이드 핵산 서열; 및 tracr 서열은 공유적으로 연결된다.
일부 경우에, tracr 서열은 특정 서열을 가질 수 있다. tracr 서열은 천연 tracrRNA 서열의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%의 서열 동일성을 가질 수 있다. tracr 서열은 서열 번호 5508의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%의 서열 동일성을 가질 수 있다. 일부 경우에, tracrRNA는 서열 번호 5508의 적어도 약 60-90개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 가질 수 있다. 일부 경우에, tracrRNA는 서열 번호 5508의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 실질적으로 동일할 수 있다. tracrRNA는 서열 번호 5508을 포함할 수 있다.
일부 경우에, 엔도뉴클레아제와 복합체를 형성할 수 있는 적어도 하나의 조작된 합성 가이드 리보핵산(sgRNA)은 서열 번호 5472에 대해 적어도 약 80%의 동일성을 갖는 서열을 포함할 수 있다. sgRNA는 서열 번호 5472에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 서열을 포함할 수 있다. sgRNA는 서열 번호 5472에 대해 실질적으로 동일한 서열을 포함할 수 있다.
일부 경우에, 상기 시스템은 표적 DNA 유전자좌 내의 절단을 위한 제1 영역 및 제2 영역을 표적화하는 2개의 상이한 sgRNA를 포함할 수 있으며, 여기서 제2 영역은 제1 영역의 3'에 위치한다. 일부 경우에, 상기 시스템은 5'에서 3'으로 다음을 포함하는 단일 가닥 또는 이중 가닥 DNA 복구 주형을 포함할 수 있다: 제1 영역의 5'에 위치하는 적어도 약 20개(예를 들어, 적어도 약 40, 80, 120, 150, 200, 300, 500, 또는 1 kb) 뉴클레오타이드의 서열을 포함하는 제1 상동성 아암, 적어도 약 10개 뉴클레오타이드의 합성 DNA 서열, 및 제2 영역의 3'에 위치하는 적어도 약 20개(예를 들어, 적어도 약 40, 80, 120, 150, 200, 300, 500, 또는 1 kb) 뉴클레오타이드의 서열을 포함하는 제2 상동성 아암.
또 다른 측면에서, 본 개시내용은 관심 표적 핵산 유전자좌를 변형시키는 방법을 제공한다. 상기 방법은 본 명세서에서 개시되는 효소 및 적어도 하나의 합성 가이드 RNA(sgRNA)를 포함하는, 본 명세서에서 개시되는 비-천연 시스템 중 임의의 것을 표적 핵산 유전자좌에 전달하는 단계를 포함할 수 있다. 효소는 적어도 하나의 sgRNA와 복합체를 형성할 수 있고, 복합체가 관심 표적 핵산 유전자좌에 결합할 때 관심 표적 핵산 유전자좌를 변형시킬 수 있다. 상기 유전자좌에 효소를 전달하는 것은 세포를 시스템 또는 시스템을 코딩하는 핵산으로 형질감염시키는 것을 포함할 수 있다. 뉴클레아제를 상기 유전자좌에 전달하는 것은 시스템 또는 시스템을 코딩하는 핵산으로 세포를 전기천공하는 것을 포함할 수 있다. 뉴클레아제를 상기 유전자좌에 전달하는 것은 관심 유전자좌를 포함하는 핵산과 함께 완충액에서 시스템을 인큐베이션하는 것을 포함할 수 있다. 일부 경우에, 표적 핵산 유전자좌는 데옥시리보핵산(DNA) 또는 리보핵산(RNA)을 포함한다. 표적 핵산 유전자좌는 게놈 DNA, 바이러스 DNA, 바이러스 RNA, 또는 박테리아 DNA를 포함할 수 있다. 표적 핵산 유전자좌는 세포 내에 있을 수 있다. 표적 핵산 유전자좌는 시험관 내에 존재할 수 있다. 표적 핵산 유전자좌는 진핵 세포 또는 원핵 세포 내에 존재할 수 있다. 세포는 동물 세포, 인간 세포, 박테리아 세포, 고세균 세포, 또는 식물 세포일 수 있다. 효소는 관심 표적 유전자좌에서 또는 그 부근에서 단일 또는 이중 가닥 파손을 유도할 수 있다.
표적 핵산 유전자좌가 세포 내에 존재할 수 있는 경우에, 효소는 서열 번호 3175-3300 중 어느 하나에 대해 적어도 약 75%(예를 들어, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%)의 동일성을 갖는 RuvC_III 도메인이 존재하는 효소를 코딩하는 개방 해독 프레임을 함유하는 핵산으로서 공급될 수 있다. 상기 엔도뉴클레아제를 코딩하는 개방 해독 프레임을 함유하는 데옥시리보핵산(DNA)은 서열 번호 5584에 대해 실질적으로 동일한 서열 또는 서열 번호 5584에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 핵산은 엔도뉴클레아제를 코딩하는 개방 해독 프레임이 작동 가능하게 연결된 프로모터를 포함한다. 프로모터는 CMV, EF1a, SV40, PGK1, Ubc, 인간 베타 액틴, CAG, TRE, 또는 CaMKIIa 프로모터일 수 있다. 엔도뉴클레아제는 상기 엔도뉴클레아제를 코딩하는 상기 개방 해독 프레임을 함유하는 캡핑된 mRNA로서 공급될 수 있다. 엔도뉴클레아제는 번역된 폴리펩타이드로 공급될 수 있다. 적어도 하나의 조작된 sgRNA는 리보핵산(RNA) pol III 프로모터에 작동 가능하게 연결된 상기 적어도 하나의 조작된 sgRNA를 코딩하는 유전자 서열을 함유하는 데옥시리보핵산(DNA)으로서 공급될 수 있다. 일부 경우에, 유기체는 진핵생물일 수 있다. 일부 경우에, 유기체는 진균일 수 있다. 일부 경우에, 유기체는 인간일 수 있다.
MG21 효소
한 측면에서, 본 개시내용은 (a) 엔도뉴클레아제를 포함하는 조작된 뉴클레아제 시스템을 제공한다. 일부 경우에, 엔도뉴클레아제는 Cas 엔도뉴클레아제이다. 일부 경우에, 엔도뉴클레아제는 타입 II, 클래스 II Cas 엔도뉴클레아제이다. 엔도뉴클레아제는 RuvC_III 도메인을 포함할 수 있고, 여기서 상기 RuvC_III 도메인은 서열 번호 3331-3474 중 어느 하나에 대해 적어도 약 70%의 서열 동일성을 갖는다. 일부 경우에, 엔도뉴클레아제는 RuvC_III 도메인을 포함할 수 있으며, 여기서 RuvC_III 도메인은 서열 번호 3331-3474 중 어느 하나에 대해 적어도 약 20%, 적어도 약 25%, 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는다. 일부 경우에, 엔도뉴클레아제는 서열 번호 3331-3474 중 어느 하나에 대해 실질적으로 동일한 RuvC_III 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 3331-3474 중 어느 하나에 대해 적어도 약 70%의 서열 동일성을 갖는 RuvC_III 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 3331-3474 중 어느 하나에 대해 적어도 약 20%, 적어도 약 25%, 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는 RuvC_III 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 3331-3474 중 어느 하나에 대해 실질적으로 동일한 RuvC_III 도메인을 포함할 수 있다.
엔도뉴클레아제는 서열 번호 5147-5290 중 어느 하나에 대해 적어도 약 70%의 동일성을 갖는 HNH 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 5147-5290 중 어느 하나에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99% 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 5147-5290 중 어느 하나에 대해 실질적으로 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 5147-5290 중 어느 하나에 대해 적어도 약 70%의 동일성을 갖는 HNH 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 5147-5290 중 어느 하나에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99% 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 5147-5290 중 어느 하나에 대해 실질적으로 동일한 HNH 도메인을 포함할 수 있다.
일부 경우에, 엔도뉴클레아제는 서열 번호 1512-1655 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 1512-1655 중 어느 하나에 대해 실질적으로 동일할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 1512-1655 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 1512-1655 중 어느 하나에 대해 실질적으로 동일할 수 있다.
일부 경우에, 엔도뉴클레아제는 하나 이상의 핵 국소화 서열(NLS)을 갖는 변이체를 포함할 수 있다. NLS는 상기 엔도뉴클레아제의 N- 또는 C-말단에 근접할 수 있다. NLS는 서열 번호 1512-1655 중 어느 하나의 N-말단 또는 C-말단에 부가될 수 있거나, 또는 서열 번호 1512-1655 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체의 N-말단 또는 C-말단에 부가될 수 있다. NLS는 SV40 대형 T 항원 NLS일 수 있다. NLS는 c-myc NLS일 수 있다. NLS는 서열 번호 5593-5608 중 어느 하나에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%의 동일성을 갖는 서열을 포함할 수 있다. NLS는 서열 번호 5593-5608 중 어느 하나에 대해 실질적으로 동일한 서열을 포함할 수 있다. NLS는 표 1의 임의의 서열, 또는 이들의 조합을 포함할 수 있다.
일부 경우에, 서열 동일성은 BLASTP, CLUSTALW, MUSCLE, MAFFT, Novafold, 또는 스미스-워터만 상동성 검색 알고리즘에 의해 결정될 수 있다. 서열 동일성은 단어 길이(W) 3, 기대값(E) 10을 사용하고, BLOSUM62 스코어링 매트릭스 설정 갭 코스트(기존 11, 연장 1)를 사용하고, 조건부 조합 점수 매트릭스 조정을 사용하여 BLASTP 알고리즘에 의해 결정될 수 있다.
일부 경우에, 상기 시스템은 (b) 원하는 절단 서열에 상보성인 5' 표적화 영역을 보유하는 엔도뉴클레아제와 복합체를 형성할 수 있는 적어도 하나의 조작된 합성 가이드 리보핵산(sgRNA)을 포함할 수 있다. 일부 경우에, 5' 표적화 영역은 엔도뉴클레아제와 상용성인 PAM 서열을 포함할 수 있다. 일부 경우에, 표적화 영역의 5'의 대부분의 뉴클레오타이드는 G일 수 있다. 일부 경우에, 5' 표적화 영역은 길이가 15-23개의 뉴클레오타이드일 수 있다. 가이드 서열; 및 tracr 서열은 별개의 리보핵산(RNA) 또는 단일 리보핵산(RNA)으로서 공급될 수 있다. 가이드 RNA는 표적화 영역의 3'에 crRNA tracrRNA 결합 서열을 포함할 수 있다. 가이드 RNA는 crRNA tracrRNA 결합 영역의 3'에 4-뉴클레오타이드 링커가 선행하는 tracrRNA 서열을 포함할 수 있다. sgRNA는 5'에서 3'으로, 세포에서 표적 서열에 혼성화할 수 있는 비천연 가이드 핵산 서열; 및 tracr 서열을 포함할 수 있다. 일부 경우에, 비천연 가이드 핵산 서열; 및 tracr 서열은 공유적으로 연결된다.
일부 경우에, tracr 서열은 특정 서열을 가질 수 있다. tracr 서열은 천연 tracrRNA 서열의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%의 서열 동일성을 가질 수 있다. tracr 서열은 서열 번호 5509의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%의 서열 동일성을 가질 수 있다. 일부 경우에, tracrRNA는 서열 번호 5509의 적어도 약 60-90개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 가질 수 있다. 일부 경우에, tracrRNA는 서열 번호 5509의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 실질적으로 동일할 수 있다. tracrRNA는 서열 번호 5509를 포함할 수 있다.
일부 경우에, 엔도뉴클레아제와 복합체를 형성할 수 있는 적어도 하나의 조작된 합성 가이드 리보핵산(sgRNA)은 서열 번호 5473에 대해 적어도 약 80%의 동일성을 갖는 서열을 포함할 수 있다. sgRNA는 서열 번호 5473에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 서열을 포함할 수 있다. sgRNA는 서열 번호 5473에 대해 실질적으로 동일한 서열을 포함할 수 있다.
일부 경우에, 상기 시스템은 표적 DNA 유전자좌 내의 절단을 위한 제1 영역 및 제2 영역을 표적화하는 2개의 상이한 sgRNA를 포함할 수 있으며, 여기서 제2 영역은 제1 영역의 3'에 위치한다. 일부 경우에, 상기 시스템은 5'에서 3'으로 다음을 포함하는 단일 가닥 또는 이중 가닥 DNA 복구 주형을 포함할 수 있다: 제1 영역의 5'에 위치하는 적어도 약 20개(예를 들어, 적어도 약 40, 80, 120, 150, 200, 300, 500, 또는 1 kb) 뉴클레오타이드의 서열을 포함하는 제1 상동성 아암, 적어도 약 10개 뉴클레오타이드의 합성 DNA 서열, 및 제2 영역의 3'에 위치하는 적어도 약 20개(예를 들어, 적어도 약 40, 80, 120, 150, 200, 300, 500, 또는 1 kb) 뉴클레오타이드의 서열을 포함하는 제2 상동성 아암.
또 다른 측면에서, 본 개시내용은 관심 표적 핵산 유전자좌를 변형시키는 방법을 제공한다. 상기 방법은 본 명세서에서 개시되는 효소 및 적어도 하나의 합성 가이드 RNA(sgRNA)를 포함하는, 본 명세서에서 개시되는 비-천연 시스템 중 임의의 것을 표적 핵산 유전자좌에 전달하는 단계를 포함할 수 있다. 효소는 적어도 하나의 sgRNA와 복합체를 형성할 수 있고, 복합체가 관심 표적 핵산 유전자좌에 결합할 때 관심 표적 핵산 유전자좌를 변형시킬 수 있다. 상기 유전자좌에 효소를 전달하는 것은 세포를 시스템 또는 시스템을 코딩하는 핵산으로 형질감염시키는 것을 포함할 수 있다. 뉴클레아제를 상기 유전자좌에 전달하는 것은 시스템 또는 시스템을 코딩하는 핵산으로 세포를 전기천공하는 것을 포함할 수 있다. 뉴클레아제를 상기 유전자좌에 전달하는 것은 관심 유전자좌를 포함하는 핵산과 함께 완충액에서 시스템을 인큐베이션하는 것을 포함할 수 있다. 일부 경우에, 표적 핵산 유전자좌는 데옥시리보핵산(DNA) 또는 리보핵산(RNA)을 포함한다. 표적 핵산 유전자좌는 게놈 DNA, 바이러스 DNA, 바이러스 RNA, 또는 박테리아 DNA를 포함할 수 있다. 표적 핵산 유전자좌는 세포 내에 있을 수 있다. 표적 핵산 유전자좌는 시험관 내에 존재할 수 있다. 표적 핵산 유전자좌는 진핵 세포 또는 원핵 세포 내에 존재할 수 있다. 세포는 동물 세포, 인간 세포, 박테리아 세포, 고세균 세포, 또는 식물 세포일 수 있다. 효소는 관심 표적 유전자좌에서 또는 그 부근에서 단일 또는 이중 가닥 파손을 유도할 수 있다.
표적 핵산 유전자좌가 세포 내에 존재할 수 있는 경우에, 효소는 서열 번호 3331-3474 중 어느 하나에 대해 적어도 약 75%(예를 들어, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%)의 동일성을 갖는 RuvC_III 도메인이 존재하는 효소를 코딩하는 개방 해독 프레임을 함유하는 핵산으로서 공급될 수 있다. 상기 엔도뉴클레아제를 코딩하는 개방 해독 프레임을 함유하는 데옥시리보핵산(DNA)은 서열 번호 5585에 대해 실질적으로 동일한 서열 또는 서열 번호 5585에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 핵산은 엔도뉴클레아제를 코딩하는 개방 해독 프레임이 작동 가능하게 연결된 프로모터를 포함한다. 프로모터는 CMV, EF1a, SV40, PGK1, Ubc, 인간 베타 액틴, CAG, TRE, 또는 CaMKIIa 프로모터일 수 있다. 엔도뉴클레아제는 상기 엔도뉴클레아제를 코딩하는 상기 개방 해독 프레임을 함유하는 캡핑된 mRNA로서 공급될 수 있다. 엔도뉴클레아제는 번역된 폴리펩타이드로 공급될 수 있다. 적어도 하나의 조작된 sgRNA는 리보핵산(RNA) pol III 프로모터에 작동 가능하게 연결된 상기 적어도 하나의 조작된 sgRNA를 코딩하는 유전자 서열을 함유하는 데옥시리보핵산(DNA)으로서 공급될 수 있다. 일부 경우에, 유기체는 진핵생물일 수 있다. 일부 경우에, 유기체는 진균일 수 있다. 일부 경우에, 유기체는 인간일 수 있다.
MG22 효소
한 측면에서, 본 개시내용은 (a) 엔도뉴클레아제를 포함하는 조작된 뉴클레아제 시스템을 제공한다. 일부 경우에, 엔도뉴클레아제는 Cas 엔도뉴클레아제이다. 일부 경우에, 엔도뉴클레아제는 타입 II, 클래스 II Cas 엔도뉴클레아제이다. 엔도뉴클레아제는 RuvC_III 도메인을 포함할 수 있고, 여기서 상기 RuvC_III 도메인은 서열 번호 3475-3568 중 어느 하나에 대해 적어도 약 70%의 서열 동일성을 갖는다. 일부 경우에, 엔도뉴클레아제는 RuvC_III 도메인을 포함할 수 있으며, 여기서 RuvC_III 도메인은 서열 번호 3475-3568 중 어느 하나에 대해 적어도 약 20%, 적어도 약 25%, 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는다. 일부 경우에, 엔도뉴클레아제는 서열 번호 3475-3568 중 어느 하나에 대해 실질적으로 동일한 RuvC_III 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 3475-3568 중 어느 하나에 대해 적어도 약 70%의 서열 동일성을 갖는 RuvC_III 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 3475-3568 중 어느 하나에 대해 적어도 약 20%, 적어도 약 25%, 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는 RuvC_III 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 3475-3568 중 어느 하나에 대해 실질적으로 동일한 RuvC_III 도메인을 포함할 수 있다.
엔도뉴클레아제는 서열 번호 5291-5389 중 어느 하나에 대해 적어도 약 70%의 동일성을 갖는 HNH 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 5291-5389 중 어느 하나에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99% 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 5291-5389 중 어느 하나에 대해 실질적으로 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 5291-5389 중 어느 하나에 대해 적어도 약 70%의 동일성을 갖는 HNH 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 5291-5389 중 어느 하나에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99% 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 5291-5389 중 어느 하나에 대해 실질적으로 동일한 HNH 도메인을 포함할 수 있다.
일부 경우에, 엔도뉴클레아제는 서열 번호 1656-1755 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 1656-1755 중 어느 하나에 대해 실질적으로 동일할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 1656-1755 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 1656-1755 중 어느 하나에 대해 실질적으로 동일할 수 있다.
일부 경우에, 엔도뉴클레아제는 하나 이상의 핵 국소화 서열(NLS)을 갖는 변이체를 포함할 수 있다. NLS는 상기 엔도뉴클레아제의 N- 또는 C-말단에 근접할 수 있다. NLS는 서열 번호 432-660 중 어느 하나의 N-말단 또는 C-말단에 부가될 수 있거나, 또는 서열 번호 1656-1755 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체의 N-말단 또는 C-말단에 부가될 수 있다. NLS는 SV40 대형 T 항원 NLS일 수 있다. NLS는 c-myc NLS일 수 있다. NLS는 서열 번호 5593-5608 중 어느 하나에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%의 동일성을 갖는 서열을 포함할 수 있다. NLS는 서열 번호 5593-5608 중 어느 하나에 대해 실질적으로 동일한 서열을 포함할 수 있다. NLS는 표 1의 임의의 서열, 또는 이들의 조합을 포함할 수 있다.
일부 경우에, 서열 동일성은 BLASTP, CLUSTALW, MUSCLE, MAFFT, Novafold, 또는 스미스-워터만 상동성 검색 알고리즘에 의해 결정될 수 있다. 서열 동일성은 단어 길이(W) 3, 기대값(E) 10을 사용하고, BLOSUM62 스코어링 매트릭스 설정 갭 코스트(기존 11, 연장 1)를 사용하고, 조건부 조합 점수 매트릭스 조정을 사용하여 BLASTP 알고리즘에 의해 결정될 수 있다.
일부 경우에, 상기 시스템은 (b) 원하는 절단 서열에 상보성인 5' 표적화 영역을 보유하는 엔도뉴클레아제와 복합체를 형성할 수 있는 적어도 하나의 조작된 합성 가이드 리보핵산(sgRNA)을 포함할 수 있다. 일부 경우에, 5' 표적화 영역은 엔도뉴클레아제와 상용성인 PAM 서열을 포함할 수 있다. 일부 경우에, 표적화 영역의 5'의 대부분의 뉴클레오타이드는 G일 수 있다. 일부 경우에, 5' 표적화 영역은 길이가 15-23개의 뉴클레오타이드일 수 있다. 가이드 서열; 및 tracr 서열은 별개의 리보핵산(RNA) 또는 단일 리보핵산(RNA)으로서 공급될 수 있다. 가이드 RNA는 표적화 영역의 3'에 crRNA tracrRNA 결합 서열을 포함할 수 있다. 가이드 RNA는 crRNA tracrRNA 결합 영역의 3'에 4-뉴클레오타이드 링커가 선행하는 tracrRNA 서열을 포함할 수 있다. sgRNA는 5'에서 3'으로, 세포에서 표적 서열에 혼성화할 수 있는 비천연 가이드 핵산 서열; 및 tracr 서열을 포함할 수 있다. 일부 경우에, 비천연 가이드 핵산 서열; 및 tracr 서열은 공유적으로 연결된다.
일부 경우에, tracr 서열은 특정 서열을 가질 수 있다. tracr 서열은 천연 tracrRNA 서열의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%의 서열 동일성을 가질 수 있다. tracr 서열은 서열 번호 5510의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%의 서열 동일성을 가질 수 있다. 일부 경우에, tracrRNA는 서열 번호 5510의 적어도 약 60-90개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 가질 수 있다. 일부 경우에, tracrRNA는 서열 번호 5510의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 실질적으로 동일할 수 있다. tracrRNA는 서열 번호 5510을 포함할 수 있다.
일부 경우에, 엔도뉴클레아제와 복합체를 형성할 수 있는 적어도 하나의 조작된 합성 가이드 리보핵산(sgRNA)은 서열 번호 5474에 대해 적어도 약 80%의 동일성을 갖는 서열을 포함할 수 있다. sgRNA는 서열 번호 5474에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 서열을 포함할 수 있다. sgRNA는 서열 번호 5474에 대해 실질적으로 동일한 서열을 포함할 수 있다.
일부 경우에, 상기 시스템은 표적 DNA 유전자좌 내의 절단을 위한 제1 영역 및 제2 영역을 표적화하는 2개의 상이한 sgRNA를 포함할 수 있으며, 여기서 제2 영역은 제1 영역의 3'에 위치한다. 일부 경우에, 상기 시스템은 5'에서 3'으로 다음을 포함하는 단일 가닥 또는 이중 가닥 DNA 복구 주형을 포함할 수 있다: 제1 영역의 5'에 위치하는 적어도 약 20개(예를 들어, 적어도 약 40, 80, 120, 150, 200, 300, 500, 또는 1 kb) 뉴클레오타이드의 서열을 포함하는 제1 상동성 아암, 적어도 약 10개 뉴클레오타이드의 합성 DNA 서열, 및 제2 영역의 3'에 위치하는 적어도 약 20개(예를 들어, 적어도 약 40, 80, 120, 150, 200, 300, 500, 또는 1 kb) 뉴클레오타이드의 서열을 포함하는 제2 상동성 아암.
또 다른 측면에서, 본 개시내용은 관심 표적 핵산 유전자좌를 변형시키는 방법을 제공한다. 상기 방법은 본 명세서에서 개시되는 효소 및 적어도 하나의 합성 가이드 RNA(sgRNA)를 포함하는, 본 명세서에서 개시되는 비-천연 시스템 중 임의의 것을 표적 핵산 유전자좌에 전달하는 단계를 포함할 수 있다. 효소는 적어도 하나의 sgRNA와 복합체를 형성할 수 있고, 복합체가 관심 표적 핵산 유전자좌에 결합할 때 관심 표적 핵산 유전자좌를 변형시킬 수 있다. 상기 유전자좌에 효소를 전달하는 것은 세포를 시스템 또는 시스템을 코딩하는 핵산으로 형질감염시키는 것을 포함할 수 있다. 뉴클레아제를 상기 유전자좌에 전달하는 것은 시스템 또는 시스템을 코딩하는 핵산으로 세포를 전기천공하는 것을 포함할 수 있다. 뉴클레아제를 상기 유전자좌에 전달하는 것은 관심 유전자좌를 포함하는 핵산과 함께 완충액에서 시스템을 인큐베이션하는 것을 포함할 수 있다. 일부 경우에, 표적 핵산 유전자좌는 데옥시리보핵산(DNA) 또는 리보핵산(RNA)을 포함한다. 표적 핵산 유전자좌는 게놈 DNA, 바이러스 DNA, 바이러스 RNA, 또는 박테리아 DNA를 포함할 수 있다. 표적 핵산 유전자좌는 세포 내에 있을 수 있다. 표적 핵산 유전자좌는 시험관 내에 존재할 수 있다. 표적 핵산 유전자좌는 진핵 세포 또는 원핵 세포 내에 존재할 수 있다. 세포는 동물 세포, 인간 세포, 박테리아 세포, 고세균 세포, 또는 식물 세포일 수 있다. 효소는 관심 표적 유전자좌에서 또는 그 부근에서 단일 또는 이중 가닥 파손을 유도할 수 있다.
표적 핵산 유전자좌가 세포 내에 존재할 수 있는 경우에, 효소는 서열 번호 3475-3568 중 어느 하나에 대해 적어도 약 75%(예를 들어, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%)의 동일성을 갖는 RuvC_III 도메인이 존재하는 효소를 코딩하는 개방 해독 프레임을 함유하는 핵산으로서 공급될 수 있다. 상기 엔도뉴클레아제를 코딩하는 개방 해독 프레임을 함유하는 데옥시리보핵산(DNA)은 서열 번호 5586에 대해 실질적으로 동일한 서열 또는 서열 번호 5586에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 핵산은 엔도뉴클레아제를 코딩하는 개방 해독 프레임이 작동 가능하게 연결된 프로모터를 포함한다. 프로모터는 CMV, EF1a, SV40, PGK1, Ubc, 인간 베타 액틴, CAG, TRE, 또는 CaMKIIa 프로모터일 수 있다. 엔도뉴클레아제는 상기 엔도뉴클레아제를 코딩하는 상기 개방 해독 프레임을 함유하는 캡핑된 mRNA로서 공급될 수 있다. 엔도뉴클레아제는 번역된 폴리펩타이드로 공급될 수 있다. 적어도 하나의 조작된 sgRNA는 리보핵산(RNA) pol III 프로모터에 작동 가능하게 연결된 상기 적어도 하나의 조작된 sgRNA를 코딩하는 유전자 서열을 함유하는 데옥시리보핵산(DNA)으로서 공급될 수 있다. 일부 경우에, 유기체는 진핵생물일 수 있다. 일부 경우에, 유기체는 진균일 수 있다. 일부 경우에, 유기체는 인간일 수 있다.
MG23 효소
한 측면에서, 본 개시내용은 (a) 엔도뉴클레아제를 포함하는 조작된 뉴클레아제 시스템을 제공한다. 일부 경우에, 엔도뉴클레아제는 Cas 엔도뉴클레아제이다. 일부 경우에, 엔도뉴클레아제는 타입 II, 클래스 II Cas 엔도뉴클레아제이다. 엔도뉴클레아제는 RuvC_III 도메인을 포함할 수 있고, 여기서 상기 RuvC_III 도메인은 서열 번호 3569-3637 중 어느 하나에 대해 적어도 약 70%의 서열 동일성을 갖는다. 일부 경우에, 엔도뉴클레아제는 RuvC_III 도메인을 포함할 수 있으며, 여기서 RuvC_III 도메인은 서열 번호 3569-3637 중 어느 하나에 대해 적어도 약 20%, 적어도 약 25%, 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는다. 일부 경우에, 엔도뉴클레아제는 서열 번호 3569-3637 중 어느 하나에 대해 실질적으로 동일한 RuvC_III 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 3569-3637 중 어느 하나에 대해 적어도 약 70%의 서열 동일성을 갖는 RuvC_III 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 3569-3637 중 어느 하나에 대해 적어도 약 20%, 적어도 약 25%, 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는 RuvC_III 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 3569-3637 중 어느 하나에 대해 실질적으로 동일한 RuvC_III 도메인을 포함할 수 있다.
엔도뉴클레아제는 서열 번호 5390-5460 중 어느 하나에 대해 적어도 약 70%의 동일성을 갖는 HNH 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 5390-5460 중 어느 하나에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99% 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 5390-5460 중 어느 하나에 대해 실질적으로 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 5390-5460 중 어느 하나에 대해 적어도 약 70%의 동일성을 갖는 HNH 도메인을 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 5390-5460 중 어느 하나에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99% 동일한 HNH 도메인을 포함할 수 있다. 엔도뉴클레아제는 서열 번호 5390-5460 중 어느 하나에 대해 실질적으로 동일한 HNH 도메인을 포함할 수 있다.
일부 경우에, 엔도뉴클레아제는 서열 번호 1756-1826 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 1756-1826 중 어느 하나에 대해 실질적으로 동일할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 1756-1826 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 엔도뉴클레아제는 서열 번호 1756-1826 중 어느 하나에 대해 실질적으로 동일할 수 있다.
일부 경우에, 엔도뉴클레아제는 하나 이상의 핵 국소화 서열(NLS)을 갖는 변이체를 포함할 수 있다. NLS는 상기 엔도뉴클레아제의 N- 또는 C-말단에 근접할 수 있다. NLS는 서열 번호 1756-1826 중 어느 하나의 N-말단 또는 C-말단에 부가될 수 있거나, 또는 서열 번호 1756-1826 중 어느 하나에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 변이체의 N-말단 또는 C-말단에 부가될 수 있다. NLS는 SV40 대형 T 항원 NLS일 수 있다. NLS는 c-myc NLS일 수 있다. NLS는 서열 번호 5593-5608 중 어느 하나에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%의 동일성을 갖는 서열을 포함할 수 있다. NLS는 서열 번호 5593-5608 중 어느 하나에 대해 실질적으로 동일한 서열을 포함할 수 있다. NLS는 표 1의 임의의 서열, 또는 이들의 조합을 포함할 수 있다.
일부 경우에, 서열 동일성은 BLASTP, CLUSTALW, MUSCLE, MAFFT, Novafold, 또는 스미스-워터만 상동성 검색 알고리즘에 의해 결정될 수 있다. 서열 동일성은 단어 길이(W) 3, 기대값(E) 10을 사용하고, BLOSUM62 스코어링 매트릭스 설정 갭 코스트(기존 11, 연장 1)를 사용하고, 조건부 조합 점수 매트릭스 조정을 사용하여 BLASTP 알고리즘에 의해 결정될 수 있다.
일부 경우에, 상기 시스템은 (b) 원하는 절단 서열에 상보성인 5' 표적화 영역을 보유하는 엔도뉴클레아제와 복합체를 형성할 수 있는 적어도 하나의 조작된 합성 가이드 리보핵산(sgRNA)을 포함할 수 있다. 일부 경우에, 5' 표적화 영역은 엔도뉴클레아제와 상용성인 PAM 서열을 포함할 수 있다. 일부 경우에, 표적화 영역의 5'의 대부분의 뉴클레오타이드는 G일 수 있다. 일부 경우에, 5' 표적화 영역은 길이가 15-23개의 뉴클레오타이드일 수 있다. 가이드 서열; 및 tracr 서열은 별개의 리보핵산(RNA) 또는 단일 리보핵산(RNA)으로서 공급될 수 있다. 가이드 RNA는 표적화 영역의 3'에 crRNA tracrRNA 결합 서열을 포함할 수 있다. 가이드 RNA는 crRNA tracrRNA 결합 영역의 3'에 4-뉴클레오타이드 링커가 선행하는 tracrRNA 서열을 포함할 수 있다. sgRNA는 5'에서 3'으로, 세포에서 표적 서열에 혼성화할 수 있는 비천연 가이드 핵산 서열; 및 tracr 서열을 포함할 수 있다. 일부 경우에, 비천연 가이드 핵산 서열; 및 tracr 서열은 공유적으로 연결된다.
일부 경우에, tracr 서열은 특정 서열을 가질 수 있다. tracr 서열은 천연 tracrRNA 서열의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%의 서열 동일성을 가질 수 있다. tracr 서열은 서열 번호 5511의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%의 서열 동일성을 가질 수 있다. 일부 경우에, tracrRNA는 서열 번호 5511의 적어도 약 60-90개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 가질 수 있다. 일부 경우에, tracrRNA는 서열 번호 5511의 적어도 약 60-100개(예를 들어, 적어도 약 60개, 적어도 약 65개, 적어도 약 70개, 적어도 약 75개, 적어도 약 80개, 적어도 약 85개, 또는 적어도 약 90개)의 연속적인 뉴클레오타이드에 대해 실질적으로 동일할 수 있다. tracrRNA는 서열 번호 5511을 포함할 수 있다.
일부 경우에, 엔도뉴클레아제와 복합체를 형성할 수 있는 적어도 하나의 조작된 합성 가이드 리보핵산(sgRNA)은 서열 번호 5475에 대해 적어도 약 80%의 동일성을 갖는 서열을 포함할 수 있다. sgRNA는 서열 번호 5475에 대해 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 동일성을 갖는 서열을 포함할 수 있다. sgRNA는 서열 번호 5475에 대해 실질적으로 동일한 서열을 포함할 수 있다.
일부 경우에, 상기 시스템은 표적 DNA 유전자좌 내의 절단을 위한 제1 영역 및 제2 영역을 표적화하는 2개의 상이한 sgRNA를 포함할 수 있으며, 여기서 제2 영역은 제1 영역의 3'에 위치한다. 일부 경우에, 상기 시스템은 5'에서 3'으로 다음을 포함하는 단일 가닥 또는 이중 가닥 DNA 복구 주형을 포함할 수 있다: 제1 영역의 5'에 위치하는 적어도 약 20개(예를 들어, 적어도 약 40, 80, 120, 150, 200, 300, 500, 또는 1 kb) 뉴클레오타이드의 서열을 포함하는 제1 상동성 아암, 적어도 약 10개 뉴클레오타이드의 합성 DNA 서열, 및 제2 영역의 3'에 위치하는 적어도 약 20개(예를 들어, 적어도 약 40, 80, 120, 150, 200, 300, 500, 또는 1 kb) 뉴클레오타이드의 서열을 포함하는 제2 상동성 아암.
또 다른 측면에서, 본 개시내용은 관심 표적 핵산 유전자좌를 변형시키는 방법을 제공한다. 상기 방법은 본 명세서에서 개시되는 효소 및 적어도 하나의 합성 가이드 RNA(sgRNA)를 포함하는, 본 명세서에서 개시되는 비-천연 시스템 중 임의의 것을 표적 핵산 유전자좌에 전달하는 단계를 포함할 수 있다. 효소는 적어도 하나의 sgRNA와 복합체를 형성할 수 있고, 복합체가 관심 표적 핵산 유전자좌에 결합할 때 관심 표적 핵산 유전자좌를 변형시킬 수 있다. 상기 유전자좌에 효소를 전달하는 것은 세포를 시스템 또는 시스템을 코딩하는 핵산으로 형질감염시키는 것을 포함할 수 있다. 뉴클레아제를 상기 유전자좌에 전달하는 것은 시스템 또는 시스템을 코딩하는 핵산으로 세포를 전기천공하는 것을 포함할 수 있다. 뉴클레아제를 상기 유전자좌에 전달하는 것은 관심 유전자좌를 포함하는 핵산과 함께 완충액에서 시스템을 인큐베이션하는 것을 포함할 수 있다. 일부 경우에, 표적 핵산 유전자좌는 데옥시리보핵산(DNA) 또는 리보핵산(RNA)을 포함한다. 표적 핵산 유전자좌는 게놈 DNA, 바이러스 DNA, 바이러스 RNA, 또는 박테리아 DNA를 포함할 수 있다. 표적 핵산 유전자좌는 세포 내에 있을 수 있다. 표적 핵산 유전자좌는 시험관 내에 존재할 수 있다. 표적 핵산 유전자좌는 진핵 세포 또는 원핵 세포 내에 존재할 수 있다. 세포는 동물 세포, 인간 세포, 박테리아 세포, 고세균 세포, 또는 식물 세포일 수 있다. 효소는 관심 표적 유전자좌에서 또는 그 부근에서 단일 또는 이중 가닥 파손을 유도할 수 있다.
표적 핵산 유전자좌가 세포 내에 존재할 수 있는 경우에, 효소는 서열 번호 3569-3637 중 어느 하나에 대해 적어도 약 75%(예를 들어, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%)의 동일성을 갖는 RuvC_III 도메인이 존재하는 효소를 코딩하는 개방 해독 프레임을 함유하는 핵산으로서 공급될 수 있다. 상기 엔도뉴클레아제를 코딩하는 개방 해독 프레임을 함유하는 데옥시리보핵산(DNA)은 서열 번호 5587에 대해 실질적으로 동일한 서열 또는 서열 번호 5587에 대해 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%의 동일성을 갖는 변이체를 포함할 수 있다. 일부 경우에, 핵산은 엔도뉴클레아제를 코딩하는 개방 해독 프레임이 작동 가능하게 연결된 프로모터를 포함한다. 프로모터는 CMV, EF1a, SV40, PGK1, Ubc, 인간 베타 액틴, CAG, TRE, 또는 CaMKIIa 프로모터일 수 있다. 엔도뉴클레아제는 상기 엔도뉴클레아제를 코딩하는 상기 개방 해독 프레임을 함유하는 캡핑된 mRNA로서 공급될 수 있다. 엔도뉴클레아제는 번역된 폴리펩타이드로 공급될 수 있다. 적어도 하나의 조작된 sgRNA는 리보핵산(RNA) pol III 프로모터에 작동 가능하게 연결된 상기 적어도 하나의 조작된 sgRNA를 코딩하는 유전자 서열을 함유하는 데옥시리보핵산(DNA)으로서 공급될 수 있다. 일부 경우에, 유기체는 진핵생물일 수 있다. 일부 경우에, 유기체는 진균일 수 있다. 일부 경우에, 유기체는 인간일 수 있다.
실시예
실시예 1. - 새로운 단백질에 대한 메타게놈 분석
퇴적물, 토양 및 동물로부터 메타게놈 샘플을 수집하였다. 데옥시리보핵산(DNA)은 자이모바이오믹스(Zymobiomics) DNA 미니-프렙 키트로 추출하고, 일루미나(Illumina) HiSeq® 2500에서 시퀀싱하였다. 샘플은 소유자의 동의 하에 수집되었다. 공개적인 공급원으로부터의 추가의 원 서열 데이터에는 동물 미생물군 유전체, 퇴적물, 토양, 온천, 열수 분출구, 해양, 토탄지, 영구 동토층 및 하수 처리장이 포함되었다. 타입 II Cas 이펙터 단백질을 포함하는 알려진 Cas 단백질 서열을 기반으로 하여 생성된 히든 마르코프 모델을 사용하여 메타게놈 서열 데이터를 검색하였다. 검색에 의해 확인된 새로운 이펙터 단백질은 잠재적 활성 부위를 확인하기 위해 알려진 단백질에 정렬되었다. 상기 메타게놈 워크플로우는 본원에서 설명되는 클래스 II 타입 II CRISPR 엔도뉴클레아제의 MG1, MG2, MG3, MG4, MG6, MG14, MG15, MG16, MG18, MG21, MG22, 및 MG23 패밀리에 대한 설명을 제시하였다.
실시예 2A. - CRISPR 시스템의 MG1 패밀리의 발견
실시예 1의 메타게놈 분석으로부터의 데이터 분석은 초기에 6개의 구성원(MG1-1, MG1-2, MG1-3, MG1-4, MG1-5 및 MG1-6은 각각 서열 번호 5, 6, 1, 2 및 3으로 기록됨)을 포함하는 이전에 설명되지 않은 추정되는 CRISPR 시스템의 새로운 클러스터를 보여주었다. 이 패밀리는 HNH 및 RuvC 도메인을 보유하는 효소를 특징으로 한다. 이 패밀리의 RuvC 도메인은 이전에 설명된 Cas9 패밀리 구성원에 대해 낮은 상동성을 갖는 RuvC_III 부분을 가지고 있다. 초기 패밀리 구성원은 그들 사이에서 최대 56.8%의 동일성을 갖지만, 6개의 효소 모두는 RuvC 도메인의 분기된 RuvC_III 부분을 나타내고, RHHALDAMV(서열 번호 5615), KHHALDAMC(서열 번호 5616), 또는 KHHALDAIC(서열 번호 5617)의 공통 모티프를 보유한다. 이러한 모티프는 다른 설명된 Cas9 유사 효소에서는 발견되지 않는다. 이러한 새로운 효소 및 그의 관련 하위 도메인에 대한 상응하는 단백질 및 핵산 서열은 서열 목록에 제시되어 있다. 추정 tracrRNA 서열은 다른 유전자에 대한 그의 상대적인 위치를 기반으로 확인되었으며, 서열 번호 5476-5479로서 표시된다. 효소 시스템은 크리스퍼 시스템을 함유하는 게놈 빈(bin)으로부터의 16S rRNA의 서열을 기초로 하여 베루코미크로비아 문, 칸디다투스 페레그리니박테리아 문, 또는 칸디다투스 멜라이나박테리아 문에 속하는 박테리아로부터 유래하는 것으로 보인다. 16S rRNA 서열은 서열 번호 5592-5596으로서 제시된다. 그 전체가 참고로 포함된 문헌 [Shmakov et al., Mol Cell. 2015 Nov 5;60(3):385-97]에 설명된 특징과 함께 CRISPR 시스템 서열을 상세한 도메인 수준으로 정렬하는 것은 도 9a, 9b, 9c, 9d, 9e, 9f, 9g 및 9h에 도시되어 있다. 추가의 독점권이 있는 단백질 데이터세트에 대한 MG1-1, 1-2, 및 1-3의 비교에 의해, 서열 번호 7-319로서 제시되는 유사한 구조를 갖는 추가의 단백질 서열이 제시되었다. 이들 MG1 단백질 서열은 서열 번호 5618-5632에 제시된 바와 같이 추가의 MG1 모티프의 발견을 유도하였다.
실시예 2B. - CRISPR 시스템의 MG2 패밀리의 발견
실시예 1의 메타게놈 분석으로부터의 데이터 분석은 6개의 구성원(MG2-1, MG2-2, MG2-3, MG2-5, 및 MG2-6)을 포함하는 이전에 설명되지 않은 추정되는 CRISPR 시스템의 새로운 클러스터를 보여주었다. 이들 새로운 효소 및 예시적인 하위도메인에 대한 상응하는 단백질 및 핵산 서열은 서열 번호 320, 322-325로서 제시된다. 다른 유전자에 대한 그의 위치를 기반으로 하여, 추정 tracrRNA 서열이 오페론에서 확인되었으며, 서열 번호 5490, 5492-5494 및 5538로서 표시된다. 문헌 [Shmakov et al. Mol Cell. 2015 Nov 5;60(3):385-97]에 개관된 바와 같이 Cas9에 대해 이들 서열을 상세한 도메인 수준으로 정렬하는 것은 도 7에 도시되어 있다.
추가의 독점권이 있는 단백질 데이터세트에 대한 MG2-1, MG2-2, MG2-3, MG2-5, 및 MG2-6의 비교에 의해, 서열 번호 321 및 326-420으로서 제시되는 유사한 구조를 갖는 추가의 단백질 서열이 제시되었다. MG2 패밀리 구성원에서 일반적으로 발견되는 모티프는 서열 번호 5631-5638로서 표시된다.
실시예 2C. - CRISPR 시스템의 MG3 패밀리의 발견
실시예 1의 메타게놈 분석으로부터의 데이터 분석은 이전에 설명되지 않은 추정되는 CRISPR 시스템의 새로운 클러스터를 보여주었다: MG3-1. 이들 새로운 효소 및 그의 예시적인 하위도메인에 대한 상응하는 아미노산 서열은 서열 번호 424, 2245, 및 4059로서 제시된다. 오페론 내의 다른 요소에 대한 근접성을 기반으로 하여, 추정 tracrRNA 함유 서열이 확인되었으며, 서열 번호 5498로서 표시된다. 악티노마이세스 나에슬룬디로부터의 Cas9에 대해 상기 서열을 상세한 도메인 수준으로 정렬하는 것은 도 8에 도시되어 있다.
추가의 독점권이 있는 단백질 데이터세트에 대한 MG3-1의 비교에 의해, 서열 번호 421-423, 425-431로서 제시되는 유사한 구조를 갖는 추가의 단백질 서열이 제시되었다.
실시예 2D. - CRISPR 시스템의 MG4, 7, 14, 15, 16, 18, 21, 22, 23 패밀리의 발견
실시예 1의 메타게놈 분석으로부터의 데이터에 대한 분석은 각각 하나의 구성원의 9개 패밀리(MG 4-5, MG7-2, MG14-1, MG15-1, MG16-2, MG18-1, MG21-1, MG22-1, MG23-1)를 포함하는 이전에 설명되지 않은 추정되는 CRISPR 시스템의 새로운 클러스터를 보여주었다. 이들 새로운 효소 및 그의 예시적인 하위도메인에 대한 상응하는 단백질 및 핵산 서열은 432, 669, 678, 930, 1093, 1354, 1512, 1656, 1756으로 제시된다. 오페론 내의 다른 요소에 대한 근접성을 기반으로 하여, 추정 tracrRNA 함유 서열이 각각의 패밀리에 대해 확인되었다. 이들 서열은 서열 목록에 각각 서열 번호 5503-5511로서 제시되어 있다.
추가의 독점권이 있는 단백질 데이터세트에 대한 MG4-5, MG7-2, MG14-1, MG15-1, MG16-2, MG18-1, MG21-1, MG22-1, MG23-1의 비교에 의해, 서열 번호 433-660, 670-677, 679-929, 931-1092, 1094-1353, 1355-1511, 1513-1655, 1657-1755, 및 1757-1826으로서 제시되는 유사한 구조를 갖는 추가의 단백질 서열이 제시되었다. 이러한 CRISPR 시스템 세트의 뉴클레아제에 공통적인 모티프는 MG4의 경우 서열 번호 5649로, MG14의 경우 서열 번호 5650-5667로; MG15의 경우 서열 번호 5668-5675로; MG16의 경우 서열 번호 5676-5678로; MG18의 경우 서열 번호 5679-5686으로; MG21의 경우 서열 번호 5687-5693 및 서열 번호 5674-5675로; MG22의 경우 서열 번호 5694-5699로; 및 MG23의 경우 서열 번호 5700-5717로 제시된다.
실시예 3.-예측 - 프로토스페이서 인접 모티브의 결정
최적의 합성 서열 표적화를 허용하기 위해 본원에서 설명되는 신규 효소에 대한 프로토스페이서 인접 모티프(PAM) 서열 특이성을 확인하기 위해, 그 전체가 본 명세서에 참고로 포함된 문헌 [Karvelis et al. Methods. 2017 May 15;121-122:3-8]의 임의의 예에서와 같이 실험을 수행한다.
한 예(생체내 스크리닝)에서, 본원에서 설명되는 임의의 효소 및 프로토스페이서 표적화 가이드 RNA를 코딩하는 플라스미드를 보유하는 세포는 항생제 내성 유전자를 함유하는 플라스미드 라이브러리, 및 무작위 선정 PAM 서열이 인접하는 프로토스페이서 서열로 동시 형질전환하였다. 기능적 PAM을 포함하는 플라스미드는 효소에 의해 절단되어 세포 사멸을 초래한다. 생존 세포로부터 단리된 효소 절단 저항성 플라스미드 풀의 심층 시퀀싱은 기능적 절단 허용 PAM을 포함하는 고갈된 플라스미드의 세트를 제시한다.
또 다른 예(시험관내 스크리닝)에서, DNA 플라스미드 또는 연쇄체 반복(concatemeric repeat) 형태의 PAM 라이브러리는 시험관 내에서 또는 세포 용해물 내에서 회합된 RNP 복합체(예를 들어, 효소, tracrRNA 및 crRNA 또는 효소 및 하이브리드 sgRNA 포함)에 의해 절단된다. 성공적인 절단 이벤트를 통해 생성된 유리 DNA 말단은 어댑터 라이게이션에 의해 포획된 후, PAM 측면의 생성물에 대한 PCR 증폭이 이어진다. 기능적 PAM의 증폭된 라이브러리는 심층 시퀀싱을 거치고, DNA 절단을 허용하는 PAM이 확인된다.
실시예 4.-예측 - 게놈 편집을 위한, 포유동물 세포에서 본원에서 설명되는 합성 CRISPR 시스템의 사용
(i) 세포 상용성 C-말단 핵 국소화 서열(예를 들어, 인간 세포의 경우 SV40 NLS) 및 상용성 폴리아데닐화 신호(예를 들어, 인간 세포의 경우 TK pA 신호)를 갖는 세포 적합성 프로모터 하에 코돈 최적화된 효소를 코딩하는 ORF; 및 (ii) 폴리머라제 III 프로모터(예를 들어, 포유동물 세포의 U6 프로모터) 하에 sgRNA를 코딩하는 ORF(G로 시작하는 5' 서열, 이어서 20 nt의 게놈 DNA를 표적화하는 상보성 표적화 핵산 서열, 이어서 실시예 3을 통해 확인된 상응하는 상용성 PAM 및 3' tracr-결합 서열, 링커 및 tracrRNA 서열 보유)를 코딩하는 DNA/RNA 서열이 제조된다. 일부 실시양태에서, 이들 서열은 적절한 기술을 통해 진핵 세포 내로 형질감염되는 동일한 또는 별개의 플라스미드 벡터 상에서 제조된다. 일부 실시양태에서, 이들 서열은 세포 내로 형질감염되거나 미세주입되는 별개의 DNA 서열로서 제조된다. 일부 실시양태에서, 이들 서열은 세포 내로 형질감염되거나 미세주입되는 합성된 RNA 또는 시험관 내에서 전사된 RNA로서 제조된다. 일부 실시양태에서, 이들 서열은 단백질로 번역되고, 세포 내로 형질감염되거나 미세주입된다.
어떤 형질감염 방법이 선택되든, (i) 및 (ii)는 세포 내로 도입된다. 효소 및/또는 sgRNA가 활성 형태로 전사 및/또는 번역될 수 있도록 인큐베이션 기간이 지나도록 허용된다. 인큐베이션 기간 후, 표적화 서열 부근의 게놈 DNA가 (예를 들어, 시퀀싱에 의해) 분석된다. 효소 매개 절단 및 비상동성 말단 연결의 결과로서 표적화 서열 부근에서 게놈 DNA 내에 삽입결실이 도입된다.
일부 실시양태에서, (i) 및 (ii)는 상동성 유도 복구를 촉진할, 크기 25 bp 이상의 절단 부위에 인접하는 게놈의 영역을 코딩하는 제3 복구 뉴클레오타이드와 함께 세포 내로 도입된다. 이러한 인접 서열 내에 포함하는 것은 단일 염기쌍 돌연변이, 기능적 유전자 단편, 발현을 위한 외래 또는 천연 유전자, 또는 생화학적 경로를 구성하는 여러 유전자일 수 있다.
실시예 5. -예측 - 시험관 내에서 본원에서 설명되는 바와 같은 합성 CRISPR 시스템의 사용
본원에서 설명되는 임의의 효소는 정제 태그를 함유하는 적합한 이. 콜라이 발현 플라스미드 내로 클로닝되고, 이. 콜라이에서 재조합적으로 발현되고, 재조합 태그를 사용하여 정제된다. 5' G 다음에 20 nt의 표적화 서열; 및 PAM 서열, 상용성 crRNA의 tracrRNA 결합 영역, GAAA 링커, 및 상용성 tracrRNA를 포함하는 RNA는 적합한 고체상 RNA 합성 방법에 의해 합성된다.
Mg2+를 함유하는 적합한 절단 완충액(예를 들어, 20 mM HEPES pH 7.5, 100 mM KCl, 5 mM MgCl2, 1 mM DTT, 5% 글리세롤)에서 재조합 효소 및 sgRNA를 조합하고, 표적화 서열; 및 PAM 서열에 상보성인 서열을 포함하는 표적 DNA를 도입함으로써 반응을 개시한다. DNA의 절단은 적합한 분석법(예를 들어, 아가로스 겔 전기영동, 이어서 에티듐 브로마이드 염색(또는 유사하게 작용하는 DNA 삽입제) 및 UV 가시화)에 의해 모니터링된다.
실시예 6.-(일반적인 프로토콜) 본원에서 설명되는 엔도뉴클레아제에 대한 PAM 서열 확인/입증
PAM 서열은 이. 콜라이 용해물 기반 발현 시스템(myTXTL, Arbor Biosciences)에서 발현되는 추정 엔도뉴클레아제에 의해 절단될 수 있는 무작위로 생성된 PAM 서열을 함유하는 플라스미드를 시퀀싱함으로써 결정되었다. 이 시스템에서, 이. 콜라이 코돈 최적화된 뉴클레오타이드 서열은 T7 프로모터의 제어 하에 PCR 단편으로부터 전사 및 번역되었다. T7 프로모터 하의 tracr 서열, 및 T7 프로모터에 이어 반복 서열-스페이서-반복 서열로 구성된 최소 CRISPR 어레이를 갖는 두 번째 PCR 단편이 동일한 반응에서 전사되었다. TXTL 시스템에서 엔도뉴클레아제 및 tracr 서열의 성공적인 발현, 이어서 CRISPR 어레이 처리는 활성을 갖는 시험관내 CRISPR 뉴클레아제 복합체를 제공하였다.
최소 어레이 내의 스페이서 서열과 일치하는 스페이서 서열, 이어서 8N 혼합 염기(추정 PAM 서열)을 함유하는 표적 플라스미드 라이브러리를 TXTL 반응의 생성물과 함께 인큐베이션하였다. 1-3시간 후, 반응을 중단하고, DNA 클린업 키트, 예를 들어 Zymo DCC, AMPure XP 비드, QiaQuick 등을 통해 DNA를 회수하였다. 어댑터 서열은 엔도뉴클레아제에 의해 절단된 활성 PAM 서열을 포함하는 DNA에 블런트 말단(blunt-end) 라이게이션된 반면, 절단되지 않은 DNA는 라이게이션을 위해 접근할 수 없었다. 그런 다음, 활성 PAM 서열을 포함하는 DNA 세그먼트를 라이브러리 및 어댑터 서열에 특이적인 프라이머를 사용하여 PCR에 의해 증폭시켰다. PCR 증폭 생성물은 절단 이벤트에 상응하는 앰플리콘을 확인하기 위해 겔 상에서 분리되었다. 절단 반응의 증폭된 세그먼트는 또한 NGS 라이브러리의 제조를 위한 주형으로 사용되었다. 시작 8N 라이브러리의 하위세트인 상기 생성 라이브러리의 시퀀싱을 통해, 활성 CRISPR 복합체에 대한 올바른 PAM을 포함하는 서열이 밝혀졌다. 단일 RNA 구축물을 사용한 PAM 시험의 경우, 시험관 내에서 전사된 RNA가 플라스미드 라이브러리와 함께 추가되고 tracr/최소 CRISPR 어레이 주형이 생략되었다는 점을 제외하고는 동일한 절차를 반복하였다. NGS 라이브러리가 제조된 엔도뉴클레아제에 대해, seqLogo(예를 들어, 문헌 [Huber et al. Nat Methods. 2015 Feb;12(2):115-21] 참조) 표현을 구축하였고, 이것은 도 27, 38, 29, 30, 31, 32, 33, 34 및 35에 제시된다. 이러한 표현을 구축하기 위해 사용되는 seqLogo 모듈은 DNA 서열 모티브(예를 들어, PAM 서열)의 위치 가중치 매트릭스를 취하고, 쉬나이더(Schneider) 및 스티븐스(Stephens)에 의해 도입된 상응하는 서열 로고를 플로팅한다(예를 들어, 문헌 [Schneider et al. Nucleic Acids Res. 1990 Oct 25;18(20):6097-100] 참조). seqLogo 표현에서 서열을 나타내는 문자는 정렬된 서열(예를 들어, PAM 서열)의 각각의 위치에 대해 서로의 상단에 적층되었다. 각각의 문자의 높이는 그의 빈도에 비례하고, 문자는 가장 흔한 문자가 맨 위에 오도록 정렬되었다.
실시예 7.-(일반적인 프로토콜) tracrRNA 및 sgRNA 구조의 RNA 폴딩
37℃에서 가이드 RNA 서열의 폴딩된 구조는 그 전체가 본 명세서에 참고로 포함된 문헌 [Andronescu et al. Bioinformatics. 2007 Jul 1;23(13):i19-28]의 방법을 사용하여 계산되었다. 본원에서 설명되는 예시적인 sgRNA의 예측된 구조는 도 21, 22, 23, 24, 25 및 26에 제시되어 있다.
실시예 8.-(일반적인 프로토콜) MG CRISPR 복합체의 시험관내 절단 효율
엔도뉴클레아제는 프로테아제 결핍 이. 콜라이 B 균주에서 유도성 T7 프로모터로부터 His 태그 부착된 융합 단백질로서 발현되었다. His 태그 부착된 단백질을 발현하는 세포는 초음파 처리에 의해 용해되었고, His 태그 부착된 단백질은 AKTA Avant FPLC(GE Lifescience)에서 HisTrap FF 컬럼(GE Lifescience) 상의 Ni-NTA 친화도 크로마토그래피에 의해 정제되었다. 용리액은 아크릴아미드 겔(Bio-Rad)에서 SDS-PAGE에 의해 분리하고, 인스턴트블루 울트라패스트 쿠마시(InstantBlue Ultrafast coomassie)(Sigma-Aldrich)로 염색하였다. 순도는 이미지랩(ImageLab) 소프트웨어(Bio-Rad)로 단백질 밴드의 농도계를 사용하여 결정되었다. 정제된 엔도뉴클레아제는 50 mM Tris-HCl, 300 mM NaCl, 1 mM TCEP, 5% 글리세롤; pH 7.5로 이루어진 보관 완충액 내로 투석하고, -80℃에서 보관하였다.
스페이서 서열; 및 PAM 서열(예를 들어, 실시예 6에서와 같이 결정됨)을 함유하는 표적 DNA를 DNA 합성에 의해 구축하였다. PAM에 축퇴성 염기가 있을 때 시험을 위해 대표적인 PAM이 선택되었다. 표적 DNA는 한쪽 말단으로부터 700 bp에 위치한 PAM 및 스페이서를 사용한 PCR 증폭을 통해 플라스미드로부터 유래된 2200 bp의 선형 DNA로 구성되었다. 성공적인 절단은 700 및 1500 bp의 단편을 생성하였다. 표적 DNA, 시험관 내에서 전사된 단일 RNA 및 정제된 재조합 단백질을 과량의 단백질 및 RNA와 함께 절단 완충액(10 mM Tris, 100 mM NaCl, 10 mM MgCl2)에서 합하고, 5분에서 3시간 동안, 일반적으로 1시간 동안 인큐베이션하였다. RNAse A를 첨가하고 60분 동안 인큐베이션하여 반응을 중단시켰다. 그런 다음, 반응물을 1.2% TAE 아가로스 겔 상에서 분리하고, 절단된 표적 DNA의 분획을 이미지랩 소프트웨어에서 정량하였다.
실시예 9.-(일반적인 프로토콜) 이. 콜라이에서 MG CRISPR 복합체의 게놈 절단 활성에 대한 시험
이. 콜라이는 이중 가닥 DNA 파손을 효율적으로 복구하는 능력이 결여된다. 따라서, 게놈 DNA의 절단은 치명적인 사건이 될 수 있다. 이 현상을 이용하여, 스페이서/표적 및 PAM 서열이 그의 게놈 DNA에 통합된 표적 균주에서 엔도뉴클레아제 및 tracrRNA를 재조합적으로 발현함으로써 이. 콜라이에서 엔도뉴클레아제 활성을 시험하였다.
이 검정에서, PAM 서열은 실시예 6에 기재된 방법에 의해 결정된 바와 같이 시험되는 엔도뉴클레아제에 대해 특이적이다. sgRNA 서열은 tracrRNA의 예측된 구조 및 서열에 기초하여 결정하였다. 반복체의 5' 말단으로부터 시작하여 8-12 bp(일반적으로 10 bp)의 반복체-항-반복체 쌍을 선택하였다. 반복체의 나머지 3' 말단 및 tracrRNA의 5' 말단을 테트라루프(tetraloop)로 교체하였다. 일반적으로, 테트라루프는 GAAA이었지만, 특히 GAAA 서열이 폴딩을 방해할 것으로 예측되는 경우에는 다른 테트라루프를 사용할 수도 있다. 그러한 경우에는, TTCG 테트라루프가 사용되었다.
그의 게놈 DNA에 통합된 PAM 서열을 갖는 조작된 균주를 엔도뉴클레아제를 코딩하는 DNA로 형질전환시켰다. 이어서, 형질전환체를 화학수용성(chemocompetent) 상태로 만들고, 표적 서열에 특이적인("on target") 또는 표적에 비특이적인("non target") 50 ng의 단일 가이드 RNA로 형질전환시켰다. 열 충격 후, 37℃에서 2시간 동안 SOC에서 형질전환이 회복되었다. 이어엇, 뉴클레아제 효율은 유도 배지에서 성장한 5배 희석 시리즈에 의해 결정되었다. 콜로니는 희석 시리즈로부터 삼중으로 정량하였다.
실시예 10.-(일반적인 프로토콜) 포유동물 세포에서 MG CRISPR 복합체의 게놈 절단 활성에 대한 시험
포유동물 세포에서 표적화 및 절단 활성을 나타내기 위해, MG Cas 이펙터 단백질 서열을 다음과 같은 2개의 포유동물 발현 벡터에서 시험하였다: (a) C-말단 SV40 NLS 및 2A-GFP 태그를 갖는 벡터, 및 (b) GFP 태그가 없고 2개의 SV40 NLS 서열(N-말단 상의 하나 및 C-말단 상의 하나)이 있는 벡터. 일부 경우에, 엔도뉴클레아제를 코딩하는 뉴클레오타이드 서열은 포유동물 세포에서의 발현을 위해 코돈 최적화되었다.
표적화 서열이 부착된 상응하는 단일 가이드 RNA 서열(sgRNA)은 제2 포유동물 발현 벡터에 클로닝되었다. 두 플라스미드는 HEK293T 세포로 동시 형질감염되었다. 발현 플라스미드 및 sgRNA 표적화 플라스미드를 HEK293T 세포에 동시 형질감염시킨 지 72시간 후에, DNA를 추출하고, NGS-라이브러리의 제조에 사용하였다. 퍼센트 NHEJ는 포유동물 세포에서 효소의 표적화 효율을 입증하기 위해 표적 부위의 시퀀싱에서의 삽입결실을 통해 측정되었다. 각각의 단백질의 활성을 시험하기 위해 적어도 10개의 상이한 표적 부위를 선택하였다.
실시예 11. - MG1 패밀리 구성원의 특성화
PAM 특이성, tracrRNA/sgRNA 검증
MG1 패밀리 엔도뉴클레아제 시스템의 표적화된 엔도뉴클레아제 활성은 실시예 6에서 설명된 myTXTL 시스템을 사용하여 확인되었다. 이 분석에서, 절단된 표적 플라스미드의 PCR 증폭은 도 17-20에 도시된 바와 같이 겔에서 대략 170 bp 이동하는 생성물을 생성하였다. MG1-4(이중 가이드: 겔 1, 레인 3 참조, 단일 가이드: 겔 6 레인 2 참조), MG1-5(겔 2 레인 10), MG1-6(이중 가이드: 겔 5 레인 6 참조, 단일 가이드: 겔 6 레인 5 참조), 및 MG1-7(이중 가이드: 겔 3 레인 13 참조, 단일 가이드: 겔 3 레인 2 참조)(각각 단백질 서열 번호 1-4)에 대한 증폭 생성물이 관찰되었다. PCR 생성물에 대한 시퀀싱을 통해, 표 2에 나와 있는 바와 같이 이들 효소에 대한 활성 PAM 서열이 밝혀졌다.
합성 단일 가이드 RNA(sgRNA)는 tracrRNA의 서열; 및 예측된 구조를 기반으로 설계되었으며, 서열 번호 5461-5464로서 제시된다. 실시예 6의 PAM 서열 스크리닝을 sgRNA를 사용하여 반복하였다. 이 실험의 결과는 또한 표 2에도 제시되어 있으며, 이는 sgRNA를 사용할 때 PAM 특이성이 약간 변경되었음을 나타낸다.
시험관 내에서 표적화된 엔도뉴클레아제 활성
PAM 서열 CAGGAAGG를 갖는 표적 DNA에 대한 MG1-4 엔도뉴클레아제 시스템(sgRNA 서열 번호 5461을 갖는 단백질 서열 번호 1)의 시험관내 활성을 실시예 8의 방법을 사용하여 확인하였다. 서열의 N을 대체하는 18-24 nt의 다양한 스페이서/표적화 서열 길이를 사용하면서, 위에서 보고된 단일 가이드 서열(서열 번호 5461)이 사용되었다. 결과는 도 10에 제시되고, 여기서 상단 패널은 상이한 표적화 서열 길이(18-24 nt)를 갖는 상응하는 단일 가이드 sgRNA와 조합하여 MG1-4에 의한 DNA 절단을 나타내는 겔을 보여주고, 하단 패널은 막대 그래프로서 정량된 동일한 데이터를 보여준다. 데이터는 18-24개 뉴클레오타이드의 표적화 서열이 MG1-4/sgRNA 시스템에서 기능적임을 입증하였다.
박테리아 세포에서 표적화된 엔도뉴클레아제 활성
MG1-4 엔도뉴클레아제 시스템(단백질 서열 번호 1, sgRNA 서열 번호 5461)의 생체내 활성을 실시예 9에서와 같이 PAM 서열 CAGGAAGG로 시험하였다. 형질전환된 이. 콜라이를 연속 희석액으로 플레이팅하였고, 그 결과(상단 패널은 이. 콜라이 연속 희석을, 하단 패널은 정량된 성장을 나타냄)가 도 11에 제시되어 있다. 비표적 sgRNA를 발현하는 이. 콜라이에 비해 표적 sgRNA를 발현하는 이. 콜라이의 실질적인 성장 감소는 게놈 DNA가 이. 콜라이 세포에서 엔도뉴클레아제에 의해 특이적으로 절단되었음을 나타낸다.
포유동물 세포에서 표적화된 엔도뉴클레아제 활성
실시예 10의 방법을 사용하여 포유동물 세포에서 표적화 및 절단 활성을 입증하였다. MG1-4(단백질 서열 번호 5527) 및 MG1-6(단백질 서열 번호 5529) 서열을 코딩하는 개방 해독 프레임은 2개의 포유동물 발현 벡터에 클로닝되었고, 상기 벡터 중의 하나에는 C-말단 SV40 NLS 및 2A-GFP 태그가 있고(이. 콜라이 MG-BB), 다른 하나에는 GFP 태그가 없고 2개의 NLS 서열(N-말단에 하나, C-말단에 하나)이 존재한다(이. 콜라이 pMG5-BB). MG1-6의 경우, 개방 해독 프레임은 추가로 포유동물 발현에 대해 코돈 최적화되었고(서열 번호 5589), 2-NLS 플라스미드 백본에 클로닝되었다(MG-16hs). 이 실험의 결과는 도 12에 제시되어 있다. 엔도뉴클레아제 발현 벡터는 표 3-4로부터 선택된 엔도뉴클레아제에 특이적인 tracr 서열; 및 가이드 서열과 함께 sgRNA(예를 들어, 서열 번호 5512 또는 5515)를 발현하는 제2 벡터와 함께 HEK293T 세포 내로 동시 형질감염되었다. 동시 형질감염시킨 지 72시간 후에, DNA를 추출하고, NGS-라이브러리의 제조에 사용하였다. 절단 활성은 표적 부위의 서열에 근접한 내부 결실(NHEJ 잔존물)의 출현에 의해 검출되었다. 퍼센트 NHEJ는 포유동물 세포에서 효소의 표적화 효율을 입증하기 위해 표적 부위의 시퀀싱에서의 삽입결실을 통해 측정되었고, 도 12에 제시되어 있다.
실시예 12. - MG2 패밀리 구성원의 특성화
PAM 특이성, tracrRNA/sgRNA 검증
MG2 패밀리 구성원의 표적화된 엔도뉴클레아제 활성은 실시예 6에 기재된 바와 같이 myTXTL 시스템에서 확인되었다. 이 분석의 결과는 도 17-20에 제시되어 있다. 도 17-20에 표시된 분석에서, 라이브러리를 성공적으로 절단하는 활성 단백질은 겔에서 약 170 bp의 밴드를 생성한다. 증폭 생성물은 MG2-1(겔 2 레인 11 및 겔 4 레인 6 참조) 및 MG2-7(겔 11 레인 10 참조)(각각 서열 번호 320 및 321)에 대해 관찰되었다. PCR 생성물에 대한 시퀀싱을 통해, 하기 표 5의 활성 PAM 서열이 밝혀졌다.
박테리아 세포에서 표적화된 엔도뉴클레아제 활성
sgRNA를 포함하는 MG2-7 엔도뉴클레아제 시스템(엔도뉴클레아제 서열 번호 321; sgRNA 서열 번호 5465) 및 AGCGTAAG PAM 서열의 생체내 활성을 실시예 9에 기재된 방법을 사용하여 확인하였다. 형질전환된 이. 콜라이를 연속 희석액으로 플레이팅하였고, 그 결과(상단 패널은 이. 콜라이 연속 희석액을, 하단 패널은 정량된 성장을 나타냄)가 도 34에 제시되어 있다. 비표적 sgRNA를 발현하는 이. 콜라이에 비해 표적 sgRNA를 발현하는 이. 콜라이의 실질적인 성장 감소는 게놈 DNA가 이. 콜라이 세포에서 MG1-4 엔도뉴클레아제에 의해 특이적으로 절단되었음을 나타낸다.
실시예 13. - MG3 패밀리 구성원의 특성화
PAM 특이성, tracrRNA/sgRNA 검증
MG3 패밀리 구성원의 표적화된 엔도뉴클레아제 활성은 tracr 서열; 및 CRISPR 어레이를 사용하여 실시예 6에 기재된 바와 같이 myTXTL 시스템에서 확인되었다. 상기 분석에서, 절단된 표적 플라스미드의 PCR 증폭은 도 17-20에 표시된 바와 같이 겔에서 약 170 bp 이동하는 생성물을 생성하였다. 증폭 생성물은 MG3-6(이중 가이드: 겔 2 레인 8 참조, 단일 가이드: 겔 3 레인 3 참조), MG3-7(이중 가이드: 겔 2 레인 3 참조, 단일 가이드: 겔 3 레인 4 참조) 및 MG3-8(이중 가이드: 겔 9 레인 5 참조)(각각 서열 번호 421, 422 및 423)에 대해 관찰되었다. PCR 생성물에 대한 시퀀싱을 통해, 하기 표 6의 활성 PAM 서열이 밝혀졌다.
합성 단일 가이드 RNA(sgRNA)는 tracrRNA의 서열; 및 예측된 구조를 기반으로 설계되었으며, 서열 번호 5466-5467로서 제시된다. 실시예 6의 PAM 서열 스크리닝을 sgRNA를 사용하여 반복하였다. 이 실험의 결과는 또한 표 6에도 제시되어 있으며, 이는 sgRNA를 사용할 때 PAM 특이성이 약간 변경되었음을 나타낸다.
시험관 내에서 표적화된 엔도뉴클레아제 활성
MG3-6(엔도뉴클레아제 서열 번호 421)의 시험관내 활성을 실시예 8의 방법을 사용하여 PAM 서열 GTGGGTTA로 확인하였다. 서열의 N을 대체하는 18-24 nt의 다양한 스페이서/표적화 서열 길이를 사용하면서, 위에서 보고된 단일 가이드 서열(서열 번호 5466)이 사용되었다. 결과는 도 13에 제시되고, 여기서 상단 패널은 상이한 표적화 서열 길이(18-24 nt)를 갖는 상이한 sgRNA와 조합하여 MG3-6에 의한 DNA 절단을 나타내는 겔을 보여주고, 하단 패널은 막대 그래프로서 정량된 동일한 데이터를 보여준다. 데이터는 18-24개 뉴클레오타이드의 표적화 서열이 MG3-6/sgRNA 시스템에서 기능적임을 입증하였다.
박테리아 세포에서 표적화된 엔도뉴클레아제 활성
MG3-7 엔도뉴클레아제 시스템(단백질 서열 번호 422, sgRNA 서열 번호 5467)의 생체내 활성을 실시예 9의 방법을 사용하여 PAM 서열 TGGACCTG로 시험하였다. 형질전환된 이. 콜라이를 연속 희석액으로 플레이팅하였고, 그 결과(상단 패널은 이. 콜라이 연속 희석액을, 하단 패널은 정량된 성장을 나타냄)가 도 14에 제시되어 있다. 비표적 sgRNA를 발현하는 이. 콜라이에 비해 표적 sgRNA를 발현하는 이. 콜라이의 실질적인 성장 감소는 게놈 DNA가 MG3-7 엔도뉴클레아제 시스템에 의해 특이적으로 절단되고 있음을 나타낸다.
포유동물 세포에서 표적화된 엔도뉴클레아제 활성
실시예 10의 방법을 사용하여 포유동물 세포에서 표적화 및 절단 활성을 입증하였다. MG3-7(단백질 서열 번호 422)을 코딩하는 개방 해독 프레임은 2개의 포유동물 발현 벡터에 클로닝되었고, 상기 벡터 중의 하나에는 C-말단 SV40 NLS 및 2A-GFP 태그가 있고(이. 콜라이 MG-BB), 다른 하나에는 GFP 태그가 없고 2개의 NLS 서열(N-말단에 하나, C-말단에 하나)이 존재한다(이. 콜라이 pMG5-BB). 엔도뉴클레아제 발현 벡터는 표 7로부터 선택된 가이드 서열과 함께 상기 sgRNA를 발현하는 제2 벡터와 함께 HEK293T 세포 내로 동시 형질감염되었다. 이 실험의 결과는 도 12에 제시되어 있다. 동시 형질감염시킨 지 72시간 후에, DNA를 추출하고, NGS-라이브러리의 제조에 사용하였다. 절단 활성은 표적 부위에 근접한 내부 결실(NHEJ 잔존물)의 출현에 의해 검출되었다. 그 결과는 도 15에 제시되어 있다.
sgRNA 플라스미드 상에 코딩된 표적 부위는 하기 표 7에 제시되어 있다.
실시예 13. - MG4 패밀리 구성원의 특성화
PAM 특이성, tracrRNA/sgRNA 검증
MG4 패밀리 엔도뉴클레아제 시스템의 표적화된 엔도뉴클레아제 활성은 실시예 6에 기재된 바와 같이 myTXTL 시스템을 사용하여 확인되었다. 상기 분석에서, 절단된 표적 플라스미드의 PCR 증폭은 도 17-20에 표시된 바와 같이 겔에서 약 170 bp 이동하는 생성물을 생성하였다. 증폭 생성물은 MG4-2(이중 가이드: 겔 2 레인 9 참조, 단일 가이드: 겔 10 레인 7 참조)(서열 번호 432)에 대해 관찰되었다. PCR 생성물에 대한 시퀀싱을 통해, 하기 표 8의 활성 PAM 서열이 밝혀졌다.
실시예 14. - MG14 패밀리 구성원의 특성화
PAM 특이성, tracrRNA/sgRNA 검증
MG14 패밀리 구성원의 표적화된 엔도뉴클레아제 활성은 실시예 6에 기재된 바와 같이 myTXTL 시스템을 사용하여 확인되었다. 상기 분석에서, 절단된 표적 플라스미드의 PCR 증폭은 도 17-20에 표시된 바와 같이 겔에서 약 170 bp 이동하는 생성물을 생성하였다. 증폭 생성물은 MG14-1(이중 가이드: 겔 1 레인 4 참조, 단일 가이드: 겔 3 레인 8 참조)(서열 번호 678)에 대해 관찰되었다. PCR 생성물에 대한 시퀀싱을 통해, 하기 표 9의 활성 PAM 서열이 밝혀졌다.
박테리아 세포에서 표적화된 엔도뉴클레아제 활성
sgRNA(엔도뉴클레아제 서열 번호 678; sgRNA 서열 번호 5469) 및 GGCGGGGA PAM 서열을 사용한 MG14-1 엔도뉴클레아제 시스템의 생체내 활성을 실시예 9의 방법을 사용하여 확인하였다. 형질전환된 이. 콜라이를 연속 희석액으로 플레이팅하였고, 그 결과(상단 패널은 이. 콜라이 연속 희석액을, 하단 패널은 정량된 성장을 나타냄)가 도 35에 제시되어 있다. 비표적 sgRNA를 발현하는 이. 콜라이에 비해 표적 sgRNA를 발현하는 이. 콜라이의 실질적인 성장 감소는 게놈 DNA가 이. 콜라이 세포에서 MG1-4 엔도뉴클레아제에 의해 특이적으로 절단됨을 나타낸다.
실시예 15. - MG15 패밀리 구성원의 특성화
PAM 특이성, tracrRNA/sgRNA 검증
MG15 패밀리 구성원의 표적화된 엔도뉴클레아제 활성은 실시예 6에 기재된 바와 같이 myTXTL 시스템을 사용하여 확인되었다. 상기 분석에서, 절단된 표적 플라스미드의 PCR 증폭은 도 17-20에 표시된 바와 같이 겔에서 약 170 bp 이동하는 생성물을 생성하였다. 증폭 생성물은 MG15-1(이중 가이드: 겔 7 레인 7 참조, 단일 가이드: 겔 3 레인 9 참조)(서열 번호 930)에 대해 관찰되었다. PCR 생성물에 대한 시퀀싱을 통해, 하기 표 10의 활성 PAM 서열이 밝혀졌다.
시험관내 활성
MG15-1 엔도뉴클레아제 시스템(단백질 서열 번호 930; sgRNA 서열 번호 5470)의 시험관내 활성을 실시예 8의 방법을 사용하여 PAM 서열 GGGTCAAA로 시험하였다. 18-24 nt(서열의 N을 대체하는)의 다양한 스페이서/표적화 서열 길이를 사용하면서, 위에서 보고된 단일 가이드 서열(서열 번호 5470)이 사용되었다. 결과는 도 16에 제시되고, 여기서 상단 패널은 상이한 표적화 서열 길이(18-24 nt)를 갖는 상이한 sgRNA와 조합하여 MG15-1에 의한 DNA 절단을 나타내는 겔을 보여주고, 하단 패널은 막대 그래프로서 정량된 동일한 데이터를 보여준다. 데이터는 18-24개 뉴클레오타이드의 표적화 서열이 MG15-1/sgRNA 시스템에서 기능적임을 입증하였다.
박테리아 세포에서 표적화된 엔도뉴클레아제 활성
sgRNA(엔도뉴클레아제 서열 번호 930; sgRNA 서열 번호 5470) 및 GGGTCAAA PAM 서열을 사용한 MG15-1 엔도뉴클레아제 시스템의 생체내 활성을 실시예 9의 방법을 사용하여 확인하였다. 형질전환된 이. 콜라이를 연속 희석액으로 플레이팅하였고, 그 결과(상단 패널은 이. 콜라이 연속 희석액을, 하단 패널은 정량된 성장을 나타냄)가 도 35에 제시되어 있다. 비표적 sgRNA를 발현하는 이. 콜라이에 비해 표적 sgRNA를 발현하는 이. 콜라이의 실질적인 성장 감소는 게놈 DNA가 이. 콜라이 세포에서 MG1-4 엔도뉴클레아제에 의해 특이적으로 절단됨을 나타낸다.
실시예 16. - MG16 패밀리 구성원의 특성화
PAM 특이성, tracrRNA/sgRNA 검증
MG16 패밀리 구성원의 표적화된 엔도뉴클레아제 활성은 실시예 6에 기재된 바와 같이 myTXTL 시스템을 사용하여 확인되었다. 상기 분석에서, 절단된 표적 플라스미드의 PCR 증폭은 도 17-20에 표시된 바와 같이 겔에서 약 170 bp 이동하는 생성물을 생성하였다. 증폭 생성물은 MG16-2(겔 11, 레인 17 참조)(서열 번호 1093)에 대해 관찰되었다. PCR 생성물에 대한 시퀀싱을 통해, 하기 표 11에 상세히 제시된 활성 PAM 서열이 밝혀졌다.
실시예 17. - MG18 패밀리 구성원의 특성화
PAM 특이성, tracrRNA/sgRNA 검증
MG18 패밀리 구성원의 표적화된 엔도뉴클레아제 활성은 실시예 6에 기재된 바와 같이 myTXTL 시스템을 사용하여 확인되었다. 상기 분석에서, 절단된 표적 플라스미드의 PCR 증폭은 도 17-20에 표시된 바와 같이 겔에서 약 170 bp 이동하는 생성물을 생성하였다. 증폭 생성물은 MG18-1(이중 가이드: 겔 9 레인 9 참조, 단일 가이드: 겔 11 레인 12 참조)(서열 번호 1354)에 대해 관찰되었다. PCR 생성물에 대한 시퀀싱을 통해, 하기 표 12에 상세히 제시된 활성 PAM 서열이 밝혀졌다.
실시예 18. - MG21 패밀리 구성원의 특성화
PAM 특이성, tracrRNA/sgRNA 검증
MG21 패밀리 구성원의 표적화된 엔도뉴클레아제 활성은 실시예 6에 기재된 바와 같이 myTXTL 시스템을 사용하여 확인되었다. 상기 분석에서, 절단된 표적 플라스미드의 PCR 증폭은 도 17-20에 표시된 바와 같이 겔에서 약 170 bp 이동하는 생성물을 생성하였다. 증폭 생성물은 MG21-1(겔 11 레인 2 참조)(서열 번호 1512)에 대해 관찰되었다. PCR 생성물에 대한 시퀀싱을 통해, 하기 표 13에 상세히 제시된 활성 PAM 서열이 밝혀졌다.
실시예 19. - MG22 패밀리 구성원의 특성화
PAM 특이성, tracrRNA/sgRNA 검증
MG22 패밀리 구성원의 표적화된 엔도뉴클레아제 활성은 실시예 6에 기재된 바와 같이 myTXTL 시스템을 사용하여 확인되었다. 상기 분석에서, 절단된 표적 플라스미드의 PCR 증폭은 도 17-20에 표시된 바와 같이 겔에서 약 170 bp 이동하는 생성물을 생성하였다. 도 17-20에 표시된 분석에서, 라이브러리를 성공적으로 절단하는 활성 단백질은 겔에서 약 170 bp의 밴드를 생성한다. 증폭 생성물은 MG22-1(겔 11 레인 3 참조)(단백질 서열 번호 1656)에 대해 관찰되었다. PCR 생성물에 대한 시퀀싱을 통해, 하기 표 14에 상세히 제시된 활성 PAM 서열이 밝혀졌다.
실시예 20. - MG23 패밀리 구성원의 특성화
PAM 특이성, tracrRNA/sgRNA 검증
MG23 패밀리 구성원의 표적화된 엔도뉴클레아제 활성은 실시예 6에 기재된 바와 같이 myTXTL 시스템을 사용하여 확인되었다. 상기 분석에서, 절단된 표적 플라스미드의 PCR 증폭은 도 17-20에 표시된 바와 같이 겔에서 약 170 bp 이동하는 생성물을 생성하였다. 증폭 생성물은 MG23-1(겔 11 레인 4 참조)(서열 번호 1756)에 대해 관찰되었다. PCR 생성물에 대한 시퀀싱을 통해, 하기 표 15에 상세히 제시된 이들 효소에 대한 활성 PAM 서열 특이성이 밝혀졌다.
본 개시내용의 시스템은 예를 들어 핵산 편집(예를 들어, 유전자 편집), 핵산 분자에 대한 결합(예를 들어, 서열 특이적 결합)과 같은 다양한 적용을 위해 사용될 수 있다. 이러한 시스템은 예를 들어 대상체에서 질병을 유발할 수 있는 유전적으로 유전된 돌연변이를 처리(예를 들어, 제거 또는 대체)하고, 세포에서 그의 기능을 확인하기 위해 유전자를 불활성화하기 위해, 질병 유발 유전 요소를 검출하기 위한 진단 도구로서(예를 들어, 역전사된 바이러스 RNA 또는 질병 유발 돌연변이를 코딩하는 증폭된 DNA 서열의 절단을 통해), 특정 뉴클레오타이드 서열(예를 들어, 박테리아에서 항생제 내성을 코딩하는 서열)을 표적화하고 검출하기 위한 프로브와 조합된 불활성화된 효소로서, 바이러스를 불활성화하거나 바이러스 게놈을 표적으로 하여 숙주 세포를 감염시킬 수 없도록 하기 위해, 가치있는 소분자, 거대분자 또는 2차 대사산물을 생성하기 위해 유기체를 조작하기 위해 유전자를 추가하거나 대사 경로를 수정하기 위해, 진화적 선택을 위한 유전자 구동 요소를 확립하기 위해, 바이오센서로서 외래 소분자 및 뉴클레오티드에 의한 세포 변화를 검출하기 위해 사용될 수 있다.
본 발명의 바람직한 실시양태가 본원에서 제시되고 설명되었지만, 그러한 실시양태는 단지 예로서 제공된다는 것이 관련 기술 분야의 통상의 기술자에게 명백할 것이다. 본 발명은 본 명세서 내에 제공되는 특정 예에 의해 제한되는 것으로 의도되지 않는다. 본 발명은 상기 언급된 명세서를 참조하여 설명되었지만, 본 명세서에서 설명 및 실시양태의 예시는 제한적인 의미로 고려되는 것을 의미하지 않는다. 수많은 변형, 변경 및 대체가 이제 본 발명을 벗어나지 않으면서 관련 기술 분야의 통상의 기술자에 의해 가능할 것이다. 또한, 본 발명의 모든 측면은 다양한 조건 및 변수에 따라 결정되는, 본 명세서에서 설명되는 특정 묘사, 구성 또는 상대적인 비율로 제한되지 않는다는 것을 이해하여야 한다. 본 명세서에서 설명되는 본 발명의 실시양태에 대한 다양한 대안이 본 발명을 실시하는데 이용될 수 있음을 이해하여야 한다. 따라서, 본 발명은 그러한 대안, 수정, 변형 또는 균등물도 포함하는 것으로 고려된다. 하기 청구범위는 본 발명의 범위를 규정하고 이들 청구범위 및 그의 균등물의 범위 내의 방법 및 구조는 청구범위에 의해 포함되는 것으로 의도된다.

Claims (170)

  1. 조작된 뉴클레아제 조성물로서,
    (a) 서열 번호 421에 대해 적어도 95%의 서열 동일성을 갖는 서열을 포함하는 RuvC_III 도메인을 포함하는 엔도뉴클레아제; 및
    (b) 상기 엔도뉴클레아제와 복합체를 형성하도록 구성된 조작된 가이드 리보핵산으로서,
    (i) 표적 데옥시리보핵산 서열에 혼성화하도록 구성된 가이드 리보핵산 서열; 및
    (ii) 상기 엔도뉴클레아제에 결합하도록 구성된 tracr 리보핵산 서열
    을 포함하는 조작된 가이드 리보핵산
    을 포함하는 조작된 뉴클레아제 조성물.
  2. 제1항에 있어서, 상기 엔도뉴클레아제가 HNH 도메인을 추가로 포함하는 것인 조작된 뉴클레아제 조성물.
  3. 제1항에 있어서, 상기 tracr 리보핵산 서열이 서열 번호 5495에 대해 적어도 90%의 서열 동일성을 갖는 서열을 포함하는 것인 조작된 뉴클레아제 조성물.
  4. 제1항에 있어서, 상기 엔도뉴클레아제는 서열 번호 5517의 프로토스페이서 인접 모티프(PAM) 서열에 결합하도록 구성되는 것인 조작된 뉴클레아제 조성물.
  5. 제1항에 있어서, 상기 조작된 가이드 리보핵산이 적어도 2개의 리보핵산 폴리뉴클레오타이드를 포함하는 것인 조작된 뉴클레아제 조성물.
  6. 제1항에 있어서, 상기 조작된 가이드 리보핵산이 상기 가이드 리보핵산 서열 및 상기 tracr 리보핵산 서열을 포함하는 하나의 리보핵산 폴리뉴클레오타이드를 포함하는 것인 조작된 뉴클레아제 조성물.
  7. 제1항에 있어서, 상기 가이드 리보핵산 서열이 원핵생물, 박테리아, 고세균, 진핵생물, 진균, 식물, 포유동물 또는 인간 게놈 서열에 상보성인 조작된 뉴클레아제 조성물.
  8. 제1항에 있어서, 상기 엔도뉴클레아제가 상기 엔도뉴클레아제의 N- 또는 C-말단에 근접한 하나 이상의 핵 국소화 서열(NLS)을 포함하는 것인 조작된 뉴클레아제 조성물.
  9. 제8항에 있어서, 상기 하나 이상의 NLS가 서열 번호 5597의 서열을 포함하는 것인 조작된 뉴클레아제 조성물.
  10. 제1항에 있어서, 5'에서 3'으로 상기 표적 데옥시리보핵산 서열의 5'에 적어도 20개의 뉴클레오타이드의 서열을 포함하는 제1 상동성 아암, 적어도 10개의 뉴클레오타이드의 합성 데옥시리보핵산 서열, 및 상기 표적 데옥시리보핵산 서열의 3'에 적어도 20개의 뉴클레오타이드의 서열을 포함하는 제2 상동성 아암을 포함하는 단일 가닥 또는 이중 가닥 데옥시리보핵산 복구 주형을 추가로 포함하는 것인 조작된 뉴클레아제 조성물.
  11. 제1항에 있어서, 상기 조작된 뉴클레아제 시스템이 Mg2+의 공급원을 추가로 포함하는 것인 조작된 뉴클레아제 조성물.
  12. 제1항에 있어서, 상기 엔도뉴클레아제 및 상기 tracr 리보핵산 서열이 동일한 문(phylum) 내의 별개의 박테리아 종으로부터 유래되는 것인 조작된 뉴클레아제 조성물.
  13. 제1항에 있어서, 상기 조작된 가이드 리보핵산이 줄기 및 루프로 이루어지는 헤어핀, 및 루프의 4개 염기쌍 내의 비대칭 돌출부를 포함하고, 여기서 줄기는 적어도 10개의 염기쌍을 이룬 리보뉴클레오타이드를 포함하는 것인 조작된 뉴클레아제 조성물.
  14. 제1항에 있어서, 상기 조작된 가이드 리보핵산의 상기 tracr 리보핵산 서열은 적어도 8개의 염기쌍을 이룬 리보뉴클레오타이드를 포함하는 헤어핀을 포함하는 것인 조작된 뉴클레아제 조성물.
  15. 제1항에 있어서, 상기 조작된 가이드 리보핵산은 상기 가이드 리보핵산 서열의 적어도 8개의 뉴클레오타이드 및 상기 tracr 리보핵산 서열의 적어도 8개의 뉴클레오타이드를 포함하는 중단되지 않은 염기쌍을 이룬 영역을 갖는 헤어핀을 포함하고, 여기서 상기 tracr 리보핵산 서열은 5'에서 3'으로 제1 헤어핀 및 제2 헤어핀을 포함하고, 상기 제1 헤어핀은 상기 제2 헤어핀보다 더 긴 줄기를 갖는 것인 조작된 뉴클레아제 조성물.
  16. 제1항에 있어서, 상기 엔도뉴클레아제는 서열 번호 421을 포함하는 조작된 뉴클레아제 조성물.
  17. 제1항에 있어서, 상기 엔도뉴클레아제는 서열 번호 421에 대해 적어도 98%의 서열 동일성을 갖는 서열을 포함하는 조작된 뉴클레아제 조성물.
  18. 제1항에 있어서, 상기 엔도뉴클레아제는 서열 번호 421에 대해 적어도 99%의 서열 동일성을 갖는 서열을 포함하는 조작된 뉴클레아제 조성물.
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
  44. 삭제
  45. 삭제
  46. 삭제
  47. 삭제
  48. 삭제
  49. 삭제
  50. 삭제
  51. 삭제
  52. 삭제
  53. 삭제
  54. 삭제
  55. 삭제
  56. 삭제
  57. 삭제
  58. 삭제
  59. 삭제
  60. 삭제
  61. 삭제
  62. 삭제
  63. 삭제
  64. 삭제
  65. 삭제
  66. 삭제
  67. 삭제
  68. 삭제
  69. 삭제
  70. 삭제
  71. 삭제
  72. 삭제
  73. 삭제
  74. 삭제
  75. 삭제
  76. 삭제
  77. 삭제
  78. 삭제
  79. 삭제
  80. 삭제
  81. 삭제
  82. 삭제
  83. 삭제
  84. 삭제
  85. 삭제
  86. 삭제
  87. 삭제
  88. 삭제
  89. 삭제
  90. 삭제
  91. 삭제
  92. 삭제
  93. 삭제
  94. 삭제
  95. 삭제
  96. 삭제
  97. 삭제
  98. 삭제
  99. 삭제
  100. 삭제
  101. 삭제
  102. 삭제
  103. 삭제
  104. 삭제
  105. 삭제
  106. 삭제
  107. 삭제
  108. 삭제
  109. 삭제
  110. 삭제
  111. 삭제
  112. 삭제
  113. 삭제
  114. 삭제
  115. 삭제
  116. 삭제
  117. 삭제
  118. 삭제
  119. 삭제
  120. 삭제
  121. 삭제
  122. 삭제
  123. 삭제
  124. 삭제
  125. 삭제
  126. 삭제
  127. 삭제
  128. 삭제
  129. 삭제
  130. 삭제
  131. 삭제
  132. 삭제
  133. 삭제
  134. 삭제
  135. 삭제
  136. 삭제
  137. 삭제
  138. 삭제
  139. 삭제
  140. 삭제
  141. 삭제
  142. 삭제
  143. 삭제
  144. 삭제
  145. 삭제
  146. 삭제
  147. 삭제
  148. 삭제
  149. 삭제
  150. 삭제
  151. 삭제
  152. 삭제
  153. 삭제
  154. 삭제
  155. 삭제
  156. 삭제
  157. 삭제
  158. 삭제
  159. 삭제
  160. 삭제
  161. 삭제
  162. 삭제
  163. 삭제
  164. 삭제
  165. 삭제
  166. 삭제
  167. 삭제
  168. 삭제
  169. 삭제
  170. 삭제
KR1020217028874A 2019-02-14 2020-02-14 Ruvc 도메인이 존재하는 효소 KR102623312B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020247000311A KR20240007322A (ko) 2019-02-14 2020-02-14 Ruvc 도메인이 존재하는 효소

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US201962805899P 2019-02-14 2019-02-14
US201962805868P 2019-02-14 2019-02-14
US201962805878P 2019-02-14 2019-02-14
US62/805,868 2019-02-14
US62/805,899 2019-02-14
US62/805,878 2019-02-14
US201962874414P 2019-07-15 2019-07-15
US62/874,414 2019-07-15
PCT/US2020/018432 WO2020168291A1 (en) 2019-02-14 2020-02-14 Enzymes with ruvc domains

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020247000311A Division KR20240007322A (ko) 2019-02-14 2020-02-14 Ruvc 도메인이 존재하는 효소

Publications (2)

Publication Number Publication Date
KR20210139254A KR20210139254A (ko) 2021-11-22
KR102623312B1 true KR102623312B1 (ko) 2024-01-09

Family

ID=72045639

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020247000311A KR20240007322A (ko) 2019-02-14 2020-02-14 Ruvc 도메인이 존재하는 효소
KR1020217028874A KR102623312B1 (ko) 2019-02-14 2020-02-14 Ruvc 도메인이 존재하는 효소

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020247000311A KR20240007322A (ko) 2019-02-14 2020-02-14 Ruvc 도메인이 존재하는 효소

Country Status (9)

Country Link
US (1) US20240117330A1 (ko)
EP (1) EP3924482A4 (ko)
JP (2) JP2022520428A (ko)
KR (2) KR20240007322A (ko)
CN (2) CN113728098A (ko)
AU (2) AU2020223370B2 (ko)
CA (1) CA3130135A1 (ko)
MX (2) MX2021009886A (ko)
WO (1) WO2020168291A1 (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3130135A1 (en) 2019-02-14 2020-08-20 Metagenomi Ip Technologies, Llc Enzymes with ruvc domains
US10913941B2 (en) 2019-02-14 2021-02-09 Metagenomi Ip Technologies, Llc Enzymes with RuvC domains
GB2594339B (en) * 2020-02-14 2023-02-08 Metagenomi Inc Enzymes with RUVC domains
EP4114932A4 (en) 2020-03-06 2024-03-13 Metagenomi, Inc. CLASS II, TYPE V CRISPR SYSTEMS
MX2022012110A (es) * 2020-03-31 2022-10-18 Metagenomi Inc Sistemas crispr clase ii tipo ii.
WO2022056301A1 (en) * 2020-09-11 2022-03-17 Metagenomi Ip Technologies, Llc Base editing enzymes
WO2022098681A2 (en) * 2020-11-03 2022-05-12 Caspr Biotech Corporation Novel class 2 crispr-cas rna-guided endonucleases
KR20230134543A (ko) * 2021-01-22 2023-09-21 메타지노미, 인크. 신규한 조작된 뉴클레아제 및 키메라 뉴클레아제
WO2022159742A1 (en) * 2021-01-22 2022-07-28 Metagenomi, Inc Novel engineered and chimeric nucleases
WO2022232638A2 (en) * 2021-04-30 2022-11-03 Metagenomi, Inc. Enzymes with ruvc domains
WO2023122663A2 (en) * 2021-12-23 2023-06-29 Mammoth Biosciences, Inc. Effector proteins and methods of use
WO2023194359A1 (en) * 2022-04-04 2023-10-12 Alia Therapeutics Srl Compositions and methods for treatment of usher syndrome type 2a
WO2023245141A2 (en) * 2022-06-15 2023-12-21 Beam Therapeutics Inc. Compositions and methods for reducing complement activation
WO2024056880A2 (en) * 2022-09-16 2024-03-21 Alia Therapeutics Srl Enqp type ii cas proteins and applications thereof

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG10201912327SA (en) * 2012-12-12 2020-02-27 Broad Inst Inc Engineering and Optimization of Improved Systems, Methods and Enzyme Compositions for Sequence Manipulation
US10392607B2 (en) * 2015-06-03 2019-08-27 The Regents Of The University Of California Cas9 variants and methods of use thereof
WO2016205759A1 (en) * 2015-06-18 2016-12-22 The Broad Institute Inc. Engineering and optimization of systems, methods, enzymes and guide scaffolds of cas9 orthologs and variants for sequence manipulation
WO2018035250A1 (en) * 2016-08-17 2018-02-22 The Broad Institute, Inc. Methods for identifying class 2 crispr-cas systems
CN112020554A (zh) * 2018-02-23 2020-12-01 先锋国际良种公司 新颖cas9直系同源物
CA3130135A1 (en) 2019-02-14 2020-08-20 Metagenomi Ip Technologies, Llc Enzymes with ruvc domains

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Cell 2014, feb 27; 156(5):935-949*
Scientific Reports. 2017; 7: 17271.*

Also Published As

Publication number Publication date
AU2023206079A1 (en) 2023-08-10
MX2021009886A (es) 2021-10-13
US20240117330A1 (en) 2024-04-11
AU2020223370B2 (en) 2023-04-20
CN113728098A (zh) 2021-11-30
EP3924482A4 (en) 2023-04-05
WO2020168291A1 (en) 2020-08-20
JP2022520428A (ja) 2022-03-30
KR20240007322A (ko) 2024-01-16
AU2020223370A1 (en) 2021-10-07
JP2023179468A (ja) 2023-12-19
MX2023006575A (es) 2023-06-16
CN116515797A (zh) 2023-08-01
EP3924482A1 (en) 2021-12-22
KR20210139254A (ko) 2021-11-22
JP7502537B2 (ja) 2024-06-18
CA3130135A1 (en) 2020-08-20

Similar Documents

Publication Publication Date Title
KR102623312B1 (ko) Ruvc 도메인이 존재하는 효소
US10913941B2 (en) Enzymes with RuvC domains
US20240209332A1 (en) Enzymes with ruvc domains
WO2021178934A1 (en) Class ii, type v crispr systems
KR20240055073A (ko) 클래스 ii, v형 crispr 시스템
US20220298494A1 (en) Enzymes with ruvc domains
WO2021202559A1 (en) Class ii, type ii crispr systems
US20220220460A1 (en) Enzymes with ruvc domains
WO2023076952A1 (en) Enzymes with hepn domains
WO2021226369A1 (en) Enzymes with ruvc domains
US12024727B2 (en) Enzymes with RuvC domains
US20240110167A1 (en) Enzymes with ruvc domains
GB2617659A (en) Enzymes with RUVC domains
WO2023039377A1 (en) Class ii, type v crispr systems

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant