KR20190112771A - 게놈 조작을 위한 엔도뉴클레아제에 대한 복구 주형 연결 - Google Patents

게놈 조작을 위한 엔도뉴클레아제에 대한 복구 주형 연결 Download PDF

Info

Publication number
KR20190112771A
KR20190112771A KR1020197025337A KR20197025337A KR20190112771A KR 20190112771 A KR20190112771 A KR 20190112771A KR 1020197025337 A KR1020197025337 A KR 1020197025337A KR 20197025337 A KR20197025337 A KR 20197025337A KR 20190112771 A KR20190112771 A KR 20190112771A
Authority
KR
South Korea
Prior art keywords
nucleic acid
sequence
dna
sequences
repair template
Prior art date
Application number
KR1020197025337A
Other languages
English (en)
Inventor
마티아스 랩스
Original Assignee
케이더블유에스 에스에이에이티 에스이 운트 코. 카게아아
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 케이더블유에스 에스에이에이티 에스이 운트 코. 카게아아 filed Critical 케이더블유에스 에스에이에이티 에스이 운트 코. 카게아아
Publication of KR20190112771A publication Critical patent/KR20190112771A/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P35/00Antineoplastic agents
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P37/00Drugs for immunological or allergic disorders
    • A61P37/02Immunomodulators
    • A61P37/06Immunosuppressants, e.g. drugs for graft rejection
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P43/00Drugs for specific purposes, not provided for in groups A61P1/00-A61P41/00
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/111General methods applicable to biologically active non-coding nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/82Vectors or expression systems specially adapted for eukaryotic hosts for plant cells, e.g. plant artificial chromosomes (PACs)
    • C12N15/8201Methods for introducing genetic material into plant cells, e.g. DNA, RNA, stable or transient incorporation, tissue culture methods adapted for transformation
    • C12N15/8213Targeted insertion of genes into the plant genome by homologous recombination
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • C12N15/902Stable introduction of foreign DNA into chromosome using homologous recombination
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/30Chemical structure
    • C12N2310/35Nature of the modification
    • C12N2310/351Conjugate
    • C12N2310/3519Fusion with another nucleic acid

Abstract

본 발명은, 하나 이상의 부위-특이적인 뉴클레아제 및 이와 직접 상호작용하는 하나 이상의 복구 주형 도킹 도메인을 포함하며, 복구 주형 도킹 도메인이 하나 이상의 복구 주형 핵산 서열과 상호작용하는, 인공 분자 복합체에 관한 것이다. 인공 복합체는 하나 이상의 상호작용 도메인을 더 포함할 수 있다. 인공 분자 복합체는 타겟화된 방식으로 높은 정확도로 원핵생물 또는 진핵생물 유기체의 DNA 타겟 서열의 복구를 매개하도록 구성되며, 따라서 바이러스 게놈 편집 또는 진핵생물 또는 원핵생물 세포 또는 유기체의 게놈 조작에 활용할 수 있다. 또한, 본 발명은 원핵생물 또는 진핵생물 세포 또는 바이러스 게놈에서 하나 이상의 DNA 타겟 서열을 변형하는 방법, 예를 들어 형질 개발 방법 또는 질환 치료 방법을 제공한다. 또한, 본 발명은 하나 이상의 인공 분자 복합체에 의해 편집된 또는 이를 포함하는 식물, 식물 세포, 식물 물질 또는 이의 파생물 또는 이의 후대를 제조하는 방법을 제공한다.

Description

게놈 조작을 위한 엔도뉴클레아제에 대한 복구 주형 연결
본 발명은, 하나 이상의 부위-특이적인 뉴클레아제, 및 이와 직접 상호작용하는, 하나 이상의 복구 주형 도킹 도메인을 포함하고, 복구 주형 도킹 도메인이 하나 이상의 복구 주형 핵산 서열과 상호작용하는, 인공 분자 복합체에 관한 것이다. 인공 복합체는 하나 이상의 상호작용 도메인을 더 포함할 수 있다. 인공 분자 복합체는 원핵생물 또는 진핵생물 또는 바이러스 유기체 또는 게놈에서 DNA 타겟 서열의 복구를 타겟화된 방식으로 높은 정확도로 매개하도록 구성되며, 따라서 원핵생물 또는 진핵생물 세포 또는 유기체에서의 게놈 조작, 또는 원핵생물, 진핵생물 또는 바이러스 게놈을 이용한 생체내 또는 시험관내 게놈 조작에 이용될 수 있다. 본 발명은 원핵생물 또는 진핵생물 세포, 또는 바이러스 게놈에서 하나 이상의 DNA 타겟 서열을, 예를 들어 형질 개발 또는 질환 치료를 위해 변형시키는 방법을 또한 제공한다. 또한, 하나 이상의 인공 분자 복합체를 포함하거나 또는 하나 이상의 인공 분자 복합체에 의해 편집된 식물, 식물 세포, 식물 물질 또는 이의 파생물 또는 이의 후대의 제조 방법을 제공한다. 이에, 복구 주형이 변형시킬 DNA 타겟 서열에 물리적으로 매우 가까운 위치에 놓이게 하여, DNA 이중 가닥 절단 부위에서 복구 주형을 즉시 인 시추로 이용가능하게 함으로써, 다양한 게놈 조작 방식에서 높은 효율과 예측가능성을 보장하는, 임의의 부위-특이적인 뉴클레아제에 적합한 인공 분자 복합체를 제공한다.
정확한 유전자 편집 또는 게놈 조작 기술이 가장 중요한 유전자 조작 분야 중 하나로 진화하여, 대상 게놈에서 타겟화된 부위-특이적인 조작이 가능해졌다. 부위 특이적인 게놈 조작에 필수적인 선행 조건은, 대상 핵산을 지정된 위치에서 잘라 이중 가닥 절단 (double-strand break, DSB) 또는 하나 이상의 단일 가닥 절단을 유도하는데 사용될 수 있는, 프로그래밍 가능한 뉴클레아제이다. 다른 예로, 이러한 뉴클레아제는, 더 이상 뉴클레아제 기능을 포함하지 않고 오히려 다른 효소와 조합하여 인지 분자 (recognition molecule)로서 작용하는, 키메라 변이체 또는 돌연변이 변이체일 수 있다. 즉, 이러한 뉴클레아제 또는 이의 변이체가 모든 유전자 편집 방식 또는 게놈 조작 방식에서 핵심이다. 최근 수년간, 메가뉴클레아제, 징크 핑거 뉴클레아제, TALE 뉴클레아제, Argonaute 뉴클레아제, 예를 들어 나트로노박테리움 그레고리 (Natronobacterium gregoryi)로부터 유래된 Argonaute 뉴클레아제, 그리고 예를 들어, CRISPR (Clustered Regularly Interspaced Short Palindromic Repeats) 시스템의 일부로서 Cas, Cpf1, CasX 또는 CasY 뉴클레아제를 비롯한 CRISPR 뉴클레아제를 포함한, 적절한 여러가지 뉴클레아제, 특히 맞춤형 엔도뉴클레아제들이 개발되었다.
CRISPR (Clustered Regularly Interspaced Short Palindromic Repeats)는, 본래, CRISPR 시스템이 바이러스 공격을 방어하기 위한 후천적인 면역 시스템의 역할을 수행하는 박테리아에서, 천연 환경에서 진화되었다. 바이러스에 노출되면, 바이러스의 짧은 DNA 세그먼트가 CRISPR 유전자 좌에 삽입된다. 바이러스 서열을 포함하는 CRISPR 유전자 좌의 영역으로부터 RNA가 전사된다. 바이러스 게놈에 상보적인 서열을 포함하고 있는 이 RNA는, CRISPR 작동자 (effector) 단백질을 바이러스 게놈 내 타겟 서열을 타겟팅하도록 매개한다. CRISPR 작동자 단백질은 바이러스 타겟을 절단함으로써, 바이러스의 복제를 방해한다. 최근 수년간, CRISPR 시스템은 진핵생물 세포에서도 유전자 편집 또는 게놈 조작에 성공적으로 적용되고 있다. 현재 동물 세포에서의 편집 및 인간에서의 치료학적인 적용은 중요한 중점 연구 과제이다. 복잡한 동물 및 식물 게놈을 타겟화된 방식으로 변형시키는 것은 여전히 어려운 과제이다.
CRISPR 시스템은, 천연 환경에서, 하나 이상의 작은 개별 비-코딩 RNA를, Cas 뉴클레아제 또는 특이적인 DNA 이중 가닥 절단을 만들 수 있는 Cpf1 뉴클레아제 (Zetsche et al., "Cpf1 is a Single RNA-Guides Endonuclease of a Class 2 CRISPR-Cas System", Cell, 163, pp. 1-13, October 2015)와 같은 다른 CRISPR 뉴클레아제와 조합하여 포함하는, 분자 복합체이다. 현재, CRISPR 시스템은 5가지 타입의 CRISPR 시스템을 포함하는 2가지 클래스, 즉, 예를 들어 작동자로서 Cas9를 이용하는 타입 II 시스템과, 작동자 분자로서 Cpf1을 이용하는 타입 V 시스템으로 분류된다 (Makarova et al., Nature Rev. Microbiol., 2015). 인공적인 CRISPR 시스템에서, 합성 비-코딩 RNA 및 CRISPR 뉴클레아제 및/또는 선택적으로, 닉카제 (nickase)로서 작용하도록 변형되거나 또는 어떠한 뉴클레아제 기능이 결핍되도록 변형된 CRISPR 뉴클레아제는, crRNA 및/또는 tracrRNA의 기능을 겸비한 하나 이상의 합성 또는 인공 가이드 RNA 또는 gRNA와 조합하여, 사용될 수 있다 (Makarova et al., 2015, supra). 천연 시스템에서 CRISPR/Cas에 의해 매개되는 면역 반응에는 CRISPR-RNA (crRNA)가 필요한데, CRISPR 뉴클레아제의 특이적인 활성화를 조절하는 이러한 가이드 RNA의 성숙화는 지금까지 파악된 다양한 CRISPR 시스템들에 따라 매우 다양하다. 먼저, 스페이서 (spacer)라고도 하는 침입 DNA (invading DNA)가 CRISPR 유전자 좌의 근위 말단에 위치된 2개의 인접 반복 영역 사이에 삽입된다. 타입 II CRISPR 시스템은 간섭 단계의 핵심 효소로서 Cas9 뉴클레아제를 코딩하며, 이 시스템은 crRNA와 또한 가이드 모티프로서 트랜스-활성화성 RNA (trans-activating RNA, tracrRNA)를 둘다 포함한다. 이 2개의 RNA가 혼성되어, RNAseIII에 의해 인지되는 이중 가닥 (ds) RNA를 형성하는데, 이것이 절단되어 성숙한 crRNA가 될 수 있다. 이후, Cas 분자와 조합하여, 뉴클레아제를 타겟 핵산 영역으로 특이적으로 안내한다. 재조합 gRNA 분자는 가변적인 DNA 인지 영역과 Cas 상호작용 영역을 둘다 포함할 수 있으며, 따라서, 특이적인 타겟 핵산 및 바람직한 Cas 뉴클레아제와는 독립적으로, 특이적으로 설계될 수 있다. 추가적인 안전 기전으로서, PAM (protospacer adjacent motif)이 타겟 핵산 영역에 존재하여야 하며; PAM은 Cas9/RNA 복합체-인지 DNA 바로 다음에 위치하는 DNA 서열이다. 스트렙토코커스 피오게네스 (Streptococcus pyogenes) Cas9의 경우, PAM 서열은 "NGG" 또는 "NAG" (표준 IUPAC 뉴클레오티드 코드)로 알려져 있다 (Jinek et al, "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity", Science 2012, 337: 816-821). 스타필로코커스 아우레우스 (Staphylococcus aureus) Cas9의 경우, PAM 서열은 "NNGRRT" 또는 "NNGRR(N)"이다. 또 다른 변이체 CRISPR/Cas9 시스템들도 알려져 있다. 즉, 네이세리아 메닌기티디스 (Neisseria meningitidis) Cas9은 PAM 서열 NNNNGATT에서 절단한다. 스트렙토코커스 서모필러스 (Streptococcus thermophilus) Cas9은 PAM 서열 NNAGAAW에서 절단한다. 최근, 캄필로박터 (Campylobacter)의 CRISPR 시스템에 대한, 또 다른 PAM 모티프 NNNNRY가 공지되었다 (WO 2016/021973 A1). Cpf1 뉴클레아제의 경우, Cpf1-crRNA 복합체가 짧은 T-풍부 PAM 앞에 위치하는 타겟 DNA를 효과적으로 절단하는 것으로 공지되었는데, 이는 일반적으로 Cas9 시스템이 G-풍부 PAM을 인지하는 것과는 대조적이다 (Zetsche et al., supra). 또한, 변형된 CRISPR 폴리펩타이드를 이용함으로써, 특이적인 단일 가닥의 절단을 달성할 수 있다. Cas 닉카제와 다양한 재조합 gRNA의 조합 사용 역시 이중 DNA 닉킹을 이용해 매우 특이적인 DNA 이중 가닥 절단을 유도할 수 있다. 또한, 2개의 gRNA를 이용함으로써, DNA 결합의 특이성, 즉 DNA 절단을 최적화할 수 있다.
현재, 예를 들어, 엔도뉴클레아제로서 Cas9 또는 이의 변이체 또는 임의의 키메라 형태에 의존하는 타입 II 시스템이 게놈 조작을 위해 변형되었다. 2개의 구성성분, 즉 싱글 가이드 RNA (sgRNA)라고도 지칭되는 가이드 RNA (gRNA)와 비-특이적인 CRISPR-부속 엔도뉴클레아제로 이루어진 합성 CRISPR 시스템을 이용해, 타겟팅할 유전자에 특이적이면서 엔도뉴클레아제 Cas9와 조합될 수 있는 gRNA를 공동-발현함으로써, 넉-아웃 세포 또는 동물을 구축할 수 있다. 특히, gRNA는, Cas 또는 임의의 다른 CRISPR 작동자 단백질 또는 이의 변이체 또는 촉매학적 활성 단편과 상호작용하는 하나의 도메인과, 대상 타겟 핵산과 상호작용하는 또 다른 도메인을 포함하는, 인공 분자이며, 즉 crRNA와 tracrRNA로 된 합성 융합체이다 ("싱글 가이드 RNA" (sgRNA) 또는 간단히 "gRNA"; Jinek et al., 2012, supa). 게놈 타겟은 뉴클레오티드 약 20개로 된 DNA 서열일 수 있으며, 이 타겟은 PAM 서열 바로 상류에 존재한다. PAM 서열은 타겟 결합에 특히 중요하며, 정확한 서열은 Cas9의 타입에 따라 결정되며, 예를 들어, 스트렙토코커스 피오게네스 유래 Cas9의 경우 5' NGG 3' 또는 5' NAG 3' (표준 IUPAC 뉴클레오티드 코드)를 인지한다 (Jinek et al., 2012, supra). 변형된 Cas 뉴클레아제를 사용해, 대상 타겟 서열에 타겟화된 단일 가닥 절단을 만들 수 있다. 이러한 Cas 닉카제를 다른 재조합 gRNA와 조합 사용하면, 이중 닉킹 시스템을 이용하여 높은 수준의 부위 특이적인 DNA 이중 가닥 절단을 도입할 수 있다. 하나 이상의 gRNA를 사용하면, 전체 특이성을 추가로 높이고, 오프-타겟 효과를 낮출 수 있다.
Cas9 단백질과 gRNA는, 일단 발현되면, gRNA "스캐폴드" 도메인과 Cas9 상의 표면-노출된 양 전하의 그루브 간의 상호작용을 통해, 리보뉴클레오-단백질 복합체를 형성한다. 중요한 점은, gRNA의 "스페이서" 서열이 자유로운 상태로 남아 타겟 DNA와 상호작용하게 된다는 것이다. Cas9-gRNA 복합체는 PAM을 가진 임의의 게놈 서열과 결합하지만, gRNA 스페이서가 타겟 DNA와 매칭되는 정도에 의해 Cas9의 절단 여부가 결정된다. Cas9-gRNA 복합체가 잠정적인 DNA 타겟에 결합하면, gRNA 타겟팅 서열의 3' 말단에 위치한 "시드 (seed)" 서열이 타겟 DNA에 대한 어닐링을 개시한다. 시드 서열과 타겟 DNA 서열이 매칭되면, gRNA는 타겟 DNA에 3'에서 5' 방향 (gRNA의 극성 (polarity)을 기준으로)으로 계속적으로 어닐링하게 될 것이다.
최근, 타겟화된 게놈 조작에 CRISPR/Cas9 시스템과 더불어, 조작된 CRISPR/Cpf1 시스템이 점점 중요해지고 있다 (Zetsche et al., supra 및 EP 3 009 511 A2). 타입 V 시스템은 타입 II 시스템과 더불어 클래스 2 CRISPR 시스템에 속한다 (Makarova and Koonin Methods. Mol. Biol., 2015, 1311:47-753). Cpf1 작동자 단백질은, Cas9의 특징적인 아르기닌-풍부 클러스터에 대한 카운터파트와 더불어, Cas9의 해당 도메인에 상동적인 뉴클레아제 도메인처럼 RuvC를 포함하는 거대 단백질 (아미노산 약 1,3000개)이다. 그러나, Cpf1에는 모든 Cas9 단백질에 존재하는 HNH 뉴클레아제 도메인이 없으며, HNH 도메인 등의 긴 삽입체를 포함하고 있는 Cas9와는 달리 Cpf1 서열에서는 RuvC-유사 도메인이 연속적이다 (Chylinski, 2014; Makarova, 2015). Cpf1 작동자는 Cas9 작동자와 비교해 구체적인 차이가 있으며, 즉 CRISPR 어레이 프로세싱, 짧은 T-풍부 PAM에 의한 타겟 DNA의 효과적인 절단 (PAM이 G-풍부 서열 앞에 있는 Cas9과 대조적으로), 및 Cpf1에 의한 엇갈린 형태의 (staggered) DNA 이중 가닥 절단 도입에, 부가적인 트랜스-활성화 crRNA (tracrRNA)가 요구되지 않는다. 극히 최근에, CasX 및 CasY에 기반한 부가적인 새로운 CRISPR-Cas 시스템이 동정되었으며, 이는 작동자 단백질의 비교적 작은 크기로 인해 수많은 유전자 편집 또는 게놈 조작 방식에서 특히 주목을 받고 있다 (Burstein et al., "New CRISPR-Cas systems from uncultivated microbes", Nature, December 2016). CRISPR 시스템의 특이성은, gRNA 타겟팅 서열의 게놈 타겟에 대한 특이성이 게놈의 나머지 부분과 비교해 어느 정도인가에 의해, 상당 부분 결정된다.
식물계는, 녹조류, 이끼 식물, 양치 식물 및 육상 식물의 게놈 및 표현형 차이를 감안하면, 이종성과 다양성이 높은 종들을 포함하고 있다. 식물 게놈과 이의 복잡성은 매우 정확한 유전자 편집 또는 게놈 조작에서 도전 과제이다. 지 메이스 (Zea mays) (옥수수 (maize 또는 corn))는, 예를 들어, 전체 곡물들 중에서도 전세계적으로 가장 많이 생산되며, 2012년 생산량이 875,000,000톤에 달한다. 옥수수는 약 2.4 기가베이스 (Gb)의 거대한 게놈을 가지고 있으며, 반수 염색체가 10개이다 (Schnable et al, 2009; Zhang et al, 2009). 트리티컴 에어스티붐 (Triticum aestivum) (빵 밀)은, 예를 들어, 육배체이고, 게놈 크기는 ~17 Gb로 추정된다. 베타 불가리스 ssp. 불가리스 (Beta vulgaris ssp. vulgaris) (사탕무)는 약 470 메가베이스 (Mb) 내지 약 569 Mb 범위의 게놈 크기를 가지고 있다. 식물 세포의 특수 아키텍처 (architecture) 및 구성, 그리고 식물의 고유한 발생 과정으로 인해, 식물 세포의 타겟 서열을 변형시키기 위한 용도로 사용하고자 하는 경우, 게놈 조작 툴에 대한 특수한 개조가 요구된다. 따라서, 동물, 특히 포유류 시스템에서 확립된 게놈 조작 툴 및 이와 관련된 원리가 대상 식물 세포에서도 반드시 작동하는 것은 아닐 것이므로, 식물에서 광범위하게 이용할 수 있는 기법을 확립하기 위한 특별한 전략이 요구된다.
마찬가지로, 동물, 특히 포유류의 게놈도 복잡하며, 예를 들어, 무스 무스쿨러스 (Mus musculus)의 경우 게놈 크기가 2.7 Gb이고, 호모 사피엔스 (Homo sapiens)의 경우 3.2 Gb이다. 특히, CRISPR을 이용한 유전자 편집 또는 게놈 조작 방식을 인간 게놈 내 타겟을 정확하게 유전자 편집 또는 게놈 조작하는데 이용하고자 할 경우, 모든 타입의 오프-타겟 효과가 매우 유해할 수 있으므로, 높은 특이성이 절실히 요구된다.
게놈 조작시 매우 중요하게 고려되어야하는 또 다른 측면은, 일반적으로 이중 가닥 절단 (DSB) 또는 DNA 병변이 게놈의 온전성에 유해하기 때문에, 대상 게놈 타겟 부위의 절단 후 복구 기전이 필요하다는 것이다. 게놈 물질에서 DSB는 이온화 방사선 조사, 화학제 처리, 산화, 효소 및 복제 중의 단일 가닥 절단에 의해 유발될 수 있는데, 이는 유전자 손실, 정지된 (stalled) DNA 복제 및 세포 사멸로 이어질 수 있는 심각한 DNA 손상 형태이다. 따라서, 세포 기구 (cellular machinery)가 이중 가닥 절단 (DSB)의 복구 기전을 제공하는 것이 매우 중요하다. 세포는 임의의 이중 가닥 또는 단일 가닥 DNA 손상을 복구하기 위한 고유의 기전을 가지고 있다. DSB 복구 기전은 2가지 주된 기본 타입, 즉 비-상동적인 말단 연결 (non-homologous end joining, NHEJ)과 상동적인 재조합 (homologous recombination, HR)으로 분류된다. 상동성에 기초한 복구 기전은 대개 일반적으로 상동성-특이적인 복구 (HOR)로 지칭된다.
NHEJ는 상동적인 서열이 필요없는 동식물에서의 지배적인 핵 반응이지만, 흔히 오류가 발생하며, 따라서 잠재적으로 돌연변이 유발성이다 (Wyman C., Kanaar R. "DNA double-strand break repair: all's well that ends well", Annu. Rev. Genet. 2006; 40, 363-83). HOR에 의한 복구에는 상동성이 필요하지만, 절단된 염색체를 복구하기 위해 온전한 염색체를 이용하는 HOR 경로, 즉 이중 가닥 절단 복구 및 합성-의존적인 가닥 어닐링은 매우 정확하다. 고전적인 DSB 복구 경로에서, 3' 말단이 온전한 상동적인 주형에 침입해, DNA 복구 합성을 위한 프라이머로 사용되어, 궁극적으로 이중 홀리데이 정션 (double Holliday junction, dHJ)의 형성을 유도한다. dHJ는, 침입 가닥의 연장 (elongation)이 제2 DSB 말단으로부터 DNA를 "포획"하여 합성할 때 형성되는, 4 가닥의 갈라진 구조 (four-stranded branched structure)이다. 각각의 HJ는 2가지 방식 중 한가지 방식으로 절단에 의해 해리된다. 합성-의존적인 가닥 어닐링은 보존적이며, 오직 비-교차 방식 (non-crossover event)으로 이루어진다. 이는, 신규 합성된 서열들 모두 동일 분자 상에 존재한다는 것을 의미한다. NHEJ 복구 경로와 달리, 합성-의존적인 가닥 어닐링에서는 가닥 침투 및 D 루프 형성 후, 침투 가닥의 신규 합성된 부분이 주형으로부터 분리되고, 다른 DSB 말단 위치에서 비-침투 가닥의 가공된 말단 쪽으로 회귀한다. 비-침투 가닥의 3' 말단이 연장 및 라이게이션되어, 갭이 채워지게 된다. 아직 충분히 규명된 것은 아니지만 절단-유발성 복구 경로로 지칭되는, 또 다른 HOR 경로도 존재한다. 이 경로의 중요한 특징은 DSB에 복구에 사용될 수 있는 침투 말단이 단 하나라는 것이다.
또 다른 HOR 경로는 단일 가닥 어닐링 (SSA)이다. SSA는 비-보존적이며, >30 bp의 다이렉트 리피트들 사이에서 발생하며, 결손이 발생한다. 최근 수년간, 진핵생물에서 MMEJ (microhomology-mediated end joining)가 독특한 DSB 복구 타입으로서 인식되었다. 이 경로에는 매우 짧은 (2-14 bp) 상동성 영역만 필요하며, 전형적으로 SSA와 같은 결손을 발생시킨다. 또한, 이는 HR 경로 및 NHEJ 경로와는 유전자 측면에서 구분되며, 포유류 세포에서 NHEJ에 대한 백업으로서 작용한다 (Kwon, T., Huq, E., & Herrin, D. L. (2010). "Microhomology-mediated and nonhomologous repair of a double-strand break in the chloroplast genome of Arabidopsis". Proceedings of the National Academy of Sciences of the United States of America, 107(31), 13954-13959). 요컨대, HR/HOR은 주형으로서 딸 염색분체 (sister chromatid)에 대해 상동적인 DNA 가닥을 이용한다. 따라서, 충실성은 높지만, 효율이 낮다. 반면, NHEJ는, 매우 효율적이며, 상당한 상동성과는 별개로 2개의 말단을 다시 연결할 수 있는 간단한 경로이지만, 이러한 효율은 이 방법이 오류 발생 경향이 있으며 삽입 또는 결손과 관련있을 수 있는 문제를 수반한다.
그러므로, 자연적인 복구 경로에 영향을 미치기 위한 유전자 편집 또는 게놈 조작 방식에서는, 중요한 파라미터인 복구 주형 (RT)을 물리적으로 설계하여야 한다. RT는 ssDNA 또는 부분적인 dsDNA로서 제공하는 것도 가능하다. 게놈 편집용 CRISPR 툴을 복구 주형 (RT)과 조합하여 사용하는 현행 프로토콜은, 염기 쌍 형성 및 혼성화에 의해서만 복구할 DNA 내 절단을 인지하는, 이중 가닥 또는 단일 가닥의 핵산 RT의 별도 제공에 전적으로 달려있다. 그러나, 현재 이용가능한 방법은, 바람직하게는 절단 뿐만 아니라 복구 이벤트를 특이적으로 조절하기 위해 타겟화된 DNA 절단을 유도한 직후에, 복구가 이루어져야 하는 구획에서, 올바른 배열 (right configuration), 농도, 즉 화학양론적으로 RT를 공간적 및 시간적으로 정확하게 제공하지 못하므로, 현재 이용가능한 방법으로는 DNA 절단이 유발된 부위에서 RT의 물리적 및 시간적인 이용가능성을 제어할 수 없다.
CRISPR/Cas 뉴클레아제와 마찬가지로, Argonaute 엔도뉴클레아제 ("Argonautes")는 타겟 서열을 특정하기 위해 핵산 가이드를 이용함으로써 외래 핵산에 대한 방어에 참여하며, 핵산 가이드는 이후 Argonaute 단백질 성분에 의해 절단된다. 구체적으로, Argonaute는 설계된 또는 합성 핵산-타겟팅 핵산과 복합체를 형성함으로써 타겟 핵산에 결합하여 이를 절단할 수 있으며, 타겟 핵산의 절단으로 타겟 핵산에 이중 가닥 절단을 도입할 수 있다. Cas9 시스템과 마찬가지로, Argonautes 핵산 가이드는 엔도뉴클레아제 서열 특이성을 프로그래밍하는 손쉬운 방법을 제공해준다. 그러나, 짧은 ssRNA 분자가, Cas9-짧은 가이드 RNA (sgRNA, gRNA) 상호작용에 존재하는 것과 같은, 임의의 2차 구조에 대한 인지 제한없이, 수많은 진핵생물의 Argonaute에 의해 가이드로서, 사용된다. 대부분의 진핵생물 세포에 풍부한 ssRNA는, 따라서, RNA-안내된 진핵생물 Argonaute의 특이적인 타겟팅을 잠재적인 도전 과제로 만들어준다. 이와는 대조적으로, 일부 원핵생물의 Argonaute는 짧은 5'-인산화된 ssDNA 분자에 의해 안내되므로 (Swarts, D.C. et al. DNA-guided DNA interference by a prokaryotic Argonaute. Nature 507, 258-261, 2014; Swarts, D.C. et al. Argonaute of the archaeon Pyrococcus furiosus is a DNA-guided nuclease that targets cognate DNA Nucleic Acids Res. 43, 5120-5129 2015), 본질적으로, 진핵생물 세포 내 존재하는 짧은 ssDNA 분자의 결핍성으로 인해, 숙주 세포-유래 핵산에 의해 잘못 안내될 가능성이 보다 낮다. 따라서, DNA-안내된 Argonaute 엔도뉴클레아제는 진핵생물의 게놈 편집에 활용 가능성을 가진다. 그러나, 식물에서 나트로노박테리움 그레고리 (Natronobacterium gregoryi) Argonaute (NgAgo) 시스템의 사용은 기존에 입증된 바 없다.
문헌에서, 서열 2개 간의 상동적인 재조합은, 이들 서열이 상당히 떨어져 있는 경우 보다는 핵 내에서 가까이 위치할 경우, 발생 빈도가 더 높은 것으로, 입증되어 있다. 예를 들어, 아라비돕시스에서, 염색체에 위치한 도너 분자와 타겟 간에 달성되는 유전자 편집율 분석에서, 도너가 타겟과 동일한 염색체 상에 존재하는 경우가, 2개의 유전자 좌가 별개의 염색체에 위치하는 경우에 비해, 더 높았다 (Fauser et al., 2012). 그러나, 이러한 사실이 진핵생물 세포에서 부위-특이적인 엔도뉴클레아제를 이용한 유전자 편집 또는 게놈 조작 방식을 최적화하기 위한 합리적인 방식으로 활용된 바는 없다.
EP 2 958 996 A1은 뉴클레아제 (예, ZFN 또는 TALEN) 또는 뉴클레아제 시스템 (예, CRISPR/Cas)에 의해 매개되는 유전자 파괴를 높이기 위해 세포에 NHEJ 기전의 저해제를 제공함으로써, 특이적인 DSB 복구 문제를 해결하고자 하였다. DNA-의존적인-단백질 키나제 촉매성 서브유닛 (DNA-PKcs) 및/또는 폴리-(ADP-리보스) 중합효소 1/2 (PARP1/2)의 소분자 저해제를 사용해, NHEJ DNA 복구 경로의 중요한 효소적 활성을 저해함으로써, 대안적인 NHEJ과 같은 고전적인 NHEJ 및/또는 미세상동성 매개 말단-연결 (microhomology mediated end-joining)에 비해 오류 발생 경향이 높은 복구 기전에 세포가 의지하게끔 강제하여, 뉴클레아제에 의한 유전자 파괴 수준은 높아진다. 이에, 게놈 편집 과정에 추가적인 화학제가 첨가되는데, 이는 몇몇 세포 타입과 분석에 좋지 않다. 또한, 이는 처리된 세포의 게놈 온전성 및/또는 재생 잠재성 (regenerative potential)에 영향을 미칠 수 있다.
Ma et al. (2016, JCB, 214(5):529, "CRISPR-Cas9 nuclear dynamics and target recognition in living cells")에서는 형광성 리포터의 앱타머-기반의 결합이 텔로미어 타겟에 대한 sgRNA 다이나믹스 및 Cas9의 다이나믹스를 실험할 수 있는 3'-변형된 sgRNA를 이용하였다. 특히, tracrRNA 서열 내 변형은 타겟팅에 영향을 미치지 않았다. tracrRNA 서열이 이후 말단 절단 (truncation)되었을 때에만 앱타머-변형과 독립적인 sgRNA 탈안정화가 이루어졌다.
따라서, 적합한 CRISPR 툴, 구체적으로, 예를 들어, 대상 세포 내 타겟 부위에 대해 최적화된 gRNA를 제공하고 동시에 매우 정확하고 정밀한 HOR을 매개할 수 있는 가능성을 제공하여, 유전자 편집 또는 게놈 조작 개입을 조절하는데 필수적인, DSB의 타겟화된 복구를 제공함으로써, 정확성이 높은 게놈 절단을 겸비한, 식물, 특히 주요 농작물의 정확한 편집을 위한 최적화된 툴이 계속적으로 요구되고 있다.
이에, 본 발명의 새로운 전략은 효모, 동물 및 식물 세포를 비롯한 진핵생물 세포에 특히 적합할 뿐만 아니라 원핵생물 세포에도 적합한, 정확한 게놈 편집, 예를 들어, 대사 조작 및 다양한 기타 목적, 또는 예를 들어 바이러스를 약독화하거나 또는 바이러스의 병독성을 낮추기 위해 바이러스 게놈을 변형시키기 위한 복구 주형을 제공하는 것을 목적으로 한다. 예를 들어, 치료학적 방법, 유전자 테라피 또는 타겟화된 형질 개발을 위해 식물 또는 미생물의 게놈을 조작하는 경우에, 생물공학 분야의 게놈 편집이 상당한 이점을 가짐에도 불구하고, 도입할 타겟화된 게놈 변형의 특이성 또는 오프-타겟 효과와 관련된 주요 문제들과 염려는 여전히 남아있는 실정이다. 이러한 문제는, 특히 대상 게놈 타겟 핵산에 절단 및 관련 복구를 유도할 때 달성될 수 있는 정확도와 관련있다.
DSB를 유도하는 임의 타입의 유전자 편집 또는 게놈 조작 방식들이 잠재적으로 유해한 DNA 절단을 일으키고, 잠재적으로는 원치않은 핵산 교환을 야기하는 바람직하지 않은 DNA 복구 기전을 야기하므로, 타겟화된 DNA 복구 주형 (RT)의 사용을 또한 내포하는, 매우 정확하고 제어된 유전자 편집 또는 게놈 조작을 달성하기 위한, 보다 효율적인 방법 및 툴의 개발이 여전히 요구되고 있다.
오프-타겟 효과를 매개하지 않는 성공적인 게놈 조작을 제공하는 것과 관련된 빈번한 또 다른 문제는, 절단이 이루어지고 따라서 복구되어야 하는 시점에, 정확하게 DSB 부위에서의 복구 주형의 물리적인 이용가능성이다. 통상적으로, 바람직한 편집 이벤트가 비-상동적인 말단-연결 (NHEJ) 경로 또는 전술한 바와 같은 내인적인 상동성 서열과의 재조합을 통한 복구와 비교해 훨씬 우수하다. 변형시킬 타겟 유기체에 따라, 모든 툴들이 적절한 시기에 게놈을 포함하는 세포내 구획, 즉 바람직하게는 핵, 또는 미토콘드리아와 같은 임의의 다른 게놈 보유 구획에 도달하도록, 대상 복구 주형과 더불어 유전자 편집 또는 게놈 조작 툴을 도입하기 위한, 조합된 전략 (concerted strategy)들이 필요하다. 이러한 한계를 일부 해소하기 위한 한가지 방법은, 복구 주형을 증폭시켜 핵 내 주형의 농도를 증가시키고, 추측컨대 게미니바이러스 벡터를 보조적으로 사용해 DSB를 복구하는데 더 이용가능하게 만드는 것이다 (예, Mach, Plant Cell. 2014, doi:10.1105/tpc.114.122606; 및 Baltes et al., Plant Cell. 2014, doi: 10.1105/tpc.113.119792). 그러나, 복구 주형은 분리된 물리적 개체로서 전달되므로, DSB가 엔도뉴클레아제에 의해 도입되는 시점에 정확하게 DNA 복구가 필요한 위치에 실제 복구 주형이 존재하게 보장해주는 제어 기전은 현재 없다.
CRISPR 활용과 관련하여, 복구 주형 또는 플라스미드계 복구 주형으로서 유리형 ssDNA 뉴클레오티드의 사용이 흔히 제시되곤 있지만, DSB가 형성되는 시점에 인 시추로 복구할 DSB를 복구 주형과 실제 물리적으로 접촉되게 보장할 수 있는 전략은 개시 또는 제안된 바 없다.
특히, 바이오틴-스트렙타비딘 및 바이오틴-아비딘 상호작용이 본질적으로 가장 안정적이며, 해리 상수 Kd는 10-15 M이다. 이의 결합은 아비딘 또는 스트렙타비딘 단백질 (각 서브유닛 당 각각 ~16.5 및 13.2 kDa)과 보편적으로 존재하지만 풍부하진 않은 비타민 바이오틴 간의 호모테트라머 구조를 기반으로 한다. 호모테트라머 스트렙타비딘 또는 아비딘 복합체는 자발적으로 형성되며, 낮은 해리 상수로 바이오틴 분자 4개에 결합할 수 있다. 적어도 2번의 시도에서, 자발적인 테트라머화는 결합 친화성 감소로 해결할 수 있었다 (Laitinen et al. 2003, "Rational Design of an Active Avidin Monomer." Journal of Biological Chemistry 278(6): 4010-4014; Mann et al. 2016, "Cell labeling and proximity dependent biotinylation with engineered monomeric streptavidin." TECHNOLOGY 4(3): 1-7). 마찬가지로, 뉴클레아제의 바이오틴화는 서열에 바이오틴화 신호를 포함시킴으로써 가능한 것으로 입증되었다 (Kay et al. 2009, "High-throughput Biotinylation of Proteins." Methods in molecular biology (Clifton, N.J.) 498: 185-196). BirA는 박테리아 단백질 발현을 위한 잠재적인 바이오틴화 효소이지만, 바이오틴화는 고등 식물에서도 이루어진다 (Tissot et al. 1996, "Protein biotinylation in higher plants: characterization of biotin holocarboxylase synthetase activity from pea (Pisum sativum) leaves.", Biochemical Journal 314(Pt 2): 391-395).
단쇄 가변 단편 (scFvs)은 면역글로불린의 중쇄 (VH) 및 경쇄 (VL)의 가변부가 아미노산 약 10개 내지 25개로 된 짧은 링커 펩타이드와 연결된 융합 단백질로서, 이는 다용도의 고 친화성 결합 분자로 알려져 있다. 2가 (또는 이가) 단쇄 가변 단편 (di-scFvs, bi-scFvs)은 scFv 2개를 연결함으로써 제조할 수 있다. 이는 VH 영역 2개와 VL 영역 2개를 가진 단일 펩타이드 체인을 만들어 탠덤 scFv를 제작함으로써, 달성할 수 있다 (Kufer et al., 2004, Trends in Biotechnology, 22(5), 238-244; Xiong et al., 2006, Protein Engineering Design and Selection, 19(8), 359-367).
그러나, 지금까지, 항체 또는 단쇄 가변 단편 및 이의 동족 (cognate) 파트너와 같이, 바이오틴화된 분자 및 이의 동족 결합 파트너, 또는 기타 고-친화성 분자 결합 쌍에 대한 발견은, 부위-특이적인 뉴클레아제 및 복구 주형을 이용한 타겟화된 게놈 조작에 아직까지 이용된 바 없다.
이런 점에서, 서로 다른 타겟 세포들에서는, 필요에 따라, 유전자 편집 또는 게놈 조작 및/또는 복구 주형 툴을 전달하는데 있어 특별한 차이가 자명하다. 이와 관련하여, 식물 세포는 세포벽 등의 특별히 구분되는 특징을 가지고 있어, 게놈 편집 및/또는 복구 툴의 전달이 다른 진핵생물 세포와는 다른 형질전환, 형질감염 및/또는 형질도입 방법에 의해 매개되므로, 식물 세포에서의 유전자 편집 또는 게놈 조작은 동물/포유류 세포에서 확립된 유전자 편집 또는 게놈 조작과는 완전히 달라진다. 그러나, 이러한 특이성은 매우 정확한 식물 게놈 편집을 달성하기 위해 고려하여야 한다. 따라서, 본 발명의 과제는, DSB가 복구되는 부위 및 시기에 복구 주형의 물리적인 이용성, 그리고 비-상동적인 말단-연결 방법 (NHEJ) 또는 (내인성) 상동 서열과의 재조합 (HR/HOR)을 통한 DNA 복구 기전에 의한 경쟁과 관련하여, 유전자 편집 분야의 현 한계를 극복하기 위해, 식물 세포 등의 진핵생물 세포에서, 특히 CRISPR 및 Argonaute 매개 게놈 편집 분야에서, 매우 정확한 게놈 편집을 수행하는데 적합한 새로운 툴과 방법에 대한 상당한 요구를 해소시키는 것이다. 본 발명의 또 다른 과제는, 동물 또는 식물 세포의 게놈 편집시 달성되어야 하는 정확도가 의학 및 식품 관리 기관에서 확립된 필수적인 높은 규제 요건을 충족시키도록 개선되어야 하므로, DNA 인지, 절단 및 복구 주형의 특성을 통합하고 동시에 타겟 부위, 즉, 원핵생물 세포, 진핵생물 또는 바이러스 게놈, 특히, 동물 세포, 특히 포유류 세포 또는 식물 세포의 게놈에 쉽게 전달될 수 있는 분자 또는 분자 복합체를 제공함으로써, 진핵생물 또는 원핵생물의 세포 또는 임의의 원핵생물, 진핵생물 또는 바이러스 게놈에서 부위-특이적인 게놈 편집에 이용될 수 있는, 핵산 가이드의 CRISPR 또는 Argonaute 뉴클레아제로 제한되지 않으면서 임의의 부위-특이적인 뉴클레아제에 적합한 간단한 부위-특이적인 뉴클레아제 툴키트를 제공하는 것이다. 본원에 기술된 인공 분자 복합체의 오프-타겟 통합 위험성은, 세포에 유리형 분자로서 도입되는 ss- 또는 ds-DNA 복구 주형 보다 낮다. 또한, 식물 특이적인 전달 방법을 이용해 식물 특이적인 게놈 편집 구조체를 전달하기 위한 특이적으로 최적화된 전달 툴을 제공하는 것을 과제로 한다. 또한, 제조 과정 중에, 매개인자로서 외래 DNA를 함유한 임의 형태의 유전자 변형에 대한 특정 국가에서의 민감성으로 인해, 필요에 따라 일시적으로 제공되는 RNA 및 부위-특이적인 뉴클레아제를 이용한 일시적인 편집 활성에 의존할 수 있는 방식을 제공하는 것을 과제로 한다. 마지막으로, 본 발명의 과제는, 번거러운 클로닝 및 사전 검사가 필요하지 않아야 하므로, 새로운 타겟을 테스트하는 시간을 절약한다는 점에서 최근 방법 보다 우수한 유전자 편집 또는 게놈 조작 방법을 제공하는 것이다.
전술한 과제들은, 복구 주형을 뉴클레아제 복합체에 대한 "카고 (cargo)"로서 직접 사용해 복구 주형을 DSB 부위에 전달하여 복구 주형의 이용가능성 문제를 해결함으로써, 본 발명에 따라 해결되었으며, 이러한 방식에 적합한 뉴클레아제의 스펙트럼은 임의의 대상 부위-특이적인 뉴클레아제 (SSN)에 의존하는 인공 분자 복합체를 제공함으로써 현저하게 확장되게 되었다. 절단 시점에 이중 가닥 절단부로 복구 주형을 인가하는 것은, 하나 이상의 SSN과 더불어 하나 이상의 복구 주형 도킹 도메인 (RTDD, repair template docking domain)을 제공함으로써 인 시추로 이루어지며, 이때 복구 주형 도킹 도메인은 하나 이상의 복구 주형 핵산 서열 (RT)과 직접 상호작용하여, 절단부의 복구에 이용하기 위한 복구 주형 (RT)의 국소 이용가능성을 증가시키도록, 구성된다. 이로써, 본 발명에 따른 인공 분자 복합체는 맞춤 제작형 복구 주형을 제공할 뿐만 아니라 유전자 편집 이벤트의 빈도 및/또는 특이성을 높이는데 도움이 될 수 있다. 이러한 생각으로, 게놈 편집 툴(들) 및/또는 복구 주형을 타겟 세포의 대상 구획 내로 전달하기 위한 특이적인 전달 툴 및 방법을 겸비한, 동시적인 게놈 절단 및 타겟화된 복구를 위해, 부위-특이적인 뉴클레아제 및 복구 주형의 기능을 하나의 분자 복합체에 통합하게 되었다. 즉, 이 시스템은 보다 높은 특이성을 구현할 수 있으며, 따라서 거대 동물, 특히 포유류 또는 때때로 더 복잡한 식물 게놈에서 오프-타겟 절단을 최소화하는데 요구되는 현행 편집 방식의 오프-타겟 효과를 줄일 수 있다.
구체적으로, 전술한 과제는, 제1 측면에서, (a) 하나 이상의 부위-특이적인 뉴클레아제 (SSN) 또는 이의 촉매적으로 활성인 단편, 또는 이를 코딩하는 핵산 서열과; 이와 직접 상호작용하는, (b) 하나 이상의 복구 주형 핵산 서열 (RT)과 직접 상호작용하도록 구성된, 하나 이상의 복구 주형 도킹 도메인 (RTDD) 또는 이를 코딩하는 핵산 서열을 포함하고; 선택적으로, (c) 하나 이상의 상호작용 도메인 (IA), 또는 이를 코딩하는 핵산 서열을 포함하되, 하나 이상의 상호작용 도메인이 하나 이상의 부위-특이적인 뉴클레아제 또는 이의 촉매적으로 활성인 단편과 직접 상호작용하고, 하나 이상의 상호작용 도메인이 (i) 하나 이상의 복구 주형 도킹 도메인과의 상호작용; 및/또는 (ii) 하나 이상의 복구 주형 핵산 서열과의 상호작용; 및/또는 (iii) 게놈 DNA와 서열-특이적인 상호작용으로 이루어진 군으로부터 선택되는 하나 이상의 기능성을 제공하도록 구성되되, 하나 이상의 복구 주형 핵산 서열이 하나 이상의 게놈 상보성 서열에 상보적인 하나 이상의 영역을 포함하고, 하나 이상의 복구 주형 핵산 서열이 DNA 타겟 서열의 복구를 매개하도록 구성된, 인공 분자 복합체를 제공함으로써, 달성된다.
다양한 측면들에서, 일 구현예에서, 본 발명은, 부위-특이적인 뉴클레아제 또는 이를 코딩하는 핵산 서열이 Cas 또는 Cpf1 뉴클레아제 등의 CRISPR 뉴클레아제, TALEN, ZFN, 메가뉴클레아제 (meganuclease), 클래스 IIS 제한 엔도뉴클레아제 (class IIS restriction endonuclease) 등의 제한 엔도뉴클레아제 (restriction endonuclease), 예로, FokI 또는 이의 변이체, 또는 2종의 부위-특이적인 닉킹 엔도뉴클레아제 (site-specific nicking endonuclease) 또는 이의 변이체 또는 이의 촉매적으로 활성인 단편 중 하나 이상으로부터 선택되는, 인공 분자 복합체를 제공한다.
다른 구현예에서, 본 발명은, 하나 이상의 복구 주형 도킹 도메인 또는 이를 코딩하는 핵산 서열이 바이오틴, 앱타머, DNA, RNA 또는 플루오레세인을 포함하는 형광단 또는 이의 변이체를 포함하는 단백질 염료, 말레이미드 또는 테트라졸륨 (XTT), 하나 이상의 복구 주형 핵산 서열과 상호작용하도록 특이적으로 구성된 가이드 핵산 서열, 스트렙타비딘 또는 이의 변이체, 바람직하게는 모노머성 스트렙타비딘, 아비딘 또는 이의 변이체, 친화성-테그, 바람직하게는 스트렙타비딘-태그, 항체, 단쇄 가변 단편 (scFv), 싱글-도메인 항체 (나노바디), 안티칼린 (anticalin), 아그로박테리움 VirD2 단백질 또는 이의 도메인, 피코나바이러스 VPg, 토포이소머라제 또는 이의 도메인, PhiX174 파지 A 단백질, PhiX A* 단백질, VirE2 단백질 또는 이의 도메인, 또는 디곡시게닌 (digoxigenin) 중 하나 이상으로부터 선택되는, 인공 분자 복합체를 제공한다. 또 다른 널리 공지된 상호작용 시스템은 예를 들어 New England Biolabs Inc. (www.neb.com) 사에서 공급하는 dCas9에 융합된 SNAP-태그이다. SNAP-tag는 형광단 시리즈, 바이오틴 및 기타 접합체에 결합할 수 있다. 주된 목적은 가시화를 구현하기 위한 것이며, 물론 복구 주형을 테더링 (tethering)하는데에도 유용할 것이다.
본 발명에 따른 상기 제1 측면에 대한 또 다른 구현예에서, 본 발명은, 하나 이상의 상호작용 도메인 또는 이를 코딩하는 핵산 서열이 하나 이상의 DNA-결합 도메인, 스트렙타비딘 또는 이의 변이체, 바람직하게는 모노머성 스트렙타비딘, 아비딘, 또는 이의 변이체, 친화성 태그, 바이오틴화 신호, 바이오틴 어셉터 부위, 스트렙타비딘-태그, 항체, 단쇄 가변 단편 (scFv), 싱글-도메인 항체 (나노바디), 안티칼린, 바이오틴, 앱타머, DNA, RNA 또는 플루오레세인 또는 이의 변이체를 포함하는 형광단을 포함하는 단백질 염료, 말레이미드 또는 테트라졸륨 (XTT), 하나 이상의 복구 주형 핵산 서열과 상호작용하도록 특이적으로 구성된 가이드 핵산 서열, 아그로박테리움 VirD2 단백질 또는 이의 도메인, 피코나바이러스 VPg, 토포이소머라제 또는 이의 도메인, PhiX174 파지 A 단백질, PhiX A* 단백질, VirE2 단백질 또는 이의 도메인, 또는 디곡시게닌 중 하나 이상으로부터 선택되는, 인공 분자 복합체를 제공한다.
또 다른 구현예에서, 본 발명은, 하나 이상의 부위-특이적인 뉴클레아제 및/또는 하나 이상의 복구 주형 핵산 서열 및/또는 하나 이상의 상호작용 도메인이 하나 이상의 핵 위치화 서열, 색소체 위치화 서열, 바람직하게는 미토콘드리아 위치화 서열 또는 엽록체 위치화 서열 중 하나 이상을 포함하는, 인공 분자 복합체를 제공한다.
본 발명의 다양한 측면들에 따른 다른 구현예에서, 본 발명은, 하나 이상의 복구 주형 핵산 서열이 하나 이상의 말단 영역 (end portion), 바람직하게는 3' 말단을 포함하고, 이 말단 영역이 인공 분자 복합체의 임의의 다른 구성성분과 상호작용하지 않으며, 즉 하나 이상의 게놈 상보성 서열과 혼성하여 DNA 타겟 서열의 복구를 매개하도록 구성되거나, 및/또는 하나 이상의 복구 주형 핵산 서열이 플라스미드로 제공되는, 인공 분자 복합체를 제공한다.
또 다른 구현예에서, 본 발명은, 하나 이상의 부위-특이적인 뉴클레아제 또는 이의 촉매적으로 활성인 단편 또는 이를 코딩하는 서열이 CRISPR 뉴클레아제, 바람직하게는 Cas 또는 Cpf1 뉴클레아제, 또는 FokI 뉴클레아제, 또는 이의 촉매적으로 활성인 단편로부터 선택되고; 하나 이상의 상호작용 도메인 또는 이를 코딩하는 서열이 단쇄 가변 단편 또는 모노머성 스트렙타비딘으로부터 선택되는, 인공 분자 복합체를 제공한다.
아울러, 다른 구현예에서, 본 발명은, 하나 이상의 복구 주형 도킹 도메인을 나타내는 하나 이상의 가이드 핵산 서열을 포함하고; 하나 이상의 가이드 핵산 서열들 각각이 (i) 인지 DNA 타겟 서열에 상보적인 제1 서열 영역, 및 (ii) 하나 이상의 부위-특이적인 뉴클레아제와 상호작용하도록 구성된, 제2 서열 영역을 포함하고, (iii) 하나 이상의 가이드 핵산 서열이 하나 이상의 복구 주형 핵산 서열과 물리적으로 결합하여, 하나 이상의 RNA 또는 DNA 및 하나 이상의 추가의 DNA 핵산 서열을 포함하거나 또는 이들로 구성된 하이브리드 핵산 서열을 형성하고, 선택적으로 (iv) 하나 이상의 가이드 핵산 서열과 하나 이상의 복구 주형 핵산 서열 사이에 링커 영역을 포함하며, 바람직하게는 복구 주형 핵산 서열이 가이드 핵산 서열의 3' 말단에서 가이드 핵산 서열과 결합하거나, 및/또는 복구 주형 핵산 서열이 가이드 핵산 서열의 5' 말단과 결합하거나, 및/또는 복구 주형 핵산 서열이 가이드 핵산 서열 내부에 위치하는, 인공 분자 복합체를 제공한다.
다른 구현예에서, 본 발명은, 하나 이상의 복구 주형 핵산 서열 및/또는 하나 이상의 가이드 핵산 서열이, 선택적으로 백본 및/또는 염기 변형을 포함하는, 합성 뉴클레오티드 서열을 비롯하여, 천연 뉴클레오티드 서열 또는 비-천연 뉴클레오티드 서열로부터 선택되는 뉴클레오티드 서열을 포함하며, 가이드 핵산 서열이 단일 가닥 또는 부분적으로 단일 가닥의 RNA 또는 DNA 뉴클레오티드 서열을 포함하고, 하나 이상의 복구 주형 핵산 서열이 단일 가닥 또는 이중 가닥 DNA 뉴클레오티드 서열을 포함하는, 인공 분자 복합체를 제공한다.
본 발명의 다양한 측면들에 따른 또 다른 구현예에서, 본 발명은, 하나 이상의 부위-특이적인 뉴클레아제 또는 이를 코딩하는 서열, 및 하나 이상의 상호작용 도메인 또는 이를 코딩하는 서열, 및/또는 하나 이상의 복구 주형 도킹 도메인 또는 이를 코딩하는 서열이 하나 이상의 링커 도메인에 의해 연결된, 인공 분자 복합체를 제공한다.
제시된 구현예들 중 일 구현예에서, 하나 이상의 부위-특이적인 뉴클레아제 또는 이의 촉매적으로 활성인 단편 또는 이를 코딩하는 서열은 독립적으로 스트렙토코커스 피오게네스 (Streptococcus pyogenes), 스트렙토코커스 서모필러스 (Streptococcus thermophiles) 등의 스트렙토코커스 (Streptococcus spp.), 스타필로코커스 아우레우스 (Staphylococcus aureus) 또는 네이세리아 메닌기티데스 (Neisseria meningitides) 등의 네이세리아 (Neisseria spp.), 코리네박터 (Corynebacter), 슈테렐라 (Sutterella), 레지오넬라 (Legionella), 트레포네마 (Treponema), 필리팍토르 (Filifactor), 유박테리움 (Eubacterium), 락토바실러스 (Lactobacillus), 미코플라스마 (Mycoplasma), 박테로이데스 (Bacteroides), 플라비이볼라 (Flaviivola), 플라보박테리움 (Flavobacterium), 스페어로키타 (Sphaerochaeta), 아조스피릴룸 (Azospirillum), 글루콘아세토박터 (Gluconacetobacter), 로세부리아 (Roseburia), 파르비바쿨럼 (Parvibaculum), 니트라티프락토르 (Nitratifractor), 미코플라스마 (Mycoplasma) 및 캄필로박터 (Campylobacter), 칸디다투스 미크라르체움 (Candidatus Micrarchaeum) 액시디필룸 ARMAN-1, 파르쿠박테리아 (Parcubacteria)(GenBank: APG80656.1), 설폴로부스 아일랜디쿠스 (Sulfolobus islandicus) HVE10/4 (GenBank: ADX81770.1) 또는 REY15A (GenBank: ADX84852.1) 등의 설폴로부스 spp (Sulfolobus spp.), 및 칸디다투스 파르바르체움 (Candidatus Parvarchaeum) 액시디필룸 ARMAN-4 유래의 Cas 폴리펩타이드; 고세균 또는 박테리아 유래 Cpf1 폴리펩타이드, 예를 들어, 액시다미노코커스 sp. BV3L6 등의 액시다미노코커스 spp. (Acidaminococcus spp.), 라크노스피래세애 박테리움 (Lachnospiraceae bacterium) ND2006, 라크노스피래세애 박테리움 MC2017, 라크노스피래세애 박테리움 MA2020 등의 라크노스피래세애 spp. (Lachnospiraceae spp.), 부티리비브리오 프로테오칼라스티쿠스 (Butyrivibrio proteoclasticus), 칸디다투스 spp., 메타노플라스마 터미툼 (Methanoplasma termitum), 렙토스피라 이나다이 (Leptospira inadai), 모락셀라 보보쿨리 (Moraxella bovoculi) 237, 페레그리니박테리아 박테리움 (Peregrinibacteria bacterium) GW2011_GWA2_33_10, 파르쿠박테리아 박테리움 (Parcubacteria bacterium) GW2011_GWC2_44_17, 스미텔라 (Smithella) sp. SCADC, 스미텔라 sp. SC_K08D17, 프란시셀라 노비시다 (Francisella novicida) U112 등의 프란시셀라 spp. (Francisella spp.), 유박테리움 엘리겐스 (Eubacterium eligens), 프레보텔라 spp. (Prevotella spp.) 또는 포르피로모나스 spp. (Porphyromonas spp.) 유래의 Cpf1 폴리펩타이드; 또는 나트로노박테리움 그레고리 (Natronobacterium gregoryi) (GenBank: AFZ73749.1), 마이크로시스티스 에어루지노사 (Microcystis aeruginosa) (NCBI Reference Sequence: WP_012265209.1 또는 NCBI Reference Sequence: WP_002747795.1 또는 NCBI Reference Sequence: WP_012265209.1), 할로게오메트리쿰 팔리둠 (Halogeometricum pallidum) (GenBank: ELZ29017.1), 나트리알라바 아시아티카 (Natrialaba asiatica) (NCBI Reference Sequence: WP_006111085.1), 나트로노루브룸 티베텐스 (Natronorubrum tibetense) (NCBI Reference Sequence: WP_006090832.1), 나트리네마 펠리루브룸 (Natrinema pellirubrum) (NCBI Reference Sequence: WP_006183335.1) 또는 시네코코커스 spp. (Synechococcus spp.) (NCBI Reference Sequence: WP_011378069.1) 유래의 Argonaute 뉴클레아제, 또는 닉카제 또는 엔도뉴클레오분해 활성이 결핍된 뉴클레아제 등의 이들의 변이체 및/또는 기능성 단편 및/또는 조합물로 이루어진 군으로부터 선택된다.
본 발명에 따른 제2 측면에서, 본 발명은, 하나 이상의 게놈 돌연변이를 특징으로 하는 질환의 치료 방법에 사용하기 위한 전술한 구현예들 중 임의 방법에 따른 인공 분자 복합체를 제공하며, 인공 분자 복합체는 하나 이상의 게놈 돌연변이를 타겟팅 및 복구하도록 구성된다. 이에, 전술한 임의 하나에 따른 인공 분자 복합체를 이용해 하나 이상의 게놈 돌연변이를 특징으로 하는 질환을 치료하는 방법을 제공하며, 인공 분자는 하나 이상의 게놈 돌연변이를 타겟팅 및 복구하도록 구성된다.
다른 측면에서, 본 발명은 전술한 임의의 한가지 측면 및/또는 구현예에 따른 하나 이상의 인공 분자 복합체를 포함하거나 또는 이에 의해 편집된 식물, 식물 세포, 식물 물질 또는 이의 파생물 또는 이의 후대를 제공한다.
또 다른 측면에서, 본 발명은 (i) 대상 게놈 영역 내 하나 이상의 게놈 상보성 서열 및 하나 이상의 DNA 타겟 서열을 포함하는 하나 이상의 원핵생물, 진핵생물 또는 바이러스의 세포 및/또는 게놈을 제공하는 단계; (ii) 전술한 임의의 하나의 측면 및/또는 구현예에 따라 정의되는 하나 이상의 인공 분자 복합체를 제공하는 단계; (iii) (a) 하나 이상의 부위-특이적인 뉴클레아제와 하나 이상의 DNA 타겟 서열의 상호작용; 및 (b) 하나 이상의 복구 주형 핵산 서열과 하나 이상의 게놈 상보성 서열의 상보적인 염기 쌍 형성을 달성하기에 적합한 조건 하에, 하나 이상의 인공 분자 복합체를 하나 이상의 DNA 타겟 서열과 접촉시켜, 하나 이상의 상보성 서열의 인지 및 하나 이상의 부위-특이적인 뉴클레아제에 의한 하나 이상의 DNA 절단 유도를 달성하는 단계로서, 하나 이상의 복구 주형 핵산 서열이 하나 이상의 DNA 타겟 서열의 부위에서 상동성 특이적인 복구를 이행하는 단계; 및 (iv) 하나 이상의 DNA 타겟 서열에 변형을 포함하는 하나 이상의 원핵생물, 진핵생물 또는 바이러스의 세포 및/또는 게놈을 수득하는 단계를 포함한다.
전술한 측면에 대한 일 구현예에서, 본 발명은 하나 이상의 DNA 타겟 서열을 변형하는 방법을 제공하며, 여기서 인공 분자 복합체의 하나 이상의 복구 주형 핵산 서열 및/또는 하나 이상의 복구 주형 도킹 도메인은, 하나 이상의 분자 복합체의 하나 이상의 부위-특이적인 뉴클레아제와는 독립적으로, 하나 이상의 원핵생물, 진핵생물 또는 바이러스의 세포 및/또는 게놈에 제공되고, 하나 이상의 인공 분자 복합체는 하나 이상의 원핵생물, 진핵생물 또는 바이러스의 세포 및/또는 게놈 내에서 조립 또는 부분적으로 조립된다.
전술한 측면에 대한 다른 구현예에서, 본 발명은, 하나 이상의 인공 분자 복합체가 생체 외에서 조립된 인공 분자 복합체인, 하나 이상의 DNA 타겟 서열을 변형하는 방법을 제공한다.
전술한 측면에 대한 다른 구현예에서, 하나 이상의 진핵생물 세포가 식물 세포이고, 바람직하게는 호르데움 불가리 (Hordeum vulgare), 호르데움 불부숨 (Hordeum bulbusom), 소르굼 비콜러 (Sorghum bicolor), 사카룸 오피시나리움 (Saccharum officinarium), 지 메이스 (Zea mays) 등의 지 spp. (Zea spp.), 세타리아 이탈리카 (Setaria italica), 오리자 미누타 (Oryza minuta), 오리자 사티바 (Oriza sativa), 오리자 아우스트랄리엔시스 (Oryza australiensis), 오리자 알타 (Oryza alta), 트리티쿰 에이스티붐 (Triticum aestivum), 트리티쿰 두럼 (Triticum durum), 세칼레 세레알레 (Secale cereale), 트리티칼레 (Triticale), 말루스 도메스티카 (Malus domestica), 브라키포듐 디스타키온 (Brachypodium distachyon), 호르데움 마리눔 (Hordeum marinum), 에이길롭스 타우치이 (Aegilops tauschii), 다우쿠스 글로키디아투스 (Daucus glochidiatus), 베타 불가리스 (Beta vulgaris) 등의 베타 spp., 다우쿠스 푸실루스 (Daucus pusillus), 다우쿠스 무리카투스 (Daucus muricatus), 다우쿠스 카로타 (Daucus carota), 유칼립투스 그란디스 (Eucalyptus grandis), 니코티아나 실베스트리스 (Nicotiana sylvestris), 니코티아나 토멘토시포르미스 (Nicotiana tomentosiformis), 니코티아나 타바쿰 (Nicotiana tabacum), 니코티아나 벤타미아나 (Nicotiana benthamiana), 솔라눔 라이코퍼시쿰 (Solanum lycopersicum), 솔라눔 투베로숨 (Solanum tuberosum), 코페아 카네포라 (Coffea canephora), 비티스 비니페라 (Vitis vinifera), 에리트란테 구타타 (Erythrante guttata), 겐리시아 아우레아 (Genlisea aurea), 쿠쿠미스 사티부스 (Cucumis sativus), 마루스 노타빌리스 (Marus notabilis), 아라비돕시스 아레노사 (Arabidopsis arenosa), 아라비돕시스 라이라타 (Arabidopsis lyrata), 아라비돕시스 탈리아나 (Arabidopsis thaliana), 크루시히말라야 히말라이카 (Crucihimalaya himalaica), 크루시히말라야 발리치이 (Crucihimalaya wallichii), 카르다민 넥수오사 (Cardamine nexuosa), 레피디움 비르기니쿰 (Lepidium virginicum), 캡셀라 부르사 파스토리스 (Capsella bursa pastoris), 올마라비돕시스 푸밀라 (Olmarabidopsis pumila), 아라비스 히르수테 (Arabis hirsute), 브라씨카 나푸스 (Brassica napus), 브라씨카 올레라시아 (Brassica oleracea), 브라씨카 라파 (Brassica rapa), 라파누스 사티부스 (Raphanus sativus), 브라씨카 준카시아 (Brassica juncacea), 브라씨카 니그라 (Brassica nigra), 에루카 베시카리아 아종 사티바 (Eruca vesicaria subsp. sativa), 시트러스 시넨시스 (Citrus sinensis), 자트로파 쿠르카스 (Jatropha curcas), 포풀루스 트리코카르파 (Populus trichocarpa), 메디카고 트룬카툴라 (Medicago truncatula), 시져 야마시타 (Cicer yamashitae), 시져 비주굼 (Cicer bijugum), 시져 아리에티눔 (Cicer arietinum), 시져 레티쿨라툼 (Cicer reticulatum), 시져 주다이쿰 (Cicer judaicum), 카야누스 카자니폴리우스 (Cajanus cajanifolius), 카야누스 스카라바에오이데스 (Cajanus scarabaeoides), 파세올루스 불가리스 (Phaseolus vulgaris), 글리신 맥스 (Glycine max), 고씨퓸 (Gossypium sp.), 아스트라갈루스 시니쿠스 (Astragalus sinicus), 로투스 자포니카스 (Lotus japonicas), 토레니아 포우르니에리 (Torenia fournieri), 알리움 세파 (Allium cepa), 알리움 피스툴로숨 (Allium fistulosum), 알리움 사티붐 (Allium sativum), 헬리안투스 안누스 (Helianthus annuus), 헬리안투스 투베로수스 (Helianthus tuberosus) 및 알리움 투베로숨 (Allium tuberosum), 또는 전술한 식물들 중 하나에 속하는 임의 품종 또는 아종으로 이루어진 군으로부터 선택되는 식물의 식물 세포인, 하나 이상의 DNA 타겟 서열을 변형시키는 방법을 제공한다.
다른 구현예에서, 본 발명은, 하나 이상의 DNA 타겟 서열의 변형이 수율 개선; 건조 스트레스, 삼투성 스트레스, 열 스트레스, 한랭 스트레스, 산화 스트레스, 중금속 스트레스, 염 스트레스 또는 침수 (waterlogging) 등의 비-생물적 스트레스에 대한 저항성; 곤충 내성, 박테리아 내성, 바이러스 내성, 진균 내성 또는 선충 내성 등의 생물 스트레스에 대한 저항성; 글리포세이트, 글루포시네이트, ALS 저해제 및 Dicamba 등의 제초제 저항성, 내도복성 (lodging resistance), 개화 시기, 내탈립성, 종자 색, 배젖 조성, 영양분 함량, 또는 하나 이상의 식물 세포에서 분자 조작 기법 (molecular pharming approach)을 허용하는 게놈 편집 등의 대사 조작으로 이루어진 군으로부터 선택되는 형질 편집을 유발하는, 하나 이상의 DNA 타겟 서열을 변형시키는 방법을 제공한다.
또한, 본 발명은, (v) 하나 이상의 DNA 타겟 서열에 변형을 포함하는 하나 이상의 원핵생물, 진핵생물 또는 바이러스의 게놈 및/또는 서열을 동정 및/또는 선별하는 단계를 더 포함하는, 하나 이상의 DNA 타겟 서열을 변형시키는 방법을 제공한다.
또 다른 측면에서, 본 발명은 (i) 하나 이상의 진핵생물 세포가 식물 세포인 전술한 측면 및/또는 구현예들 중 임의 하나에 따른 방법을 수행하는 단계; (ii) 단계 (i)의 하나 이상의 식물 세포로부터 하나 이상의 식물 또는 그 후대를 수득하는 단계; 선택적으로, (iii) 하나 이상의 식물 또는 그 후대의 하나 이상의 세포에서 하나 이상의 DNA 타겟 서열 내 변형을 확인하는 단계를 포함하는, 식물 또는 식물 세포의 제조 방법을 제공한다.
일 구현예에서, 본 발명은, 하나 이상의 식물 또는 식물 세포가 외떡잎 식물 또는 쌍떡잎 식물로부터 선택되고, 바람직하게는, 식물이 호르데움 불가리 (Hordeum vulgare), 호르데움 불부숨 (Hordeum bulbusom), 소르굼 비콜러 (Sorghum bicolor), 사카룸 오피시나리움 (Saccharum officinarium), 지 메이스 (Zea mays) 등의 지 spp. (Zea spp.), 세타리아 이탈리카 (Setaria italica), 오리자 미누타 (Oryza minuta), 오리자 사티바 (Oriza sativa), 오리자 아우스트랄리엔시스 (Oryza australiensis), 오리자 알타 (Oryza alta), 트리티쿰 에이스티붐 (Triticum aestivum), 트리티쿰 두럼 (Triticum durum), 세칼레 세레알레 (Secale cereale), 트리티칼레 (Triticale), 말루스 도메스티카 (Malus domestica), 브라키포듐 디스타키온 (Brachypodium distachyon), 호르데움 마리눔 (Hordeum marinum), 에이길롭스 타우치이 (Aegilops tauschii), 다우쿠스 글로키디아투스 (Daucus glochidiatus), 베타 불가리스 (Beta vulgaris) 등의 베타 spp., 다우쿠스 푸실루스 (Daucus pusillus), 다우쿠스 무리카투스 (Daucus muricatus), 다우쿠스 카로타 (Daucus carota), 유칼립투스 그란디스 (Eucalyptus grandis), 니코티아나 실베스트리스 (Nicotiana sylvestris), 니코티아나 토멘토시포르미스 (Nicotiana tomentosiformis), 니코티아나 타바쿰 (Nicotiana tabacum), 니코티아나 벤타미아나 (Nicotiana benthamiana), 솔라눔 라이코퍼시쿰 (Solanum lycopersicum), 솔라눔 투베로숨 (Solanum tuberosum), 코페아 카네포라 (Coffea canephora), 비티스 비니페라 (Vitis vinifera), 에리트란테 구타타 (Erythrante guttata), 겐리시아 아우레아 (Genlisea aurea), 쿠쿠미스 사티부스 (Cucumis sativus), 마루스 노타빌리스 (Marus notabilis), 아라비돕시스 아레노사 (Arabidopsis arenosa), 아라비돕시스 라이라타 (Arabidopsis lyrata), 아라비돕시스 탈리아나 (Arabidopsis thaliana), 크루시히말라야 히말라이카 (Crucihimalaya himalaica), 크루시히말라야 발리치이 (Crucihimalaya wallichii), 카르다민 넥수오사 (Cardamine nexuosa), 레피디움 비르기니쿰 (Lepidium virginicum), 캡셀라 부르사 파스토리스 (Capsella bursa pastoris), 올마라비돕시스 푸밀라 (Olmarabidopsis pumila), 아라비스 히르수테 (Arabis hirsute), 브라씨카 나푸스 (Brassica napus), 브라씨카 올레라시아 (Brassica oleracea), 브라씨카 라파 (Brassica rapa), 라파누스 사티부스 (Raphanus sativus), 브라씨카 준카시아 (Brassica juncacea), 브라씨카 니그라 (Brassica nigra), 에루카 베시카리아 아종 사티바 (Eruca vesicaria subsp. sativa), 시트러스 시넨시스 (Citrus sinensis), 자트로파 쿠르카스 (Jatropha curcas), 포풀루스 트리코카르파 (Populus trichocarpa), 메디카고 트룬카툴라 (Medicago truncatula), 시져 야마시타 (Cicer yamashitae), 시져 비주굼 (Cicer bijugum), 시져 아리에티눔 (Cicer arietinum), 시져 레티쿨라툼 (Cicer reticulatum), 시져 주다이쿰 (Cicer judaicum), 카야누스 카자니폴리우스 (Cajanus cajanifolius), 카야누스 스카라바에오이데스 (Cajanus scarabaeoides), 파세올루스 불가리스 (Phaseolus vulgaris), 글리신 맥스 (Glycine max), 고씨퓸 (Gossypium sp.), 아스트라갈루스 시니쿠스 (Astragalus sinicus), 로투스 자포니카스 (Lotus japonicas), 토레니아 포우르니에리 (Torenia fournieri), 알리움 세파 (Allium cepa), 알리움 피스툴로숨 (Allium fistulosum), 알리움 사티붐 (Allium sativum), 헬리안투스 안누스 (Helianthus annuus), 헬리안투스 투베로수스 (Helianthus tuberosus) 및 알리움 투베로숨 (Allium tuberosum), 또는 전술한 식물들 중 하나에 속하는 임의 품종 또는 아종으로 이루어진 군으로부터 선택되는, 식물 또는 식물 세포의 제조 방법을 제공한다.
다른 측면에서, 본 발명은 원핵생물, 진핵생물 또는 바이러스 세포, 게놈 또는 유기체, 바람직하게는 식물 세포 또는 유기체에서 게놈 조작을 위한 전술한 측면 및/또는 구현예들 중 임의 하나에 따른 하나 이상의 인공 분자 복합체의 용도를 제공한다.
본 발명의 추가적인 측면들과 구현예들은 후술한 설명, 도면, 서열목록뿐만 아니라 첨부된 청구항으로부터 파생될 수 있다.
도 1 A - D (도 1 A - D)는 본 발명에 따른 여러가지 RNA-DNA 하이브리드 또는 DNA-DNA 핵산 서열들, 하나 이상의 복구 주형 도킹 도메인 (RTDD) 및/또는 하나 이상의 상호작용 도메인 (IA)을 제시하는 가이드 핵산 영역의 가능한 구성과 여러가지 결합 방식들에 대한 비-제한적인 예를 나타낸 것이다. (A) 단일 가닥의 복구 주형 (RT) (ssDNA)과, sgRNA 또는 tracrRNA 또는 gDNA로서 기능하는 서열을 함유한 가이드 핵산 분자의 왓슨-크릭 염기 쌍 형성에 의한 비-공유 결합. (B) 단일 가닥 RT (ssDNA)와 가이드 핵산 분자의 공유 결합. 이 형태는 단일 분자로서 RTDD 가이드 핵산 분자 및 RT 영역의 순차적 합성에 의해, 또는 분리된 영역들의 라이게이션에 의한 단일 분자 형성에 의해 제조될 수 있다. (C) 가이드 핵산 분자와 이중 가닥 RT (dsDNA)의 비-공유 결합. (D) 가이드 핵산 분자와 이중 가닥 RT (dsDNA)의 공유 결합.
도 2 A - C (도 2 A - C)는 본 발명에 따른 하나 이상의 RTDD 및/또는 하나 이상의 IA로서 가이드 핵산 분자에 RT가 부착 또는 조합될 수 있는 가능한 위치에 대한 비-제한적인 예들을 도시한 것이다. (A) 가이드 핵산 분자의 3' 말단에 단일 가닥 또는 이중 가닥 RT의 공유 또는 비-공유 결합. (B) 가이드 핵산 분자의 5' 말단에 단일 가닥 또는 이중 가닥 RT의 공유 또는 비-공유 결합. (C) 가이드 핵산 분자의 내부에 단일 가닥 또는 이중 가닥 RT의 공유 또는 비-공유 결합. 복구 주형 (RT) 영역은 본 도면과 이후 모든 도면들에서 백색으로 표시된다.
도 3 A - E (도 3 A - E)는 예로서 가이드 핵산 분자의 3' 말단과 RT의 공유 결합에 대한 일 구현예를 이용해, 본원에 기술된 부위 특이적인 뉴클레아제 (SSN) 뉴클레아제 복합체와 상호작용하는 게놈 서열에 편집을 단계적으로 도입하는 비-제한적인 예를 도시한다. (A) SSN, 예컨대, NgAgo, Cas, 예로 Cas9, CasX 또는 CasY, 또는 Cpf1과 복합체를 형성한 가이드 핵산 분자의 가이드 핵산 분자에 대한 개략적인 도시. (B) 타겟 DNA (게놈 DNA (gDNA))에 결합된 복합체와 절단 부위 (검정 삼각형)를 나타낸 도. (C) 절단된 타겟 DNA에 대한 개략도. (D) SSN 및 상보적인 왓슨-크릭 염기 쌍 형성에 의한 복구 주형 (RT)과의 상호작용에 의해 분리된 절단된 타겟 DNA에 대한 개략도. (E) 상동적인 재조합 과정 중에 RT로부터 복사된 편집 (회색)을 포함하는 복구된 타겟 부위 (gDNA)를 개략적으로 도시한 도. 복구 주형 (RT) 영역은 도면에 백색으로 표시된다.
도 4 A - C (도 4 A - C)는, SSN으로서 핵산-안내된 엔도뉴클레아제 및 복구 주형 (RT)과 직접 또는 간접적으로 결합할 수 있는 결합력을 가진 상호작용 도메인 (IA)으로서 단백질 또는 단백질 도메인으로 된 융합 단백질을 설계하기 위한 비-제한적인 예를 나타낸 것이다. (A) 타겟 DNA와의 복합체로서 융합 단백질에 대한 개략도. (B) 이중 가닥 절단 도입 후 복합체에 대한 개략도. 핵산-안내된 엔도뉴클레아제는 타겟 DNA에서 해리된다. 융합된 핵산 복구 주형은 상동성에 기반한 방식으로 타겟 영역과 복합체를 형성한다. (C) 상동성-특이이적인 복구 후 타겟 DNA의 개략도. 특히, 나타낸 방식은 게놈 조작 복합체에 정확성을 부여하기 위해 RTDD를 2개 이상 사용한다.
도 5는 RTDD1과 융합하여 E. coli에서 발현시킨 정제된 뉴클레아제 (이 경우, CRISPR 뉴클레아제)를 좌측 패널에 나타낸다. 연속 변성 농도 구배 (4-10%) SDS 겔에서 전기영동하였으며, 단백질의 품질 및 순도를 확인한다. 겔에서 단백질을 염색하였다. 우측 패널은 테더링 (tethering)을 보여준다. 이는 4% 비-변성 아크릴아미드 겔 (Blue Native PAGE)이며, DNA는 GelRed로 염색한다. FAM-표지된 (RTDD2-) 복구 주형은 좌측에 나타낸 뉴클레아제-RTDD1을 첨가하거나 또는 첨가하지 않고 뉴클레아제 완충제 중에서 인큐베이션하였다. 단백질이 존재할 경우, DNA에서 나타난 바와 같은 테더링은 고 분자량 수준에서 검출된다 (화살표).
도 6은 타겟 부위의 야생형 서열의 일부로서 1번 라인 (전장 서열은 서열번호 47에 나타냄), INDEL 경우 2번 라인 및 3번 라인 (전장 서열은 서열번호 48 및 49에 나타냄), 정확한 HDR 이벤트의 경우 4번 라인 (전장 서열은 서열번호 50에 나타냄), 그리고 5번 라인 (전장 서열은 서열번호 51에 나타냄)에서 복구 주형을 나타낸다.
도 7은 뉴클레아제 무첨가 (좌측 막대) 및 첨가 (우측 막대)시 복구 주형의 표준화된 HDR 효율을 비교 도시한 것이다.
정의
본원에서, 단수 형태 (정관사 및 부정관사 ("a" "an" 및 "the"))는 문맥 상 명확하게 달리 언급되지 않은 한 복수의 언급도 포함하는 것임에 유념하여야 한다. 예를 들어, 구성성분을 언급하는 것은 복수의 구성성분들로 된 조성물을 포함하는 것으로 의도된다. "a" 구성요소를 포함하는 조성물을 언급하는 것은 언급된 것 외에도 다른 구성요소를 포함하는 것으로 의도된다. 즉, 용어 "a" "an" 및 "the"는 수적인 제한을 나타내는 것이 아니라 언급된 항목이 하나 이상 존재하는 것을 의미한다. 각 용어는 당해 기술 분야의 당업자가 이해하는 가장 넓은 의미로 간주되며, 비슷한 목적을 달성하기 위해 유사한 방식으로 작동하는 모든 기술적인 균등물을 포괄하는 것으로 의도된다.
범위는 본원에서 "약" 또는 "대략" 또는 "실질적으로" 하나의 특정 수치에서 및/또는 "약" 또는 "대략" 또는 "실질적으로 다른 특정 수치까지로 표현될 수 있다. 이러한 범위로 표현되는 경우, 그외 예시적인 구현예들은 하나의 특정 수치에서 및/또는 다른 특정 수치까지를 포함한다. 나아가, 용어 "약"은, 수치가 측정 또는 결정되는 방식, 즉 측정 시스템의 한계에 따라 일부 결정되는, 당해 기술 분야의 당업자에 의해 결정된 특정 수치에 대한 허용가능한 오류 범위 내인 것으로 이해된다. 예를 들어, "약"은 당해 기술 분야에서 실시시 허용가능한 표준 편차 내인 것을 의미할 수 있다. 다른 예로, "약"은 주어진 수치에서 최대 ±20%, 바람직하게는 최대 ±10%, 더 바람직하게 최대 ±5%, 더 더 바람직하게 최대 ±1%의 범위를 의미할 수 있다. 다른 예로, 생물 시스템 또는 프로세스와 특히 관련하여, 이 용어는 수치의 자릿수 이내, 바람직하게는 2배수 이내를 의미할 수 있다. 구체적인 수치가 출원서 및 청구항에 기술되어있을 경우, 달리 언급되지 않은 한, 용어 "약"은 내포된 것이며, 문맥 상 구체적인 수치에 대해 허용가능한 오류 범위 내인 것을 의미한다.
"포함하는" 또는 "함유하는" 또는 "비롯하여"는 적어도 언급된 화합물, 요소, 입자 또는 방법 단계가 조성물 또는 물품 또는 방법에 존재하는 것을 의미하지만, 다른 화합물, 물질, 입자, 방법 단계가 언급된 바와 동일한 기능을 가지고 있더라도, 다른 화합물, 물질, 입자, 방법 단계의 존재를 배제하는 것은 아니다.
본원에서, "핵산"은 폴리뉴클레오티드를 의미하며, 데옥시리보뉴클레오티드 또는 리보뉴클레오티드 염기로 된 단일 가닥 또는 이중 가닥 폴리머를 포함한다. 또한, 핵산은 단편 및 변형된 뉴클레오티드를 포괄할 수 있다. 즉, 용어 "폴리뉴클레오티드", "핵산 서열", "뉴클레오티드 서열" 및 "핵산 단편"은 상호 호환적으로 단일 가닥 또는 이중 가닥의, 선택적으로 합성, 비-천연 또는 변형된 뉴클레오티드 염기를 함유한, RNA 및/또는 DNA로 된 폴리머를 지칭하는 것으로 사용된다. 뉴클레오티드 (통상적으로 5' 모노포스페이트 형태로 확인됨)는 다음과 같이 단문자 명칭으로 언급된다: "A" = 아데노신 또는 데옥시아데노신 (각각 RNA 또는 DNA), "C" = 시토신 또는 데옥시시토신, "G" = 구아노신 또는 데옥시구아노신, "U" = 우리딘, "T" = 데옥시티미딘, "R" = 퓨린 (A 또는 G), "Y" = 피리미딘 (C 또는 T), "K" = G 또는 T, "H" = A 또는 C 또는 T, "I" = 이노신, 및 "N" = 임의의 뉴클레오티드. 핵산은 뉴클레오티드를 포함할 수 있다. 핵산은 세포에 외인성 또는 내인성일 수 있다. 핵산은 무-세포성 환경 (cell-free environment)에 존재할 수 있다. 핵산은 유전자 또는 이의 단편일 수 있으나, 핵산이 반드시 유전자를 코딩하여야 하는 것은 아니다. 핵산은 DNA일 수 있다. 핵산은 RNA일 수 있다. 핵산은 하나 이상의 유사체 (예, 변형된 백본, 당 또는 뉴클레오베이스)를 포함할 수 있다. 유사체에 대한 일부 비-제한적인 예로는 5-브로모우라실, 펩타이드 핵산, 제노 (xeno) 핵산, 모르폴리노, 자물쇠형 핵산 (locked nucleic acid), 글리콜 핵산, 트레오스 핵산, 다이데옥시뉴클레오티드, 코르디세핀 (cordycepin), 7-데아자-GTP, 형광단 (예, 로다민 또는 당이 연결된 플루오레세인), 티올 함유 뉴클레오티드, 바이오틴 연결된 뉴클레오티드, 플루오레센트 베이스 유사체, CpG 아일랜드, 메틸-7-구아노신, 메틸화된 뉴클레오티드, 이노신, 티오우리딘, 20 슈도우리딘, 다이하이드로우리딘, 퀘우로신 (queuosine) 및 와이오신 (wyosine) 등이 있다. 본 발명에 따른 핵산은, 예를 들어 천연적으로 형성되는 포스포다이에스테르 연결에 의해, 또는 포스포로티오에이트 연결에 의해, 또는 이들의 혼합에 의해 연결될 수 있다.
용어 "가이드 RNA", "gRNA" 또는 "싱글 가이드 RNA" 또는 "sgRNA"는 본원에서 상호 호환적으로 사용되며, CRISPR RNA (crRNA)와 트랜스-활성화 crRNA (tracrRNA)로 된 합성 융합체를 지칭하거나, 또는 이 용어는 crRNA 및/또는 tracrRNA로만 이루어진 단일 RNA 분자를 지칭하거나, 또는 이 용어는 crRNA 또는 tracrRNA 모이어티를 각각 포함하는 gRNA들을 지칭한다. tracr 및 crRNA 모이어티가 따라서 하나의 공유 결합된 RNA 분자에 반드시 존재하여야 하는 것은 아니지만, 이는 2개의 개별 RNA 분자들로 구성될 수 있으며, 이들은 조합되거나 또는 비-공유 또는 공유 상호작용에 의해 조합되어 본원에 따른 gRNA를 제공할 수 있다. 용어 "gDNA" 또는 "sgDNA" 또는 "가이드 DNA"는 본원에서 상호 호환적으로 사용되며, Argonaute 뉴클레아제와 상호작용하는 핵산 분자를 지칭한다. 본원에 언급된 gRNA 및 gDNA 둘다, 부위-특이적인 뉴클레아제와 상호작용하여 부위-특이적인 뉴클레아제를 게놈 타겟 부위로 타겟팅하는 것을 보조하는 능력으로 인해, "가이딩 핵산(들)" 또는 "가이드 핵산(들)"로 지칭된다.
용어 "유전자 편집", "게놈 편집" 및 "게놈 조작"은 본원에서 상호 호환적으로 사용되며, 살아있는 유기체의 게놈 또는 임의의 유전자 정보를 타겟화된 방식으로 특이적으로 변형시키는 전략 및 기법을 지칭한다. 이와 같이, 이들 용어는 유전자 편집을 포함하며, 게놈의 유전자 코딩 영역 이외의 다른 영역의 편집 역시 포함한다. 이 용어는 또한 (존재하는 경우) 핵의 편집 또는 조작뿐만 아니라 세포의 다른 유전자 정보를 편집 또는 조작하는 것을 포함한다. 아울러, 용어 "게놈 편집" 및 "게놈 조작"은 또한 후생유전학적 편집 (epigenetic editing) 또는 조작, 즉 타겟화된 변형, 예를 들어 유전자 발현시 유전가능한 변화를 유발할 가능성이 있는 비-코딩 RNA의 메틸화, 히스톤 변형을 포함한다.
서열 또는 분자와 관련하여 용어 "뉴클레오티드" 및 "핵산"은 본원에서 상호 호환적으로 사용되며, 천연 또는 합성 기원의 단일 가닥 또는 이중 가닥 DNA 또는 RNA를 지칭한다. 즉, 용어 뉴클레오티드 서열은 길이와 무관하게 모든 DNA 또는 RNA 서열에 사용되며, 따라서 이 용어는 하나 이상의 뉴클레오티드를 포함하는 임의의 뉴클레오티드 서열 뿐만 아니라 이 보다 더 큰 임의 타입의 올리고뉴클레오티드 또는 폴리클레오티드를 포괄한다. 즉, 이 용어(들)는 천연 및/또는 합성 데옥시리보뉴클레익산 (DNA) 및/또는 리보뉴클레익산 (RNA) 서열을 지칭하며, 이는 선택적으로 합성 핵산 유사체를 포함할 수 있다. 본 발명에 따른 핵산은 선택적으로 코돈 최적화될 수 있다. 코돈 최적화는, 대상 세포 또는 유기체에서 재조합 핵산의 전사율을 개선하기 위해 DNA 또는 RNA의 코돈 용법을 대상 세포 또는 유기체에 적합하게 하는 것을, 의미한다. 당해 기술 분야의 당업자라면, 타겟 핵산이 코돈 중복 (codon degeneracy)으로 인해 하나의 위치에서 변형될 수 있지만, 이러한 변형이 번역 후 그 위치에서 여전히 동일한 아미노산 서열을 만들고자 한다면, 이는 타겟 세포 또는 유기체의 종-특이적인 코돈 용법을 고려하기 위해 코돈 최적화에 의해 달성됨을, 잘 알 것이다. 본 발명에 따른 핵산 서열은 다음과 같은 비-제한적인 유기체 리스트에 대해 특이적인 코돈 최적화를 수행할 수 있다: 호르데움 불가리 (Hordeum vulgare), 소르굼 비콜러 (Sorghum bicolor), 세칼레 세레알레 (Secale cereale), 트리티칼레 (Triticale), 사카룸 오피시나리움 (Saccharum officinarium), 지 메이스 (Zea mays), 세타리아 이탈리카 (Setaria italica), 오리자 사티바 (Oriza sativa), 오리자 미누타 (Oryza minuta), 오리자 아우스트랄리엔시스 (Oryza australiensis), 오리자 알타 (Oryza alta), 트리티쿰 에이스티붐 (Triticum aestivum), 트리티쿰 두럼 (Triticum durum), 트리티칼레 (Triticale), 호르데움 불부숨 (Hordeum bulbusom), 브라키포듐 디스타키온 (Brachypodium distachyon), 호르데움 마리눔 (Hordeum marinum), 에이길롭스 타우치이 (Aegilops tauschii), 말루스 도메스티카 (Malus domestica), 베타 불가리스 (Beta vulgaris), 헬리안투스 안누스 (Helianthus annuus), 다우쿠스 글로키디아투스 (Daucus glochidiatus), 다우쿠스 푸실루스 (Daucus pusillus), 다우쿠스 무리카투스 (Daucus muricatus), 다우쿠스 카로타 (Daucus carota), 유칼립투스 그란디스 (Eucalyptus grandis), 에리트란테 구타타 (Erythranthe guttata), 겐리시아 아우레아 (Genlisea aurea), 니코티아나 실베스트리스 (Nicotiana sylvestris), 니코티아나 타바쿰 (Nicotiana tabacum), 니코티아나 토멘토시포르미스 (Nicotiana tomentosiformis), 니코티아나 벤타미아나 (Nicotiana benthamiana), 솔라눔 라이코퍼시쿰 (Solanum lycopersicum), 솔라눔 투베로숨 (Solanum tuberosum), 코페아 카네포라 (Coffea canephora), 비티스 비니페라 (Vitis vinifera), 쿠쿠미스 사티부스 (Cucumis sativus), 마루스 노타빌리스 (Marus notabilis), 아라비돕시스 탈리아나 (Arabidopsis thaliana), 아라비돕시스 라이라타 (Arabidopsis lyrata), 아라비돕시스 아레노사 (Arabidopsis arenosa), 크루시히말라야 히말라이카 (Crucihimalaya himalaica), 크루시히말라야 발리치이 (Crucihimalaya wallichii), 카르다민 플렉수오사 (Cardamine flexuosa), 레피디움 비르기니쿰 (Lepidium virginicum), 캡셀라 부르사 파스토리스 (Capsella bursa pastoris), 올마라비돕시스 푸밀라 (Olmarabidopsis pumila), 아라비스 히르수테 (Arabis hirsute), 브라씨카 나푸스 (Brassica napus), 브라씨카 올레라시아 (Brassica oleracea), 브라씨카 라파 (Brassica rapa), 브라씨카 준카시아 (Brassica juncacea), 브라씨카 니그라 (Brassica nigra), 라파누스 사티부스 (Raphanus sativus), 에루카 베시카리아 사티바 (Eruca vesicaria sativa), 시트러스 시넨시스 (Citrus sinensis), 자트로파 쿠르카스 (Jatropha curcas), 글리신 맥스 (Glycine max), 고씨퓸 (Gossypium sp.), 포풀루스 트리코카르파 (Populus trichocarpa), 무스 무스쿨러스 (Mus musculus), 라투스 노르베기쿠스 (Rattus norvegicus) 또는 호모 사피엔스 (Homo sapiens).
본원에서, "비-천연" 또는 "비-천연적으로 발생하는" 또는 "인공"은 핵산 또는 폴리펩타이드 서열, 또는 천연 핵산 또는 단백질에서 발견되지 않는 바이오틴 또는 플루오레세인과 같은 임의의 기타 생체분자를 지칭할 수 있다. 비-천연은 친화성 태그를 지칭할 수 있다. 비-천연은 융합체를 지칭할 수 있다. 비-천연은 돌연변이, 삽입 및/또는 결손을 포함한 천연적으로 생기는 핵산 또는 폴리펩타이드 서열을 지칭할 수 있다. 비-천연 서열은, 비-천연 서열이 융합된 핵산 및/또는 폴리펩타이드 서열에 의해 발휘될 수 있는 활성 (예, 효소 활성, 메틸트랜스퍼라제 활성, 아세틸트랜스퍼라제 활성, 키나제 활성, 유비퀴틴화 활성 등)을 나타내거나 및/또는 코딩할 수 있다. 비-천연 핵산 또는 폴리펩타이드 서열은 천연적으로 발생하는 핵산 또는 폴리펩타이드 서열 (또는 이의 변이체)에 유전자 조작에 의해 연결되어, 키메라 핵산 및/또는 폴리펩타이드를 코딩하는 키메라 핵산 및/또는 폴리펩타이드 서열을 제작할 수 있다. 비-천연 서열은 3' 혼성화 연장 서열로 지칭될 수 있다.
본원에서, "뉴클레오티드"는 일반적으로 염기-당-포스페이트 조합물을 지칭할 수 있다. 뉴클레오티드는 합성 뉴클레오티드일 수 있다. 뉴클레오티드는 합성 뉴클레오티드 유사체를 포함할 수 있다. 뉴클레오티드는 핵산 서열로 된 모노머 단위일 수 있다 (예, 데옥시리보핵산 (DNA) 및 리보핵산 (RNA)). 용어 뉴클레오티드는 리보뉴클레오시드 트리포스페이트 아데노신 트리포스페이트 (ATP), 우리딘 트리포스페이트 (UTP), 시토신 트리포스페이트 (CTP), 구아노신 트리포스페이트 (GTP), 이노신 트리포스페이트 (ITP) 및 데옥시리보뉴클레오시드 트리포스페이트, 예를 들어 dATP, dCTP, dITP, dUTP, dGTP, dTTP 또는 이의 유도체를 포함할 수 있다. 이러한 유도체는 예를 들어, 비-제한적으로, [αS]dATP, 7-deaza-dGTP 및 7-deaza-dATP, 및 이를 함유한 핵산 분자에 뉴클레아제 내성을 부여하는 뉴클레오티드 유도체 등을 지칭할 수 있다. 용어 뉴클레오티드는 본원에서 다이데옥시리보뉴클레오시드 트리포스페이트 (ddNTP) 및 이의 유도체를 지칭할 수 있다. 다이데옥시리보뉴클레오시드 트리포스페이트에 대한 예시적인 예로는, 비-제한적으로, ddATP, ddCTP, ddGTP, ddITP 및 ddTTP 등을 포함할 수 있다. 뉴클레오티드는 널리 공지된 기법으로 검출가능하게 표지되거나 또는 비-표지될 수 있다. 또한, 표지는 양자점으로 수행될 수 있다. 검출가능한 표지 물질로는, 예를 들어, 방사성 동위원소, 형광 표지물질, 화학발광성 표지 물질, 생발광성 표지 물질 및 효소 표지 물질 등을 포함할 수 있다. 뉴클레오티드의 형광 표지 물질은 비-제한적으로 플루오레세인, 5-카르복시플루오레세인 (FAM), 2'7'-5 다이메톡시-4'5-다이클로로-6-카르복시플루오레세인 (JOE), 로다민, 6-카르복시로다민 (R6G), N,N,N',N'-테트라메틸-6-카르복시로다민 (TAMRA), 6-카르복시-X-로다민 (ROX), 4-(4'-다이메틸아미노페닐아조) 벤조산 (DABCYL), 케스케이드 블루, 오렌지 그린, 텍사스 레드, 시아닌 및 5-(2'-아미노에틸)아미노나프탈렌-l-설폰산 (EDANS) 등을 포함할 수 있다.
본원에서, "융합체"는 하나 이상의 비-천연 서열 (예, 모이어티)를 포함하는 단백질 및/또는 핵산을 지칭할 수 있다. 융합체는 변형된 단백질의 N-말단 또는 C-말단에, 이 둘다에 또는 개별 도메인으로서 분자 내부에 위치될 수 있다. 핵산 분자의 경우, 융합체 분자들은 5'- 또는 3'- 말단에서 또는 둘 사이 임의의 적절한 위치에서 부착될 수 있다. 융합체는 전사 및/또는 번역 융합체일 수 있다. 융합체는 하나 이상의 동일한 비-천연 서열을 포함할 수 있다. 융합체는 하나 이상의 서로 다른 비-천연 서열을 포함할 수 있다. 융합체는 키메라일 수 있다. 융합체는 핵산 친화성 태그를 포함할 수 있다. 융합체는 바코드를 포함할 수 있다. 융합체는 펩타이드 친화성 태그를 포함할 수 있다. 융합체는 Argonaute의 세포내 위치화를 제공할 수 있다 (예, 핵으로의 타겟팅을 위한 핵 위치화 신호 (NLS), 미토콘드리아로의 타겟팅을 위한 미토콘드리아 위치화 신호, 엽록체 타겟팅을 위한 엽록체 위치화 신호, 15 소포체 (ER) 체류 신호 등). 융합체는 추적 또는 정제하는데 사용될 수 있는 비-천연 서열 (예, 친화성 태그)을 제공할 수 있다. 융합체는 바이오틴과 같은 소분자 또는 alexa fluor 염료, Cyanine3 염료, Cyanine5 염료와 같은 염료일 수 있다. 융합체는 안정성 증가 또는 감소를 제공할 수 있다. 일부 구현예에서, 융합체는 검출가능한 신호를 제공할 수 있는 모이어티 등의 검출가능한 표지 물질을 포함할 수 있다. 검출가능한 신호를 제공할 수 있는 적합한 검출가능한 표지 물질 및/또는 모이어티로는, 비-제한적으로, 효소, 방사성 동위원소, 특이 결합 쌍의 구성원; 형광단; 플루오레센트 리포터 또는 형광 단백질; 양자점 등을 포함할 수 있다. 융합체는 FRET 쌍의 구성원, 또는 형광단/양자점 도너/어셉터 쌍의 구성원을 포함할 수 있다. 융합체는 효소를 포함할 수 있다. 적합한 효소로는 비-제한적으로 HRP (horse radish peroxidase), 루시퍼라제, β-25 갈락토시다제 등이 있을 수 있다. 융합체는 형광 단백질을 포함할 수 있다. 적합한 형광 단백질로는 비-제한적으로 그린 형광 단백질 (GFP) (예, 아큐오리아 빅토리아 (Aequoria victoria)의 GFP, 안구일라 자포니카 (Anguilla japonica)의 형광 단백질 또는 이의 돌연변이 또는 유도체), 레드 형광 단백질, 옐로우 형광 단백질, 옐로우-그린 형광 단백질 (예, 세팔로코르데이트 브란키오스토마 란세올라툼 (cephalochordate Branchiostoma lanceolatum)의 테트라머 형광 단백질로부터 유래된 mNeonGreen) 다양한 임의의 형광 및 유색 단백질 등을 포함할 수 있다. 융합체는 나노입자를 포함할 수 있다. 적합한 나노입자로는, 선택적으로 나노입자와 연결된, 형광 또는 발광 나노입자, 그리고 자기 나노입자 또는 나노다이아몬드를 포함할 수 있다. 나노입자(들)의 임의의 광학 또는 자기 특성 또는 특징을 검출할 수 있다. 융합체는 헬리카제, 뉴클레아제 (예, Fokl), 엔도뉴클레아제, 엑소뉴클레아제 (예, 5'-엑소뉴클레아제 및/또는 3'-엑소뉴클레아제), 리가제, 닉카제, 뉴클레아제-헬리카제 (예, Cas3), DNA 메틸트랜스퍼라제 (예, Dam), 또는 DNA 데메틸라제, 히스톤 메틸트랜스퍼라제, 히스톤 데메틸라제, 아세틸라제 (예를 들어, 비-제한적으로, 히스톤 아세틸라제), 데아세틸라제 (예를 들어, 비-제한적으로, 히스톤 데아세틸라제), 포스파타제, 키나제, 전사 (조) 활성인자, 전사 (조)인자, RNA 폴리머라제 서브유닛, 전사 억제자, DNA 결합 단백질, DNA 구조형성 단백질, 긴 비-코딩 RNA, DNA 복구 단백질 (예, 단일 가닥 및/또는 이중 가닥 절단을 복구하는데 참여하는 단백질, 예를 들어, 염기 절개 복구, 뉴클레오티드 절개 복구, 미스매치 복구, NHEJ, HR, MMEJ (microhomology-mediated end joining), 및/또는 ANHEJ (alternative non-homologous end-joining)에 참여하는 단백질, 예를 들어, 비-제한적으로 HR 조절인자 및 HR 복합체 조립 신호), 마커 단백질, 리포터 단백질, 형광 단백질, 리간드 결합 단백질 (예, mCherry 또는 중금속 결합 단백질), 신호 펩타이드 (예, Tat-신호 서열), 타겟팅 단백질 또는 펩타이드, 세포내 위치화 서열 (예, 핵 위치화 서열, 엽록체 위치화 서열), 및/또는 항체 에피토프, 또는 이들의 임의 조합을 포함할 수 있다.
본원에서 아미노산 서열과 관련하여 용어 "촉매적으로 활성인 단편"은, 주형 서열의 활성 부위 전체 또는 일부를 포함하는, 주어진 주형 아미노산 서열로부터 유래된 코어 서열 또는 이를 코딩하는 핵산 서열을 지칭하되, 단 수득되는 촉매적으로 활성인 단편은 천연 효소의 활성 부위 또는 이의 변이체가 담당하는 주형 서열의 특징적인 활성을 여전히 유지한다. 이러한 변형은 주형 서열과 동일한 활성을 여전히 가지고 있는 크기가 작은 아미노산 서열을 제작하여, 촉매적으로 활성인 단편을 보다 다목적의 또는 입체적으로 부담이 적은 보다 안정적인 툴을 만드는데 적합하다.
본원에 기술된 임의의 부위-특이적인 뉴클레아제의 "변이체"는 천연적으로 생기는 야생형 뉴클레아제의 활성을 변형시키기 위해 아생형 부위-특이적인 뉴클레아제와 비교해 하나 이상의 돌연변이, 결손 또는 삽입을 포함하는 분자를 의미한다. "변이체"는 비-제한적인 예로, 닉카제로서 작동하도록 변형된, 부위-특이적인 뉴클레아제 또는 촉매학적으로 비활성인 Cas9 (dCas9) 일 수 있다.
본원에서 용어 "전달 구조체" 또는 "전달 벡터"는 RNA 및 DNA를 포함하는 하이브리드 핵산 등이 핵산 및/또는 대상 아미노산 서열을 타겟 세포, 바람직하게는 진핵생물 세포로 수송하기 위한 카고로서 사용되는 임의의 생물학적 또는 화학적 수단을 지칭한다. 본원에서, 용어 전달 구조체 또는 벡터는 따라서 본 발명에 따른 유전자 또는 재조합 구조체를 타겟 세포, 조직, 장기 또는 유기체로 전달하기 위한 수송 수단을 지칭한다. 즉, 벡터는 핵산 서열을 포함할 수 있으며, 선택적으로 대상 타겟 세포 또는 식물 타겟 구조 내 식물의 바람직한 세포 구획으로 직접 또는 간접적으로 전달하기 위한 위치화 서열 또는 조절 서열과 같은 서열을 포함할 수 있다. 또한, 벡터는 아미노산 서열 또는 리보뉴클레오-분자 복합체를 타겟 세포 또는 타겟 구조에 도입하기 위해 사용될 수 있다. 통상적으로, 본원에서, 벡터는 플라스미드 벡터일 수 있다. 또한, 본 발명에 따른 일부 바람직한 구현예에서, 대상 구조체 또는 서열 또는 복합체의 직접 도입이 수행된다. 용어 직접 도입은, 본원에 따라 변형시킬 DNA 타겟 서열을 포함하는 원하는 타겟 세포 또는 타겟 구조가, 전달 벡터를 사용해 전달된 물질이 그 효과를 발휘하게 될 특이적인 대상 타겟 세포로, 직접 형질절환 또는 형질전이 또는 형질감염되는 것을 암시한다. 용어 간접 도입은 구조, 예를 들어, 그 자체가 형질전환될 실제 타겟 세포 또는 대상 구조는 아니지만 실제 타겟 구조, 예를 들어 분열 세포 또는 조직, 또는 줄기 세포 또는 조직으로, 바람직하게는 본 발명에 따른 유전자 구조체를 포함하는 벡터의 전신 전파 및 전달을 위한 토대로서 사용되는, 잎 세포 또는 기관 또는 조직의 세포로의 도입이 달성되는 것을 의미한다. 하이브리드 핵산 서열 등의 아미노산 서열 및/또는 핵산 서열로 타겟 세포를 형질감염시키는 맥락에서 용어 벡터가 사용되는 경우, 용어 벡터는 펩타이드 또는 단백질 형질감염에 적합한 물질, 예를 들어, 이온성 지질 혼합물, 세포 침투 펩타이드 (CPP) 또는 입자 총격 (particle bombardment)을 내포한다. 핵산 물질을 도입하는 맥락의 경우, 용어 벡터는 플라스미드 벡터뿐만 아니라 핵산 및/또는 아미노산 서열을 대상 타겟 세포로, 예를 들어 입자 총격에 의해 도입하기 위한 토대로 사용할 수 있는 적합한 담체 물질을 의미할 수 있다. 이러한 담체 물질은, 특히, 금 또는 텅스텐 입자를 포함한다. 마지막으로, 용어 벡터는 또한 본 발명에 따른 하나 이상의 유전자 구조체를 도입하기 위한 바이러스 벡터, 예를 들어, 다음과 같은 바이러스 균주로부터 유래된 변형된 바이러스의 사용을 의미한다: 아데노바이러스 또는 아데노부속 바이러스 (AAV) 벡터, 렌티바이러스 벡터, 헤르페스 심플렉스 바이러스 (HSV-1), 백시니아 바이러스, 센다이 바이러스, 신드비스 바이러스, 셈리키 포레스트 알파바이러스 (Semliki forest alphavirus), 엡스타인-바-바이러스 (EBV), 옥수수 스트리크 바이러스 (Maize Streak Virus, MSV), 보리 줄무늬 모자이크 바이러스 (Barley Stripe Mosaic Virus, BSMV), 브롬 모자이크 바이러스 (Brome Mosaic virus, BMV, 등재번호: RNA1: X58456; RNA2: X58457; RNA3: X58458), 옥수수 줄무늬 바이러스 (Maize stripe virus, MSpV), MYDV (Maize rayado fino virus), MYDV (Maize yellow dwarf virus), MDMV (Maize dwarf mosaic virus), Benyviridae 과의 (+) 가닥 RNA 바이러스, 예를 들어, 사탕무 엽맥황화 바이러스 (Beet necrotic yellow vein virus) (등재번호: RNA1: NC_003514; RNA2: NC_003515; RNA3: NC_003516; RNA4: NC_003517) 또는 Bromoviridae 과의 (+) 가닥 RNA 바이러스, 예를 들어, 속명 알파파 모자이크 바이러스 (Alfalfa mosaic virus, 등재번호: RNA1: NC_001495; RNA2: NC_002024; RNA3: NC_002025) 또는 속명 브로모바이러스 (Bromovirus), 예를 들어 BMV (상기 참조), 또는 속명 쿠쿠모바이러스 (Cucumovirus), 예를 들어, 오이 모자이크 바이러스 (Cucumber mosaic virus, 등재번호: RNA1: NC_002034; RNA2: NC_002035; RNA3: NC_001440), 속명 올레아바이러스 (Oleavirus), Caulimoviridae 과, 특히 바드나바이러스 (Badnavirus) 또는 콜리모바이러스 (Caulimovirus) 과의 dsDNA 바이러스, 예를 들어, 여러가지 바나나 스트리크 바이러스 (Banana streak viruse) (예, 등재번호: NC_007002, NC_015507, NC_006955 또는 NC_003381) 또는 콜리플라워 모자이크 바이러스 (등재번호: NC_001497), 또는 속명 카베모바이러스 (Cavemovirus), 페투바이러스 (Petuvirus), 로사드나바이러스 (Rosadnavirus), 솔렌도바이러스 (Solendovirus), 소이모바이러스 (Soymovirus) 또는 툰그로바이러스 (Tungrovirus), 또는 Closteroviridae 과의 (+) 가닥 RNA 바이러스, 예를 들어, 속명 앰펠로바이러스 (Ampelovirus), 크리니바이러스 (Crinivirus), 예를 들어, 상추 감염성 황색 바이러스 (Lettuce infectious yellows virus, 등재번호: RNA1: NC_003617; RNA2: NC_003618) 또는 토마토 클로로시스 바이러스 (등재번호: RNA1: NC_007340; RNA2: NC_007341), 클로스테로바이러스 (Closterovirus), 예로, 사탕무 황색 바이러스 (등재번호: NC_001598) 또는 벨라리바이러스 (Velarivirus), Geminiviridae 과의 단일 가닥 DNA (+/-) 바이러스, 예를 들어, 베쿠르토바이러스 (Becurtovirus), 베고모바이러스 (Begomovirus), 예를 들어, 빈 골든 옐로우 모자이크 바이러스 (Bean golden yellow mosaic virus), 토바코 컬리 쇼트 바이러스 (Tobacco curly shoot virus), 토바코 모틀 리프 컬 바이러스 (Tobacco mottle leaf curl virus), 토마토 클로로틱 모틀 바이러스 (Tomato chlorotic mottle virus), 토마토 위축 잎 바이러스 (Tomato dwarf leaf virus), 토마토 골든 모자이크 바이러스 (Tomato golden mosaic virus), 토마토 잎 말림 바이러스 (Tomato leaf curl virus), 토마토 모틀 바이러스 (Tomato mottle virus) 또는 토마토 옐로우 스팟 바이러스 (Tomato yellow spot virus), 또는 Geminiviridae 과의 속명 쿠르토바이러스 (Curtovirus), 예를 들어, 비트 컬리 탑 바이러스 (Beet curly top virus), 또는 Geminiviridae 과의 속명 토포쿠바이러스 (Topocuvirus), 턴큐트바이러스 (Turncurtvirus) 또는 마스트레바이러스 (Mastrevirus), 예를 들어 옥수수 스트리크 바이러스 (Maize streak virus)(상기 참조), 토바코 황화 위축 바이러스 (Tobacco yellow dwarf virus), 밀 위축 바이러스 (Wheat dwarf virus), Luteoviridae 과의 (+) 가닥 RNA 바이러스, 예를 들어, 속명 루테오바이러스 (Luteovirus), 예로, 보리 황화 위축 바이러스-PAV (Barley yellow dwarf virus-PAV, 등재번호: NC_004750), 또는 속명 폴레로바이러스 (Polerovirus), 예로, 감자 잎 말림 바이러스 (Potato leafroll virus, 등재번호: NC_001747), Nanoviridae 과의 단일 가닥 DNA 바이러스, 예를 들어, 속명 나노바이러스 (Nanovirus) 또는 바부바이러스 (Babuvirus), Partiviridae 과의 이중 가닥 RNA 바이러스, 예를 들어, 특히 알파파티티바이러스 (Alphapartitivirus), 베타파티티바이러스 (Betapartitivirus) 또는 델타파티티바이러스 (Deltapartitivirus), Pospiviroidae 과의 비로이드 (viroid), Potyviridae 과의 (+) 가닥 RNA 바이러스, 예를 들어, 속명 브람비바이러스 (Brambyvirus), 비모바이러스 (Bymovirus), 이포모바이러스 (Ipomovirus), 마클루라바이러스 (Macluravirus), 포아세바이러스 (Poacevirus), 예를 들어, 트리티컴 모자이크 바이러스 (Triticum mosaic virus) (등재번호: NC_012799), 또는 Potyviridae 과의 속명 포티바이러스 (Potyvirus), 예를 들어, 비트 모자이크 바이러스 (등재번호: NC_005304), 옥수수 위축 모자이크 바이러스 (Maize dwarf mosaic virus) (등재번호: NC_003377), 감자 바이러스 Y (등재번호: NC_001616), 또는 옥수수 모자이크 바이러스 (Zea mosaic virus, 등재번호: NC_018833), 또는 Potyviridae의 속명 트리티모바이러스 (Tritimovirus), 예를 들어 브롬 스트리크 모자이크 바이러스 (Brome streak mosaic virus, 등재번호: NC_003501) 또는 밀 스트리크 모자이크 바이러스 (Wheat streak mosaic virus, 등재번호: NC_001886), Pseudoviridae 과의 단일 가닥 RNA 바이러스, 예를 들어, 속명 슈도바이러스 (Pseudovirus) 또는 시레바이러스 (Sirevirus), Reoviridae 과의 이중 가닥 RNA 바이러스, 예를 들어, 벼 위축 바이러스 (Rice dwarf virus) (등재번호: RNA1: NC_003773; RNA2: NC_003774; RNA3: NC_003772; RNA4: NC_003761; RNA5: NC_003762; RNA6: NC_003763; RNA7: NC_003760; RNA8: NC_003764; RNA9: NC_003765; RNA10: NC_003766; RNA11: NC_003767; RNA12: NC_003768), Tombusviridae 과의 (+) 가닥 RNA 바이러스, 예를 들어, 속명 알파네크로바이러스 (Alphanecrovirus), 아우레우스바이러스 (Aureusvirus), 베타네크로바이러스 (Betanecrovirus), 카르모바이러스 (Carmovirus), 다이안토바이러스 (Dianthovirus), 갈란티바이러스 (Gallantivirus), 마카나바이러스 (Macanavirus), 마클로모바이러스 (Machlomovirus), 파니코바이러스 (Panicovirus), 톰부스바이러스 (Tombusvirus), 움브라바이러스 (Umbravirus) 또는 지아바이러스 (Zeavirus), 예를 들어, 옥수수 괴사 스트리크 바이러스 (Maize necrotic streak virus) (등재번호: NC_007729), 또는 Virgaviridae 과의 (+) 가닥 RNA 바이러스, 예를 들어 속명 푸로바이러스 (Furovirus), 호르데이바이러스 (Hordeivirus), 예를 들어, 보리 스트립 모자이크 바이러스 (등재번호: RNA1: NC_003469; RNA2: NC_003481; RNA3: NC_003478), 또는 속명 페클루바이러스 (Pecluvirus), 포모바이러스 (Pomovirus), 토바모바이러스 (Tobamovirus) 또는 토브라마이러스 (Tobravirus), 예를 들어, 담배 얼룩 바이러스 (Tobacco rattle virus) (등재번호: RNA1: NC_003805; RNA2: NC_003811), 뿐만 아니라 목 Mononegavirales의 (-) 가닥 RNA 바이러스, 특히 과 Rhabdoviridae, 예를 들어, 보리 황색 스트리아테 모자이크 바이러스 (Barley yellow striate mosaic virus) (등재번호: KM213865) 또는 상추 괴사성 황색 바이러스 (Lettuce necrotic yellows virus) (등재번호/생검: NC_007642/ AJ867584), 목 Picornavirales의 (+) 가닥 RNA 바이러스, 특히 과 Secoviridae, 예를 들어, 속명 코모바이러스 (Comovirus), 파바바이러스 (Fabavirus), 네포바이러스 (Nepovirus), 케라바이러스 (Cheravirus), 사드와바이러스 (Sadwavirus), 세퀴바이러스 (Sequivirus), 토라도바이러스 (Torradovirus) 또는 와이카바이러스 (Waikavirus), 목 Tymovirales의 (+) 가닥 RNA 바이러스, 특히 과 Alphaflexiviridae, 예를 들어, 속명 알렉시바이러스 (Allexivirus), 롤라바이러스 (Lolavirus), 만드리바이러스 (Mandarivirus) 또는 포텍스바이러스 (Potexvirus), 목 Tymovirales, 특히 과 Betaflexiviridae, 예를 들어, 속명 카필로바이러스 (Capillovirus), 카를라바이러스 (Carlavirus), 시트리바이러스 (Citrivirus), 포베아바이러스 (Foveavirus), 테포바이러스 (Tepovirus) 또는 비티바이러스 (Vitivirus), 목 Tymovirales의 (+) 가닥 RNA 바이러스, 특히 과 Tymoviridae, 예를 들어, 속명 마쿨라바이러스 (Maculavirus), 마라피바이러스 (Marafivirus) 또는 티모바이러스 (Tymovirus) 및 박테리아 벡터, 예를 들어 아그로박테리움 spp. (Agrobacterium spp.), 예를 들어, 아그로박테리움 투메팍시엔스 (Agrobacterium tumefaciens). 마지막으로, 용어 벡터는 또한 폴리머성 또는 지질-기반의 전달 구조체 등의, 물리적인 도입 방법과 조합하여, 선형 핵산 서열 (단일 가닥 또는 이중 가닥)을 타겟 세포에 도입하기 적합한 화학적 전달 물질을 의미한다.
적합한 전달 구조체 또는 벡터는, 따라서, 타겟 세포에 뉴클레오티드 서열을 전달하기 위한 생물학적 수단, 예를 들어 바이러스 벡터, 아그로박테리움 spp. 또는 화학적 전달 구조체, 예를 들어, 나노입자, 예로, 메조포러스 실리카 나노입자 (MSNP), 양이온성 폴리머, 예로, PEI (폴리에틸렌이민) 폴리머를 이용한 방법 또는 폴리머, 예를 들어, DEAE-덱스트란, 또는 양이온성 표면을 구축하기 위한 PEI의 비-공유적 표면 결합, 지질 또는 폴리머성 소낭 또는 이들의 조합을 포함한다. 지질 또는 폴리머성 소낭은, 예를 들어, 지질, 리포좀, 지질 캡슐화 시스템, 나노입자, 소형 핵산-지질 입자 포뮬레이션, 폴리머 및 폴리머좀으로부터 선택될 수 있다.
용어 "유전자 구조체" 또는 "재조합 구조체"는, 본 발명에 따른 식물, 식물 세포, 조직, 기관 또는 물질 등의 임의의 진핵생물 타겟 세포 또는 원핵생물에 도입, 형질전환, 형질감염 또는 형질전이하기 위한, 특히 DNA 서열, RNA 서열 또는 아미노산 서열을 포함하는, 플라스미드 또는 플라스미드 벡터, 코스미드, 인공 효모- 또는 박테리아 인공 염색체 (YAC 및 BAC), 파지미드, 박테리아 파지에 기반한 벡터, 발현 카세트, 단리된 단일 가닥 또는 이중 가닥 핵산 서열, 변형된 바이러스 등의 바이러스 벡터 및 이들의 조합 또는 혼합물을 포함하는 구조체를 지칭한다. 본 발명에 따른 재조합 구조체는 핵산 또는 아미노산 서열의 형태로서 작동자 도메인을 포함할 수 있으며, 여기서 작동자 도메인은 타겟 세포에서 작용을 발휘할 수 있는 분자를 의미하며, 이는 전이유전자, 단일 가닥 또는 이중 가닥 RNA 분자, 예를 들어 가이드 RNA ((s)gRNA), miRNA 또는 siRNA, 또는 아미노산 서열, 예를 들어, 특히 효소 또는 이의 촉매학적으로 활성인 단편, 결합 단백질, 항체, 전사인자, 뉴클레아제, 바람직하게는 부위 특이적인 뉴클레아제 등을 포함한다. 아울러, 재조합 구조체는 조절 서열 및/또는 위치화 서열을 포함할 수 있다. 재조합 구조체는 플라스미드 벡터 등의 벡터에 통합될 수 있거나, 및/또는 벡터 구조로부터, 예를 들어 폴리펩타이드 서열 형태로 또는 벡터에 연결되지 않은 단일 가닥 또는 이중 가닥 핵산으로서 분리되어 존재할 수 있다. 이는, 예를 들어, 형질전환에 의해 도입된 후, 유전자 구조체는, 염색체 외부에, 즉 타겟 세포의 게놈에 통합되지 않고, 예를 들어 이중 가닥 또는 단일 가닥 DNA, 이중 가닥 또는 단일 가닥 RNA 또는 아미노산 서열로서 존재할 수 있다. 다른 구현예로, 본 발명에 따른 유전자 구조체 또는 이의 일부는, 타겟 세포의 핵 게놈 또는 다른 유전 요소, 예를 들어 미토콘드리아 또는 엽록체와 같은 색소체 게놈 등의, 타겟 세포의 게놈에 안정적으로 통합될 수 있다. 이와 관련하여 사용되는 용어 플라스미드 벡터는 본래 플라스미드로부터 수득되는 유전자 구조체를 의미한다. 플라스미드는 통상적으로 이중 가닥 핵산 서열의 형태로 자율적으로 복제하는 원형의 염색체외 인자를 지칭한다. 유전자 조작 분야에서, 이들 플라스미드는, 예를 들어 항생제 또는 제초제에 대한 저항성을 코딩하는 유전자, 타겟 핵산 서열을 코딩하는 유전자, 위치화 서열, 조절 서열, 테그 서열, 마커 유전자, 예를 들어 항생제 마커 또는 형광 마커 등을 삽입함으로써, 타겟화된 변형을 일반적으로 겪게 된다. 복제 오리진과 같은, 오리지날 플라스미드의 구조 성분들은 유지된다. 본 발명의 특정 구현예에서, 위치화 서열은 핵 위치화 서열, 색소체 위치화 서열, 바람직하게는 미토콘드리아 위치화 서열 또는 엽록체 위치화 서열을 포함할 수 있다. 이러한 위치화 서열은 식물 생명공학 분야에서 당업자가 입수가능하다. 여러가지 대상 타겟 서열에 사용하기 위한 다양한 플라스미드 벡터들이 상업적으로 이용가능하며, 이의 변형은 해당 분야의 당업자들에게 공지되어 있다.
용어 "유전자(전학적으로) 변형된" 또는 "유전자 조작" 또는 "유전자(유전학적으로) 조작된"은 본원에서 광의적인 의미로 사용되며, 인간의 개입이 없는 경우에 확인되는 상태와 다르게 목적한 방식으로 변형시키도록 타겟 세포, 조직, 기관 또는 유기체의 내인성 유전 물질 또는 트랜스크립톰 또는 프로테옴에 영향을 미치기 위한, 인간의 개입에 의해 직접 또는 간접적으로 달성되는, 핵산 서열 또는 아미노산 서열, 타겟 세포, 조직, 기관 또는 유기체에 대한 모든 변형을 의미하며, 반면 용어 게놈 편집은 구체적으로 타겟 세포의 게놈에 대한 타겟화된 조작을 의미한다. 인간 개입은 시험관내, 생체내 또는 이 둘다에서 이루어질 수 있다. 추가적인 변형은, 예를 들어, 하나 이상의 점 돌연변이(들), 예를 들어 타겟화된 단백질 조작 또는 코돈 최적화, 결손(들), 및 하나 이상의 핵산 또는 아미노산 분자의 하나 이상의 삽입(들) 또는 결손(들) (상동적인 재조합 포함), 핵산 또는 아미노산 서열의 변형, 또는 이들의 조합을 포함할 수 있다. 또한, 이들 용어는, 천연적으로 발생하는 기준 서열, 유기체 또는 물질과 유사하지만, 목적한 조작을 위한 하나 이상의 단계에 의해 구축된, 핵산 분자 또는 아미노산 분자 또는 식물 또는 이의 식물 물질 등의, 숙주 세포 또는 유기체를 포함할 것이다.
따라서, 본원에서, "타겟화된 유전자 조작" 또는 "타겟화된" 또는 "부위-특이적인" 유전자 편집 또는 게놈 편집은, 조작할 하나 이상의 세포, 바람직하게는 식물 세포에서 원하는 효과를 달성하기 위해, 타겟화된 방식, 즉 타겟 세포에서 하나 이상의 특정 위치에서, 적절한 특수 상황에서 이루어지는, "유전자 조작"의 결과이다.
본원에서, 용어 "형질전환"은, 자연적인 수단 또는 유전자 조작 기법을 이용함으로써, 다른 유기체로부터 식물, 식물 세포, 조직, 기관 또는 물질로 형질전달된 전이유전자 (transgene)를 포함하는, 유전자 또는 유전자 구조체를 포함하는, 동물, 동물 세포, 조직 또는 장기, 식물, 식물 세포, 조직, 기관 또는 물질을 지칭한다. 용어 "전이유전자"는 DNA 또는 RNA 또는 이들의 조합 또는 혼합물 등의 핵산 서열을 포함한다. 따라서, 용어 "전이유전자"는 통상적으로 유전자로서 동정되는 서열, 즉 단백질 코딩 서열로 제한되는 것은 아니다. 또한, 이 용어는, 예를 들어, 비-단백질 코딩 DNA 또는 RNA 서열을 지칭할 수 있다. 따라서, 용어 형질전환은 일반적으로 대상 세포에 도입된 해당 핵산이 박테리아 세포, 효모 세포, 진균 세포, 동물 또는 동물 세포, 식물, 식물 세포, 조직, 기관 또는 물질 등의 대응되는 타겟 원핵생물 또는 진핵생물 세포에 천연적으로 존재하지 않는다는 것을 내포한다. 용어 전이유전자 또는 형질전환은 본원에서 하나의 유기체의 게놈으로부터 취해지거나, 또는 합성으로 제조된 후, 다른 유기체에 일시적으로 또는 안정적인 방식으로 분자 생물학, 유전학 등의 인공적인 기법으로 도입된, 핵산 서열 또는 아미노산 서열을 지칭한다.
본원에서, 용어 "식물" 또는 "식물 세포"는 식물 유기체, 식물 기관, 분화된 및 미-분화된 식물 조직, 식물 세포, 종자, 및 이의 파생물 및 후대를 지칭한다. 식물 세포는, 비-제한적인 예로, 종자 유래 세포, 성숙 및 미성숙 배 유래 세포, 분열 조직, 모종 (seedling), 여러가지 분화 상태의 캘러스 조직, 잎, 꽃, 뿌리, 줄기, 배우체, 포자체, 꽃가루, 꽃가루관 및 소포자, 원형질체 (protoplast), 거대조류 (macroalgae) 및 미세조류 유래 세포를 포함한다. 여러가지 식물 세포는 반수체, 이배체, 사배체, 육배체 또는 배수체일 수 있다.
본원에서, "개체"는 인간 또는 인간을 제외한 동물을 의미할 수 있다. 이 용어는, 비-제한적으로, 포유류 (예, 인간, 그외 영장류, 돼지, 설치류 (예, 마우스, 랫 또는 햄스터), 토끼, 기니아피그, 소, 말, 고양이, 개, 양 및 염소)를 포함한다. 일 구현예에서, 개체는 인간이다.
본원에서, "치료한다", "치료하는" 및 "치료"는 일반적으로 바람직한 약리학적 및/또는 생리학적 효과를 달성하는 것을 의미한다. 이러한 효과는 질환 또는 그 증상을 완전히 또는 일부 예방한다는 측면에서 예방학적일 수 있거나, 및/또는 질환 또는 질환에 기인한 부작용을 일부 또는 완전히 치유한다는 측면에서 치료학적일 수 있다. 본원에서, "치료"는 포유류에서 질환 또는 증상에 대한 모든 처치를 포괄하며, (a) 질환 또는 증상이 발생할 성향이 있을 수 있지만 아직 발생된 것으로 진단되지 않은 개체에서 질환 또는 증상의 발병 예방; (b) 질환 또는 증상의 저해, 즉 이의 진행 중지; 또는 (c) 질환의 완화, 즉 질환의 퇴행 유발을 포괄한다. 치료제는 질환 또는 상해의 발생 전, 발생 중 또는 발생 이후에 투여될 수 있다. 치료로 환자의 부적절한 임상 증상을 안정화 또는 감소시키는, 진행 중인 질환에 대한 치료가 특히 중요하다. 이러한 치료는 바람직하게는 병든 조직에서 기능이 완전히 소실되기 전에 수행된다. 개체 테라피 (subject therapy)는 바람직하게는 질환의 증상기 동안에 투여될 것이며, 일부 경우에는 질환의 증상기 이후에 투여될 것이다.
본원에서, "식물 물질"은 식물의 모든 발생 단계 (developmental stage)에서 수득할 수 있는 모든 물질을 지칭한다. 식물 물질은 식물 자체 (in planta)에서 또는 식물 또는 식물 조직 또는 이의 기관의 시험관내 배양으로부터 수득할 수 있다. 즉, 이 용어는 식물 세포, 조직 및 기관뿐만 아니라 발생된 식물 구조와, 식물 세포 또는 구획내에서 발견할 수 있거나 및/또는 식물에 의해 생산될 수 있거나, 또는 모든 발생 단계에서 임의의 식물 세포, 조직 또는 식물의 추출물로부터 수득될 수 있는, 핵산, 폴리펩타이드 및 모든 화학적 식물 물질 또는 대사산물과 같은, 세포내 성분 (sub-cellular component)을 포함한다. 이 용어는, 또한, 식물 물질을 포함하는 하나 이상의 식물 세포로부터 유래되는, 식물 물질의 파생물, 예를 들어 원형질체를 포함한다. 또한, 이 용어는 식물의 분열 조직 세포 또는 분열 조직을 포함한다.
본원에서, 용어 "돌연변이" 및 "변형"은 상호 호환적으로 사용되며, 생체내 또는 시험관내 핵산 조작 측면에서 부가물 (adduct)의 도입, 결손, 삽입, 부가, 치환, 편집 및/또는 가닥 절단을 의미한다. 결손은 핵산 서열에서 하나 이상의 뉴클레오티드가 생략되는 변화로서 정의된다. 삽입 또는 부가는 핵산 서열에서 하나 이상의 뉴클레오티드가 첨가되는 변화이다. "치환" 또는 편집은 치환 대상인 하나 이상의 뉴클레오티드와 다른 분자에 의해 하나 이상의 뉴클레오티드가 대체되는 것이다. 예를 들어, 티민이 시토신, 아데신, 구아닌 또는 우리딘으로 대체되는 것으로 예시되는 바와 같이, 핵산이 다른 핵산으로 대체될 수 있다. 피리미딘 -> 피리미딘 (예, C -> T 또는 T -> C 뉴클레오티드 치환) 또는 퓨린 -> 퓨린 (예, G -> A 또는 A -> G 뉴클레오티드 치환)은 염기 전이로 지칭되며, 피리미딘 -> 퓨린 또는 퓨린 -> 피리미딘 (예, G -> T 또는 G -> C 또는 A -> T 또는 A -> C)은 염기 전환으로 지칭된다. 다른 구현예에서, 핵산은, 티민이 티민 글리콜로 치환되는 예와 같이, 변형된 핵산으로 대체될 수 있다. 돌연변이는 미스매치를 유발할 수 있다. 용어 미스매치는 2개의 핵산 간의 비-공유적인 상호작용을 지칭하는데, 이때 각 핵산은 서로 다른 뉴클레오티드 서열 또는 핵산 분자에 존재하는 것이며, 염기-쌍 형성 규칙을 따르지 않는다. 예를 들어, 부분적으로 상보적인 서열 5'-AGT-3' 및 5'-AAT-3'의 경우, G-A 미스매치 (염기 전이)가 존재한다.
이중 가닥 핵산 서열, 예를 들어 DNA 타겟 서열로서 게놈 서열과 관련하여, 용어 "가닥 절단"은 단일 가닥 절단 및/또는 이중 가닥 절단을 포함한다. 단일 가닥 절단 (닉)은 이중 가닥의 핵산 서열의 2개의 가닥 중 하나에서 끊어짐 (interruption)을 의미한다. 이는, 이중 가닥 핵산 서열의 양쪽 가닥에서의 끊어짐을 의미하는 이중 가닥 절단과 대비된다. 본 발명에 따른 가닥 절단은, 대상 핵산 염기 위치에서, CRISPR 엔도뉴클레아제 또는 야생형 단백질 또는 엔도뉴클레아제의 돌연변이되거나 절단된 버전일 수 있지만 여전히 야생형 단백질의 효소적 기능을 발휘할 수 있는 이의 변이체 등의, 적절한 엔도뉴클레아제를 이용한 효소적 절단에 의해, 이중 가닥 핵산 서열에 도입될 수 있다.
본원에서, "상보적인" 또는 "상보성"은 2개의 DNA, 2개의 RNA 또는 본 발명에 따른 하이브리드 서열, RNA 및 DNA 핵산 영역들 간의 상관성을 나타내는 것이다. DNA 또는 RNA의 뉴클레오베이스에 의해 정의된 바에 따라, 2개의 핵산 영역은 자물쇠-열쇠 모형에 따라 서로 혼성할 수 있다. 이를 위해, 왓슨-크릭 염기 쌍 형성 원리는 상보적인 염기로서 아데닌과 티민/우라실뿐만 아니라 구아닌과 시토신을 각각 기본으로 한다. 또한, 리버스-왓슨-크릭, 후그스틴 (Hoogsteen), 리버스-후그스틴 및 워블 쌍 형성 (Wobble pairing)과 같은 비-왓슨-크릭 쌍 형성도, 각각의 염기 쌍들이 서로 수소 결합을 형성할 수 있는 한, 즉 2개의 서로 다른 핵산 가닥이 상보성에 기초하여 서로 혼성할 수 있는 한, 본원에서 용어 "상보성"에 포함된다. 당해 기술 분야의 당업자는 핵산 혼성화가 핵산들 간의 상보성 정도와 길이, 적용되는 조건의 엄격성, 형성된 하이브리드의 Tm 및 핵산의 G:C 비율 등과 같은 인자에 의해 영향을 받는다는 것을 알고 있으므로, 주어진 길이에 걸쳐 서로 100% 정렬시킨 2개의 서열 가닥에 대해 완전한 상보성이 필요한 것은 아니다. 아울러, 입체적 요인이, 2개의 서열이 서로 100%의 상보성은 아니더라도 혼성화 여부에 영향을 미칠 수 있다. 따라서, 본 발명에 따른 2개의 상보적인 핵산 서열은 서로 적어도 70%, 적어도 71%, 적어도 72%, 적어도 73%, 적어도 74%, 적어도 75%, 적어도 76%, 적어도 77%, 적어도 78%, 적어도 79%, 적어도 80%, 적어도 81%, 적어도 82%, 적어도 83%, 적어도 84%, 적어도 85%, 적어도 86%, 적어도 87%, 적어도 88%, 적어도 89%, 적어도 90%, 적어도 91%, 적어도 92%, 적어도 93%, 적어도 94%, 적어도 95%, 적어도 96%, 적어도 97%, 적어도 98% 또는 적어도 99%의 서열 상동성 또는 상보성을 가질 수 있으며, 거의 중간 엄격 조건에서 서로 여전히 혼성할 수 있다. "중간" 엄격 조건은 Tm 보다 낮은 20 내지 29℃의 온도에서 0.165-0.330 M NaCl을 의미하며, 이때 Tm은 통상적으로 사용되는 계산을 통해 추정될 수 있는 DNA 서열에 대한 Tm으로서 정의된다:
Tm = 81.5+16.6log10 ([Na+]/1.0+0.7[Na+])+0.41(%[G+C])-(500/n)-P-F,
여기서,
Tm = 용융 온도, ℃, [Na+] = 소듐 이온의 몰 농도, %[G+C] = 베이스에서 DNA 서열 내 G+C 염기 %, n = DNA 서열 길이, P = 미스매치된 염기 쌍 %에 대한 온도 보정 (~1℃ / 1% 미스매치), 및 F = 포름아미드 농도에 대한 보정 (= 0.63℃ / 1% [포름아미드]).
본원에서, 용어 "일시적인 도입"은, 바람직하게는 전달 벡터 또는 재조합 구조체에 삽입된, 본 발명에 따른 하나 이상의 핵산 서열이, 전달 벡터의 도움을 받거나 또는 도움없이, 타겟 구조, 예를 들어, 식물 세포에 일시적으로 도입되는 것을 의미하며, 이때 하나 이상의 핵산 서열이 타겟 구조의 내인성 핵산 물질, 즉 게놈에 전체로서 삽입되지 않는, 즉 하나 이상의 핵산 서열이 타겟 세포의 내인성 DNA에 삽입되지 않는, 적절한 반응 조건 하에 하나 이상의 핵산 서열이 도입된다. 결론적으로, 일시적인 도입의 경우, 도입된 유전자 구조체는 타겟 구조의 후대, 예를 들어, 원핵생물, 동물 또는 식물 세포에서 유전되지 않을 것이다. 하나 이상의 핵산 서열 또는 이의 전사 또는 번역으로부터 생기는 생성물만 일시적으로 존재하며, 즉, 일시적인 방식으로, 구성적이거나 또는 유도성 형태로 존재하므로, 따라서 타겟 세포 내에서 제한된 시간 동안 효과를 발휘하도록 작동할 수 있을 뿐이다. 따라서, 일시적인 도입에 의해 도입된 하나 이상의 핵산 서열은 세포의 후대로 유전되지 않을 것이다. 그러나, 일시적인 방식으로 도입된 핵산 서열의 효과는 타겟 세포의 후대로까지 이어질 가능성이 있다.
본원에서, 용어 "안정적인 통합" 또는 "안정적으로 통합된"은, 본 발명에 따른, 바람직하게는 전달 벡터 또는 재조합 구조체에 병합된 하나 이상의 핵산 서열이 안정적으로 통합되는 것을 의미한다. 통합은 타겟 세포의 핵 게놈 또는 대상 진핵생물 세포 구획 내 게놈이 아닌 임의의 핵 물질, 예를 들어, 미토콘드리아 또는 식물 세포 색소체에서 이루어질 수도 있다. 안정적으로 통합된 하나 이상의 재조합 구조체는 따라서 변형된 타겟 세포의 후대로 유전될 것이다. 유전자 구조체는 안정적으로 통합될 타겟 영역과, 수송, 전달, 유지 및 식물 세포 내 유전자 구조체의 올바른 위치화를 위해 필요한 추가적인 영역을 포함하는 수개의 대상 영역을 포함할 수 있지만, 당해 기술 분야의 당업자에게 공지된 바와 같이 이들 영역들이 전부 통합되는 것은 아니며, 안정적으로 통합시킬 대상 영역에 대한 카고로서 제공하므로, 유전자 구조체의 특성에 따라, 유전자 구조체의 전체 또는 일부가 안정적으로 통합될 것이다. 본 발명에 따른 하나 이상의 유전자 구조체가 하나 이상의 조혈 또는 분열 세포 또는 조직에 안정적인 통합되면, 타겟 구조, 즉 DNA 타겟 영역의 변형된 게놈 영역은, 하나 이상의 조혈 또는 분열 세포의 전체 발생 단계를 통해 변형된 세포의 후대로 유전될 것이며, 이는, 하나 이상의 조혈 분열 세포의 분화 및 발생에서 기원한 최종 세포 타입의 수율 측면에서 타겟화된 변형이 요망되는 방식에 긍정적일 수 있다. 예를 들어, 식물의 미성숙 꽃의 하나 이상의 분열 세포에 안정적인 통합이 달성되면, 미성숙 꽃의 하나 이상의 분열 세포로부터 발생학적으로 발생되는 화분 또는 밑씨의 생식 세포에 도입된 유전자 특징이 안정적으로 유전될 수 있다. 하나 이상의 만능성 조혈 세포 또는 임의의 만능성 또는 다능성 세포 내 안정적인 통합 역시 도입된 유전자 특징의 안정적인 유전으로 이어질 것이다.
본원에서, 용어 "입자 총격"은 바이올리스틱 형질감염 (biolistic transfection) 또는 미세입자-매개 유전자 전달이라고도 하며, 대상 핵산 또는 유전자 구조체를 포함하는 코팅된 미세입자 또는 나노입자를 타겟 세포나 조직으로 이동시키기 위한 물리적인 전달 방법을 의미한다. 미세입자 또는 나노입자는 발사체로서 기능하며, 종종 "유전자 총"으로 지칭되는 적절한 장치를 사용해 고압 하에 대상 타겟 구조로 발포한다. 입자 총격을 통한 형질전환은 대상 유전자로 덮힌 금속 미세발사체를 사용하는데, 이는 "유전자 총"으로 알려진 장치를 사용해 타겟 조직의 세포 벽을 뚫기에 충분하지만 세포 사멸을 유발할 만큼 해롭지 않은 높은 속도로 타겟 세포에 대해 발사된다 (Sandford et al. 1987). 세포 벽이 완전히 제거된 원형질체의 경우, 논리적으로 조건이 다르다. 하나 이상의 미세발사체 상에 침전된 핵산 또는 유전자 구조체는 발사 후 세포 내로 방출되고, 전술한 정의에 따라 일시적으로 발현되거나 또는 게놈에 통합된다. 미세발사체의 가속은 고 전압 전기 방전 또는 압축 가스 (헬륨)에 의해 달성된다. 사용되는 금속 입자는, 무독성, 무-반응성이며, 타겟 세포 보다 직경이 더 작아야한다는 점이 필수 조건을 가진다. 가장 흔히 사용되는 것이 금 또는 텅스텐이다. 유전자 총 및 이의 일반적인 사용과 관련한 관련 시스템의 제조사 및 판매사로부터 공개된 많은 정보들을 입수할 수 있다.
본원에서, 원핵생물 또는 진핵생물 세포, 바람직하게는 동물 세포, 더 바람직하게는 본 발명에 따른 식물 또는 식물 세포 또는 식물 물질과 관련하여, 용어 "파생물" 또는 "후손" 또는 "후대"는 유성 및 무성 증식을 비롯한 자연적인 번식 (reproductive propagation)으로부터 생기는 상기한 세포 또는 물질의 후손을 지칭한다. 이러한 번식이 자연 현상으로부터 생긴 유기체의 게놈에 돌연변이 도입을 유도하여, 부모 유기체 또는 세포와 게놈 측면에서는 다르지만 여전히 동일한 속/종에 속하며; 부모 재조합 숙주 세포와 동일한 특징들을 대부분 가진, 후손 또는 후대를 만들 수 있음은, 당해 기술 분야의 당업자에게 널리 공지되어 있다. 생식 또는 재생 중에 자연 현상으로부터 생기는 상기한 파생물, 후손 또는 후대도, 따라서, 본 발명의 상기한 용어에 포함된다. 또한, 용어 "파생물"은, 직접적으로 세포 또는 유기체를 지칭한다기 보다는, 다른 것으로부터 간접적으로 수득되는 변형에 의한, 물질 또는 분자를 의미할 수 있다. 이는 세포 또는 물질로부터 수득되는 식물 대사산물 또는 세포로부터 유래되는 핵산 서열을 의미할 수 있다. 따라서, 이들 용어는 임의의 파생물, 후손 또는 후대를 지칭하기 보다는, 부모 세포 또는 바이러스 또는 이의 분자에 기초하여 계통 발생적으로 관련된 파생물 또는 후손 또는 후대를 지칭하는 것이며, 파생물, 후손 또는 후대와 "부모" 간의 연관성은 당해 기술 분야의 당업자가 명백하게 추론가능하다.
아울러, 생물학적 서열 (핵산 또는 아미노산) 또는 분자 또는 복합체의 맥락에서, 용어 "유래된", "로부터 유래된" 또는 "유도체"는, 해당 서열이 기준 서열, 예를 들어 서열 목록 또는 데이타베이스 등재 번호로부터 유래된 기준 서열 또는 대응되는 스캐폴드 구조, 즉 상기 서열로부터 기원한 대응되는 스캐폴드 구조를 기반으로 하고, 기준 서열이 더 많은 서열, 예를 들어 바이러스의 전체 게놈 또는 전체 폴리단백질 코딩 서열을 포함할 수 있는 반면 천연 서열"로부터 유래된" 서열은 이의 단리된 단편 또는 이의 코헤런트 단편 (coherent fragment)만 포함할 수 있다는 것을 암시한다. 이런 맥락에서, cDNA 분자 또는 RNA는 분자 주형으로서 사용되는 DNA 서열"로부터 유래된" 것으로 칭해질 수 있다. 이에, 당해 기술 분야의 당업자는 기준 서열"로부터 유래된" 서열을 쉽게 규정할 수 있으며, 이는 DNA 또는 아미노산 수준에서 서열 정렬함으로써 대응되는 기준 서열에 대해 높은 동일성을 가질 것이며, 해당 기준 서열과 마찬가지로 DNA/아미노산의 코헤런트 가닥을 가질 것이다 (정렬된 분자의 주어진 길이에 대해 >75%의 쿼리 동일성, 단, 서열 정렬시 유래된 서열은 쿼리이고, 기준 서열은 대상이 됨). 따라서, 당업자는 중합효소 연쇄 반응 등을 이용해 본원에 제공된 내용에 기초한 각각의 서열을 적절한 대상 벡터 시스템에 클로닝하거나 또는 서열을 벡터 스캐폴드로서 이용할 수 있다. 즉, "로부터 유래된"이란 용어는 임의의 (arbitrary) 서열이 아니라, 이것이 유래된 기준 서열에 대응되는 서열이며, 일부 차이, 예를 들어, 숙주 세포 내에서 재조합 구조체의 복제시 천연적으로 발생하는 일부 돌연변이를 배제할 수 없으며, 즉 용어 "로부터 유래된"에 포함된다. 또한, 부모 서열로부터 나온 몇몇 서열 가닥들은 부모로부터 유래된 서열에 연결될 수 있다. 서로 다른 가닥들은 부모 서열에 대해 높은 상동성 (바람직하게는 >90%) 또는 심지어 100% 상동성을 가질 것이다. 당업자라면, 본 발명에 따른 인공 분자 복합체의 서열이, 핵산 서열로서 제공되거나 또는 일부 제공될 경우, 이후 전사되며, 선택적으로 생체내 번역되며, 숙주 세포에서 추가적으로 소화 및/또는 가공 처리 (신호 펩타이드 절단, 내인성 바이오틴화 등)될 가능성이 있다는 것을 잘 알고 있을 것이므로, 용어 "로부터 유래된"은 본 발명의 내용에 따라 기원 서열에 대한 상관관계를 나타낸다.
본원에서, 용어 "타겟 영역", "타겟 부위", "타겟 구조", "타겟 구조체", "타겟 핵산" 또는 "타겟 세포/조직/유기체", 또는 "DNA 타겟 영역"은 타겟 세포의 임의 구획내 임의의 게놈 영역일 수 있는 타겟을 의미한다.
본원에서, 용어 "조절 서열"은, 대상 핵산 서열의 전사 및/또는 번역 및/또는 변형을 지시할 수 있는, 핵산 또는 아미노산 서열을 지칭한다.
본원에서, 용어 "단백질", "아미노산" 또는 "폴리펩타이드"는 상호 호환적으로 사용되며, 촉매적 효소 기능 또는 구조적 또는 기능적 작용을 가진 아미노산 서열을 지칭한다. 용어 "아미노산" 또는 "아미노산 서열" 또는 "아미노산 분자"는 모든 천연 및 화학 합성된 단백질, 펩타이드, 폴리펩타이드 및 효소 또는 변형된 단백질, 펩타이드, 폴리펩타이드 및 효소를 포함하며, 여기서 용어 "변형된"은, 야생형 서열의 말단 절단 (truncation)에서부터 더 짧지만 여전히 활성인 영역을 비롯하여, 단백질, 펩타이드, 폴리펩타이드 및 효소의 모든 화학적 또는 효소적 변형을 포함한다.
본 발명에 따르면, 당해 기술 분야의 당업자들은 통상적인 분자 생물학, 미생물학 및 재조합 DNA 기술을 사용할 수 있다. 이러한 기술들은 문헌에 충분히 설명되어 있다. 예를 들어, 특히 Sambrook, Fritsch & Maniatis, Molecular Cloning: A Laboratory Manual, Second Edition (1989) Cold Spring Harbor Laboratory Press, Cold Spring Harbor, New York (herein "Sambrook et al., 1989"); DNA Cloning: A Practical Approach, Volumes I and II (D.N. Glover ed. 1985); Oligonucleotide Synthesis (M.J. Gait ed. 1984); Nucleic Acid Hybridization (B.D. Hames & SJ. Higgins eds. (1985); Transcription and Translation (B.D. Hames & S.J. Higgins, eds. (1984); Animal Cell Culture (RI. Freshney, ed. (1986); Immobilized Cells and Enzymes (IRL Press, (1986); B. Perbal, A Practical Guide To Molecular Cloning (1984); F.M. Ausubel et al. (eds.), Current Protocols in Molecular Biology, John Wiley & Sons, Inc. (1994)을 참조한다.
본 발명에서 핵산 또는 아미노산 서열의 상동성 또는 동일성 %에 관한 경우, 이들 값은 핵산의 경우 EMBOSS Water Pairwise Sequence Alignments (nucleotide) programme (www.ebi.ac.uk/Tools/psa/ emboss_water/nucleotide.html) 또는 아미노산 서열의 경우 EMBOSS Water Pairwise Sequence Alignments (protein) programme (www.ebi.ac.uk/Tools/psa/emboss_water/)을 이용함으로써 수득되는 값으로 정의된다. 국소 서열 정렬을 위해 European Molecular Biology Laboratory (EMBL) European Bioinformatics Institute (EBI)에 의해 제공되는 이들 툴은 변형된 Smith-Waterman 알고리즘 (see www.ebi.ac.uk/Tools/psa/ and Smith, T.F. & Waterman, M.S. "Identification of common molecular subsequences" Journal of Molecular Biology, 1981 147 (1):195-197)을 사용한다. 정렬 수행시 EMBL-EBI에 의해 규정된 디폴트 파라미터를 사용한다. 그러한 파라미터는 (i) 아미노산 서열의 경우: 매트릭스 = BLOSUM62, 갭 오픈 패널티 = 10 및 갭 연장 패널티 = 0.5이거나, 또는 (ii) 핵산 서열의 경우: 매트릭스 = DNAfull, 갭 오픈 패널티 = 10 및 갭 연장 패널티 = 0.5이다.
상세한 설명
본 발명은, 제1 측면에서, (a) 하나 이상의 부위-특이적인 뉴클레아제 (SSN) 또는 이의 촉매적으로 활성인 단편, 또는 이를 코딩하는 핵산 서열을 포함하며; (b) 하나 이상의 복구 주형 도킹 도메인 (RTDD) 또는 이를 코딩하는 핵산 서열과 직접 상호작용하되, 복구 주형 도킹 도메인이 하나 이상의 복구 주형 핵산 서열 (RT)과 직접 상호작용하도록 구성되며; 선택적으로 (c) 하나 이상의 상호작용 도메인 (IA) 또는 이를 코딩하는 핵산 서열을 포함하되, 하나 이상의 상호작용 도메인이 하나 이상의 부위-특이적인 뉴클레아제 또는 이의 촉매적으로 활성인 단편과 직접 상호작용하고, 하나 이상의 상호작용 도메인이 (i) 하나 이상의 복구 주형 도킹 도메인과의 상호작용; 및/또는 (ii) 하나 이상의 복구 주형 핵산 서열과의 상호작용; 및/또는 (iii) 게놈 DNA와 서열-특이적인 상호작용으로 이루어진 군으로부터 선택되는 하나 이상의 기능성을 제공하도록 구성되며, 하나 이상의 복구 주형 핵산 서열이 하나 이상의 게놈 상보성 서열과 상보적인 하나 이상의 영역을 포함하고, 하나 이상의 복구 주형 핵산 서열이 DNA 타겟 서열의 복구를 매개하도록 구성된, 인공 분자 복합체를 제공한다.
이에, 본 발명은 부위-특이적인 뉴클레아제 (SSN)에 의존한다. 이 뉴클레아제는 뉴클레아제 기능과 DNA-인지 기능을 가진 것을 특징으로 한다. DNA-인지 기능은 DNA 인지 또는 결합을 매개하는 도메인 형태로 뉴클레아제에 내재성일 수 있거나, 또는 예를 들어 핵산-안내된 CRISPR (RNA-안내된) 또는 Argonaute (DNA-안내된) 뉴클레아제의 경우에는 추가적인 가이딩 분자의 도움을 받을 수 있지만, 본 발명은 전술한 핵산-안내된 뉴클레아제의 사용으로 한정되지 않으며, 타겟화된 게놈 조작 적용 범위는 임의의 non-CRISPR 또는 Argonaute 부위-특이적인 뉴클레아제에까지 확장된다. 본 발명에 따른 인공 시스템의 또 다른 일부분은, 본 발명의 산물 및 방법이 주로 SSN에 의해 유도된 이중-가닥 절단 부위에 RT를 물리적으로 이용가능하게 만드는데 중점을 두고 있으므로, 하나 이상의 복구 주형 핵산 서열 (RT)이다. 또한, 본 발명은 최적화된 분자 시스템의 일부분으로서 복구 주형 도킹 도메인 (RTDD)을 사용한다. 이 RTDD는, SSN과 하나 이상의 RT가, 효과적이고 타겟화된 게놈 조작을 가능하도록, 직접 또는 간접적으로 밀접 접촉시키는 기능을 수행한다.
즉, RTDD는 RT와 공유 또는 비-공유적으로 결합되며, 즉, 이는 분자 수준에서 RT와 직접 상호작용한다. 동시에, RTDD는 하나 이상의 SSN과 직접 상호작용하며, 즉 SSN과 RT를 연결하는 분자 또는 도메인이다. RTDD의 경우, 몇가지 가능한 구성으로 존재한다. 일 구현예에서, RTDD는 SSN과 직접 결합한다. 예를 들어, SSN이 CRISPR 뉴클레아제일 경우, RTDD는 gRNA일 수 있으며, 또는 SSN이 Argonaute 뉴클레아제일 경우, RTDD는 gDNA일 수 있다. 다른 구현예에서, RTDD는 SSN 자체의 일부일 수 있거나, RT의 일부일 수 있으며, 이 경우 RTDD는 RT 또는 SSN의 특정 영역이다. 이들 구현예에서, SSN는 자체 아미노산 서열의 일부로서 도메인을 포함할 수 있으며, RT를 탑재한 (carrying) 앱타머와 상호작용할 수 있다. 즉, 특정 구현예에서, 부위-특이적인 뉴클레아제 자체는 RTDD와 상호작용하기 위한 도메인을 포함하고 있으므로, 별도의 상호작용 도메인은 없다. RTDD는 따라서 RT 핵산 서열과 결합하는 앱타머일 수 있으며, 앱타머를 인지하여, SSN 및/또는 부가적인 상호작용 도메인 중 어느 것과 특이적으로 상호작용할 수 있다.
또한, 인공 분자 복합체의 구성성분들 간의 공유 및 비-공유적 상호작용도 본 발명에서 고려된다.
추가의 구현예에서, 인공 분자 복합체는 부가적인 상호작용 도메인 (IA)을 포함한다. 이 구성에서, RTDD는 특정 구현예에서 부가적인 상호작용 도메인과 결합할 수 있다. 상호작용 도메인은 SSN과 융합 분자로서 공유적으로 또는 비-공유적으로 직접 상호작용하며, 즉 물리적으로 결합하며, 분자 복합체에 부가적인 기능성을 부여한다. 상호작용 도메인은 DNA 인지/결합 기능을 포함하는 단백질 도메인일 수 있으며, 즉 부위-특이적인 방식으로 게놈 DNA 타겟 부위와 상호작용할 수 있는 도메인일 수 있거나, 또는 상호작용 도메인은 RTDD 및/또는 RT와 상호작용하도록 이적으로 구성될 수 있다. 예를 들어, 상호작용 도메인은 게놈 DNA와 특이적으로 상호작용하기 위해 뉴클레아제 기능 자체는 없이 내재적인 DNA 인지 및 결합 기능만 포함할 수 있다. 다른 구현예에서, 상호작용 도메인은 추가로 후술한 바와 같이 RT와 결합되는 RTDD에 대한 고 특이적인 상호작용 파트너로서 기능할 수 있다. 분자 복합체에 상호작용 도메인을 부가하여 부가적인 DNA 인지 또는 RTDD 상호작용 기능성을 추가함으로써, SSN 단독의 단순 기능성 외에도 게놈 조작에 또 다른 수준의 특이성을 부여한다.
궁극적으로, 특히 RT와 직접 상호작용하는 RTDD와 추가적으로 후술한 상호작용 도메인은, (i) RT가 대상 SSN과 밀접하게 접촉되게 하여, 즉 하나 이상의 SSN에 의해 유도되는 이중 가닥 절단에 인접해지게 만들어, (ii) 진핵생물 및 원핵 생물에서 다양한 주문-제작 방식의 게놈 조작 방식에 적합한 보다 우수한 타겟팅 범위와 보다 높은 정확성을 가진, 인공 분자 복합체 형태로 분자 시스템을 제공하여, 게놈 조작, 대사 조작, 식물의 형질 개발 및 치료학적 용도에 최상의 결과를 달성하기 위한, 다용도의 툴키트를 제공해준다.
따라서, 본 발명의 다양한 측면 및 구현예들 모두 SSN으로서 적합한 이중 가닥 절단 유도 효소 또는 2종의 닉카제뿐만 아니라 적절하게 설계된 복구 주형 핵산 서열 (RT)을 제공하는데 달려 있으며, 본 발명의 요지는 SSN과 RT를 타겟화된 방식으로 게놈 조작 이벤트를 발생시키도록 인접하게 만든다는 것이다.
일 구현예에서, 하나 이상의 RTDD는 CRISPR gRNA 또는 gDNA이며, 이는 복구 주형과 직접 상호작용하거나 또는 결합하여, RNA-DNA 하이브리드 핵산 서열 또는 RTDD의 DNA와 RT의 DNA 하이드리드 핵산 서열을 형성한다.
따라서, 본 발명에 따른 "인공 분자 복합체"는 하나 이상의 아미노산 구성성분, 즉 SSN, 선택적으로 상호작용 도메인, RTDD 및 핵산-베이스 복구 주형 (RT)을 포함하는 복합체이다. 복합체는, 조립된 상태에서, 통상적으로, 하나 이상의 아미노산 (단백질) 함유 구성성분, 즉 하나 이상의 SSN과 핵산 함유 구성성분, 즉 RT를 포함할 것이다. 하나 이상의 RTDD 및 선택적으로 하나 이상의 상호작용 도메인은 또한 빌딩 블럭으로서 아미노산 및/또는 핵산을 포함할 수 있지만, 분자 복합체 내 이들 구성성분의 기능들로 인해, 합성 빌딩 블럭 또는 여러가지 생체 분자 및/또는 합성 분자들의 조합 등의 보다 넓은 범주의 분자도 가능하다.
본 발명에 따른 인공 분자 복합체는, 생체내에서 자가-조립될 수 없어, 생체내에서 게놈 조작시 이의 유용성을 극도로 제한하는, 올리고뉴클레오티드 (RT)-효소 (SSN) 접합체의 단점을, 변형시킬 대상 게놈 타겟 DNA (코딩 및 비-코딩 영역, 핵, 색소체 및 에피솜 타겟 DNA 및 후생유전학적 타겟 부위를 포함하여, 게놈)를 탑재한 하나 이상의 무손상 세포와 함께 사용하였을 때, 생체내 및 시험관내에서, 하나 이상의 추가의 상호작용 매개 도메인, 즉 RTDD, 및 선택적으로, RT와 SSN의 밀접한 결합 및 생체내 또는 일반적으로 생리학적 조건에서 분자 복합체의 완벽한 조립을 보장하는 IA를 첨가함으로써, 해결한다.
일 구현예에서, 인공 분자 복합체는, 예를 들어, 숙주 세포에서 합성하여 복합체를 조립하기 위한 필수 구조체를 제공함으로써, 생체내에서 제공 및 조립될 수 있다. 다른 구현예에서, 인공 분자 복합체는 생체외 조립된 분자 복합체로서 제공될 수도 있으며, 그런 후 대상 숙주 세포에 생체내 도입되거나, 또는 대상 게놈 타겟 분자와 시험관내에서 접촉된다. 또 다른 구현예에서, 인공 분자 복합체의 일부는 생체외에서 생산하고, 일부는 생체내에서 생산할 수 있으며, 예를 들어, 인공 분자 복합체의 구성성분을 전사 및/또는 발현하기 위한 플라스미드를 탑재한 적절한 전달 벡터를 도입한 후 생산할 수 있으며, 그 기능을 발휘하는 최종 인공 분자 복합체는 RTDD에 의해 매개되는 고유 인지 기능에 기초하여 생체내에서 조립될 것이다.
본 발명에 따른 인공 분자 복합체의 임의의 구성성분들 간의 "상호작용" 또는 "직접 상호작용"은, 따라서, 인공 분자 복합체의 구성성분 2종 간의 임의의 공유적 또는 비-공유적 상호작용 또는 연결을 내포하는 것이다. 핵산 수준에서 공유 연결은 따라서 핵산 분자의 뉴클레오티드 사이의 포스포다이에스테르 또는 포스포로티오에이트 연결을 내포할 수 있다. 또한, 공유 연결은 아미노산과 다른 아미노산 및/또는 변형된 핵산 분자 사이의 이황화 결합일 수 있지만, 천연 또는 인공적인 공유 결합도 본 발명에서 고려될 수 있다. 비-공유적 상호작용은 정전기 상호작용 (electrostatic interaction), 예를 들어, 이온 결합, 수소 결합 또는 할로겐 결합, 반 데르 발스 상호작용, 예를 들어, 쌍극자-쌍극자, 쌍극자-유도성 쌍극자 (dipole-induced dipole), 런던 분산력 (London dispersion force), π-효과 (π-effect) 및 소수성 효과를 포함한다. 특히, 2가지 타입 이상의 상호작용이 본 발명에 따른 인공 분자 복합체의 구성성분들 간에 존재할 수 있다. 예를 들어, SSN, 예컨대, CRISPR 뉴클레아제는 RTDD로서 gRNA와 비-공유 상호작용(들)으로 상호작용할 수 있다. RTDD는 복구 주형 RT에 공유적으로 연결될 수 있다. 다른 구현예에서, SSN으로서 Argonaute 융합 단백질이 상호작용 도메인 (IA)으로서 단쇄 가변성 항체 단편에 공유 융합될 수 있다. IA는, 특히 플루오레세인에 특이적일 수 있으며, 따라서 RTDD 플루오레세인과 비-공유적으로 상호작용할 수 있다. 플루오레세인 및 표지된 복구 주형 핵산 RT는 합성 공유 융합체로서 제공될 수 있다. 다른 구현예에서, 여러가지 구성성분들의 조합은 비-공유적인 상호작용에 의해, 예를 들어 SSN 또는 IA와 상호작용하는 DNA 타겟 서열 및/또는 앱타머 (핵산 또는 아미노산계)의 루신-지퍼 인지에 의해 매개된다. 일 구현예에서, RTDD는 앱타머, 예를 들어, 복구 주형에 앱타머 기능을 제공하는 서열일 수 있다. 다른 구현예에서, 복구 주형과의 혼성화를 허용하는 가이드 핵산의 연장이 하나 이상의 RTDD로서 기능할 수 있다. RTDD와 같은 가이드 핵산을 정의하는 경우, 이러한 구현예는 RTDD를 2 이상 사용한다. 또 다른 구현예에서, 복구 주형을 이용한 라이게이션에 사용되는 가이드 핵산의 3' 또는 5' 말단은 RTDD로서 기능하도록 특수 구성될 수 있다.
본 발명에서, 인공 분자 복합체의 서로 다른 구성성분들은 천연 및/또는 합성 인공 빌딩 블럭을 포함할 수 있다.
본 발명에 따른 부위-특이적인 뉴클레아제 (SSN) 또는 이를 코딩하는 핵산 서열은, 따라서, 부위-특이적인 방식으로 DNA를 인지 및 절단할 수 있는 임의의 천연 또는 조작된 뉴클레아제일 수 있다. 많은 SSN들이 유기체 또는 바이러스의 게놈에 잠재적인 절단부를 여러개 가질 것이므로, 정의된 절단 패턴을 가진 SSN 또는 주문-제작된 절단 패턴을 가진 디자이너 SSN이 바람직하다. 따라서, SSN은 게놈-편집 기법을 위한 부위-특이적인 뉴클레아제, 예를 들어, 디자이너 징크 핑거, 전사 활성인자-유사 작동자 (TALE), (호밍) 메가뉴클레아제, CRISPR 시스템 유래 뉴클레아제, 예로, Cas 또는 Cpf1 뉴클레아제, 또는 Argonaute 뉴클레아제뿐 아니라 희귀 커팅 엔도뉴클레아제 (rare cutting endonucleases), 또는 2종의 부위-특이적인 니킹 엔도뉴클레아제, 예를 들어, 클래스 IIS 제한 엔도뉴클레아제, 예로, FokI 또는 이의 변이체, 또는 2종의 부위-특이적인 니킹 엔도뉴클레아제 (two site-specific nicking endonucleases), 또는 이의 변이체 또는 촉매적으로 활성인 단편, 또는 전술한 SSN의 임의의 변이체 또는 촉매학적으로 활성인 단편을 포함한다. 따라서, 본 발명에서, 2종 이상의 SSN 또는 이를 코딩하는 핵산 서열이 존재할 수 있으며, 이들 분자들이 함께 DNA 타겟 서열에서 타겟화된 DNA 이중 가닥 절단 또는 2개의 인접한 단일 가닥 절단 (two consecutive single-strand breaks)을 유도할 수 있다.
본 발명에서, "DNA 타겟 서열"은 이중 가닥 DNA, 게놈 또는 플라스미드계 (plasmid-based) 내부의 임의 영역일 수 있으며, 이 영역에서 타겟화된 DNA 절단이 유도되며, 이후 본 발명에 따른 복구 주형 (RT)의 도움을 받아 복구된다. "DNA 타겟 서열"이 내인성 서열로부터 기원함에도 불구하고, 이 서열의 편집 또는 조작은 게놈 DNA를 포함하는 분자, 바람직하게는 플라스미드에 해당 서열을 제시함으로써 시험관내에서 수행될 수 있다. 이러한 구현예에서, 대상 타겟 유전자 좌는 세포 내 DNA 분자에 포함될 수 있다. 세포는 원핵생물 세포 또는 진핵생물 세포일 수 있거나, 또는 바이러스 증식에 사용되는 원핵생물 세포 또는 진핵생물 숙주 세포 내 플라스미드에 위치한 바이러스 게놈일 수 있다. 세포는 포유류 세포일 수 있다. 포유류 세포는 인간을 제외한 영장류, 보바인, 돼지, 설치류 또는 마우스 세포일 수 있다. 세포는 가축, 어류 또는 새우와 같은 비-포유류 진핵생물 세포일 수 있다. 또한, 세포는 식물 세포일 수 있다. 식물 세포는 카사바, 옥수수, 수수, 밀, 대두, 목화, 사탕무 또는 벼와 같은 농작물일 수 있다. 또한, 식물 세포는 조류 (algae) 나무 또는 채소일 수 있다. 본 발명에 의해 세포에 도입되는 변형은, 항체, 전분, 알코올 또는 그외 적절한 세포성 산물 (cellular output)과 같은 생물학적 산물의 생산을 개선하기 위해 세포 및 세포의 후대를 변이시키는 것일 수 있다. 본 발명에 의해 세포에 도입되는 변형은, 제조되는 생물학적 산물을 변형시키는 변형을 세포 및 세포의 후대가 포함하도록 하는 것일 수 있다. 다른 구현예에서, "DNA 타겟 서열"은 후생유전학 대상 유전자좌 (epigenomic locus)일 수 있다.
본 발명에 따른 "게놈 상보성 서열"은 본 발명에 따른 RT의 서열 일부가 상보적인 염기 쌍 형성을 통해 정렬될 수 있다는 것을 의미한다. "DNA 타겟 서열" 및 "게놈 상보성 서열"은 따라서 중첩 (overlapping)되거나 또는 심지어 동일할 수 있지만, 일부 구현예에서, 상기한 서열들은 서로 다를 수 있으며, 예를 들어, 하나 이상의 SSN이 RT의 "게놈 상보성 서열" 영역의 상류 또는 하류에 커팅 부위를 가진 경우에는 서로 다를 수 있다.
기술된 임의 구현예에서, 가닥 절단은 이중 가닥 절단일 수 있거나, 또는 2부위의 단일 가닥 절단일 수 있다.
특정 구현예에서, SSN 구성성분과, 선택적으로 인공 분자 복합체의 IA 구성성분은, 일 구현예에서, RTDD 태그된 또는 결합된 복구 주형 올리고뉴클레오티드와 함께 단백질의 공동-전달을 통해, 또는 다른 구현예에서 융합 단백질의 플라스미드-기반의 발현으로서 변형시킬 대상 게놈 영역을 포함하는 숙주 세포 또는 분석 시스템으로, 전달될 것이며, 이후 RTDD 태깅된 복구 주형에 노출될 것이다. RTDD를 2 이상 고려할 경우, 예를 들어, RTDD 하나는 가이드 핵산 분자이고, 다른 RTDD는 RT와 결합된, 분자, 예를 들어, 바이오틴 또는 마커, 예를 들어 플루오레세인이며, 이 경우 부가적인 RTDD가 공동-전달될 수 있다. 또한, 본 발명에 따른 플라스미드- 또는 벡터 기반의 방식은 SSN 및/또는 IA 및/또는 이의 융합 단백질의 안정적인 발현인자 라인 (expressor line)의 방식도 포함한다.
일 구현예에서, 인공 분자 복합체는 SSN 하나가 활성 뉴클레아제이고 다른 SSN은 촉매학적으로 불활성의 뉴클레아제-결핍성 분자인 SSN 분자 2개를 포함하며, 불활성 SSN은 RTDD/RT에 대한 상호작용 파트너로서 작용할 것이다. 이러한 구성의 인공 분자 복합체는 특정 대상 DNA 타겟 서열에 대한 특이성을 강화할 수 있다.
다른 구현예에서, 융합 단백질 또는 비-공유 결합된 활성 Cpf1 및 상호작용 도메인으로서 불활성 dCas9이 SSN으로서 제공될 수 있다. RTDD로서 Cas9에 대한 gRNA는 복구 주형 또는 이의 연장부를 타겟으로 하여 Cpf1-dCas9-RT 복합체를 형성할 수 있다. crRNA (Cpf1)는 이중 가닥 컷에 대해 정의된 게놈 유전자 좌를 타겟팅하여, HDR을 개시한다.
마찬가지로, 고 활성의 징크 핑거 단백질, megaTAL 또는 불활성 메가뉴클레아제도 상호작용 도메인으로 사용될 수 있다.
본 발명의 다양한 측면에 따른 일 구현예에서, 하나 이상의 복구 주형 도킹 도메인 (RTDD) 또는 이를 코딩하는 핵산 서열, 또는 하나 이상의 인공 분자 복합체는, 바이오틴, 앱타머, DNA, RNA 또는 플루오레세인 또는 이의 변이체 등의 형광단을 포함하는 단백질 염료, 말레이미드 또는 테트라졸륨 (XTT), 하나 이상의 복구 주형 핵산 서열과 상호작용하도록 특이적으로 구성된 가이드 핵산 서열, 스트렙타비딘 또는 이의 변이체, 바람직하게는 모노머성 스트렙타비딘, 아비딘 또는 이의 변이체, 친화성 태그, 바람직하게는 스트렙타비딘-태그, 항체, 단쇄 가변 단편 (scFv), 싱글-도메인 항체 (나노바디), 안티칼린, 아그로박테리움 VirD2 단백질 또는 이의 도메인 (예, 서열번호 33 참조), 피코나바이러스 VPg, 토포이소머라제 또는 이의 도메인, PhiX174 파지 A 단백질, PhiX A* 단백질, VirE2 단백질 또는 이의 도메인, 또는 디곡시게닌 중 하나 이상으로부터 선택된다. 따라서, RTDD는 핵산 또는 아미노산 분자로 한정되지 않은 천연 또는 합성 분자일 수 있다. 이에, RTDD는 오히려 본 발명의 인공 분자 복합체의 특이적인 상호작용 모티프로서, 이는 하나 이상의 대상 SSN과 대상 게놈 상보성 영역에 특이적인 하나 이상의 복구 주형을 커플링하도록 다양한 방식으로 설계될 수 있으며, 하나 이상의 SSN에 의해 절단된 대상 DNA 타겟 서열에 도입될 대상 삽입체를 선택적으로 탑재하고 있다. CRISPR 또는 Argonaute 기반의 SSN를 이용한 구현예에서, RTDD가 가이드 핵산 서열일 수 있다. 본 발명에 따른 RTDD는 따라서 다양한 클래스의 인공 또는 천연 분자에 속하는 분자일 수 있다. RTDD는 따라서 하나 이상의 복구 주형 핵산 서열 (RT)과 직접 상호작용하는 그 능력에 의해 정의되며, 부가적으로 하나 이상의 SSN과의 직접적인 상호작용에 의해 정의된다. RTDD는 따라서 인공 분자 복합체 내 분자 링커이어서, RT와 SSN의 물리적인 인접성을 제공해주며 - 이의 RT 및 SSN과의 이중 상호작용으로 인해 - 고 특이적인 분자 상호작용을 이용함으로써 인공 분자 복합체의 시험관내 및 생체내 결합을 보장해준다. 특정 구현예에서, RT를 2 이상 탑재한 RTDD 2 이상이 존재할 수 있다.
다른 구현예에서, 인공 분자 복합체는 상호작용 도메인을 포함하며, 하나 이상의 상호작용 도메인 또는 이를 코딩하는 핵산 서열은 DNA-결합 도메인, 스트렙타비딘 또는 이의 변이체, 바람직하게는 모노머성 스트렙타비딘, 아비딘, 또는 이의 변이체, 친화성 태그, 바이오틴화 신호, 바이오틴 어셉터 부위, 스트렙타비딘-태그, 항체, 단쇄 가변 단편 (scFv), 싱글-도메인 항체 (나노바디), 안티칼린, 바이오틴, 앱타머, DNA, RNA 또는 플루오레세인 또는 이의 변이체를 포함하는 형광단을 포함하는 단백질 염료, 말레이미드 또는 테트라졸륨 (XTT), 하나 이상의 복구 주형 핵산 서열과 상호작용하도록 특이적으로 구성된 가이드 핵산 서열, 아그로박테리움 VirD2 단백질 또는 이의 도메인, 피코나바이러스 VPg, 토포이소머라제 또는 이의 도메인, PhiX174 파지 A 단백질, PhiX A* 단백질, VirE2 단백질 또는 이의 도메인, 또는 디곡시게닌 중 하나 이상으로부터 선택된다.
특히, RTDD 및 상호작용 도메인은, 상호작용 도메인이 선택적인 구성성분이고, 부가적으로 본 발명에 따른 인공 분자 복합체의 특이성 또는 효율을 최적화할 수 있다는 점으로 인해, 상응하는, 중첩성 분자 클래스로부터 선택될 수 있다. 상호작용 도메인의 존재는 인공 분자 복합체를 이용한 구현예에서 중요할 수 있으며, 이 경우 핵산 가이드된 뉴클레아제는 SSN으로서 사용되거나, 또는 SSN은 SSN의 고유한 DNA 인지, 결합 및 절단 활성을 변형시키는 하나 이상의 돌연변이(들)를 탑재하고 있다. 또 다른 구현예에서, 인공 분자 복합체 내 추가적인 구성성분으로서 상호작용 도메인은 복합체에 확장된 기능성을 부가하여, 이의 적용가능성 범위를 넓힐 수 있기 때문에, 상호작용 도메인의 존재는 타겟팅 범위, 결합 및/또는 절단 효율 또는 대상 DNA 타겟 서열에의 타겟팅 정확성을 추가적으로 높이기 위해 임의 타입의 SSN과 조합하여 사용되는 것이 유리할 수 있다. 특히, 복합체 게놈을 포함하는 고등 진핵생물에서 게놈 조작하는 경우, 부가적인 구성성분, 즉 상호작용 도메인의 존재는 따라서 DNA 절단의 정확도 개선 및 - 본 발명에 따른 RT에 의해 매개되는 - 타겟화된 복구를 달성하는데 특히 중요할 수 있다. 특정 구현예에서, IA는 게놈 조작 자체에 관여하지 않는 분자 파트너에 대해 고 특이적인 결합 파트너일 수 있으며, 이 경우 분자 파트너 또는 동족 결합 파트너는 RT와 결합되는 RTDD이다. 따라서, IA 도메인뿐만 아니라 동족 파트너 RTDD 첨가에 따른 상가 수준 (additional level)은 인공 분자 복합체에 현저하게 더 높은 결합 특이성과 RT 이용가능성을 부여함으로써 타겟화된 게놈 조작 방식의 성과를 개선할 수 있다.
본 발명에 따른 상호작용 도메인 (IA)은 (i) 하나 이상의 복구 주형 도킹 도메인과의 상호작용; 및/또는 (ii) 하나 이상의 복구 주형 핵산 서열과의 상호작용; 및/또는 (iii) 게놈 DNA와 서열-특이적인 상호작용으로 이루어진 군으로부터 선택되는 여러 가지 기능성을 가진다. 이러한 기능들 중 2가지 이상이 하나의 특정 IA에 통합될 수 있다.
동족 리간드, 예를 들어, 생체분자에 대한 플루오레세인 등의 합성 리간드, 예로 앱타머 또는 항원/에피토프에 대한 바이오틴 또는 디옥시게닌 및 이의 변이체에 대해 선천적인 고 특이성 및 고 친화성 결합 능력을 가진 단백질 또는 폴리펩타이드인 IA를 사용하는 것이 바람직할 수 있다. 본원에서, 용어 "항원"은 면역학 분야에서 일반적으로 사용되는 바와 같이 후천적인 면역 반응을 발생시킬 수 있는 "항체 생성" 분자, 즉 기질로 지칭된다. 따라서, 항원은 T 세포 또는 B 세포 수용체 또는 이의 변이체 중 하나인 항원-특이 수용체에 대한 분자 결합성이며, 예를 들어 나노바디 또는 단쇄 가변 단편 항체, 이중 특이적인 항체 탠덤 di-scFv, 다이아바디, 탠덤 트리-scFv (3가) 또는 트리아바디 (3가) 등이 있다. 항원은 통상적으로 (폴리)펩타이드이지만, 또한 단백질 또는 다당류 담체 분자와 잠재적으로 조합된 다당류 또는 지질일 수 있다. IA의 이러한 고유한 결합/인지 특성에 의해 매개되며 고 특이적인 방식으로 RTDD를 특이적으로 인지하는 대상 IA를 선택할 수 있으며, IA를 공유적으로 또는 비-공유적으로 SSN에 연결 또는 융합할 수 있다. 즉, 이러한 IA를 포함하는 것이 본 발명의 인공 분자 복합체에 부가적인 수준의 특이성을 부가하게 되며, RTDD와 직접 상호작용하는 RT는 고 특이적인 IA-RTDD 결합에 의해 매개되는 바와 같이 SSN-AI 복합체와 특이적으로 결합될 수 있게 보장해준다. 가장 바람직하게는, IA 및 동족 RTDD는 고 친화성의 일정한 또는 결합 친화성을 가지므로, 생리학적 조건에서 각각에 대해 낮은 해리 상수 (Kd)를 가지며, 즉 Kd 값은 낮은 μM, 또는 바람직하게는 nM 범위, 바람직하게는 그 보다 더 낮다. IA는 각각 하나 이상의 특이성을 가지거나 (3가 항체 유래 단편), 또는 2 이상의 결합부를 가진 (테트라머 스트렙타비딘) 1가, 2가, 3가 또는 다가 분자일 수 있다. 이러한 구현예에서, RTDD 및/또는 RT 2 이상이 존재할 수 있으며, 인공 분자 복합체와 함께 하나 이상의 SSN에 제시될 수 있다. 해리 상수 (Kd)가 낮은, 즉 이의 동족 리간드에 대한 높은 친화성을 가진, IA가 바람직하다. 통상적으로, 분자 2종 사이에 비-공유적으로 결합하는 상호작용, 즉 단백질과 리간드 간의 전형적인 상호작용 형태의 결과로서 피코몰 이하의 해리 상수는 드문 편이다. 그러나, 일부 중요한 예외도 있다. 바이오틴 및 천연 아비딘은 약 10-15 M의 해리 상수로 결합하며, 이는 가역적인 결합이 의도된 용도에 적합하지 않은 높은 친화성을 나타낸다. 시판 항체 또는 scFv는 10-14 M 10-6 M 범위의 Kd 값을 가질 수 있다. 본 발명의 목적에서, IA-RTDD 쌍은 낮은 해리 상수, 즉 고 친화성을 가져야 한다.
또한, 특정 구현예에서, IA는 RT와 직접 상호작용할 수 있다. RT 핵산 서열이 가닥, 예를 들어 핵산 기반의 앱타머를 포함할 경우, 그 서열은 동족 결합 파트너에 의해 인지될 수 있으며, 그런 후 IA는 매우 특이적인 방식으로 RT와 상호작용할 수 있다. 또한, IA는 결합 특이성이 하나 보다 많은 2가, 3가 또는 다가 분자일 수 있다. IA의 일부 영역은 RTDD와 상호작용하도록 구성되고, 일부 영역은 RT와 상호작용하도록 구성될 수 있어, IA는 SSN과 결합하여, 게놈 조작시 RT와 SSN의 더욱 타이트한 결합을 달성할 수 있다.
다른 구현예에서, IA는 게놈 DNA와 서열-특이적으로 상호작용할 수 있는 능력을 가진 결합 분자일 수 있다. 이는 인공 분자 복합체를 DNA 타겟 서열로 타겟팅하는 동안에 더 강한 특이성을 부여할 것이다. 또한, 이는 최적화된 절단 활성을 가진 SSN이 제공될 수 있도록 변형된 SSN의 사용을 허용하지만, IA는 높은 정확성으로 인공 분자 복합체를 DNA 타겟 서열로 타겟팅하는 기능을 매개하고, SSN 및/또는 IA는 RTDD와 상호작용하여, RT와 상호작용하여 그 부위에 이를 제시할 수 있으며, 그 부위에 이중 가닥 절단이 유도될 것이다. 일 구현예에서, IA는 따라서 하나 이상의 SSN 뉴클레아제 또는 이의 변이체의 N- 또는 C-말단 중 어느 한 부위에서 융합 단백질의 일부로 설계된 DNA-결합 도메인 또는 DNA-결합 모티프일 수 있다. 아미노산 기반의 링커는 유연성을 허용할 것이며, DNA 결합 또는 뉴클레아제 활성에 대한 입체 장애 (steric hindrance)를 회피할 것이다. 잠재적인 DNA 결합 도메인은 또한 징크 핑거 (Roy et al. 2012), 예를 들어 Cys2/His2 Zn 핑커 (Kubo et al. 1998), TALEN (Hubbard et al. 2015) 또는 불활화된 Argonaute 또는 고 특이적인 DNA 결합성을 가진 Cas9 단백질일 수 있다. 이들 DNA-결합 도메인들 중 어느 하나는 이상적으로는 대상이 되는 상동성-암 측면 서열 (homology-arm flanked sequence) 바깥쪽 서열을 타겟팅하여, 상호작용의 입체 장애를 회피할 것이며, 따라서 본 발명의 인공 분자 복합체에 또 다른 수준의 특이성을 부여할 수 있다.
추가적인 구현예에서, 인공 분자 복합체에 하나 보다 많은 수의 IA 도메인이 사용될 수 있으며, 즉, IA 하나는 RTDD에 대한 고 특이성 및 친화성 결합제로서 사용되고, IA 다른 하나는 부가적인 DNA-결합 도메인으로서 사용되며, 이들 IA 둘다 인공 분자 복합체의 하나 이상의 SSN과 직접 상호작용, 즉 공유적으로 또는 비-공유적으로 결합한다.
일 구현예에서, 하나 이상의 SSN 및/또는 하나 이상의 IA는 바이오틴화 신호 또는 바이오틴화 어셉터 부위 또는 strep-태그를 포함한다. 관련 신호/부위는 내인성 (BirA) 또는 외인성 바이오틴화 효소/물질, 또는 시험관내 바이오틴화 단계에 의해 시험관내 또는 생체내에서 바이오틴화될 수 있으며, 이후 바이오틴화 신호/부위 및/또는 strep-태그는 스트렙타비딘 또는 아비딘 또는 바람직하게는 이의 변형된 변이체, 가장 바람직하게는 이의 모노머 변이체에 의해 인지 및 결합될 수 있으며, 여기서 스트렙타비딘 또는 아비딘 또는 이의 변이체는 대상 RT와 결합할 것이다. 아비딘은 DNA와 비-특이적으로 상호작용하는 것으로 알려져 있어 (Morpurgo et al., 2004), 아비딘의 변형된 변이체 또는 더 바람직하게는 스트렙타비딘 또는 이의 변이체가 바람직할 수 있다.
특히 가이딩 RNA/DNA에 의존하지 않는 SSN의 경우, 모노머 스트렙타비딘 또는 scFv가 소정의 결합 특이성으로 결합하는 부가적인 결합력과 그에 따른 RT 타겟팅 능력은, 본 발명에 따른 RTDD 및/또는 IA와 조합 사용된다면, 게놈 조작에 적합한 SSN 범위를 현저하게 넓힐 수 있다.
일 구현예에서, 시판 키트에 의해 또는 RTDD와 같이 제3자 합성 공정의 일부로서 복구 주형 DNA에 바이오틴을 융합할 수 있다. 변형된 스트렙타비딘 또는 아비딘 서열의 사용은, 단백질 간 복합체 형성이 이루어지지 않고, 단백질 당 하나의 바이오틴화된 복구 주형 DNA가 결합되게 해준다. 복구 주형은 이후 상호작용 도메인으로서 스트렙타비딘 또는 임의의 이의 변이체와 연결되며 (Niemeyer et al. 1999, "Functionalization of covalent DNA-streptavidin conjugates by means of biotinylated modulator components." Bioconjug Chem 10(5): 708-719), 이 상호작용 도메인은 예를 들어 SSN과 스트렙타비딘을 융합 분자로서 제공됨으로써 SSN과 직접 상호작용한다. 다른 구현예에서, SSN은 바이오틴화 신호 또는 펩타이드를 포함할 수 있으며, 바이오틴화는 숙주 세포에서 생체내에서 진행될 것이다. 이러한 구현예에서, 스트렙타비딘 또는 아비딘, 또는 이의 변이체는 RT에 연결되는 RTDD 자체로서 기능할 수 있다. 본 발명에 따른 상호작용 도메인 또는 RTDD로서 적합한 모노머 스트렙타비딘 (mSA)을 코딩하는 예시적인 서열은 서열번호 34에 나타낸다. SSN에 융합된 mSA는 본 발명에 따른 RTDD로서 또는 상호작용 도메인으로서 이해될 수 있다. 다른 구현예에서, SSN은 상호작용 도메인으로서 또는 RTDD로서 각각 기능하는 스트렙타비딘 변이체에 의해 태그가 인지되는, strep-태그를 탑재할 수 있다. 적합한 스트렙타비딘 또는 아비딘 효소, 또는 이의 변이체, 또는 이를 코딩하는 벡터는 당업자라면, 예를 들어, IBA Lifesciences (Gottingen, Germany), addgene (Cambridge, MA, USA), Intregrated DNA Technologies (Coralville, IA, USA) 또는 GeneArt (ThermoFisher; Waltham, MA, USA)로부터 입수가능하다. 본 발명에 따른 IA 또는 RTDD로서 적합한 mSA를 코딩하는 모노머 스트렙타비딘 구조체에 대한 또 다른 예시적인 서열은 서열번호 42에 나타낸다.
일부 구현예에서, RTDD와 SSN 및/또는 상호작용 도메인 간의 상호작용 또는 부착 또는 결합은, 비-제한적인 예로, 바이오틴-아비딘; 바이오틴-스트렙타비딘; 바이오틴-아비딘의 변형된 형태; 단백질-단백질; 단백질-핵산 상호작용; 리간드-수용체 상호작용; 리간드-기질 상호작용; 항체-항원; 단쇄 항체-항원; 항체 또는 단쇄 항체-합텐; 호르몬-호르몬 결합 단백질; 수용체-작용제; 수용체-수용체 길항제; IgG-단백질 A; 효소-효소 조인자 (enzyme-enzyme cofactor); 효소-효소 저해제; 단일 가닥 DNA-VirE2; StickyC-dsDNA; RISC (RNA-유도성 침묵 복합체)-RNA; 바이러스 외막 (coat) 단백질-핵산; 항-플루오레세인 단쇄 가변 단편 항체 (anti-FAM scFV)-플루오레세인; 항-다이곡시게닌 (DIG) 단쇄 가변 단편 (scFv) 면역글로빈 (DIG-scFv)-디곡시게닌 (DIG) 및 아그로박테리움 VirD2-결합 단백질 또는 이들의 임의 조합 또는 변이로부터 선택되는 결합-쌍의 비-공유 상호작용으로부터 선택되는 결합-쌍의 상호작용으로부터 유발된다. 특히 항체 및 항체 단편 또는 맞춤-제작 특징 및 고 친화성 (pM 또는 심지어 fM 범위)을 가진 scFv, 나노바디 또는 다이아바디와 같은 유도체, 특히 플루오레세인 또는 이의 유도체와 같은, 항체 또는 단편 또는 이의 변이체 결합성 클래식 염료는 상업적으로 입수가능하다.
일 구현예에서, 본 발명에 따른 상호작용 도메인은 루신 지퍼, 앱타머 서열, dCas9, dCPF1, 메가뉴클레아제, 아연 핑거 또는 TALE 구조체로부터 선택된다. 이러한 구현예에서, SSN 및 RT DNA 중 하나 이상은 SSN의 N- 및/또는 C-말단 상에 융합 단백질의 일부로 설계된 중간체 DNA-결합 도메인 또는 DNA-결합 모티프를 통해 직접 상호작용하게 인가될 수 있다. 아미노산 기반의 링커는 유연성을 허용할 것이며, DNA 결합 또는 뉴클레아제 활성에 대한 입체 장애를 회피할 것이다. 또한, 잠재적인 DNA 결합 도메인은 징크 핑거 (Roy et al. 2012, "Prediction of DNA-binding specificity in zinc finger proteins" J Biosci 37(3): 483-491), 예를 들어, Cys2/His2 Zn 핑거 (Kubo et al. 1998, "Cys2/His2 zinc-finger protein family of petunia: evolution and general mechanism of target-sequence recognition." Nucleic Acids Research 26(2): 608-615), TALEN (Hubbard et al. 2015, "Continuous directed evolution of DNA-binding proteins to improve TALEN specificity." Nat Methods 12(10): 939-942) 또는 고 특이적으로 DNA 결합할 수 있는 불활성 Argonaute 또는 Cas 단백질일 수 있다. 상호작용 도메인으로서 이들 DNA-결합 도메인들 중 어느 하나는 대상이 되는 상동성-암 측면 서열 (homology-arm flanked sequence) 바깥쪽 서열을 타겟팅하여, 상호작용의 입체 장애를 회피하는 것을 부가적으로 도울 수 있다. 상기한 상호작용 도메인은 본 발명의 인공 분자 복합체의 DNA-결합을 증가시키는 기능을 충족시키거나 및/또는 RTDD/RT 연결을 위한 부가적인 도킹 부위 제공을 허용하여 게놈 조작에 적합한 고 특이성 복합체를 제공할 수 있다.
특정 구현예에서, 본 발명에 따른 하나 이상의 SSN은, 비-제한적인 예로, 말토스 결합 단백질 (MBP), S-태그, Lex A DNA 결합 도메인 (DBD) 융합체, GAL4 DNA 결합 도메인 융합체 및 헤르페스 심플렉스 바이러스 (HSV) BP16 단백질 융합체 등의, 다른 세포 분자 또는 DNA 분자에 결합하는, DNA 결합 도메인, 즉, 단백질 또는 이의 단편, 또는 상기 단백질 또는 단백질의 단편을 코딩하는 유전자 서열에 융합될 수 있다.
특정 구현예에서, RTDD가 하나 보다 많이 존재할 수 있다. 제1 RTDD는 mSA 또는 단쇄 가변 단편 (scFv)이고, 제2 RTDD는 바이오틴 또는 scFv의 동족 리간드일 수 있다. 일 구현예에서, CRISPR 또는 Argonaute 기반의 SSN 시스템을 이용하여, 제1 RTDD는 가이드 핵산 서열이고, 제2 RTDD는 바이오틴 또는 플루오레세인 또는 RT에 연결된 임의의 다른 고 친화성 결합 파트너 모이어티이고, 여기서 모노머 스트렙타비딘 또는 scFv 또는 다른 동족 단백질 결합 파트너는 제2 RTDD를 인지하여 고 친화성으로 이에 결합하는 IA이다. 이러한 본 발명에 따른 인공 분자 복합체 설계는, RTDD가 RT 및 SSN과 강력하고 신뢰할 수 있는 상호작용을 제공하여 정확한 게놈 조작 현상을 달성하므로, 높은 RT 이용성 및 RT 비-소실을 동시에 제공함으로써, RT를 작동자 SSN와 밀접하게 접촉하게 만드는 최대한의 유연성을 허용해준다.
일 구현예에서, SSN에 대한 복구 주형 결합 (repair template linkage)은 염료 플루오레세인에 대한 단쇄 가변 단편 (scFv) 항체에 의해 달성될 수 있다. 플루오레세인 및 플루오레세인-유도체에 특이적으로 결합하는 scFv는 하이브리드-단백질 방식으로 SSN에 융합된다 (Schenk et al. 2007, "Generation and application of a fluorescein-specific single-chain antibody." Biochimie 89(11): 1304-1311). 다른 구현예에서, SSN은 이와 상호작용하는 플루오레세인 분자를 포함할 수 있으며, 동족 플루오레세인 특이 scFv는 RT와의 융합체로서 제공되고, SSN과 결합된 플루오레세인에 결합할 수 있다. 따라서, scFv는 본 발명에 따른 RTDD로서 또는 상호작용 도메인으로서 기능할 수 있다.
본 발명의 다른 구현예들에서, 서로 다른 결합 특이성을 가진 임의의 scFv가 사용될 수 있다.
적합한 scFv-리간드 쌍은 scFv 및 플루오레세인 (FAM) 또는 임의의 FAM 유도체 또는 변이체, scFv를 인지하는 디곡시게닌 (DIG), 대상 SSN 상의 에피토프/항원을 인지하는 맞춤-제작형 scFv 등으로 이루어진 군으로부터 선택된다. 플루오레세인 결합성을 가진 scFv 코딩 서열을 코딩하는 서열의 일 예는 서열번호 43에 제시된다.
다른 구현예에서, 앱타머 서열은 하나 이상의 SSN과 특이적으로 상호작용하도록 설계된다. 이러한 구현예에서, 앱타머 서열은 대상 복구 주형 서열에 공유 또는 비-공유적으로 결합되어, 융합 단백질을 구축하지 않고도 및/또는 부가적인 상호작용 도메인을 사용하지 않고도, SSN과 RTDD로서 앱타머 간의 직접 결합을 허용한다. 분리된 상호작용 도메인을 사용하지 않는 구현예에서, RT와 상호작용하는 RTDD는 하나 이상의 SSN 단백질의 도메인 또는 RTDD와 상호작용하도록 구성된 이의 특이적인 도메인과 특이적으로 상호작용, 즉, 부착 또는 결합할 수 있는 뉴클레오티드 모티프를 포함한다. 일부 구현예에서, 상호작용은, 비-제한적인 예로, 징크 핑거 단백질-징크 핑거 모티프; 제한효소 인지 도메인-제한효소 인지 서열; 전사 인자의 DNA 결합 도메인-DNA 모티프; 억제인자-오퍼레이터; 루신 지퍼-프로모터; 헬릭스 루프 헬릭스-E 박스 도메인; 아르기닌-풍부 모티프 도메인, αβ 단백질 도메인, RNA 인지 모티프 (RRM) 도메인, K-상동성 도메인, 이중 가닥 RNA 결합 모티프, RNA-결합성 징크 핑거 및 RNA-타겟팅 효소-동족 특이 RNA 서열을 포함하는 RNA 결합 모티프; HIV-rev 단백질-HIV rev 반응 인자 (RRE)의 Sem IIB; 보바인 면역결핍 바이러스 (BIV) Tat 메인 결합 도메인-BIV 트랜스-작용성 반응 인자 (TAR) 서열의 루프 1; Phage lambda, phi21 및 P22 N 단백질, 해당 RNA의 N-utilization (nut) 부위의 boxB 루프 헤어핀으로부터 선택된다.
본 발명이 부위-특이적인 뉴클레아제로서 Argonaute의 용도에 관한 경우, 가이드-DNA 분자의 이점 외에도, NgAgo 엔도뉴클레아제의 전달은 이의 작은 크기에 의해 용이해진다. 야생형 (WT) 단백질 (GenBank Accession Number AFZ73749)은 아미노산 887개이거나, 또는 스트렙토코커스 피오게네스 Cas9 크기의 대략 2/3에 불과하다. 이는 클로닝 및 벡터 조립을 간편하게 해주면, 세포 내 뉴클레아제 발현 수준을 높이고, DNA 바이러스 또는 RNA 바이러스 등의 바이러스와 같은 크기 매우 민감한 플랫폼으로부터 단백질 발현과 관련된 문제들을 줄일 수 있다. 다른 안내되는 엔도뉴클레아제와 마찬가지로, NgAgo SSN은 통상적으로 식물 세포에서 타겟화된 돌연변이 유발하기 위해 최소한 2가지 구성성분을 필요로 한다: 5'-인산화된 단일 가닥 가이드-DNA 및 NgAgo 엔도뉴클레아제 단백질. 타겟화된 편집, 삽입 또는 서열 치환의 경우, NHEJ 또는 HR 복구 경로를 통해 변화를 도입하기 위해 원하는 서열을 코딩하는 DNA 주형이 식물 세포에 제공될 수 있다. 성공적인 편집 이벤트는 대부분 일반적으로 표현형 변화 (예, 가시적인 표현형을 발생시키는 유전자의 넉아웃 또는 유도에 의한), PCR 기반의 방법 (예, 농화 PCR, PCR-절단 또는 T7EI 또는 Surveyor 엔도뉴클레아제 분석에 의한), 또는 타겟화된 차세대 서열분석 (NGS: 심층 서열분석이라고도 함)에 의해 검출된다. 일 특정 구현예에서, 변형된 Argonaute 엔도뉴클레아제는 약 20℃ 내지 약 35℃ 온도에서 활성을 나타낸다. 일 특정 구현예에서, 변형된 Argonaute 엔도뉴클레아제는 약 23℃ 내지 약 32℃ 온도에서 활성을 나타낸다. 엔도뉴클레아제로 기능할 수 있는 Argonaute 단백질은 중요한 기능성 도메인 3개를 포함할 수 있다: PIWI 엔도뉴클레아제 도메인, PAZ 도메인 및 MID 도메인. PIWI 도메인을 뉴클레아제와 비슷할 수 있다. 뉴클레아제는 RNase H 또는 DNA-안내되는 리보뉴클레아제일 수 있다. PIWI 도메인은 RNA 및 DNA를 절단할 수 있는 다른 뉴클레아제에 의해 발생되는 촉매 작용에 대해 2가 양이온-결합 모티프를 공유할 수 있다. 2가 양이온-결합 모티프는 4개의 음으로 하전된 진화적으로 보존된 아미노산을 포함할 수 있다. 4개의 음으로 하전된 진화적으로 보존된 아미노산은 아스파르테이트-글루타메이트-아스파르테이트-아스파르테이트 (DEDD)일 수 있다. 4개의 음으로 하전된 진화적으로 보존된 아미노산은, Mg2+ 이온 2개와 결합하고, 타겟 핵산을 3' 하이드록시기 및 5' 포스페이트 기를 가진 산물로 절단하는, 촉매성 테트라드 (catalytic tetrad)를 형성할 수 있다. PIWI 도메인은 염기성 잔기로부터 선택되는 하나 이상의 아미노산을 더 포함할 수 있다. PIWI 도메인은 히스티딘, 아르기닌, 라이신 및 이들의 조합으로부터 선택되는 하나 이상의 아미노산을 더 포함할 수 있다. 히스티딘, 아르기닌 및/또는 라이신은 촉매 작용 및/또는 전달에 중요한 역할을 수행할 수 있다. Argonaute에 의한 타겟 핵산의 절단은 하나의 포스포다이에스테르 결합에서 발생할 수 있다. 일부 경우에, 하나 이상의 마그네슘 및/또는 망간 양이온이 타겟 핵산의 절단을 촉매할 수 있으며, 이때 제1 양이온이 친핵성 공격을 수행하여, 물 분자를 활성화시키고, 제2 양이온이 트랜지션 상태 및 이탈기를 안정시킬 수 있다. 일부 Argonaute 뉴클레아제의 경우, 소정의 길이의 gDNA가 Argonaute와 안내 gDNA 간에 친화성을 제공할 것이다.
본 발명에 따른 적절한 Argonaute 단백질은 서열번호 19 및 20로 제시되거나, 또는 이와 적어도 66%, 67%, 68%, 69%, 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 또는 99%의 서열 상동성을 가진 서열을 포함할 수 있으며, 단 상동적인 서열은 이 단백질이 유래된, 즉 기원이 되는 Argonaute 단백질의 기능을 여전히 수행한다. 추가적으로 적합한 Argonaute 서열은 미국 가출원 62/345,448에 기재되어 있으며, 이 문헌은 원용에 의해 본 명세서에 포함된다. 추가적으로 적합한 Argonaute 서열은 서열번호 21-29에 따른 서열로부터 유래되거나, 또는 이와 적어도 66%, 67%, 68%, 69%, 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 또는 99%의 서열 상동성을 가진 서열로부터 유래될 수 있다.
Argonaute는 핵산-결합 도메인을 포함할 수 있다. 핵산-결합 도메인은 핵산과 접촉하는 영역을 포함할 수 있다. 핵산-결합 도메인은 핵산을 포함할 수 있다. 핵산-결합 도메인은 단백질성 물질을 포함할 수 있다. 핵산-결합 도메인은 핵산과 단백질성 물질을 포함할 수 있다. 핵산-결합 도메인은 DNA를 포함할 수 있다. 핵산-결합 도메인은 단일 가닥 DNA를 포함할 수 있다. 핵산-결합 도메인의 예로는, 비-제한적으로, 헬릭스-턴-헬릭스 도메인, 징크 핑거 도메인, 루신 지퍼 (bZIP) 도메인, 윙형 헬릭스 도메인 (winged helix domain), 윙형 헬릭스-턴-헬릭스 도메인, 헬릭스-루프-헬리스 도메인, HMG-박스 도메인, Wor3 도메인, 면역글로불린 도메인, B3 도메인 또는 TALE 도메인 등이 있을 수 있다. 핵산-결합 도메인은 Argonaute 단백질의 도메인일 수 있다. Argonaute 단백질은 진핵생물 Argonaute 또는 원핵생물 Argonaute일 수 있다. Argonaute 단백질은 RNA 또는 DNA, 또는 RNA 및 DNA 둘다에 결합할 수 있다. Argonaute 단백질은 RNA 또는 DNA, 또는 RNA 및 DNA 둘다를 절단할 수 있다. 일부 경우에, Argonaute 단백질은 DNA에 결합하여 DNA를 절단한다. 일부 경우에, Argonaute 단백질을 이중 가닥 DNA에 결합하여, 이중 가닥 DNA를 절단한다. 일부 경우에, 2개 이상의 핵산-결합 도메인이 함께 연결될 수 있다. 핵산-결합 도메인 여러개를 함께 연결하는 것은 폴리뉴클레오티드의 타겟팅 특이성을 증가시킬 수 있다. 2개 이상의 핵산-결합 도메인을 하나 이상의 링커를 통해 연결시킬 수 있다. 링커는 플렉시블 링커일 수 있다. 링커는 아미노산을 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 30, 35, 40개 또는 그 이상의 길이로 포함할 수 있다. 링커 도메인은 글리신 및/또는 세린을 포함할 수 있으며, 일부 구현예에서, 글리신 및/또는 세린으로 구성되거나 또는 이들로 필수적으로 구성될 수 있다. 링커는 뉴클레오티드를 포함할 수 있는 핵산 링커일 수 있다. 핵산 링커는 2개의 DNA 결합 도메인을 서로 연결시킬 수 있다. 핵산 링커는 뉴클레오티드를 최대 5, 10, 15, 20, 25, 30, 35, 40, 45, 50개 또는 그 이상의 길이로 포함할 수 있다. 핵산 링커는 뉴클레오티드 적어도 5, 10, 15, 30, 35, 40, 45, 50개 또는 그 이상의 길이일 수 있다. 핵산-결합 도메인은 핵산에 결합할 수 있다. 핵산 결합 도메인은 혼성화를 통해 핵산에 결합할 수 있다. 핵산-결합 도메인은 조작 (예, 게놈 서열에 혼성화도록 조작)될 수 있다. 핵산-결합 도메인은 분자 클로닝 기법 (예, 유도 진화 (directed evolution), 부위-특이적인 돌연변이 및 합리적인 돌연변이 유발 (rational mutagenesis))에 의해 조작될 수 있다.
특정 구현예에서, 본 발명에 따른 SSN은 Cas 또는 Cpf1 등의 CRISPR 뉴클레아제 또는 Argonaute 뉴클레아제, 또는 이의 변이체 또는 이의 촉매적으로 활성인 단편일 것이다. 적합한 CRISPR 뉴클레아제 서열은 서열번호 19-29 또는 35-41 또는 이와 적어도 66%, 67%, 68%, 69%, 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 또는 99%의 서열 상동성을 가진 서열로 이루어진 군으로부터 선택된다. 추가적으로 적합한 Cas 또는 Cpf1 작동자 (effector)는 스트렙토코커스 (Streptococcus), 캄필로박터 (Campylobacter), 칸디다투스 미크라케움 액시디필럼 (Candidatus Micrarchaeum acidiphilum) ARMAN-1, 파르쿠박테리아 (Parcubacteria)(GenBank: APG80656.1), 설폴로부스 spp. (Sulfolobus spp.), 예로, 설폴로부스 아일랜디쿠스 (Sulfolobus islandicus) HVE10/4 (GenBank: ADX81770.1) 또는 REY15A (GenBank: ADX84852.1), 니트라티프락터 (Nitratifractor), 스타필로코커스 (Staphylococcus), 파르비바쿨럼 (Parvibaculum), 로세부리아 (Roseburia), 네이세리아 (Neisseria), 글루콘아세토박터 (Gluconacetobacter), 아조스피릴룸 (Azospirillum), 스페어로키타 (Sphaerochaeta), 락토바실러스 (Lactobacillus), 유박테리움 (Eubacterium), 코리네박터 (Corynebacter), 카르노박테리움 (Carnobacterium), 로도박터 (Rhodobacter), 리스테리아 (Listeria), 팔루디박터 (Paludibacter), 클로스트리듐 (Clostridium), 레크노스피래세애 (Lachnospiraceae), 클로스트리디아리듐 (Clostridiaridium), 렙토트리키아 (Leptotrichia), 프란시셀라 (Francisella), 레지오넬라 (Legionella), 알리사이클로바실러스 (Alicyclobacillus), 메타노메티오필러스 (Methanomethyophilus), 포르피로모나스 (Porphyromonas), 프레보텔라 (Prevotella), 박테로이데테스 (Bacteroidetes), 헬코코커스 (Helcococcus), 레토스피라 (Letospira), 데설포비브리오 (Desulfovibrio), 데설포나트로눔 (Desulfonatronum), 오피투타세애 (Opitutaceae), 투베리바실러스 (Tuberibacillus), 바실러스 (Bacillus), 브레비바실러스 (Brevibacilus), 메틸로박테리움 (Methylobacterium) 또는 액시다미노코커스 (Acidaminococcus), 예를 들어, 스트렙토코커스 뮤탄스 (S. mutans), 스트렙토코커스 아갈락티애 (S. agalactiae), 스트렙토코커스 에퀴시밀리스 (S. equisimilis), 스트렙토코커스 상귀니스 (S. sanguinis), 스트렙토코커스 뉴모니아 (S. pneumonia); 캠필로박터 제주니 (C. jejuni), 캠필로박터 콜라이 (C. coli); 니트라피프락터 살수기니스 (N. salsuginis), 니트라티럽터 테르가르쿠스 (N. tergarcus); 스타필로코커스 아우리쿨라리스 (S. auricularis), 스타필로코커스 카르노수스 (S. carnosus); 네이세리아 메닌지티데스 (N. meningitides), 네이세리아 고노로에아 (N. gonorrhoeae); 리스테리아 모노사이토게네스 (L. monocytogenes), 리스테리아 이바노비이 (L. ivanovii); 클로스트리듐 보툴리눔 (C. botulinum), 클로스트리듐 디피실 (C. difficile), 클로스트리듐 테타니 (C. tetani), 클로스트리듐 소델리 (C. sordellii)를 포함하는 속의 유기체로부터 유래될 수 있다.
일 구현예에서, 본 발명에 따른 인공 분자 복합체의 일부로서 하나 이상의 부위-특이적인 뉴클레아제 또는 이의 촉매적으로 활성인 단편, 또는 이를 코딩하는 서열은, 독립적으로, 스트렙토코커스 피오게네스 (Streptococcus pyogenes), 스트렙토코커스 서모필러스 (Streptococcus thermophilus) 등의 스크렙토코커스 spp., 스타필로코커스 아우레우스 (Staphylococcus aureus), 또는 네이세리아 메닌기티데스 (Neisseria meningitides) 등의 네이세리아 spp., 코리네박터 (Corynebacter), 슈테렐라 (Sutterella), 레지오넬라 (Legionella), 트레포네마 (Treponema), 필리팍토르 (Filifactor), 유박테리움 (Eubacterium), 락토바실러스 (Lactobacillus, 미코플라스마 (Mycoplasma), 박테로이데스 (Bacteroides), 플라비이볼라 (Flaviivola), 플라보박테리움 (Flavobacterium), 스페어로키타 (Sphaerochaeta), 아조스피릴룸 (Azospirillum), 글루콘아세토박터 (Gluconacetobacter), 로세부리아 (Roseburia), 파르비바쿨럼 (Parvibaculum), 니트라티프락토르 (Nitratifractor), 미코플라스마 (Mycoplasma) 및 캄필로박터 (Campylobacter), 칸디다투스 미크라르체움 (Candidatus Micrarchaeum) 액시디필룸 ARMAN-1, 파르쿠박테리아 (Parcubacteria)(GenBank: APG80656.1), 설폴로부스 아일랜디쿠스 (Sulfolobus islandicus) HVE10/4 (GenBank: ADX81770.1) 또는 REY15A (GenBank: ADX84852.1) 등의 설폴로부스 spp (Sulfolobus spp.)의 Cas 폴리펩타이드; 고세균 또는 박테리아 유래 Cpf1 폴리펩타이드, 예를 들어, 액시다미노코커스 sp. BV3L6 등의 액시다미노코커스 spp. (Acidaminococcus spp.), 라크노스피래세애 박테리움 (Lachnospiraceae bacterium) ND2006, 라크노스피래세애 박테리움 MC2017, 라크노스피래세애 박테리움 MA2020 등의 라크노스피래세애 spp. (Lachnospiraceae spp.), 부티리비브리오 프로테오칼라스티쿠스 (Butyrivibrio proteoclasticus), 칸디다투스 spp., 메타노플라스마 터미툼 (Methanoplasma termitum), 렙토스피라 이나다이 (Leptospira inadai), 모락셀라 보보쿨리 (Moraxella bovoculi) 237, 페레그리니박테리아 박테리움 (Peregrinibacteria bacterium) GW2011_GWA2_33_10, 파르쿠박테리아 박테리움 (Parcubacteria bacterium) GW2011_GWC2_44_17, 스미텔라 (Smithella) sp. SCADC, 스미텔라 sp. SC_K08D17, 프란시셀라 노비시다 (Francisella novicida) U112 등의 프란시셀라 spp. (Francisella spp.), 유박테리움 엘리겐스 (Eubacterium eligens), 프레보텔라 spp. (Prevotella spp.) 또는 포르피로모나스 spp. (Porphyromonas spp.) 유래의 Cpf1 폴리펩타이드; 또는 나트로노박테리움 그레고리 (Natronobacterium gregoryi) (GenBank: AFZ73749.1), 마이크로시스티스 에어루지노사 (Microcystis aeruginosa) (NCBI Reference Sequence: WP_012265209.1 또는 NCBI Reference Sequence: WP_002747795.1 또는 NCBI Reference Sequence: WP_012265209.1), 할로게오메트리쿰 팔리둠 (Halogeometricum pallidum) (GenBank: ELZ29017.1), 나트리알라바 아시아티카 (Natrialaba asiatica) (NCBI Reference Sequence: WP_006111085.1), 나트로노루브룸 티베텐스 (Natronorubrum tibetense) (NCBI Reference Sequence: WP_006090832.1), 나트리네마 펠리루브룸 (Natrinema pellirubrum) (NCBI Reference Sequence: WP_006183335.1) 또는 시네코코커스 spp. (Synechococcus spp.) (NCBI Reference Sequence: WP_011378069.1) 유래의 Argonaute 뉴클레아제, 또는 닉카제 또는 엔도뉴클레오분해 활성이 결핍된 뉴클레아제 등의 이들의 변이체 및/또는 기능성 단편 및/또는 조합물로 이루어진 군으로부터 선택된다.
SSN으로서 하나 이상의 Cpf1 작동자를 이용하는 본 발명의 추가적인 구현예에서, 프로토스페이서 인접 모티프 (protospacer adjacent motif, PAM) 또는 PAM-유사 모티프는 작동자 단백질 복합체가 대상 타겟 유전자 좌에 결합하도록 안내한다. SSN으로서 하나 이상의 Cpf1 작동자를 이용하는 일 구현예에서, PAM은 5' TTN이고, 여기서 N은 A/C/G 또는 T이다. 본 발명의 바람직한 구현예에서, PAM은 5' TTTV이고, 여기서 V는 A/C 또는 G이다. 특정 구현예에서, PAM은 5' TTN이고, 여기서 N은 A/C/G 또는 T이고, PAM은 프로토스페이서의 5' 말단의 상류에 위치한다. 본 발명의 특정 구현예에서, PAM은 5' CTA이고, PAM은 타겟 유전자 좌 또는 프로토스페이서의 5' 말단의 상류에 위치한다. 특정 구현예에서, Cpf1 패밀리의 T-풍부 PAM이 AT-풍부 게놈을 타겟팅 및 편집할 수 있는, RNA-안내된 게놈 편집 뉴클레아제에 대해 확장된 타겟팅 범위가 제공된다.
특정 구현예에서, CRISPR 효소는 조작되며, 이는 뉴클레아제 활성을 감소 또는 없애는 하나 이상의 돌연변이를 포함할 수 있다. 마찬가지로, 본 발명은 타겟화된 DNA 이중 가닥 절단을 제조하기 위해 2 이상의 닉카제를 사용하는 방법, 특히 듀얼 또는 더블 닉카제 방법을 고려한다.
본 발명에 따른 인공 분자 복합체 내부에 Cpf1 작동자 단백질 복합체를 이용하는 구현예에서, 하나 이상의 비-천연 또는 조작된 또는 변형된 또는 최적화된 핵산 구성요소를 가진 Cpf1 작동자 또는 코딩된 단백질이 사용될 수 있다. 바람직한 구현예에서, 복합체의 핵산 구성요소는 다이렉트 리피트 서열이 연결된 가이드 서열을 포함할 수 있으며, 다이렉트 리피트 서열은 하나 이상의 스템 루프 또는 최적화된 2차 구조를 포함한다. 바람직한 구현예에서, 다이렉트 리피트는 뉴클레오티드 16개로 된 최소 길이를 가지며, 단일한 스템 루프를 가진다. 추가적인 구현예들에서, 다이렉트 리피트는 뉴클레오티드 16개 이상 길이, 바람직하게는 17개 이상 길이를 가지며, 스템 루프 또는 최적화된 2차 구조를 2개 이상 가진다. 바람직한 구현예에서, 다이렉트 리피트는 하나 이상의 단백질-결합 RNA 앱타머를 포함하도록 변형될 수 있다. 바람직한 구현예에서, 하나 이상의 앱타머가 최적화된 2차 구조의 일부로서 포함될 수 있다. 상기한 앱타머는 박테리아파지 외막 단백질 (bacteriophage coat protein)에 결합할 수 있다. 박테리아파지 외막 단백질은 Qβ, F2, GA, fr, JP501, MS2, M12, R17, BZ13, JP34, JP500, KU1, M11, MX1, TW18, VK, SP, FI, ID2, NL95, TW19, AP205, φCb5, φCb8r, φCb12r, φCb23r, 7s 및 PRR1을 포함하는 군으로부터 선택될 수 있다. 바람직한 구현예에서, 박테리오파지 외막 단백질은 MS2이다.
특정 구현예에서, 본 발명은 RuvC 도메인을 포함하는 하나 이상의 SSN 작동자 단백질의 촉매학적 활성인 단편 내에 존재하는 하나 이상의 돌연변이 또는 2 이상의 돌연변이를 제공한다. 일부 구현예에서, RuvC 도메인은 RuvCI, RuvCII 또는 RuvCIII 도메인 또는 RuvCI, 또는 RuvCII 또는 RuvCIII 도메인 등과 상동적인 또는 본원에 기술된 임의 방법에 기술된 임의의 해당 도메인과 상동적인 촉매학적 활성 단편을 포함할 수 있다. 작동자 단백질 SSN은 하나 이상의 이종의 기능성 도메인을 포함할 수 있다. 인공 분자 복합체의 하나 이상의 이종의 기능성 도메인은 하나 이상의 핵 위치화 신호 (NLS) 도메인을 포함할 수 있다. 하나 이상의 이종의 기능성 도메인은 2 이상의 NLS 도메인을 포함할 수 있다. 하나 이상의 NLS 도메인(들)은 작동자 단백질 (예, Cpf1)의 말단 위치에 또는 거의 말단에 또는 말단에 인접하게 위치될 수 있으며, 2 이상의 NLS가 각각 작동자 단백질 (예, Cpf1)의 말단 위치에 또는 거의 말단에 또는 말단에 인접하게 위치될 수 있다면, 하나 이상의 이종의 기능성 도메인은 하나 이상의 전사 활성화 도메인을 포함할 수 있다. 바람직한 구현예에서, 전사 활성화 도메인은 VP64를 포함할 수 있다. 하나 이상의 이종의 기능성 도메인은 하나 이상의 전사 억제 도메인을 포함할 수 있다. 바람직한 구현예에서, 전사 억제 도메인은 KRAB 도메인 또는 SID 도메인 (예, SID4X)을 포함할 수 있다. 하나 이상의 이종의 기능성 도메인은 SSN으로서 하나 이상의 뉴클레아제 도메인을 포함할 수 있다. 일 구현예에서, SSN은 Fok1 또는 이의 촉매학적 활성 단편 또는 변이체를 포함할 수 있다.
바람직한 일 구현예에서, 본 발명에 따른 인공 분자 복합체의 하나 이상의 부위-특이적인 뉴클레아제 또는 이의 변이체 또는 이의 촉매학적 활성 단편 또는 이를 코딩하는 서열은 CRISPR 뉴클레아제, 바람직하게는 Cas 또는 Cpf1 뉴클레아제, 또는 FokI 뉴클레아제, 또는 이들의 촉매적으로 활성인 단편으로부터 선택되고, 하나 이상의 상호작용 도메인 또는 이를 코딩하는 서열은 단쇄 가변 단편 또는 모노머성 스트렙타비딘으로부터 선택된다.
일 구현예에서, 본 발명에 따른 인공 분자 복합체는 하나 이상의 CRISPR 또는 Argonaute 유래 SSN, 또는 이의 변이체 또는 이의 촉매적으로 활성인 단편과, 하나 이상의 복구 주형 도킹 도메인을 제시하는 하나 이상의 가이드 핵산 서열을 포함하며, 여기서 하나 이상의 가이드 핵산 서열들은 각각 (i) 인지 DNA 타겟 서열에 상보적인 제1 서열 영역과 (ii) 하나 이상의 부위-특이적인 뉴클레아제와 상호작용하도록 구성된 제2 서열 영역을 포함하며, (iii) 하나 이상의 가이드 핵산 서열은 하나 이상의 복구 주형 핵산 서열과 물리적으로 결합하여 하나 이상의 RNA 또는 DNA 및 하나 이상의 추가의 DNA 핵산 서열을 포함하거나 또는 이들로 구성되는 하이브리드 핵산 서열을 형성하고, 선택적으로 (iv) 하나 이상의 가이드 핵산 서열과 하나 이상의 복구 주형 핵산 서열 사이에 링커 영역을 포함하며, 바람직하게는 복구 주형 핵산 서열은 가이드 핵산 서열의 3' 말단에서 가이드 핵산 서열과 결합하거나, 및/또는 복구 주형 핵산 서열은 가이드 핵산 서열의 5' 말단에서 결합하거나, 복구 주형 핵산 서열은 가이드 핵산 서열 내부에 위치한다.
본 발명의 다양한 측면 및 구현예에 따른 하나 이상의 복구 주형 핵산 서열 및/또는 하나 이상의 가이드 핵산 서열은, 합성 뉴클레오티드 서열을 비롯하여, 선택적으로 백본 및/또는 염기 변형을 포함하는, 천연 또는 비-천연 뉴클레오티드 서열로부터 선택되는 뉴클레오티드 서열을 포함하며, 가이드 핵산 서열은 단일 가닥 또는 부분적인 단일 가닥 RNA 또는 DNA 뉴클레오티드 서열을 포함하고, 하나 이상의 복구 주형 핵산 서열은 단일 가닥 또는 이중 가닥 DNA 뉴클레오티드 서열을 포함한다.
특정 구현예에서, 본 발명에 따른 인공 분자 복합체의 하나 이상의 복구 주형 핵산 서열 (RT)은 하나 이상의 말단 영역, 바람직하게는 3' 말단을 포함하며, 이 말단 영역은 인공 분자 복합체의 임의의 다른 구성요소와 상호작용하지 않으며, 즉 하나 이상의 게놈 상보성 서열에 혼성하여 DNA 타겟 서열의 복구를 매개하도록 구성되거나, 및/또는 하나 이상의 복구 주형 핵산 서열은 플라스미드로서 제공된다. 하나 이상의 게놈 상보성 서열에 접근할 수 있도록 하기 위해, RT는 하나 이상의 게놈 상보성 서열과 최적의 염기 쌍 형성이 가능한 구성으로 제공되어야 한다. 이러한 구성은 RT 특성 및 RT를 제공하는 방식에 따라 달라질 것이다. 특정 구현예에서, RTDD, 예를 들어, gRNA 또는 gDNA에 공유적으로 또는 비-공유적으로 부착될 수 있는 하나 이상의 RT를 이용한다.
RTDD로서 하나 이상의 RNA 가닥을 포함하는 분자 또는 대상 단백질을 코딩하는 RNA를 이용하는 특정 구현예에서, RNA는 보호 또는 보호기 분자 또는 가닥과 함께 제시될 수 있으며, 보호기 분자는 인공 분자 복합체의 실제 작동자 분자인 RNA에 적어도 부분적으로 어닐링되어, 세포 안에서 RNA 작동자 분자가 분해되지 않도록 보호할 것이다.
본 발명에 따른 인공 분자 복합체에 적합한 구성을 도 1 - 4에 도시한다. 본 발명에 따라 RTDD 및 RT로서 "하이브리드 핵산 서열"을 이용하는 인공 분자 복합체는 도 1 A - D도 2 A - C에 도시되지만, 이로 제한되는 것은 아니다. SSN에 따라, 복구 주형 (RT)은 ssDNA 또는 dsDNA 형태일 수 있으며, 일부 경우에, CRISPR 또는 Argonaute 단백질이 SSN으로서 사용되며, 공유 또는 비-공유적인 방식으로 3' 말단, 5' 말단에서 하나 이상의 가이드 핵산 (sgRNA 또는 gRNA 또는 gDNA)에 부착하거나, 또는 gRNA 내부에 놓일 수 있으며, 예를 들어 지정된 크기 및 형태를 가진 헤어핀 이차 구조를 형성할 수 있다. 이러한 디자인은, 하나 이상의 대상 RNA가 대상 CRISPR 또는 Argonaute 뉴클레아제와 상호작용하는 것을 방해하지 않으면서 동시에 하나 이상의 CRISPR/gRNA Argonaute/gDNA 쌍에 의해 유도된 DNA 절단 부위에 RT를 인접하게 위치시킴으로써, gRNA와 RT 영역 모두 자체 기능들을 모두 발휘할 수 있게 한다.
CRISPR 뉴클레아제를 이용하는 특정 구현예에서, 인공 분자 복합체는 하나 이상의 RNA 및 하나 이상의 DNA 핵산 서열을 포함하거나 또는 이들로 구성된 하이브리드 핵산 서열을 포함할 것이거나, 또는 간략하게는 본 발명에 따른 하이브리드 RNA/DNA 핵산 서열은, 따라서, 2가지 기능성을 가진, RNA 및 DNA 키메라이다. 첫째, 이것은, 리보핵산을 포함하는, 가이드 핵산 (gRNA) 모이어티를 포함한다. gRNA는 통상적으로 2개의 뉴클레오티드 서열 영역을 포함하는데, 하나의 뉴클레오티드 서열은 대상 CRISPR 폴리펩타이드와 상호작용하는데 필요한 뉴클레오티드 서열 하나와 타겟팅 도메인을 포함하는 또 다른 뉴클레오티드 서열인, 2개의 뉴클레오티드 서열 영역을 포함하며, 여기서 타겟팅 도메인은 반대 가닥의 PAM 서열에 인접한 상보적인 대상 DNA 타겟 서열과의 염기-쌍 형성을 통해 혼성할 수 있으며, 따라서 이러한 상보적인 DNA 타겟 서열이 본 발명에 따른 제1 DNA 타겟 서열이 된다. 두번째로, 하이브리드 RNA/DNA 핵산 서열은 대상 DNA 타겟 서열에 도입시킬 원하는 편집을 포함할 수 있는 복구 주형 핵산 서열 모이어티를 포함한다. 또한, 복구 주형 핵산 서열은 DNA 타겟 서열의 바로 상류 및 하류, 즉 좌측 및 우측 상동성 암에 추가적인 상동성 서열을 포함할 수 있다. 각 상동성 암의 길이 및 결합 위치는 도입되는 변화의 크기에 따라 결정되며, 최적의 효율을 달성하도록 조정될 수 있다. 예를 들어, Cas9에 의해 먼저 분리되는 절단된 DNA 가닥에 특이적인 상보성을 가진 복구 주형 (Richardson, et al., Nature Biotechnology. 2016, doi: 10.1038/nbt.3481)이 가장 효율적인 복구를 수행할 가능성이 있다. 복구 주형은 구체적인 용도에 따라 단일 가닥 또는 이중 가닥 DNA 뉴클레오티드 서열일 수 있다.
복구 주형은 게놈 DNA에 대해 다형성을 포함하여 뉴클레아제에 의한 결합을 교란할 수 있거나, 또는 복구 주형은 CRISPR 폴리펩타이드 절단에 적합한 타겟이 될 수 있다. 예를 들어, PAM은 더 이상 존재하지 않도록 돌연변이될 수 있지만, 유전자의 코딩 영역은 영향을 받지 않으며, 즉 이는 코딩된 아미노산 서열을 변화시키지 않는 침묵 돌연변이일 수 있다. 다른 구현예에서, 뉴클레아제 결핍된 CRISPR 폴리펩타이드를 SSN으로서 인공 분자 복합체 내부에 사용할 경우, 복구 주형 서열 내에 PAM 서열이 존재할 수 있다. 일 구현예에서, RTDD/RT 서열은 하나 이상의 가이드 핵산 서열과 하나 이상의 복구 주형 핵산 서열을 포함하지만, RTDD/RT 하이브리드는 후술한 바와 같이 게놈 편집에 적합한 이에 부착되는 추가의 모이어티를 포함할 수 있다. 다른 구현예에서, 하이브리드 RTDD/RT 서열은 하나 이상의 가이드 핵산 서열 및 하나 이상의 복구 주형 핵산 서열로 구성된다.
최적의 RT 크기는, 뉴클레아제 효율과 HR-매개 DSB 복구 효율을 위한 상동성 암 크기 간의 균형을 제공하는, 사용되는 SSN에 따라 결정될 수 있는 것으로 알려져 있다.
일 구현예에서, 가이드 핵산 서열 또는 gRNA는 tracrRNA와 crRNA를 통합한 하나의 RNA 핵산 서열로서 제공된다. 다른 구현예에서, 예를 들어, Cpf1 폴리펩타이드 또는 이의 변이체 또는 촉매학적으로 활성인 단편을 이용해 Type V CRISPR 시스템으로 구동할 경우, gRNA는 crRNA 요소를 포함한다. 또 다른 구현예에서, gRNA는, crRNA 및 tracrRNA가 둘다 필요할 경우, 2개의 별개의 RNA 분자로서 제공되는, 다수의 CRISPR 시스템에서 천연 상황을 모방하는 2 이상의 RNA 핵산 서열로서 제공될 수 있다. 특정 구현예에서, 이러한 구성 (arrangement)은 자연에서와 같이 2가지 요소 (tracrRNA 및 crRNA)를 분리된 RNA 가닥에 존재시킬 수 있다. 일 구현예에서, crRNA를 제공하는 개별 RNA 핵산 분자가 제공되며, 개별 RNA 핵산 분자가 제공되며, 즉 RTDD가 하나 보다 많은 수로 제시된다. crRNA 모이어티 또는 tracrRNA 모이어티가 복구 주형 (RT) 핵산 서열과 결합할 수 있다. 예를 들어, gRNA가 crRNA와 tracrRNA 기능을 통합한 하나의 싱글 RNA 분자로 구성된, gRNA:RT 하이브리드와 비교해, 해당 분자의 길이가 더 짧다는 이유로, tracrRNA:RT 또는 crRNA:RT의 생체외 화학적 합성을 선택할 경우, tracrRNA:RT 하이브리드 또는 crRNA:RT를 제공하는 것이 바람직할 수 있다.
본 발명에 따른 RTDD/RT 서열은 따라서 원핵생물 세포 및 진핵생물 세포, 예를 들어, 진균, 동물 및 식물 세포 등의 모든 대상 세포 타입들에서 정확한 게놈 편집을 수행하기에 적합하며, 게놈 편집시 복구 주형 및 SSN의 동시적인 시공적인 이용가능성 (simultaneous spatiotemporal availability)을 허용하기에 적합한 물리적으로 연결된 툴이다.
본 발명의 모든 측면 및 구현예들에서, 하나 이상의 RTDD와 하나 이상의 복구 주형 핵산 서열은 서로 결합한다. 본 발명에서 용어 "에 결합한" 또는 "결합된"은 광의적으로 해석되어야 하며, 즉 본 발명에 따라, RTDD, 예를 들어 gRNA 또는 바이오틴 분자, FAM 또는 디곡시게닌이, 본질적으로 상동성 재조합에서 복구 주형의 이용가능성을 증가시키는, DNA 복구 주형과 물리적으로 결합된 형태로 제공되는 것을 의미하며, 결합은 공유 또는 비-공유적인 특성을 가진다. RTDD와 물리적으로 연결되지 않은, 복구 주형의 무차별적인 증폭 또는 과량의 복구 주형을 제공하기 보다는, 복구 주형 뉴클레오티드 서열은 인공 분자 복합체의 SSN과 함께 대상 타겟 DNA 서열에 DSB 위치에 제시되므로, 게놈 편집 방법의 예측가능성 및 특이성을 현저하게 향상시킨다.
본 발명의 또 다른 구현예에서, 하나 이상의 복구 주형 핵산 서열은 공유 및/또는 비-공유 결합 또는 부착에 의해 하나 이상의 RTDD 서열에 부착된다. 이러한 구현예에서, 하이브리드 RTDD 및 RT 복합체는 시험관내 합성된 분자로서 제공될 수 있으며, 이는 대상 타겟 세포에서 시험관내 또는 생체내에서 또는 시험관내 대상 분석에서 하나 이상의 대상 SSN과 결합할 수 있다. 바람직하게는, 세포는 진균, 동물 또는 식물 세포 등의 진핵생물 세포이다. 또한, 세포는 원핵생물 세포일 수 있다. 아울러, 세포는, 다른 유기체 또는 바이러스의 이종 타겟 서열을 플라스미드 상에 탑재하거나 또는 게놈에 삽입된, 원핵생물 또는 진핵생물 숙주 세포일 수 있다. 이러한 구현예에서, 세포는 상기 숙주 세포에 제공된 이종의 서열에 대해 게놈 편집을 수행하기 위한 숙주로서 작용한다.
본 발명의 다양한 측면에 대한 일 구현예에서, 하나 이상의 복구 주형 핵산 서열 (RT)은 하나 이상의 RTDD에 공유적으로 부착된다. 공유 부착 또는 공유 결합은 분자의 원자들 간의 전기 쌍 공유 또는 서로 공유 부착된 서열을 수반하는 화학적 결합이다.
본 발명의 다양한 측면들에 대한 다른 구현예에서, 하나 이상의 복구 주형 핵산 서열은 하나 이상의 RTDD 서열에 비-공유적으로 부착된다. 비-공유적인 상호작용은, 전자를 공유하지 않고, 분자/서열들 간에 또는 분자/서열 내에서 보다 분산된 다양한 전자기적 상호작용을 수반한다는 점에서, 공유 결합과 다르다. 비-공유적 상호작용 또는 부착은 따라서 정전기적 상호작용, 반 데르 발스 힘, π-이펙트 (π-effect) 및 소수성 효과를 포함한다. 특히, 핵산의 경우에는 이는 정전기적 상호작용으로서 수소 결합이다. 수소 결합 (H-결합)은 부분적으로 양을 띄는 수소 원자와 음전도가 높은 부분적으로 음을 띄는 산소, 질소, 황 또는 불소 원자 간에, 수소 원자에 공유 결합되지 않은, 상호작용을 수반하는, 특정한 쌍극자-쌍극자 상호작용 타입이다.
본원에서, 용어 "혼성화"는 핵산 가닥이 염기 쌍 형성을 통해 상보적인 가닥과 합쳐져 혼성화된 복합체를 형성하는 임의의 프로세스에 의한 상보적인 핵산, 즉 DNA 및/또는 RNA의 쌍 형성을 의미한다. 혼성화 및 혼성화 세기 (즉, 핵산들 간의 결합 세기)는 핵산들 간의 상보성 정도 및 길이, 사용되는 조건의 엄격성, 형성된 하이브리드의 Tm 및 핵산의 G:C 비율 등의 인자들에 의해 좌우된다. 용어 혼성화된 복합체는 상보적인 G와 C 염기, 상보적인 A와 T/U 염기 간의 수소 결합을 형성함으로써 2개의 핵산 서열 간에 형성된 복합체를 지칭한다. 혼성화된 복합체 또는 대응되는 하이브리드 구조체는 2개의 DNA 핵산 분자들 간에, 2개의 RNA 핵산 분자들 간에, 또는 DNA와 RNA 핵산 분자 간에 형성될 수 있다. 모든 경우에, 핵산 분자는 시험관내 또는 생체내에서 제조된 천연 핵산 분자 및/또는 인공 또는 합성 핵산 분자일 수 있다. DNA, RNA 및 DNA/RNA 서열들 간에 형성될 수 있는, 전술한 바와 같은 혼성화, 예를 들어, 왓슨-크릭 염기 쌍은, 특정한 수소 결합 패턴에 의해 구축되므로, 따라서 본 발명에 따른 비-공유적 부착이다.
본 발명에 따른 비-공유적 결합과 관련하여, 본 발명의 인공 분자 복합체의 하나 이상의 RTDD와 본 발명의 하나 이상의 복구 주형 서열은 RNA-DNA 염기 쌍 형성을 통해 서로 결합할 수 있다.
또 다른 비-공유적인 상호작용의 형태는 하나 이상의 복구 주형 서열이 전하 (electrical charge)에 의해 하나 이상의 구성성분, RTDD 또는 SSN에 포함된 RTDD와의 결합하는 것이다.
공유 결합 또는 부착과 관련하여, 하나 이상의 RTDD 및 하나 이상의 복구 주형 서열은 생체내 또는 시험관내에서 제조된, 연속적인 분자로서 연결된다. 공유 및 비-공유적 부착은 또한, 예를 들어, 공유 부착된 RTDD/복구 주형 서열에 비-공유적으로 부착되는 추가적인 복구 주형 핵산 서열을 더 포함할 수 있는, 공유 부착된 RTDD/복구 주형 서열을 제공함으로써, 조합될 수 있다. 이러한 방식은, 공유 부착된 RTDD/복구 주형 서열이 적어도 부분적으로 생체내에서 제조되고, 생체내 또는 시험관내에서 제조된 추가의 복구 주형이 기-존재하는 RTDD/복구 주형 복합체에 첨가되는 경우에, 특히 적합하다.
Nishimasu et al.에서 입증된 바와 같이, 만일 gRNA가, 서열 의존적인 방식으로, 즉 A, U, G 및 C를 포함하는 RNA 염기와의 상호작용을 통해, 또는 서열 비-의존적인 방식으로, 즉 gRNA 뉴클레오티드 서열의 백본 포스페이트와 CRISPR 폴리펩타이드의 상호작용을 통해, CRISPR 폴리펩타이드에 의해 인지되는, 헤테로듀플렉스 구조를 일반적으로 포함하는 하나 이상의 영역을 포함할 경우, gRNA는 본 발명의 내용에 따라 CRISPR 폴리펩타이드 또는 이의 변이체 또는 이의 촉매적으로 활성인 단편과 상호작용하도록 구성될 수 있다.
본 발명의 제1 측면 및 다른 측면에 대한 특정 구현예에서, DNA 타겟 서열은 세포, 바람직하게는 원핵생물 또는 진핵생물 세포, 더 바람직하게는 진균, 동물 또는 식물 세포의 게놈 내에 위치되며, 게놈은 핵 게놈뿐만 아니라 색소체 게놈 등의 다른 게놈 부위도 포함한다.
"DNA 타겟 서열"은, 타겟화된 게놈 편집이 이루어지는, 게놈 영역으로 정의된다. RTDD 및 복구 주형 핵산 서열이 본질적으로 서로 다른 기능을 가지므로, DNA 타겟 영역이 하나 보다 많이 존재할 있으며, 이는 본 발명의 인공 분자 복합체의 여러 구성성분들에 따라 다를 수 있다. 즉, DNA 타겟 서열은 대상 DNA 타겟 영역을 정의할 수 있으며, gRNA인 RTDD의 서열 일부는 상보적이고, 다른 DNA 타겟 서열은 대상 DNA 타겟 영역을 정의하고, SSN 및/또는 상호작용 도메인이 여기에 결합할 것이다. 이에 대한 상보적인 복구 주형 핵산 서열의 하나 이상의 영역이 게놈 상보성 서열로서 정의되며, 이 서열은 또한 추가의 DNA 타겟 서열을 제시한다. DNA 타겟 영역들은 동일하거나 또는 바람직하게는 상이하지만, 대상 DNA 타겟 서열 내에 중복되는 영역을 공유할 수도 있다.
RTDD의 타겟 부위 및/또는 SSN 및/또는 상호작용 도메인과 복구 주형 핵산 서열 (RT)에 대한 상동성 부위 간의 공간 관계 (spatial relation)는 가변적일 수 있다. 이들 2 부위는 동일할 수 있거나, 완전히 또는 일부 중복될 수 있거나, 또는 대상 게놈내 임의 개수의 뉴클레오티드 길이로 이격되어 있을 수 있다. RT는 게놈 DNA의 양쪽 가닥에 대해 상동성을 가질 수 있으며, 선택적으로 이중 가닥 구조체, 예를 들어 플라스미드로 제시되거나, 또는 가닥이 타겟화되는지와는 독립적으로, 각 가닥에 대해 상동성을 가질 수 있다. 효과적인 복구 주형은 SSN, 예를 들어 Cas9에 의해 먼저 분리된 절단된 DNA 가닥에 특이적인 상보성을 가지도록 구성될 수 있다 (Richardson, et al., Nature Biotechnology. 2016, doi: 10.1038/nbt.3481).
RTDD와 RT 간의 상호작용, 즉 본 발명의 인공 분자 복합체에 따른 SSN과 RT의 밀접한 근접성이, DNA 타겟 서열에서 하나 이상의 SSN 폴리펩타이드에 의해 도입된 타겟화된 게놈 가닥 절단 위치에서의 하나 이상의 인 시추 SSN과 관련하여, 존재하는 복구 주형 뉴클레오티드 서열의 물리적 이용가능성을 화학량론적인 방식으로 보장해주므로, 상동성-특이적인 복구 (HDR)/상동성 재조합 (HR)의 일반적인 낮은 효율을 극복할 수 있을 것으로 예상된다.
이에 본 발명에 따른 인공 분자 복합체의 일부로서 용어 복구 주형 핵산 서열 (RT)은, DNA 절단을 변형 및/또는 복구하기 위한 주형으로서 제공할 수 있는, 단일 가닥 또는 이중 가닥 DNA 서열일 수 있는, 뉴클레오티드 서열을 내포한다.
본 발명에 따른 일 구현예에서, 인공 분자 복합체는 시험관내 사전-조립된 복합체이며, SSN, RTDD 및 RT 및 선택적으로 상호작용 도메인 구성성분 또는 일부가 서로 공유 부착 또는 비-공유적으로 결합된 상태로 제공된다. 일 구현예에서, RTDD/RT 서열은 사전-조립되며, SSN 및 선택적으로 상호작용 도메인은 타겟 세포에 전사가능한 DNA 또는 번역가능한 RNA 구조체로서, 또는 아미노산 서열로서 직접 개별 전달되며, RTDD/RT 서열 및 SSN 및 선택적으로 상호작용 도메인은 타겟 세포 안에서 복합체를 형성하게 된다. 다른 구현예에서, RTDD/RT 서열뿐 아니라 SSN 및 선택적으로 상호작용 도메인이 시험관내에서 조립되고, 선택적으로 추가의 분자, 예를 들어, 바이오틴 또는 FAM 또는 디곡시게닌을 포함하는 핵단백질이 이후 대상 타겟 세포로 또는 변형시킬 대상 DNA 타겟 뉴클레오티드 서열 하나 이상을 포함하는 시험관내 시스템으로 도입된다.
하나 이상의 부위-특이적인 뉴클레아제 (SSN)의 활성이 본 발명에 따른 DNA 타겟 서열 부위에서 RTDD와 연결된 DNA 복구 주형 핵산 서열과의 후속적인 상동적인 재조합을 즉각적으로 수반하고, RTDD가 또한 SSN과 직접 상호작용한다는 점에서, 타겟 세포에 사전-조립된 기능성 인공 분자 복합체의 도입시, 타겟화된 이중 가닥 절단과 동시적인 복구가 이루어진다. 따라서, 인공 분자 복합체는 복구 주형 및 뉴클레아제로 된 적절한 화학량론적 조성이 타겟 부위에 조율된 방식으로 (in a coordinated way) 도달할 수 있으므로, 고-특이적인 제어가능한 게놈 편집 이벤트를 방해하는, (상기 배경기술 참조) 비-특이적인 NHEJ 이벤트 또는 RT의 낮은 이용가능성 문제를 동시에 줄일 수 있다. 또 다른 이점은, 복합체의 단백질 뿐만 아니라 RTDD와 물리적인 결합하고 SSN 및/또는 RTDD가 게놈 자체에 삽입될 수 없음으로 인해, 복구 주형의 오프-타겟 통합 (off-target integration) 가능성이 낮아진다는 것이다.
본 발명에 따른 용어 "타겟화된 상동성 특이적인 복구"는 본 발명에 따른 복구 주형 서열에 의해 도입될 수 있는 임의 타입의 변형을 포함하며, 이는 독립적으로 서열 삽입, 하나 이상의 서열 위치의 편집, 결손 또는 재배열을 포함할 수 있으며, 현재 고등 진핵생물에서 게놈 편집 기법의 바람직한 전략은 삽입, 결손 또는 편집인데, 이는 DNA 타겟 서열 내 대상 서열의 타겟화된 넉-인 또는 넉-아웃 또는 하나 이상의 서열의 부위-특이적인 변형이 가능하기 때문이다.
본 발명에 따른 하이브리드 핵산 서열과의 공동-작용으로 생체외 또는 생체내에서 형성된 SSN으로서 CRISPR 뉴클레아제를 이용하여 인공 분자 복합체에 의해 매개되는 타겟화된 상동성 특이적인 복구에 대한 예는, 예시적인 SSN/가이드 핵산 (RTDD)/복구 주형 (RT) 복합체 및 소정의 내인성 DNA 타겟 서열에 대한 DNA 인지, 결합, 절단 및 후속적인 복구를 시간적인 순서로 도시한, 도 3 A - E에서 확인할 수 있다.
본 발명의 다양한 측면들에 대한 일 구현예에서, 복구 주형 핵산 서열 및/또는 RTDD 서열은, 선택적으로 백본 변형 및/또는 염기 변형을 포함하는, 합성 뉴클레오티드 서열 등의, 천연 또는 비-천연 뉴클레오티드 서열로부터 선택되는 뉴클레오티드 서열을 포함하며, 가이드 핵산 서열은 단일 가닥 또는 부분적인 단일 가닥 RNA 뉴클레오티드 서열을 포함하고, 복구 주형 핵산 서열은 단일 가닥 또는 이중 가닥 DNA 뉴클레오티드 서열을 포함한다.
임의의 CRISPR 게놈 편집에서의 도전 과제는, SSN으로서 기능성 CRISPR 폴리펩타이드 및 gRNA가 게놈 DNA, 즉 DNA 타겟 서열을 포함하는 핵 또는 임의의 다른 구획으로 기능적인 (분해되지 않은) 방식으로 수송되어야 한다는 것이다. RNA는 특히 뉴클레아제에 의해 쉽게 분해될 수 있어 폴리펩타이드 또는 이중 가닥 DNA 보다 안정성이 떨어지고, 턴오버가 짧기 때문에, 본 발명의 제1 측면에 따른 일부 구현예에서, RTDD로서 gRNA 및/또는 DNA 복구 주형 핵산 서열은 하나 이상의 비-천연 뉴클레오티드를 포함한다. gRNA 및/또는 DNA 복구 주형 핵산 서열의 안정성을 증가시키는 본 발명에 따른 바람직한 백본 변형은 포스포로티오에이트 (phosphorothioate) 변형, 메틸 포스포네이트 변형, 자물쇠형 핵산 변형 (locked nucleic acid modification), 2'O-(2-메톡시에틸) 변형, 다이-포스포로티오에이트 변형 및 펩타이드 핵산 변형으로 이루어진 군으로부터 선택된다. 특히, 이러한 백본 변형들 모두 여전히 핵산 가닥 2개 간에 상보적인 염기 쌍 형성은 가능하지만, 내인성 뉴클레아제에 의한 절단에 대한 내성이 더 강하다. 본 발명에 따라 사용되는 뉴클레아제에 따라, CRISPR 폴리펩타이드와 서열-독립적인 상호작용에 관여하는 gRNA의 뉴클레오티드 위치는 수정하지 않는 것이 필요할 수 있다. 이러한 정보는 CRISPR 뉴클레아제/gRNA 복합체에 이용가능한 입수가능한 구조 정보로부터 유추할 수 있다.
본 발명의 제1 측면에 따른 특정 구현예들에서, RTDD 및/또는 DNA 복구 주형 RT 핵산 서열 및/또는 상호작용 도메인은, 바람직하게는 전체가 아닌 선택된 뉴클레오티드 위치에서, 뉴클레오티드 및/또는 염기 변형을 포함할 수 있는 것으로 생각된다. 이러한 변형은 아크리딘, 아민, 바이오틴, 케스케이드 블루, 콜레스테롤, Cy3, Cy5, Cy5.5, Daboyl, 디곡시게닌, 다이니트로페닐, Edans, 6-FAM, 플루오레세인, 3'-글리세릴, HEX, IRD-700, IRD-800, JOE, 포스페이트 소랄렌, 로다민, ROX, 티올 (SH), 스페이서, TAMRA, TET, AMCA-S", SE, BODIPY®, Marina Blue®, Pacific Blue®, Oregon Green®, 로다민 Green®, 로다민 Red®, Rhodol Green® 및 Texas Red®의 부가로 이루어진 군으로부터 선택된다. 바람직하게는, 이러한 부가는 본 발명의 인공 분자 복합체의 일부로서 RT 및/또는 RTDD 및/또는 상호작용 도메인으로서 사용되는 핵산 서열의 3' 또는 5' 말단 위치에 병합된다. 이러한 변형은, 세포 내 RTDD 및/또는 상호작용 도메인 및/또는 DNA 복구 주형 핵산 서열의 세포 위치화를 가시화하여 해당 서열의 분포, 집중 및/또는 이용가능성을 연구할 수 있다는 점에서, 유익한 효과를 가진다. 또한, 내인성 분자와 본 발명에 따른 인공 분자 복합체의 상호작용을 연구할 수 있다. 전술한 바와 같이 변형 또는 태깅된 뉴클레오티드 서열의 상호작용 또는 가시화를 연구하기 위한 방법들은 당해 기술 분야의 당업자들이라면 입수가능하다.
본 발명의 다양한 측면에 따른 임의 구현예에서, 하나 이상의 부위-특이적인 뉴클레아제 및/또는 하나 이상의 복구 주형 핵산 서열 및/또는 하나 이상의 상호작용 도메인 및/또는 하나 이상의 RTDD는 하나 이상의 핵 위치화 서열 (NLS), 색소체 위치화 서열 (PLS), 바람직하게는 미토콘드리아 위치화 서열 또는 엽록체 위치화 서열을 포함한다. 즉, 인공 분자 복합체의 구성성분들 중 하나는 복합체를 핵 게놈으로 타겟팅하기 위한 서열을 포함한다. 특정 구현예에서, RTDD는 또한 하나 이상의 위치화 서열을 탑재할 수 있다. 바람직하게는, 인공 분자 복합체의 SSN 및/또는 상호작용 도메인은 하나 이상의 NLS 또는 하나 이상의 PLS를 포함하거나, 또는 하나 이상의 NLS와 하나 이상의 PLS 서열 둘다를 포함할 것이다. 이들 하나 이상의 NLS 또는 PLS 서열은 전체 인공 분자 복합체를 핵으로 수송할 것이다. NLS- 또는 PLS-태깅된 단백질은 NLS- 또는 PLS-태깅된 융합 분자로 제조될 수 있다.
본 발명에 따른 인공 분자 복합체를 시험관내 목적, 예를 들어 플라스미드 또는 임의의 다른 벡터 상에서 게놈 또는 게놈의 일부를 시험관내에서 변형시키기 위해 사용하는 구현예의 경우, 위치화 서열이 필요하지 않을 수 있다. 위치화 서열은 대상 타겟 세포 내 해당 구획의 하나 이상의 대상 DNA 타겟 서열로 인공 분자 복합체를 타겟팅하는 과정을 보조한다. 본 발명의 일부 구현예에서, 위치화 서열은 핵 위치화 서열, 색소체 위치화 서열, 바람직하게는 미토콘드리아 위치화 서열 또는 엽록체 위치화 서열을 포함할 수 있다. 즉, 하나 이상의 SSN 및/또는 하나 이상의 RTDD 및/또는 하나 이상의 상호작용 도메인은 하나 이상의 대응되는 위치화 서열, 바람직하게는 복합체를 세포의 핵 게놈으로 향하게 하기 위한 핵 위치화 서열 (NLS)을 포함할 것이다. 일부 구현예에서, SSN 및/또는 RT 및/또는 하나 이상의 상호작용 도메인 및/또는 RTDD는 (펩타이드 및 단백질의 경우) 아미노 말단에 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10개 이상의 NLS를 포함할 수 있거나, (펩타이드 및 단백질의 경우) 카르복시 말단에 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10개 이상의 NLS를 포함할 수 있거나, 또는 이의 조합 (예, 펩타이드 및 단백질의 경우 아미노 말단에 하나 이상의 NLS 및 카르복시 말단에 하나 이상의 NLS)을 포함할 수 있다. 인공 분자 복합체의 비-아미노산계 구성성분은, 핵산 서열에 대한 경우에서처럼, 예를 들어 5' 및/또는 3' 말단에 위치화 서열을 탑재할 것이다. 또한, 위치화 서열, 바람직하게는 합성 위치화 서열은, 분자 복합체 내부 상호작용 및/또는 본 발명의 인공 분자 복합체의 결합, 절단 및 복구 능력을 교란하지 않는 한, 분자 내 임의 위치에 부가될 수 있다. NLS가 하나 보다 많이 존재할 경우, 그 각각은, 단일 NLS가 1 카피 보다 많은 수로 존재하거나 및/또는 하나 이상의 카피에 존재하는 하나 이상의 다른 NLS와 조합하여 존재할 수 있도록, 서로 독립적으로 선택될 수 있다.
본 발명의 바람직한 구현예에서, 하나 이상의 SSN 및/또는 상호작용 도메인은 위치화 서열을 포함할 것이며, NLS를 최대 6개 포함할 수 있다. 일부 구현예에서, NLS의 최단 아미노산이 N 말단 또는 C 말단으로부터 폴리펩타이드를 따라 아미노산 약 1, 2, 3, 4, 5, 10, 15, 20, 25, 30, 40, 50개 또는 그 이상의 갯수일 경우, NLS는 인공 분자 복합체의 아미노산 구성성분의 N- 또는 C-말단 근처로 간주된다. NLS에 대한 비-제한적인 예로는 다음으로부터 유래되는 NLS 서열 등이 있다: 아미노산 서열 PKKKRKV (서열번호 1)을 가진, SV40 바이러스 라지 T-항원의 NLS; 뉴클레오플라스민 유래 NLS (예, 뉴클레오플라스민 바이파티트 (nucleoplasmin bipartite) NLS, 서열 KRPAATKKAGQAKKKK (서열번호 2)); 아미노산 서열 PAAKRVKLD (서열번호 3) 또는 RQRRNELKRSP (서열번호 4)를 가진, c-myc NLS; 서열 NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY (서열번호 5)를 가진 hRNPA1 M9 NLS; 임포틴-알파의 188 도메인의 서열 RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV (서열번호 6); 근종 T 단백질의 서열 VSRKRPRP (서열번호 7) 및 PPKKARED (서열번호 8); 인간 p53의 서열 PXPKKKPL (서열번호 9), 여기서 서열번호 9의 8번 위치의 "L"은 옵션임; 마우스 c-abl IV의 서열 SALIKKKKKMAP (서열번호 10); 인플루엔자 바이러스 NS1의 서열 DRLRR (서열번호 11) 및 PKQKKRK (서열번호 12); 간염 바이러스 델타 항원의 서열 RKLKKKIKKL (서열번호 13); 마우스 Mx1 단백질의 서열 REKKKFLKRR (서열번호 14); 인간 폴리(ADP-리보스) 중합효소의 KRKGDEVDGVDEVAKKKSKK (서열번호 15); 및 스테로이드 호르몬 수용체 (인간) 글루코코르티코이드의 서열 RKCLQAGMNLEARKTKK (서열번호 16). 일부 구현예에서, 위치화 신호는 색소체 위치화 서열, 예를 들어, 색소체 또는 미토콘드리아 위치화 신호일 수 있다. 적합한 색소체 위치화 신호는 엽록체 전이 펩타이드 또는 미토콘드리아 타겟팅 펩타이드로 이루어진 군으로부터 선택된다. 또한, HIV Tat 단백질로부터 유래되는 펩타이드 또는 이를 코딩하는 서열은 세포 및/또는 대상 세포내 구획으로 대상 구조체 또는 분자를 타겟팅하는데 적합할 수 있다. 적합한 Tat 펩타이드는 YGRKKRRQRRR (서열번호 17)로부터 유래되거나 또는 모티프 GRKKR (서열번호 18)를 포함한다. 또 다른 예시적인 구현예에서, 효모 미토콘드리아 Cox4p (서열번호 30) 유래 서열 또는 인간 말레이트 데하이드로게나제 미토콘드리아 리더 서열 (MLS) (서열번호 31) 유래 서열 또는 아라비돕시스 리포산 신타제 (NCBI Ref. Seq. ID: NP 179682.1, 서열번호 32) 유래 서열을 이용해, 본 발명에 따른 인공 분자 복합체를 미토콘드리아 매트릭스로 위치시켜, 미토콘드리아 DNA를 변형할 수 있다.
특정 구현예에서, 인공 분자 복합체를 엽록체로 타겟팅하는 데 관심을 둘 수 있다. 다수의 경우에, 이러한 타겟팅은 엽록체 수송 펩타이드 (chloroplast transit peptide, CTP) 또는 색소체 수송 펩타이드로 지칭되는 N-말단 연장의 존재에 의해 달성될 수 있다. 박테리아 소스로부터 유래된 염색체 전이유전자는, 발현된 폴리펩타이드가 식물 색소체 (예, 엽록체) 내 구획화된다면, 발현된 폴리펩타이드를 코딩하는 서열과 융합된 CTP 서열을 코딩하는 서열을 가지고 있어야 한다. 이에, 외인성 폴리펩타이드의 엽록체로의 위치화는 종종 외인성 폴리펩타이드를 코딩하는 폴리뉴클레오티드, 즉, 본 발명에 따른 하나 이상의 SSN의 5' 영역에 CTP 서열을 코딩하는 폴리뉴클레오티드 서열을 작동가능하게 연결시킴으로써 달성된다. CTP는 색소체로 전좌되는 중에 프로세싱 단계에서 제거된다. 그러나, 프로세싱 효율은 펩타이드의 NH2 말단 위치에서 CTP의 아미노산 서열과 인접 서열에 의해 영향을 받을 수 있다. 개시된 바 있는 엽록체로 타겟팅하기 위한 다른 옵션은 옥수수 cab-m7 신호 서열 (미국 특허 7,022,896, WO 97/41228), 완두콩 글루타티온 리덕타제 신호 서열 (WO 97/41228) 및 US 2009/029861 A1에 언급된 CTP이다.
본 발명에 따른 다양한 위치화 서열들은 위치화 서열을 해당 분자에 작동가능하게 연결하기 위해 하나 이상의 위치화 서열을 코딩하는 플라스미드 또는 발현 카세트 상에서 코딩시키거나, 또는 위치화 서열을 단백질, 핵산 또는 다른 생체분자와 부착하여, 합성 방식으로 본 발명의 인공 분자 복합체를 제조할 수 있다.
또 다른 구현예에서, 하나 이상의 핵 배출 신호 (nuclear export signal)가 하나 이상의 위치화 서열 대신 또는 이와 더불어 사용될 수 있다.
인공 분자 복합체가 핵산 서열 형태로 하나 이상의 전달 벡터의 도움을 받아 세포로 전달되는 구현예들에서, 위치화 신호는 위치화 신호를 코딩하는 핵산 서열로서 하나 이상의 SSN 및/또는 상호작용 도메인 코딩 서열에 공유 방식으로 공유 부착될 수 있다.
일 구현예에서, 하나 이상의 SSN 및/또는 폴리펩타이드 상호작용 도메인은 형광 리포터 유전자 또는 단백질과 공유적으로 또는 비-공유적으로 결합할 수 있다. 이러한 리포터는 DNA로서, mRNA로서, 독립적인 단백질로서 또는 하나 이상의 SSN 및/또는 상호작용 도메인 폴리펩타이드와 연결된 융합 단백질로서 전달될 수 있다.
본 발명에 따른 RTDD/RT 분자는 여러가지 방식으로 제조될 수 있다. 적절한 경우, 합성 방식으로 RNA 염기를 부가하고, 적절한 경우 합성 방식으로 DNA 염기를 부가하는, 화학적 합성에 의해 제조될 수 있다. 다른 구현예에서, RTDD 및/또는 RT는 서로 독립적으로 합성한 다음 분자를 전술한 바와 같이 서로 결합시킬 수 있다. 또 다른 옵션은 핵산을 RNA, 바람직하게는 단일 가닥 RNA에 연결시킬 수 있는 T4 RNA 리가제 또는 기타 효소를 이용하는 방법이다. 본원에서, RNA 및 DNA 구성성분을 임의 방식으로 독립적으로 제조하고, 혼합한 후 이를 제조사의 프로토콜에 따라 효소에 노출시키고, 이들 구성성분을 라이게이션에 의해 공유적으로 연결시켜, 즉 공유 부착을 구축한다. RTDD 모이어티를 RT 모이어티에 공유적으로 연결하는 다른 전략으로는 이들 각각을 다른 연결성 화학 기 또는 복합체, 예를 들어 펩타이드와 연결하는 것을 포함한다. 이러한 유형의 방식은, 하이브리드 RTDD/RT 서열을 세포 내에서 향후 검출하여야 하거나 또는 추가적인 기능이 하이브리드 핵산 서열로부터 발휘되어야 할 경우에, 특히 적합하다. RTDD 및/또는 RT 핵산 서열의 화학적 변형은, RTDD/RT 서열을 안정화하고, 세포 효소에 의한 분해를 방지함으로써, 대상 DNA 타겟 부위에서 RTDD/RT 서열 및 하나 이상의 부위-특이적인 뉴클레아제의 높은 동시적인 이용가능성을 달성하기 위해, 매우 중요할 수 있다.
RTDD가 gRNA이고 SSN이 CRISPR 뉴클레아제, 바람직하게는 Cas 또는 Cpf1 뉴클레아제인 구현예에서, RTDD가 하나 보다 많은 수로 존재할 수 있다. 복수의 gRNA의 동시적인 사용이 CRISPR 기반의 유전자 활성화 또는 억제를 강화하고, 유전자 드라이버 (gene drives)에 대한 대립유전자 내성 출현을 현저하게 낮출 수 있는 것으로 확인되었다. 따라서, RTDD로서 gRNA는 단일한 비-가공된 전사체로서 제시될 수 있으며, gRNA는 이후 RNA 중합효소 II 전사에 의해 핵내에서 전구체로부터 절단되어, 세포질로의 gRNA의 배출이 동시에 방지될 것이다 (Port and Bullock, Nat. Methods, 2016, vol. 13, no.10, 852-854). 이러한 구현예에서, gRNA는, 내인성 tRNA 프로세싱 기구가 복수의 기능성 gRNA를 분리시킬 수 있도록, tRNA-gRNA 플라스미드로서 제시될 수 있다.
본 발명의 다양한 측면들에 따른 특정 구현예들에서, 하나 이상의 부위-특이적인 뉴클레아제 또는 이를 코딩하는 서열, 및 하나 이상의 상호작용 도메인 또는 이를 코딩하는 서열, 및/또는 하나 이상의 복구 주형 도킹 도메인 또는 이를 코딩하는 서열이 하나 이상의 링커 도메인에 의해 연결된다. 이러한 링커 서열은, 개별 구성성분들 모두 자체 기능을 충분히 발휘할 수 있도록, RTDD 서열 및 복구 주형 핵산 서열뿐 아니라 인공 분자 복합체의 SSN 및 선택적으로 상호작용 도메인 구성성분의 최적의 기하학적 구조를 달성하기 위한, 분자 스페이서로서 이용될 수 있다. 링커 또는 테더 영역 (tether region)의 길이와 조성은, 예를 들어, 특정 RTDD와 RT 쌍의 경우, 중요한 설계 측면일 수 있다. 일 구현예에서, 특히 RT의 좌측 상동성 암의 5' 말단에 링커 영역을 포함할 수 있다. 테터 또는 링커는 다양한 형태를 취할 수 있다. RT의 좌측 또는 우측 상동성 암에서 시작해, 이러한 RT 영역은, 염색체 타겟 쪽으로의 RT의 이동을 허용하기 위한 테더 또는 플렉시블 링커로서, 그리고 HR 반응을 매개하기 위한 상동성으로서 작용할 수 있게 하는 것은, 본 발명의 내용에 기초하여 게놈 편집을 위해 현재 널리 사용되는 복구 주형에 대한 통상적인 설계 파라미터에 대한 지식을 가진 당업자에 의해 수행될 수 있다.
인공 분자 복합체가 하나 이상의 SSN뿐 아니라 하나 이상의 상호작용 도메인 (IA)을 포함하는 구현예에서, SSN 및 IA는 적절한 링커에 의해 연결될 수 있다.
고려되어야 하는 설계 파라미터로는, 도입될 링커 및 링커의 길이에 영향을 미칠 수 있는, SSN으로서 CRISPR 폴리펩타이드의 절단 부위에 대해 상동적인 복구 주형의 기하학적 구조, 복구 주형과 상동적인 대상 DNA 타겟 부위 내 가닥, 복구 주형의 크기 등이 있다. 링커 서열은 gRNA와 복구 주형의 공유 및 비-공유 결합 둘다에 이용될 수 있다. 본원의 내용과 Nishimasu (상기 참조), Tsai et. al (Nature Biotechnology, 32, 569-576, (2014)) 또는 Shechner et al. (Nature Methods, 12(7), 664-670 (2015), doi: 10.1038/nmeth.3433)에 제공된 정보를 기반으로, 당해 기술 분야의 당업자라면 RTDD로서 gRNA와 RT 사이 또는 여러가지 gRNA 및/또는 RT들 사이에 위치한 구체적인 서열을 정의하기 위해, 하이브리드 핵산 서열에 적합한 링커 영역을 정의할 수 있으며, 이 경우, 수 종의 하이브리드 핵산이 gRNA 및 RT 모이어티 둘다에 어떠한 입체적 제약없이 그 기능을 충분히 발휘할 수 있도록 사용된다. 하나 이상의 링커 영역은 하나 이상의 gRNA를 RT로부터 적절하게 분리시키거나, 또는 gRNA 및/또는 RT의 위치를 최적화하기 위해, 최대 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95 또는 100개의 추가적인 뉴클레오티드를 포함할 수 있다. 특정 구현예들에서, 링커 서열은 gRNA 및/또는 RT의 보다 나은 위치 설정을 달성하기 위해, 최대 150, 200, 250, 500, 1,000, 1,500, 2,000, 2,500, 3,000, 3,500, 4,000, 4,500 또는 적어도 4,700개 또는 5,000개의 뉴클레오티드를 포함할 수 있다.
핵산 서열을 포함하는 임의의 RTDD와 RT의 비-공유적인 결합을 수행하고자 하는 경우, 한가지 방법은 RTDD와 RT 양 분자가 핵산 염기 쌍 형성에 의해 자연스럽게 결합되도록, RTDD와 RT에 부분적으로 상보적인 서열을 제공하는 것이다.
RT가 인공 분자 편집 복합체의 일부 구성성분과 충분히 결합하도록 하기 위해 분자의 전하를 이용하는 등의, 또 다른 비-공유적인 결합도 가능하다. 다른 구현예에서, 인공 분자 복합체의 하나 이상의 구성성분은 태그 및 결합 파트너를 포함할 수 있으며, 즉 RTDD 및 SSN, 또는 RTDD 및 상호작용 도메인, 및/또는 이의 RT 영역/또는 이의 RT 영역은 각각, 비-공유적 상호작용, 선택적으로, RTDD 또는 상호작용 도메인과 RT 간의 염기 쌍 형성 및 RTDD와 SSN 폴리펩타이드 간의 결합이 달성되어, 상호작용, 즉 인공 분자 복합체의 안정성을 높이도록, 태그의 대응되는 결합 파트너를 포함할 수 있다.
인간 세포에서, 3' 말단에 28 bp의 추가적인 서열을 가진 gRNA + 부속된 187개의 아미노산 (21.4 kD) Csy4 단백질이 탑재된 Cas9은, 표준 gRNA 대조군과 비교해 DSB 유도 활성을 90% 이상 유지하였다 (Tsai et al., Nature Biotech., 32, 2014). 이는 sgRNA의 3' 말단에 달린 (tethered) 카고에 대한 Cas9에 의한 매우 실질적인 허용성 (tolerance)과 연장된 sgRNA 분자에 대한 적절한 구조-기능 잠재성을 시사해준다. Cas9 허용성은, 표준 gRNA에서 Cas9 단백질의 아키텍처 바깥쪽에, 그리고 활성 부위를 홀딩하는 표면에 거의 직각으로 표면 상에 유지되는, 헤어핀 형태에서 종결되는, 핵산 서열의 유리형 3' 말단의 플렉시빌리티에 의해 부분적으로 달성된다 (Nishimasu et al., 2014; Anders et al., 2014). 아울러, Shechner et al. ("Multiplexable, locus-specific targeting of long RNAs with CRISPR-display", Nature Methods, 12(7), 664-670 (2015), doi: 10.1038/nmeth.3433)에 따르면, 긴 비-코딩 sgRNA 분자는, 인간 세포 게놈에서, dCas9 단백질에 의한 서열-특이적인 타겟팅 활성을 감소시키지 않으면서, sgRNA의 5' 또는 3' 말단에 또는 sgRNA의 내부 루프에 전사적으로 부착될 수 있다. 최대 4.8 kb 길이의 ssRNA가 서열-특이적인 타겟팅 활성을 유지하면서 리보핵단백질 복합체에 수용되었다.
본 발명의 다양한 측면들에 따른 일 구현예에서, 복구 주형 핵산 서열은 RTDD와, 예를 들어 가이드 핵선 서열과, 가이드 핵산 서열의 3' 말단에서 결합하거나, 및/또는 복구 주형 핵산 서열은 RTDD, 예를 들어 가이드 핵산 서열의 5' 말단과 결합되거나, 및/또는 복구 주형 핵산 서열은 RTDD 내부에 위치하여, RTDD의 분리된 기능성 파트를 형성한다.
놀랍게도, 본 발명자들은, 3'에 위치한 DNA 복구 주형 서열 (RT), 즉, 단일 가닥 또는 이중 가닥 RT를 탑재한 (carrying) RTDD로서 gRNA는, CRISPR 폴리펩타이드, 예를 들어 CRISPR 타입 II 시스템의 Cas9 또는 CRISPR 타입 V 시스템의 Cpf1 또는 다른 CRISPR 폴리펩타이드 작동자에 의해 타겟으로 전달되기 때문에, 상동적인 서열과 자유롭게 상호작용함을 발견하였다. 비슷한 결과는, 5' 위치된 DNA 복구 주형 서열, 단일 가닥 또는 이중 가닥 RT 또는 이 둘다, 3' 및 5'에 위치한 RT가 탑재된 gRNA를 RTDD로서 이용하였을 때에도, 관찰되었다. 3' 또는 5'에 위치한다는 것은, RT가 gRNA의 3' 또는 5' 말단에 공유 부착된다는 것을 의미하거나, 또는 이는 RT가 gRNA의 3' 및/또는 5' 영역에 부착된 서열에 대응되는 영역에 혼성화, 즉 비-공유적으로 결합하는 것을 의미한다. 또한, RT는 gRNA의 스템 루프에 공유적으로 병합되거나, 또는 이는 gRNA의 스템 루프와 비-공유적으로 결합하여 기능성 하이브리드 핵산 구조체를 형성할 수 있다. 따라서, 전술한 바와 같이, gRNA의 다양한 위치에서 gRNA와 DNA의 결합은 충분히 허용적이며, 따라서 이러한 새로운 형태의 하이브리드 복합체는 유전자 편집 원리의 중요한 2가지 특징을 조합하는데 적합한 것으로, 확인되었다: (1) RTDD/gRNA에 의해 매개되는 정확한 타겟팅, 및 (2) RT에 의해 매개되는 효율적인 부위-특이적인 복구. 또한, gRNA 및 RT는, 대상 DNA 타겟 부위에서, SSN으로서 대상 CRISPR 폴리펩타이드와 함께 하이브리드 구조체의 안정성 및 이용가능성을 높이도록 매우 근접하게 위치시키는 상승적인 효과도 존재한다.
RT가 핵산 계열의 RTDD, 예를 들어 gRNA 또는 gDNA의 3' 또는 5' 말단에 부착되는 경우, RTDD과 함께 전달되는 경우, 본 발명에 따른 인공 분자 복합체의 일부로서 전달되는 연장된 복구 주형 뉴클레오티드 서열의 길이에는 거의 제한이 없다. RT의 길이는, RTDD 종류와 독립적이며, 오히려 도입할 타겟화된 변형에 따라 결정된다. 전형적인 RT 서열은, 하나 이상의 SSN의 절단율을 현저하게 감소시키지 않으면서, 단일 가닥 및/또는 이중 가닥 DNA를 약 20 - 8,000 bp 이상, 예를 들어 20 - 5,000 bp, 30 - 8,000 bp, 30 - 5,000 bp, 40 - 8,000 bp, 40 - 5,000 bp, 50 - 8,000 bp, 50 - 5,000 bp, 60 - 8,000 bp, 60 - 5,000 bp, 70 - 8,000 bp, 70 - 5,000 bp, 80 - 8,000 bp, 80 - 5,000 bp, 90 - 8,000 bp, 90 - 5,000 bp, 100 - 8,000 bp, 100 - 5,000 bp의 길이로 가질 수 있다. 당해 기술 분야의 당업자에게 공지된 바와 같이, RT 주형의 길이는 발휘/도입할 변형/삽입 타입에 의해 대개 결정된다. 대상 단백질을 코딩하는 더 긴 핵산 서열을 넉-인하는 경우, RT 서열의 길이는 소정의 길이: 대상 단백질을 코딩하는 핵산 구조체 + 서열의 좌 및 우측에 위치한 충분히 긴 2개의 상동성 암을 가질 것이다. 즉, 기본적으로 상한 1,500 bp는 없으며, RT는 최대 5,000개 이상의 염기 쌍 (bp)을 가질 수 있다. 예를 들어, 복구 주형으로서 플라스미드 DNA를 이용하여 타겟 부위에서 복구 주형으로 제조되는, 현재 도입되는 보다 큰 삽입체는, 800 bp 이상의 우측 및 좌측 상동성 암을 이용하므로, 복구 주형의 총 길이는 수 천 bp일 수 있다. 핵산 삽입체의 길이는 부위-특이적인 대상 뉴클레아제를 저해하지 않도록 설계되어야 하며, 이는 사전 실험을 통해 결정될 수 있다.
본 발명의 분자 복합체의 여러가지 구성성분, 즉 하나 이상의 SSN, 하나 이상의 RTDD 및 하나 이상의 RT, 및 선택적으로 하나 이상의 상호작용 도메인은 기능적인 방식으로 결합된다.
용어 "기능적인 방식으로 결합된"은, SSN과 RTDD가 서로, 바람직하게는, 전술한 비-공유적인 결합 형태로 상호작용할 수 있도록, 인공 복합체의 구성성분들이 접촉되는 것을, 의미한다. 하나 이상의 RT 서열과 상호작용하는 하나 이상의 RTDD 서열은, 적어도 RTDD 서열이 하나 이상의 대응되는 대상 SSN 또는 이의 변이체 또는 이의 촉매적으로 활성인 단편과 접촉되기 전, 접촉된 후 또는 접촉과 동시에, 독립적으로, 조립된다. 일 구현예에서, 선택적으로 하나 이상의 상호작용 도메인을 포함하는, 전체 복합체는, 편집할 하나 이상의 대상 DNA 타겟 영역을 포함하는 타겟 세포에 도입되기 전에, 시험관내에서 조합된다. 다른 구현예에서, 하나 이상의 SSN 및 선택적으로 상호작용 도메인은, 하나 이상의 상호작용성 RTDD/RT 서열에 앞서 또는 이후에 하나 이상의 타겟 세포에 도입된다. SSN 폴리펩타이드는, 폴리펩타이드 서열을 형질감염시키거나, 또는 하나 이상의 폴리펩타이드를 코딩하는 RNA로 하나 이상의 타겟 세포를 형질감염 또는 형질전환시키거나, 또는 타겟 세포에서 전사 및 번역될 수 있는 하나 이상의 SSN 폴리펩타이드를 코딩하는 전달 구조체를 도입함으로써, 타겟 세포에 도입할 수 있다. 마찬가지로, 특정 구현예들에서, RTDD(들) 및 복구 주형 핵산 서열(들)은, 시험관내에서 제공되어 구조체로 조립되는 바와 같이, 동시적으로 제공될 수 있다. 다른 구현예에서, RTDD 서열 및/또는 복구 주형 핵산 서열은 적합한 전달 벡터를 이용해 타겟 세포 내로 형질감염 또는 형질전환될 수 있다. 바람직한 구현예에서, 전체 인공 분자 복합체를 시험관내에서 조립한 후 대상 타겟 세포로 도입함으로써, 게놈 편집 구조체의 최상의 공간적 및 화학량론적 조절이 가능하다. 다른 바람직한 구현예에서, 하나 이상의 SSN 및 선택적으로 상호작용 도메인 폴리펩타이드를 RTDD/RT 서열에 앞서 타겟 서열에 도입한 다음, 하나 이상의 RTDD/RT 서열을 이후 대상 타겟 세포에 도입한다. 예를 들어, RTDD로서 gRNA를 이용하는 일부 경우에, 폴리펩타이드와 비교해 RNA의 본질적인 낮은 안정성으로 인해, 도입된 gRNA가 세포에 이미 존재하는 SSN에, 즉 일부 구현예에서 CRISPR 폴리펩타이드에 즉각적으로 결합하여 안정화될 수 있도록, 순차적인 순서가 바람직할 수 있다. 이론으로 결부시키고자 하는 것은 아니지만, 가이드 핵산 서열과 복구 주형 핵산 서열의 생체외 조립은 또한 가이드 RNA 단독과 비교해 구조체의 안정성을 높일 수 있다.
현재, 식물 생물공학 분야의 당업자들에게 공지된 생물학적 및 물리적 수단을 포함하여, 유전자 구조체 형태로 유전 물질을 대상 식물 세포에 도입하는 다양한 식물 형질전환 방법들이 있다. 통상적인 생물학적 수단은, 여러가지 다양한 식물 물질을 전달하는데 사용되어 온 아그로박테리움 spp. (Agrobacterium spp.)를 이용한 형질전환이다. 대상 세포에 유전 물질을 도입하기 위한 또 다른 전략은 바이러스 벡터 매개의 식물 형질감염이다. 식물 생물학에서 유용성이 확인된 물리적인 수단은 바이올리스틱 형질감염 또는 미세입자-매개 유전자 전달로도 지칭되는 입자 총격 (particle bombardment)이며, 이는 대상 핵산 또는 유전자 구조체를 포함하는 코팅된 미세입자 또는 나노입자를 타겟 세포 또는 조직에 전달하는 물리적인 전달 방법이다. 이러한 물리적인 도입 수단은 핵산, 즉, RNA 및/또는 DNA, 그리고 단백질을 도입하는데 적합하다. 마찬가지로, 대상 핵산 또는 아미노산 구조체를 식물 세포에 특이적으로 도입하기 위한, 특수 형질전환 또는 형질감염 방법들, 예를 들어, 전기천공, 미세주입, 나노입자 및 세포-침투성 펩타이드 (CPP) 등도 있다. 또한, 유전자 구조체 및/또는 핵산 및/또는 단백질을 도입하기 위한 화학제를 이용한 형질감염 방법도 있으며, 이는 특히 칼슘 포스페이트를 이용한 형질감염, 리포좀, 예를 들어, 양이온성 리포좀을 이용한 형질감염, 또는 DEAD-덱스트란 또는 폴리에틸렌이민 등의 양이온성 폴리머를 이용한 형질감염 또는 이들의 조합 등을 포함한다. 이러한 전달 방법 및 전달 비히클 또는 카고는, 따라서, 동물 및 포유류 세포 등의 다른 진핵생물 세포에 사용되는 전달 툴과는 본질적으로 차이가 있으며, 모든 전달 방법은, 게놈 편집을 매개하기 위한 대상 구조체가 대상 타겟 세포의 특정 구획에 완전히 기능적이고 능동적인 방식으로 도입될 수 있도록, 특이적으로 미세-조정되고 최적화되어야 한다. 상기한 전달 기법을 단독으로 또는 조합하여 사용함으로써, 본 발명에 따른 하나 이상의 인공 분자 복합체 또는 이의 하나 이상의 서브 구성성분, 즉, 하나 이상의 SSN, 하나 이상의 RTDD, 하나 이상의 RT 및 선택적으로 하나 이상의 IA, 또는 이들 서브 구성성분들을 코딩하는 서열들을 타겟 세포에 생체내 또는 시험관내 삽입할 수 있다.
특정 구현예에서, 본 발명의 인공 분자 복합체의 전달 방식은 SSN-(IA)-RTDD-RT 복합체의 PEG 매개 전달, SSN-(IA)-RTDD (RTDD는 예를 들어 gRNA 또는 gDNA임)를 코딩하는 플라스미드의 PEG 매개 전달 및 RT의 병행 전달 (parallel delivery), SSN-(IA)-RTDD-RT 복합체의 충격 (bombardment), 단백질 (SSN 및 선택적으로 IA)-RTDD, 예를 들어 gRNA/gDNA를 코딩하는 플라스미드 충격 및 RT의 병행 전달, SSN-(IA)-RTDD-RT 복합체의 세포 침투성 펩타이드 (CPP) 매개 전달, SSN-(IA)-RTDD-RT 복합체의 리포팩션, 단백질 (SSN 및 선택적으로 IA)-RTDD, 예를 들어 gRNA/gDNA를 코딩하는 플라스미드의 리포팩션 및 RT의 병행 전달, 또는 단백질 (SSN 및 선택적으로 IA)의 안정적인 발현 및 RTDD의 일시적인 전달, 특정 RTDD의 경우 RTDD를 코팅하는 플라스미드의 전달 및 rtDNA의 병행 전달로부터 선택될 수 있다.
특정 구현예에서, gRNA의 crRNA 영역은 스템 루프 또는 최적화된 스템 루프 구조 또는 최적화된 2차 구조를 포함한다. 다른 구현예에서, 성숙형 crRNA는 다이렉트 리피트 서열에 스템 루프 또는 최적화된 스템 루프 구조를 포함하며, 이 스템 루프 또는 최적화된 스템 루프 구조는 절단 활성에 중요하다. 특정 구현예에서, 성숙형 crRNA는 바람직하게는 단일한 스템 루프를 포함한다. 특정 구현예에서, 다이렉트 리피트 서열은 바람직하게는 단일한 스템 루프를 포함한다. 특정 구현예에서, 작동자 단백질 복합체의 절단 활성은 스템 루프 RNA 듀플렉스 구조에 영향을 미치는 돌연변이를 도입함으로써 변형된다. 바람직한 구현예에서, 스템 루프의 RNA 듀플렉스를 유지하는 돌연변이가 도입될 수 있으며, 이로써 작동자 단백질 복합체의 절단 활성은 유지된다. 다른 바람직한 구현예에서, 스템 루프의 RNA 듀플렉스를 교란하는 돌연변이가 도입될 수 있으며, 이로써 작동자 단백질 복합체의 절단 활성은 완전히 없어진다.
본 발명에 따른 인공 분자 복합체의 일부로서 본 발명에 따른 하나 이상의 복구 주형 핵산 서열의 크기는 달라질 수 있다. 변형할 DNA 타겟 서열에 따라, 그 범위는 약 20 bp 내지 약 5,000 bp 또는 심지어 8,000 bp일 수 있다.
대상 DNA 타겟 영역에 특이적인 돌연변이 또는 삽입을 구축하기 위해 사용되는 HOR 주형은 변형시킬 타겟 서열 주변부에 대해 어느 정도의 상동성을 가져야 할것이다. 변형이 삽입되는 부위는, 뉴클레아제 결핍성 SSN, 예를 들어 CRISPR 폴리펩타이드의 경우, SSN 또는 융합 파트너, 즉 상호작용 도메인에 의해 발생된 DSB로부터 100 bp 넘게 떨어져 있지 않는 것이, 가장 좋으며, 이상적으로는 가능하다면 10 bp 미만으로 떨어져 있는 것이 최선이며, 상동성 암의 전체 길이는 이를 설계할 때 고려해야 할 중요한 인자이다. 더 먼 거리에서도 작동가능하지만, 효율이 낮을 수 있어, 대상 DNA 타겟 서열에 도입할 바람직한 변형이 존재하는 지를 확인하기 위한 선택 마커를 반드시 도입해야 할 수도 있다.
본 발명의 다양한 측면에서, 하나 이상의 복구 주형 핵산 서열은 단일 가닥 또는 이중 가닥 DNA 핵산 분자일 수 있다. 하나 이상의 복구 주형 핵산 서열은 하나 이상의 선형, ss- 또는 ds-DNA 분자의 형태로 제공될 수 있다. 그러나, 분자 복합체를 생체외에서 조립할 경우, 생체외에서 제조된 하나 이상의 단일 가닥 또는 이중 가닥 복구 주형 핵산 서열을 사용하는 것이 적합할 수 있으며, 이는 모든 구성성분들을 게놈 편집 방법의 특이성을 증가시키기 위해 정확한 화학량론으로 동시에 도입할 수 있으므로, 기능적인 SSN-RTDD-RT 복합체의 이용가능성을 높이는데 특히 적합하다.
단일 가닥 또는 이중 가닥 형태의 보다 긴 핵산 서열의 합성은 통상적인 종래 방법으로 달성할 수 있다. 특정 구현예에서, 또한 부분적인 단일 가닥 및/또는 부분적인 이중 가닥 복구 주형 핵산 서열이 적합할 수 있다는 것에도 유념한다. 단일 가닥 및/또는 이중 가닥 핵산 서열과, 인공 분자 복합체의 폴리펩타이드 구성성분들의 도입과 동시에, 도입 전 또는 도입 후와 같은 임의의 도입 방식의 모든 조합들이 가능하다. 일 구현예에서, 일부 게놈 편집 방식에서는 2 이상의 복구 주형 핵산 서열을 사용하는 것이 유리하므로, 타겟 세포가 복구 주형 또는 부가적인 복구 주형 서열을 코딩하는 추가적인 플라스미드를 포함하고, 여러가지 구성성분들이 제공된 이후에 생체내에서 인공 분자 복합체를 조립할 수 있는, 제2 측면에 따른 분자 복합체를 타겟 세포에 도입하는 방법을 제공한다. 일반적으로, 매우 정확한 게놈 편집 이벤트를 고려하면, 타겟 세포 내, DNA 타겟 영역이 위치하는 부위에서 복구 주형 핵산 서열의 높은 물리적인 이용가능성이 매우 중요하다. 특정 구현예에서, 특히 단일 가닥 (ss) DNA 복구 주형은, 가능한 분자량을 낮게 유지하여 적절한 균형을 달성하는데 적합하며, 동시에 최적의 상동성 특이적인 복구를 달성하기 위한 충분한 상동성 상호작용 길이를 제공해준다.
본 발명의 임의 측면에 따른 일 구현예에서, 하나 이상의 SSN은 CRISPR 폴리펩타이드이며, 이는 독립적으로, 스트렙토코커스 피오게네스 (Streptococcus pyogenes), 스트렙토코커스 서모필러스 (Streptococcus thermophiles) 등의 스트렙토코커스 (Streptococcus spp.), 스타필로코커스 아우레우스 (Staphylococcus aureus) 또는 네이세리아 메닌기티데스 (Neisseria meningitides) 등의 네이세리아 (Neisseria spp.), 코리네박터 (Corynebacter), 슈테렐라 (Sutterella), 레지오넬라 (Legionella), 트레포네마 (Treponema), 필리팍토르 (Filifactor), 유박테리움 (Eubacterium), 락토바실러스 (Lactobacillus), 미코플라스마 (Mycoplasma), 박테로이데스 (Bacteroides), 플라비이볼라 (Flaviivola), 플라보박테리움 (Flavobacterium), 스페어로키타 (Sphaerochaeta), 아조스피릴룸 (Azospirillum), 글루콘아세토박터 (Gluconacetobacter), 로세부리아 (Roseburia), 파르비바쿨럼 (Parvibaculum), 니트라티프락토르 (Nitratifractor), 미코플라스마 (Mycoplasma) 및 캄필로박터 (Campylobacter), 칸디다투스 미크라르체움 (Candidatus Micrarchaeum) 액시디필룸 ARMAN-1, 파르쿠박테리아 (Parcubacteria)(GenBank: APG80656.1), 설폴로부스 아일랜디쿠스 (Sulfolobus islandicus) HVE10/4 (GenBank: ADX81770.1) 또는 REY15A (GenBank: ADX84852.1) 등의 설폴로부스 spp (Sulfolobus spp.)의 Cas 폴리펩타이드로부터 선택되거나, 또는 CRISPR 폴리펩타이드는 고세균 또는 박테리아 유래 Cpf1 폴리펩타이드, 예를 들어, 액시다미노코커스 sp. BV3L6 등의 액시다미노코커스 spp. (Acidaminococcus spp.), 라크노스피래세애 박테리움 (Lachnospiraceae bacterium) ND2006 등의 라크노스피래세애 spp. (Lachnospiraceae spp.), 프란시셀라 노비시다 (Francisella novicida) U112 등의 프란시셀라 spp. (Francisella spp.), 유박테리움 엘리겐스 (Eubacterium eligens), 프레보텔라 spp. (Prevotella spp.) 또는 포르피로모나스 spp. (Porphyromonas spp.) 유래의 Cpf1 폴리펩타이드로부터 선택되거나, 또는 이들의 변이체 및/또는 기능성 단편 및/또는 조합물, 예를 들어, CRISPR 폴리펩타이드 닉카제 또는 엔도뉴클레오분해 활성이 없는 CRISPR 폴리펩타이드로부터 선택된다.
본 발명에 따른 일 구현예에서, 본 발명에 따른 RTDD/RT 서열은, 오프-타겟 돌연변이를 최소화하기 위해, SSN 닉카제 돌연변이, 예를 들어, Cas9 닉카제 돌연변이와 함께 사용될 수 있으며, 이때 각각의 가이드 RNA가 Cas9 유래 닉카제 돌연변이에 특이적인, 가이드 RNA 쌍이 사용된다.
일부 구현예에서, 하나 이상의 SSN 및 선택적으로 하나 이상의 상호작용 도메인은 시험관내 발현된, 번역된 또는 합성된 폴리펩타이드로서 제공된다. 일부 구현예에서, 하나 이상의 CRISPR 폴리펩타이드를 코딩하는 전달 벡터가 사용되며, 이 전달 벡터는 추가적으로 조절 서열 또는 위치화 신호를 포함할 수 있다. 돌연변이된 SSN 효소가 타겟 서열을 함유한 타겟 폴리뉴클레오티드의 한쪽 가닥 또는 양쪽 가닥을 절단하는 절단력을 상실하도록, 대응되는 야생형 효소와 비교해 돌연변이된 SSN 폴리펩타이드 역시 본 발명에 따른 다양한 구현예에 포함된다. 예를 들어, 대상 DNA 타겟 영역의 양쪽 가닥을 절단하는 엔도뉴클레아제를, 단일 가닥을 절단하는 닉카제로 Cas9을 변형시키는, S. pyogenes 유래 Cas9의 RuvC I 촉매 도메인에 아스파르테이트 -> 알라닌 치환 (D10A)이 적용될 수 있다. Cas9 폴리펩타이드를 닉카제로 만드는 돌연변이의 다른 예로는, 비-제한적으로, H840A, N854A 및 N863A 등이 있다. 또 다른 예로, Cas9의 2 이상의 촉매 도메인 (RuvC I, RuvC II, 및 RuvC III 또는 HNH 도메인)을 돌연변이시켜, 전체 DNA 절단 활성이 실질적으로 결핍된 돌연변이 Cas9를 제조할 수 있다. 일부 구현예에서, 전체 DNA 절단 활성이 실질적으로 결핍된 Cas9 효소를 제조하기 위해, D10A 돌연변이에 H840A, N854A 또는 N863A 돌연변이 중 하나 이상을 조합한다. 일부 구현예에서, SSN 효소는, 돌연변이된 효소의 DNA 절단 활성이 비-돌연변이 효소의 DNA 절단 활성의 약 25% 이하, 10% 이하, 5% 이하, 1% 이하, 0.1% 이하, 0.01% 이하일 경우, 전체 DNA 절단 활성이 실질적으로 결핍된 것으로 간주되며; 일 예는, 돌연변이된 형태의 DNA 절단 활성이 비-돌연변이된 야생형 형태와 비교해 없거나 (null) 또는 극히 낮은 경우일 수 있다. 효소가 S. pyogenes 유래 Cas9가 아닐 경우, 돌연변이는 SpCas9의 10, 762, 840, 854, 863 및/또는 986번 위치에 해당되는 임의 또는 전체 잔기에서 유발될 수 있다 (이는 예를 들어 표준 서열 비교 툴에 의해 확인할 수 있음). 특히, S. pyogenes 유래 Cas9에 대해 다음과 같은 돌연변이들 중 일부 또는 전체 돌연변이가 바람직하며: D10A, E762A, H840A, N854A, N863A 및/또는 D986A; 아울러, 임의의 치환 아미노산에 대한 보존적인 치환도 본원에 따라 고려된다. 특정 구현예에서, 다른 Cas9의 경우에도 대응되는 위치에서 상기한 동일한 돌연변이 또는 보존적인 치환, 특히 S. pyogenes 유래 Cas9의 D10 및 H840이 가능하다. 그러나, 다른 Cas9의 경우, S. pyogenes 유래 Cas9의 D10 및 H840에 대응되는 잔기들이 또한 가능하다. 소정의 CRISPR 단백질의 "오솔로그 (Ortholog)" 또는 "오솔로거스 (orthologous)" 역시 본 발명을 실시하는데 이용될 수 있다. 오솔로그는 종분화에 의해 공통 조상 유전자로부터 진화된 서로 다른 종의 유전자이다. 일반적으로, 오솔로그는 진화 과정 중에 동일한 기능을 유지한다. 가장 바람직하게는, Cas9 효소는 S. pyogenes Cas9, 또는 S. aureus Cas9이거나 또는 이로부터 유래되거나, 또는 S. thermophilus의 야생형 Cas9이며, 단백질 서열은 SwissProt database에 등재번호 G3ECR1으로 제공된다. 마찬가지로, S. pyogenes Cas9 또는 S. aureus Cas9은 SwissProt의 등재번호 Q99ZW2에 등록되어 있다.
일 구현예에서, 본 발명에 따른 RTDD 서열로서 가이드 RNA는, 선택된 SSN 효소 또는 특정 길이의 폴리펩타이드에 대한 최적의 활성, 즉, 인지 특성을 가지도록 설계될 수 있으며, 따라서, SSN 효소는 시험관내 또는 생체내에서 전사 또는 번역될 수 있는 SSN 효소를 코딩하는 핵산 분자의 길이를 줄이 (truncating)거나, 또는 합성된 SSN 폴리펩타이드를 제공함으로써, 대응되는 야생형 효소 보다 더 작게 만들어, 야생형 SSN의 촉매학적으로 활성인 단편으로 절단된 형태일 수 있다. 서로 다른 오솔로그들 간에 효소의 서로 다른 부위를 교체 또는 교환하여 맞춤 조절된 특이성을 가진 키메라 효소를 제조하는, 키메라 Cas9 효소를 제조하는 것도 가능하다.
본 발명에 따른 "변이체" 또는 "기능적 단편"은, 이에, 야생형 효소에 대해 소정의 서열 상동성 수준을 가지지만, 본원에 기술된 일부 방식으로 돌연변이된 (변형된), 야생형 SSN 및/또는 상호작용 도메인 및/또는 RTDD 단백질로부터 유래되는, 임의의 SSN 및/또는 상호작용 도메인 및/또는 RTDD 단백질 또는 이의 절단형 버전을 포함한다. 예를 들어, Cas9 유래 뉴클레아제에 의한 효소 활성은, 가이드 서열의 뉴클레오티드 20개와 혼성하고; 타겟 서열에서부터 뉴클레오티드 20개 뒤에 위치한 본원에 기술된 바와 같이 정해될 수 있는 NGG/NRG 또는 PAM 등의 프로토스페이서-인접 모티프 (PAM) 서열을 가진, 타겟 부위 서열에 이중 가닥 절단을 만든다. 이러한 효소 기능은 닉카제 활성을 가진 SSN 변이체 또는 뉴클레아제 데드 변이체 (nuclease dead variant)를 구축함으로써 변형시킬 수 있다. 또한, 본 발명에 따른 SSN 및/또는 상호작용 도메인 및/또는 RTDD 폴리펩타이드 변이체는 타겟 세포, 바람직하게는 진핵생물 세포, 바람직하게는 동물 또는 식물 세포의 코돈 용법에 맞게 SSN 및/또는 상호작용 도메인 및/또는 RTDD 폴리펩타이드를 코돈-최적화할 수 있다.
본 발명에 따른 바람직한 구현예에서, 인공 분자 복합체의 구성성분들, 특히 SSN 또는 IA 구성성분들, 또는 여전히 야생형 폴리펩타이드의 촉매 기능을 발휘하는 이의 촉매학적으로 활성인 단편, 및/또는 추가적인 구성성분들은 코돈 최적화될 수 있거나, 및/또는 SSN 폴리펩타이드 및/또는 상호작용 도메인 및/또는 RTDD 및/또는 RT는 타겟 서열 및/또는 인공 분자 복합체의 위치를 동정하기 위해 태그 서열과 연결될 수 있다. 태그는, 폴리히스티딘(His)-태그, 글루타티온-S-트랜스퍼라제 (GST)-태그, 티오레독신-태그, FLAG-태그, 형광 특성을 가진 태그, 예를 들어, (E)GFP ((보강된) 그린 형광 단백질) 태그, DsRed-태그, mCherry-태그, (t)dtomato-태그, mNeonGreen-태그 등 또는 스트렙타비딘 또는 strep-태그, 말토스-결합 단백질 (MBP) 태그, 미토콘드리아 또는 핵 등의 세포내 구획으로 타겟팅할 수 있는 트랜지트 (transit) 펩타이드, snap-태그 및/또는 부착된 아미노산 서열을 분비시킬 수 있는 분비 태그, 자연에서 정상적으로 생기지 않는 비-천연 아미노산, 또는 전술한 태그들의 조합으로 이루어진 군으로부터 선택될 수 있다. 인공 분자 복합체의 단백질 구성성분, 예를 들어 SSN 및/또는 상호작용 도메인은 임의의 부가적인 단백질 서열을 포함할 수 있으며, 선택적으로 임의의 2개의 도메인 사이에 링커 서열을 포함할 수 있다. 하나 이상의 인공 분자 복합체의 임의 구성성분에 융합될 수 있는 단백질 도메인의 예로는, 비-제한적으로, 에피토프 태그, 리포터 유전자 서열 및 다음과 같은 활성들 중 하나 이상의 활성을 가진 단백질 서열 등이 있다: 메틸라제 활성, 데메틸라제 활성, 전사 활성화 활성, 전사 억제 활성, 전사 방출 인자 활성 (transcription release factor activity), 히스톤 변형 활성, RNA 절단 활성 및 핵산 결합 활성. 에피토프 태그에 대한 비-제한적인 예로는 히스티딘 (His) 태그, V5 태그, FLAG 태그, 인플루엔자 헴어글루티닌 (HA) 태그, Myc 태그, VSV-G 태그 및 티오레독신 (Trx) 태그 등이 있다. 리포터 유전자의 예로는, 비-제한적으로, 글루타티온-S-트랜스퍼라제 (GST), 호스래디시 퍼옥시다제 (HRP), 클로람페니콜 아세틸트랜스퍼라제 (CAT) beta-갈락토시다제, beta-글루쿠로니다제, 루시퍼라제, 그린 형광 단백질 (GFP), HcRed, DsRed, 시안 형광 단백질 (CFP), 옐로우 형광 단백질 (YFP) 및 자가형광 단백질, 예를 들어 블루 형광 단백질 (BFP) 등이 있다. CRISPR 효소는, DNA 분자에 결합하거나 또는 다른 세포 분자에 결합하는 단백질 또는 단백질의 단편을 코딩하는 서열과 융합될 수 있으며, 그에 대한 예로는 비-제한적으로 말토스 결합 단백질 (MBP), S-태그, Lex A DNA 결합 도메인 (DBD) 융합체, GAL4 DNA 결합 도메인 융합체 및 헤르페스 심플렉스 바이러스 (HSV) BP16 단백질 융합체 등이 있다.
일 구현예에서, 인공 분자 복합체의 하나 이상의 구성성분은 변형되어 DNA 닉카제로서 기능할 수 있거나, 및/또는 SSN 폴리펩타이드, 또는 이의 촉매적으로 활성인 단편은 다른 기능성 모이어티, 바람직하게는 효소 기능을 가진 기능성 폴리펩타이드 모이어티, 바람직하게는 염색질 모델링 기능, 및/또는 상동성 재조합 자극, 및/또는 전사 변형 기능을 가진 기능성 모이어티와의 융합 분자의 형태로 존재할 수 있다. 다세포 유기체의 조직에서 하나 이상의 변형된 세포를 분석할 경우, 상기한 태그 및 마커 단백질, 특히 복합 조직의 심부 층에서도 측정할 수 있도록 밝은 형광을 가진 형광 단백질 태그가 바람직하다. 적합한 형광 단백질들은 상업적으로 입수가능하며, 당업자에 의해 구체적인 목적에 따라 쉽게 선택될 수 있다.
본 발명의 다양한 구현예들에서, SSN 및/또는 상호작용 도메인 및/또는 RTDD 폴리펩타이드(들) 및/또는 RTDD 및/또는 RT(들)은, 변형할 대상 게놈 DNA 서열을 포함하는 세포 구획으로 SSN 폴리펩타이드를 효율적으로 타겟팅하기 위해, 하나 이상의 핵 위치화 서열, 및/또는 색소체 위치화 서열, 예를 들어, 미토콘드리아 위치화 서열 또는 엽록체 위치화 서열을 포함할 수 있다. 이러한 위치화 서열에 대한 서열 조건들은 분자 생물학 분야의 당업자들에게 공지되어 있다. SSN 폴리펩타이드 또는 RT 뉴클레오티드 서열의 기능을 방해하지 않도록, 위치화 서열이 융합되며, 즉, N-말단 또는 C-말단 파트에, 또는 그에 따라 해당 분자의 5' 또는 3' 말단에 공유적으로 연결된다.
일 구현예에서, 하나 이상의 SSN 폴리펩타이드 및 선택적으로 하나 이상의 상호작용 도메인은, 폴리펩타이드 서열로 제공된다면, 재조합 단백질 제조 기법을 이용하거나 또는 해당 아미노산 서열의 합성을 통해 생체외에서 제조된 폴리펩타이드 서열로서 제공될 수 있다. 다른 구현예에서, SSN 폴리펩타이드 및 선택적으로 하나 이상의 상호작용 도메인은 RNA 서열로서 제공되며, 이는 대상 타겟 세포로의 도입시 해당 아미노산 서열로 번역될 수 있다. 또 다른 구현예에서, SSN 폴리펩타이드 및 선택적으로 하나 이상의 상호작용 도메인 폴리펩타이드는 대상 세포에서 안정적으로 발현 또는 일시적으로 발현되도록, DNA 구조체로서 삽입될 수 있으며, 이후 SSN 폴리펩타이드 및 선택적으로 하나 이상의 상호작용 도메인 폴리펩타이드는 대상 타겟 세포에서 구성적인 방식 또는 유도성 방식으로 전사 및 번역된다. 본 발명에 따른 하나 이상의 SSN 폴리펩타이드 및 선택적으로 하나 이상의 상호작용 도메인 폴리펩타이드를 타겟 세포에 도입하기 위한 적합한 DNA 구조체 및 관련 방법들은 당해 기술 분야에 공지되어 있지만, 식물 세포에서 이러한 용도로 특수 개조된 본 발명의 특정 구현예에 따른 하나 이상의 SSN 폴리펩타이드 및 선택적으로 하나 이상의 상호작용 도메인 폴리펩타이드를 도입하기 위한 구체적인 방법은 아래에서 더욱 상세히 설명된다.
인공 분자 복합체, 또는 이의 일부, 즉 하나 이상의 SSN 폴리펩타이드, 하나 이상의 RTDD 및 하나 이상의 RT 및 선택적으로 하나 이상의 상호작용 도메인은, 적절한 전달 구조체를 이용해 대상 타겟 세포에 도입되어야 한다. 통상적으로, 전달 구조체의 타입은, 분자 복합체가 시험관내에서 완전히 조립된 다음 타겟 세포에 도입되는지, 또는 분자 복합체의 여러 구성성분들이 세포에 각각 도입된 후 대상 타겟 세포 안에서 비-공유적인 상호작용에 의해 복합체가 조립되는지에 따라, 달라질 수 있다. 도입은 일반적으로 적절한 전달 구조체를 이용해 이루어진다.
본원에서, 본 발명의 여러가지 측면들에 대한 다양한 구현예들에서, 용어 "전달 구조체" 또는 "(전달) 벡터"는 대상 뉴클레오티드 및/또는 아미노산 서열을 타겟 진핵생물 세포로 수송하기 위한 카고로서 사용되는, 임의의 생물학적 또는 화학적, 또는 비-화학적 또는 입자를 이용한 수단 및/또는 방법을 지칭한다. 적합한 전달 구조체는, 타겟 세포에 뉴클레오티드 서열을 전달하기 위한 생물학적 수단, 예를 들어, 바이러스 벡터, 아그로박테리움 (Agrobacterium spp.), 세포-침투성 펩타이드 (CPP) 또는 화학적 전달 구조체, 예를 들어 나노입자, 지질 또는 폴리머성 소낭, 칼슘 포스페이트, 또는 이들의 조합물 등을 포함한다. 지질 또는 폴리머성 소낭은, 예를 들어, 지질, 리포좀, 지질 캡슐화 시스템, 나노입자, 예를 들어 메조포러스 실리카 나노입자, 소형 핵산-지질 입자 포뮬레이션, 폴리머, 예를 들어, 양이온성 폴리머, 예로, DEAE-덱스트란 또는 폴리에틸렌이민 및 폴리머좀 (polymersomes)으로부터 선택될 수 있다. 일 구현예에서, 폴리머는 선형 폴리머, 분지형 폴리머, 덴드리머 (다 분지형 유기 화합물 (highly branched organic compound)) 및 다당류로 이루어진 군으로부터 선택된다. 다른 구현예에서, 지질 캡슐화 시스템으로는 타겟 조직에 입자를 전달하는 친지성 화합물, 인지질, 콜레스테롤 및 폴리에틸렌 글리콜 (PEG)-지질 중 하나 이상을 포함한다. 다른 구현예에서, 전달 구조체는 메조포러스 실리카 나노입자일 수 있다.
본원에서, 그리고 본 발명에 따른 하나 이상의 분자 복합체 또는 하나 이상의 하이브리드 RNA/DNA 핵산 서열을 제공하는데 적합한, 물리적 도입 방법은, 전기천공, 미세주입법, 입자 총격, 초음파천공 (sonoporation), 자기주입법 (magnetofection) 또는 플라스미드 DNA로 관능화된 탄소 나노섬유 또는 실리콘 나노와이어 등의 연장된 나노구조 또는 나노구조 어레이를 이용한 임페일펙션 (impalefection)을 의미하며, 화학적 방법은 폴리에틸렌글리콜 (PEG) 등의 화학제 또는 미세입자 또는 나노입자의 사용에 의존할 수 있다.
예를 들어, 인공 분자 복합체의 구성성분들을 생체외에서 조합하는 구현예에서, 전달 벡터는 지질-기반의 또는 폴리머성 벡터일 수 있다. 지질-기반의 또는 폴리머성 벡터는, 예를 들어, 지질, 리포좀, 지질 캡슐화 시스템, 미세입자, 위스커 (whisker), 나노입자, 소형 핵산-지질 입자, 폴리머 및 폴리머좀으로부터 선택될 수 있다. 일부 구현예에서, 폴리머는 선형 폴리머, 분지형 폴리머, 덴드리머 및 다당류로 이루어진 군으로부터 선택될 수 있다. 다른 구현예에서, 지질 캡슐화 시스템은 인지질, 콜레스테롤, 폴리에틸렌 글리콜 (PEG)-지질 및 타겟 세포에 입자를 전달하는 친지성 화합물 중 하나 이상을 포함한다.
포유류 세포의 경우, 다양한 치료학적 목적에 따른 면역 세포의 생체외 변형은, 특수 변형된 림프구, 바람직하게는 T 세포를 입양 전달함으로써 수종의 종양 질환을 퇴치하기 위해, 과거 수십년간 상당한 관심을 받아왔다. 특히, CD8+ T 세포 림프구가 이와 관련해 흥미로운 타겟이다. 하나의 나이브 T 세포, 싱글 일차, 및 비슷한 크기와 표현형 다양성을 획득한 싱글 이차 중심 기억 T 세포로부터 유래된 면역 반응은 비슷한 확률 변이 (comparable stochastic variation)를 겪게 되며, 궁극적으로, 3 세대에 걸친 연속적인 싱글-세포 입양 전달 및 감염-유도성 재-증식을 통해, CD8+ T 세포와 그 후대의 생체내 운명 맵핑에 의해 측정된 바와 같이, 박테리아 병원체의 치사 감염에 대한 면역성 (immunocompetence)을 재-구축할 수 있는 것으로, 공지된 바 있다 (Graef et al., Immunity, 41, 116-126, 2014). 조혈 세포로부터 신규 (de nova) 흉선 T 세포 발생 후, 완전히 성숙한 항원-특이적인 T 세포를 개체에서 장기간 동안 유지시킬 수 있으며, 이때 항원은 외부 항원, 예를 들어 바이러스 또는 암 세포 상에 발현된 항원일 수 있다. 이러한 작동자 T 세포 또는 이의 전구체의 타겟화된 변형이, 즉, 면역요법에 적합한 T 세포를 제공하기 위한 중요한 전략이 된다. 나이브 T 세포는 줄기 세포 기억 T 세포로 지칭되는 단계를 통해 분화되어, 중심 기억 T 세포 및 작동자 기억 T 세포, 그리고 최종적으로 작동자 T 세포로 만들어지는데, 작동자 T 세포가 궁극적으로 타겟 세포를 인지하여 파괴할 수 있는 최종 분화된 세포이다. 작동자 기억 및 작동자 T 세포는 말초 조직으로 이동할 수 있는 능력을 가진 T 세포의 아종이다. 또 다른 아종인 조직-체류성 기억 T 세포는, 더 이상 순환하지 않는 것으로, 현재 알려져 있다 (예, Farber et al., Nature Reviews Immunology, 14, 24-35, 2014).
또한, 암 면역요법은, 재조합 종양-반응성 수용체를 발현하는 T 세포의 입양 전달이 치료-내성 악성을 치유할 수 있는 것으로 나타난, 최초의 극적인 몇몇 임상 사례들을 제시한 바 있으며 (Brentjens et al., 2013; Grupp et al., 2013; Porter et al., 2011), 입양 전달 요법에 조작된 T 세포의 사용이 암, 특히 조혈 암에서 매우 유망한 것으로 입증되었다. 암 면역요법의 성공율을 높이기 위해, 점점 더 많은, 지정된 아종 및 표현형 구성을 가진 유전자 변형된 T 세포들이 사용되고 있다 (Riddell et al., Cancer J., 20(2), 141-144, 2014). 암 면역요법의 성공율을 높이기 위해, 점점 더, 정의된 서브세트 및 표현형 구성을 가진 유전자 변형된 T 세포가 사용되고 있다 (Riddell et al., Cancer J., 20(2), 141-144, 2014). 혈액 악성의 치료제로서, 그리고 고형 종양의 치료제로서, 키메라 항원 수용체-변형된 T 세포의 사용이 점점 더 확대되고 있다. 이를 위해, T 세포는 종양-특이적인 키메라 항원 수용체 (CAR)를 발현하도록 변형된다 (예, Anurathapan et al., Molecular Therapy, 22, 623-633, 2014). 또한, 소위 2세대 CAR, 예를 들어, 항-종양 효과를 높이기 위해, T 세포의 재-타겟팅 및 리프로그래밍을 위한, CD28 또는 4-1BB 신호전달 도메인이 통합된, CD19-타겟팅 CAR이, 점점 더 중요해지고 있다 (예, Sjoukje et al., Nature Reviews Drug Discovery, 14, 499-509, 2015).
따라서, 본 발명에 따른 하이브리드 RNA/DNA 핵산 서열은, 바람직하게는, 질환을 치료하기 위해, 하나 이상의 포유류 세포를 생체내 또는 생체외에서 변형하기 위한 중요한 툴이 된다. 예를 들어, 림프구 세포, 더 바람직하게는, 임의 발생 단계의 T 세포 또는 자연 살상 (NK) 세포에서, 변형된 세포 또는 세포 집단을 치료학적인 용도로 사용하기에 유해할 수 있는 오프-타겟 효과를 방지하기 위해 높은 정확도로, T 세포 또는 NK 세포 증식, 생존 및 또는 기능에 영향을 미칠 수 있도록 T 세포 또는 NK 세포 발현성 유전자를 변형시킨다.
특정 구현예에서, 본 발명에 따른 인공 분자 복합체는, 따라서, 하나 이상의 게놈 돌연변이를 특징으로 하는 질환의 치료 방법에 사용하기에 적합하며, 인공 분자 복합체는 하나 이상의 게놈 돌연변이를 타겟팅하고 복구하도록 구성된다. 이에, 임의 청구항에 따른, 하나 이상의 게놈 돌연변이를 타겟팅 및 복구하도록 구성된 인공 분자 복합체를 이용하여 하나 이상의 게놈 돌연변이를 특징으로 하는 질환의 치료 방법을 제공한다. 치료학적 치료 방법은 유전자 또는 게놈 편집 또는 유전자 테라피를 포함할 수 있다.
특히 치료학적 접근 또는 바이러스 게놈을 변형시키는데 적합한 세포로는, 진핵생물 (예, 동물) 및 원핵생물 세포 및/또는 세포주 등이 있다. 이러한 세포로부터 구축되는 세포 또는 세포주에 대한 비-제한적인 예로는 COS, CHO (예, CHO-S, CHO-K1, CHO-DG44, CHO-DUXB11, CHO-DUKX, CHOK1SV), VERO, MDCK, WI38, V79, B14AF28-G3, BHK, HaK, NS0, SP2/0-Ag14, HeLa, HEK293 (예, HEK293-F, HEK293-H, HEK293-T) 및 perC6 세포뿐 아니라 곤충 세포, 예를 들어, 스포도프테라푸지페르다 (Spodopterafugiperda) (Sf), 또는 진균 세포, 예를 들어, 사카로마이세스 (Saccharomyces), 피키아 (Pichia) 및 시조사카로마이세스 (Schizosaccharomyces) 등이 있다. 특정 구현예에서, 세포주는 CHO, MDCK 또는 HEK293 세포주이다. 또한, 적합한 세포로는 줄기 세포, 예를 들어, 비-인간 배아 줄기 세포, 유도된 만능성 줄기 세포, 조혈 줄기 세포, 뉴론 줄기 세포 및 간엽 줄기 세포 등이 있다.
일 측면에서, 본 발명은, 본원에 기술된 인공 분자 복합체의 구성성분 또는 본원에 기술된 임의의 백터로 개체를 형질전환/형질감염시키고, 개체에 유도물질 에너지 소스 (inducer energy source)를 투여함으로써, 유전자 편집을 유도하는 것을 포함하는, 필요로 하는 개체를 치료하는 방법을 제공한다. 본 발명은 약제의 제조, 예를 들어, 개체 치료용 약제 또는 개체 치료 방법에 있어 상기한 폴리뉴클레오티드 또는 벡터의 용도를 포함한다. 본 발명은 유전자 편집을 유도하는 것을 포함하는 필요한 개체에 대한 치료 방법에 사용하기 위한 본원에 기술된 임의 벡터 또는 본원에 기술된 폴리뉴클레오티드를 포함하며, 상기한 방법은 개체에 유도물질 에너지 소스를 투여하는 것을 더 포함한다. 일 측면에서, 상기한 방법에서 복구 주형이 또한 제공되며, 예를 들어 복구 주형을 포함하는 벡터에 의해 전달된다.
일 구현예에서, 말 감염성 빈혈 바이러스 (equine infectious anemia virus, EIAV)에 기반한 최소한의 비-영장류 렌티바이러스 벡터도, 특히 본 발명의 인공 분자 복합체를 이용하는 유전자 테라피에서 고려된다 (예, Balagaan, J Gene Med 2006; 8: 275-285). 다른 구현예에서, 노화-관련 황반 변성의 웹 형태 (web form)를 치료하기 위한 망막하 주사를 통해 전달되는 혈관신생 억제성 단백질 엔도스타틴 (endostatin) 및 안지오스타틴 (angiostatin)을 발현하는 말 감염성 빈혈 바이러스-기반의 렌티바이러스 유전자 테라피 벡터인 RetinoStat®도 고려되며 (예, Binley et al., HUMAN GENE THERAPY 23:980-991 (September 2012)), 이 벡터는 본 발명의 SSN-RTDD-RT 시스템에서 변형될 수 있다. 현재, 렌티바이러스 벡터는 파킨슨병의 치료제로서 개시되어 있으며, 예를 들어 미국 특허 출원 번호 2012/0295960 A1 및 미국 특허 7,303,910 B2를 참조한다. 렌티바이러스 벡터는 또한 안과 질환의 치료제로서 개시되어 있으며, 예를 들어, 미국 특허 출원 번호 2006/0281180, 2009/0007284, 2011/0117189, 2009/0017543, 2007/0054961 및 2010/0317109를 참조한다. 렌티바이러스 벡터는 또한 뇌 전달용으로도 개시되어 있으며, 예를 들어 미국 특허 출원 번호 2011/0293571, 2011/0293571, 2004/0013648, 2007/0025970, 2009/0111106 및 미국 특허 7,259,015를 참조한다.
다른 구현예에서, 인공 분자 복합체 또는 이의 구성성분은 안정적인 핵산-지질 입자 (SNALP)와 같이 리포좀의 형태로 투여될 수 있다 (예, Morrissey et al., Nature Biotechnology, Vol. 23, No. 8, August 2005). SNALP에서 타겟화되는 특정 CRISPR Cas를 약 1, 3 또는 5 mg/kg/day로 매일 정맥내 주사하는 것도 고려된다. 매일 치료는 약 3일 동안 수행하고, 이후 약 5주간 매주 수행될 수 있다. 다른 구현예에서, 특수 캡슐화된 SNALP를 정맥내 주사에 의해 약 1 또는 2.5 mg/kg의 투여량으로 투여할 수 있으며, 이 또한 고려된다 (예, Zimmermann et al., Nature Letters, Vol. 441, 4 May 2006). SNALP 제형은 지질 3-N-[(w-메톡시폴리(에틸렌 글리콜) 2000) 카바모일]-1,2-다이미리스틸옥시-프로필아민 (PEG-C-DMA), 1,2-다이리놀레일옥시-N,N-다이메틸-3-아미노프로판 (DLinDMA), 1,2-다이스테아로일-sn-글리세로-3-포스포콜린 (DSPC) 및 콜레스테롤을 센트 (cent) 당 2:40:10:48 몰 비율로 포함할 수 있다 (예, Zimmermann et al., Nature Letters, Vol. 441, 2006). 다른 구현예에서, 안정적인 핵산-지질 입자 (SNALP)는 고도로 가시화된 HepG2-유래 간 종양에 대해 효과적인 전달 분자인 것으로 입증되었지만, 거의 가시화되지 않은 HCT-116 유래 간 종양에서는 그렇지 않았다 (예, Li, Gene Therapy (2012) 19, 775-780). SNALP 리포좀은, D-Lin-DMA 및 PEG-C-DMA를 다이스테아로일 포스파티딜콜린 (DSPC), 콜레스테롤 및 siRNA와 함께 25:1 지질/siRNA 비율로, 그리고 콜레스테롤/D-Lin-DMA/DSPC/PEG-C-DMA 48/40/10/2 몰 비율로 사용해 제형화함으로써, 제조할 수 있다. 제조되는 SNALP 리포좀은 약 80-100 nm 크기이다.
또 다른 구현예에서, SNALP는 합성 콜레스테롤 (Sigma-Aldrich, St Louis, MO, USA), 다이팔미토일포스파티딜콜린 (Avanti Polar Lipids, Alabaster, AL, USA), 3-N-[(w-메톡시 폴리(에틸렌 글리콜)2000)카바모일]-1,2-다이미리스틸옥시프로필아민 및 양이온성 1,2-다이리놀레일옥시-3-N,N-다이메틸아미노프로판을 포함할 수 있다 (예, Geisbert et al., Lancet 2010; 375: 1896-905). 예를 들어, 볼루스 정맥내 주입으로서 투여되는 투여 당 SSN/RTDD/RT 총 투여량 약 2 mg/kg이 고려될 수 있다.
마찬가지로, 본 발명에 따른 인공 분자 복합체는 가축 또는 그외 동물 세포에서 유전 물질을 변형하기 위한 유용한 툴일 수 있다. 예를 들어, 유전자 질환의 교정 또는 육류, 우유, 예를 들어, 락토스 함량이 저감된 우유, 또는 가축 또는 가금류에서의 난 생산 등의 유익한 특징들에 대한 편집 용도로 사용할 수 있다.
이에, 일 구현예에서, 본 발명에 따른 구조체를 하나 이상의 대상 면역 세포에 생체내 또는 생체외로 도입하여, 질환, 바람직하게는 자가면역 질환, 예를 들어, I형 당뇨병 또는 류마티스 관절염, 또는 암과 같은 증식성 질환, 예를 들어, 예를 들어 신경교종, 흑색종, 신경모세포종, 대장암, 폐암, 유방암 및 전립선 암, 다약제 내성 암뿐만 아니라 p53 유전자 돌연변이와 관련된 암을 치료하는 단계를 포함하는, 동물의 면역 세포 집단을 구축하는 방법을 제공한다.
게놈 편집의 타겟을 형성하는 대부분의 식물 종들의 바람직한 조직은 미성숙 배, 배발생 캘러스 (embryogenic callus), 온전한 식물 (intact plant)의 분열조직, 화분, 화분관 또는 난세포, 현탁 세포 (suspension cell) 또는 그외 재생력을 가진 세포 타입이다. 일부 식물의 경우, 바람직한 조직은 원형질체 또는 잎일 수 있다. 처리 후 완전한 식물로 재생될 수 있는 모든 세포가 바람직한 조직 또는 세포로 간주될 수 있다. 조직 준비, 재생 및 DNA 전달 프로토콜은 종, 조직 타입, 전달 방법 및 기타 인자들에 따라 달라진다. 공통적인 전달 방법은 DNA- 또는 단백질-코팅된 금 또는 텅스텐 입자를 세포에 발사하는 방법이다. 또 다른 전달 방법은 폴리에틸렌 글리콜 (PEG)-매개 형질전환, 전기천공, 바이러스 감염, 세포로의 직접 주입 및 아그로박테리움-매개 형질전환이다. 일부 식물의 경우, 전달은, 수정 후 즉시 암술대를 자르고, 절단된 화분관을 통해 편집 물질이 함유된 액체를 적용함으로써, 수정된 난세포에서 수행될 수 있다. 동물 세포, 바람직하게는 포유류 세포의 경우, 전기천공, 즉, 전기 펄스를 적용함으로써 세포 막에 일시적으로 작은 구멍을 만드는 방법에 기반한 형질감염 기법이, 본 발명에 따른 하나 이상의 분자 복합체를 도입하기 위한 적합한 방법이 될 수 있다. 당해 기술 분야의 당업자라면, 본 발명에 따른 하나 이상의 분자 복합체의 전달 툴로서 적합한, 포유류 일차 세포, 줄기 세포 및 형질감염이 어려운 세포주 등의 다수의 다양한 세포 타입들을 직접 형질감염 성공하기 위한 수종의 세포 타입 특이적인 프로토콜들을 입수할 수 있다. 전달에 적합한 2가지 이상의 방법 또는 물질의 조합이 편집할 게놈의 세포 타입에 따라 우수한 결과를 제공할 수 있다는 것에 유념하는 것이 중요하며, 따라서 이는 본 발명의 범위에 포함된다.
일 구현예에서, 본 발명에 따른 인공 분자 복합체 또는 이의 구성성분을 전달하기 위해 과하전된 (supercharged) 단백질을 사용할 수 있다. 과하전된 단백질은 드물게 과도한 양 또는 음의 이론적인 순 전하를 가진 조작된 또는 천연 단백질들로 된 한 부류이며, 인공 분자 복합체(들) 또는 이의 구성성분(들) 또는 이를 코딩하는 핵산 분자를 전달하는데 이용될 수 있다. 슈퍼음전하 및 슈퍼양전하를 띠는 단백질이 열 또는 화학적으로 유도된 응집을 견디는 상당한 능력을 나타낸다. 슈퍼양전하를 띠는 단백질은 또한 포유류 세포에 침투할 수 있다. 카고를 이들 단백질, 예를 들어, 플라스미드 DNA, RNA 또는 기타 단백질과 조합하여, 이들 거대 분자를 포유류 세포에 시험관내 및 생체내에서 기능적으로 전달할 수 있다. David Liu의 실험실에서는 2007년에 과하전된 단백질의 구축 및 특징을 보고한 바 있다 (Lawrence et al., 2007, Journal of the American Chemical Society 129, 10110-10112).
인공 분자 복합체를 포유류 세포에 형질전이할 경우 RNA 및 플라스미드 DNA의 비-바이러스성 전달이 특히 흥미로우며, 연구 용도 및 치료 용도 둘다로 유용하다 (Akinc et al., 2010, Nat. Biotech. 26, 561-569). 정제된 +36 GFP 단백질 (또는 그외 슈퍼양전하를 띠는 단백질, 예컨대, +48 GFP)을 적절한 무혈청성 배지 중에서 RNA와 혼합하여, 복합체를 형성시킨 후 세포에 부가한다. 이 단계에서, 혈청 함유는 과하전된 단백질-RNA 복합체의 형성을 저해하여, 치료 효과를 떨어뜨린다. 다음과 같은 프로토콜이 다양한 세포주에서 효과적인 것으로 확인되었다 (McNaughton et al., 2009, Proc. Natl. Acad. Sci. USA 106, 6111-6116) (그러나, 특정 세포주에 대한 공정을 최적화하기 위해 단백질 및 RNA의 함량을 다양하게 사용한 사전 실험들이 수행되어야 함): (1) 처리 하루 전, 48웰 플레이트에 세포를 웰 당 1 x 105개 (예, HEK293, 세포 타입에 따른 수) 접종한다. (2) 처리 당일, 무혈청성 배지에 정제된 +36 GFP 단백질을 최종 농도 200 nM로 희석한다. RNA를 최종 농도 50 nM로 첨가한다. 이를 볼텍싱 혼합하고, 실온에서 10분간 인큐베이션한다. (3) 인큐베이션하는 동안, 세포에서 배지를 흡입 제거하고, PBS로 1번 헹군다. (4) +36 GFP 및 RNA를 인큐베이션한 후, 단백질-RNA 복합체를 세포에 투입한다. (5) 세포를 복합체와 37℃에서 4시간 동안 인큐베이션한다. (6) 인큐베이션한 후, 배지를 흡입하고, 20 U/mL 헤파린 PBS로 3번 헹군다. 세포를 혈청-함유 배지에서 추가적으로 48시간 또는 활성 분석에 따라서는 더 오래 인큐베이션한다. (7) 세포를 면역블롯, qPCR, 표현형 분석 또는 그외 적절한 방법으로 분석한다.
또 다른 바람직한 인공 분자 복합체의 전달 방법은 RTDD-RT 하이브리드 핵산을 시험관내에서 조립한 다음 이를 시험관내에서 제조되고 선택적으로 정제된 SSN 폴리펩타이드에 로딩하여, 이를 대상 타겟 세포에 적용하는 방법이다. 또 다른 사용가능한 전달 방법은, 선택적으로 조절 인자를 추가로 포함하는, SSN 폴리펩타이드, 및 선택적으로 상호작용 도메인, 예를 들어 모노머성 스트렙타비딘, 소정의 특이성을 가진 scFv 또는 DNA 결합 도메인 또는 mRNA로서 또는 유전자 DNA 구조체로서 부가적인 뉴클레아제 도메인을, 생체내 전사 및/또는 발현시키기 위한 하나 이상의 타겟 세포에, SSN 폴리펩타이드 전달과 동시에, 그 전에 또는 특히 그 이후에 하이브리드 핵산의 적용과 함께, 전달하는 것일 수 있다. RTDD와 RT 구성성분이 비-공유적으로 결합하는 경우, 이들 분자는 또한 개별적으로 전달될 수 있으며; RTDD가 gRNA인 경우, gRNA는 생체내에서 전사될 수 있는 RNA 또는 DNA 발현 카세트로서 전달될 수 있다. 하나 이상의 SSN 폴리펩타이드 또는 하나 이상의 gRNA가 발현 카세트로서 전달되는 경우, 특히 타겟 세포가 식물 세포일 경우, RNA 또는 DNA 바이러스 레플리콘 (viral replicon) 또는 바이러스 벡터로부터 이를 발현시키는 것이 바람직할 수 있다.
바람직한 구현예에서, 하나 이상의 인공 분자 복합체는 생체외에서 조합되며, 복합체의 서로 다른 구성성분들, 즉, 선택적으로 하나 이상의 상호작용 도메인을 포함하는 적어도 SSN, 하나 이상의 RTDD 및 하나 이상의 RT 복구 주형 핵산을 화학적으로 또는 재조합 방식으로 생체외/시험관내에서 합성한 다음, 구성성분을 바람직하게는 조립하기 전에 정제한다. 본 발명에 따른 하나 이상의 인공 분자 복합체를 조립한 후, 추가적인 정제 단계를 수행할 수 있다. DNA 및 RNA 등의 핵산 또는 폴리펩타이드 또는 리보뉴클레오- 및 리보뉴클레오단백질-복합체를 정제하는 방법들은 당업자라면 쉽게 입수가능하다. 시험관내에서 선택적으로 분석할 수 있는, 고 순도의 화학량론적 분자 복합체를 제공함으로써, 효율이 높은 정확한 게놈 편집 툴을 제공할 수 있다.
RTDD로서 비-핵산 또는 비-아미노산계 분자 또는 상호작용 도메인, 예를 들어 바이오틴 (비타민 H) 또는 이의 유도체, 플루오레세인 또는 디곡시게닌 또는 SSN-RTDD, 또는 RTDD-상호작용 도메인 상호작용, 또는 SSN-상호작용 도메인 상호작용에 대한 임의의 기타 동족 결합 파트너에 의존하는 구현예들에서, 바람직하게는, RT를 생체외에서 합성한 다음 해당 분자와 화학적으로 연결한다.
본 발명의 다양한 측면들에 대한 추가적인 구현예에서, 타겟화된 게놈 편집 이벤트의 효율을 추가적으로 높이기 위해, RTDD/RT와 더불어, 플라스미드 또는 핵산 올리고뉴클레오티드 형태의 통상적인 복구 주형 핵산 서열을 사용할 수 있다. 통상적으로, 플라스미드 또는 다른 이중 가닥 DNA 복구 주형의 적용 여부, 또는 단일 가닥 올리고뉴클레오티드의 복구 주형으로서의 사용 여부를 결정하는 요소는, 도입하고자 의도한 변형의 크기에 의해 결정된다. 당업자라면, 본 발명에 따른 하이브리드 핵산 구조체와 함께 사용될 수 있는 추가적인 통상적인 복구 주형을 쉽게 규정할 수 있다. 이러한 통상적인 복구 주형은, 타겟 세포가 식물 세포일 경우, 전달 벡터, 예를 들어, 게미니바이러스 벡터에 의해, 또는 직접 형질감염 또는 도입에 의해, 본 발명에 따른 RTDD/RT 서열의 도입에 대해 본원에 상세히 기술된 바와 같이, 하나 이상의 대상 타겟 세포에 도입될 수 있다.
일 측면에서, 본 발명은 본원에 기술된 하나 이상의 임의 요소를 포함하는 키트를 제공한다. 일부 구현예에서, 이 키트는 본원에 교시된 벡터 시스템과 키트 사용 설명서를 포함한다. 요소들은 개별적으로 또는 조합하여 제공될 수 있으며, 바이얼, 바틀 또는 관과 같은 임의의 적절한 용기 내에 제공될 수 있다. 키트는 gRNA와 gRNA를 안정시키기 위한 비-결합형 보호제 (protector) 가닥을 포함할 수 있다. 키트는 대상 RT와 직접 상호작용하고 선택적으로 가이드 서열에 적어도 부분적으로 결합하는 추가의 보호제 가닥과 상호작용하는 RTDD로서 gRNA를 포함할 수 있다. 즉, 키트는 부분적인 이중 가닥의 뉴클레오티드 서열 형태로 gRNA를 포함할 수 있다. 일부 구현예에서, 키트는 한가지 이상의 언어, 예를 들어 2가지 이상의 언어로 작성된 설명서를 포함한다. 설명서는 본원에 언급된 용도 및 방법에 따라 특이적으로 작성될 수 있다.
본 발명에 따른 다른 측면에서, 본 발명에 따른 하나 이상의 인공 분자 복합체의 하나 이상의 구성성분과 바람직하게는 모든 구성성분들을 포함하며, 하나 이상의 분자 복합체가 사전-조립된 복합체로서 제공될 수 있거나, 또는 바람직하게는 하나 이상의 분자 복합체가 하나 이상의 SSN 폴리펩타이드, 또는 이를 코딩하는 발현가능한 서열, 하나 이상의 RTDD 서열 및 하나 이상의 복구 주형 핵산 서열을 포함하는 개별 구성 요소의 형태로 제공될 수 있는, 키트를 제공한다. 분자 복합체의 여러가지 구성 요소들을, 바람직하게는 핵산 서열의 경우 건조된 또는 동결건조된 분말 형태로서, 개별 제공함으로써, 특히 폴리펩타이드 보다 안정성이 훨씬 낮은 RNA 서열이 키트에 함께 제공된다면, RTDD/RT 구조체의 핵산 서열의 더 높은 안정성을 보장할 수 있다. 하나 이상의 SSN 단백질 및 선택적으로 이와 상호작용하거나 또는 연결된 하나 이상의 상호작용 도메인은, Cas9 폴리펩타이드의 경우, 예를 들어, 300 mM NaCl, 10 mM Tris-HCl, 0.1 mM EDTA, 1 mM DTT, 50% 글리세롤, pH 7.4를 포함하는 적합한 저장 완충제 중에, 25℃ 하에 이송될 수 있다. 키트는, 해당 CRISPR 폴리펩타이드의 활성에 필요한 적절한 이온, 예를 들어, Cas9 효소의 경우 Mg2+가 함유된 적절한 반응 완충제를 더 포함할 수 있다.
일부 구현예에서, 키트는 본원에 기술된 하나 이상의 요소를 이용하는 공정에 사용하기 위한 하나 이상의 시약을 포함한다. 시약은 임의의 적절한 용기 안에 제공될 수 있다. 예를 들어, 키트는 하나 이상의 반응 또는 저장 완충제를 제공할 수 있다. 시약은 특정 분석에 이용가능한 형태 또는 사용 전 하나 이상의 기타 구성성분의 첨가가 필요한 형태 (예, 농축물 또는 동결건조된 형태)로 제공될 수 있다. 완충제는 임의의 완충제일 수 있으며, 비-제한적인 예로, 소듐 카보네이트 완충제, 소듐 바이카보네이트 완충제, 보레이트 완충제, Tris 완충제, MOPS 완충제, HEPES 완충제, 및 이들의 조합 등이 있다. 일부 구현예에서, 완충제는 염기성이다. 일부 구현예에서, 완충제는 pH 약 7 내지 약 10을 가진다. 일부 구현예에서, 키트는 가이드 서열과 조절 인자를 작동가능하게 연결하기 위해 벡터 삽입용 가이드 서열에 해당되는 하나 이상의 올리고뉴클레오티드를 포함한다. 일부 구현예에서, 키트는 상동적인 재조합 주형 폴리뉴클레오티드를 포함한다. 일부 구현예에서, 키트는 본원에 기술된 하나 이상의 벡터 및/또는 하나 이상의 폴리뉴클레오티드를 포함한다. 키트는 유리하게는 본 발명의 시스템의 모든 요소를 제공할 수 있다.
다른 구현예에서, 키트는 동결건조된 mRNA 또는 동결건조된 단백질로서 각각 SSN 구성성분을 포함할 수 있다. 이러한 측면에 따른 추가의 구현예에서, 키트는 추가의 구성성분을 포함하여, 적합한 전달 비히클 또는 전달 시스템을 분자 복합체로서 SSN 구성성분(들)을 포함하는 구성성분과 더불어 제공할 수 있다. 이러한 측면에 대한 추가의 구현예에서, 하나 이상의 SSN 폴리펩타이드 및 하나 이상의 RTDD/RT 서열은 2 이상의 구성성분으로서 제공되며, 하나 보다 많은 수의 SSN 및/또는 RTDD/RT가 서로 혼화가능하다. 하나 이상의 SSN 폴리펩타이드는 대상 세포에 형질전환 또는 형질감염시킬 벡터로서 존재하는 반면, 하나 이상의 RTDD/RT 서열은 개별 구성성분으로서 존재할 수 있다. 따라서, 본 발명에 따른 키트는, 구성성분이 하나 보다 많이 존재하는 경우, 서로 다른 구성성분들의 동시 또는 순차적인 사용 (subsequent use)이 적절할 수 있다. 선택적으로, 이러한 측면에 따른 키트는 사용 설명서, 특히 편집할 타겟 세포에 특이적인 사용 설명서를 포함할 수 있다. 본 발명의 이러한 측면에 대한 다른 바람직한 구현예에서, 키트는, 원하는 형질 변형을 달성하기 위해, 특수 툴 등의 특정 대상 식물에 대한 형질 발생 키트 (trait development kit)를 제공하도록, 특수 개발된다. 이러한 구현예에서, 키트는 세포, 바람직하게는 포유류 세포 또는 식물 세포에서 대상 DNA 타겟 유전자 좌에, 대상 DNA 타겟 열을 변형시키거나 또는 대상 질환을 치료하거나 또는 대상 형질을 전달하도록 구성된, 특이적인 복구 주형을 포함한다. 또한, 키트는, 하나 이상의 RTDD와 복합체로서 조합된, 적절한 SSN 효소 또는 2종의 SSN 닉카제를 포함하며, RTDD는 하나 이상의 복구 주형 핵산 서열 (RT)과 직접 상호작용하도록 구성된 하나 이상의 SSN 제2 서열 영역과 직접 상호작용하는 하나 이상의 제1 서열 영역을 포함하며, 하나 이상의 RTDD는 특정한 대상 형질을 탑재한 복구 주형과 조합되거나 또는 이에 조합될 수 있도록 구성된다.
일 구현예에 따른 키트는 식물 세포뿐만 아니라 형질에 특이적이므로, 이러한 키트를 사용해, 대상 게놈 DNA 유전자 좌의 신속한 타겟팅 및 변형을 수행하여 형질 개발 (trait development)을 달성할 수 있다. 일 구현예에서, RTDD는 gRNA이고, gRNA 구성성분은 대상 PAM 모티프 및 CRISPR 효소와 상호작용하도록 이미 설계되어 있으며, 제공되는 복구 주형은 편리한 방식으로 삽입 또는 변형시킬 서열을 제공한다.
본 발명에 따른 일 측면에서, 본 발명은 본 발명에 따른 하나 이상의 인공 분자 복합체를 포함하거나 또는 이에 의해 편집된 식물, 식물 세포, 식물 물질 또는 이의 파생물 또는 이의 후대를 제공한다. 본 발명의 다른 측면에서, 본 발명은 하나 이상의 인공 분자 복합체로 변형된 식물, 식물 세포, 식물 물질 또는 이의 파생물 또는 이의 후대를 제공한다.
본 발명에 따른 또 다른 측면에서, 본 발명은, (i) 하나 이상의 게놈 상보성 서열과 대상 게놈 영역 내 하나 이상의 DNA 타겟 서열을 포함하는, 하나 이상의 원핵생물, 진핵생물 또는 바이러스 세포 및/또는 게놈을 제공하는 단계; (ii) 본원에 정의된 하나 이상의 인공 복합체를 제공하는 단계; (iii) 하나 이상의 인공 분자 복합체를, 하나 이상의 DNA 타겟 서열과, (a) 하나 이상의 부위-특이적인 뉴클레아제와 하나 이상의 DNA 타겟 서열의 상호작용; 및 (b) 하나 이상의 복구 주형 핵산 서열과 하나 이상의 게놈 상보성 서열의 상보적인 염기 쌍 형성을 달성하기에 적절한 조건 하에, 접촉시켜, 하나 이상의 상보성 서열의 인지 및 하나 이상의 부위-특이적인 뉴클레아제에 의한 하나 이상의 DNA 절단 유도를 달성하는 단계로서, 하나 이상의 복구 주형 핵산 서열이 하나 이상의 DNA 타겟 서열의 부위에서 상동적 특이적인 복구를 지시하는 것인, 단계; 및 (iv) 하나 이상의 DNA 타겟 서열에 변형을 포함하는 하나 이상의 원핵생물, 진핵생물 또는 바이러스 세포 및/또는 게놈을 수득하는 단계를 포함하는, 하나 이상의 DNA 타겟 서열을 변형하는 방법을 제공한다.
인공 분자 복합체는 모든 대상 세포 타입들에 사용될 수 있으므로, 원핵생물, 진핵생물 또는 바이러스 DNA 타겟 서열 또는 대상 후생유전학적 서열을 포함하는, 대상 유기체의 에피좀 또는 후생유전학적 영역 등의 임의 게놈을 변형시키기 위한 SSN/RTDD/RT 쌍을 설계할 수 있다. 바이러스의 게놈을 변형하는 구현예에서, 바이러스 게놈 또는 이의 해당 파트를 대상 벡터에 전달하여, 바이러스 게놈 또는 이의 해당 파트를 포함하는 벡터를 탑재한 적합한 숙주 세포 (예, 원핵생물 또는 진핵생물 세포) 내에서 바이러스 게놈을 증폭 및 변형시키는 것이 적합할 수 있다.
본원에서, "원핵생물" 세포는, 고세균 및 박테리아를 포함하는, 막-결합형 핵 (카리온), 미토콘드리아 또는 임의의 기타 막-결합형 소기관이 없는 단세포 유기체를 지칭한다.
바이러스 게놈은 RNA 또는 RNA 코딩된 게놈을 포함하는 임의 바이러스로부터 유래될 수 있다.
일 구현예에서, 인공 분자 복합체의 하나 이상의 복구 주형 핵산 서열 및/또는 하나 이상의 복구 주형 도킹 도메인은 하나 이상의 분자 복합체의 하나 이상의 부위-특이적인 뉴클레아제와 독립적으로 하나 이상의 원핵생물 또는 진핵생물 세포에 제공되며, 하나 이상의 인공 분자 복합체는 하나 이상의 원핵생물, 진핵생물 또는 바이러스의 세포 및/또는 게놈 내에서 조립되거나 또는 부분적으로 조립된다.
일 구현예에서, 인공 분자 복합체의 하나 이상의 RTDD/RT 서열은, 하나 이상의 분자 복합체의 하나 이상의 SSN 폴리펩타이드와 독립적으로 하나 이상의 원핵생물 또는 진핵생물 세포에 제공되며, 하나 이상의 인공 분자 복합체는 하나 이상의 원핵생물 또는 진핵생물 세포 내에서 조립되거나 또는 부분적으로 조립된다.
전술한 바와 같은 하나 이상의 인공 분자 복합체는 시험관내 조립된 복합체로서 제공될 수 있으며, 이는 이후에 하나 이상의 대상 타겟 세포에 도입된다. 다른 구현예에서, 하나 이상의 SSN 폴리펩타이드 및/또는 하나 이상의 RTDD 서열 및/또는 하나 이상의 복구 주형 핵산 서열 중 일부 또는 이들 전부 RNA 또는 DNA 유전자 구조체로서 삽입될 수 있으며, 하나 이상의 분자 복합체의 최종 조립이 생체내에서 이루어지도록 생체내 제조될 수 있다. 바람직한 구현예에서, 하나 이상의 분자 복합체가 생체외에서 결합된 다음, 하나 이상의 SSN 폴리펩타이드, 하나 이상의 가이드 핵산 서열 및 하나 이상의 복구 주형 핵산 서열을 포함하는 하나 이상의 분자 복합체는, 하나 이상의 분자 복합체를 하나 이상의 대상 DNA 타겟 서열을 포함하는 하나 이상의 타겟 세포에 기능적으로 도입할 수 있는 적합한 전달 벡터에 의해, 동시에 하나 이상의 세포에 제공된다.
다른 바람직한 구현예에서, 하나 이상의 SSN 및 선택적으로 하나 이상의 상호작용 도메인은 변형시킬 DNA 타겟 서열을 포함하는 세포 내에서 제조되도록 플라스미드 상의 융합 단백질로서 제공된다. 이후, 인공 분자 복합체의 추가의 구성성분은 생체외에서 제조될 수 있다. 예를 들어, 유도성 벡터 시스템을 사용해, 하나 이상의 SSN 및 선택적으로 하나 이상의 상호작용 도메인을 제조할 수 있다. 충분한 발현 수준이 달성되는 즉시, RTDD/RT 복합체를 타겟 세포에 도입할 수 있으며, 본 발명에 따른 인공 분자 복합체를 인 시추로 조립할 수 있다.
다른 구현예에서, 하나 이상의 인공 분자 복합체 완전체 (complete at least one artificial molecular complex)는 생체외 조립된 인공 분자 복합체 (ex vivo assembled artificial molecular complex)이다.
본 발명에 따른 방법의 맥락에서, 본원에서 언급되는 "적절한 조건" 또는 "적절한 반응 조건"은, 형질전환 또는 제조 중에, 원핵생물 또는 진핵생물 세포 등의 세포 또는 유기체의 생장 및 발생을 모두 허용하는 조건, 그리고 하나 이상의 대상 세포 또는 유기체에서 대상 유전자 구조체의 안정적인 통합 또는 일시적인 도입을 달성하는데 필수적인 조건을 의미한다. 원핵생물 또는 박테리아의 생장 및/또는 형질전환을 촉진하기 위한 조건들은 당업자들에게 알려져 있다 (Green and Sambrook, Molecular Cloning, A Laboratory Manual, 2012, Cold Spring Harbor Laboratory Press 참조). 다양한 여러가지 세포주들에 따라, 동물 세포의 생장을 촉진하거나 및/또는 유전 물질을 동물, 특히 포유류 세포에 도입하기 위한 조건들 역시 당업자들은 이용할 수 있다 (상기 Green and Sambrook 문헌 참조). 특히 온도, 빛, 물, 산소, 미네랄 영양분 및 토양 지지체 등의, 식물 또는 식물 세포의 생장 및 발생을 촉진하기 위한 조건들은 여러 식물 종들에 따라 상이할 수 있으며, 본원에 제시된 내용에 대한 지식을 가진 당업자라면 쉽게 결정할 수 있다. 하나 이상의 대상 분자 복합체의 안정적인 통합 또는 일시적 도입을 달성하기 위해 적합한 또 다른 조건은, 하나 이상의 대상 분자 복합체를 도입하기 위해 선택된 형질전환 방법, 형질전환될 식물 물질 또는 식물 세포의 발생 단계, 및 도입시킬 하나 이상의 대상 분자 복합체에 따라 결정된다. 이러한 적절한 조건은 본 발명의 내용에 비추어 당업자에 의해 정해질 수 있으며, 본원에 기술 및 청구된, 예시적인 분자 복합체와 적절한 전달 벡터 및 전달 기법과 조합하여, 방법의 적절한 조건을 결정할 수 있다.
본 발명의 상기한 방법에 대한 일 구현예에서, 하나 이상의 진핵생물 세포는 식물 세포이며, 바람직하게는, 호르데움 불가리 (Hordeum vulgare), 호르데움 불부숨 (Hordeum bulbusom), 소르굼 비콜러 (Sorghum bicolor), 사카룸 오피시나리움 (Saccharum officinarium), 지 메이스 (Zea mays) 등의 지 spp., 세타리아 이탈리카 (Setaria italica), 오리자 미누타 (Oryza minuta), 오리자 사티바 (Oriza sativa), 오리자 아우스트랄리엔시스 (Oryza australiensis), 오리자 알타 (Oryza alta), 트리티쿰 에이스티붐 (Triticum aestivum), 트리티쿰 두럼 (Triticum durum), 세칼레 세레알레 (Secale cereale), 트리티칼레 (Triticale), 말루스 도메스티카 (Malus domestica), 브라키포듐 디스타키온 (Brachypodium distachyon), 호르데움 마리눔 (Hordeum marinum), 에이길롭스 타우치이 (Aegilops tauschii), 다우쿠스 글로키디아투스 (Daucus glochidiatus), 베타 불가리스 (Beta vulgaris) 등의 베타 spp., 다우쿠스 푸실루스 (Daucus pusillus), 다우쿠스 무리카투스 (Daucus muricatus), 다우쿠스 카로타 (Daucus carota), 유칼립투스 그란디스 (Eucalyptus grandis), 니코티아나 실베스트리스 (Nicotiana sylvestris), 니코티아나 토멘토시포르미스 (Nicotiana tomentosiformis), 니코티아나 타바쿰 (Nicotiana tabacum), 니코티아나 벤타미아나 (Nicotiana benthamiana), 솔라눔 라이코퍼시쿰 (Solanum lycopersicum), 솔라눔 투베로숨 (Solanum tuberosum), 코페아 카네포라 (Coffea canephora), 비티스 비니페라 (Vitis vinifera), 에리트란테 구타타 (Erythrante guttata), 겐리시아 아우레아 (Genlisea aurea), 쿠쿠미스 사티부스 (Cucumis sativus), 마루스 노타빌리스 (Marus notabilis), 아라비돕시스 아레노사 (Arabidopsis arenosa), 아라비돕시스 라이라타 (Arabidopsis lyrata), 아라비돕시스 탈리아나 (Arabidopsis thaliana), 크루시히말라야 히말라이카 (Crucihimalaya himalaica), 크루시히말라야 발리치이 (Crucihimalaya wallichii), 카르다민 넥수오사 (Cardamine nexuosa), 레피디움 비르기니쿰 (Lepidium virginicum), 캡셀라 부르사 파스토리스 (Capsella bursa pastoris), 올마라비돕시스 푸밀라 (Olmarabidopsis pumila), 아라비스 히르수테 (Arabis hirsute), 브라씨카 나푸스 (Brassica napus), 브라씨카 올레라시아 (Brassica oleracea), 브라씨카 라파 (Brassica rapa), 라파누스 사티부스 (Raphanus sativus), 브라씨카 준카시아 (Brassica juncacea), 브라씨카 니그라 (Brassica nigra), 에루카 베시카리아 아종 사티바 (Eruca vesicaria subsp. sativa), 시트러스 시넨시스 (Citrus sinensis), 자트로파 쿠르카스 (Jatropha curcas), 포풀루스 트리코카르파 (Populus trichocarpa), 메디카고 트룬카툴라 (Medicago truncatula), 시져 야마시타 (Cicer yamashitae), 시져 비주굼 (Cicer bijugum), 시져 아리에티눔 (Cicer arietinum), 시져 레티쿨라툼 (Cicer reticulatum), 시져 주다이쿰 (Cicer judaicum), 카야누스 카자니폴리우스 (Cajanus cajanifolius), 카자누스 스카라바에오이데스 (Cajanus scarabaeoides), 파세올루스 불가리스 (Phaseolus vulgaris), 글리신 맥스 (Glycine max), 고씨퓸 (Gossypium sp.), 아스트라갈루스 시니쿠스 (Astragalus sinicus), 로투스 자포니카스 (Lotus japonicas), 토레니아 포우르니에리 (Torenia fournieri), 알리움 세파 (Allium cepa), 알리움 피스툴로숨 (Allium fistulosum), 알리움 사티붐 (Allium sativum), 헬리안투스 안누스 (Helianthus annuus), 헬리안투스 투베로수스 (Helianthus tuberosus) 및 알리움 투베로숨 (Allium tuberosum), 또는 전술한 식물들 중 하나에 속하는 임의 품종 또는 아종으로 이루어진 군으로부터 선택되는 식물의 식물 세포이다.
타겟으로서 식물 세포가 고려될 경우, 예를 들어, 당해 기술 분야의 당업자라면 다양한 형질전환 및/또는 형질감염 방법들을 이용할 수 있다. 옥수수 원형질체의 경우, 예를 들어, 적절한 방법은 Sheen, J. 2002 ("A transient expression assay using maize mesophyll protoplasts")에 기술되어 있다. 아라비돕시스 원형질체의 경우, 적절한 프로토콜은 doi.org/10.1038/ngrot.2007.199에서 입수가능하거나 또는 http://www.nature.com/nprot/journal/v2/n7/full/nprot.2007.199.html에서 검색할 수 있다. 담배 또는 그외 쌍떡잎 식물의 원형질체의 경우, 적절한 프로토콜은 www.plantphysiol.org/cgi/doi/10.1104/pp.112.205179에서 입수가능하다. 본 발명의 내용에 대한 지식과 인용된 프로토콜을 인지하고 있는 당업자라면, 따라서, 본 발명에 따른 분자 복합체를 외떡잎 또는 쌍떡잎 식물로부터 파생된 식물 원형질체에 도입하기 위한 적절한 방법을 결정할 수 있다.
원형질체는 유전자 편집 기술 및 시약을 테스트하는데 매우 유용하지만, 유전자 편집된 식물을 재생시키는 경우, 극소수의 식물 종만 원형질체로부터 효율적으로 재생되기 때문에, 항상 바람직한 세포 타입인 것은 아니다. 이 경우, 대부분의 식물 종들에서 바람직한 조직은 미성숙 배, 배발생 캘러스, 수정된 배, 온전한 식물의 분열 조직, 화분, 화분관 또는 난 세포, 배아성 현탁 세포 또는 그외 재생력을 가진 세포 타입이다. 일반적인 물리적 전달 방법은 DNA- 또는 단백질-코팅된 금 또는 텅스텐 입자를 세포에 발사하는 방법이며, 일반적인 생물학적 보조 방법은 아크로박테리움 또는 본원에 기술된 (변형된) 바이러스 벡터를 사용하는 방법이다.
본 발명에 따라 언급된 "분열조직 세포(들)"는, 또한, 분열 조직 또는 형성층 (cambium) 또는 형성 조직 (formative tissue)을 지칭하는, 식물의 조직 타입에 속한다. 동물 유기체의 줄기 세포와 같이, 미분화된 세포인 식물의 분열 조직 세포는, 유전적 소인과 추가적인 환경적 및 발생적 요인에 따라, 특수 세포 타입으로 발생 및 분화할 수 있는 내재된 능력을 가지고 있다. 식물 유기체에서, 분열 조직은 배 발생 중에 존재할 뿐만 아니라 식물의 전체 생활 주기 (life cycle) 중에도 발견할 수 있으므로, 본 발명에 따른 분열 조직 세포 또는 조직의 타겟화된 유전자 변형은 식물 배 또는 모종 (seedling)으로 한정되지 않으며, 오히려, 예를 들어, 식물의 생식 기관, 예를 들어, 옥수수의 경우 수이삭 (tassel) 또는 암이삭 (ear)에 대한 토대를 구축하는 분열 조직을 타겟팅할 경우, 더 큰 모종과 보다 성숙한 식물에서 수행될 수 있다.
본 발명에 따른 다양한 측면에 대한 일 구현예에서, 분열 조직 세포는 하나 이상의 분열 조직 세포 또는 분열 조직을 포함하는 식물의 식물 배 또는 모종의 성숙한 또는 미성숙한 식물 세포일 수 있다.
일부 게놈 편집 방식에서는, 원하는 대상 구조체 또는 이의 일부가 탑재된 형질전환 유기체가 안정적으로 삽입된 구조체를 최초 형질전환 또는 형질감염된 대상 식물 세포의 후대로 전달할 수 있을 경우, 분자 복합체를 코딩하는 발현 카세트(들)를 안정적으로 통합하는 것이 바람직할 수도 있다. 이러한 안정적인 통합은 유기체, 바람직하게는 진핵생물 유기체의 임의의 게놈 영역, 예를 들어, 핵 게놈 뿐만 아니라 핵외 게놈, 예를 들어 색소체 게놈에서 이루어질 수 있다.
일부 효과가 대상 분자 복합체 또는 이의 일부의 도입에 의해 요망되지만 구조체 자체는 최초 세포의 후대로 유전되지 않아야 할 경우에는, 일시적인 도입이 바람직할 수도 있다. 이러한 방식은, 규제로 인해, 특히 변형될 DNA 타겟 서열을 포함하는 구조체로서 식물 세포, 조직, 기관 또는 물질을 이용하는 일부 경우에는, 특히 적합할 수 있다.
본원에서, 용어 "타겟화된 통합" 또는 "기능적인 통합"은, 전사 및/또는 번역 및/또는 촉매 활성 및/또는 결합 활성, 예를 들어, 핵산 분자의 다른 핵산 분자, 예를 들어, DNA 또는 RNA에의 결합, 또는 하나 이상의 세포 내에서 단백질의 다른 구조에의 결합을 허용하는, 대상 유전자 구조체의 하나 이상의 세포로의 통합을 의미한다. 적절할 경우, 기능적인 통합은, 핵, 사이토졸, 미토콘드리아, 엽록체, 액포 (vacuole), 막, 세포벽 등을 비롯하여, 하나 이상의 특정 세포 구획 안에서 이루어진다. 즉, 용어 "기능적인 통합"은, 전술한 용어 "안정적인 통합"과 대비되며, 대상 분자 복합체가 하나 이상의 세포로, 아그로박테리움 형질전환 등의 생물학적인 수단, 또는 입자 총격 등의 물리적인 수단에 의한 형질감염, 형질전환 또는 형질전이 및 후속적인 단계에 의해 도입되고, 분자 복합체는 이것이 도입된 하나 이상의 세포 내에서 또는 세포에 대해 그 효과를 발휘하는 것을 의미한다. 그 효과는 도입할 유전자 구조체의 특성에 따라 물론 달라질 수 있으며, 그 예로는, 단독으로 또는 조합된 형태의, 특히, 유전자 구조체에 의해 코딩된 DNA의 리보핵산으로의 전사, RNA의 아미노산 서열로의 번역, RNA 간섭에 사용하기 위한 miRNA 또는 siRNA, 또는 가이드 RNA의 활성을 포함하는, 세포 내에서의 RNA 분자의 활성, 및/또는 핵산 분자의 다른 핵산 분자, 예를 들어, DNA 또는 RNA에의 결합 또는 하나의 세포 내에서 단백질의 타겟 구조에의 결합, 또는 벡터 또는 유전자 구조체를 통해 전달된 서열의 일시적인 또는 안정적인 방식의 통합 등이 있다. 또한, 이러한 효과는 하나 이상의 세포 등의 내부에서 효소 또는 이의 촉매 활성 영역을 나타내는 아미노산 서열의 촉매 활성을 포함할 수 있다. 본 발명에 따른 분자 복합체의 기능적인 통합 후 달성되는 효과는, 당해 기술 분야의 당업자에 공지된 바와 같이, 대상이 되는 유전자 구조체에 포함된 조절 서열 또는 위치화 서열의 존재에 따라, 결정될 수 있다.
전술한 바와 같이, 만능성 또는 다능성 세포를 타겟팅하는 본 발명에 따른 방법은, 형질전환 및 형질전환된 하나 이상의 세포, 구체적으로 분열 조직 세포의 추가적인 발생이 모두 식물 (in planta)에서 이루어져, 식물 또는 이로부터 유래된 식물 물질을 재생시키기 위한 번거러운 시험관내 배양 단계들이 필요없는, 이점을 제공해준다. 그러나, 특정 구현예에서, 특별한 요구 조건에 따라서는, 추가적인 배양, 스크리닝 또는 테스트를 위해 식물 세포, 조직, 기관 또는 물질을 외식 (explant) 또는 분석 (dissect)하는 것이 적합할 수도 있다. 식물 세포, 조직, 기관 또는 물질을 시험관내 배양하기 위한 몇가지 방법들을 당업자라면 이용가능하다.
따라서, 형질전환 식물에 탑재된 바람직한 대상 구조체 또는 이의 일부가 안정적으로 삽입되고, 삽입된 구조체 또는 그 일부가 최초 형질전환된 대상 식물 세포의 후대로 유전되는 경우, 안정적인 통합이 바람직할 수도 있다. 이러한 안정적인 통합은, 핵 게놈 및 핵 외 게놈, 예를 들어 식물 세포의 색소체 게놈 등의, 식물의 모든 게놈 영역에서 발생할 수 있다. 또한, 본 발명에 따른 인공 분자 복합체는 후생유전학적 변형 (epigenetic modification)을 구축하기 위해 사용될 수 있다. 다른 측면에서, 본 발명은 유전자의 기능적 평가 및 스크리닝 방법을 제공한다. 본 발명의 인공 분자 복합체를 사용해, 따라서 기능성 도메인을 정확하게 전달하여, 유전자를 활성화 또는 억제하거나 또는 특정 대상 유전자 좌의 메틸화 부위를 정확하게 변형시킴으로써 후생유전학적 상태를 변형시킬 수 있다. 본 발명의 방법을 이용해, 대상 돌연변이 모델 또는 질환 모델을 통해서와 같이 대상 유전자 또는 후생유전학적 상태를 모델링하거나 및/또는 연구하는데 사용할 수 있는, 식물, 동물 또는 세포를 구축할 수 있다. 본원에서, "질환"은 개체에서의 질환, 장애 또는 증상을 지칭한다. 예를 들어, 본 발명의 방법은, 질환과 관련된 하나 이상의 핵산 서열에 변형을 포함하는 동물 또는 세포, 또는 질환과 관련된 하나 이상의 핵산 서열의 발현이 변형된 식물, 동물 또는 세포를 구축하는데 사용할 수 있다. 이러한 핵산 서열은 질환 관련 단백질 서열을 코딩할 수 있거나, 또는 질환 관련 조절 서열일 수 있다. 이에, 본 발명의 구현예들에서, 식물, 개체, 환자, 유기체 또는 세포는 비-인간 개체, 환자, 유기체 또는 세포일 수 있는 것으로 이해된다. 따라서, 본 발명은 본 방법에 의해 제조된 식물, 동물 또는 세포, 또는 그 후대를 제공한다. 후대는 제조된 식물 또는 동물의 클론일 수 있거나, 또는 그 자손에 추가의 바람직한 형질들을 이입하기 위해 동일 종의 다른 개체와 교배함으로써 유성 생식으로 만들어질 수 있다. 그 세포는, 다세포 유기체, 특히 동물 또는 식물의 경우, 생체내 또는 생체외로 제공될 수 있다. 세포를 배양하는 경우, 적절한 배양 조건에 부합하고, 바람직하게는 세포가 이러한 목적에 맞게 적절하게 적응한다면 (예, 줄기 세포), 세포주가 확립될 수 있다. 본 발명에 의해 구축되는 박테리아 세포주 역시 본 발명에서 고려된다. 그래서, 세포주 역시 고려된다.
넉인 또는 넉아웃을 포함하는, 특정 효과, 예를 들어, 침묵 효과 (silencing effect), 타겟화된 조작이 대상 유전자 구조체 또는 그 일부의 도입에 의해 요망되지만, 구조체 자체는 최초 형질전환된 세포의 후대로 유전되어서는 안되는 경우에, 일시적인 도입이 바람직할 수도 있다.
본 발명에 따른 전술한 측면에 대한 또 다른 구현예에서, gRNA 및/또는 RT 등의, 하나 이상의 대상 분자 복합체 또는 그 일부의 도입은, 유전자 총, 예를 들어, 휴대형 (hand-held) 유전자 총 (예, Helios® Gene Gun System, BIO-RAD) 또는 고정형 유전자 총 등의, 입자 총격에 적합한 장치, 아그로박테리움 spp. 또는 바이러스 벡터를 이용한 형질전환 등의 형질전환, 미세주입, 전기천공, 실리콘 카바이드 위스커 기술 등의 위스커 기술, 및 화학적, 예를 들어 칼슘 포스페이트, 덴드리머, 리포좀 또는 양이온성 폴리머를 이용한 화학적 방법, 및 비-화학적 방법, 예를 들어, 전기천공, 초음파천공, 레이저를 이용한 광학적 형질감염, 원형질체 융합, 임페일펙션, 전달 구조체의 동물, 바람직하게는 설치류 동물의 장기, 바람직하게는 간으로의 주입에 의한 DNA의 하이드로다이나믹 유전자 전달 (hydrodynamic gene delivery), 형질감염 또는 이들의 조합으로 이루어진 군으로부터 선택되는 수단을 이용해 수행된다.
특정 구현예에서, 하나 이상의 진핵생물 세포는 식물의 분열 조직 세포일 수 있으며, 식물 세포는, 본 발명에 따른 인공 분자 복합체의 도입 후, 꽃의 성숙 발생 단계에 도달하여 본 발명에 따른 하나 이상의 분자 복합체에 의해 매개되는 목적한 변형을 포함하는 식물 또는 식물 물질이 수득될 때까지, 적절한 조건 하에 추가로 배양된다. 당해 기술 분야의 당업자는, 예를 들어, Pareddy DR et al. (1992) Maturation of maize pollen in vitro. Plant Cell Rep 11 (10):535-539. doi:10.1007/BF00236273, Stapleton AE et al. (1992) Immature maize spikelets develop and produce pollen in culture. Plant Cell Rep 11 (5-6):248-252 또는 Pareddy DR et al. (1989) Production of normal, germinable and viable pollen from in vitro-cultured maize tassels. Theor Appl Genet 77 (4):521-526에 예시된 바와 같이, 시험관내 배양된 옥수수 수이삭으로부터 발아가능하고 생존가능한 화분을 생산하기 위한 몇가지 프로토콜들을 이용할 수 있다. 이러한 프로토콜은, 특히, 수이삭 적출, 표면 살균 및 수이삭 증식 및 성숙을 촉매하기 위한 키네틴 첨가 배지에서의 배양을 기반으로 한다. 소수 (spikelet)가 형성된 후, 지속적인 꽃밥 수확을 수행할 수 있다. 압출 (extrusion) 후, 화분이 떨어질 때까지 꽃밥을 건조시킨다. 다른 구현예로, 꽃밥을 건조시킬 수 있으며, 화분을 액체 매질로 떨어뜨려, 향후 암이삭 (ear)을 수분시키는데 사용한다.
본원에서, "꽃의 성숙 (maturity)"은, 하나 이상의 분열 조직 세포를 포함하는 식물의 미성숙 꽃이 발생 단계에 도달한 상태, 성숙한 꽃, 즉 수꽃 차례 (staminate inflorescence)(웅성) 또는 암꽃 (pistillate inflorescence)(자성)이 형성되어, 생식세포 (gamete) 화분 (웅성) 또는 밑씨 (자성) 또는 둘다가 존재하는 상태를 의미한다. 수득한 식물 물질은 추가의 식물의 수분 또는 또 다른 식물의 화분을 이용한 수정에 직접 사용될 수 있으므로, 이러한 식물 번식 단계가 특히 중요하다.
본 발명의 전술한 방법에 따른 다른 구현예에서, 하나 이상의 DNA 타겟 서열의 변형은, 수확율 개선, 건조 스트레스, 삼투성 스트레스, 열 스트레스, 한랭 스트레스, 산화 스트레스, 중금속 스트레스, 염 스트레스 또는 침수 (waterlogging) 등의 비-생물적 스트레스에 대한 저항성, 곤충 내성, 박테리아 내성, 바이러스 내성, 진균 내성 또는 선충 내성 등의 생물 스트레스에 대한 저항성, 글리포세이트, 글루포시네이트, 아세토락테이트 신타제 (ALS) 저해제 및 Dicamba 등의 제초제 저항성, 내도복성 (lodging resistance), 개화 시기, 내탈립성, 종자 색, 배젖 조성, 영양분 함량, 표현형 마커 변형, 또는 하나 이상의 식물 세포에서 분자 조작 기법 (molecular pharming approach)을 허용하는 게놈 편집 등의 대사 조작으로 이루어진 군으로부터 선택되는, 게놈 편집 기법이다. 표현형 마커는 예를 들어 편집 효율을 모니터링하기 위해 공동-편집 방식 (co-editing approaches)에 바람직한 타겟일 수 있다.
다른 구현예에서, 예를 들어, 대산 산물을 생산하거나 또는 약독화된 바이러스 게놈을 제공하도록 적절하게 변형된 대사 경로를 가진 원핵생물 세포를 제공하기 위해, 원핵 생물 세포 또는 바이러스 게놈에서 형질 개발 (trait development)이 구현된다.
본 발명의 상기한 방법에 대한 다른 구현예에서, 하나 이상의 DNA 타겟 서열의 변형은, 바이러스 질환의 치료 또는 면역요법, 특히 암 면역요법에 적합한 변형된 세포를 수득하기 위한, 하나 이상의 진핵생물 세포, 바람직하게는 포유류 세포, 바람직하게는 포유류 백혈구에서 면역 세포를 생체외 변형하는, 게놈 편집 방법일 수 있다.
바람직한 일 구현예에서, 본 발명에 따른 상기한 방법은, 진핵생물 세포, 바람직하게는 하나 이상의 식물 세포를, 유전자 변형된, 바람직하게는 비-형질전환 식물을 제공하기 위한 타겟화된 방식으로 변형하는 방법으로서, 이 방법은 특히 형질 개발 (trait development) 방법일 수 있다. 예를 들어, 식물 유전자의 코딩 서열에서, 뉴클레어티드 1개, 2개, 3개 또는 그 이상에 대해 고도의 부위-특이적인 치환을 도입하여, 글리포세이트, 글루포시네이트, Dicamba 또는 아세토락테이트 신타제 (ALS) 저해 제초제와 같은 하나 이상의 제초제에 대해 저항성을 부여하는 하나 이상의 아미노산의 치환을 달성할 수 있다. 또한, 다른 구현예에서, 뉴클레오티드 결합 부위-루신-풍부 리피트 (NBS-LRR) 식물 유전자의 코딩 서열에서 하나 이상의 아미노산을 치환하면, 식물의 질병 내성을 최적화하도록 단백질의 병원체 인지 스펙트럼이 달라질 것이다. 또 다른 구현예에서, 소형 인핸서 서열 또는 전사 인자 결합 부위가, 프로모터에 의해 조절되는 식물 유전자의 발현 프로파일 또는 강도를 변형시키기 위해, 식물 유전자의 내인성 프로모터 내에서 변형되거나 또는 식물 유전자의 프로모터에 도입될 수 있다. 발현 프로파일은 다른 영역, 예를 들어, 인트론, 3' 비-번역 영역, cis- 또는 trans-인핸서 서열에서의 다양한 변형, 도입 또는 결손을 통해 변형될 수 있다. 또 다른 구현예에서, 식물 세포, 바람직하게는 분열조직 식물 세포의 게놈은, 변형된 분열 조직 세포로부터 기원한 식물이 화학 물질 또는 작물학적 또는 약리학적 관심 물질, 예를 들어, 인슐린 또는 인슐린 유사체, 항체, 원하는 효소 기능을 가진 단백질 또는 약제로서, 식이 보충제로서 또는 건강 관리 제품으로서 적합한 임의의 그외 약리학적으로 적절한 화합물을 생산할 수 있는 방식으로, 변형될 수 있다.
다른 측면에서, 본 발명에 따른 형질 편집은, 전술한 임의의 방법을 사용함으로써 식물의 염색체 또는 염색체외 유전 물질을 변형하는 것을 포함하는, 식물에서 질환 및/또는 병태의 치료 및/또는 곤충 감염/침입의 예방을 달성하기 위한 형질 편집 방법을 제공한다. 본 발명의 방법에 의해 치료가능한 질환 및/또는 병태에 대한 비-제한적인 예로는 줄기썩음 탄저병 (Anthracnose Stalk Rot), 아스퍼질러스 이삭 썩음병 (Aspergillus Ear Rot), 커먼 옥수수 이삭 썩음병 (Common Corn Ear Rots), 옥수수 이삭 썩음병 (Corn Ear Rot), 커먼 옥수수 녹병 (Common Rust), 디플로디아 이삭 썩음병 (Diplodia Ear Rot), 디플로디아 잎 줄무늬병 (Diplodia Leaf Streak), 디플로디아 줄기 섞음병 (Diplodia Stalk Rot), 노균병 (Downy Mildew), 아이스팟 (Eyespot), 푸사리움 이삭 썩음병 (Fusarium Ear Rot), 푸사리움 줄기 썩음병 (Fusarium Stalk Rot), 지베렐라 이삭 썩음병 (Gibberella Ear Rot), 지베렐라 줄기 썩음병 (Gibberella Stalk Rot), 고스 시듦 및 잎 마름병 (Goss's Wilt and Leaf Blight), 회색무늬병 (Gray Leaf Spot), 흑수병 (Head Smut), 노던 옥수수 잎 마름병 (Northern Corn Leaf Blight), 피소더마 갈색 반점 (Physoderma Brown Spot), 피시움 (Pythium), 서든 잎 마름병 (Southern Leaf Blight), 서든 녹병 (Southern Rust) 및 스튜어트의 박테리아 시듦 및 마름병 (Stewart's Bacterial Wilt and Blight) 및 이들의 조합 등이 있다.
본 발명의 방법으로 치료가능한 직접 또는 간접적으로 질환 또는 병태를 유발하는 곤충에 대한 비-제한적인 예로는, 거염벌레 (Armyworm), 밤색우단풍뎅이 (Asiatic Garden Beetle), 검거세미나방 (Black Cutworm), 갈색무늬노린재 (Brown Marmorated Stink Bug), 갈색노린재 (Brown Stink Bug), 커먼 스탁 보러 (Common Stalk Borer), 옥수수 바구미 (Corn Billbugs), 왕담배밤나방 (Corn Earworm), 옥수수테두리진딧물 (Corn Leaf Aphid), 옥수수근충 (Corn Rootworm), 콘 루트웜 실크 피딩 (Corn Rootworm Silk Feeding), 유럽 옥수수 좀 (European Corn Borer), 열대거세미나방 (Fall Armyworm), 꼽추잎벌레아과 (Grape Colaspis), 홉 바인 보러 (Hop Vine Borer), 알풍뎅이 (Japanese Beetle), 스카우팅 포 폴 아미웜 (Scouting for Fall Armyworm), 옥수수씨 딱정벌레 (Seedcorn Beetle), 서든 콘 립 비틀 (Southern Corn Leaf Beetle), 사우스웨스턴 콘 보러 (Southwestern Corn Borer), 잎 진드기 (Spider Mite), 사탕수수 딱정벌레 (Sugarcane Beetle), 서부 강낭콩거세미나방 (Western Bean Cutworm), 굼벵이 (White Grub) 및 청동방아벌레 (Wireworms) 및 이들의 조합 등이 있다. 또한, 본 방법은 임의의 상기한 곤충(들)에 의한 식물의 감염 및/또는 침임을 예방하는데 적합하다.
본 방법에 의해 도입될 수 있는 형질에 대한 비-제한적인 예는, 해충, 예를 들어, 뿌리 벌레 (rootworm), 줄기를 파먹는 벌레 (stem borer), 뿌리를 잘라 먹는 벌레 (cutworm), 딱정벌레, 진딧물, 매미충 (leafhopper), 바구미 (weevil), 응애 (mite) 및 노린재 (stinkbug)에 대한 저항성 또는 내성이다. 이는 식물 유전자의 변형에 의해, 예를 들어, 식물의 선천적인 해충 저항성을 높이거나 또는 해충 유인성 (attractiveness)을 낮추기 위한 변형에 의해 이루어질 수 있다. 그외 형질로는 선충류, 박테리아, 진균 또는 바이러스성 병원체 또는 이의 벡터에 대한 저항성 또는 내성일 수 있다. 또 다른 형질은 보다 효율적인 영양소 사용, 예를 들어, 강화된 질소 사용, 질소 고정 효율 개선 또는 도입, 광합성 효율 강화, 예를 들어 C3 식물의 C4로의 변환일 수 있다. 또 다른 형질은 온도, 물 공급, 염도, pH, 극심한 태양광 노출에 대한 내성 (tolerance for extremes in sunlight exposure)과 같은 비-생물적 스트레스에 대한 내성 강화, 질소 이용 효율, 인 이용 효율, 물 이용 효율 및 농작물 또는 바이오메스 수율 강화일 수 있다. 추가적인 형질은 식물의 식용 또는 섭취가능한 부위의 맛, 외양, 영양 또는 비타민 프로파일과 관련있는 특징일 수 있거나, 또는 이러한 부위의 저장 수명 또는 품질과 관련있을 수 있다. 마지막으로, 형질은 도복 (lodging) 저항성, 탈립 (shattering), 개화기, 숙성, 출아 (emergence), 수확, 식물 구조, 활력 (vigor), 크기, 수율 및 그외 특징과 같은 농경학적 품질과 관련있을 수 있다. 본 발명에 따른 방법은, 상기한 형질 개발을 달성하기 위해, 전술한 임의 방법을 이용함으로써 식물 또는 식물 세포의 염색체 또는 염색체 외 유전 물질을 변형하는 것을 포함한다.
본 발명에 따른 전술한 방법에 대한 일 구현예에서, 타겟 세포는 원핵생물 세포일 수 있으며, 변형은 하나 이상의 원핵생물 세포의 대상 게놈 타겟 영역의 하나 이상의 변형을 포함하며, 여기서 변형은 항생제에 대한 저항성을 비롯하여 생물적 또는 비-생물적 스트레스에 대한 박테리아의 저항성을 조절 또는 높이는데 적합하거나, 또는 변형은 하나 이상의 원핵생물 세포의 파지 저항성을 개선하는데 적합하다. 다른 구현예에서, 변형은 하나 이상의 대상 원핵생물 세포의 DNA 타겟 부위에 대상 유전자를 삽입하는 것, 예를 들어, 형광 마커 단백질 또는 다른 선별 마커를 코딩하는 서열을 하나 이상의 대상 DNA 타겟 부위에 삽입하는 것을 포함한다. 다른 구현예에서, 변형은 하나 이상의 원핵생물 세포에서 하나 이상의 대상 DNA 타겟 부위를 넉-아웃, 즉 제거하는 단계를 포함한다. 원핵생물 세포는 추가로 분화되지 않지만, 그 후대로 하나 이상의 대상 도입 변형을 직접 유전시킬 수 있으며, 원핵생물 세포는 일반적으로 진핵생물 세포와 비교해 세대 시간 (generation time)이 매우 짧기 때문에, 본 발명에 따른 하나 이상의 인공 분자 복합체 형태로 하나 이상의 RTDD/RT에 의해 도입되는 변형이 신속하게 달성될 수 있으며, 제조되는 변형된 세포 집단은 매우 짧은 시간 내에 수득 및 분석할 수 있다.
특정 구현예에서, 본 발명에 따른 상기한 방법은, (v) 하나 이상의 DNA 타겟 서열에 변형을 포함하는 하나 이상의 원핵생물 또는 진핵생물 세포를 동정 및/또는 선별하는 단계, 또는 원핵생물 또는 진핵생물 세포에서 증폭된 바이러스 게놈에 대해 변형을 동정하는 단계를 더 포함할 수 있다.
하나 이상의 원핵생물 또는 진핵생물 세포의 게놈 또는 바람직하게는 바이러스 게놈에서 달성된 본 발명에 따른 변형을 분석 또는 동정하는 방법은 당해 기술 분야의 당업자들에게 공지되어 있으며, 비-제한적으로, 특히 실시간 정량적인 PCR, 멀티플렉스 PCR, RT-PCR, nested PCR, 분석용 PCR 등의 중합효소 연쇄 반응 (PCR), 명시야 및 암시야 현미경 검경법, 분산 염색 (dispersion staining), 위상차 (phase contrast), 형광, 공초점, 차등 간섭 위상차, 디콘볼루션 (deconvolution), 전자 현미경 검경법, UV 현미경 검경법, IR 현미경 검경법, 스캐닝 프로브 현미경 검경법 등의 현미경 검경법, 세포의 대사 산물 분석, 변형된 세포의 변형된 저항성 스펙트럼 분석, RNA 분석, 프로테옴 분석, 예를 들어, 대상 마커 유전자 또는 전이유전자 또는 넉-아웃의 기능적인 통합을 확인하기 위한 기능성 분석, 서든 블롯 분석, 딥 서열분석 (deep sequencing) 등의 서열분석 및 이들의 조합을 포함한다. 원하는 변형을 포함하는 세포는 이후 추가적인 배양 또는 임의의 기타 후속적인 제조 단계를 위해 선별될 수 있다.
본 발명은, 다른 측면에서, (i) 하나 이상의 진핵생물 세포가 식물 세포인, 진핵생물 세포에서, 전술한 바와 같이, 하나 이상의 DNA 타겟 서열을 변형하는 방법을 수행하는 단계; (ii) 단계 (i)에서 수득되는 하나 이상의 식물 세포로부터 하나 이상의 식물 또는 그 후대를 수득하는 단계; (iii) 선택적으로, 상기 하나 이상의 식물 또는 그 후대의 하나 이상의 세포에서 하나 이상의 DNA 타겟 서열 내 변형을 확인하는 단계를 포함하는, 식물 또는 식물 세포를 제조하는 방법을 제공한다.
이러한 측면을 수행하는데 적합한 식물 세포, 조직, 기관 및 물질은 전술한 바와 같다. 본 발명에서 용어 "제조하는"은 광의적으로 해석되어야 하며, 식물 또는 식물 세포의 유전 물질에 수행되는 임의 형태의 유전자 조작을 포함한다. 하나 이상의 복구 주형 도킹 도메인과 하나 이상의 복구 주형 핵산을 포함하는 하나 이상의 RTDD/RT 서열과, 상호작용 도메인을 선택적으로 포함하는, 하나 이상의 SSN 폴리펩타이드를 포함하는 하나 이상의 인공 분자 복합체의 제공은, 전술한 바와 같은 여러가지 구성성분들의 일시적 작용 또는 안정적인 통합 또는 이들의 조합을 허용하는 방식으로, 이루어질 수 있다. 바람직하게는, 하나 이상의 인공 분자 복합체 또는 이의 서로 다른 구성성분들은, 가이드 핵산 RNA를 코딩하는 서열, 복구 주형 핵산 DNA를 코딩하는 서열 및 CRISPR 폴리펩타이드를 코딩하는 서열을 비롯하여, 이들 임의의 작동자 구성성분들이 대상 타겟 세포의 게놈에 통합되지 않는, 일시적인 방식으로 제공된다.
본 발명에 따른 상기 제조 방법에 대한 일 구현예에서, 하나 이상의 식물 또는 식물 세포는 외떡잎 또는 쌍떡잎 식물로부터 선택될 수 있으며, 바람직하게는, 식물은 지 메이스 (Zea mays) 등의 Zea spp., 니코티아나 벤타미아나 (Nicotiana benthamiana) 또는 베타 불가리스 (Beta vulgaris) 등의 Beta spp, 또는 세칼레 세레알 (Secale cereal) 등의 Secale spp., 또는 트리티쿰 에이스티붐 (Triticum aestivum) 등의 Triticum spp.로 이루어진 군으로부터 선택된다.
본원 전체에 걸쳐 상세히 기술된 바와 같이, RTDD와 상호작용하는 적절한 부위-특이적인 뉴클레아제와 조합하여 기능적인 방식으로 조합되는 RTDD/RT 구조체를 이용하는 방법의 핵심은 종 및 세포 독립적이라는 것이므로, 본 발명에 따른 방법은, 적어도 gRNA 및 하나 이상의 RT에 대한 공유 또는 비-공유적인 상호작용에 의해 이루어지더라도, 세포에서 상동적인 재조합에 의한 DNA 복구 기전이 존재하는 한, 모든 생명계에 속하는 타겟 세포에 적합하며, 적용할 수 있다. 각 타겟 세포 및 각 타겟에서 각각 확인하여야 하는 사항은, (i) 부위-특이적인 뉴클레아제 또는 촉매학적으로 활성인 이의 단편, 및 예를 들어 융합 단백질로서 상호작용 도메인의 사용이 적합할 수 있는지의 여부; (ii) 동족 결합 파트너를 인지함으로써 구성성분들 간의 직접적인 상호작용을 허용하는 적합한 RTDD-SSN 또는 RTDD-상호작용 도메인 쌍; 및 (iii) 적합한 RT 및 이와 RTDD의 연결, RT 디자인은 인공 분자의 하나 이상의 SSN에 의해 절단된 대상 타겟 DNA 서열에서 맞춤형 복구를 도입하는 것과 관련있으며, 선택적으로, (CRISPR 뉴클레아제의 경우) (iv) 상기와 같이 혼용될 수 있는 gRNA 및 CRISPR 폴리펩타이드; (v) 대상 DNA 타겟 영역 내 PAM 부위와 대상 gRNA의 매칭성; 및 (vi) DNA 타겟 서열과 도입할 타겟 변형이다. 모든 서열분석된 게놈은 공개적으로 이용가능하므로, 적절한 핵산 서열의 디자인은 본 발명의 내용에 기초하여 인실리코 (in silico)로 설계할 수 있다.
본 발명은, 또 다른 측면에서, 원핵생물 또는 진핵생물 세포에서의 게놈 편집에 있어, 본 발명에 따른 하나 이상의 RTDD/RT 핵산 서열의 용도, 또는 본 발명에 따른 인공 분자 복합체의 용도를 제공한다. 이러한 측면에 대한 일 구현예에서, 상기한 용도는 진핵생물 세포, 바람직하게는 진균, 동물 또는 식물 세포 또는 유기체, 또는 원핵 생물 또는 진핵생물 세포에서 증폭되는 바이러스 유기체에 대한 것이다.
본 발명에 따른 다양한 측면 및 구현예에서, 진핵생물 세포 또는 줄기 세포 등의 진핵생물 세포를 변형하기 위한 방법 및 용도는 모든 인간 클로닝 방법, 인간의 생식 계열 유전자 동일성 (germ line genetic identity)을 변형시키는 방법 또는 인간 배아의 용도, 또는 인간 배아로부터 세포를 수득하기 위해 인간 배아 파괴가 요구되는 방법은 명백하게 포함하지 않는다. 특히, 인간 생식 계열 세포 또는 인간 배아는 본 발명에 따른 방법에 의해 또는 인공 분자 복합체를 이용해 변형시킬 타겟 세포 또는 유기체로서 명백하게 제외된다.
본 발명은 이하 비-제한적인 실시예를 참조하여 추가적으로 설명된다.
실시예
본 발명은 이하 비-제한적인 실시예를 참조하여 추가로 예시된다.
실시예 1: Cas 또는 Cpf1 또는 Argonaute 폴리펩타이드와의 조합에 적합한 RTDD/RT 쌍으로서 하이브리드 핵산 서열.
한가지 실험으로, 맞춤형 sgRNA 또는 sgDNA를, RNA-DNA 또는 DNA-DNA 라이게이션 및 상보적인 염기 쌍 형성을 통해, 단일 가닥 복구 주형에 혼성하였다. 공유적으로 결합하는 경우, ssRNA 리가제를 제조사의 프로토콜에 따라 사용해 RNA/DNA 올리고뉴클레오티드의 3' 말단에 DNA 합성 올리고뉴클레오티드를 공유적으로 라이게이션하였다. 비-공유적으로 결합하는 경우, 부분적인 상보성 서열을 가진 RNA/DNA 및 DNA 올리고뉴클레오티드를 혼합하고, 왓슨-크릭 염기 쌍 형성을 통해 복합체를 형성시켰다. 겔 쉬프트 분석으로 혼성화의 성공을 확인할 수 있다. 겔 쉬프트 분석 전, 하이브리드 핵산 분액에 RNase 및 DNase 효소를 처리한 바, sgRNA를 이용한 실험들에서 하이브리드 핵산 중 일부가 RNA와 일부의 DNA로 구성된 것임을 확인한다. 그런 후, 핵산 하이브리드를 재조합 Cas9 단백질 또는 다른 CRISPR- 또는 Argonaute-유래 뉴클레아제와 복합체로 형성시켰다. 복합체 형성의 성공은 프로테이나제 K, RNase, DNase 처리 및 모의 처리 (mock treatment)하여 상대적인 겔 쉬프트 패턴을 관찰함으로써, 검증할 수 있다. 재조합 Cas 폴리펩타이드가 제조되었으며, 이후 외부 상업 회사 또는 사내 시설을 통해 정제하였다. 테스트한 RDTT로서 가이드 핵산 서열과 복구 주형 (RT) 핵산 서열 간의 하이브리드 핵산 서열의 여러가지 아키텍쳐들을 도 1도 2에 도시한다.
실시예 2: Cas9 단백질과 하이브리드 RNA-DNA 핵산의 복합체에 의한 DNA 타겟의 시험관내 절단
한가지 실험으로, 개시된 핵산 하이브리드 기법을 사용하여, 부위-특이적인 엔도뉴클레아제로서의 Cas 단백질의 기능성을 테스트하였다. sgRNA에 대한 하나 이상의 타겟 부위를 함유한 선형화된 플라스미드를, 본 발명에 기술된 Cas9-sgRNA-RT 복합체와 혼합하였다. 다양한 CRISPR 뉴클레아제 및 이의 변이체에 대한, 당업자에게 공지된, 적절한 pH, 온도 및 조인자 등을 비롯하여 뉴클레아제 활성에 적합한 조건 하에 인큐베이션한 후, DNA 타겟 플라스미드를 아가로스 겔에서 전개시키고, 예상된 타겟 부위의 절단을 의미하는 밴드 크기를 관찰하였다. 타겟 DNA의 시험관내 절단에서, "카고"로서 sgRNA와 결합한 RT는, 부위 특이적인 엔도뉴클레아제로서 Cas9 복합체의 정상적인 기능을 간섭하지 않는 것으로, 확인되었다.
실시예 3: 하이브리드 RNA-DNA 핵산과 복합체를 형성한 Cas9 단백질에 의한 생체내 편집
타겟 유전자가 생체내에서 Cas9 단백질과 하이브리드 RNA-DNA 핵산을 포함하는 전달된 복합체에 의해 편집될 수 있는 지를 확인하기 위해, 단일 뉴클레오티드를 교체하여 tdTomato 유전자로부터의 형광 신호를 복원함으로써, 형질전환된 플라스미드에 함유된 비-기능성 tdTomato 유전자를 복구시켰다. 타겟 가닥 또는 비-타겟 가닥에 상보성을 가진 ssDNA 복구 주형을 제공함으로써 편집에서의 최적의 사용을 확인하기 위해, 한쪽 가닥의 복구 주형을 탑재한 복합체들을 비교하였다.
실시예 1에서 수득된 하이브리드 핵산 RNA/DNA-Cas 폴리펩타이드 복합체를 사용해, 51번 코돈 위치에 조기 정지 신호를 만드는 A -> T 단일 점 돌연변이를 가진 tdTomato 유전자를 코딩하는 에피좀 플라스미드의 타겟을, 복구시켰다. 이 플라스미드를, Cas9 단백질 및 하이브리드 RNA-DNA 핵산을 포함하는 편집 복합체와 함께, PEG- 또는 전기천공-매개 전달을 통해 옥수수 원형질체 시스템에 도입하였다. 단일 가닥 복구 주형은 이후 상보적인 염기 쌍 형성을 통해 sgRNA와 결합한다. 복구 주형은 절단 부위에서 하류 ~80 bp 및 상류 ~40 bp에 이르는 영역에 대해 상보성을 가지고 있다. 성공적인 편집으로, tdTomato 유전자를 함유한 하나 이상의 플라스미드에서 tdTomato 유전자가 복구되어, 일부 세포는 tdTomato 형광 표현형을 나타내게 된다. 따라서, 각 처리에서 나타난 형광 세포의 빈도 (abundance)를 측정하여, 여러가지 복구 주형들의 상대적인 편집 효율을 평가할 수 있다.
실시예 4: RNA 구성성분이 공유적으로 부착에 의해 부착된 또는 상보적인 염기 쌍 형성에 의해 결합된 RT와 복합체를 형성한 Cas9 단백질에 의한 생체내 편집
다양한 방식으로 제조된 하이브리드 핵산 분자를 이용한 편집을 입증하기 위해, 실시예 3에서 동정한 최적의 조건을 적용해, 복구 주형과 sgRNA의 하이브리드 핵산 공유 결합 또는 비-공유 염기 쌍을 이용한 동일한 에피좀 플라스미드 타겟의 복구를 분석하였다.
마커, 특히 형광 마커를 사용한 경우, 성공적으로 편집이 이루어지면, tdTomato 유전자를 함유한 하나 이상의 플라스미드에서 tdTomato 유전자와 같은 형광 코딩 유전자가 복구되어, 일부 세포는 형광 표현형을 나타내게 될 것이다. 각 처리에서 나타난 형광 세포의 빈도 (abundance)를 측정하여, 여러가지 복구 주형들의 상대적인 편집 효율을 평가할 수 있다.
실시예 5: RT를 gRNA의 5' 말단 또는 3' 말단과 연결하여 제조된 핵산 하이브리드와 복합체를 형성한 Cas9 단백질에 의한 생체내 편집
본 실시예에서, 실시예 3에 기술된 방법을 이용해, sgRNA의 5' 또는 3' 말단에 혼성되거나 또는 연결되는 복구 주형의 선호성을 동정할 수 있다. 실시예 4에서 결정된 선호적인 공유 결합을 본 실시예에 사용할 수 있다. Tsai et al. ("Dimeric CRISPR RNA-guided FokI nucleases for highly specific genome editing", Nature Biotechnology, 32, 569-576 (2014), doi:10.1038/nbt.2908) 및 Shechner et al. ("Multiplexable, locus-specific targeting of long RNAs with CRISPR-Display", Nature Methods, 12(7), 664-670 (2015), doi: 10.1038/nmeth.3433)에 제시된 결과에 따르면, 3' 융합이 바람직할 것으로 예상된다.
성공적으로 편집이 이루어지면, tdTomato 유전자를 함유한 하나 이상의 플라스미드에서 tdTomato 유전자가 복구되어, 일부 세포는 tdTomato 표현형과 같은 형광 표현형을 나타낸다. 각 처리에서 나타난 형광 세포의 빈도를 측정하여, 여러가지 복구 주형들의 상대적인 편집 효율을 평가할 수 있다.
실시예 6: 하이브리드 핵산과 복합체를 형성한 Cas9에 의한 생체내 편집에 있어, sgRNA와 복구 주형 간의 최적의 링커 길이 결정
본 실시예에서, gRNA와 복구 주형 사이에 증가 단위가 50 bp인 최대 500 bp 길이의 링커를 사용해, 실시예 3에 기술된 타겟을 복구하기 위한 최적의 상동성 재조합 조건을 동정하였다. 링커 길이 세트를 사용하여, 단백질 타겟 가닥의 기하구조를 극복하기 위한 하이브리드에 필요한 필수 유연성 결정을 도울 수 있다. 이는, 특히, 분자 복합체의 상호작용을 조율하고 또한 RT의 존재 하에 CRISPR 복합체가 그 효과를 발휘할 수 있음을 보장하기 위해, 여러가지 CRISPR 뉴클레아제, 즉 특정 gRNA와 개별 복구 주형 (RT)을 사용해 작동시킬 경우에, 필연적이다. 실시예 3의 조건을 실시예 3-5에서 결정된 최적화된 파라미터와 함께 적용하였다. 링커는 타겟 유전자 주변 서열에 대해 상보성을 가진 DNA이다.
성공적으로 편집이 이루어지면, tdTomato 유전자를 함유한 하나 이상의 플라스미드에서 tdTomato 유전자가 복구되므로, tdTomato 마커를 이용할 경우, tdTomato 형광 표현형을 나타내는 일부 세포들이 관찰될 것이다. 각 처리에서 나타난 형광 세포의 빈도를 측정하여, 여러가지 링커 길이에 따른 상대적인 편집 효율을 평가할 수 있다. 마찬가지로, 대상 세포 타입에 적합한 임의의 형광 마커, 항생제 마커, 태그 서열, 조절 서열 등을 비롯하여, 임의의 그외 선별가능한 대상 마커도 사용할 수 있다.
실시예 7: 하이브리드 핵산과 복합체를 형성한 Cas9 단백질에 의한 생체내 편집에서 복구 주형의 최적의 배열 (optimal configuration) 결정
단일 가닥 및 이중 가닥 복구 주형을 이용한 편집을 검증하기 위해, 실시예 3에 기술된 생체내 분석으로 2가지 배열을 상대적으로 비교하였다. 단일 가닥 복구 주형은 저 분자량이 좋을 것으로 예상되며, 짧은 dsDNA 올리고에 비해 짧은 ssDNA 올리고가 편집율이 높은 것으로 알려져 있다. 그러나, 긴 서열을 편집 또는 삽입할 경우에는 이중 가닥 복구 주형을 사용해야 할 수 있다. 실시예 4 및 6의 최적의 조건을 본 실시예에 적용할 수 있다.
성공적으로 편집이 이루어지면, tdTomato 유전자를 함유한 하나 이상의 플라스미드에서 tdTomato 유전자가 복구되므로, 일부 세포는 tdTomato 표현형과 같은 형광 표현형을 나타내게 된다. 각 처리에서 나타난 형광 세포의 빈도를 측정하여, 여러가지 복구 주형에 따른 상대적인 편집 효율을 평가할 수 있다.
실시예 8: 하이브리드 RNA-DNA 핵산과 복합체를 형성한 Cas9 단백질에 의한 염색체 타겟의 생체내 편집
본 실시예에서, 실시예 3-7에서 최적화된 방법을 사용해, 염색체 타겟 유전자에 대해 편집을 수행할 수 있었다. 본 실시예에서는, 조기 정지 코돈 tdTomato 카세트가 안정적으로 삽입된 형질전환 옥수수 식물을 이용하여, 염색체 타겟에 대한 본 발명의 유용성을 입증하였다. 성공적으로 편집이 이루어지면, 게놈 DNA에 통합된 tdTomato 유전자가 복구되므로, 일부 세포는 tdTomato 형광 표현형을 나타내었다. 편집 효율은 각 처리에 따라 발생되는 형광 세포 빈도를 측정함으로써 평가하였다.
실시예 9: 하이브리드 RNA-DNA 핵산과 복합체를 형성한 Cas9 단백질에 의한 유전자 카세트의 생체내 염색체 타겟에의 삽입
염색체 타겟에 전장 유전자 (full length gene)을 삽입하는데 있어 본 발명의 유용성을 확인하기 위해, tdTomato 형광 리포터 유전자와 종결인자를 옥수수 hmg13 유전자에 삽입하였으며, 그 결과 hmg13의 내인성 프로모터에 의해 구동된 발현으로 tdTomato 형광 신호가 발생하였다. 그 결과, 긴 삽입체를 본 발명의 방법을 이용해 삽입할 수 있으며, 이러한 삽입 조건을 최적화하는데 도움이 될 수 있다는 것을, 확인할 수 있었다.
성공적으로 편집이 이루어지면, tdTomato 유전자가 hmg13 타겟에 삽입되어, tdTomato 형광 표현형을 나타내는 일부 세포가 관찰되며, 후속적인 tdTomato 단백질 발현을 검증할 수 있다. 테스트한 각 세포 타입에서 각각의 편집 효율은 각 처리시 발생되는 형광 세포 빈도를 측정함으로써 평가할 수 있다.
실시예 10: 하이브리드 RNA-DNA 핵산과 복합체를 형성한 Cas9 단백질을 식물 세포에 전달하기 위한 세포 침투성 펩타이드의 사용
실시예 8 또는 9에서 동정한 최적 시스템을 본 실시예에 적용하여, 세포 침투성 펩타이드 (CPP)를 이용한 형질전환과 PEG를 이용한 형질전환의 효율을 비교 검사하였다. 기존의 간행물 및 출원에서, 전달시 CPP를 사용하면, 하이브리드 RNA-DNA 핵산과 복합체를 형성한 Cas9 단백질이 세포벽이 있는 세포 내 도입되는 것으로, 제시된 바 있다. 이에, CPP는, Cas 융합 단백질 내부에 사용하거나 또는 Cas 단백질의 N-말단 시스테인과 CPP의 N-말단 시스테인 간에 형성된 이황화 결합을 통해 Cas에 연결시켜 사용하였다. 유리형 CPP도 사용하여, 핵산 가닥에 대한 일시적인 결합을 통해 Cas 핵산 복합체의 도입을 도울 수 있다. 처음 CPP는 HIV TAT 펩타이드 (예, 서열번호 17 및 18) 또는 이로부터 유래된 서열 및/또는 (Arg)9 서열을 포함할 수 있다. 실시예 3-9의 최적화된 방법을 이용하여, 원형질체 시스템에서의 성공적인 tdTomato 발현을 통해 그 효율을 평가할 수 있다.
실시예 11: 또 다른 CRISPR 뉴클레아제
전술한 바와 같이, 본 발명에 따른 하이브리드 핵산 서열은 여러가지 CRISPR 시스템의 다양한 CRISPR 뉴클레아제에 적합하다. 임의의 작동자 뉴클레아제, 예를 들어, Cas9 또는 Cpf1의 경우, 각 대상 세포 타입에서 대상 게놈 편집 이벤트에 대한 최적의 결과를 달성하기 위한, 최적의 조건과 gRNA 및 RT의 길이를 실시예 1-10에 상세히 기술된 바와 같이 조사하여야 한다. 또한, Cas9 닉카제를 이용한 일차 실험을 전술한 바와 동일한 방법으로, 하나 이상의 gRNA와 조합된 1 또는 2개의 개별 RT 및 2 이상의 gRNA를 사용해, 수행하였다. 일차 결과에서, 진핵생물 세포에서도 게놈 편집을 정확하게 수행할 수 있는 유망한 방법인 것으로, 확인되었다.
실시예 12: 동물 세포 구조체
본 발명의 방법은, 상동적인 재조합을 수행할 수 있는, 진핵생물 세포에 적용할 수 있다. 최초 실험에서, 뮤라인 T 세포 또는 T 세포 전구체를, 암 면역요법에 적합하도록 시험관내에서 변형하였다. 본 발명에 따른 하이브리드 핵산 구조체는, 동물 시스템에 대해 특이적으로 최적화 (코돈 최적화) 및 설계 (PAM, 타겟부위)할 경우, 진핵생물의 대상 동물 세포 타입에서 매우 정확한 게놈 편집 용도로 사용될 수 있는 것으로, 입증할 수 있었다. 본 발명에 기술된 방법을 이용한 T 세포의 증식 또는 기능을 조절하는 발현된 유전자의 변형은, 따라서, 본 발명에 따른 구조체를 사용해 대상 세포 타입을 변형함으로써, 테라피, 특히 포유류에서, 보다 상세하게는 개체에서 질환 또는 장애를 치료하는데 사용할 수 있다.
실시예 13: 노출된 미성숙 수이삭 조직의 형질전환/형질감염
전술한 바와 같이, 식물 또는 식물 타겟 구조에 유전 물질을 도입하기 위해, 식물 세포, 조직, 기관 또는 전체 식물 또는 이의 일부를 형질전환하기 위한 다양한 물리적/기계적 수단 및 생물학적 수단들이 개시되어 있다. 이들 방법은, 본 발명에 따른 하나 이상의 하이브리드 RNA/DNA 핵산 서열 및/또는 하나 이상의 gRNA, 및/또는 하나 이상의 복구 주형, 및/또는 하나 이상의 CRISPR 폴리펩타이드를 도입하는데에도 마찬가지로 적합하다. 옥수수 웅성 식물의 분열 조직, 예를 들어, 수이삭 조직을 노출시켜 수득한 후, 하기 방법을 적용해 이 조직을 형질전환할 수 있다:
생물학적 수단의 경우, 식물 조직 또는 이의 세포는, 아그로박테리움 투메팩시엔스 또는 아그로박테리움 리조게네스 매개 형질전환 등의 아그로박테리아를 사용해 형질전환할 수 있다. 이러한 타입의 형질전환은 당해 기술 분야의 당업자들에게 잘 알려져 있다 (예, Jones, H.D. et al., "Review of methodologies and a protocol for the Agrobacterium-mediated transformation of wheat", plant methods, 2005; 또는 Frame, B.R. et al., "Agrobacterium tumefaciens-mediated transformation of maize embryos using a standard binary vector system", Plant, 2002). 이를 위해, 대상 구조체를 포함하는 아그로박테리아 배양물을, 예를 들어, 적절한 항생제, 10 mM MES 및 200 mM ACE가 함유된 루리아 브로스 (Luria Broth) 액체 배지에서 28℃에서 밤새 배양하였다. 다음날, 밤새 배양한 배양물을 4,400 rpm에서 15분간 원심분리하고, 상층액은 제거하였다. 그런 후, 펠렛을 다시 4,400 rpm에서 15분간, 2분간 원심분리하고, 상층액은 제거하였다. 펠렛을 재현탁하였다 (5 ml H2O, 10 mM MES, 10 mM MgCl2 + 20μM ACE). 600 nm에서의 광학 밀도 1.5로 적정하였다. 현탁액은 잠재적으로 희석하여 향후 사용할 수 있다.
생물학적 수단을 통해 식물의 분열조직 세포 또는 조직을 형질전환하는 또 다른 방법은 바이러스 벡터를 이용하는 방법이다. 바이러스 벡터는 DNA 또는 RNA로서 대상 식물 타겟 구조에 도입될 수 있는 이점이 있다. 또한, 바이러스 벡터 또는 식물 바이러스는 여러가지 세포 및 조직으로 전파될 수 있는 전파력을 가지고 있다.
본 발명의 목적에서, 바이러스 또는 T-DNA를 코딩하는 바이러스를 탑재한 아그로박테리아의 시험관내 전사체를 필터레이션 (진공 및 비-진공)을 통해 대상 식물 타겟 구조에 도입시킬 수 있다. 식물 수액을 이용해 또 다른 실험을 수행할 수 있다. 이를 위해, 담배 또는 시금치를 대상 바이러스로 감염시킨 다음, 바이러스를 함유한 식물 수액으로 또 다른 식물 타겟 조직, 특히 여러가지 식물의 분열조직 세포 또는 조직을 감염시키기 위해, 대상 바이러스를 식물 수액으로부터 분리할 수 있다.
대상 수이삭 구조체를 형질전환하는 생물학적 수단 대신, 입자 총격 외에도 추가의 물리적/기계적 형질전환 수단을 이용할 수도 있다.
적합한 한가지 방법은 미세주입법이다. 미세주입법은 바람직하게는 마이크로조작기가 장착된 현미경을 사용해 임의 타입의 테스트 분열조직 구조에 사용할 수 있다. 수이삭 또는 암이삭과 같은 특정 분열조직 구조체의 크기로 인해, 현미경 하에 미세주입법을 수행하거나, 또는 타겟 구조체가 매우 클 경우, 현미경을 사용하지 않고도 수행할 수 있다. 주입은, 다양한 여러가지 타겟 분자에 대해 다양한 방법으로 수행함으로써, 이중 가닥 플라스미드 DNA, 선형의 이중 가닥 DNA, RNA 및 단백질 뿐만 아니라 액체 내 바이러스 입자 등을 대상 식물 타겟 구조에 도입할 수 있다. 이러한 여러가지 분자들은 타겟 분자를 대상 분열조직 세포 또는 구조에 주입하는 과정을 보조하는 마이크로-바늘 또는 나노-바늘을 사용해 적용할 수 있다. 타겟 분자를 먼저 바늘에 코팅한 다음 바늘을 대상 분열조직 세포 또는 구조에 삽입한다.
또 다른 적절한 수단은, 예를 들어 입자 전달 시스템을 이용한 입자 총격이며, 이 방법은 상기에 또한 기술되어 있다.
이러한 기술에 대한 추가적인 개발은, 실리콘 카바이드 (SiC) 위스커 (예, Silar® Silicon Carbide Whisker)를 미세주입법과 조합하여 사용하는 것이다. 이를 위해, 이중 가닥 (선택적으로, 플라스미드) DNA, 선형 이중 가닥 DNA, RNA 단백질 또는 본 발명에 따른 분자 리보뉴클레오-복합체, 또는 바이러스 입자를, 미세주입 바늘을 통해, 대상 분열조직 구조 또는 세포에 주입되는 실리콘 카바이드 위스커 상에 침전시킨다. 이 기법은, 하나의 세포를 형질감염시킬 수 있을 뿐만 아니라 위스커의 전파로 인해 여러 세포에 동시에 침투시킬 수 있는, 이점이 있다. 또한, 바늘이 세포를 관통하지 않고 위스커의 크기가 매우 작기 때문에, 세포가 거의 파괴되지 않는다.
실시예 14: 변형을 검출하기 위한 수단
형광 리포터를 사용할 경우, 본 발명에 따른 하나 이상의 DNA 타겟 서열에 도입된 임의의 일시적인 또는 안정적인 변형은, 형광 검출 수단을 이용해 검출할 수 있다. 꽃밥 및 건조시킨 화분과 같은 수이삭 조직은 자기형광성이 강하기 때문에, 이들 세포 및 조직에 대해는 다른 수단을 사용하여야 한다. 따라서, PCR, 예를 들어, 농화 PCR, PCR-digest, 농화 PCR과 PCR-digest의 조합, 정량적인 PCR 또는 서열분석, 또는 RT-PCR, 예를 들어, 딥 또는 차세대 서열분석 또는 노든 또는 서든 블롯 분석과 같은, 다른 분자적인 방법으로 검출하고, 검증할 수 있다. 단백질 수준은 웨스턴-블롯팅 등에 의해 분석할 수 있다. 표현형 검출가능한 형질이 하나 이상의 대상 세포에 도입되었을 경우, 그 형질, 예를 들어, 저항성, 형광, 형태적 돌연변이 표현형 또는 임의의 다른 형질이 하나 이상의 변형된 세포 또는 이의 후대 또는 파생물에 존재하는 지의 유무를 검출하기 위한 분석을 수행할 수도 있다. 이러한 검출 방법은 당업자들에게 공지되어 있다.
여러가지 타겟 식물 및 이의 세포에서 안정적인 통합 이벤트를 분석하기 위한 일반적인 셋업은 다음과 같이 수행될 수 있다: 먼저, 여러가지 물질, 예를 들어, 형광 단백질, 예를 들어 레드 형광 단백질을 코딩하는 여러가지 구조체로 형질전환된 수이삭, 꽃밥 또는 화분 조직/세포 등의 여러 물질들에서 DNA 및/또는 RNA를 추출한다. 요컨대, 샘플은 정량적인 PCR (qPCR)로 분석할 수 있다. 상기한 샘플들 중, 몇몇 샘플은 명확한, 즉 매우 강한 (적색) 형광 신호를 나타낼 것이며, 이는 양성 결과를 나타내는 것으로, 이를 이후 선별할 수 있다. 이들 샘플에서, 이후의 결과가 비-절단된 DNA와 연관성이 없을 경우를 배제하기 위해, 역전사효소를 사용하지 않는 대조군을 포함시켜 cDNA를 구축한다. 전사 측정을 위해 사용된 양성 DNA 신호가 관찰된 샘플들 중에서, 몇몇 샘플에서는 확실한 전사가 관찰될 수 있지만, 나머지 샘플에서는 잠재적인 전사가 관찰될 수 있다 (명확하게 측정할 수 있는 경계).
실시예 15: Cas9 및 scFv의 융합 단백질
실험에서, SSN으로서 Cas9 뉴클레아제와 상호작용 도메인으로서 플루오레세인에 대한 단쇄 항체로 된 융합 단백질을 시험관내 또는 생체내에서 발현시키고, 복구 주형으로서 작용하도록 FAM-표지된 올리고뉴클레오티드에 노출시킬 수 있다. RT를 합성하여, 복구 주형 도킹 도메인으로서 FAM에 공유 연결하였다. 전술한 바와 같이 복구 또는 서열 기반의 복구 빈도 측정 결과를 의미하는 형광 신호로 편집 효율을 측정하였다. 이에 Cas9과 선택 리간드, 예를 들어 FAM에 특이적인 친화성을 가진 scFv로 된 SSN-상호작용 도메인을 각각 제조 및 정제한 다음 가교 또는 연결하거나, 또는 SSN과 상호작용 도메인 (IA)을 융합 단백질로서 제조할 수 있다. 분석에 따라, SSN-IA 분자를 세포에 형질감염시키거나 또는 단백질로서 분석에 첨가할 수 있거나, 또는 구조체를 생체내에서 전사 및 번역시킬 (유도성 또는 구성적인 방식으로 활성인) 벡터 상에 탑재하여 타겟 세포에 도입할 수 있다. 또한, SSN-IA를 코딩하는 서열을, 생체내에서 번역되는 RNA 구조체로서 변형시킬 대상 DNA 타겟 서열을 포함하는 타겟 세포에 도입할 수 있다. CRISPR-유래 SSN의 기능성과 이의 동족 파트너에 대한 특수 단백질의 매우 높은 결합 친화성을 겸비한 본 발명에 따른 예시적인 SSN-IA 융합 분자를 서열번호 44 (Cas/mSA 융합 구조체) 및 서열번호 45 (Cas/scFv(FAM) 융합 구조체)에 나타낸다. 도 4 A - C는 SSN 및 모노머성 스트렙타비딘 또는 IA로서 scFv로 된 융합체를 이용한 게놈 조작 방식을 개략적으로 예시한다. 특히, 모노머성 스트렙타비딘 또는 scFvs 또는 임의의 다른 IA 또는 RTDD의 사용이 CRISPR 또는 Argonaute 뉴클레아제의 사용을 제한하는 것은 아니다.
실시예 16: scFv-연결된 Cas9 융합 단백질에 의한 핵산 결합
실시예 15의 융합 단백질이 단일 가닥 또는 이중 가닥 복구 주형에 결합하는 능력을 입증하기 위해, 기술한 결합 분석을 플루오레세인 (FAM)-표지된 올리고뉴클레오티드를 사용해 반복 실시한다. FAM-표지된 올리고뉴클레오티드는 상업적으로 입수할 수 있다. 성공적인 상호작용은 단백질, DNA 및 형광 염료의 공동-이동 (co-migration)과 그에 따른 분자량 증가에 의해 검사할 수 있다. 융합 단백질의 뉴클레아제 파트의 기능성은 특이적인 가이드 RNA 및 대응 타겟을 가진 선형화된 플라스미드의 시험관내 절단 분석을 이용해 검사한다. 다양한 CRISPR 뉴클레아제 및 이의 변이체에 대해 당업자들에게 공지된 적절한 pH, 온도 및 조인자 등의 뉴클레아제 활성에 적합한 조건 하에 인큐베이션한 후, DNA 타겟 플라스미드를 아가로스 겔 상에 전개시켜, 예상된 타겟 부위에서의 커팅을 의미하는 밴드 사이즈를 관찰하였다. 타겟 DNA를 시험관내 절단한 결과, 뉴클레아제와 결합된 RT는 부위-특이적인 엔도뉴클레아제로서의 Cas9 복합체의 정상적인 기능을 간섭하지 않은 것으로, 확인되었다.
실시예 17: Cas9 및 mSA2의 융합 단백질
실험에서, Cas9 뉴클레아제 및 변형된 스트렙타비딘 태그 (서열번호 34)로 된 융합 단백질을 발현시켜, 복구 주형으로서 작용하는 바이오틴-표지된 올리고뉴클레오티드, RTDD로서 작용하는 바이오틴 및 RT인 올리고뉴클레오티드에 노출시켰다. 복구 또는 서열 기반의 복구 빈도 측정 결과를 의미하는 형광 신호로 편집 효율을 측정하였다.
실시예 18: mSA2-연결된 Cas9 융합 단백질에 의한 핵산 결합
실시예 17의 융합 단백질이 단일 가닥 또는 이중 가닥 복구 주형에 결합하는 능력을 입증하기 위해, 기술된 결합 분석을 바이오틴-표지된 올리고뉴클레오티드를 사용해 반복 실시하였다. 바이오틴-표지된 올리고뉴클레오티드는 상업적으로 입수하거나, 또는 말단 데옥시뉴클레오티딜 트랜스퍼라제를 사용해 제조할 수 있다. 성공적인 상호작용은 단백질과 DNA의 공동-이동 및 그에 따른 분자량 증가에 의해 검사할 수 있다. 융합 단백질의 뉴클레아제 파트의 기능성은 특이적인 가이드 RNA 및 대응 타겟을 가진 선형화된 플라스미드의 시험관내 절단 분석을 이용해 검사한다. 다양한 CRISPR 뉴클레아제 및 이의 변이체에 대해 당업자들에게 공지된 적절한 pH, 온도 및 조인자 등의 뉴클레아제 활성에 적합한 조건 하에 인큐베이션한 후, DNA 타겟 플라스미드를 아가로스 겔 상에 전개시켜, 예상된 타겟 부위에서의 커팅을 의미하는 밴드 사이즈를 관찰하였다. 타겟 DNA를 시험관내 절단한 결과, 뉴클레아제와 결합된 RT는 Cas9 복합체의 부위-특이적인 엔도뉴클레아제로서의 정상적인 기능을 간섭하지 않은 것으로, 확인되었다.
실시예 19: 유전자 기능성을 복구하기 위한 FAM- 또는 바이오틴-표지된 복구 주형 핵산과 복합체를 형성한 Cas9 융합 단백질에 의한 생체내 에피좀 타겟 편집
타겟 유전자가 Cas9 단백질 및 FAM- 또는 바이오틴-표지된 핵산을 포함하는 전달된 복합체에 의해 생체내에서 편집될 수 있다는 것을 입증하기 위해, 형질전환된 플라스미드에 함유된 비-기능성 tdTomato 유전자를 단일 뉴클레오티드 교체를 통해 복구시켰으며, tdTomato 유전자로부터 형광 신호가 복원되었다. 타겟 가닥 또는 비-타겟 가닥에 상보성을 가진 ssDNA 복구 주형을 제공하여 편집에서의 최적 이용성을 확인하기 위해, 각 가닥의 복구 주형이 탑재된 복합체들을 비교하였다.
실시예 16 또는 18 각각의, 핵산과 복합체를 형성한 융합 단백질을 사용해, 51번 코돈에서 조기 정지 신호를 만드는 A에서 T로의 단일 점 돌연변이를 가진 tdTomato 유전자를 코딩하는 에피좀 플라스미드 타겟을 복구시켰다. 이 플라스미드를, Cas9-ScFV 또는 Cas9-mSA2 융합 단백질을 포함하는 편집 복합체 및 FAM 또는 바이오틴-표지된 핵산과 함께, PEG-매개 전달을 통해, 옥수수 원형질체에 도입하였다. 그런 후, 성공적인 편집으로, 함유된 하나 이상의 플라스미드에서 tdTomato 유전자의 복구로 인해, tdTomato 형광 표현형을 나타내는 몇몇 세포들이 구축되었다. 여러가지 복구 주형에 따른 상대적인 복구 효율은, 따라서, 각 처리에 따라 발생되는 형광 세포 빈도를 측정함으로써, 쉽게 평가할 수 있다.
실시예 20: 특정 유전자 좌에 DNA를 통합하기 위한 FAM- 또는 바이오틴-표지된 복구 주형 핵산과 복합체를 형성한 Cas9 융합 단백질에 의한 염색체 타겟의 생체내 편집
Cas9 단백질 및 FAM- 또는 바이오틴-표지된 핵산을 포함하는 전달된 복합체에 의해 타겟 유전자가 생체내에서 편집될 수 있는 지를 입증하기 위해, 특이적인 공지된 DNA 서열을 게놈 DNA의 특정 부위에 삽입하였다.
플루오레세인 친화성을 가진 단쇄 가변 단편 (실시예 16)과 Cas9으로 된 융합 단백질 (실시예 16) 또는 변형된 스트렙타비딘 (실시예 18)과 Cas9으로 된 융합 단백질을 발현시키고, 태깅된 복구 주형 DNA에 노출시켜, 게놈 유전자 좌에 알고 있는 DNA 서열을 삽입시켰다. 성공적인 편집은 복구를 의미하는 형광 신호에 의해 분석하거나 또는 타겟 부위에서의 분자적 분석으로 분석하였다.
실시예 21: scFv-연계된 Argonaute 융합 단백질에 의한 핵산 결합
복구 주형 핵산이 비-CRISPR 뉴클레아제와 결합하는 능력을 확인하기 위해, 결합 분석을 수행하였으며, FAM-표지된 복구 핵산 올리고와 뉴클레아제 (서열번호 46 참조) 및 FAM에 대해 친화성을 가진 단쇄 가변 단편 (서열번호 43 및 43 참조)으로 된 융합 단백질을 이용한 공동-이동 실험에서 중량 증가가 확인되었다. 마찬가지로, Argonaute SSN은 RT에 대한 결합 복합체로서 모노머성 스트렙타비딘 (서열번호 42 및 44 참조)와 결합할 수 있었다. 융합 단백질의 뉴클레아제 파트의 기능성을, 특이적인 가이드 핵산과, 대응되는 타겟을 가진 선형화된 플라스미드를 이용한 시험관내 절단 분석으로, 검사하였다. 다양한 비-CRISPR 뉴클레아제 및 이의 변이체에 대해 당업자들에게 공지된 적절한 pH, 온도 및 조인자 등의 뉴클레아제 활성에 적합한 조건 하에 인큐베이션한 후, DNA 타겟 플라스미드를 아가로스 겔 상에 전개시켜, 예상된 타겟 부위에서의 커팅을 의미하는 밴드 사이즈를 관찰하였다. 타겟 DNA를 시험관내 절단한 결과, 뉴클레아제와 결합한 RT는 Argonaute 복합체의 부위-특이적인 엔도뉴클레아제로서의 정상적인 기능을 간섭하지 않은 것으로, 확인되었다.
실시예 22: 특정 유전자 좌에 DNA를 통합하기 위한 FAM-표지된 복구 주형 핵산과 복합체를 형성한 Argonaute 융합 단백질에 의한 염색체 타겟의 생체내 편집
non-CRISPR 뉴클레아제 Argonaute 단백질 및 FAM- 또는 바이오틴-표지된 핵산을 포함하는 전달된 복합체에 의해 타겟 유전자가 생체내에서 편집될 수 있는 지를 입증하기 위해, 공지된 특정 DNA 서열을 게놈 DNA의 특정 부위에 삽입하였다.
Argonaute 뉴클레아제 및 플루오레세인 친화성을 가진 단쇄 가변 단편 (실시예 21)으로 된 융합 단백질을 발현시키고, 태깅된 복구 주형 DNA에 노출시켜, 게놈 유전자 좌에 알고 있는 DNA 서열을 삽입시켰다. 성공적인 편집은 복구를 의미하는 형광 신호에 의해 분석하거나 또는 타겟 부위에서의 분자 분석으로 분석한다.
실시예 23: CRISPR 뉴클레아제 (Cas9 또는 Cpf1)와 RTDD1으로 된 융합 단백질
테더링 전략이 작동되고 있는 지를 확인하기 위해, Cas9 또는 Cpf1과 같은 정제된 CRISPR 뉴클레아제를 RTDD1과 융합시켰으며, 이 경우 단쇄 가변 단편 (서열번호 54)을 테더링하여, 박테리아 E. coli에서 발현시켰다. 이를 연속적인 농도 구배 (4-10%)의 변성 SDS 겔에서 전개시켰으며, 단백질의 양 및 순도를 확인하였다. 겔에서 단백질을 염색하였다. 도 5의 우측 패널은 테더링을 나타낸다. 이는 4% 비-변성 아크릴아미드 겔 (Blue Native PAGE)이며, GelRed를 사용해 DNA를 염색한 것이다. FAM-표지된 (RTDD2-) 복구 주형을 도 5에 나타낸 뉴클레아제-RTDD1을 첨가하거나 또는 첨가하지 않고 뉴클레아제 완충제에서 인큐베이션하였다. 단백질이 존재한다면, 테더링이 DNA에서와 같이 발생하며, 이는 더 높은 분자량에서 검출된다 (도 5, 화살표).
실시예 24: HDR 이벤트 검출
차세대 서열분석, 특히 앰플리콘 딥 서열분석이 타겟 부위에서의 HDR 이벤트를 검출할 수 있는 지를 확인하기 위해, 스트렙타비딘 변이체에 융합된 코딩된 뉴클레아제 (이 경우, CRISPR 뉴클레아제)를 복구 주형과 함께 플라스미드 상에 탑재하여 형질전환하였다. 복구 주형은 5' 바이오틴 태그를 가지고 있으며, 단일 가닥 올리고뉴클레오티드로서 전달되었다. 형질전환한 지 24시간 후, 원형질체를 수집하고, DNA를 추출하였다. 타겟 부위를 복구 주형의 상동성 암과 중첩되지 않도록 설계된 프라이머 세트를 사용해 증폭시켰다. 도 6의 4번 레인은 올바른 HDR 이벤트를 나타낸다. 이벤트는 서열 AAGGTGCTCGGCCCCGAGCTC (서열번호 52; 아미노산 서열 KVLGPEL 코딩)를 AAGTGGTCCAGCGCCGCGACCTAGCTC (서열번호 53; 아미노산 서열 KWSSAAT-L 코딩)로 치환하였다. 서열번호 51이 전체 복구 주형으로, 상동성 암들이 앰플리콘을 지나 연장되지 않음을 보여주며, 이는 복구 주형이 남아있는 PCR 아티팩트일 가능성이 없다는 것을 의미한다.
실시예 25: 복구 주형의 테더링은 HDR 효율을 개선한다
실험을 위해, 실시예 24의 구성성분들을 옥수수 잎 원형질체에 형질전환시켰다. 테더링을 위해, 뉴클레아제 (이 경우, CRISPR 뉴클레아제)를 천연 스트렙타비딘 서열과 융합하였다. 각 경우에, 뉴클레아제는 플라스미드 형태로 전달하였다. 복구 주형 DNA는 5' 바이오틴 태그를 가진 올리고뉴클레오티드로서 전달하였다. 형질전환한 지 24시간 후, 원형질체를 수집하고, DNA를 추출하였다. 타겟 부위를 복구 주형의 상동성 암과 중첩되지 않도록 설계된 프라이머 세트를 사용해 증폭시켰다. 앰플리콘 딥 서열분석 (실시예 24 참조) 및 후속적인 컴퓨터 분석으로, 타겟 부위에서 INDEL 및 HDR 이벤트를 정량화할 수 있다. HDR 빈도를 이중 가닥 절단 발생의 척도로서 INDEL 빈도에 대해 표준화하였다. 평균 HDR 빈도는 테더링 없을 경우 0.92% (±0.06%)에서, 복구 주형이 뉴클레아제에 테더링되었을 때 1.26% (±0.06%)까지 증가하였다 (도 7).
SEQUENCE LISTING <110> KWS SAAT SE <120> Repair template linkage to endonucleases for genome engineering <130> KWS0254PCT <150> US 62/451,859 <151> 2017-01-30 <160> 56 <170> PatentIn version 3.5 <210> 1 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> NLS of the SV40 virus large T-antigen <400> 1 Pro Lys Lys Lys Arg Lys Val 1 5 <210> 2 <211> 16 <212> PRT <213> Artificial Sequence <220> <223> Nucleoplasmin bipartite NLS <400> 2 Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys Lys Lys Lys 1 5 10 15 <210> 3 <211> 9 <212> PRT <213> Artificial Sequence <220> <223> c-myc NLS <400> 3 Pro Ala Ala Lys Arg Val Lys Leu Asp 1 5 <210> 4 <211> 11 <212> PRT <213> Artificial Sequence <220> <223> c-myc NLS <400> 4 Arg Gln Arg Arg Asn Glu Leu Lys Arg Ser Pro 1 5 10 <210> 5 <211> 38 <212> PRT <213> Artificial Sequence <220> <223> hRNPA1 M9 NLS <400> 5 Asn Gln Ser Ser Asn Phe Gly Pro Met Lys Gly Gly Asn Phe Gly Gly 1 5 10 15 Arg Ser Ser Gly Pro Tyr Gly Gly Gly Gly Gln Tyr Phe Ala Lys Pro 20 25 30 Arg Asn Gln Gly Gly Tyr 35 <210> 6 <211> 42 <212> PRT <213> Artificial Sequence <220> <223> IBB domain from importin-alpha <400> 6 Arg Met Arg Ile Glx Phe Lys Asn Lys Gly Lys Asp Thr Ala Glu Leu 1 5 10 15 Arg Arg Arg Arg Val Glu Val Ser Val Glu Leu Arg Lys Ala Lys Lys 20 25 30 Asp Glu Gln Ile Leu Lys Arg Arg Asn Val 35 40 <210> 7 <211> 8 <212> PRT <213> Artificial Sequence <220> <223> Sequence derived from myoma T protein <400> 7 Val Ser Arg Lys Arg Pro Arg Pro 1 5 <210> 8 <211> 8 <212> PRT <213> Artificial Sequence <220> <223> Sequence derived from myoma T protein <400> 8 Pro Pro Lys Lys Ala Arg Glu Asp 1 5 <210> 9 <211> 8 <212> PRT <213> Artificial Sequence <220> <223> Sequence derived from human p53 <220> <221> misc_feature <222> (2)..(2) <223> Xaa can be any naturally occurring amino acid <400> 9 Pro Xaa Pro Lys Lys Lys Pro Leu 1 5 <210> 10 <211> 12 <212> PRT <213> Artificial Sequence <220> <223> Sequence derived from mouse c-abl IV <400> 10 Ser Ala Leu Ile Lys Lys Lys Lys Lys Met Ala Pro 1 5 10 <210> 11 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> Sequence derived from influenza virus NS1 <400> 11 Asp Arg Leu Arg Arg 1 5 <210> 12 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> Sequence derived from influenza virus NS1 <400> 12 Pro Lys Gln Lys Lys Arg Lys 1 5 <210> 13 <211> 10 <212> PRT <213> Artificial Sequence <220> <223> Sequence derived from Hepatitis virus delta antigen <400> 13 Arg Lys Leu Lys Lys Lys Ile Lys Lys Leu 1 5 10 <210> 14 <211> 10 <212> PRT <213> Artificial Sequence <220> <223> Sequence derived from mouse Mx1 protein <400> 14 Arg Glu Lys Lys Lys Phe Leu Lys Arg Arg 1 5 10 <210> 15 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> Sequence derived from human poly(ADP-ribose) polymerase <400> 15 Lys Arg Lys Gly Asp Glu Val Asp Gly Val Asp Glu Val Ala Lys Lys 1 5 10 15 Lys Ser Lys Lys 20 <210> 16 <211> 17 <212> PRT <213> Artificial Sequence <220> <223> Derived from steroid hormone receptors (human) glucocorticoid <400> 16 Arg Lys Cys Leu Gln Ala Gly Met Asn Leu Glu Ala Arg Lys Thr Lys 1 5 10 15 Lys <210> 17 <211> 11 <212> PRT <213> Artificial Sequence <220> <223> Sequence derived from HIV Tat <400> 17 Tyr Gly Arg Lys Lys Arg Arg Gln Arg Arg Arg 1 5 10 <210> 18 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> Sequence derived from HIV Tat <400> 18 Gly Arg Lys Lys Arg 1 5 <210> 19 <211> 923 <212> PRT <213> Artificial Sequence <220> <223> 2NLS-NgAgo: WT NgAgo amended with N- and C-terminal sequences <400> 19 Met Ala Ser Ser Pro Lys Lys Lys Arg Lys Val Met Thr Val Ile Asp 1 5 10 15 Leu Asp Ser Thr Thr Thr Ala Asp Glu Leu Thr Ser Gly His Thr Tyr 20 25 30 Asp Ile Ser Val Thr Leu Thr Gly Val Tyr Asp Asn Thr Asp Glu Gln 35 40 45 His Pro Arg Met Ser Leu Ala Phe Glu Gln Asp Asn Gly Glu Arg Arg 50 55 60 Tyr Ile Thr Leu Trp Lys Asn Thr Thr Pro Lys Asp Val Phe Thr Tyr 65 70 75 80 Asp Tyr Ala Thr Gly Ser Thr Tyr Ile Phe Thr Asn Ile Asp Tyr Glu 85 90 95 Val Lys Asp Gly Tyr Glu Asn Leu Thr Ala Thr Tyr Gln Thr Thr Val 100 105 110 Glu Asn Ala Thr Ala Gln Glu Val Gly Thr Thr Asp Glu Asp Glu Thr 115 120 125 Phe Ala Gly Gly Glu Pro Leu Asp His His Leu Asp Asp Ala Leu Asn 130 135 140 Glu Thr Pro Asp Asp Ala Glu Thr Glu Ser Asp Ser Gly His Val Met 145 150 155 160 Thr Ser Phe Ala Ser Arg Asp Gln Leu Pro Glu Trp Thr Leu His Thr 165 170 175 Tyr Thr Leu Thr Ala Thr Asp Gly Ala Lys Thr Asp Thr Glu Tyr Ala 180 185 190 Arg Arg Thr Leu Ala Tyr Thr Val Arg Gln Glu Leu Tyr Thr Asp His 195 200 205 Asp Ala Ala Pro Val Ala Thr Asp Gly Leu Met Leu Leu Thr Pro Glu 210 215 220 Pro Leu Gly Glu Thr Pro Leu Asp Leu Asp Cys Gly Val Arg Val Glu 225 230 235 240 Ala Asp Glu Thr Arg Thr Leu Asp Tyr Thr Thr Ala Lys Asp Arg Leu 245 250 255 Leu Ala Arg Glu Leu Val Glu Glu Gly Leu Lys Arg Ser Leu Trp Asp 260 265 270 Asp Tyr Leu Val Arg Gly Ile Asp Glu Val Leu Ser Lys Glu Pro Val 275 280 285 Leu Thr Cys Asp Glu Phe Asp Leu His Glu Arg Tyr Asp Leu Ser Val 290 295 300 Glu Val Gly His Ser Gly Arg Ala Tyr Leu His Ile Asn Phe Arg His 305 310 315 320 Arg Phe Val Pro Lys Leu Thr Leu Ala Asp Ile Asp Asp Asp Asn Ile 325 330 335 Tyr Pro Gly Leu Arg Val Lys Thr Thr Tyr Arg Pro Arg Arg Gly His 340 345 350 Ile Val Trp Gly Leu Arg Asp Glu Cys Ala Thr Asp Ser Leu Asn Thr 355 360 365 Leu Gly Asn Gln Ser Val Val Ala Tyr His Arg Asn Asn Gln Thr Pro 370 375 380 Ile Asn Thr Asp Leu Leu Asp Ala Ile Glu Ala Ala Asp Arg Arg Val 385 390 395 400 Val Glu Thr Arg Arg Gln Gly His Gly Asp Asp Ala Val Ser Phe Pro 405 410 415 Gln Glu Leu Leu Ala Val Glu Pro Asn Thr His Gln Ile Lys Gln Phe 420 425 430 Ala Ser Asp Gly Phe His Gln Gln Ala Arg Ser Lys Thr Arg Leu Ser 435 440 445 Ala Ser Arg Cys Ser Glu Lys Ala Gln Ala Phe Ala Glu Arg Leu Asp 450 455 460 Pro Val Arg Leu Asn Gly Ser Thr Val Glu Phe Ser Ser Glu Phe Phe 465 470 475 480 Thr Gly Asn Asn Glu Gln Gln Leu Arg Leu Leu Tyr Glu Asn Gly Glu 485 490 495 Ser Val Leu Thr Phe Arg Asp Gly Ala Arg Gly Ala His Pro Asp Glu 500 505 510 Thr Phe Ser Lys Gly Ile Val Asn Pro Pro Glu Ser Phe Glu Val Ala 515 520 525 Val Val Leu Pro Glu Gln Gln Ala Asp Thr Cys Lys Ala Gln Trp Asp 530 535 540 Thr Met Ala Asp Leu Leu Asn Gln Ala Gly Ala Pro Pro Thr Arg Ser 545 550 555 560 Glu Thr Val Gln Tyr Asp Ala Phe Ser Ser Pro Glu Ser Ile Ser Leu 565 570 575 Asn Val Ala Gly Ala Ile Asp Pro Ser Glu Val Asp Ala Ala Phe Val 580 585 590 Val Leu Pro Pro Asp Gln Glu Gly Phe Ala Asp Leu Ala Ser Pro Thr 595 600 605 Glu Thr Tyr Asp Glu Leu Lys Lys Ala Leu Ala Asn Met Gly Ile Tyr 610 615 620 Ser Gln Met Ala Tyr Phe Asp Arg Phe Arg Asp Ala Lys Ile Phe Tyr 625 630 635 640 Thr Arg Asn Val Ala Leu Gly Leu Leu Ala Ala Ala Gly Gly Val Ala 645 650 655 Phe Thr Thr Glu His Ala Met Pro Gly Asp Ala Asp Met Phe Ile Gly 660 665 670 Ile Asp Val Ser Arg Ser Tyr Pro Glu Asp Gly Ala Ser Gly Gln Ile 675 680 685 Asn Ile Ala Ala Thr Ala Thr Ala Val Tyr Lys Asp Gly Thr Ile Leu 690 695 700 Gly His Ser Ser Thr Arg Pro Gln Leu Gly Glu Lys Leu Gln Ser Thr 705 710 715 720 Asp Val Arg Asp Ile Met Lys Asn Ala Ile Leu Gly Tyr Gln Gln Val 725 730 735 Thr Gly Glu Ser Pro Thr His Ile Val Ile His Arg Asp Gly Phe Met 740 745 750 Asn Glu Asp Leu Asp Pro Ala Thr Glu Phe Leu Asn Glu Gln Gly Val 755 760 765 Glu Tyr Asp Ile Val Glu Ile Arg Lys Gln Pro Gln Thr Arg Leu Leu 770 775 780 Ala Val Ser Asp Val Gln Tyr Asp Thr Pro Val Lys Ser Ile Ala Ala 785 790 795 800 Ile Asn Gln Asn Glu Pro Arg Ala Thr Val Ala Thr Phe Gly Ala Pro 805 810 815 Glu Tyr Leu Ala Thr Arg Asp Gly Gly Gly Leu Pro Arg Pro Ile Gln 820 825 830 Ile Glu Arg Val Ala Gly Glu Thr Asp Ile Glu Thr Leu Thr Arg Gln 835 840 845 Val Tyr Leu Leu Ser Gln Ser His Ile Gln Val His Asn Ser Thr Ala 850 855 860 Arg Leu Pro Ile Thr Thr Ala Tyr Ala Asp Gln Ala Ser Thr His Ala 865 870 875 880 Thr Lys Gly Tyr Leu Val Gln Thr Gly Ala Phe Glu Ser Asn Val Gly 885 890 895 Phe Leu Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys Lys 900 905 910 Lys Lys Tyr Pro Tyr Asp Val Pro Asp Tyr Ala 915 920 <210> 20 <211> 1159 <212> PRT <213> Artificial sequence <220> <223> 2NLS-NgAgo-mNeonGreen <400> 20 Met Ala Ser Ser Pro Lys Lys Lys Arg Lys Val Met Thr Val Ile Asp 1 5 10 15 Leu Asp Ser Thr Thr Thr Ala Asp Glu Leu Thr Ser Gly His Thr Tyr 20 25 30 Asp Ile Ser Val Thr Leu Thr Gly Val Tyr Asp Asn Thr Asp Glu Gln 35 40 45 His Pro Arg Met Ser Leu Ala Phe Glu Gln Asp Asn Gly Glu Arg Arg 50 55 60 Tyr Ile Thr Leu Trp Lys Asn Thr Thr Pro Lys Asp Val Phe Thr Tyr 65 70 75 80 Asp Tyr Ala Thr Gly Ser Thr Tyr Ile Phe Thr Asn Ile Asp Tyr Glu 85 90 95 Val Lys Asp Gly Tyr Glu Asn Leu Thr Ala Thr Tyr Gln Thr Thr Val 100 105 110 Glu Asn Ala Thr Ala Gln Glu Val Gly Thr Thr Asp Glu Asp Glu Thr 115 120 125 Phe Ala Gly Gly Glu Pro Leu Asp His His Leu Asp Asp Ala Leu Asn 130 135 140 Glu Thr Pro Asp Asp Ala Glu Thr Glu Ser Asp Ser Gly His Val Met 145 150 155 160 Thr Ser Phe Ala Ser Arg Asp Gln Leu Pro Glu Trp Thr Leu His Thr 165 170 175 Tyr Thr Leu Thr Ala Thr Asp Gly Ala Lys Thr Asp Thr Glu Tyr Ala 180 185 190 Arg Arg Thr Leu Ala Tyr Thr Val Arg Gln Glu Leu Tyr Thr Asp His 195 200 205 Asp Ala Ala Pro Val Ala Thr Asp Gly Leu Met Leu Leu Thr Pro Glu 210 215 220 Pro Leu Gly Glu Thr Pro Leu Asp Leu Asp Cys Gly Val Arg Val Glu 225 230 235 240 Ala Asp Glu Thr Arg Thr Leu Asp Tyr Thr Thr Ala Lys Asp Arg Leu 245 250 255 Leu Ala Arg Glu Leu Val Glu Glu Gly Leu Lys Arg Ser Leu Trp Asp 260 265 270 Asp Tyr Leu Val Arg Gly Ile Asp Glu Val Leu Ser Lys Glu Pro Val 275 280 285 Leu Thr Cys Asp Glu Phe Asp Leu His Glu Arg Tyr Asp Leu Ser Val 290 295 300 Glu Val Gly His Ser Gly Arg Ala Tyr Leu His Ile Asn Phe Arg His 305 310 315 320 Arg Phe Val Pro Lys Leu Thr Leu Ala Asp Ile Asp Asp Asp Asn Ile 325 330 335 Tyr Pro Gly Leu Arg Val Lys Thr Thr Tyr Arg Pro Arg Arg Gly His 340 345 350 Ile Val Trp Gly Leu Arg Asp Glu Cys Ala Thr Asp Ser Leu Asn Thr 355 360 365 Leu Gly Asn Gln Ser Val Val Ala Tyr His Arg Asn Asn Gln Thr Pro 370 375 380 Ile Asn Thr Asp Leu Leu Asp Ala Ile Glu Ala Ala Asp Arg Arg Val 385 390 395 400 Val Glu Thr Arg Arg Gln Gly His Gly Asp Asp Ala Val Ser Phe Pro 405 410 415 Gln Glu Leu Leu Ala Val Glu Pro Asn Thr His Gln Ile Lys Gln Phe 420 425 430 Ala Ser Asp Gly Phe His Gln Gln Ala Arg Ser Lys Thr Arg Leu Ser 435 440 445 Ala Ser Arg Cys Ser Glu Lys Ala Gln Ala Phe Ala Glu Arg Leu Asp 450 455 460 Pro Val Arg Leu Asn Gly Ser Thr Val Glu Phe Ser Ser Glu Phe Phe 465 470 475 480 Thr Gly Asn Asn Glu Gln Gln Leu Arg Leu Leu Tyr Glu Asn Gly Glu 485 490 495 Ser Val Leu Thr Phe Arg Asp Gly Ala Arg Gly Ala His Pro Asp Glu 500 505 510 Thr Phe Ser Lys Gly Ile Val Asn Pro Pro Glu Ser Phe Glu Val Ala 515 520 525 Val Val Leu Pro Glu Gln Gln Ala Asp Thr Cys Lys Ala Gln Trp Asp 530 535 540 Thr Met Ala Asp Leu Leu Asn Gln Ala Gly Ala Pro Pro Thr Arg Ser 545 550 555 560 Glu Thr Val Gln Tyr Asp Ala Phe Ser Ser Pro Glu Ser Ile Ser Leu 565 570 575 Asn Val Ala Gly Ala Ile Asp Pro Ser Glu Val Asp Ala Ala Phe Val 580 585 590 Val Leu Pro Pro Asp Gln Glu Gly Phe Ala Asp Leu Ala Ser Pro Thr 595 600 605 Glu Thr Tyr Asp Glu Leu Lys Lys Ala Leu Ala Asn Met Gly Ile Tyr 610 615 620 Ser Gln Met Ala Tyr Phe Asp Arg Phe Arg Asp Ala Lys Ile Phe Tyr 625 630 635 640 Thr Arg Asn Val Ala Leu Gly Leu Leu Ala Ala Ala Gly Gly Val Ala 645 650 655 Phe Thr Thr Glu His Ala Met Pro Gly Asp Ala Asp Met Phe Ile Gly 660 665 670 Ile Asp Val Ser Arg Ser Tyr Pro Glu Asp Gly Ala Ser Gly Gln Ile 675 680 685 Asn Ile Ala Ala Thr Ala Thr Ala Val Tyr Lys Asp Gly Thr Ile Leu 690 695 700 Gly His Ser Ser Thr Arg Pro Gln Leu Gly Glu Lys Leu Gln Ser Thr 705 710 715 720 Asp Val Arg Asp Ile Met Lys Asn Ala Ile Leu Gly Tyr Gln Gln Val 725 730 735 Thr Gly Glu Ser Pro Thr His Ile Val Ile His Arg Asp Gly Phe Met 740 745 750 Asn Glu Asp Leu Asp Pro Ala Thr Glu Phe Leu Asn Glu Gln Gly Val 755 760 765 Glu Tyr Asp Ile Val Glu Ile Arg Lys Gln Pro Gln Thr Arg Leu Leu 770 775 780 Ala Val Ser Asp Val Gln Tyr Asp Thr Pro Val Lys Ser Ile Ala Ala 785 790 795 800 Ile Asn Gln Asn Glu Pro Arg Ala Thr Val Ala Thr Phe Gly Ala Pro 805 810 815 Glu Tyr Leu Ala Thr Arg Asp Gly Gly Gly Leu Pro Arg Pro Ile Gln 820 825 830 Ile Glu Arg Val Ala Gly Glu Thr Asp Ile Glu Thr Leu Thr Arg Gln 835 840 845 Val Tyr Leu Leu Ser Gln Ser His Ile Gln Val His Asn Ser Thr Ala 850 855 860 Arg Leu Pro Ile Thr Thr Ala Tyr Ala Asp Gln Ala Ser Thr His Ala 865 870 875 880 Thr Lys Gly Tyr Leu Val Gln Thr Gly Ala Phe Glu Ser Asn Val Gly 885 890 895 Phe Leu Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys Lys 900 905 910 Lys Lys Tyr Pro Tyr Asp Val Pro Asp Tyr Ala Met Val Ser Lys Gly 915 920 925 Glu Glu Asp Asn Met Ala Ser Leu Pro Ala Thr His Glu Leu His Ile 930 935 940 Phe Gly Ser Ile Asn Gly Val Asp Phe Asp Met Val Gly Gln Gly Thr 945 950 955 960 Gly Asn Pro Asn Asp Gly Tyr Glu Glu Leu Asn Leu Lys Ser Thr Lys 965 970 975 Gly Asp Leu Gln Phe Ser Pro Trp Ile Leu Val Pro His Ile Gly Tyr 980 985 990 Gly Phe His Gln Tyr Leu Pro Tyr Pro Asp Gly Met Ser Pro Phe Gln 995 1000 1005 Ala Ala Met Val Asp Gly Ser Gly Tyr Gln Val His Arg Thr Met 1010 1015 1020 Gln Phe Glu Asp Gly Ala Ser Leu Thr Val Asn Tyr Arg Tyr Thr 1025 1030 1035 Tyr Glu Gly Ser His Ile Lys Gly Glu Ala Gln Val Lys Gly Thr 1040 1045 1050 Gly Phe Pro Ala Asp Gly Pro Val Met Thr Asn Ser Leu Thr Ala 1055 1060 1065 Ala Asp Trp Cys Arg Ser Lys Lys Thr Tyr Pro Asn Asp Lys Thr 1070 1075 1080 Ile Ile Ser Thr Phe Lys Trp Ser Tyr Thr Thr Gly Asn Gly Lys 1085 1090 1095 Arg Tyr Arg Ser Thr Ala Arg Thr Thr Tyr Thr Phe Ala Lys Pro 1100 1105 1110 Met Ala Ala Asn Tyr Leu Lys Asn Gln Pro Met Tyr Val Phe Arg 1115 1120 1125 Lys Thr Glu Leu Lys His Ser Lys Thr Glu Leu Asn Phe Lys Glu 1130 1135 1140 Trp Gln Lys Ala Phe Thr Asp Val Met Gly Met Asp Glu Leu Tyr 1145 1150 1155 Lys <210> 21 <211> 887 <212> PRT <213> Natronobacterium gregoryi <400> 21 Met Thr Val Ile Asp Leu Asp Ser Thr Thr Thr Ala Asp Glu Leu Thr 1 5 10 15 Ser Gly His Thr Tyr Asp Ile Ser Val Thr Leu Thr Gly Val Tyr Asp 20 25 30 Asn Thr Asp Glu Gln His Pro Arg Met Ser Leu Ala Phe Glu Gln Asp 35 40 45 Asn Gly Glu Arg Arg Tyr Ile Thr Leu Trp Lys Asn Thr Thr Pro Lys 50 55 60 Asp Val Phe Thr Tyr Asp Tyr Ala Thr Gly Ser Thr Tyr Ile Phe Thr 65 70 75 80 Asn Ile Asp Tyr Glu Val Lys Asp Gly Tyr Glu Asn Leu Thr Ala Thr 85 90 95 Tyr Gln Thr Thr Val Glu Asn Ala Thr Ala Gln Glu Val Gly Thr Thr 100 105 110 Asp Glu Asp Glu Thr Phe Ala Gly Gly Glu Pro Leu Asp His His Leu 115 120 125 Asp Asp Ala Leu Asn Glu Thr Pro Asp Asp Ala Glu Thr Glu Ser Asp 130 135 140 Ser Gly His Val Met Thr Ser Phe Ala Ser Arg Asp Gln Leu Pro Glu 145 150 155 160 Trp Thr Leu His Thr Tyr Thr Leu Thr Ala Thr Asp Gly Ala Lys Thr 165 170 175 Asp Thr Glu Tyr Ala Arg Arg Thr Leu Ala Tyr Thr Val Arg Gln Glu 180 185 190 Leu Tyr Thr Asp His Asp Ala Ala Pro Val Ala Thr Asp Gly Leu Met 195 200 205 Leu Leu Thr Pro Glu Pro Leu Gly Glu Thr Pro Leu Asp Leu Asp Cys 210 215 220 Gly Val Arg Val Glu Ala Asp Glu Thr Arg Thr Leu Asp Tyr Thr Thr 225 230 235 240 Ala Lys Asp Arg Leu Leu Ala Arg Glu Leu Val Glu Glu Gly Leu Lys 245 250 255 Arg Ser Leu Trp Asp Asp Tyr Leu Val Arg Gly Ile Asp Glu Val Leu 260 265 270 Ser Lys Glu Pro Val Leu Thr Cys Asp Glu Phe Asp Leu His Glu Arg 275 280 285 Tyr Asp Leu Ser Val Glu Val Gly His Ser Gly Arg Ala Tyr Leu His 290 295 300 Ile Asn Phe Arg His Arg Phe Val Pro Lys Leu Thr Leu Ala Asp Ile 305 310 315 320 Asp Asp Asp Asn Ile Tyr Pro Gly Leu Arg Val Lys Thr Thr Tyr Arg 325 330 335 Pro Arg Arg Gly His Ile Val Trp Gly Leu Arg Asp Glu Cys Ala Thr 340 345 350 Asp Ser Leu Asn Thr Leu Gly Asn Gln Ser Val Val Ala Tyr His Arg 355 360 365 Asn Asn Gln Thr Pro Ile Asn Thr Asp Leu Leu Asp Ala Ile Glu Ala 370 375 380 Ala Asp Arg Arg Val Val Glu Thr Arg Arg Gln Gly His Gly Asp Asp 385 390 395 400 Ala Val Ser Phe Pro Gln Glu Leu Leu Ala Val Glu Pro Asn Thr His 405 410 415 Gln Ile Lys Gln Phe Ala Ser Asp Gly Phe His Gln Gln Ala Arg Ser 420 425 430 Lys Thr Arg Leu Ser Ala Ser Arg Cys Ser Glu Lys Ala Gln Ala Phe 435 440 445 Ala Glu Arg Leu Asp Pro Val Arg Leu Asn Gly Ser Thr Val Glu Phe 450 455 460 Ser Ser Glu Phe Phe Thr Gly Asn Asn Glu Gln Gln Leu Arg Leu Leu 465 470 475 480 Tyr Glu Asn Gly Glu Ser Val Leu Thr Phe Arg Asp Gly Ala Arg Gly 485 490 495 Ala His Pro Asp Glu Thr Phe Ser Lys Gly Ile Val Asn Pro Pro Glu 500 505 510 Ser Phe Glu Val Ala Val Val Leu Pro Glu Gln Gln Ala Asp Thr Cys 515 520 525 Lys Ala Gln Trp Asp Thr Met Ala Asp Leu Leu Asn Gln Ala Gly Ala 530 535 540 Pro Pro Thr Arg Ser Glu Thr Val Gln Tyr Asp Ala Phe Ser Ser Pro 545 550 555 560 Glu Ser Ile Ser Leu Asn Val Ala Gly Ala Ile Asp Pro Ser Glu Val 565 570 575 Asp Ala Ala Phe Val Val Leu Pro Pro Asp Gln Glu Gly Phe Ala Asp 580 585 590 Leu Ala Ser Pro Thr Glu Thr Tyr Asp Glu Leu Lys Lys Ala Leu Ala 595 600 605 Asn Met Gly Ile Tyr Ser Gln Met Ala Tyr Phe Asp Arg Phe Arg Asp 610 615 620 Ala Lys Ile Phe Tyr Thr Arg Asn Val Ala Leu Gly Leu Leu Ala Ala 625 630 635 640 Ala Gly Gly Val Ala Phe Thr Thr Glu His Ala Met Pro Gly Asp Ala 645 650 655 Asp Met Phe Ile Gly Ile Asp Val Ser Arg Ser Tyr Pro Glu Asp Gly 660 665 670 Ala Ser Gly Gln Ile Asn Ile Ala Ala Thr Ala Thr Ala Val Tyr Lys 675 680 685 Asp Gly Thr Ile Leu Gly His Ser Ser Thr Arg Pro Gln Leu Gly Glu 690 695 700 Lys Leu Gln Ser Thr Asp Val Arg Asp Ile Met Lys Asn Ala Ile Leu 705 710 715 720 Gly Tyr Gln Gln Val Thr Gly Glu Ser Pro Thr His Ile Val Ile His 725 730 735 Arg Asp Gly Phe Met Asn Glu Asp Leu Asp Pro Ala Thr Glu Phe Leu 740 745 750 Asn Glu Gln Gly Val Glu Tyr Asp Ile Val Glu Ile Arg Lys Gln Pro 755 760 765 Gln Thr Arg Leu Leu Ala Val Ser Asp Val Gln Tyr Asp Thr Pro Val 770 775 780 Lys Ser Ile Ala Ala Ile Asn Gln Asn Glu Pro Arg Ala Thr Val Ala 785 790 795 800 Thr Phe Gly Ala Pro Glu Tyr Leu Ala Thr Arg Asp Gly Gly Gly Leu 805 810 815 Pro Arg Pro Ile Gln Ile Glu Arg Val Ala Gly Glu Thr Asp Ile Glu 820 825 830 Thr Leu Thr Arg Gln Val Tyr Leu Leu Ser Gln Ser His Ile Gln Val 835 840 845 His Asn Ser Thr Ala Arg Leu Pro Ile Thr Thr Ala Tyr Ala Asp Gln 850 855 860 Ala Ser Thr His Ala Thr Lys Gly Tyr Leu Val Gln Thr Gly Ala Phe 865 870 875 880 Glu Ser Asn Val Gly Phe Leu 885 <210> 22 <211> 747 <212> PRT <213> Microcystis aeruginosa <400> 22 Met Asn Tyr Thr Ala Ala Asn Thr Ala Asn Ser Pro Ile Phe Leu Ser 1 5 10 15 Glu Ile Ser Ser Leu Thr Leu Lys Asn Ser Cys Leu Asn Cys Phe Gln 20 25 30 Leu Asn His Gln Val Thr Arg Lys Ile Gly Asn Arg Phe Ser Trp Gln 35 40 45 Phe Ser Arg Lys Phe Pro Asp Val Val Val Ile Phe Glu Asp Asn Cys 50 55 60 Phe Trp Val Leu Ala Lys Asp Glu Lys Ser Ile Pro Ser Leu Gln Gln 65 70 75 80 Trp Lys Glu Ala Leu Ser Asp Ile Gln Glu Val Leu Arg Glu Asp Ile 85 90 95 Gly Asp His Tyr Tyr Ser Ile His Trp Leu Lys Asp Phe Gln Ile Thr 100 105 110 Ala Leu Val Thr Ala Gln Leu Ala Val Arg Ile Leu Lys Ile Phe Gly 115 120 125 Lys Phe Ser Asp Pro Ile Val Phe Pro Lys Asp Ser Gln Ile Ser Glu 130 135 140 Asn Gln Val Gln Val Arg Arg Glu Val Asn Phe Trp Ala Glu Ile Ile 145 150 155 160 Asn Asp Thr Asp Pro Ala Ile Cys Leu Thr Val Asp Ser Ser Ile Val 165 170 175 Tyr Ser Gly Asp Leu Glu Gln Phe Tyr Glu Asn His Pro Tyr Arg Gln 180 185 190 Asp Ala Val Lys Leu Leu Val Gly Leu Lys Val Lys Asp Arg Glu Thr 195 200 205 Asn Gly Thr Ala Lys Ile Ile Arg Ile Ala Gly Arg Ile Gly Glu Arg 210 215 220 Arg Glu Asp Leu Leu Thr Lys Ala Thr Gly Ser Ile Ser Arg Arg Lys 225 230 235 240 Leu Glu Glu Ala His Leu Gly Gln Pro Val Val Ala Val Gln Phe Gly 245 250 255 Lys Asn Pro Gln Glu Tyr Ile Tyr Pro Leu Ala Ala Leu Lys Pro Trp 260 265 270 Val Thr Asp Glu Asp Glu Ser Leu Phe Gln Val Asn Tyr Gly Asn Leu 275 280 285 Leu Lys Ala Thr Lys Ile Phe Tyr Ala Glu Arg Gln Glu Leu Leu Lys 290 295 300 Leu Tyr Lys Gln Glu Ala Gln Lys Ala Leu Asn Asn Phe Gly Phe Gln 305 310 315 320 Leu Arg Glu Lys Ser Ile Asn Ser Gln Glu Tyr Pro Glu Leu Phe Trp 325 330 335 Thr Pro Ser Ile Ser Ile Glu Gln Thr Pro Ile Leu Phe Gly Gln Gly 340 345 350 Glu Arg Gly Glu Lys Arg Glu Ile Ile Lys Gly Leu Ser Lys Gly Gly 355 360 365 Val Tyr Lys Arg His Arg Glu Tyr Val Asp Pro Ala Arg Lys Ile Arg 370 375 380 Leu Ala Ile Leu Lys Pro Ala Asn Leu Lys Val Gly Asp Phe Arg Glu 385 390 395 400 Gln Leu Glu Lys Arg Leu Lys Leu Tyr Lys Phe Glu Thr Ile Leu Pro 405 410 415 Pro Glu Asn Gln Ile Asn Phe Ser Val Glu Gly Leu Gly Phe Glu Lys 420 425 430 Arg Ala Arg Leu Glu Glu Ala Val Asp Arg Leu Ile Gly Val Glu Ile 435 440 445 Pro Val Asp Ile Ala Leu Val Phe Leu Pro Gln Glu Asp Arg Asn Ala 450 455 460 Asp Asn Thr Glu Glu Gly Ser Leu Tyr Ser Trp Ile Lys Arg Lys Phe 465 470 475 480 Leu Gly Arg Gly Val Ile Thr Gln Met Ile Tyr Glu Lys Thr Leu Asn 485 490 495 Asp Lys Ser Asn Tyr Lys Asn Ile Leu Asn Gln Val Val Pro Gly Ile 500 505 510 Leu Ala Lys Leu Gly Asn Leu Pro Tyr Val Leu Ala Glu Pro Leu Glu 515 520 525 Ile Ala Asp Tyr Phe Ile Gly Leu Asp Val Gly Arg Met Pro Lys Lys 530 535 540 Asn Leu Pro Gly Ser Leu Asn Val Cys Ala Ser Val Arg Leu Tyr Gly 545 550 555 560 Lys Gln Gly Glu Phe Val Arg Cys Arg Val Glu Asp Ser Leu Thr Glu 565 570 575 Gly Glu Glu Ile Pro Gln Arg Ile Leu Glu Asn Cys Leu Pro Gln Ala 580 585 590 Glu Leu Lys Asn Gln Thr Val Leu Ile Tyr Arg Asp Gly Lys Phe Gln 595 600 605 Gly Lys Glu Val Glu Asn Leu Leu Ala Arg Ala Arg Ala Ile Asn Ala 610 615 620 Lys Phe Ile Leu Val Glu Cys Tyr Lys Thr Gly Ile Pro Arg Leu Tyr 625 630 635 640 Asn Leu Gln Gln Lys Gln Ile Asn Ala Pro Ser Lys Gly Leu Ala Leu 645 650 655 Ala Leu Ser Asn Arg Glu Val Ile Leu Ile Thr Ser Gln Val Ser Glu 660 665 670 Gln Ile Gly Val Pro Arg Pro Leu Arg Leu Lys Val His Glu Leu Gly 675 680 685 Glu Gln Arg Asn Leu Lys Gln Leu Val Asp Thr Thr Leu Lys Leu Thr 690 695 700 Leu Leu His Tyr Gly Ser Leu Lys Asp Pro Arg Leu Pro Ile Pro Leu 705 710 715 720 Tyr Gly Ala Asp Ile Ile Ala Tyr Arg Arg Leu Gln Gly Ile Tyr Pro 725 730 735 Ser Leu Leu Glu Asp Asp Cys Gln Phe Trp Leu 740 745 <210> 23 <211> 863 <212> PRT <213> Halogeometricum pallidum <400> 23 Met Val Lys Arg Tyr Ile Ser Phe His Leu Phe Pro Arg Ile Lys Leu 1 5 10 15 Cys Gly Val Tyr Leu Cys Leu Arg Met Asn Thr Lys Asp Asp Ile Ala 20 25 30 His Lys Gln Pro Ile Thr Ile Glu Val Gln Val Leu Lys Glu Leu Asp 35 40 45 Lys Pro Ser Pro Lys Met Ala Thr Arg Leu Leu Val Ala Asp Arg Ala 50 55 60 Gly Asn Arg Phe Pro Leu Ala Ile Trp Lys Asn Asn Ala Leu Ser Asp 65 70 75 80 Tyr Asp Trp Thr Ile Gly Gln Trp Tyr Arg Leu Glu Asn Ala Arg Gly 85 90 95 Asn Val Phe Asn Gly Lys Gln Ser Leu Asn Gly Ser Ser Asn Met Arg 100 105 110 Ala Thr Pro Leu Glu Ala Ser Glu Glu Asp Glu Thr Arg Ala Asp Asp 115 120 125 Val Gly Arg Val Asp Thr Ile Leu Gly Asn Leu Ser Pro Asn Gln Ala 130 135 140 Tyr Leu Ser Leu Phe Pro Ile Ser Arg Ser Phe Asp Thr Leu Ser Val 145 150 155 160 Tyr Glu Tyr Ser Ile Glu Ala Ala Glu Ala Phe Glu Asp Asp Pro Asp 165 170 175 Thr Val Thr Tyr Gln Cys Ala Gly Arg Leu Arg Arg Ile Thr Gly Ala 180 185 190 Gly Val Ala Tyr Ala Gly Pro Met Gln Ile Val Ser Thr Arg Lys Leu 195 200 205 Pro Asp Lys Leu Ala Asp Pro Phe Ser Leu Ser Glu Pro Thr Glu Arg 210 215 220 Glu Leu Lys Ala Ala Asp Ala Arg Asp Arg His Arg Ile Glu Arg Leu 225 230 235 240 Leu Lys Ser Leu Val Lys Ala Ala Ile Asp Asp Ser Thr Tyr Asp Pro 245 250 255 Tyr Gln Ile Asn Arg Ile Arg Ala Arg Thr Pro Ala Ile Thr Ala Gly 260 265 270 Asp Gly Leu Phe Glu Ala Cys Tyr Glu Phe Ala Ala Arg Val Asp Val 275 280 285 Met Pro Ser Gly Asp Ala Phe Val Gly Ile Glu Val Arg Tyr His Ala 290 295 300 Arg Ser Gln Val Thr Ala Asp Val Tyr Glu Asp Lys Thr Gly Glu Leu 305 310 315 320 Val Gly Thr Ile Val Glu His Asp Pro Glu Arg Tyr Asn Val Ser Gly 325 330 335 Thr Gly Arg Val Val Gly Phe Thr Asp His Tyr Phe Thr Asp Ala Leu 340 345 350 Asp Glu Leu Gly Gly Leu Ser Leu Ala Asp Trp Tyr Ala Gln Lys Asp 355 360 365 Arg Val Pro Glu Gly Val Leu Glu Ala Leu Arg Glu Lys Asn Pro Arg 370 375 380 Leu Val Asp Ile Gln Tyr Gln Glu Asp Glu Pro Ala Gln Ile His Val 385 390 395 400 Pro Glu Leu Leu Arg Val Ala Pro Arg Lys Glu Val Val Lys Glu Leu 405 410 415 Asp Pro Thr Phe His Arg Arg Trp Asp Arg Glu Ala Lys Met Leu Pro 420 425 430 Asp Lys Arg Phe Arg His Ala Ile Glu Phe Val Asp His Leu Gly Ser 435 440 445 Leu Pro Asp Ile Asp Ala Thr Val Ala Pro Glu Pro Leu Gly Pro Ser 450 455 460 Leu Ser Tyr Met Ser Thr Ala Val Asp Arg Glu Glu Asn Leu Arg Phe 465 470 475 480 Lys Asp Gly Arg Thr Ala Thr Thr Pro Ser Ser Gly Ile Arg Ser Gly 485 490 495 Val Tyr Gln Gln Pro Thr Ser Phe Asp Ile Ala Tyr Val Tyr Pro Thr 500 505 510 Glu Ser Glu Gln Glu Ser Lys Gln Phe Ile Ser Asn Phe Glu Asn Lys 515 520 525 Leu Ser Arg Cys His Cys Glu Pro Thr Ala Thr Arg His Val Pro Tyr 530 535 540 Glu Leu Gly Gly Glu Leu Ser Tyr Leu Ala Val Ile Asn Glu Leu Glu 545 550 555 560 Ser Val Asp Ala Val Leu Ala Val Val Pro Pro Arg Asn Asp Asp Arg 565 570 575 Ile Ala Ala Gly Asp Ile Thr Asp Pro Tyr Pro Glu Phe Lys Lys Gly 580 585 590 Leu Gly Lys Gln Lys Val Pro Ser Gln Met Val Val Thr Glu Asn Leu 595 600 605 Asp Thr Arg Trp Val Met Asn Asn Thr Ala Met Gly Leu Ile Ala Gly 610 615 620 Ala Gly Gly Val Pro Trp Arg Val Asp Glu Met Pro Gly Glu Ala Asp 625 630 635 640 Cys Phe Ile Gly Leu Asp Val Thr Arg Asp Pro Glu Thr Gly Gln His 645 650 655 Leu Gly Ala Ser Ala Asn Val Val Tyr Ala Asp Gly Thr Val Phe Ala 660 665 670 Ser Lys Thr Gln Thr Leu Gln Ser Gly Glu Thr Phe Asp Glu Gln Ser 675 680 685 Ile Ile Asp Val Ile Lys Asp Val Phe Gln Glu Phe Val Arg Arg Glu 690 695 700 Gly Arg Ser Pro Glu His Ile Val Ile His Arg Asp Gly Arg Leu Phe 705 710 715 720 Glu Asp Ala Asp Glu Ile Gln Ala Pro Phe Ala Asp Ser Gly Val Ser 725 730 735 Ile Asp Ile Leu Asp Ile Arg Lys Ser Gly Ala Pro Arg Ile Ala Arg 740 745 750 Tyr Glu Asp Asn Ser Phe Lys Ile Asp Glu Lys Gly Arg Leu Phe Ile 755 760 765 Ser Gln Asp Asp Thr His Gly Phe Ile Ala Thr Thr Gly Lys Pro Glu 770 775 780 Phe Asp Asp Ser Asp Asn Leu Gly Thr Pro Lys Thr Leu Arg Val Val 785 790 795 800 Arg Arg Ala Gly Asp Thr Pro Met Leu Thr Leu Leu Lys Gln Val Tyr 805 810 815 Trp Leu Ser Glu Ala His Ile Gly Ser Val Ser Arg Ser Val Arg Leu 820 825 830 Pro Ile Thr Thr Tyr Tyr Ala Asp Arg Cys Ala Glu His Ala Arg Glu 835 840 845 Gly Tyr Leu Leu His Gly Glu Leu Ile Glu Gly Val Pro Tyr Leu 850 855 860 <210> 24 <211> 839 <212> PRT <213> Natrialba asiatica <400> 24 Met Lys Thr Gln Asp Asp Ile Ala His Lys Gln Pro Ile Thr Ile Glu 1 5 10 15 Val Gln Ile Leu Lys Glu Leu Asp Lys Pro Ser Pro Lys Met Ala Thr 20 25 30 Arg Phe Leu Val Ala Asp Arg Asp Gly Asn Arg Phe Ser Leu Ala Ile 35 40 45 Trp Lys Asn Asn Ala Leu Ser Asp Tyr Asp Trp Thr Ile Gly Gln Trp 50 55 60 Tyr Arg Leu Glu Asn Ala Arg Gly Asn Val Phe Asn Gly Lys Gln Ser 65 70 75 80 Leu Asn Gly Ser Ser Lys Met Arg Ala Thr Pro Leu Glu Ala Ser Glu 85 90 95 Glu Asp Glu Thr Ser Thr Asp Asp Val Gly Arg Val Asp Thr Ile Leu 100 105 110 Gly Asn Met Ser Pro Asp Gln Ala Tyr Leu Ser Leu Phe Pro Ile Ser 115 120 125 Arg Ser Phe Asp Thr Leu Ser Val Tyr Glu Tyr Ser Ile Glu Ala Ala 130 135 140 Glu Ala Phe Glu Asp Ala Pro Asp Thr Val Thr Tyr Arg Cys Ala Gly 145 150 155 160 Arg Leu Arg Arg Ile Thr Gly Ala Gly Val Ala Tyr Ala Gly Ser Met 165 170 175 Arg Ile Val Ser Thr Arg Lys Leu Pro Asp Lys Leu Ala Asp Pro Phe 180 185 190 Ser Leu Ser Glu Pro Thr Glu Arg Glu Leu Asn Ala Thr Asp Ala Arg 195 200 205 Asp Arg His Arg Ile Glu Arg Leu Leu Lys Ser Leu Val Lys Ala Ala 210 215 220 Ile Asp Asp Ser Thr Tyr Asp Pro Tyr Gln Ile Asn Arg Ile Arg Ala 225 230 235 240 Arg Thr Pro Ser Ile Thr Ala Gly Asp Gly Leu Phe Glu Ala Cys Tyr 245 250 255 Glu Phe Ala Ala Arg Val Asp Val Met Pro Ser Gly Asp Ala Phe Val 260 265 270 Gly Ile Glu Val Arg Tyr His Thr Arg Ser Gln Val Thr Ala Asp Val 275 280 285 Tyr Glu Asp Lys Thr Ala Glu Leu Val Gly Thr Ile Val Glu His Asp 290 295 300 Pro Glu Arg Tyr Asn Ile Ser Gly Thr Gly Arg Val Val Gly Phe Thr 305 310 315 320 Asp His His Phe Thr Asp Ala Leu Asp Glu Leu Gly Gly Leu Ser Leu 325 330 335 Ala Asp Trp Tyr Ala Gln Lys Asp Arg Val Pro Glu Gly Val Leu Glu 340 345 350 Ala Leu Arg Glu Lys Asn Pro Arg Leu Val Asp Ile Gln Tyr Gln Glu 355 360 365 Asp Glu Pro Ala Arg Ile His Val Pro Asp Leu Leu Arg Val Ala Pro 370 375 380 Arg Lys Glu Val Val Lys Glu Leu Asp Pro Ala Phe His Arg Arg Trp 385 390 395 400 Asp Arg Glu Ala Lys Met Leu Pro Asp Lys Arg Phe Arg His Ala Ile 405 410 415 Glu Phe Val Asp His Leu Gly Ser Leu Pro Asp Ile Asp Ala Thr Val 420 425 430 Ala Pro Glu Pro Leu Gly Pro Ser Leu Ser Tyr Met Ser Thr Ala Val 435 440 445 Asp Arg Glu Lys Asn Leu Arg Phe Lys Asp Gly Arg Thr Ala Thr Thr 450 455 460 Pro Ser Ser Gly Ile Arg Ser Gly Val Tyr Gln Gln Pro Thr Ser Phe 465 470 475 480 Asp Ile Ala Tyr Val Tyr Pro Thr Glu Ser Glu Gln Glu Ser Lys Gln 485 490 495 Phe Ile Ser Asn Phe Glu Asn Lys Leu Ser Gln Cys Gln Cys Glu Pro 500 505 510 Thr Ala Ala Arg His Val Pro Tyr Glu Leu Gly Gly Glu Leu Ser Tyr 515 520 525 Leu Ala Val Ile Asn Glu Leu Glu Ser Val Asp Ala Val Leu Ala Val 530 535 540 Val Pro Pro Arg Asp Asp Asp Arg Ile Thr Ala Gly Asp Ile Thr Asp 545 550 555 560 Pro Tyr Pro Glu Phe Lys Lys Gly Leu Gly Lys Gln Lys Ile Pro Ser 565 570 575 Gln Met Ile Val Thr Glu Asn Leu Gly Thr Arg Trp Val Met Asn Asn 580 585 590 Thr Ala Met Gly Leu Ile Ala Gly Ala Gly Gly Val Pro Trp Arg Val 595 600 605 Asp Glu Met Pro Gly Glu Ala Asp Cys Phe Ile Gly Leu Asp Val Thr 610 615 620 Arg Asp Pro Glu Thr Gly Gln His Leu Gly Ala Ser Ala Asn Val Val 625 630 635 640 Tyr Ala Asp Gly Thr Val Phe Ala Ser Lys Thr Gln Thr Leu Gln Ser 645 650 655 Gly Glu Thr Phe Asp Glu Gln Ser Ile Ile Asp Val Ile Lys Asp Val 660 665 670 Phe Gln Glu Phe Val Arg Arg Glu Gly Arg Ser Pro Glu His Ile Val 675 680 685 Ile His Arg Asp Gly Arg Leu Phe Glu Asp Ala Asp Glu Ile Gln Ala 690 695 700 Pro Phe Ala Asp Ser Gly Val Ser Ile Asp Ile Leu Asp Ile Arg Lys 705 710 715 720 Ser Gly Ala Pro Arg Ile Ala Gln Tyr Glu Asp Asn Ser Phe Lys Ile 725 730 735 Asp Glu Lys Gly Arg Leu Phe Ile Ser Gln Asp Asp Thr His Gly Phe 740 745 750 Ile Ala Thr Thr Gly Lys Pro Glu Phe Asp Asp Ser Asp Asn Leu Gly 755 760 765 Thr Pro Lys Thr Leu Arg Val Val Arg Arg Ala Gly Asp Thr Pro Met 770 775 780 Leu Thr Leu Leu Lys Gln Val Tyr Trp Leu Ser Glu Ala His Val Gly 785 790 795 800 Ser Val Ser Arg Ser Val Arg Leu Pro Ile Thr Thr Tyr Tyr Ala Asp 805 810 815 Arg Cys Ala Glu His Ala Arg Glu Gly Tyr Leu Leu His Gly Glu Leu 820 825 830 Ile Glu Gly Val Pro Tyr Leu 835 <210> 25 <211> 889 <212> PRT <213> Natronorubrum tibetense <400> 25 Met Ala Val Lys Thr Asp Ile Glu Asp Gly Lys Gln Ile Asp Ile Ser 1 5 10 15 Leu Arg Val Thr Gly Thr Asp Glu Trp Asp His Asp Ala Ile Ala Arg 20 25 30 Lys Val Gln Leu Glu Asp Val Glu Gly Thr Pro Val Glu Leu Thr Val 35 40 45 Phe His Asn Asn Glu Ile Ala Asp Phe Glu Trp Asp Asp Glu Arg Trp 50 55 60 Tyr Val Leu Glu Asn Val Val Gly Asn Glu Tyr Arg Gly Glu Met Gln 65 70 75 80 Leu Asn Pro Gly Tyr Asp Leu Ile Val Thr Pro Leu Asp Glu Pro Pro 85 90 95 Ala Ala Ala Glu Asn Gly Gly Ala Glu Asn Thr Ser Ala Thr Gln Ser 100 105 110 Ser Glu Ser Gly Asp Ser Gly Ser Ser Thr Glu Ala Asp Gln Ser Ala 115 120 125 Glu Ser Glu Ser Ala Arg Glu Ser Glu Val Thr Ser Glu Pro Arg Pro 130 135 140 Thr Ala Asp Gly Gly Gly Glu Leu Leu His Gln Gln Pro Leu Ser Glu 145 150 155 160 Gly Asn Tyr Leu Leu Gln Phe Glu Leu Gly Asp Leu Pro Glu Leu Thr 165 170 175 Val His Glu Tyr Glu Leu Arg Ala Thr Gly Ser Gly Gly Ile Asn Pro 180 185 190 Asp Asp Phe Thr Asn Gly Ile Glu Gly Phe Thr Ala Lys Ala Ala Asn 195 200 205 Tyr Tyr Gln Ser Arg Ile Asn Ser Pro Val Thr Thr Ala Asp Ala Ser 210 215 220 Arg Arg Arg Ile Tyr Ala Thr Glu Lys Leu His Gly Lys Ile Ser Ile 225 230 235 240 His Gly Tyr Thr Val Lys Pro Val His Gln Gly Glu Thr Thr Leu Glu 245 250 255 Ala Arg Ser Tyr Thr Asp Asp Gly Pro Leu Gln Glu Phe Val Lys Gln 260 265 270 Asp Val Lys Arg Ala Val Ala Gly Arg Phe Glu Val Ser Gly Ile Asp 275 280 285 Ser Ile Ile Glu Pro Thr Pro Gln Arg Thr Ala Asn Ser Gly Leu Phe 290 295 300 Glu Ala Tyr Arg Lys Tyr Lys Cys Arg Ile Arg Val Asp Ala Asp Gly 305 310 315 320 Thr Val Ile Cys Gly Val Asn Val Ala Tyr His Leu Glu Ser Thr Phe 325 330 335 Ser Ala Ala Asp Trp Val Gln Arg Gly His Asp Ile Ala Glu Val Thr 340 345 350 Val Glu His Asp Thr Asp Leu Tyr Asp Ser Ala Arg Thr Ala Thr Val 355 360 365 Lys Glu Val Ile Asp Met Asp Tyr Asp Asp Val Leu Asp Gly Pro Gly 370 375 380 Val Pro Met Ser Glu Tyr His Glu Gln His Val Glu Gln Asp Val Ile 385 390 395 400 Asn Ser Met Gln Ala Gly Asp Pro Ile Ile Ala Asp Leu Gln Tyr Gly 405 410 415 Ser Asp Glu Asp Ser Ile Phe Pro Gln Leu Leu Glu Tyr Cys Lys Val 420 425 430 Ile Pro Thr Phe Asp Gln Leu Gly Ser Val Asp Asp Thr Phe Leu Asp 435 440 445 Val Ile His Asn Glu Ser Arg Met Glu Pro Glu Glu Arg Phe Ser Val 450 455 460 Val Thr Ser Phe Val Asp Leu Leu Gly Pro Thr Pro Tyr Phe Ser Phe 465 470 475 480 Asp Pro Val Pro Gln Pro Thr Asn Ala Gly Tyr Arg Glu His Lys Thr 485 490 495 Pro Asn Thr Pro Asn Leu Arg Phe Gly Asp Gly Lys Thr Gly Phe Tyr 500 505 510 Gly Ala Gly Gly Leu Glu Arg Lys Gly Tyr Gly Ile Tyr Lys Ala Pro 515 520 525 Glu Ser Phe Asp Ile Ile Ala Leu Tyr Pro Glu Asp Glu Glu Asp Asp 530 535 540 Ala Arg Pro Tyr Val Leu Ser Leu Leu Asn Lys Leu Ala Asp Tyr Asp 545 550 555 560 Ala Gly Pro Thr Val Phe Asp Gln Glu Thr Tyr Glu Leu Gly Ser Glu 565 570 575 Phe His Tyr Ser Gln His Ala Gln Lys Ala Ser Asp Tyr Asp Ala Ala 580 585 590 Leu Ile Val Val Pro Asp Ala Asp Lys Ala Ala Ala Ala Asp Tyr Asp 595 600 605 Asp Pro Tyr Pro Glu Phe Lys Arg Arg Leu Gly Gln Leu Gly Val Pro 610 615 620 Ser Gln Met Ile Ser Val Asp Asn Leu Gly Asn Asp Asn Tyr Arg Gly 625 630 635 640 Asn Ile Cys Ser Ser Leu Ile Gly Lys Ala Gly Gly Val Pro Trp Arg 645 650 655 Ile Asp Asp Val Pro Gly Asp Val Asp Ala Phe Val Gly Leu Asp Val 660 665 670 Thr Tyr Asp His Ala Thr Lys Gln His Leu Gly Ala Ala Ala Asn Val 675 680 685 Ile Met Ala Asp Gly Thr Ile Leu Ala Ser Glu Ala Val Thr Lys Gln 690 695 700 Ala Gly Glu Thr Phe Asp Glu Asp Asp Val Ala Asn Val Ile Lys His 705 710 715 720 Val Leu Glu Ile Phe Ala Glu Glu Glu Gly Arg Pro Pro Arg His Val 725 730 735 Val Ile His Arg Asp Gly Lys Phe Tyr Leu Asp Val Glu Asn Leu Val 740 745 750 Lys Arg Leu Asp Lys Ala Arg Asp Leu Ile Gln Arg Phe Asp Leu Val 755 760 765 Glu Ile Arg Lys Ser Gly Asn Pro Arg Ile Ala Ala Tyr Asp Glu Ser 770 775 780 Glu Ser Arg Phe Asp Ile Ala Asp Lys Gly Ile Ala Phe His Val His 785 790 795 800 Asn Gly Asp His Ser Tyr Leu Thr Thr Thr Gly Gly Arg Glu Gly Ser 805 810 815 Pro Gly Thr Pro Arg Pro Leu Gln Ile Val Lys Arg His Gly Ser Thr 820 825 830 Asp Leu Asp Thr Leu Ala Glu Gln Thr Tyr Trp Leu Ser Glu Ala His 835 840 845 Val Gly Ser Leu Ser Arg Ser Thr Arg Leu Pro Ile Thr Thr Tyr Tyr 850 855 860 Ala Asp Lys Cys Ala Asp Phe Ala Met Lys Gly Tyr Leu Thr Lys Gly 865 870 875 880 Ser Val Ile Arg Gly Val Pro Tyr Ile 885 <210> 26 <211> 847 <212> PRT <213> Natrinema pellirubrum <400> 26 Met Pro Thr Gln Ser Asp Ile Glu Asp Gly Glu Arg Ile Asp Ile Gln 1 5 10 15 Val Lys Val Leu Ser Glu Leu Asp Arg Pro Ser Glu Lys Met Ala Lys 20 25 30 Arg Leu Arg Val Arg Asp Thr Asp Gly Asn Glu Phe Pro Leu Thr Ile 35 40 45 Trp Lys Asn Asn Ala Leu Cys Asp Phe Ala Trp Glu Arg Gly Arg Trp 50 55 60 Tyr Glu Leu Glu Asn Ala Arg Gly Asn Glu Phe Arg Gly Glu Lys Ser 65 70 75 80 Leu Asn Gly Ser Ser Arg Leu His Ala Asp Pro Val Asp Asn Pro Ile 85 90 95 Asp Ser Asp Arg Ser Gln Gln Ser Thr Thr Ala Glu Ser Thr Asp Lys 100 105 110 Gln Phe Asp Ser Leu Glu Asp Gly Leu Pro Tyr Leu Ser Leu Phe Pro 115 120 125 Ile Asp Arg Glu Phe Glu Thr Val Asp Val Tyr Glu Tyr Arg Ile Glu 130 135 140 Ala Asp Gly Pro Phe Asp Asp Asp Pro Met Asp Ala Thr Tyr Thr Leu 145 150 155 160 Ala Ala Tyr Leu Arg Ser Cys Ser Asp Ala Ala Val Thr His Ala Gly 165 170 175 Ile Phe Ser Val Ile Ala Thr Asn Arg Leu Thr Asn Ala Leu Pro Asp 180 185 190 Pro Phe Glu Leu Thr Asp Glu Ser Arg Val Thr Leu Arg Ala Asp Asp 195 200 205 Glu Thr Asp Asn Glu Cys Leu Val Arg Leu Leu Gln Gln Val Phe Lys 210 215 220 Thr Ala Val Asp Asp Glu Thr Tyr Glu Thr Gly Arg Val Asp Arg Ile 225 230 235 240 Arg Thr Gln Asp Pro Val Ile Thr Gly Gln Asp Gly Leu Phe Glu Ala 245 250 255 Cys Leu Ala Tyr Thr Ala Arg Leu Glu Ile Leu Pro Ser Gly Lys Ala 260 265 270 Phe Val Gly Ile Asp Ile Ser Tyr His Ala Arg Ser Gln Val Thr Val 275 280 285 Asp Lys Tyr Val Asp Arg Ile Asn Ala Ser Val Asp Glu Leu Ile Asp 290 295 300 Thr Pro Val Glu His Asp Pro Glu Arg Tyr Glu Lys Ser Gly Ser Gly 305 310 315 320 Arg Leu Lys Gly Phe Ala Asp Val Thr Phe Thr Asp Pro Val Asp Asp 325 330 335 Phe Gly Asn Gln Ser Leu Ala Asp Trp Tyr Glu Gln Lys Gly Arg Ile 340 345 350 Ser Asp Asp Met Leu Glu Arg Leu Arg Ser Glu Asp Pro Gln Leu Val 355 360 365 Glu Ile Gln Tyr Asn Pro Asn Ser Asp Glu Thr Asn Leu His Val Pro 370 375 380 Gln Leu Leu Arg Val Ala Pro Arg Lys Glu Ile Val Lys Lys Leu Ala 385 390 395 400 Pro Thr Phe His Arg Lys Trp Asp Arg Ala Ala Lys Met Leu Pro Asp 405 410 415 Asp Arg Phe Arg Lys Ala Thr Arg Phe Val Ala Arg Leu Asp Ser Leu 420 425 430 Ser Glu Val Asp Ala Gln Ile Glu Pro Asn Pro Val Gly Pro Asn Ile 435 440 445 Ser Phe Met Ser Thr Glu Val Asp Arg Ser Asp Asn Leu Arg Phe Gly 450 455 460 Asp Asp Gln Thr Thr Thr Leu Pro Asn Asn Gly Leu Lys Arg Tyr Gly 465 470 475 480 Ile Tyr Arg Arg Pro Ser Ser Leu His Leu His Tyr Leu Val Pro Glu 485 490 495 Arg Tyr Thr Asp Glu Phe Ala Ser Phe Arg Glu Gln Leu Glu Arg Gln 500 505 510 Leu Ala Thr Ile Gly Cys Ser Pro Asp Asp Ile Ser Tyr Asp Glu Tyr 515 520 525 Gly Leu Gly Asn Ala Ile Asn Tyr Asn Thr Thr Ala Ala Ala Val Asp 530 535 540 Asp Val Asp Ile Val Leu Ala Val Val Pro Ala Pro Asp Asn Asp Phe 545 550 555 560 Ile Arg Asn Gly Thr Ile Asp Asp Pro Tyr Pro Glu Phe Lys Lys Ser 565 570 575 Leu Gly Lys Gln Thr Ile Pro Ser Gln Met Val Arg Glu Asp Asn Leu 580 585 590 Asp Asp Arg Trp Ile Leu Arg Asn Thr Ala Leu Gly Val Ile Ala Gly 595 600 605 Ala Gly Gly Val Pro Trp Arg Val Asp Glu Met Pro Gly Asp Val Asp 610 615 620 Cys Phe Val Gly Leu Asp Ala Thr Arg Asp Pro Glu Thr Gly Gln Phe 625 630 635 640 Leu Gly Ala Ser Ala Asn Val Val Leu Ser Asp Gly Thr Val Phe Val 645 650 655 Ser Lys Thr Gln Ser Leu Gln Ser Gly Glu Thr Phe Asp Glu Asn Ala 660 665 670 Ile Val Asp Val Leu Lys Asp Val His Arg Glu Phe Val Arg Glu Glu 675 680 685 Gly Lys Ser Pro Asn Asn Ile Val Ile His Arg Asp Gly Arg Leu Phe 690 695 700 Glu Asp Val Asp Thr Ile Leu Glu Pro Phe Asp Glu Thr Asp Ile Asp 705 710 715 720 Ile Asp Ile Leu Asp Val Arg Lys Ser Gly Ala Pro Arg Ala Ala Val 725 730 735 Tyr Gln Asp Asp Gln Phe Gln Val Asp His Lys Gly Arg Leu Phe Val 740 745 750 Ala Gln Ser Gly Asp Tyr Gly Phe Leu Thr Thr Thr Gly Arg Pro Glu 755 760 765 Phe Asp Glu Asp Asp Gly Leu Gly Thr Pro Arg Ser Leu Arg Ile Val 770 775 780 Arg Arg Ala Gly Glu Thr Pro Met Arg Thr Leu Leu Glu Gln Val Tyr 785 790 795 800 Trp Leu Ser Glu Ser His Val Gly Ser Ala Gln Arg Ser Thr Arg Leu 805 810 815 Pro Ile Thr Thr Tyr Tyr Ala Asp Arg Cys Ala Glu His Ala Arg Glu 820 825 830 Gly Tyr Leu Val Asn Gly Glu Leu Ile Arg Gly Val Pro Tyr Leu 835 840 845 <210> 27 <211> 747 <212> PRT <213> Microcystis aeruginosa <400> 27 Met Asn Tyr Thr Glu Thr Lys Thr Ala Asn Ser Pro Ile Phe Leu Ser 1 5 10 15 Glu Ile Ser Ser Leu Thr Leu Asn Asn Asn Cys Leu Asn Cys Phe Lys 20 25 30 Leu Asn His Gln Val Thr Arg Lys Ile Gly Asn Arg Phe Ser Trp Gln 35 40 45 Phe Ser Arg Lys Phe Pro Ala Val Val Val Ile Phe Glu Asp Asn Cys 50 55 60 Phe Trp Val Leu Ala Lys Asp Glu Lys Leu Leu Pro Ser Pro Gln Gln 65 70 75 80 Trp Lys Glu Ala Leu Ser Asp Ile Gln Glu Val Leu Arg Glu Asp Ile 85 90 95 Gly Asp His Tyr Tyr Ser Ile His Trp Leu Lys Asp Phe Gln Ile Thr 100 105 110 Ala Leu Val Thr Ala Gln Leu Ala Val Arg Ile Leu Lys Ile Phe Gly 115 120 125 Lys Phe Ser Tyr Pro Ile Val Phe Pro Lys Asp Ser Gln Ile Ser Glu 130 135 140 Asn Gln Val Gln Val Arg Arg Glu Val Asn Phe Trp Ala Glu Ile Ile 145 150 155 160 Asn Asp Thr Asp Pro Ala Ile Cys Leu Thr Leu Glu Ser Ser Ile Val 165 170 175 Tyr Ser Gly Asp Leu Glu Gln Phe Tyr Glu Asn His Pro Tyr Arg Gln 180 185 190 Asp Ala Ala Lys Leu Leu Val Gly Leu Lys Val Lys Thr Ile Glu Thr 195 200 205 Asn Gly Thr Ala Lys Ile Ile Arg Ile Ala Gly Thr Ile Gly Glu Arg 210 215 220 Arg Glu Glu Leu Leu Thr Lys Ala Thr Gly Ser Ile Ser Arg Arg Lys 225 230 235 240 Leu Glu Glu Ala His Leu Gly Gln Pro Val Val Ala Val Gln Phe Gly 245 250 255 Lys Asn Ser Gln Glu Tyr Ile Tyr Pro Leu Ala Ala Leu Lys Pro Cys 260 265 270 Met Thr Asp Lys Asp Glu Ser Leu Phe Gln Val Asn Tyr Gly Glu Leu 275 280 285 Leu Lys Glu Thr Lys Ile Phe Tyr Ala Glu Arg Gln Glu Arg Leu Lys 290 295 300 Leu Tyr Lys Gln Glu Ala Gln Asn Thr Leu Asn Asn Phe Gly Phe Arg 305 310 315 320 Leu Gly Glu Lys Ser Ile Asn Ser Arg Glu Tyr Pro Glu Leu Phe Trp 325 330 335 Asn Pro Ser Ile Ser Leu Glu Gln Thr Pro Ile Leu Phe Gly Lys Gly 340 345 350 Glu Arg Gly Glu Lys Ile Lys Thr Leu Lys Gly Leu Ser Lys Gly Gly 355 360 365 Val Tyr Lys Arg His Arg Glu Tyr Leu Asp Pro Ala Arg Lys Ile Arg 370 375 380 Leu Ala Ile Leu Lys Pro Ala Asn Leu Lys Val Gly Asp Phe Arg Glu 385 390 395 400 Gln Leu Glu Lys Arg Leu Glu Leu Tyr Lys Phe Glu Thr Ile Leu Pro 405 410 415 Ala Glu Asn Gln Ile Asn Phe Ser Val Glu Gly Val Gly Phe Glu Lys 420 425 430 Arg Ala Arg Leu Glu Glu Ala Val Asp Gln Leu Ile Arg Gly Glu Ile 435 440 445 Pro Val Asp Ile Ala Leu Val Phe Leu Pro Gln Glu Asp Arg Asn Ala 450 455 460 Asp Asn Thr Glu Glu Gly Ser Leu Tyr Ser Trp Ile Lys Lys Lys Phe 465 470 475 480 Leu Glu Arg Arg Val Met Thr Gln Met Ile Tyr Glu Lys Thr Leu Asn 485 490 495 Asp Lys Ser Asn Tyr Lys Asn Ile Leu Asn Gln Val Val Pro Gly Ile 500 505 510 Leu Ala Lys Leu Gly Asn Leu Pro Tyr Val Leu Ala Glu Ser Leu Glu 515 520 525 Ile Ala Asp Tyr Phe Ile Gly Leu Asp Val Gly Arg Met Pro Lys Lys 530 535 540 Asn Leu Pro Gly Ser Leu Asn Val Cys Ala Ser Val Arg Leu Tyr Gly 545 550 555 560 Lys Gln Gly Glu Phe Val Arg Cys Arg Val Glu Asp Ser Leu Thr Glu 565 570 575 Gly Glu Glu Ile Pro Gln Arg Ile Leu Glu Asn Cys Leu Pro Gln Ala 580 585 590 Glu Leu Lys Asn Gln Thr Val Leu Ile Tyr Arg Asp Gly Lys Phe Gln 595 600 605 Gly Lys Glu Val Asp Asn Leu Leu Ala Arg Ala Arg Ala Ile Asn Ala 610 615 620 Lys Phe Ile Leu Val Glu Cys Tyr Lys Thr Gly Ile Pro Arg Leu Tyr 625 630 635 640 Asn Phe Glu Gln Lys Gln Ile Asn Ala Pro Ser Lys Gly Leu Ala Phe 645 650 655 Ala Leu Ser Lys Arg Glu Val Ile Leu Ile Thr Ser Gln Val Ser Glu 660 665 670 Gln Ile Gly Val Pro Arg Pro Leu Arg Leu Lys Val His Glu Leu Gly 675 680 685 Asp Gln Val Asn Leu Lys Gln Leu Val Asp Thr Thr Leu Lys Leu Thr 690 695 700 Leu Leu His Tyr Gly Ser Leu Lys Glu Pro Arg Leu Pro Ile Pro Leu 705 710 715 720 Tyr Gly Ala Asp Ala Ile Ala Tyr Arg Arg Leu Gln Gly Ile Cys Pro 725 730 735 Ser Leu Leu Glu Asp Asp Cys Gln Phe Trp Leu 740 745 <210> 28 <211> 747 <212> PRT <213> Microcystis aeruginosa <400> 28 Met Asn Tyr Thr Ala Ala Asn Thr Ala Asn Ser Pro Ile Phe Leu Ser 1 5 10 15 Glu Ile Ser Ser Leu Thr Leu Lys Asn Ser Cys Leu Asn Cys Phe Gln 20 25 30 Leu Asn His Gln Val Thr Arg Lys Ile Gly Asn Arg Phe Ser Trp Gln 35 40 45 Phe Ser Arg Lys Phe Pro Asp Val Val Val Ile Phe Glu Asp Asn Cys 50 55 60 Phe Trp Val Leu Ala Lys Asp Glu Lys Ser Ile Pro Ser Leu Gln Gln 65 70 75 80 Trp Lys Glu Ala Leu Ser Asp Ile Gln Glu Val Leu Arg Glu Asp Ile 85 90 95 Gly Asp His Tyr Tyr Ser Ile His Trp Leu Lys Asp Phe Gln Ile Thr 100 105 110 Ala Leu Val Thr Ala Gln Leu Ala Val Arg Ile Leu Lys Ile Phe Gly 115 120 125 Lys Phe Ser Asp Pro Ile Val Phe Pro Lys Asp Ser Gln Ile Ser Glu 130 135 140 Asn Gln Val Gln Val Arg Arg Glu Val Asn Phe Trp Ala Glu Ile Ile 145 150 155 160 Asn Asp Thr Asp Pro Ala Ile Cys Leu Thr Val Asp Ser Ser Ile Val 165 170 175 Tyr Ser Gly Asp Leu Glu Gln Phe Tyr Glu Asn His Pro Tyr Arg Gln 180 185 190 Asp Ala Val Lys Leu Leu Val Gly Leu Lys Val Lys Asp Arg Glu Thr 195 200 205 Asn Gly Thr Ala Lys Ile Ile Arg Ile Ala Gly Arg Ile Gly Glu Arg 210 215 220 Arg Glu Asp Leu Leu Thr Lys Ala Thr Gly Ser Ile Ser Arg Arg Lys 225 230 235 240 Leu Glu Glu Ala His Leu Gly Gln Pro Val Val Ala Val Gln Phe Gly 245 250 255 Lys Asn Pro Gln Glu Tyr Ile Tyr Pro Leu Ala Ala Leu Lys Pro Trp 260 265 270 Val Thr Asp Glu Asp Glu Ser Leu Phe Gln Val Asn Tyr Gly Asn Leu 275 280 285 Leu Lys Ala Thr Lys Ile Phe Tyr Ala Glu Arg Gln Glu Leu Leu Lys 290 295 300 Leu Tyr Lys Gln Glu Ala Gln Lys Ala Leu Asn Asn Phe Gly Phe Gln 305 310 315 320 Leu Arg Glu Lys Ser Ile Asn Ser Gln Glu Tyr Pro Glu Leu Phe Trp 325 330 335 Thr Pro Ser Ile Ser Ile Glu Gln Thr Pro Ile Leu Phe Gly Gln Gly 340 345 350 Glu Arg Gly Glu Lys Arg Glu Ile Ile Lys Gly Leu Ser Lys Gly Gly 355 360 365 Val Tyr Lys Arg His Arg Glu Tyr Val Asp Pro Ala Arg Lys Ile Arg 370 375 380 Leu Ala Ile Leu Lys Pro Ala Asn Leu Lys Val Gly Asp Phe Arg Glu 385 390 395 400 Gln Leu Glu Lys Arg Leu Lys Leu Tyr Lys Phe Glu Thr Ile Leu Pro 405 410 415 Pro Glu Asn Gln Ile Asn Phe Ser Val Glu Gly Leu Gly Phe Glu Lys 420 425 430 Arg Ala Arg Leu Glu Glu Ala Val Asp Arg Leu Ile Gly Val Glu Ile 435 440 445 Pro Val Asp Ile Ala Leu Val Phe Leu Pro Gln Glu Asp Arg Asn Ala 450 455 460 Asp Asn Thr Glu Glu Gly Ser Leu Tyr Ser Trp Ile Lys Arg Lys Phe 465 470 475 480 Leu Gly Arg Gly Val Ile Thr Gln Met Ile Tyr Glu Lys Thr Leu Asn 485 490 495 Asp Lys Ser Asn Tyr Lys Asn Ile Leu Asn Gln Val Val Pro Gly Ile 500 505 510 Leu Ala Lys Leu Gly Asn Leu Pro Tyr Val Leu Ala Glu Pro Leu Glu 515 520 525 Ile Ala Asp Tyr Phe Ile Gly Leu Asp Val Gly Arg Met Pro Lys Lys 530 535 540 Asn Leu Pro Gly Ser Leu Asn Val Cys Ala Ser Val Arg Leu Tyr Gly 545 550 555 560 Lys Gln Gly Glu Phe Val Arg Cys Arg Val Glu Asp Ser Leu Thr Glu 565 570 575 Gly Glu Glu Ile Pro Gln Arg Ile Leu Glu Asn Cys Leu Pro Gln Ala 580 585 590 Glu Leu Lys Asn Gln Thr Val Leu Ile Tyr Arg Asp Gly Lys Phe Gln 595 600 605 Gly Lys Glu Val Glu Asn Leu Leu Ala Arg Ala Arg Ala Ile Asn Ala 610 615 620 Lys Phe Ile Leu Val Glu Cys Tyr Lys Thr Gly Ile Pro Arg Leu Tyr 625 630 635 640 Asn Leu Gln Gln Lys Gln Ile Asn Ala Pro Ser Lys Gly Leu Ala Leu 645 650 655 Ala Leu Ser Asn Arg Glu Val Ile Leu Ile Thr Ser Gln Val Ser Glu 660 665 670 Gln Ile Gly Val Pro Arg Pro Leu Arg Leu Lys Val His Glu Leu Gly 675 680 685 Glu Gln Arg Asn Leu Lys Gln Leu Val Asp Thr Thr Leu Lys Leu Thr 690 695 700 Leu Leu His Tyr Gly Ser Leu Lys Asp Pro Arg Leu Pro Ile Pro Leu 705 710 715 720 Tyr Gly Ala Asp Ile Ile Ala Tyr Arg Arg Leu Gln Gly Ile Tyr Pro 725 730 735 Ser Leu Leu Glu Asp Asp Cys Gln Phe Trp Leu 740 745 <210> 29 <211> 735 <212> PRT <213> Synechococcus elongatus <400> 29 Met Asp Leu Leu Ser Asn Leu Arg Arg Ser Ser Ile Val Leu Asn Arg 1 5 10 15 Phe Tyr Val Lys Ser Leu Ser Gln Ser Asp Leu Thr Ala Tyr Glu Tyr 20 25 30 Arg Cys Ile Phe Lys Lys Thr Pro Glu Leu Gly Asp Glu Lys Arg Leu 35 40 45 Leu Ala Ser Ile Cys Tyr Lys Leu Gly Ala Ile Ala Val Arg Ile Gly 50 55 60 Ser Asn Ile Ile Thr Lys Glu Ala Val Arg Pro Glu Lys Leu Gln Gly 65 70 75 80 His Asp Trp Gln Leu Val Gln Met Gly Thr Lys Gln Leu Asp Cys Arg 85 90 95 Asn Asp Ala His Arg Cys Ala Leu Glu Thr Phe Glu Arg Lys Phe Leu 100 105 110 Glu Arg Asp Leu Ser Ala Ser Ser Gln Thr Glu Val Arg Lys Ala Ala 115 120 125 Glu Gly Gly Leu Ile Trp Trp Val Val Gly Ala Lys Gly Ile Glu Lys 130 135 140 Ser Gly Asn Gly Trp Glu Val His Arg Gly Arg Arg Ile Asp Val Ser 145 150 155 160 Leu Asp Ala Glu Gly Asn Leu Tyr Leu Glu Ile Asp Ile His His Arg 165 170 175 Phe Tyr Thr Pro Trp Thr Val His Gln Trp Leu Glu Gln Tyr Pro Glu 180 185 190 Ile Pro Leu Ser Tyr Val Arg Asn Asn Tyr Leu Asp Glu Arg His Gly 195 200 205 Phe Ile Asn Trp Gln Tyr Gly Arg Phe Thr Gln Glu Arg Pro Gln Asp 210 215 220 Ile Leu Leu Asp Cys Leu Gly Met Ser Leu Ala Glu Tyr His Leu Asn 225 230 235 240 Lys Gly Ala Thr Glu Glu Glu Val Gln Gln Ser Tyr Val Val Tyr Val 245 250 255 Lys Pro Ile Ser Trp Arg Lys Gly Lys Leu Thr Ala His Leu Ser Arg 260 265 270 Arg Leu Ser Pro Ser Leu Thr Met Glu Met Leu Ala Lys Val Ala Glu 275 280 285 Asp Ser Thr Val Cys Asp Arg Glu Lys Arg Glu Ile Arg Ala Val Phe 290 295 300 Lys Ser Ile Lys Gln Ser Ile Asn Gln Arg Leu Gln Glu Ala Gln Lys 305 310 315 320 Thr Ala Ser Trp Ile Leu Thr Lys Thr Tyr Gly Ile Ser Ser Pro Ala 325 330 335 Ile Ala Leu Ser Cys Asp Gly Tyr Leu Leu Pro Ala Ala Lys Leu Leu 340 345 350 Ala Ala Asn Lys Gln Pro Val Ser Lys Thr Ala Asp Ile Arg Asn Lys 355 360 365 Gly Cys Ala Lys Ile Gly Glu Thr Ser Phe Gly Tyr Leu Asn Leu Tyr 370 375 380 Asn Asn Gln Leu Gln Tyr Pro Leu Glu Val His Lys Cys Leu Leu Glu 385 390 395 400 Ile Ala Asn Lys Asn Asn Leu Gln Leu Ser Leu Asp Gln Arg Arg Val 405 410 415 Leu Ser Asp Tyr Pro Gln Asp Asp Leu Asp Gln Gln Met Phe Trp Gln 420 425 430 Thr Trp Ser Ser Gln Gly Ile Lys Thr Val Leu Val Val Met Pro Trp 435 440 445 Asp Ser His His Asp Lys Gln Lys Ile Arg Ile Gln Ala Ile Gln Ala 450 455 460 Gly Ile Ala Thr Gln Phe Met Val Pro Leu Pro Lys Ala Asp Lys Tyr 465 470 475 480 Lys Ala Leu Asn Val Thr Leu Gly Leu Leu Cys Lys Ala Gly Trp Gln 485 490 495 Pro Ile Gln Leu Glu Ser Val Asp His Pro Glu Val Ala Asp Leu Ile 500 505 510 Ile Gly Phe Asp Thr Gly Thr Asn Arg Glu Leu Tyr Tyr Gly Thr Ser 515 520 525 Ala Phe Ala Val Leu Ala Asp Gly Gln Ser Leu Gly Trp Glu Leu Pro 530 535 540 Ala Val Gln Arg Gly Glu Thr Phe Ser Gly Gln Ala Ile Trp Gln Thr 545 550 555 560 Val Ser Lys Leu Ile Ile Lys Phe Tyr Gln Ile Cys Gln Arg Tyr Pro 565 570 575 Gln Lys Leu Leu Leu Met Arg Asp Gly Leu Val Gln Glu Gly Glu Phe 580 585 590 Gln Gln Thr Ile Glu Leu Leu Lys Glu Arg Lys Ile Ala Val Asp Val 595 600 605 Ile Ser Val Arg Lys Ser Gly Ala Gly Arg Met Gly Gln Glu Ile Tyr 610 615 620 Glu Asn Gly Gln Leu Val Tyr Arg Asp Ala Ala Ile Gly Ser Val Ile 625 630 635 640 Leu Gln Pro Ala Glu Arg Ser Phe Ile Met Val Thr Ser Gln Pro Val 645 650 655 Ser Lys Thr Ile Gly Ser Ile Arg Pro Leu Arg Ile Val His Glu Tyr 660 665 670 Gly Ser Thr Asp Leu Glu Leu Leu Ala Leu Gln Thr Tyr His Leu Thr 675 680 685 Gln Leu His Pro Ala Ser Gly Phe Arg Ser Cys Arg Leu Pro Trp Val 690 695 700 Leu His Leu Ala Asp Arg Ser Ser Lys Glu Phe Gln Arg Ile Gly Gln 705 710 715 720 Ile Ser Val Leu Gln Asn Ile Ser Arg Asp Lys Leu Ile Ala Val 725 730 735 <210> 30 <211> 25 <212> PRT <213> Saccharomyces cerevisiae <400> 30 Met Leu Ser Leu Arg Gln Ser Ile Arg Phe Phe Lys Pro Ala Thr Arg 1 5 10 15 Thr Leu Cys Ser Ser Arg Tyr Leu Leu 20 25 <210> 31 <211> 33 <212> PRT <213> Homo sapiens <400> 31 Met Leu Ser Ala Leu Ala Arg Pro Ala Ser Ala Ala Leu Arg Arg Ser 1 5 10 15 Phe Ser Thr Ser Ala Gln Asn Asn Ala Lys Val Ala Val Leu Gly Ala 20 25 30 Ser <210> 32 <211> 23 <212> PRT <213> Arabidopsis thaliana <400> 32 Met His Ser Arg Ser Ala Leu Leu Tyr Arg Phe Leu Arg Pro Ala Ser 1 5 10 15 Arg Cys Phe Ser Ser Ser Ser 20 <210> 33 <211> 424 <212> PRT <213> Agrobacterium tumefaciens <400> 33 Met Pro Asp Arg Ala Gln Val Ile Ile Arg Ile Val Pro Gly Gly Gly 1 5 10 15 Thr Lys Thr Leu Gln Gln Ile Ile Asn Gln Leu Glu Tyr Leu Ser Arg 20 25 30 Lys Gly Lys Leu Glu Leu Gln Arg Ser Ala Arg His Leu Asp Ile Pro 35 40 45 Val Pro Pro Asp Gln Ile Arg Glu Leu Ala Gln Ser Trp Val Thr Glu 50 55 60 Ala Gly Ile Tyr Asp Glu Ser Gln Ser Asp Asp Asp Arg Gln Gln Asp 65 70 75 80 Leu Thr Thr His Ile Ile Val Ser Phe Pro Ala Gly Thr Asp Gln Thr 85 90 95 Ala Ala Tyr Glu Ala Ser Arg Glu Trp Ala Ala Glu Met Phe Gly Ser 100 105 110 Gly Tyr Gly Gly Gly Arg Tyr Asn Tyr Leu Thr Ala Tyr His Val Asp 115 120 125 Arg Asp His Pro His Leu His Val Val Val Asn Arg Arg Glu Leu Leu 130 135 140 Gly His Gly Trp Leu Lys Ile Ser Arg Arg His Pro Gln Leu Asn Tyr 145 150 155 160 Asp Gly Leu Arg Lys Lys Met Ala Glu Ile Ser Leu Arg His Gly Ile 165 170 175 Val Leu Asp Ala Thr Ser Arg Ala Glu Arg Gly Ile Ala Glu Arg Pro 180 185 190 Ile Thr Tyr Ala Glu His Arg Arg Leu Glu Arg Met Gln Ala Gln Lys 195 200 205 Ile Gln Phe Glu Asp Thr Asp Phe Asp Glu Thr Ser Pro Glu Glu Asp 210 215 220 Arg Arg Asp Leu Ser Gln Ser Phe Asp Pro Phe Arg Ser Asp Pro Ser 225 230 235 240 Thr Gly Glu Pro Asp Arg Ala Thr Arg His Asp Lys Gln Pro Leu Glu 245 250 255 Gln His Ala Arg Phe Gln Glu Ser Ala Gly Ser Ser Ile Lys Ala Asp 260 265 270 Ala Arg Ile Arg Val Ser Leu Glu Ser Glu Arg Ser Ala Gln Pro Ser 275 280 285 Ala Ser Lys Ile Pro Val Ile Gly His Phe Gly Ile Glu Thr Ser Tyr 290 295 300 Val Ala Glu Ala Ser Val Arg Lys Arg Ser Gly Ile Phe Gly Thr Ser 305 310 315 320 Arg Pro Val Thr Asp Val Ala Met His Thr Val Lys Arg Gln Gln Arg 325 330 335 Ser Lys Arg Arg Asn Asp Glu Glu Ala Gly Pro Ser Gly Ala Asn Arg 340 345 350 Lys Gly Leu Lys Ala Ala Gln Val Asp Ser Glu Ala Asn Val Gly Glu 355 360 365 Gln Asp Thr Arg Asp Asp Ser Asn Lys Ala Ala Asp Pro Val Ser Ala 370 375 380 Ser Ile Gly Thr Glu Gln Pro Glu Ala Ser Pro Lys Arg Pro Arg Asp 385 390 395 400 Arg His Asp Gly Glu Leu Gly Gly Arg Lys Arg Ala Arg Gly Asn Arg 405 410 415 Arg Asp Asp Gly Arg Gly Gly Thr 420 <210> 34 <211> 387 <212> DNA <213> Artificial sequence <220> <223> pET-MBP-mSA2 <400> 34 gcggaagcgg gtatcaccgg cacgtggtac aaccagcatg gttctacctt caccgttacc 60 gcgggtgcgg acggtaacct gaccggtcag tacgaaaacc gtgcgcaggg cactggttgc 120 cagaactctc cgtacaccct gaccggtcgt tacaacggta ccaaactgga atggcgtgtt 180 gaatggaaca actctaccga aaactgccac tctcgtaccg aatggcgtgg tcagtaccag 240 ggtggtgcgg aagcgcgtat caacacccag tggaacctga cctacgaagg tggttctggt 300 ccggcgaccg aacagggtca ggacaccttc accaaagtta aaccgtctgc ggcgtctgga 360 tccgactaca aggacgatga cgacaag 387 <210> 35 <211> 1300 <212> PRT <213> Francisella tularensis subsp. novicida U112 <400> 35 Met Ser Ile Tyr Gln Glu Phe Val Asn Lys Tyr Ser Leu Ser Lys Thr 1 5 10 15 Leu Arg Phe Glu Leu Ile Pro Gln Gly Lys Thr Leu Glu Asn Ile Lys 20 25 30 Ala Arg Gly Leu Ile Leu Asp Asp Glu Lys Arg Ala Lys Asp Tyr Lys 35 40 45 Lys Ala Lys Gln Ile Ile Asp Lys Tyr His Gln Phe Phe Ile Glu Glu 50 55 60 Ile Leu Ser Ser Val Cys Ile Ser Glu Asp Leu Leu Gln Asn Tyr Ser 65 70 75 80 Asp Val Tyr Phe Lys Leu Lys Lys Ser Asp Asp Asp Asn Leu Gln Lys 85 90 95 Asp Phe Lys Ser Ala Lys Asp Thr Ile Lys Lys Gln Ile Ser Glu Tyr 100 105 110 Ile Lys Asp Ser Glu Lys Phe Lys Asn Leu Phe Asn Gln Asn Leu Ile 115 120 125 Asp Ala Lys Lys Gly Gln Glu Ser Asp Leu Ile Leu Trp Leu Lys Gln 130 135 140 Ser Lys Asp Asn Gly Ile Glu Leu Phe Lys Ala Asn Ser Asp Ile Thr 145 150 155 160 Asp Ile Asp Glu Ala Leu Glu Ile Ile Lys Ser Phe Lys Gly Trp Thr 165 170 175 Thr Tyr Phe Lys Gly Phe His Glu Asn Arg Lys Asn Val Tyr Ser Ser 180 185 190 Asn Asp Ile Pro Thr Ser Ile Ile Tyr Arg Ile Val Asp Asp Asn Leu 195 200 205 Pro Lys Phe Leu Glu Asn Lys Ala Lys Tyr Glu Ser Leu Lys Asp Lys 210 215 220 Ala Pro Glu Ala Ile Asn Tyr Glu Gln Ile Lys Lys Asp Leu Ala Glu 225 230 235 240 Glu Leu Thr Phe Asp Ile Asp Tyr Lys Thr Ser Glu Val Asn Gln Arg 245 250 255 Val Phe Ser Leu Asp Glu Val Phe Glu Ile Ala Asn Phe Asn Asn Tyr 260 265 270 Leu Asn Gln Ser Gly Ile Thr Lys Phe Asn Thr Ile Ile Gly Gly Lys 275 280 285 Phe Val Asn Gly Glu Asn Thr Lys Arg Lys Gly Ile Asn Glu Tyr Ile 290 295 300 Asn Leu Tyr Ser Gln Gln Ile Asn Asp Lys Thr Leu Lys Lys Tyr Lys 305 310 315 320 Met Ser Val Leu Phe Lys Gln Ile Leu Ser Asp Thr Glu Ser Lys Ser 325 330 335 Phe Val Ile Asp Lys Leu Glu Asp Asp Ser Asp Val Val Thr Thr Met 340 345 350 Gln Ser Phe Tyr Glu Gln Ile Ala Ala Phe Lys Thr Val Glu Glu Lys 355 360 365 Ser Ile Lys Glu Thr Leu Ser Leu Leu Phe Asp Asp Leu Lys Ala Gln 370 375 380 Lys Leu Asp Leu Ser Lys Ile Tyr Phe Lys Asn Asp Lys Ser Leu Thr 385 390 395 400 Asp Leu Ser Gln Gln Val Phe Asp Asp Tyr Ser Val Ile Gly Thr Ala 405 410 415 Val Leu Glu Tyr Ile Thr Gln Gln Ile Ala Pro Lys Asn Leu Asp Asn 420 425 430 Pro Ser Lys Lys Glu Gln Glu Leu Ile Ala Lys Lys Thr Glu Lys Ala 435 440 445 Lys Tyr Leu Ser Leu Glu Thr Ile Lys Leu Ala Leu Glu Glu Phe Asn 450 455 460 Lys His Arg Asp Ile Asp Lys Gln Cys Arg Phe Glu Glu Ile Leu Ala 465 470 475 480 Asn Phe Ala Ala Ile Pro Met Ile Phe Asp Glu Ile Ala Gln Asn Lys 485 490 495 Asp Asn Leu Ala Gln Ile Ser Ile Lys Tyr Gln Asn Gln Gly Lys Lys 500 505 510 Asp Leu Leu Gln Ala Ser Ala Glu Asp Asp Val Lys Ala Ile Lys Asp 515 520 525 Leu Leu Asp Gln Thr Asn Asn Leu Leu His Lys Leu Lys Ile Phe His 530 535 540 Ile Ser Gln Ser Glu Asp Lys Ala Asn Ile Leu Asp Lys Asp Glu His 545 550 555 560 Phe Tyr Leu Val Phe Glu Glu Cys Tyr Phe Glu Leu Ala Asn Ile Val 565 570 575 Pro Leu Tyr Asn Lys Ile Arg Asn Tyr Ile Thr Gln Lys Pro Tyr Ser 580 585 590 Asp Glu Lys Phe Lys Leu Asn Phe Glu Asn Ser Thr Leu Ala Asn Gly 595 600 605 Trp Asp Lys Asn Lys Glu Pro Asp Asn Thr Ala Ile Leu Phe Ile Lys 610 615 620 Asp Asp Lys Tyr Tyr Leu Gly Val Met Asn Lys Lys Asn Asn Lys Ile 625 630 635 640 Phe Asp Asp Lys Ala Ile Lys Glu Asn Lys Gly Glu Gly Tyr Lys Lys 645 650 655 Ile Val Tyr Lys Leu Leu Pro Gly Ala Asn Lys Met Leu Pro Lys Val 660 665 670 Phe Phe Ser Ala Lys Ser Ile Lys Phe Tyr Asn Pro Ser Glu Asp Ile 675 680 685 Leu Arg Ile Arg Asn His Ser Thr His Thr Lys Asn Gly Ser Pro Gln 690 695 700 Lys Gly Tyr Glu Lys Phe Glu Phe Asn Ile Glu Asp Cys Arg Lys Phe 705 710 715 720 Ile Asp Phe Tyr Lys Gln Ser Ile Ser Lys His Pro Glu Trp Lys Asp 725 730 735 Phe Gly Phe Arg Phe Ser Asp Thr Gln Arg Tyr Asn Ser Ile Asp Glu 740 745 750 Phe Tyr Arg Glu Val Glu Asn Gln Gly Tyr Lys Leu Thr Phe Glu Asn 755 760 765 Ile Ser Glu Ser Tyr Ile Asp Ser Val Val Asn Gln Gly Lys Leu Tyr 770 775 780 Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ser Ala Tyr Ser Lys Gly Arg 785 790 795 800 Pro Asn Leu His Thr Leu Tyr Trp Lys Ala Leu Phe Asp Glu Arg Asn 805 810 815 Leu Gln Asp Val Val Tyr Lys Leu Asn Gly Glu Ala Glu Leu Phe Tyr 820 825 830 Arg Lys Gln Ser Ile Pro Lys Lys Ile Thr His Pro Ala Lys Glu Ala 835 840 845 Ile Ala Asn Lys Asn Lys Asp Asn Pro Lys Lys Glu Ser Val Phe Glu 850 855 860 Tyr Asp Leu Ile Lys Asp Lys Arg Phe Thr Glu Asp Lys Phe Phe Phe 865 870 875 880 His Cys Pro Ile Thr Ile Asn Phe Lys Ser Ser Gly Ala Asn Lys Phe 885 890 895 Asn Asp Glu Ile Asn Leu Leu Leu Lys Glu Lys Ala Asn Asp Val His 900 905 910 Ile Leu Ser Ile Asp Arg Gly Glu Arg His Leu Ala Tyr Tyr Thr Leu 915 920 925 Val Asp Gly Lys Gly Asn Ile Ile Lys Gln Asp Thr Phe Asn Ile Ile 930 935 940 Gly Asn Asp Arg Met Lys Thr Asn Tyr His Asp Lys Leu Ala Ala Ile 945 950 955 960 Glu Lys Asp Arg Asp Ser Ala Arg Lys Asp Trp Lys Lys Ile Asn Asn 965 970 975 Ile Lys Glu Met Lys Glu Gly Tyr Leu Ser Gln Val Val His Glu Ile 980 985 990 Ala Lys Leu Val Ile Glu Tyr Asn Ala Ile Val Val Phe Glu Asp Leu 995 1000 1005 Asn Phe Gly Phe Lys Arg Gly Arg Phe Lys Val Glu Lys Gln Val 1010 1015 1020 Tyr Gln Lys Leu Glu Lys Met Leu Ile Glu Lys Leu Asn Tyr Leu 1025 1030 1035 Val Phe Lys Asp Asn Glu Phe Asp Lys Thr Gly Gly Val Leu Arg 1040 1045 1050 Ala Tyr Gln Leu Thr Ala Pro Phe Glu Thr Phe Lys Lys Met Gly 1055 1060 1065 Lys Gln Thr Gly Ile Ile Tyr Tyr Val Pro Ala Gly Phe Thr Ser 1070 1075 1080 Lys Ile Cys Pro Val Thr Gly Phe Val Asn Gln Leu Tyr Pro Lys 1085 1090 1095 Tyr Glu Ser Val Ser Lys Ser Gln Glu Phe Phe Ser Lys Phe Asp 1100 1105 1110 Lys Ile Cys Tyr Asn Leu Asp Lys Gly Tyr Phe Glu Phe Ser Phe 1115 1120 1125 Asp Tyr Lys Asn Phe Gly Asp Lys Ala Ala Lys Gly Lys Trp Thr 1130 1135 1140 Ile Ala Ser Phe Gly Ser Arg Leu Ile Asn Phe Arg Asn Ser Asp 1145 1150 1155 Lys Asn His Asn Trp Asp Thr Arg Glu Val Tyr Pro Thr Lys Glu 1160 1165 1170 Leu Glu Lys Leu Leu Lys Asp Tyr Ser Ile Glu Tyr Gly His Gly 1175 1180 1185 Glu Cys Ile Lys Ala Ala Ile Cys Gly Glu Ser Asp Lys Lys Phe 1190 1195 1200 Phe Ala Lys Leu Thr Ser Val Leu Asn Thr Ile Leu Gln Met Arg 1205 1210 1215 Asn Ser Lys Thr Gly Thr Glu Leu Asp Tyr Leu Ile Ser Pro Val 1220 1225 1230 Ala Asp Val Asn Gly Asn Phe Phe Asp Ser Arg Gln Ala Pro Lys 1235 1240 1245 Asn Met Pro Gln Asp Ala Asp Ala Asn Gly Ala Tyr His Ile Gly 1250 1255 1260 Leu Lys Gly Leu Met Leu Leu Gly Arg Ile Lys Asn Asn Gln Glu 1265 1270 1275 Gly Lys Lys Leu Asn Leu Val Ile Lys Asn Glu Glu Tyr Phe Glu 1280 1285 1290 Phe Val Gln Asn Arg Asn Asn 1295 1300 <210> 36 <211> 1307 <212> PRT <213> Acidaminococcus sp. BV3L6 <400> 36 Met Thr Gln Phe Glu Gly Phe Thr Asn Leu Tyr Gln Val Ser Lys Thr 1 5 10 15 Leu Arg Phe Glu Leu Ile Pro Gln Gly Lys Thr Leu Lys His Ile Gln 20 25 30 Glu Gln Gly Phe Ile Glu Glu Asp Lys Ala Arg Asn Asp His Tyr Lys 35 40 45 Glu Leu Lys Pro Ile Ile Asp Arg Ile Tyr Lys Thr Tyr Ala Asp Gln 50 55 60 Cys Leu Gln Leu Val Gln Leu Asp Trp Glu Asn Leu Ser Ala Ala Ile 65 70 75 80 Asp Ser Tyr Arg Lys Glu Lys Thr Glu Glu Thr Arg Asn Ala Leu Ile 85 90 95 Glu Glu Gln Ala Thr Tyr Arg Asn Ala Ile His Asp Tyr Phe Ile Gly 100 105 110 Arg Thr Asp Asn Leu Thr Asp Ala Ile Asn Lys Arg His Ala Glu Ile 115 120 125 Tyr Lys Gly Leu Phe Lys Ala Glu Leu Phe Asn Gly Lys Val Leu Lys 130 135 140 Gln Leu Gly Thr Val Thr Thr Thr Glu His Glu Asn Ala Leu Leu Arg 145 150 155 160 Ser Phe Asp Lys Phe Thr Thr Tyr Phe Ser Gly Phe Tyr Glu Asn Arg 165 170 175 Lys Asn Val Phe Ser Ala Glu Asp Ile Ser Thr Ala Ile Pro His Arg 180 185 190 Ile Val Gln Asp Asn Phe Pro Lys Phe Lys Glu Asn Cys His Ile Phe 195 200 205 Thr Arg Leu Ile Thr Ala Val Pro Ser Leu Arg Glu His Phe Glu Asn 210 215 220 Val Lys Lys Ala Ile Gly Ile Phe Val Ser Thr Ser Ile Glu Glu Val 225 230 235 240 Phe Ser Phe Pro Phe Tyr Asn Gln Leu Leu Thr Gln Thr Gln Ile Asp 245 250 255 Leu Tyr Asn Gln Leu Leu Gly Gly Ile Ser Arg Glu Ala Gly Thr Glu 260 265 270 Lys Ile Lys Gly Leu Asn Glu Val Leu Asn Leu Ala Ile Gln Lys Asn 275 280 285 Asp Glu Thr Ala His Ile Ile Ala Ser Leu Pro His Arg Phe Ile Pro 290 295 300 Leu Phe Lys Gln Ile Leu Ser Asp Arg Asn Thr Leu Ser Phe Ile Leu 305 310 315 320 Glu Glu Phe Lys Ser Asp Glu Glu Val Ile Gln Ser Phe Cys Lys Tyr 325 330 335 Lys Thr Leu Leu Arg Asn Glu Asn Val Leu Glu Thr Ala Glu Ala Leu 340 345 350 Phe Asn Glu Leu Asn Ser Ile Asp Leu Thr His Ile Phe Ile Ser His 355 360 365 Lys Lys Leu Glu Thr Ile Ser Ser Ala Leu Cys Asp His Trp Asp Thr 370 375 380 Leu Arg Asn Ala Leu Tyr Glu Arg Arg Ile Ser Glu Leu Thr Gly Lys 385 390 395 400 Ile Thr Lys Ser Ala Lys Glu Lys Val Gln Arg Ser Leu Lys His Glu 405 410 415 Asp Ile Asn Leu Gln Glu Ile Ile Ser Ala Ala Gly Lys Glu Leu Ser 420 425 430 Glu Ala Phe Lys Gln Lys Thr Ser Glu Ile Leu Ser His Ala His Ala 435 440 445 Ala Leu Asp Gln Pro Leu Pro Thr Thr Leu Lys Lys Gln Glu Glu Lys 450 455 460 Glu Ile Leu Lys Ser Gln Leu Asp Ser Leu Leu Gly Leu Tyr His Leu 465 470 475 480 Leu Asp Trp Phe Ala Val Asp Glu Ser Asn Glu Val Asp Pro Glu Phe 485 490 495 Ser Ala Arg Leu Thr Gly Ile Lys Leu Glu Met Glu Pro Ser Leu Ser 500 505 510 Phe Tyr Asn Lys Ala Arg Asn Tyr Ala Thr Lys Lys Pro Tyr Ser Val 515 520 525 Glu Lys Phe Lys Leu Asn Phe Gln Met Pro Thr Leu Ala Ser Gly Trp 530 535 540 Asp Val Asn Lys Glu Lys Asn Asn Gly Ala Ile Leu Phe Val Lys Asn 545 550 555 560 Gly Leu Tyr Tyr Leu Gly Ile Met Pro Lys Gln Lys Gly Arg Tyr Lys 565 570 575 Ala Leu Ser Phe Glu Pro Thr Glu Lys Thr Ser Glu Gly Phe Asp Lys 580 585 590 Met Tyr Tyr Asp Tyr Phe Pro Asp Ala Ala Lys Met Ile Pro Lys Cys 595 600 605 Ser Thr Gln Leu Lys Ala Val Thr Ala His Phe Gln Thr His Thr Thr 610 615 620 Pro Ile Leu Leu Ser Asn Asn Phe Ile Glu Pro Leu Glu Ile Thr Lys 625 630 635 640 Glu Ile Tyr Asp Leu Asn Asn Pro Glu Lys Glu Pro Lys Lys Phe Gln 645 650 655 Thr Ala Tyr Ala Lys Lys Thr Gly Asp Gln Lys Gly Tyr Arg Glu Ala 660 665 670 Leu Cys Lys Trp Ile Asp Phe Thr Arg Asp Phe Leu Ser Lys Tyr Thr 675 680 685 Lys Thr Thr Ser Ile Asp Leu Ser Ser Leu Arg Pro Ser Ser Gln Tyr 690 695 700 Lys Asp Leu Gly Glu Tyr Tyr Ala Glu Leu Asn Pro Leu Leu Tyr His 705 710 715 720 Ile Ser Phe Gln Arg Ile Ala Glu Lys Glu Ile Met Asp Ala Val Glu 725 730 735 Thr Gly Lys Leu Tyr Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ala Lys 740 745 750 Gly His His Gly Lys Pro Asn Leu His Thr Leu Tyr Trp Thr Gly Leu 755 760 765 Phe Ser Pro Glu Asn Leu Ala Lys Thr Ser Ile Lys Leu Asn Gly Gln 770 775 780 Ala Glu Leu Phe Tyr Arg Pro Lys Ser Arg Met Lys Arg Met Ala His 785 790 795 800 Arg Leu Gly Glu Lys Met Leu Asn Lys Lys Leu Lys Asp Gln Lys Thr 805 810 815 Pro Ile Pro Asp Thr Leu Tyr Gln Glu Leu Tyr Asp Tyr Val Asn His 820 825 830 Arg Leu Ser His Asp Leu Ser Asp Glu Ala Arg Ala Leu Leu Pro Asn 835 840 845 Val Ile Thr Lys Glu Val Ser His Glu Ile Ile Lys Asp Arg Arg Phe 850 855 860 Thr Ser Asp Lys Phe Phe Phe His Val Pro Ile Thr Leu Asn Tyr Gln 865 870 875 880 Ala Ala Asn Ser Pro Ser Lys Phe Asn Gln Arg Val Asn Ala Tyr Leu 885 890 895 Lys Glu His Pro Glu Thr Pro Ile Ile Gly Ile Asp Arg Gly Glu Arg 900 905 910 Asn Leu Ile Tyr Ile Thr Val Ile Asp Ser Thr Gly Lys Ile Leu Glu 915 920 925 Gln Arg Ser Leu Asn Thr Ile Gln Gln Phe Asp Tyr Gln Lys Lys Leu 930 935 940 Asp Asn Arg Glu Lys Glu Arg Val Ala Ala Arg Gln Ala Trp Ser Val 945 950 955 960 Val Gly Thr Ile Lys Asp Leu Lys Gln Gly Tyr Leu Ser Gln Val Ile 965 970 975 His Glu Ile Val Asp Leu Met Ile His Tyr Gln Ala Val Val Val Leu 980 985 990 Glu Asn Leu Asn Phe Gly Phe Lys Ser Lys Arg Thr Gly Ile Ala Glu 995 1000 1005 Lys Ala Val Tyr Gln Gln Phe Glu Lys Met Leu Ile Asp Lys Leu 1010 1015 1020 Asn Cys Leu Val Leu Lys Asp Tyr Pro Ala Glu Lys Val Gly Gly 1025 1030 1035 Val Leu Asn Pro Tyr Gln Leu Thr Asp Gln Phe Thr Ser Phe Ala 1040 1045 1050 Lys Met Gly Thr Gln Ser Gly Phe Leu Phe Tyr Val Pro Ala Pro 1055 1060 1065 Tyr Thr Ser Lys Ile Asp Pro Leu Thr Gly Phe Val Asp Pro Phe 1070 1075 1080 Val Trp Lys Thr Ile Lys Asn His Glu Ser Arg Lys His Phe Leu 1085 1090 1095 Glu Gly Phe Asp Phe Leu His Tyr Asp Val Lys Thr Gly Asp Phe 1100 1105 1110 Ile Leu His Phe Lys Met Asn Arg Asn Leu Ser Phe Gln Arg Gly 1115 1120 1125 Leu Pro Gly Phe Met Pro Ala Trp Asp Ile Val Phe Glu Lys Asn 1130 1135 1140 Glu Thr Gln Phe Asp Ala Lys Gly Thr Pro Phe Ile Ala Gly Lys 1145 1150 1155 Arg Ile Val Pro Val Ile Glu Asn His Arg Phe Thr Gly Arg Tyr 1160 1165 1170 Arg Asp Leu Tyr Pro Ala Asn Glu Leu Ile Ala Leu Leu Glu Glu 1175 1180 1185 Lys Gly Ile Val Phe Arg Asp Gly Ser Asn Ile Leu Pro Lys Leu 1190 1195 1200 Leu Glu Asn Asp Asp Ser His Ala Ile Asp Thr Met Val Ala Leu 1205 1210 1215 Ile Arg Ser Val Leu Gln Met Arg Asn Ser Asn Ala Ala Thr Gly 1220 1225 1230 Glu Asp Tyr Ile Asn Ser Pro Val Arg Asp Leu Asn Gly Val Cys 1235 1240 1245 Phe Asp Ser Arg Phe Gln Asn Pro Glu Trp Pro Met Asp Ala Asp 1250 1255 1260 Ala Asn Gly Ala Tyr His Ile Ala Leu Lys Gly Gln Leu Leu Leu 1265 1270 1275 Asn His Leu Lys Glu Ser Lys Asp Leu Lys Leu Gln Asn Gly Ile 1280 1285 1290 Ser Asn Gln Asp Trp Leu Ala Tyr Ile Gln Glu Leu Arg Asn 1295 1300 1305 <210> 37 <211> 1300 <212> PRT <213> Francisella tularensis subsp. tularensis <400> 37 Met Ser Ile Tyr Gln Glu Phe Val Asn Lys Tyr Ser Leu Ser Lys Thr 1 5 10 15 Leu Arg Phe Glu Leu Ile Pro Gln Gly Lys Thr Leu Glu Asn Ile Lys 20 25 30 Ala Arg Gly Leu Ile Leu Asp Asp Glu Lys Arg Ala Lys Asp Tyr Lys 35 40 45 Lys Ala Lys Gln Ile Ile Asp Lys Tyr His Gln Phe Phe Ile Glu Glu 50 55 60 Ile Leu Ser Ser Val Cys Ile Ser Glu Asp Leu Leu Gln Asn Tyr Ser 65 70 75 80 Asp Val Tyr Phe Lys Leu Lys Lys Ser Asp Asp Asp Asn Leu Gln Lys 85 90 95 Asp Phe Lys Ser Ala Lys Asp Thr Ile Lys Lys Gln Ile Ser Glu Tyr 100 105 110 Ile Lys Asp Ser Glu Lys Phe Lys Asn Leu Phe Asn Gln Asn Leu Ile 115 120 125 Asp Ala Lys Lys Gly Gln Glu Ser Asp Leu Ile Leu Trp Leu Lys Gln 130 135 140 Ser Lys Asp Asn Gly Ile Glu Leu Phe Lys Ala Asn Ser Asp Ile Thr 145 150 155 160 Asp Ile Asp Glu Ala Leu Glu Ile Ile Lys Ser Phe Lys Gly Trp Thr 165 170 175 Thr Tyr Phe Lys Gly Phe His Glu Asn Arg Lys Asn Val Tyr Ser Ser 180 185 190 Asp Asp Ile Pro Thr Ser Ile Ile Tyr Arg Ile Val Asp Asp Asn Leu 195 200 205 Pro Lys Phe Leu Glu Asn Lys Ala Lys Tyr Glu Ser Leu Lys Asp Lys 210 215 220 Ala Pro Glu Ala Ile Asn Tyr Glu Gln Ile Lys Lys Asp Leu Ala Glu 225 230 235 240 Glu Leu Thr Phe Asp Ile Asp Tyr Lys Thr Ser Glu Val Asn Gln Arg 245 250 255 Val Phe Ser Leu Asp Glu Val Phe Glu Ile Ala Asn Phe Asn Asn Tyr 260 265 270 Leu Asn Gln Ser Gly Ile Thr Lys Phe Asn Thr Ile Ile Gly Gly Lys 275 280 285 Phe Val Asn Gly Glu Asn Thr Lys Arg Lys Gly Ile Asn Glu Tyr Ile 290 295 300 Asn Leu Tyr Ser Gln Gln Ile Asn Asp Lys Thr Leu Lys Lys Tyr Lys 305 310 315 320 Met Ser Val Leu Phe Lys Gln Ile Leu Ser Asp Thr Glu Ser Lys Ser 325 330 335 Phe Val Ile Asp Lys Leu Glu Asp Asp Ser Asp Val Val Thr Thr Met 340 345 350 Gln Ser Phe Tyr Glu Gln Ile Ala Ala Phe Lys Thr Val Glu Glu Lys 355 360 365 Ser Ile Lys Glu Thr Leu Ser Leu Leu Phe Asp Asp Leu Lys Ala Gln 370 375 380 Lys Leu Asp Leu Ser Lys Ile Tyr Phe Lys Asn Asp Lys Ser Leu Thr 385 390 395 400 Asp Leu Ser Gln Gln Val Phe Asp Asp Tyr Ser Val Ile Gly Thr Ala 405 410 415 Val Leu Glu Tyr Ile Thr Gln Gln Val Ala Pro Lys Asn Leu Asp Asn 420 425 430 Pro Ser Lys Lys Glu Gln Asp Leu Ile Ala Lys Lys Thr Glu Lys Ala 435 440 445 Lys Tyr Leu Ser Leu Glu Thr Ile Lys Leu Ala Leu Glu Glu Phe Asn 450 455 460 Lys His Arg Asp Ile Asp Lys Gln Cys Arg Phe Glu Glu Ile Leu Ala 465 470 475 480 Asn Phe Ala Ala Ile Pro Met Ile Phe Asp Glu Ile Ala Gln Asn Lys 485 490 495 Asp Asn Leu Ala Gln Ile Ser Leu Lys Tyr Gln Asn Gln Gly Lys Lys 500 505 510 Asp Leu Leu Gln Ala Ser Ala Glu Glu Asp Val Lys Ala Ile Lys Asp 515 520 525 Leu Leu Asp Gln Thr Asn Asn Leu Leu His Arg Leu Lys Ile Phe His 530 535 540 Ile Ser Gln Ser Glu Asp Lys Ala Asn Ile Leu Asp Lys Asp Glu His 545 550 555 560 Phe Tyr Leu Val Phe Glu Glu Cys Tyr Phe Glu Leu Ala Asn Ile Val 565 570 575 Pro Leu Tyr Asn Lys Ile Arg Asn Tyr Ile Thr Gln Lys Pro Tyr Ser 580 585 590 Asp Glu Lys Phe Lys Leu Asn Phe Glu Asn Ser Thr Leu Ala Asn Gly 595 600 605 Trp Asp Lys Asn Lys Glu Pro Asp Asn Thr Ala Ile Leu Phe Ile Lys 610 615 620 Asp Asp Lys Tyr Tyr Leu Gly Val Met Asn Lys Lys Asn Asn Lys Ile 625 630 635 640 Phe Asp Asp Lys Ala Ile Lys Glu Asn Lys Gly Glu Gly Tyr Lys Lys 645 650 655 Ile Val Tyr Lys Leu Leu Pro Gly Ala Asn Lys Met Leu Pro Lys Val 660 665 670 Phe Phe Ser Ala Lys Ser Ile Lys Phe Tyr Asn Pro Ser Glu Asp Ile 675 680 685 Leu Arg Ile Arg Asn His Ser Thr His Thr Lys Asn Gly Asn Pro Gln 690 695 700 Lys Gly Tyr Glu Lys Phe Glu Phe Asn Ile Glu Asp Cys Arg Lys Phe 705 710 715 720 Ile Asp Phe Tyr Lys Glu Ser Ile Ser Lys His Pro Glu Trp Lys Asp 725 730 735 Phe Gly Phe Arg Phe Ser Asp Thr Gln Arg Tyr Asn Ser Ile Asp Glu 740 745 750 Phe Tyr Arg Glu Val Glu Asn Gln Gly Tyr Lys Leu Thr Phe Glu Asn 755 760 765 Ile Ser Glu Ser Tyr Ile Asp Ser Val Val Asn Gln Gly Lys Leu Tyr 770 775 780 Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ser Ala Tyr Ser Lys Gly Arg 785 790 795 800 Pro Asn Leu His Thr Leu Tyr Trp Lys Ala Leu Phe Asp Glu Arg Asn 805 810 815 Leu Gln Asp Val Val Tyr Lys Leu Asn Gly Glu Ala Glu Leu Phe Tyr 820 825 830 Arg Lys Gln Ser Ile Pro Lys Lys Ile Thr His Pro Ala Lys Glu Ala 835 840 845 Ile Ala Asn Lys Asn Lys Asp Asn Pro Lys Lys Glu Ser Val Phe Glu 850 855 860 Tyr Asp Leu Ile Lys Asp Lys Arg Phe Thr Glu Asp Lys Phe Phe Phe 865 870 875 880 His Cys Pro Ile Thr Ile Asn Phe Lys Ser Ser Gly Ala Asn Lys Phe 885 890 895 Asn Asp Glu Ile Asn Leu Leu Leu Lys Glu Lys Ala Asn Asp Val His 900 905 910 Ile Leu Ser Ile Asp Arg Gly Glu Arg His Leu Ala Tyr Tyr Thr Leu 915 920 925 Val Asp Gly Lys Gly Asn Ile Ile Lys Gln Asp Thr Phe Asn Ile Ile 930 935 940 Gly Asn Asp Arg Met Lys Thr Asn Tyr His Asp Lys Leu Ala Ala Ile 945 950 955 960 Glu Lys Asp Arg Asp Ser Ala Arg Lys Asp Trp Lys Lys Ile Asn Asn 965 970 975 Ile Lys Glu Met Lys Glu Gly Tyr Leu Ser Gln Val Val His Glu Ile 980 985 990 Ala Lys Leu Val Ile Glu His Asn Ala Ile Val Val Phe Glu Asp Leu 995 1000 1005 Asn Phe Gly Phe Lys Arg Gly Arg Phe Lys Val Glu Lys Gln Val 1010 1015 1020 Tyr Gln Lys Leu Glu Lys Met Leu Ile Glu Lys Leu Asn Tyr Leu 1025 1030 1035 Val Phe Lys Asp Asn Glu Phe Asp Lys Thr Gly Gly Val Leu Arg 1040 1045 1050 Ala Tyr Gln Leu Thr Ala Pro Phe Glu Thr Phe Lys Lys Met Gly 1055 1060 1065 Lys Gln Thr Gly Ile Ile Tyr Tyr Val Pro Ala Gly Phe Thr Ser 1070 1075 1080 Lys Ile Cys Pro Val Thr Gly Phe Val Asn Gln Leu Tyr Pro Lys 1085 1090 1095 Tyr Glu Ser Val Ser Lys Ser Gln Glu Phe Phe Ser Lys Phe Asp 1100 1105 1110 Lys Ile Cys Tyr Asn Leu Asp Lys Gly Tyr Phe Glu Phe Ser Phe 1115 1120 1125 Asp Tyr Lys Asn Phe Gly Asp Lys Ala Ala Lys Gly Lys Trp Thr 1130 1135 1140 Ile Ala Ser Phe Gly Ser Arg Leu Ile Asn Phe Arg Asn Ser Asp 1145 1150 1155 Lys Asn His Asn Trp Asp Thr Arg Glu Val Tyr Pro Thr Lys Glu 1160 1165 1170 Leu Glu Lys Leu Leu Lys Asp Tyr Ser Ile Glu Tyr Gly His Gly 1175 1180 1185 Glu Cys Ile Lys Ala Ala Ile Cys Gly Glu Ser Asp Lys Lys Phe 1190 1195 1200 Phe Ala Lys Leu Thr Ser Val Leu Asn Thr Ile Leu Gln Met Arg 1205 1210 1215 Asn Ser Lys Thr Gly Thr Glu Leu Asp Tyr Leu Ile Ser Pro Val 1220 1225 1230 Ala Asp Val Asn Gly Asn Phe Phe Asp Ser Arg Gln Ala Pro Lys 1235 1240 1245 Asn Met Pro Gln Asp Ala Asp Ala Asn Gly Ala Tyr His Ile Gly 1250 1255 1260 Leu Lys Gly Leu Met Leu Leu Asp Arg Ile Lys Asn Asn Gln Glu 1265 1270 1275 Gly Lys Lys Leu Asn Leu Val Ile Lys Asn Glu Glu Tyr Phe Glu 1280 1285 1290 Phe Val Gln Asn Arg Asn Asn 1295 1300 <210> 38 <211> 1388 <212> PRT <213> Streptococcus thermophilus <400> 38 Met Thr Lys Pro Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val 1 5 10 15 Gly Trp Ala Val Thr Thr Asp Asn Tyr Lys Val Pro Ser Lys Lys Met 20 25 30 Lys Val Leu Gly Asn Thr Ser Lys Lys Tyr Ile Lys Lys Asn Leu Leu 35 40 45 Gly Val Leu Leu Phe Asp Ser Gly Ile Thr Ala Glu Gly Arg Arg Leu 50 55 60 Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Arg Asn Arg Ile Leu 65 70 75 80 Tyr Leu Gln Glu Ile Phe Ser Thr Glu Met Ala Thr Leu Asp Asp Ala 85 90 95 Phe Phe Gln Arg Leu Asp Asp Ser Phe Leu Val Pro Asp Asp Lys Arg 100 105 110 Asp Ser Lys Tyr Pro Ile Phe Gly Asn Leu Val Glu Glu Lys Ala Tyr 115 120 125 His Asp Glu Phe Pro Thr Ile Tyr His Leu Arg Lys Tyr Leu Ala Asp 130 135 140 Ser Thr Lys Lys Ala Asp Leu Arg Leu Val Tyr Leu Ala Leu Ala His 145 150 155 160 Met Ile Lys Tyr Arg Gly His Phe Leu Ile Glu Gly Glu Phe Asn Ser 165 170 175 Lys Asn Asn Asp Ile Gln Lys Asn Phe Gln Asp Phe Leu Asp Thr Tyr 180 185 190 Asn Ala Ile Phe Glu Ser Asp Leu Ser Leu Glu Asn Ser Lys Gln Leu 195 200 205 Glu Glu Ile Val Lys Asp Lys Ile Ser Lys Leu Glu Lys Lys Asp Arg 210 215 220 Ile Leu Lys Leu Phe Pro Gly Glu Lys Asn Ser Gly Ile Phe Ser Glu 225 230 235 240 Phe Leu Lys Leu Ile Val Gly Asn Gln Ala Asp Phe Arg Lys Cys Phe 245 250 255 Asn Leu Asp Glu Lys Ala Ser Leu His Phe Ser Lys Glu Ser Tyr Asp 260 265 270 Glu Asp Leu Glu Thr Leu Leu Gly Tyr Ile Gly Asp Asp Tyr Ser Asp 275 280 285 Val Phe Leu Lys Ala Lys Lys Leu Tyr Asp Ala Ile Leu Leu Ser Gly 290 295 300 Phe Leu Thr Val Thr Asp Asn Glu Thr Glu Ala Pro Leu Ser Ser Ala 305 310 315 320 Met Ile Lys Arg Tyr Asn Glu His Lys Glu Asp Leu Ala Leu Leu Lys 325 330 335 Glu Tyr Ile Arg Asn Ile Ser Leu Lys Thr Tyr Asn Glu Val Phe Lys 340 345 350 Asp Asp Thr Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Lys Thr Asn 355 360 365 Gln Glu Asp Phe Tyr Val Tyr Leu Lys Lys Leu Leu Ala Glu Phe Glu 370 375 380 Gly Ala Asp Tyr Phe Leu Glu Lys Ile Asp Arg Glu Asp Phe Leu Arg 385 390 395 400 Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro Tyr Gln Ile His Leu 405 410 415 Gln Glu Met Arg Ala Ile Leu Asp Lys Gln Ala Lys Phe Tyr Pro Phe 420 425 430 Leu Ala Lys Asn Lys Glu Arg Ile Glu Lys Ile Leu Thr Phe Arg Ile 435 440 445 Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Asp Phe Ala Trp 450 455 460 Ser Ile Arg Lys Arg Asn Glu Lys Ile Thr Pro Trp Asn Phe Glu Asp 465 470 475 480 Val Ile Asp Lys Glu Ser Ser Ala Glu Ala Phe Ile Asn Arg Met Thr 485 490 495 Ser Phe Asp Leu Tyr Leu Pro Glu Glu Lys Val Leu Pro Lys His Ser 500 505 510 Leu Leu Tyr Glu Thr Phe Asn Val Tyr Asn Glu Leu Thr Lys Val Arg 515 520 525 Phe Ile Ala Glu Ser Met Arg Asp Tyr Gln Phe Leu Asp Ser Lys Gln 530 535 540 Lys Lys Asp Ile Val Arg Leu Tyr Phe Lys Asp Lys Arg Lys Val Thr 545 550 555 560 Asp Lys Asp Ile Ile Glu Tyr Leu His Ala Ile Tyr Gly Tyr Asp Gly 565 570 575 Ile Glu Leu Lys Gly Ile Glu Lys Gln Phe Asn Ser Ser Leu Ser Thr 580 585 590 Tyr His Asp Leu Leu Asn Ile Ile Asn Asp Lys Glu Phe Leu Asp Asp 595 600 605 Ser Ser Asn Glu Ala Ile Ile Glu Glu Ile Ile His Thr Leu Thr Ile 610 615 620 Phe Glu Asp Arg Glu Met Ile Lys Gln Arg Leu Ser Lys Phe Glu Asn 625 630 635 640 Ile Phe Asp Lys Ser Val Leu Lys Lys Leu Ser Arg Arg His Tyr Thr 645 650 655 Gly Trp Gly Lys Leu Ser Ala Lys Leu Ile Asn Gly Ile Arg Asp Glu 660 665 670 Lys Ser Gly Asn Thr Ile Leu Asp Tyr Leu Ile Asp Asp Gly Ile Ser 675 680 685 Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ala Leu Ser Phe Lys 690 695 700 Lys Lys Ile Gln Lys Ala Gln Ile Ile Gly Asp Glu Asp Lys Gly Asn 705 710 715 720 Ile Lys Glu Val Val Lys Ser Leu Pro Gly Ser Pro Ala Ile Lys Lys 725 730 735 Gly Ile Leu Gln Ser Ile Lys Ile Val Asp Glu Leu Val Lys Val Met 740 745 750 Gly Gly Arg Lys Pro Glu Ser Ile Val Val Glu Met Ala Arg Glu Asn 755 760 765 Gln Tyr Thr Asn Gln Gly Lys Ser Asn Ser Gln Gln Arg Leu Lys Arg 770 775 780 Leu Glu Lys Ser Leu Lys Glu Leu Gly Ser Lys Ile Leu Lys Glu Asn 785 790 795 800 Ile Pro Ala Lys Leu Ser Lys Ile Asp Asn Asn Ala Leu Gln Asn Asp 805 810 815 Arg Leu Tyr Leu Tyr Tyr Leu Gln Asn Gly Lys Asp Met Tyr Thr Gly 820 825 830 Asp Asp Leu Asp Ile Asp Arg Leu Ser Asn Tyr Asp Ile Asp His Ile 835 840 845 Ile Pro Gln Ala Phe Leu Lys Asp Asn Ser Ile Asp Asn Lys Val Leu 850 855 860 Val Ser Ser Ala Ser Asn Arg Gly Lys Ser Asp Asp Val Pro Ser Leu 865 870 875 880 Glu Val Val Lys Lys Arg Lys Thr Phe Trp Tyr Gln Leu Leu Lys Ser 885 890 895 Lys Leu Ile Ser Gln Arg Lys Phe Asp Asn Leu Thr Lys Ala Glu Arg 900 905 910 Gly Gly Leu Ser Pro Glu Asp Lys Ala Gly Phe Ile Gln Arg Gln Leu 915 920 925 Val Glu Thr Arg Gln Ile Thr Lys His Val Ala Arg Leu Leu Asp Glu 930 935 940 Lys Phe Asn Asn Lys Lys Asp Glu Asn Asn Arg Ala Val Arg Thr Val 945 950 955 960 Lys Ile Ile Thr Leu Lys Ser Thr Leu Val Ser Gln Phe Arg Lys Asp 965 970 975 Phe Glu Leu Tyr Lys Val Arg Glu Ile Asn Asp Phe His His Ala His 980 985 990 Asp Ala Tyr Leu Asn Ala Val Val Ala Ser Ala Leu Leu Lys Lys Tyr 995 1000 1005 Pro Lys Leu Glu Pro Glu Phe Val Tyr Gly Asp Tyr Pro Lys Tyr 1010 1015 1020 Asn Ser Phe Arg Glu Arg Lys Ser Ala Thr Glu Lys Val Tyr Phe 1025 1030 1035 Tyr Ser Asn Ile Met Asn Ile Phe Lys Lys Ser Ile Ser Leu Ala 1040 1045 1050 Asp Gly Arg Val Ile Glu Arg Pro Leu Ile Glu Val Asn Glu Glu 1055 1060 1065 Thr Gly Glu Ser Val Trp Asn Lys Glu Ser Asp Leu Ala Thr Val 1070 1075 1080 Arg Arg Val Leu Ser Tyr Pro Gln Val Asn Val Val Lys Lys Val 1085 1090 1095 Glu Glu Gln Asn His Gly Leu Asp Arg Gly Lys Pro Lys Gly Leu 1100 1105 1110 Phe Asn Ala Asn Leu Ser Ser Lys Pro Lys Pro Asn Ser Asn Glu 1115 1120 1125 Asn Leu Val Gly Ala Lys Glu Tyr Leu Asp Pro Lys Lys Tyr Gly 1130 1135 1140 Gly Tyr Ala Gly Ile Ser Asn Ser Phe Thr Val Leu Val Lys Gly 1145 1150 1155 Thr Ile Glu Lys Gly Ala Lys Lys Lys Ile Thr Asn Val Leu Glu 1160 1165 1170 Phe Gln Gly Ile Ser Ile Leu Asp Arg Ile Asn Tyr Arg Lys Asp 1175 1180 1185 Lys Leu Asn Phe Leu Leu Glu Lys Gly Tyr Lys Asp Ile Glu Leu 1190 1195 1200 Ile Ile Glu Leu Pro Lys Tyr Ser Leu Phe Glu Leu Ser Asp Gly 1205 1210 1215 Ser Arg Arg Met Leu Ala Ser Ile Leu Ser Thr Asn Asn Lys Arg 1220 1225 1230 Gly Glu Ile His Lys Gly Asn Gln Ile Phe Leu Ser Gln Lys Phe 1235 1240 1245 Val Lys Leu Leu Tyr His Ala Lys Arg Ile Ser Asn Thr Ile Asn 1250 1255 1260 Glu Asn His Arg Lys Tyr Val Glu Asn His Lys Lys Glu Phe Glu 1265 1270 1275 Glu Leu Phe Tyr Tyr Ile Leu Glu Phe Asn Glu Asn Tyr Val Gly 1280 1285 1290 Ala Lys Lys Asn Gly Lys Leu Leu Asn Ser Ala Phe Gln Ser Trp 1295 1300 1305 Gln Asn His Ser Ile Asp Glu Leu Cys Ser Ser Phe Ile Gly Pro 1310 1315 1320 Thr Gly Ser Glu Arg Lys Gly Leu Phe Glu Leu Thr Ser Arg Gly 1325 1330 1335 Ser Ala Ala Asp Phe Glu Phe Leu Gly Val Lys Ile Pro Arg Tyr 1340 1345 1350 Arg Asp Tyr Thr Pro Ser Ser Leu Leu Lys Asp Ala Thr Leu Ile 1355 1360 1365 His Gln Ser Val Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ala 1370 1375 1380 Lys Leu Gly Glu Gly 1385 <210> 39 <211> 1400 <212> PRT <213> Artificial sequence <220> <223> GenBank: AKE81023.1 Cas9 [Plant multiplex genome editing vector pYLCRISPR/Cas9P35s-B] <400> 39 Met Ala Pro Lys Lys Lys Arg Lys Val Gly Ile His Gly Val Pro Ala 1 5 10 15 Ala Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val 20 25 30 Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe 35 40 45 Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile 50 55 60 Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu 65 70 75 80 Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys 85 90 95 Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser 100 105 110 Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys 115 120 125 His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr 130 135 140 His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp 145 150 155 160 Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His 165 170 175 Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro 180 185 190 Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr 195 200 205 Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala 210 215 220 Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn 225 230 235 240 Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn 245 250 255 Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe 260 265 270 Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp 275 280 285 Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp 290 295 300 Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp 305 310 315 320 Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser 325 330 335 Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys 340 345 350 Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe 355 360 365 Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser 370 375 380 Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp 385 390 395 400 Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg 405 410 415 Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu 420 425 430 Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe 435 440 445 Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile 450 455 460 Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp 465 470 475 480 Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu 485 490 495 Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr 500 505 510 Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser 515 520 525 Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys 530 535 540 Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln 545 550 555 560 Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr 565 570 575 Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp 580 585 590 Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly 595 600 605 Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp 610 615 620 Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr 625 630 635 640 Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala 645 650 655 His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr 660 665 670 Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp 675 680 685 Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe 690 695 700 Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe 705 710 715 720 Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu 725 730 735 His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly 740 745 750 Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly 755 760 765 Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln 770 775 780 Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile 785 790 795 800 Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro 805 810 815 Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu 820 825 830 Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg 835 840 845 Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys 850 855 860 Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg 865 870 875 880 Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys 885 890 895 Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys 900 905 910 Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp 915 920 925 Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr 930 935 940 Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp 945 950 955 960 Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser 965 970 975 Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg 980 985 990 Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val 995 1000 1005 Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu 1010 1015 1020 Phe Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile 1025 1030 1035 Ala Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe 1040 1045 1050 Phe Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu 1055 1060 1065 Ala Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly 1070 1075 1080 Glu Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr 1085 1090 1095 Val Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys 1100 1105 1110 Thr Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro 1115 1120 1125 Lys Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp 1130 1135 1140 Pro Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser 1145 1150 1155 Val Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu 1160 1165 1170 Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser 1175 1180 1185 Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr 1190 1195 1200 Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser 1205 1210 1215 Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala 1220 1225 1230 Gly Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr 1235 1240 1245 Val Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly 1250 1255 1260 Ser Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His 1265 1270 1275 Lys His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser 1280 1285 1290 Lys Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser 1295 1300 1305 Ala Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu 1310 1315 1320 Asn Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala 1325 1330 1335 Ala Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr 1340 1345 1350 Ser Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile 1355 1360 1365 Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly 1370 1375 1380 Asp Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys Lys 1385 1390 1395 Lys Lys 1400 <210> 40 <211> 1053 <212> PRT <213> Staphylococcus aureus <400> 40 Met Lys Arg Asn Tyr Ile Leu Gly Leu Asp Ile Gly Ile Thr Ser Val 1 5 10 15 Gly Tyr Gly Ile Ile Asp Tyr Glu Thr Arg Asp Val Ile Asp Ala Gly 20 25 30 Val Arg Leu Phe Lys Glu Ala Asn Val Glu Asn Asn Glu Gly Arg Arg 35 40 45 Ser Lys Arg Gly Ala Arg Arg Leu Lys Arg Arg Arg Arg His Arg Ile 50 55 60 Gln Arg Val Lys Lys Leu Leu Phe Asp Tyr Asn Leu Leu Thr Asp His 65 70 75 80 Ser Glu Leu Ser Gly Ile Asn Pro Tyr Glu Ala Arg Val Lys Gly Leu 85 90 95 Ser Gln Lys Leu Ser Glu Glu Glu Phe Ser Ala Ala Leu Leu His Leu 100 105 110 Ala Lys Arg Arg Gly Val His Asn Val Asn Glu Val Glu Glu Asp Thr 115 120 125 Gly Asn Glu Leu Ser Thr Lys Glu Gln Ile Ser Arg Asn Ser Lys Ala 130 135 140 Leu Glu Glu Lys Tyr Val Ala Glu Leu Gln Leu Glu Arg Leu Lys Lys 145 150 155 160 Asp Gly Glu Val Arg Gly Ser Ile Asn Arg Phe Lys Thr Ser Asp Tyr 165 170 175 Val Lys Glu Ala Lys Gln Leu Leu Lys Val Gln Lys Ala Tyr His Gln 180 185 190 Leu Asp Gln Ser Phe Ile Asp Thr Tyr Ile Asp Leu Leu Glu Thr Arg 195 200 205 Arg Thr Tyr Tyr Glu Gly Pro Gly Glu Gly Ser Pro Phe Gly Trp Lys 210 215 220 Asp Ile Lys Glu Trp Tyr Glu Met Leu Met Gly His Cys Thr Tyr Phe 225 230 235 240 Pro Glu Glu Leu Arg Ser Val Lys Tyr Ala Tyr Asn Ala Asp Leu Tyr 245 250 255 Asn Ala Leu Asn Asp Leu Asn Asn Leu Val Ile Thr Arg Asp Glu Asn 260 265 270 Glu Lys Leu Glu Tyr Tyr Glu Lys Phe Gln Ile Ile Glu Asn Val Phe 275 280 285 Lys Gln Lys Lys Lys Pro Thr Leu Lys Gln Ile Ala Lys Glu Ile Leu 290 295 300 Val Asn Glu Glu Asp Ile Lys Gly Tyr Arg Val Thr Ser Thr Gly Lys 305 310 315 320 Pro Glu Phe Thr Asn Leu Lys Val Tyr His Asp Ile Lys Asp Ile Thr 325 330 335 Ala Arg Lys Glu Ile Ile Glu Asn Ala Glu Leu Leu Asp Gln Ile Ala 340 345 350 Lys Ile Leu Thr Ile Tyr Gln Ser Ser Glu Asp Ile Gln Glu Glu Leu 355 360 365 Thr Asn Leu Asn Ser Glu Leu Thr Gln Glu Glu Ile Glu Gln Ile Ser 370 375 380 Asn Leu Lys Gly Tyr Thr Gly Thr His Asn Leu Ser Leu Lys Ala Ile 385 390 395 400 Asn Leu Ile Leu Asp Glu Leu Trp His Thr Asn Asp Asn Gln Ile Ala 405 410 415 Ile Phe Asn Arg Leu Lys Leu Val Pro Lys Lys Val Asp Leu Ser Gln 420 425 430 Gln Lys Glu Ile Pro Thr Thr Leu Val Asp Asp Phe Ile Leu Ser Pro 435 440 445 Val Val Lys Arg Ser Phe Ile Gln Ser Ile Lys Val Ile Asn Ala Ile 450 455 460 Ile Lys Lys Tyr Gly Leu Pro Asn Asp Ile Ile Ile Glu Leu Ala Arg 465 470 475 480 Glu Lys Asn Ser Lys Asp Ala Gln Lys Met Ile Asn Glu Met Gln Lys 485 490 495 Arg Asn Arg Gln Thr Asn Glu Arg Ile Glu Glu Ile Ile Arg Thr Thr 500 505 510 Gly Lys Glu Asn Ala Lys Tyr Leu Ile Glu Lys Ile Lys Leu His Asp 515 520 525 Met Gln Glu Gly Lys Cys Leu Tyr Ser Leu Glu Ala Ile Pro Leu Glu 530 535 540 Asp Leu Leu Asn Asn Pro Phe Asn Tyr Glu Val Asp His Ile Ile Pro 545 550 555 560 Arg Ser Val Ser Phe Asp Asn Ser Phe Asn Asn Lys Val Leu Val Lys 565 570 575 Gln Glu Glu Asn Ser Lys Lys Gly Asn Arg Thr Pro Phe Gln Tyr Leu 580 585 590 Ser Ser Ser Asp Ser Lys Ile Ser Tyr Glu Thr Phe Lys Lys His Ile 595 600 605 Leu Asn Leu Ala Lys Gly Lys Gly Arg Ile Ser Lys Thr Lys Lys Glu 610 615 620 Tyr Leu Leu Glu Glu Arg Asp Ile Asn Arg Phe Ser Val Gln Lys Asp 625 630 635 640 Phe Ile Asn Arg Asn Leu Val Asp Thr Arg Tyr Ala Thr Arg Gly Leu 645 650 655 Met Asn Leu Leu Arg Ser Tyr Phe Arg Val Asn Asn Leu Asp Val Lys 660 665 670 Val Lys Ser Ile Asn Gly Gly Phe Thr Ser Phe Leu Arg Arg Lys Trp 675 680 685 Lys Phe Lys Lys Glu Arg Asn Lys Gly Tyr Lys His His Ala Glu Asp 690 695 700 Ala Leu Ile Ile Ala Asn Ala Asp Phe Ile Phe Lys Glu Trp Lys Lys 705 710 715 720 Leu Asp Lys Ala Lys Lys Val Met Glu Asn Gln Met Phe Glu Glu Lys 725 730 735 Gln Ala Glu Ser Met Pro Glu Ile Glu Thr Glu Gln Glu Tyr Lys Glu 740 745 750 Ile Phe Ile Thr Pro His Gln Ile Lys His Ile Lys Asp Phe Lys Asp 755 760 765 Tyr Lys Tyr Ser His Arg Val Asp Lys Lys Pro Asn Arg Glu Leu Ile 770 775 780 Asn Asp Thr Leu Tyr Ser Thr Arg Lys Asp Asp Lys Gly Asn Thr Leu 785 790 795 800 Ile Val Asn Asn Leu Asn Gly Leu Tyr Asp Lys Asp Asn Asp Lys Leu 805 810 815 Lys Lys Leu Ile Asn Lys Ser Pro Glu Lys Leu Leu Met Tyr His His 820 825 830 Asp Pro Gln Thr Tyr Gln Lys Leu Lys Leu Ile Met Glu Gln Tyr Gly 835 840 845 Asp Glu Lys Asn Pro Leu Tyr Lys Tyr Tyr Glu Glu Thr Gly Asn Tyr 850 855 860 Leu Thr Lys Tyr Ser Lys Lys Asp Asn Gly Pro Val Ile Lys Lys Ile 865 870 875 880 Lys Tyr Tyr Gly Asn Lys Leu Asn Ala His Leu Asp Ile Thr Asp Asp 885 890 895 Tyr Pro Asn Ser Arg Asn Lys Val Val Lys Leu Ser Leu Lys Pro Tyr 900 905 910 Arg Phe Asp Val Tyr Leu Asp Asn Gly Val Tyr Lys Phe Val Thr Val 915 920 925 Lys Asn Leu Asp Val Ile Lys Lys Glu Asn Tyr Tyr Glu Val Asn Ser 930 935 940 Lys Cys Tyr Glu Glu Ala Lys Lys Leu Lys Lys Ile Ser Asn Gln Ala 945 950 955 960 Glu Phe Ile Ala Ser Phe Tyr Asn Asn Asp Leu Ile Lys Ile Asn Gly 965 970 975 Glu Leu Tyr Arg Val Ile Gly Val Asn Asn Asp Leu Leu Asn Arg Ile 980 985 990 Glu Val Asn Met Ile Asp Ile Thr Tyr Arg Glu Tyr Leu Glu Asn Met 995 1000 1005 Asn Asp Lys Arg Pro Pro Arg Ile Ile Lys Thr Ile Ala Ser Lys 1010 1015 1020 Thr Gln Ser Ile Lys Lys Tyr Ser Thr Asp Ile Leu Gly Asn Leu 1025 1030 1035 Tyr Glu Val Lys Ser Lys Lys His Pro Gln Ile Ile Lys Lys Gly 1040 1045 1050 <210> 41 <211> 1368 <212> PRT <213> Artificial sequence <220> <223> Nuclease deficient Cas9 GenBank: AKA60242.1 <400> 41 Met Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val 1 5 10 15 Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe 20 25 30 Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile 35 40 45 Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu 50 55 60 Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys 65 70 75 80 Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser 85 90 95 Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys 100 105 110 His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr 115 120 125 His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp 130 135 140 Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His 145 150 155 160 Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro 165 170 175 Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr 180 185 190 Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala 195 200 205 Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn 210 215 220 Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn 225 230 235 240 Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe 245 250 255 Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp 260 265 270 Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp 275 280 285 Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp 290 295 300 Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser 305 310 315 320 Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys 325 330 335 Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe 340 345 350 Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser 355 360 365 Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp 370 375 380 Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg 385 390 395 400 Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu 405 410 415 Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe 420 425 430 Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile 435 440 445 Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp 450 455 460 Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu 465 470 475 480 Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr 485 490 495 Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser 500 505 510 Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys 515 520 525 Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln 530 535 540 Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr 545 550 555 560 Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp 565 570 575 Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly 580 585 590 Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp 595 600 605 Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr 610 615 620 Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala 625 630 635 640 His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr 645 650 655 Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp 660 665 670 Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe 675 680 685 Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe 690 695 700 Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu 705 710 715 720 His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly 725 730 735 Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly 740 745 750 Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln 755 760 765 Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile 770 775 780 Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro 785 790 795 800 Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu 805 810 815 Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg 820 825 830 Leu Ser Asp Tyr Asp Val Asp Ala Ile Val Pro Gln Ser Phe Leu Lys 835 840 845 Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg 850 855 860 Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys 865 870 875 880 Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys 885 890 895 Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp 900 905 910 Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr 915 920 925 Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp 930 935 940 Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser 945 950 955 960 Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg 965 970 975 Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val 980 985 990 Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe 995 1000 1005 Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala 1010 1015 1020 Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe 1025 1030 1035 Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala 1040 1045 1050 Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu 1055 1060 1065 Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val 1070 1075 1080 Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr 1085 1090 1095 Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys 1100 1105 1110 Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro 1115 1120 1125 Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val 1130 1135 1140 Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys 1145 1150 1155 Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser 1160 1165 1170 Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys 1175 1180 1185 Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu 1190 1195 1200 Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly 1205 1210 1215 Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val 1220 1225 1230 Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser 1235 1240 1245 Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys 1250 1255 1260 His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys 1265 1270 1275 Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala 1280 1285 1290 Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn 1295 1300 1305 Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala 1310 1315 1320 Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser 1325 1330 1335 Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr 1340 1345 1350 Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp 1355 1360 1365 <210> 42 <211> 363 <212> DNA <213> Artificial sequence <220> <223> mSA variant <400> 42 gcggaagcgg gtatcaccgg cacgtggtac aaccagcatg gttctacctt caccgttacc 60 gcgggtgcgg acggtaacct gaccggtcag tacgaaaacc gtgcgcaggg cactggttgc 120 cagaactctc cgtacaccct gaccggtcgt tacaacggta ccaaactgga atggcgtgtt 180 gaatggaaca actctaccga aaactgccac tctcgtaccg aatggcgtgg tcagtaccag 240 ggtggtgcgg aagcgcgtat caacacccag tggaacctga cctacgaagg tggttctggt 300 ccggcgaccg aacagggtca ggacaccttc accaaagtta aaccgtctgc ggcgtctgga 360 tcc 363 <210> 43 <211> 714 <212> DNA <213> Artificial sequence <220> <223> scFv fluorescein variant <400> 43 caggtccagc tccaagagtc tggtggggat ctggttaaac cgggcggaag cttgaagctt 60 tcatgtgccg cgtcaggatt tactttctct ggttatggta tgtcttgggt gagacaaacg 120 cctgataaaa gactggagca agtggcgtct atatcacggg atgggtacac gacctattat 180 actgattcag ttaaagggcg cttcactata tcacgcgata atgctaggaa cacgctgtac 240 ctccagatgt cttcactgca gtccgctgac accgccatct attattgcgc aaggttggga 300 acctattggg gacaagggac tactgttacc gtgtcctccg gcggtggggg gtccggagga 360 agggcctctg gcggtggtgg ctcccagatt gtgttgactc agagccctgc tattatgtct 420 gcgtctccgg gggagaaagt tacaatgacg tgtagagcgt cgtcgtcggt gtcttacatg 480 cactggtatc agctgaagtc tggcacatcg cccaaacgct ggatttatga tacctcgaaa 540 cttagctcag gagttccgac tcggttctct ggttccgggt ctgggacatc gtattccttg 600 actatatcct ctatggaagc tcatgacgcc gcaacatatt actgtcaaca atggaactcg 660 aaacctcctt tcacctttgg ttcgggcact aaattggaaa taaagcgggc cgcc 714 <210> 44 <211> 4587 <212> DNA <213> Artificial sequence <220> <223> Cas variant - mSA variant fusion construct <400> 44 atggataaga agtactctat cggactcgat atcggaacta actctgtggg atgggctgtg 60 atcaccgatg agtacaaggt gccatctaag aagttcaagg ttctcggaaa caccgatagg 120 cactctatca agaaaaacct tatcggtgct ctcctcttcg attctggtga aactgctgag 180 gctaccagac tcaagagaac cgctagaaga aggtacacca gaagaaagaa caggatctgc 240 tacctccaag agatcttctc taacgagatg gctaaagtgg atgattcatt cttccacagg 300 ctcgaagagt cattcctcgt ggaagaagat aagaagcacg agaggcaccc tatcttcgga 360 aacatcgttg atgaggtggc ataccacgag aagtacccta ctatctacca cctcagaaag 420 aagctcgttg attctactga taaggctgat ctcaggctca tctacctcgc tctcgctcac 480 atgatcaagt tcagaggaca cttcctcatc gagggtgatc tcaaccctga taactctgat 540 gtggataagt tgttcatcca gctcgtgcag acctacaacc agcttttcga agagaaccct 600 atcaacgctt caggtgtgga tgctaaggct atcctctctg ctaggctctc taagtcaaga 660 aggcttgaga acctcattgc tcagctccct ggtgagaaga agaacggact tttcggaaac 720 ttgatcgctc tctctctcgg actcacccct aacttcaagt ctaacttcga tctcgctgag 780 gatgcaaagc tccagctctc aaaggatacc tacgatgatg atctcgataa cctcctcgct 840 cagatcggag atcagtacgc tgatttgttc ctcgctgcta agaacctctc tgatgctatc 900 ctcctcagtg atatcctcag agtgaacacc gagatcacca aggctccact ctcagcttct 960 atgatcaaga gatacgatga gcaccaccag gatctcacac ttctcaaggc tcttgttaga 1020 cagcagctcc cagagaagta caaagagatt ttcttcgatc agtctaagaa cggatacgct 1080 ggttacatcg atggtggtgc atctcaagaa gagttctaca agttcatcaa gcctatcctc 1140 gagaagatgg atggaaccga ggaactcctc gtgaagctca atagagagga tcttctcaga 1200 aagcagagga ccttcgataa cggatctatc cctcatcaga tccacctcgg agagttgcac 1260 gctatcctta gaaggcaaga ggatttctac ccattcctca aggataacag ggaaaagatt 1320 gagaagattc tcaccttcag aatcccttac tacgtgggac ctctcgctag aggaaactca 1380 agattcgctt ggatgaccag aaagtctgag gaaaccatca ccccttggaa cttcgaagag 1440 gtggtggata agggtgctag tgctcagtct ttcatcgaga ggatgaccaa cttcgataag 1500 aaccttccaa acgagaaggt gctccctaag cactctttgc tctacgagta cttcaccgtg 1560 tacaacgagt tgaccaaggt taagtacgtg accgagggaa tgaggaagcc tgcttttttg 1620 tcaggtgagc aaaagaaggc tatcgttgat ctcttgttca agaccaacag aaaggtgacc 1680 gtgaagcagc tcaaagagga ttacttcaag aaaatcgagt gcttcgattc agttgagatt 1740 tctggtgttg aggataggtt caacgcatct ctcggaacct accacgatct cctcaagatc 1800 attaaggata aggatttctt ggataacgag gaaaacgagg atatcttgga ggatatcgtt 1860 cttaccctca ccctctttga agatagagag atgattgaag aaaggctcaa gacctacgct 1920 catctcttcg atgataaggt gatgaagcag ttgaagagaa gaagatacac tggttgggga 1980 aggctctcaa gaaagctcat taacggaatc agggataagc agtctggaaa gacaatcctt 2040 gatttcctca agtctgatgg attcgctaac agaaacttca tgcagctcat ccacgatgat 2100 tctctcacct ttaaagagga tatccagaag gctcaggttt caggacaggg tgatagtctc 2160 catgagcata tcgctaacct cgctggatct cctgcaatca agaagggaat cctccagact 2220 gtgaaggttg tggatgagtt ggtgaaggtg atgggaaggc ataagcctga gaacatcgtg 2280 atcgaaatgg ctagagagaa ccagaccact cagaagggac agaagaactc tagggaaagg 2340 atgaagagga tcgaggaagg tatcaaagag cttggatctc agatcctcaa agagcaccct 2400 gttgagaaca ctcagctcca gaatgagaag ctctacctct actacctcca gaacggaagg 2460 gatatgtatg tggatcaaga gttggatatc aacaggctct ctgattacga tgttgatcat 2520 atcgtgccac agtcattctt gaaggatgat tctatcgata acaaggtgct caccaggtct 2580 gataagaaca ggggtaagag tgataacgtg ccaagtgaag aggttgtgaa gaaaatgaag 2640 aactattgga ggcagctcct caacgctaag ctcatcactc agagaaagtt cgataacttg 2700 actaaggctg agaggggagg actctctgaa ttggataagg caggattcat caagaggcag 2760 cttgtggaaa ccaggcagat cactaagcac gttgcacaga tcctcgattc taggatgaac 2820 accaagtacg atgagaacga taagttgatc agggaagtga aggttatcac cctcaagtca 2880 aagctcgtgt ctgatttcag aaaggatttc caattctaca aggtgaggga aatcaacaac 2940 taccaccacg ctcacgatgc ttaccttaac gctgttgttg gaaccgctct catcaagaag 3000 tatcctaagc tcgagtcaga gttcgtgtac ggtgattaca aggtgtacga tgtgaggaag 3060 atgatcgcta agtctgagca agagatcgga aaggctaccg ctaagtattt cttctactct 3120 aacatcatga atttcttcaa gaccgagatt accctcgcta acggtgagat cagaaagagg 3180 ccactcatcg agacaaacgg tgaaacaggt gagatcgtgt gggataaggg acgcgacttc 3240 gcaaccgtga ggaaggtgct gtccatgccc caggtcaata tagtgaagaa aacggaagtt 3300 caaactggtg gattttccaa ggagtctatt ctgccgaaac ggaattctga taagctgata 3360 gcaagaaaaa aagactggga tcctaagaag tatggcggtt tcgatagccc aacggtcgcg 3420 tactcggtcc tcgtcgttgc aaaggttgaa aagggtaagt ccaaaaaact gaagtcggtg 3480 aaggagttgc tcggtatcac tatcatggaa aggtcttctt ttgaaaagaa cccgatcgac 3540 ttcctcgaag ctaaaggcta taaagaggtt aagaaggacc tcataattaa actgcccaag 3600 tactcacttt tcgaattgga gaacgggaga aagagaatgc tcgcttctgc tggtgagctt 3660 caaaagggaa acgagcttgc tctcccatct aagtacgtta actttcttta cctcgcttct 3720 cactacgaga agttgaaggg atctccagaa gataacgagc agaagcaact tttcgttgag 3780 cagcacaagc actacttgga tgagatcatc gagcagatct ctgagttctc taaaagggtg 3840 atcctcgctg atgcaaacct cgataaggtg ttgtctgctt acaacaagca cagagataag 3900 cctatcaggg aacaggcaga gaacatcatc catctcttca cccttaccaa cctcggtgct 3960 cctgctgctt tcaagtactt cgatacaacc atcgatagga agagatacac ctctaccaaa 4020 gaagtgctcg atgctaccct catccatcag tctatcactg gactctacga gactaggatc 4080 gatctctcac agctcggtgg tgattcaagg gctgatccta agaagaagag gaaggttcat 4140 caccatcacc atcaccatca ccatcacaaa gaatccggta gcgtttcttc ggaacagctg 4200 gcccagttcc gcagcctgga tgcggaagcg ggtatcaccg gcacgtggta caaccagcat 4260 ggttctacct tcaccgttac cgcgggtgcg gacggtaacc tgaccggtca gtacgaaaac 4320 cgtgcgcagg gcactggttg ccagaactct ccgtacaccc tgaccggtcg ttacaacggt 4380 accaaactgg aatggcgtgt tgaatggaac aactctaccg aaaactgcca ctctcgtacc 4440 gaatggcgtg gtcagtacca gggtggtgcg gaagcgcgta tcaacaccca gtggaacctg 4500 acctacgaag gtggttctgg tccggcgacc gaacagggtc aggacacctt caccaaagtt 4560 aaaccgtctg cggcgtctgg atcctaa 4587 <210> 45 <211> 4938 <212> DNA <213> Artificial sequence <220> <223> Cas variant - scFv (fluorescein) fusion construct <400> 45 atggataaga agtactctat cggactcgat atcggaacta actctgtggg atgggctgtg 60 atcaccgatg agtacaaggt gccatctaag aagttcaagg ttctcggaaa caccgatagg 120 cactctatca agaaaaacct tatcggtgct ctcctcttcg attctggtga aactgctgag 180 gctaccagac tcaagagaac cgctagaaga aggtacacca gaagaaagaa caggatctgc 240 tacctccaag agatcttctc taacgagatg gctaaagtgg atgattcatt cttccacagg 300 ctcgaagagt cattcctcgt ggaagaagat aagaagcacg agaggcaccc tatcttcgga 360 aacatcgttg atgaggtggc ataccacgag aagtacccta ctatctacca cctcagaaag 420 aagctcgttg attctactga taaggctgat ctcaggctca tctacctcgc tctcgctcac 480 atgatcaagt tcagaggaca cttcctcatc gagggtgatc tcaaccctga taactctgat 540 gtggataagt tgttcatcca gctcgtgcag acctacaacc agcttttcga agagaaccct 600 atcaacgctt caggtgtgga tgctaaggct atcctctctg ctaggctctc taagtcaaga 660 aggcttgaga acctcattgc tcagctccct ggtgagaaga agaacggact tttcggaaac 720 ttgatcgctc tctctctcgg actcacccct aacttcaagt ctaacttcga tctcgctgag 780 gatgcaaagc tccagctctc aaaggatacc tacgatgatg atctcgataa cctcctcgct 840 cagatcggag atcagtacgc tgatttgttc ctcgctgcta agaacctctc tgatgctatc 900 ctcctcagtg atatcctcag agtgaacacc gagatcacca aggctccact ctcagcttct 960 atgatcaaga gatacgatga gcaccaccag gatctcacac ttctcaaggc tcttgttaga 1020 cagcagctcc cagagaagta caaagagatt ttcttcgatc agtctaagaa cggatacgct 1080 ggttacatcg atggtggtgc atctcaagaa gagttctaca agttcatcaa gcctatcctc 1140 gagaagatgg atggaaccga ggaactcctc gtgaagctca atagagagga tcttctcaga 1200 aagcagagga ccttcgataa cggatctatc cctcatcaga tccacctcgg agagttgcac 1260 gctatcctta gaaggcaaga ggatttctac ccattcctca aggataacag ggaaaagatt 1320 gagaagattc tcaccttcag aatcccttac tacgtgggac ctctcgctag aggaaactca 1380 agattcgctt ggatgaccag aaagtctgag gaaaccatca ccccttggaa cttcgaagag 1440 gtggtggata agggtgctag tgctcagtct ttcatcgaga ggatgaccaa cttcgataag 1500 aaccttccaa acgagaaggt gctccctaag cactctttgc tctacgagta cttcaccgtg 1560 tacaacgagt tgaccaaggt taagtacgtg accgagggaa tgaggaagcc tgcttttttg 1620 tcaggtgagc aaaagaaggc tatcgttgat ctcttgttca agaccaacag aaaggtgacc 1680 gtgaagcagc tcaaagagga ttacttcaag aaaatcgagt gcttcgattc agttgagatt 1740 tctggtgttg aggataggtt caacgcatct ctcggaacct accacgatct cctcaagatc 1800 attaaggata aggatttctt ggataacgag gaaaacgagg atatcttgga ggatatcgtt 1860 cttaccctca ccctctttga agatagagag atgattgaag aaaggctcaa gacctacgct 1920 catctcttcg atgataaggt gatgaagcag ttgaagagaa gaagatacac tggttgggga 1980 aggctctcaa gaaagctcat taacggaatc agggataagc agtctggaaa gacaatcctt 2040 gatttcctca agtctgatgg attcgctaac agaaacttca tgcagctcat ccacgatgat 2100 tctctcacct ttaaagagga tatccagaag gctcaggttt caggacaggg tgatagtctc 2160 catgagcata tcgctaacct cgctggatct cctgcaatca agaagggaat cctccagact 2220 gtgaaggttg tggatgagtt ggtgaaggtg atgggaaggc ataagcctga gaacatcgtg 2280 atcgaaatgg ctagagagaa ccagaccact cagaagggac agaagaactc tagggaaagg 2340 atgaagagga tcgaggaagg tatcaaagag cttggatctc agatcctcaa agagcaccct 2400 gttgagaaca ctcagctcca gaatgagaag ctctacctct actacctcca gaacggaagg 2460 gatatgtatg tggatcaaga gttggatatc aacaggctct ctgattacga tgttgatcat 2520 atcgtgccac agtcattctt gaaggatgat tctatcgata acaaggtgct caccaggtct 2580 gataagaaca ggggtaagag tgataacgtg ccaagtgaag aggttgtgaa gaaaatgaag 2640 aactattgga ggcagctcct caacgctaag ctcatcactc agagaaagtt cgataacttg 2700 actaaggctg agaggggagg actctctgaa ttggataagg caggattcat caagaggcag 2760 cttgtggaaa ccaggcagat cactaagcac gttgcacaga tcctcgattc taggatgaac 2820 accaagtacg atgagaacga taagttgatc agggaagtga aggttatcac cctcaagtca 2880 aagctcgtgt ctgatttcag aaaggatttc caattctaca aggtgaggga aatcaacaac 2940 taccaccacg ctcacgatgc ttaccttaac gctgttgttg gaaccgctct catcaagaag 3000 tatcctaagc tcgagtcaga gttcgtgtac ggtgattaca aggtgtacga tgtgaggaag 3060 atgatcgcta agtctgagca agagatcgga aaggctaccg ctaagtattt cttctactct 3120 aacatcatga atttcttcaa gaccgagatt accctcgcta acggtgagat cagaaagagg 3180 ccactcatcg agacaaacgg tgaaacaggt gagatcgtgt gggataaggg acgcgacttc 3240 gcaaccgtga ggaaggtgct gtccatgccc caggtcaata tagtgaagaa aacggaagtt 3300 caaactggtg gattttccaa ggagtctatt ctgccgaaac ggaattctga taagctgata 3360 gcaagaaaaa aagactggga tcctaagaag tatggcggtt tcgatagccc aacggtcgcg 3420 tactcggtcc tcgtcgttgc aaaggttgaa aagggtaagt ccaaaaaact gaagtcggtg 3480 aaggagttgc tcggtatcac tatcatggaa aggtcttctt ttgaaaagaa cccgatcgac 3540 ttcctcgaag ctaaaggcta taaagaggtt aagaaggacc tcataattaa actgcccaag 3600 tactcacttt tcgaattgga gaacgggaga aagagaatgc tcgcttctgc tggtgagctt 3660 caaaagggaa acgagcttgc tctcccatct aagtacgtta actttcttta cctcgcttct 3720 cactacgaga agttgaaggg atctccagaa gataacgagc agaagcaact tttcgttgag 3780 cagcacaagc actacttgga tgagatcatc gagcagatct ctgagttctc taaaagggtg 3840 atcctcgctg atgcaaacct cgataaggtg ttgtctgctt acaacaagca cagagataag 3900 cctatcaggg aacaggcaga gaacatcatc catctcttca cccttaccaa cctcggtgct 3960 cctgctgctt tcaagtactt cgatacaacc atcgatagga agagatacac ctctaccaaa 4020 gaagtgctcg atgctaccct catccatcag tctatcactg gactctacga gactaggatc 4080 gatctctcac agctcggtgg tgattcaagg gctgatccta agaagaagag gaaggttcat 4140 caccatcacc atcaccatca ccatcacaaa gaatccggta gcgtttcttc ggaacagctg 4200 gcccagttcc gcagcctgga tcaggtccag ctccaagagt ctggtgggga tctggttaaa 4260 ccgggcggaa gcttgaagct ttcatgtgcc gcgtcaggat ttactttctc tggttatggt 4320 atgtcttggg tgagacaaac gcctgataaa agactggagc aagtggcgtc tatatcacgg 4380 gatgggtaca cgacctatta tactgattca gttaaagggc gcttcactat atcacgcgat 4440 aatgctagga acacgctgta cctccagatg tcttcactgc agtccgctga caccgccatc 4500 tattattgcg caaggttggg aacctattgg ggacaaggga ctactgttac cgtgtcctcc 4560 ggcggtgggg ggtccggagg aagggcctct ggcggtggtg gctcccagat tgtgttgact 4620 cagagccctg ctattatgtc tgcgtctccg ggggagaaag ttacaatgac gtgtagagcg 4680 tcgtcgtcgg tgtcttacat gcactggtat cagctgaagt ctggcacatc gcccaaacgc 4740 tggatttatg atacctcgaa acttagctca ggagttccga ctcggttctc tggttccggg 4800 tctgggacat cgtattcctt gactatatcc tctatggaag ctcatgacgc cgcaacatat 4860 tactgtcaac aatggaactc gaaacctcct ttcacctttg gttcgggcac taaattggaa 4920 ataaagcggg ccgcctaa 4938 <210> 46 <211> 2769 <212> DNA <213> Artificial sequence <220> <223> NgAgo construct <400> 46 atggcgtcct ccccaaagaa gaagcgtaag gtcatgactg ttatcgacct tgattctact 60 acaaccgctg acgaacttac ttccggacac acctacgaca tttcggttac tcttaccggc 120 gtttacgaca atactgatga gcaacacccc aggatgtccc ttgcattcga acaagacaac 180 ggcgagagaa ggtacatcac tctgtggaaa aacactacac ctaaggacgt gttcacctac 240 gattacgcaa ccgggagtac atacatcttt acaaacatcg actacgaggt aaaggacggg 300 tacgaaaacc taacagctac ttaccagacc actgtcgaga atgctacagc ccaagaggtg 360 ggcaccaccg acgaggatga aacattcgcc ggaggtgaac ctctggacca tcaccttgat 420 gatgctttaa acgaaacccc tgacgatgca gagactgagt ccgactccgg acacgtgatg 480 acttcctttg catctaggga tcagctacct gagtggactc ttcacaccta caccctgaca 540 gctactgacg gagccaaaac cgatactgag tacgccaggc gtacccttgc ttacacagtc 600 agacaagaac tatacactga ccatgatgcc gctccagtcg ctaccgatgg actgatgctt 660 cttacacctg aaccactggg cgaaacacca cttgaccttg attgcggcgt gagggtggaa 720 gccgacgaaa ctcgcacact ggactacacc accgctaaag atcggttact cgccagagag 780 cttgtagaag agggacttaa acgtagttta tgggacgatt accttgttag aggtatcgac 840 gaggtcctca gtaaggaacc tgtccttacc tgcgacgagt ttgatcttca tgagaggtac 900 gacctttctg tggaagtcgg acattcgggg agggcatacc ttcatattaa cttccgtcat 960 cgttttgtac ctaaactaac actggctgac atcgacgatg acaacattta cccaggactt 1020 cgtgtcaaaa caacctaccg gccccgtcgt ggtcacattg tctggggact tcgggacgag 1080 tgcgcaacag actctcttaa taccctcgga aaccaaagtg ttgtggctta ccataggaac 1140 aaccaaacac caattaacac tgaccttctc gacgctatcg aagccgctga tcgccgggtt 1200 gtggagacac gtagacaagg tcatggggac gacgctgtgt ccttcccaca agagcttctg 1260 gctgttgaac ccaacaccca tcagatcaag caattcgctt ccgatggctt ccatcaacaa 1320 gccaggtcta agacacgtct ttcggcttct cggtgctccg agaaagccca agcatttgct 1380 gaacgtcttg accctgtccg tcttaacggc tctactgtcg agtttagttc cgagttcttc 1440 accggaaaca atgaacagca actgagactt ctctacgaaa atggggaatc ggtccttaca 1500 tttcgtgatg gagccagggg agcccatcca gatgagacat tctcgaaagg cattgtaaat 1560 ccacccgaat cctttgaagt cgctgtcgtc cttcctgaac aacaggctga tacctgcaag 1620 gctcagtggg acaccatggc tgatctactc aaccaagcag gcgctcctcc tacaaggagt 1680 gaaacagtcc agtacgatgc cttctccagt cccgagagta ttagtcttaa cgttgctgga 1740 gccattgacc catccgaggt ggatgccgct ttcgtggtac ttccaccaga ccaagaagga 1800 ttcgctgacc tggcttcccc aacagagaca tacgacgaac tgaaaaaggc tcttgctaac 1860 atgggaatct acagtcaaat ggcttacttc gaccgttttc gcgacgctaa aatcttctac 1920 acccgtaatg tcgcccttgg cctgcttgca gccgctggag gtgtcgcatt tacaacagaa 1980 catgctatgc ctggagatgc tgacatgttt atcgggatcg acgtttccag gtcttaccct 2040 gaagatggag ccagcggaca aatcaacatc gcagctactg caaccgctgt ctacaaggac 2100 ggaaccatcc ttggacacag ttccactcgt ccacaattag gagaaaaact tcaatccacc 2160 gatgtcaggg atattatgaa gaacgccatc ctcggatacc aacaagtgac cggagaatct 2220 cctacccaca ttgtgattca tcgtgacggc ttcatgaacg aggacttaga tcctgccaca 2280 gagtttctaa acgaacaagg cgtcgagtac gatatcgttg aaattcgcaa gcaacctcaa 2340 accaggctat tagccgtaag tgatgttcaa tacgacacac ctgtcaagtc cattgctgct 2400 atcaaccaaa acgaaccacg cgctaccgtg gccacctttg gcgcccctga gtaccttgct 2460 acacgcgatg gtggcggctt acctagacct attcaaatcg agcgcgtcgc tggagaaaca 2520 gatatcgaaa ctcttacaag gcaagtgtac cttctttctc agagtcacat ccaggtccat 2580 aactccaccg ctcggctccc tatcacaact gcctacgctg accaggcttc gacccatgct 2640 acaaaaggat acttagtcca aaccggagcc tttgaatcca acgtggggtt cctgaagcgc 2700 cctgctgcca ccaaaaaggc tggacaagcc aaaaaaaaga agtacccata cgatgtacca 2760 gattacgct 2769 <210> 47 <211> 246 <212> DNA <213> Zea mays <400> 47 tacatcaagt gcaacgactg cggcgtgcgc atcgtggagg ccaggtgcga ccgcgacatg 60 gccgagtgga tccgcgacgg cgcgcccggc aggatcaggc agctctgcta cgacaaggtg 120 ctcggccccg agctcttctt ctcgccgctg ctctacgtcc aggtaaccgt cctccgtacg 180 tcgtcgtaga gaggtggaga tttttgtggt cggatttctg gcatcgctgg ttgcctgctc 240 ccagac 246 <210> 48 <211> 243 <212> DNA <213> Artificial Sequence <220> <223> INDEL mutant <400> 48 tacatcaagt gcaacgactg cggcgtgcgc atcgtggagg ccaggtgcga ccgcgacatg 60 gccgagtgga tccgcgacgg cgcgcccggc aggatcaggc agctctgcta cgacaaggtg 120 ctcggccccg agctcttctc gccgctgctc tacgtccagg taaccgtcct ccgtacgtcg 180 tcgtagagag gtggagattt ttgtggtcgg atttctggca tcgctggttg cctgctccca 240 gac 243 <210> 49 <211> 244 <212> DNA <213> Artificial Sequence <220> <223> INDEL mutant <400> 49 tacatcaagt gcaacgactg cggcgtgcgc atcgtggagg ccaggtgcga ccgcgacatg 60 gccgagtgga tccgcgacgg cgcgcccggc aggatcaggc agctctgcta cgacaaggtg 120 ctcggccccg agcttcttct cgccgctgct ctacgtccag gtaaccgtcc tccgtacgtc 180 gtcgtagaga ggtggagatt tttgtggtcg gatttctggc atcgctggtt gcctgctccc 240 agac 244 <210> 50 <211> 252 <212> DNA <213> Artificial Sequence <220> <223> HDR event mutant <400> 50 tacatcaagt gcaacgactg cggcgtgcgc atcgtggagg ccaggtgcga ccgcgacatg 60 gccgagtgga tccgcgacgg cgcgcccggc aggatcaggc agctctgcta cgacaagtgg 120 tccagcgccg cgacctagct cttcttctcg ccgctgctct acgtccaggt aaccgtcctc 180 cgtacgtcgt cgtagagagg tggagatttt tgtggtcgga tttctggcat cgctggttgc 240 ctgctcccag ac 252 <210> 51 <211> 199 <212> DNA <213> Artificial Sequence <220> <223> repair template <400> 51 cgcatcgtgg aggccaggtg cgaccgcgac atggccgagt ggatccgcga cggcgcgccc 60 ggcaggatca ggcagctctg ctacgacaag tggtccagcg ccgcgaccta gctcttcttc 120 tcgccgctgc tctacgtcca ggtaaccgtc ctccgtacgt cgtcgtagag aggtggagat 180 ttttgtggtc ggatttctg 199 <210> 52 <211> 21 <212> DNA <213> Zea mays <400> 52 aaggtgctcg gccccgagct c 21 <210> 53 <211> 27 <212> DNA <213> Artificial Sequence <220> <223> replacing sequence in course of HDR event; sequence encoding KWSSAATL <400> 53 aagtggtcca gcgccgcgac ctagctc 27 <210> 54 <211> 717 <212> DNA <213> Artificial Sequence <220> <223> scFv fluorescein variant <400> 54 caggtccagc tccaagagtc tggtggggat ctggttaaac cgggcggaag cttgaagctt 60 tcatgtgccg cgtcaggatt tactttctct ggttatggta tgtcttgggt gagacaaacg 120 cctgataaaa gactggagca agtggcgtct atatcacggg atgggtacac gacctattat 180 actgattcag ttaaagggcg cttcactata tcacgcgata atgctaggaa cacgctgtac 240 ctccagatgt cttcactgca gtccgctgac accgccatct attattgcgc aaggttggga 300 acctattggg gacaagggac tactgttacc gtgtcctccg gcggtggggg gtccggagga 360 agggcctctg gcggtggtgg ctcccagatt gtgttgactc agagccctgc tattatgtct 420 gcgtctccgg gggagaaagt tacaatgacg tgtagagcgt cgtcgtcggt gtcttacatg 480 cactggtatc agctgaagtc tggcacatcg cccaaacgct ggatttatga tacctcgaaa 540 cttagctcag gagttccgac tcggttctct ggttccgggt ctgggacatc gtattccttg 600 actatatcct ctatggaagc tcatgacgcc gcaacatatt actgtcaaca atggaactcg 660 aaacctcctt tcacctttgg ttcgggcact aaattggaaa taaagcgggc cgcctaa 717 <210> 55 <211> 480 <212> DNA <213> Artificial Sequence <220> <223> steptavidin variant <400> 55 gacccatcga aagattccaa ggcacaggtt tcggctgctg aggccggtat aaccggaacc 60 tggtataacc aactcggatc aacattcatc gtcaccgccg gcgcagacgg tgctctcacc 120 ggtacatacg agtcggcggt tgggaacgca gagagccggt acgtcctcac gggccgctac 180 gattctgctc ctgcgacaga tggtagcgga accgccttgg gttggacggt cgcttggaag 240 aataactacc gcaatgccga ctcagctacg acctggagcg gccaatatgt gggcggagcc 300 gaagccagga ttaataccca atggttgctg acatcaggca ccacggaggc caacgcctgg 360 aagtcgaccc tggttggtca tgataccttt accaaggtta aaccatcagc cgcatctata 420 gatgcggcaa agaaggcggg ggtgaataac ggaaatccgc ttgatgcagt gcagcaataa 480 <210> 56 <211> 366 <212> DNA <213> Artificial Sequence <220> <223> mSA2 <400> 56 gcggaagcgg gtatcaccgg cacgtggtac aaccagcatg gttctacctt caccgttacc 60 gcgggtgcgg acggtaacct gaccggtcag tacgaaaacc gtgcgcaggg cactggttgc 120 cagaactctc cgtacaccct gaccggtcgt tacaacggta ccaaactgga atggcgtgtt 180 gaatggaaca actctaccga aaactgccac tctcgtaccg aatggcgtgg tcagtaccag 240 ggtggtgcgg aagcgcgtat caacacccag tggaacctga cctacgaagg tggttctggt 300 ccggcgaccg aacagggtca ggacaccttc accaaagtta aaccgtctgc ggcgtctgga 360 tcctaa 366

Claims (23)

  1. 인공 분자 복합체 (artificial molecular complex)로서,
    (a) 하나 이상의 부위-특이적인 뉴클레아제 (site-specific nuclease, SSN) 또는 이의 촉매적으로 활성인 단편 (catalytically active fragment), 또는 이를 코딩하는 핵산 서열, 및 이와 직접 상호작용하는,
    (b) 하나 이상의 복구 주형 핵산 서열 (RT)과 직접 상호작용하도록 구성된, 하나 이상의 복구 주형 도킹 도메인 (repair template docking domain, RTDD) 또는 이를 코딩하는 핵산 서열을 포함하고,
    선택적으로, (c) 하나 이상의 상호작용 도메인 (IA) 또는 이를 코딩하는 핵산 서열을 포함하며,
    상기 하나 이상의 상호작용 도메인은 상기 하나 이상의 부위-특이적인 뉴클레아제 또는 이의 촉매적으로 활성인 단편과 직접 상호작용하고,
    상기 하나 이상의 상호작용 도메인은 하기 (i), (ii) 및 (iii)로 이루어진 군으로부터 선택되는 하나 이상의 기능성을 제공하도록 구성되며:
    (i) 하나 이상의 복구 주형 도킹 도메인과의 상호작용; 및/또는
    (ii) 하나 이상의 복구 주형 핵산 서열과의 상호작용; 및/또는
    (iii) 게놈 DNA와 서열-특이적인 상호작용;
    상기 하나 이상의 복구 주형 핵산 서열이 하나 이상의 게놈 상보성 서열과 상보적인 하나 이상의 영역을 포함하며,
    상기 하나 이상의 복구 주형 핵산 서열이 DNA 타겟 서열의 복구를 매개하도록 구성된, 인공 분자 복합체.
  2. 제1항에 있어서,
    상기 부위-특이적인 뉴클레아제 또는 이를 코딩하는 핵산 서열이 Cas 또는 Cpf1 뉴클레아제를 포함하는 CRISPR 뉴클레아제, TALEN, ZFN, 메가뉴클레아제 (meganuclease), FokI 또는 이의 변이체를 포함하는 제한 엔도뉴클레아제 (restriction endonuclease) 또는 2종의 부위 특이적인 닉킹 엔도뉴클레아제 (two site-specific nicking endonuclease), 또는 이들의 변이체 또는 이들의 촉매적으로 활성인 단편 중 하나 이상으로부터 선택되는, 인공 분자 복합체.
  3. 제1항 또는 제2항에 있어서,
    상기 하나 이상의 복구 주형 도킹 도메인 또는 이를 코딩하는 핵산 서열이 바이오틴, 앱타머, DNA, RNA 또는 플루오레세인 또는 이의 변이체를 포함하는 형광단을 포함하는 단백질 염료, 말레이미드 또는 테트라졸륨 (XTT), 하나 이상의 복구 주형 핵산 서열과 상호작용하도록 특이적으로 구성된 가이드 핵산 서열, 스트렙타비딘 또는 이의 변이체, 바람직하게는 모노머성 스트렙타비딘, 아비딘 또는 이의 변이체, 친화성 태그, 바람직하게는 스트렙타비딘-태그, 항체, 단쇄 가변 단편 (scFv), 싱글-도메인 항체 (나노바디, nanobody), 안티칼린, 아그로박테리움 VirD2 단백질 또는 이의 도메인, 피코나바이러스 VPg, 토포이소머라제 또는 이의 도메인, PhiX174 파지 A 단백질, PhiX A* 단백질, VirE2 단백질 또는 이의 도메인, 또는 디곡시게닌 (digoxigenin) 중 하나 이상으로부터 선택되는, 인공 분자 복합체.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 하나 이상의 상호작용 도메인 또는 이를 코딩하는 핵산 서열이 DNA-결합 도메인, 스트렙타비딘 또는 이의 변이체, 바람직하게는 모노머성 스트렙타비딘, 아비딘 또는 이의 변이체, 친화성 태그, 바이오틴화 신호, 바이오틴 어셉터 부위, 스트렙타비딘-태그, 항체, 단쇄 가변 단편 (scFv), 싱글-도메인 항체 (나노바디), 안티칼린, 바이오틴, 앱타머, DNA, RNA 또는 플루오레세인 또는 이의 변이체를 포함하는 형광단을 포함하는 단백질 염료, 말레이미드 또는 테트라졸륨 (XTT), 하나 이상의 복구 주형 핵산 서열과 상호작용하도록 특이적으로 구성된 가이드 핵산 서열, 아그로박테리움 VirD2 단백질 또는 이의 도메인, 피코나바이러스 VPg, 토포이소머라제 또는 이의 도메인, PhiX174 파지 A 단백질, PhiX A* 단백질, VirE2 단백질 또는 이의 도메인, 또는 디곡시게닌 중 하나 이상으로부터 선택되는, 인공 분자 복합체.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 하나 이상의 부위-특이적인 뉴클레아제 및/또는 하나 이상의 복구 주형 핵산 서열 및/또는 하나 이상의 상호작용 도메인이 하나 이상의 핵 위치화 서열, 색소체 위치화 서열, 바람직하게는 미토콘드리아 위치화 서열 또는 엽록체 위치화 서열을 포함하는, 인공 분자 복합체.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 하나 이상의 복구 주형 핵산 서열이 하나 이상의 말단 영역, 바람직하게는 3'-말단을 포함하고, 상기 말단 영역은 상기 인공 분자 복합체의 임의의 다른 구성성분과 상호작용하지 않으며, 따라서 하나 이상의 게놈 상보성 서열과 혼성하여 DNA 타겟 서열의 복구를 매개하도록 구성되거나, 및/또는 상기 하나 이상의 복구 주형 핵산 서열이 플라스미드로서 제공되는, 인공 분자 복합체.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 하나 이상의 부위-특이적인 뉴클레아제 또는 이의 촉매적으로 활성인 단편 또는 이를 코딩하는 서열이 CRISPR 뉴클레아제, 바람직하게는 Cas 또는 Cpf1 뉴클레아제 또는 FokI 뉴클레아제로부터 선택되거나 또는 이들의 촉매적으로 활성인 단편이고, 상기 하나 이상의 상호작용 도메인 또는 이를 코딩하는 서열이 단쇄 가변 단편 또는 모노머성 스트렙타비딘으로부터 선택되는, 인공 분자 복합체.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 복합체가 하나 이상의 복구 주형 도킹 도메인을 제시하는 하나 이상의 가이드 핵산 서열을 포함하고, 하나 이상의 가이드 핵산 서열은 각각
    (i) 인지 DNA 타겟 서열 (recognition DNA target sequence)에 상보적인 제1 서열 영역, 및
    (ii) 상기 하나 이상의 부위-특이적인 뉴클레아제와 상호작용하도록 구성된 제2 서열 영역을 포함하고,
    (iii) 상기 하나 이상의 가이드 핵산 서열이 하나 이상의 복구 주형 핵산 서열과 물리적으로 결합하여, 하나 이상의 RNA 또는 DNA 및 하나 이상의 추가의 DNA 핵산 서열을 포함하거나 또는 이들로 구성되는 하이브리드 핵산 서열을 형성하고,
    선택적으로, (iv) 하나 이상의 가이드 핵산 서열과 하나 이상의 복구 주형 핵산 서열 사이에 링커 영역을 포함하며,
    바람직하게는, 상기 복구 주형 핵산 서열이 가이드 핵산 서열의 3' 말단에서 가이드 핵산 서열과 결합하거나, 및/또는 상기 복구 주형 핵산 서열이 가이드 핵산 서열의 5' 말단과 결합하거나, 및/또는 상기 복구 주형 핵산 서열이 가이드 핵산 서열 내부에 위치한, 인공 분자 복합체.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 하나 이상의 복구 주형 핵산 서열 및/또는 하나 이상의 가이드 핵산 서열이, 선택적으로 백본 및/또는 염기 변형을 포함하는, 합성 뉴클레오티드 서열을 비롯하여, 천연 또는 비-천연 뉴클레오티드 서열로부터 선택되는, 뉴클레오티드 서열을 포함하며,
    상기 가이드 핵산 서열이 단일 가닥 또는 부분적인 단일 가닥 RNA 또는 DNA 뉴클레오티드 서열을 포함하고,
    상기 하나 이상의 복구 주형 핵산 서열이 단일 가닥 또는 이중 가닥의 DNA 뉴클레오티드 서열을 포함하는, 인공 분자 복합체.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서,
    상기 하나 이상의 부위-특이적인 뉴클레아제 또는 이를 코딩하는 서열, 및 상기 하나 이상의 상호작용 도메인 또는 이를 코딩하는 서열, 및/또는 상기 하나 이상의 복구 주형 도킹 도메인 또는 이를 코딩하는 서열이 하나 이상의 링커 도메인에 의해 연결된, 인공 분자 복합체.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서,
    상기 하나 이상의 부위-특이적인 뉴클레아제 또는 이의 촉매적으로 활성인 단편 또는 이를 코딩하는 서열이, 독립적으로 스트렙토코커스 피오게네스 (Streptococcus pyogenes), 스트렙토코커스 서모필러스 (Streptococcus thermophiles)를 비롯한 스트렙토코커스 (Streptococcus spp.), 스타필로코커스 아우레우스 (Staphylococcus aureus) 또는 네이세리아 메닌기티데스 (Neisseria meningitides)를 비롯한 네이세리아 (Neisseria spp.), 코리네박터 (Corynebacter), 슈테렐라 (Sutterella), 레지오넬라 (Legionella), 트레포네마 (Treponema), 필리팍토르 (Filifactor), 유박테리움 (Eubacterium), 락토바실러스 (Lactobacillus), 미코플라스마 (Mycoplasma), 박테로이데스 (Bacteroides), 플라비이볼라 (Flaviivola), 플라보박테리움 (Flavobacterium), 스페어로키타 (Sphaerochaeta), 아조스피릴룸 (Azospirillum), 글루콘아세토박터 (Gluconacetobacter), 로세부리아 (Roseburia), 파르비바쿨럼 (Parvibaculum), 니트라티프락토르 (Nitratifractor), 미코플라스마 (Mycoplasma) 및 캄필로박터 (Campylobacter), 칸디다투스 미크라르체움 액시디필룸 ARMAN-1 (Candidatus Micrarchaeum acidiphilum ARMAN-1), 파르쿠박테리아 (Parcubacteria)(GenBank: APG80656.1), 설폴로부스 아일랜디쿠스 (Sulfolobus islandicus) HVE10/4 (GenBank: ADX81770.1) 또는 REY15A (GenBank: ADX84852.1)를 비롯한 설폴로부스 spp (Sulfolobus spp.)의 Cas 폴리펩타이드; 액시다미노코커스 sp. BV3L6를 비롯한 액시다미노코커스 spp. (Acidaminococcus spp.), 라크노스피래세애 박테리움 (Lachnospiraceae bacterium) ND2006, 라크노스피래세애 박테리움 MC2017, 라크노스피래세애 박테리움 MA2020을 비롯한 라크노스피래세애 spp. (Lachnospiraceae spp.), 부티리비브리오 프로테오칼라스티쿠스 (Butyrivibrio proteoclasticus), 칸디다투스 spp., 메타노플라스마 터미툼 (Methanoplasma termitum), 렙토스피라 이나다이 (Leptospira inadai), 모락셀라 보보쿨리 (Moraxella bovoculi) 237, 페레그리니박테리아 박테리움 (Peregrinibacteria bacterium) GW2011_GWA2_33_10, 파르쿠박테리아 박테리움 (Parcubacteria bacterium) GW2011_GWC2_44_17, 스미텔라 (Smithella) sp. SCADC, 스미텔라 sp. SC_K08D17, 프란시셀라 노비시다 (Francisella novicida) U112 등의 프란시셀라 spp. (Francisella spp.), 유박테리움 엘리겐스 (Eubacterium eligens), 프레보텔라 spp. (Prevotella spp.) 또는 포르피로모나스 spp. (Porphyromonas spp.) 유래의 Cpf1 폴리펩타이드를 비롯하여, 고세균 또는 박테리아 유래 Cpf1 폴리펩타이드; 또는 나트로노박테리움 그레고리 (Natronobacterium gregoryi) (GenBank: AFZ73749.1), 마이크로시스티스 에어루지노사 (Microcystis aeruginosa) (NCBI Reference Sequence: WP_012265209.1 또는 NCBI Reference Sequence: WP_002747795.1 또는 NCBI Reference Sequence: WP_012265209.1), 할로게오메트리쿰 팔리둠 (Halogeometricum pallidum) (GenBank: ELZ29017.1), 나트리알라바 아시아티카 (Natrialaba asiatica) (NCBI Reference Sequence: WP_006111085.1), 나트로노루브룸 티베텐스 (Natronorubrum tibetense) (NCBI Reference Sequence: WP_006090832.1), 나트리네마 펠리루브룸 (Natrinema pellirubrum) (NCBI Reference Sequence: WP_006183335.1) 또는 시네코코커스 spp. (Synechococcus spp.) (NCBI Reference Sequence: WP_011378069.1) 유래의 Argonaute 뉴클레아제, 또는 닉카제 또는 엔도뉴클레오분해 활성이 결핍된 뉴클레아제 (nucleases lacking endonucleolytic activity)를 비롯하여 이들의 변이체 및/또는 기능성 단편 및/또는 조합물로 이루어진 군으로부터 선택되는, 인공 분자 복합체.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서,
    하나 이상의 게놈 돌연변이를 특징으로 하는 질환을 치료하는 방법에 사용하기 위한 것이며,
    인공 분자 복합체가 하나 이상의 게놈 돌연변이를 타겟팅 및 복구하도록 구성된 것인, 인공 분자 복합체.
  13. 제1항 내지 제12항 중 어느 한 항에 따른 인공 분자 복합체를 이용한 질환의 치료 방법으로서,
    상기 질환이 하나 이상의 게놈 돌연변이를 특징으로 하며,
    상기 인공 분자 복합체가 하나 이상의 게놈 돌연변이를 타겟팅 및 복구하도록 구성된 것인, 치료 방법.
  14. 제1항 내지 제11항 중 어느 한 항에 따른 하나 이상의 인공 분자 복합체를 포함하거나 또는 이에 의해 편집된, 식물, 식물 세포, 식물 물질 또는 이의 파생물 또는 이의 후대.
  15. 하나 이상의 DNA 타겟 서열을 변형하는 방법으로서,
    (i) 대상 게놈 영역 내 하나 이상의 DNA 타겟 서열 및 하나 이상의 게놈 상보성 서열을 포함하는 하나 이상의 원핵생물, 진핵생물 또는 바이러스의 세포 및/또는 게놈을 제공하는 단계;
    (ii) 제1항 내지 제11항 중 어느 한 항에 따른 하나 이상의 인공 분자 복합체를 제공하는 단계;
    (iii)
    (a) 하나 이상의 부위-특이적인 뉴클레아제와 하나 이상의 DNA 타겟 서열의 상호작용; 및
    (b) 하나 이상의 복구 주형 핵산 서열과 하나 이상의 게놈 상보성 서열의 상보적인 염기 쌍 형성
    을 달성하기에 적합한 조건 하에, 상기 하나 이상의 인공 분자 복합체를 하나 이상의 DNA 타겟 서열과 접촉시켜, 하나 이상의 부위-특이적인 뉴클레아제에 의한 하나 이상의 상보성 서열의 인지 및 하나 이상의 DNA 절단 유도를 달성하는 단계로서, 상기 하나 이상의 복구 주형 핵산 서열이 하나 이상의 DNA 타겟 서열의 부위에서의 상동성 특이적인 복구를 이행하는, 단계; 및
    (iv) 하나 이상의 DNA 타겟 서열 내 변형을 포함하는 하나 이상의 원핵생물, 진핵생물 또는 바이러스의 세포 및/또는 게놈을 수득하는 단계
    를 포함하는, 방법.
  16. 제15항에 있어서,
    상기 인공 분자 복합체의 하나 이상의 복구 주형 핵산 서열 및/또는 하나 이상의 복구 주형 도킹 도메인이, 하나 이상의 분자 복합체의 하나 이상의 부위-특이적인 뉴클레아제와 독립적으로, 하나 이상의 원핵생물 또는 진핵생물 세포에 제공되고,
    하나 이상의 인공 분자 복합체가 상기 하나 이상의 원핵생물, 진핵생물 또는 바이러스의 세포 및/또는 게놈 내에서 조립되거나 또는 부분적으로 조립되는, 방법.
  17. 제15항에 있어서,
    상기 하나 이상의 인공 분자 복합체가 생체외 조립된 인공 분자 복합체 (ex vivo assembled artificial molecular complex)인, 방법.
  18. 제15항 내지 제17항 중 어느 한 항에 있어서,
    상기 하나 이상의 진핵생물 세포가 식물 세포이고, 바람직하게는, 호르데움 불가리 (Hordeum vulgare), 호르데움 불부숨 (Hordeum bulbusom), 소르굼 비콜러 (Sorghum bicolor), 사카룸 오피시나리움 (Saccharum officinarium), 지 메이스 (Zea mays) 등의 지 spp. (Zea spp.), 세타리아 이탈리카 (Setaria italica), 오리자 미누타 (Oryza minuta), 오리자 사티바 (Oriza sativa), 오리자 아우스트랄리엔시스 (Oryza australiensis), 오리자 알타 (Oryza alta), 트리티쿰 에이스티붐 (Triticum aestivum), 트리티쿰 두럼 (Triticum durum), 세칼레 세레알레 (Secale cereale), 트리티칼레 (Triticale), 말루스 도메스티카 (Malus domestica), 브라키포듐 디스타키온 (Brachypodium distachyon), 호르데움 마리눔 (Hordeum marinum), 에이길롭스 타우치이 (Aegilops tauschii), 다우쿠스 글로키디아투스 (Daucus glochidiatus), 베타 불가리스 (Beta vulgaris) 등의 베타 spp., 다우쿠스 푸실루스 (Daucus pusillus), 다우쿠스 무리카투스 (Daucus muricatus), 다우쿠스 카로타 (Daucus carota), 유칼립투스 그란디스 (Eucalyptus grandis), 니코티아나 실베스트리스 (Nicotiana sylvestris), 니코티아나 토멘토시포르미스 (Nicotiana tomentosiformis), 니코티아나 타바쿰 (Nicotiana tabacum), 니코티아나 벤타미아나 (Nicotiana benthamiana), 솔라눔 라이코퍼시쿰 (Solanum lycopersicum), 솔라눔 투베로숨 (Solanum tuberosum), 코페아 카네포라 (Coffea canephora), 비티스 비니페라 (Vitis vinifera), 에리트란테 구타타 (Erythrante guttata), 겐리시아 아우레아 (Genlisea aurea), 쿠쿠미스 사티부스 (Cucumis sativus), 마루스 노타빌리스 (Marus notabilis), 아라비돕시스 아레노사 (Arabidopsis arenosa), 아라비돕시스 라이라타 (Arabidopsis lyrata), 아라비돕시스 탈리아나 (Arabidopsis thaliana), 크루시히말라야 히말라이카 (Crucihimalaya himalaica), 크루시히말라야 발리치이 (Crucihimalaya wallichii), 카르다민 넥수오사 (Cardamine nexuosa), 레피디움 비르기니쿰 (Lepidium virginicum), 캡셀라 부르사 파스토리스 (Capsella bursa pastoris), 올마라비돕시스 푸밀라 (Olmarabidopsis pumila), 아라비스 히르수테 (Arabis hirsute), 브라씨카 나푸스 (Brassica napus), 브라씨카 올레라시아 (Brassica oleracea), 브라씨카 라파 (Brassica rapa), 라파누스 사티부스 (Raphanus sativus), 브라씨카 준카시아 (Brassica juncacea), 브라씨카 니그라 (Brassica nigra), 에루카 베시카리아 아종 사티바 (Eruca vesicaria subsp. sativa), 시트러스 시넨시스 (Citrus sinensis), 자트로파 쿠르카스 (Jatropha curcas), 포풀루스 트리코카르파 (Populus trichocarpa), 메디카고 트룬카툴라 (Medicago truncatula), 시져 야마시타 (Cicer yamashitae), 시져 비주굼 (Cicer bijugum), 시져 아리에티눔 (Cicer arietinum), 시져 레티쿨라툼 (Cicer reticulatum), 시져 주다이쿰 (Cicer judaicum), 카야누스 카자니폴리우스 (Cajanus cajanifolius), 카야누스 스카라바에오이데스 (Cajanus scarabaeoides), 파세올루스 불가리스 (Phaseolus vulgaris), 글리신 맥스 (Glycine max), 고씨퓸 (Gossypium sp.), 아스트라갈루스 시니쿠스 (Astragalus sinicus), 로투스 자포니카스 (Lotus japonicas), 토레니아 포우르니에리 (Torenia fournieri), 알리움 세파 (Allium cepa), 알리움 피스툴로숨 (Allium fistulosum), 알리움 사티붐 (Allium sativum), 헬리안투스 안누스 (Helianthus annuus), 헬리안투스 투베로수스 (Helianthus tuberosus) 및 알리움 투베로숨 (Allium tuberosum), 또는 상기한 식물들 중 하나에 속하는 임의 품종 또는 아종으로 이루어진 군으로부터 선택되는 식물의 식물 세포인, 방법.
  19. 제18항에 있어서,
    상기 하나 이상의 DNA 타겟 서열 내 변형이 수율 개선; 건조 스트레스, 삼투성 스트레스, 열 스트레스, 한랭 스트레스, 산화 스트레스, 중금속 스트레스, 염 스트레스 또는 침수 (waterlogging)를 비롯한 비-생물적 스트레스에 대한 저항성; 곤충 내성, 박테리아 내성, 바이러스 내성, 진균 내성 또는 선충 내성을 비롯한의 생물 스트레스에 대한 저항성; 글리포세이트, 글루포시네이트, ALS 저해제 및 Dicamba를 비롯한 제초제 저항성; 내도복성 (lodging resistance), 개화 시기, 내탈립성, 종자 색, 배젖 조성, 영양분 함량, 또는 하나 이상의 식물 세포에서 분자 조작 기법 (molecular pharming approach)을 허용하는 게놈 편집을 비롯한 대사 조작으로 이루어진 군으로부터 선택되는 형질 편집을 유발하는, 방법.
  20. 제15항 내지 제19항 중 어느 한 항에 있어서,
    (v) 하나 이상의 DNA 타겟 서열 내 변형을 포함하는 하나 이상의 원핵생물, 진핵생물 또는 바이러스의 게놈 및/또는 서열을 동정 및/또는 선별하는 단계를 더 포함하는, 방법.
  21. 식물 또는 식물 세포의 제조 방법으로서,
    (i) 하나 이상의 진핵생물 세포가 식물 세포인, 제15항 내지 제20항 중 어느 한 항에 따른 방법을 수행하는 단계;
    (ii) 단계 (i)로부터 하나 이상의 식물 세포의 하나 이상의 식물 또는 그 후대를 수득하는 단계;
    선택적으로, (iii) 상기 하나 이상의 식물 또는 그 후대의 하나 이상의 세포에서 하나 이상의 DNA 타겟 서열 내 변형을 확인하는 단계
    를 포함하는, 방법.
  22. 제21항에 있어서,
    상기 하나 이상의 식물 또는 식물 세포가 외떡잎 식물 또는 쌍떡잎 식물로부터 선택되고,
    바람직하게는, 식물이 지 메이스 (Zea mays)를 비롯한 지 spp. (Zea spp.), 니코티아나 벤타미아나 (Nicotiana benthamiana), 베타 불가리스 (Beta vulgaris)를 비롯한 베타 spp., 또는 세칼레 세레알레 (Secale cereale)를 비롯한 세칼레 spp. (Secale ssp.) 또는 트리티쿰 에이스티붐 (Triticum aestivum)을 비롯한 트리티쿰 spp. (Triticum ssp.)로 이루어진 군으로부터 선택되는, 방법.
  23. 원핵생물, 진핵생물 또는 바이러스 세포 및/또는 게놈 및/또는 유기체, 바람직하게는 식물 세포 또는 유기체에서의 게놈 조작을 위한, 제1항 내지 제11항 중 어느 한 항에 따른 하나 이상의 인공 분자 복합체의 용도.
KR1020197025337A 2017-01-30 2018-01-30 게놈 조작을 위한 엔도뉴클레아제에 대한 복구 주형 연결 KR20190112771A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762451859P 2017-01-30 2017-01-30
US62/451,859 2017-01-30
PCT/EP2018/052313 WO2018138385A1 (en) 2017-01-30 2018-01-30 Repair template linkage to endonucleases for genome engineering

Publications (1)

Publication Number Publication Date
KR20190112771A true KR20190112771A (ko) 2019-10-07

Family

ID=61187290

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197025337A KR20190112771A (ko) 2017-01-30 2018-01-30 게놈 조작을 위한 엔도뉴클레아제에 대한 복구 주형 연결

Country Status (12)

Country Link
US (1) US20190352626A1 (ko)
EP (1) EP3574101B1 (ko)
JP (1) JP2020505074A (ko)
KR (1) KR20190112771A (ko)
CN (1) CN110475866A (ko)
AU (1) AU2018212624A1 (ko)
BR (1) BR112019015578A2 (ko)
CA (1) CA3052099A1 (ko)
DK (1) DK3574101T3 (ko)
EA (1) EA201991809A1 (ko)
ES (1) ES2950676T3 (ko)
WO (1) WO2018138385A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220026981A (ko) 2020-08-26 2022-03-07 한수용 실외 부동 급수전의 교환대

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6261500B2 (ja) 2011-07-22 2018-01-17 プレジデント アンド フェローズ オブ ハーバード カレッジ ヌクレアーゼ切断特異性の評価および改善
US10704021B2 (en) 2012-03-15 2020-07-07 Flodesign Sonics, Inc. Acoustic perfusion devices
US9163284B2 (en) 2013-08-09 2015-10-20 President And Fellows Of Harvard College Methods for identifying a target site of a Cas9 nuclease
US9359599B2 (en) 2013-08-22 2016-06-07 President And Fellows Of Harvard College Engineered transcription activator-like effector (TALE) domains and uses thereof
US9340800B2 (en) 2013-09-06 2016-05-17 President And Fellows Of Harvard College Extended DNA-sensing GRNAS
US9737604B2 (en) 2013-09-06 2017-08-22 President And Fellows Of Harvard College Use of cationic lipids to deliver CAS9
US9322037B2 (en) 2013-09-06 2016-04-26 President And Fellows Of Harvard College Cas9-FokI fusion proteins and uses thereof
US11053481B2 (en) 2013-12-12 2021-07-06 President And Fellows Of Harvard College Fusions of Cas9 domains and nucleic acid-editing domains
CA2935960C (en) 2014-01-08 2023-01-10 Bart Lipkens Acoustophoresis device with dual acoustophoretic chamber
US10077453B2 (en) 2014-07-30 2018-09-18 President And Fellows Of Harvard College CAS9 proteins including ligand-dependent inteins
CA2963820A1 (en) 2014-11-07 2016-05-12 Editas Medicine, Inc. Methods for improving crispr/cas-mediated genome-editing
US11377651B2 (en) 2016-10-19 2022-07-05 Flodesign Sonics, Inc. Cell therapy processes utilizing acoustophoresis
US11708572B2 (en) 2015-04-29 2023-07-25 Flodesign Sonics, Inc. Acoustic cell separation techniques and processes
US11667911B2 (en) 2015-09-24 2023-06-06 Editas Medicine, Inc. Use of exonucleases to improve CRISPR/CAS-mediated genome editing
WO2017070632A2 (en) 2015-10-23 2017-04-27 President And Fellows Of Harvard College Nucleobase editors and uses thereof
US11597924B2 (en) 2016-03-25 2023-03-07 Editas Medicine, Inc. Genome editing systems comprising repair-modulating enzyme molecules and methods of their use
EP4047092A1 (en) 2016-04-13 2022-08-24 Editas Medicine, Inc. Cas9 fusion molecules, gene editing systems, and methods of use thereof
US11214789B2 (en) 2016-05-03 2022-01-04 Flodesign Sonics, Inc. Concentration and washing of particles with acoustics
WO2018027078A1 (en) 2016-08-03 2018-02-08 President And Fellows Of Harard College Adenosine nucleobase editors and uses thereof
CA3033327A1 (en) 2016-08-09 2018-02-15 President And Fellows Of Harvard College Programmable cas9-recombinase fusion proteins and uses thereof
WO2018039438A1 (en) 2016-08-24 2018-03-01 President And Fellows Of Harvard College Incorporation of unnatural amino acids into proteins using base editing
GB2573062A (en) 2016-10-14 2019-10-23 Harvard College AAV delivery of nucleobase editors
WO2018119359A1 (en) 2016-12-23 2018-06-28 President And Fellows Of Harvard College Editing of ccr5 receptor gene to protect against hiv infection
US11898179B2 (en) 2017-03-09 2024-02-13 President And Fellows Of Harvard College Suppression of pain by gene editing
WO2018165629A1 (en) 2017-03-10 2018-09-13 President And Fellows Of Harvard College Cytosine to guanine base editor
KR20190130613A (ko) 2017-03-23 2019-11-22 프레지던트 앤드 펠로우즈 오브 하바드 칼리지 핵산 프로그램가능한 dna 결합 단백질을 포함하는 핵염기 편집제
US11560566B2 (en) 2017-05-12 2023-01-24 President And Fellows Of Harvard College Aptazyme-embedded guide RNAs for use with CRISPR-Cas9 in genome editing and transcriptional activation
US11866726B2 (en) 2017-07-14 2024-01-09 Editas Medicine, Inc. Systems and methods for targeted integration and genome editing and detection thereof using integrated priming sites
CN111801345A (zh) 2017-07-28 2020-10-20 哈佛大学的校长及成员们 使用噬菌体辅助连续进化(pace)的进化碱基编辑器的方法和组合物
WO2019139645A2 (en) 2017-08-30 2019-07-18 President And Fellows Of Harvard College High efficiency base editors comprising gam
WO2019079347A1 (en) 2017-10-16 2019-04-25 The Broad Institute, Inc. USES OF BASIC EDITORS ADENOSINE
SG11202003907WA (en) 2017-12-14 2020-05-28 Flodesign Sonics Inc Acoustic transducer drive and controller
US11414669B2 (en) * 2018-09-06 2022-08-16 Monsanto Technology Llc Compositions and methods for genome editing in planta
FR3086619B1 (fr) * 2018-09-28 2022-04-08 Valeo Systemes Dessuyage Systeme de nettoyage d'une pluralite de capteurs d'un vehicule automobile
KR20210088615A (ko) * 2018-10-31 2021-07-14 지머젠 인코포레이티드 Dna 라이브러리의 다중 결정적 어셈블리
EP3708651A1 (en) * 2019-03-12 2020-09-16 KWS SAAT SE & Co. KGaA Improving plant regeneration
KR20210143230A (ko) 2019-03-19 2021-11-26 더 브로드 인스티튜트, 인코퍼레이티드 뉴클레오티드 서열을 편집하기 위한 방법 및 조성물
GB201913898D0 (en) * 2019-09-26 2019-11-13 Lightbio Ltd Nucleic acid construct
CN116096873A (zh) 2020-05-08 2023-05-09 布罗德研究所股份有限公司 同时编辑靶标双链核苷酸序列的两条链的方法和组合物
US20240016838A1 (en) * 2020-10-26 2024-01-18 City Of Hope Engineered nk cells
US20230407292A1 (en) * 2020-10-30 2023-12-21 Industry Foundation Of Chonnam National University Construct for expressing monomeric streptavidin
CN112852866A (zh) * 2021-03-09 2021-05-28 中国科学院西北高原生物研究所 利用线粒体基因编辑系统培育植物雄性不育系的方法
JP2024513087A (ja) * 2021-04-07 2024-03-21 アストラゼネカ・アクチエボラーグ 部位特異的改変のための組成物及び方法
WO2023133415A1 (en) * 2022-01-04 2023-07-13 Inscripta, Inc. Strategies for direct recruitment of repair templates to crispr nucleases

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AR006928A1 (es) 1996-05-01 1999-09-29 Pioneer Hi Bred Int Una molecula de adn aislada que codifica una proteina fluorescente verde como marcador rastreable para la transformacion de plantas, un metodo para laproduccion de plantas transgenicas, un vector de expresion, una planta transgenica y celulas de dichas plantas.
GB9907461D0 (en) 1999-03-31 1999-05-26 King S College London Neurite regeneration
US7022896B1 (en) 1997-04-04 2006-04-04 Board Of Regents Of University Of Nebraska Methods and materials for making and using transgenic dicamba-degrading organisms
GB9720465D0 (en) 1997-09-25 1997-11-26 Oxford Biomedica Ltd Dual-virus vectors
GB0024550D0 (ko) 2000-10-06 2000-11-22 Oxford Biomedica Ltd
AU2002353231B2 (en) 2001-12-21 2008-10-16 Oxford Biomedica (Uk) Limited Method for producing a transgenic organism using a lentiviral expression vector such as EIAV
GB0325379D0 (en) 2003-10-30 2003-12-03 Oxford Biomedica Ltd Vectors
GB0526211D0 (en) 2005-12-22 2006-02-01 Oxford Biomedica Ltd Viral vectors
US7838729B2 (en) 2007-02-26 2010-11-23 Monsanto Technology Llc Chloroplast transit peptides for efficient targeting of DMO and uses thereof
US7806113B2 (en) 2008-02-07 2010-10-05 Jay Edward Skilling Compressed gas projectile accelerator having multiple projectile velocity settings
JP5965392B2 (ja) 2010-05-28 2016-08-03 オックスフォード バイオメディカ (ユーケー) リミテッド 脳へのレンチウイルスベクターの送達
US20120295960A1 (en) 2011-05-20 2012-11-22 Oxford Biomedica (Uk) Ltd. Treatment regimen for parkinson's disease
US10227610B2 (en) 2013-02-25 2019-03-12 Sangamo Therapeutics, Inc. Methods and compositions for enhancing nuclease-mediated gene disruption
CA2905432C (en) * 2013-03-14 2021-09-14 Caribou Biosciences, Inc. Compositions and methods of nucleic acid-targeting nucleic acids
EP2796558A1 (en) * 2013-04-23 2014-10-29 Rheinische Friedrich-Wilhelms-Universität Bonn Improved gene targeting and nucleic acid carrier molecule, in particular for use in plants
CA2913404C (en) * 2013-06-14 2023-10-03 Cellectis Methods for non-transgenic genome editing in plants
IL303973A (en) * 2013-07-09 2023-08-01 Harvard College Multiplexed RNA-guided genome engineering
WO2015131101A1 (en) * 2014-02-27 2015-09-03 Monsanto Technology Llc Compositions and methods for site directed genomic modification
EP3155116A4 (en) * 2014-06-10 2017-12-27 Massachusetts Institute Of Technology Method for gene editing
AU2015299850B2 (en) 2014-08-06 2020-08-13 Institute For Basic Science Genome editing using Campylobacter jejuni CRISPR/CAS system-derived RGEN
WO2016065364A1 (en) * 2014-10-24 2016-04-28 Life Technologies Corporation Compositions and methods for enhancing homologous recombination
CN107810270A (zh) * 2015-01-28 2018-03-16 先锋国际良种公司 Crispr杂合dna/rna多核苷酸及使用方法
GB201504223D0 (en) * 2015-03-12 2015-04-29 Genome Res Ltd Biallelic genetic modification
US9790490B2 (en) 2015-06-18 2017-10-17 The Broad Institute Inc. CRISPR enzymes and systems
EP3344771A4 (en) * 2015-08-31 2019-03-20 Agilent Technologies, Inc. COMPOUNDS AND METHODS FOR GENOME EDITING BASED ON CRISPR / CAS BY HOMOLOGOUS RECOMBINATION
EP3353297A1 (en) * 2015-09-24 2018-08-01 Crispr Therapeutics AG Novel family of rna-programmable endonucleases and their uses in genome editing and other applications
US20190062734A1 (en) * 2016-04-13 2019-02-28 Editas Medicine, Inc. Grna fusion molecules, gene editing systems, and methods of use thereof
EP4166660A1 (en) * 2016-04-29 2023-04-19 BASF Plant Science Company GmbH Improved methods for modification of target nucleic acids using fused guide rna - donor molecules

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220026981A (ko) 2020-08-26 2022-03-07 한수용 실외 부동 급수전의 교환대

Also Published As

Publication number Publication date
CA3052099A1 (en) 2018-08-02
BR112019015578A2 (pt) 2020-03-10
WO2018138385A1 (en) 2018-08-02
CN110475866A (zh) 2019-11-19
EP3574101B1 (en) 2023-04-19
ES2950676T3 (es) 2023-10-11
AU2018212624A1 (en) 2019-08-22
EP3574101A1 (en) 2019-12-04
US20190352626A1 (en) 2019-11-21
JP2020505074A (ja) 2020-02-20
DK3574101T3 (da) 2023-07-31
EA201991809A1 (ru) 2020-02-05

Similar Documents

Publication Publication Date Title
EP3574101B1 (en) Repair template linkage to endonucleases for genome engineering
US20190161760A1 (en) Hybrid nucleic acid sequences for genome engineering
JP6947784B2 (ja) オリゴヌクレオチド仲介型遺伝子修復を使用した標的遺伝子修飾の効率を高めるための方法および組成物
CN108795972B (zh) 不使用转基因标记序列分离细胞的方法
JP7047014B2 (ja) オリゴヌクレオチド仲介型遺伝子修復を使用した標的遺伝子修飾の効率を高めるための方法および組成物
JP6513127B2 (ja) 配列特異的ヌクレアーゼのナノ粒子媒介送達
CN101878307B (zh) 以5‑烯醇式丙酮酰莽草酸‑3‑磷酸合酶基因为靶的改造锌指蛋白
JP2018531024A (ja) マーカーフリーゲノム改変のための方法および組成物
JP2019506170A (ja) オリゴヌクレオチド介在性遺伝子修復を利用した標的遺伝子修飾の効率を上昇させるための方法および組成物
BR112020012327A2 (pt) sistemas de regulação de transcrição com base em cpf1 em plantas
CN112105738A (zh) 使用合成转录因子的靶向转录调控
JP2016516408A (ja) オリゴヌクレオチド仲介型遺伝子修復を使用した標的遺伝子修飾
KR20200004382A (ko) 전이유전자성 마커 서열을 이용하지 않는 세포 단리 방법
WO2022120142A1 (en) Pest and pathogen resistant soybean plants