KR20220116512A - 박테로이데스의 게놈편집 - Google Patents

박테로이데스의 게놈편집 Download PDF

Info

Publication number
KR20220116512A
KR20220116512A KR1020227024550A KR20227024550A KR20220116512A KR 20220116512 A KR20220116512 A KR 20220116512A KR 1020227024550 A KR1020227024550 A KR 1020227024550A KR 20227024550 A KR20227024550 A KR 20227024550A KR 20220116512 A KR20220116512 A KR 20220116512A
Authority
KR
South Korea
Prior art keywords
crispr
protein
nucleobase
chromosome
nucleic acid
Prior art date
Application number
KR1020227024550A
Other languages
English (en)
Inventor
에릭 이스트룬드
찌강 장
그레고리 디. 다비스
Original Assignee
시그마-알드리치 컴퍼니., 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 시그마-알드리치 컴퍼니., 엘엘씨 filed Critical 시그마-알드리치 컴퍼니., 엘엘씨
Publication of KR20220116512A publication Critical patent/KR20220116512A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/74Vectors or expression systems specially adapted for prokaryotic hosts other than E. coli, e.g. Lactobacillus, Micromonospora
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/195Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from bacteria
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/16Aptamers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/30Chemical structure
    • C12N2310/35Nature of the modification
    • C12N2310/351Conjugate
    • C12N2310/3519Fusion with another nucleic acid
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2800/00Nucleic acids vectors
    • C12N2800/80Vectors containing sites for inducing double-stranded breaks, e.g. meganuclease restriction sites
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y305/00Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5)
    • C12Y305/04Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5) in cyclic amidines (3.5.4)
    • C12Y305/04005Cytidine deaminase (3.5.4.5)

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Biophysics (AREA)
  • Plant Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Medicinal Chemistry (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Enzymes And Modification Thereof (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)

Abstract

박테로이데스 종의 게놈편집용 조성물 및 방법이 본 명세서에 제공된다. RNA-가이드 핵염기 변형 시스템은 표적 박테리아 세포의 염색체 DNA에서의 특정 유전자좌를 표적하도록 조작되며, 상기 표적 박테리아 세포의 게놈은 변형될 수 있다.

Description

박테로이데스의 게놈편집
본 출원은 2019년 12월 17일에 출원된 미국가출원 번호 62/949,314의 우선권을 주장하며, 그 전체 내용이 본 명세서에 참고로 통합된다.
본 출원은 EFS-Web을 통해 ASCII 형식으로 제출된 시퀀스 목록을 포함하며 그 전체 내용이 본 명세서에 참조로 통합된다. 2020년 12월 17일에 생성된 ASCII 사본의 이름은 P19-235_WO-PCT_SL.txt이고 크기는 38,913바이트이다.
본 발명은 박테로이데스(bacteroides)에서의 게놈편집을 위한 조성물 및 방법에 관한 것이다.
미생물 게놈에서 DNA 서열을 특이적으로 변형하는 능력을 제어하는 것은 의학 및 생명공학 연구의 중요한 측면이다. 최근의 진전은 RNA-가이드 시스템이 미생물 게놈의 특정 DNA 서열을 표적으로 하도록 설계될 수 있음을 나타낸다. 그러나 다양한 미생물 게놈이 존재하는 독특한 DNA 복구 상태와 분자 후성유전학적(molecular epigenetic) 구조는 특정 게놈 편집 기술의 효과에 대한 불확실성을 자아낸다. 여기에서 본 발명자들은 박테로이데스종의 게놈을 변형시키는데 효과적인 구성과 방법을 기술한다.
미국 특허출원공보 제2019/0249200호
본 발명은 특정 DNA 서열을 변형하는데 사용될 수 있는 조작된 RNA-가이드 게놈 변형 시스템을 제공한다. 특히, RNA-가이드 게놈 변형 시스템은 도메인 박테리아의 표적 구성원, 구체적으로 게놈 DNA 서열의 변형(예: 녹아웃, 녹킨)을 초래하는 숙주 동물 종(H. 사피엔스를 포함하나 이에 한정되지 않음)의 하나 이상의 몸체 서식지에 존재하는 구성원을 포함하는 박테로이데스 속에 속하는 박테로이데테스 문(phylum) 구성원의 염색체 DNA의 특정 유전자좌를 표적으로 하도록 조작된다.
(1) 단백질-핵산 복합체
50% 서열 동일성(예를 들어, 적어도 55%, 적어도 60%, 적어도 65 %, 적어도 70%, 본 발명의 한 측면은 표적 박테리아 종(또는 그 종의 균주 수준 변이체)의 염색체와 관련하여 조작된 RNA-가이드 핵염기 변형 시스템(engineered RNA-guided nucleobase modifying system)을 포함하는 단백질-핵산 복합체를 제공하며, 상기 조작된 RNA-가이드 핵염기 변형 시스템은 유기체 염색체의 특정 유전자좌를 표적으로 하고, 유기체의 염색체는 아미노산 서열 SEQ ID NO: 1(MNKADLISAVAAEAGLSKVDAKK AVEAFVSTVTKALQEGDKVSLIGFGTFSVAERSARTGINPSTKATITIPAKKVTKFKPGAELADAIK)에 대하여 적어도 50% 서열 동일성을 갖는 아미노산 서열(예를 들어, 적어도 55%, 적어도 60%, 적어도 65%, 적어도 70%, 적어도 75%, 적어도 80%, 적어도 85%, 적어도 90%, 적어도 95%, 또는 99% 이상의 서열 동일성)을 포함하는 HU 패밀리 DNA-결합 단백질을 인코딩하고, 종/균주의 염색체는 SEQ ID NO: 1의 아미노산 서열에 대해 적어도 적어도 75%, 적어도 80%, 적어도 85%, 적어도 90%, 적어도 95%, 또는 적어도 99% 서열 동일성)을 갖는 HU 패밀리 DNA-결합 단백질과 연관된다.
여러 구체예에서 RNA-가이드 핵염기 변형 시스템은 (ⅰ) CRISPR 단백질 및 가이드 RNA(gRNA)를 포함하는 클러스터화된 규칙적으로 간격을 둔 짧은 회문 반복체(CRISPR) 시스템 및 (ii) 핵염기 변형 효소 또는 그의 촉매 도메인을 포함하며, 상기 CRISPR 단백질은 뉴클레아제 결핍 CRISPR 변이체(예를 들어, 죽은 CRISPR) 또는 CRISPR 니카제(nickase)이다. CRISPR 시스템의 gRNA는 RNA-가이드 핵염기 변형 시스템의 결합을 박테리아 종/균주의 염색체의 특정 유전자좌로 인도하도록 조작된다. CRISPR 단백질은 일부 구체예에서 뉴클레아제 결핍 CRISPR 변이체 또는 CRISPR 니카제이기 때문에 박테리아 염색체의 특정 유전자좌에 있는 하나 이상의 핵염기는 유기체의 염색체에서 치명적일 수 있는 이중 가닥 절단의 발생없이 변형될 수 있다. 박테리아 유기체는 박테리아 염색체 DNA와 연관되는 HU 패밀리 단백질을 발현한다. 따라서, 본 명세서에 개시된 단백질-핵산 복합체는 DNA/단백질 복합체(박테리아 염색체 DNA 및 관련 HU 패밀리 단백질)에 결합된 리보핵산 단백질 복합체(gRNA/CRISPR 단백질/핵염기 변형 효소)를 포함한다.
(a) 조작된 RNA-가이드 핵염기 변형 시스템
본원에 개시된 단백질-핵산 복합체는 전형적으로 (i) CRISPR 단백질 및 가이드 RNA(gRNA)를 포함하는 CRISPR 시스템 및 (ii) 핵염기 변형 효소 또는 그의 촉매 도메인을 포함을 포함하는 조작된 RNA-가이드 핵염기 변형 시스템을 포함하며, 상기 CRISPR 단백질은 뉴클레아제 결핍 CRISPR 변이체 또는 CRISPR 니카제이다.
(i) CRISPR 시스템
RNA-가이드 CRISPR 시스템은 많은 세포 유형에서 유전자 편집에 사용되는 RNA-가이드 DNA-표적화 플랫폼으로서 용도가 변경된 박테리아 및 고세균(archaea)에서 자연적으로-발생하는 방어 메카니즘이다. 예로서, 첸 등(Chen et al.)의 국제 공개 번호 WO 2014/089190(그 전체가 본 출원에 참고로 포함됨) 참고하라. 하기에 상세한 바와 같이, CRISPR 단백질과 상호 작용하는 가이드 RNA는 대상 핵산에서 특정 서열을 갖는 염기쌍으로 조작될 수 있고, 이로써 대상 핵산의 특정 서열로 CRISPR 단백질을 표적화한다.
본 명세서에 기재된 RNA-가이드 핵염기 변형 시스템의 CRISPR 시스템은 타입 ⅠCRISPR 시스템, 타입 Ⅱ CRISPR 시스템, 타입 Ⅲ CRISPR 시스템, 타입 Ⅳ CRISPR 시스템, 타입 Ⅴ CRISPR 시스템, 또는 타입 Ⅵ CRISPR 시스템으로부터 유래될 수 있다. 특정 구체예에서, CRISPR 뉴클레아제는 타입 Ⅱ, 타입 Ⅴ, 또는 타입 Ⅵ 시스템과 같은 단일 서브유닛 이펙터 시스템(single-subunit effector system)으로부터 유래될 수 있다. 다양한 구체예에서, CRISPR 단백질은 타입 Ⅱ Cas9 단백질, 타입 Ⅴ Cas12 (이전의 Cpf1로 불림) 단백질, 타입 Ⅵ Cas13 (이전의 C2cd로 불림) 단백질, CasX 단백질, 또는 CasY 단백질로부터 유래될 수 있다. 하나의 특정 구체예에서, CRISPR 뉴클레아제는 Ⅱ 타입 Cas9 단백질로부터 유래된다. 또 다른 특정 구체예에서, CRISPR 뉴클레아제는 타입 Ⅴ Cas12 단백질로부터 유래된다.
상기 CRISPR 단백질은 다음 종으로부터 유래될 수 있다: 아카리오클로리스 종(Acaryochloris spp.), 아세토하로비움 종(Acetohalobium spp.), 아시다미노코커스 종(Acidaminococcus spp.), 아시디티오바실러스 종(Acidithiobacillus spp.), 아시도데머스 종(Acidothermus spp.), 악커만시아 종(Akkermansia spp.), 알리사이클로바실러스 종(Alicyclobacillus spp.), 알로크로마티움 종(Allochromatium spp.), 아모니펙스 종(Ammonifex spp.), 아나배나 종(Anabaena spp.), 아르스로스피라 종(Arthrospira spp.), 바실러스 종(Bacillus spp.), 비피도박테리움 종(Bifidobacterium spp.), 벅크홀데리아레스 종(Burkholderiales spp.), 칼디셀룰로시럽터 종( Caldicelulosiruptor spp.), 캄필로박터 종(Campylobacter spp.), 칸디다터스 종(Candidatus spp.), 클로스트리디움 종(Clostridium spp.), 코리네박테리움 종( Corynebacterium spp.), 크로코스파에라 종(Crocosphaera spp.), 시아노데세 종(Cyanothece spp.), 델타프로테오박테리움 종(Deltaproteobacterium spp.), 엑시구오박테리움 종(Exiguobacterium spp.), 피네골디아 종(Finegoldia spp.), 프란시셀라 종(Francisella spp.), 크테도박터 종(Ktedonobacter spp.), 라크노스피라세에 종(Lachnospiraceae spp.), 락토바실러스 종(Lactobacillus spp.), 렙토트리치아 종(Leptotrichia spp.), 린그비아 종(Lyngbya spp.), 마리노박터 종(Marinobacter spp.), 메타노할로비움 종(Methanohalobium spp.), 마이크로실라 종(Microscilla spp.), 마이크로코레우스 종(Microcoleus spp.), 마이크로시스티스 종(Microcystis spp.), 미코플라스마 종(Mycoplasma spp.), 나트라나에로비우스 종(Natranaerobius spp.), 네이세리아 종(Neisseria spp.), 니트라티프랙터 종(Nitratifractor spp.), 니트로소코커스 종(Nitrosococcus spp.), 노카르디오프시스 종(Nocardiopsis spp.), 노덜라리아 종(Nodularia spp.), 노스톡 종(Nostoc spp.), 오에노코커스 종(Oenococcus spp.), 오실라토리아 종(Oscillatoria spp.), 파라수테렐라 종(Parasutterella spp.), 펠로토마컬럼 종(Pelotomaculum spp.), 페트로토가 종(Petrotoga spp.), 프란토미세스 종(Planctomyces spp.), 폴라로모나스 종(Polaromonas spp.), 프레보텔라 종(Prevotella spp.), 슈도알테로모나스 종(pseudoalteromonas spp.), 랄스토니아 종(Ralstonia spp.), 루미노코커스 종(nococcus spp.), 스타필로코커스 종(Staphylococcus spp.), 스트렙토코커스 종(streptococcus spp.), 스트렙토미세스 종(Streptomyces spp.), 스트렙토스포란지움 종(Streptosporangium spp.), 시네초코커스 종(Synechococcus spp.), 테르모시포 종(Thermosipho spp.), 베르루코마이크로비아 종(Verrucomicrobia spp.), 올리넬라 종(Wolinella spp.), 및/또는 마카로바, 키라 에스 등(Makarova, Kira S., et al.)의 "CRISPR-Cas 시스템의 업데이트된 진화적 분류(an updated evolutionary classification of CRISPR-Cas systems)"; Nature Reviews Microbiology 13.11 (2015): 722 및 쿠닌(Koonin), 유진 브이Elugene V.), 키라 에스. 마카로바(Kira S. Makarova)와 펭 장(Feng Zhang)의 "CRISPR-Cas 시스템의 다양성, 분류 및 진화"; Current opinion in microbiology 37 (2017): 67-78에 개시된 바와 같은 게놈 데이터베이스의 생물정보학 조사에서 기술된 종(species)(이들 각각은 그 전체가 본 명세서에 참고로 포함됨)으로부터 유래될 수 있다.
일부 측면에서, CRISPR 단백질은 스트렙토코커스 피오게네스 (Streptococcus pyogenes) Cas9, 프란치셀라 노비치다(Francisella novicida) Cas9, 스타필로코커스 아우레우스(Staphylococcus aureus) Cas9, 스트렙토코커스 써모필루스(Streptococcus thermophilus) Cas9, 스트렙토코커스 파스테우리아너스(Streptococcus pasteurianus ) Cas9, 캄필로박터 제주니(Campylobacter jejuni) Cas9, 네이세리아 메닌기티스(Neisseria meningitis) Cas9, 나이세리아 시네리아(Neisseria cinerea) Cas9, 프란치셀라 노비치다(Francisella novicida) Cas12a, 아시다미노코커스 종(Acidaminococcus sp.) Cas12a, 라치노스피라세아 박테리움(Lachnospiraceae bacterium) ND2006 Cas12a, 렙토트리치아 와데이( Leptotrichia wadeii) Cas13a, 렙토트리치아 샤히이(Leptotrichia shahii) Cas13a, 프레보텔라 종(Prevotella sp.) P5-125 Cas13, 루미노코커스 플라베파치엔스(Ruminococcus flavefaciens) Cas13d, 델타프로테오박테리움(Deltaproteobacterium) CasX, 플란토미세스(Planctomyces) CasX 또는 칸디다터스(Candidatus) CasY로부터 유래될 수 있다.
일부 구체예에서, 본 발명에 개시된 RNA-가이드 핵염기 변형 시스템의 CRISPR 단백질은 뉴클레아제 결핍 CRISPR 변이체일 수 있으며, 이는 모든 뉴클레아제 활성이 결여되도록 변형된 것이다. 야생-형(wild-type) CRISPR 뉴클레아제는 일반적으로 두 개의 뉴클레아제 도메인을 포함하며, 예를 들어, Cas9 뉴클레아제는 RuvC 및 HNH 도메인을 포함하며, 이들 각각은 이중 가닥 서열의 하나의 가닥을 절단한다. RuvC 뉴클레아제 도메인 및 HNH 뉴클레아제 도메인에서의 하나 이상의 돌연변이는 모든 뉴클레아제 활성을 제거할 수 있다. 예를 들어, 뉴클레아제 결핍 CRISPR 변이체는 RuvC 도메인에서의 D10A, D8A, E762A 및/또는 D986A와 같은 돌연변이, 및 HNH 도메인에서의 H840A, H559A, N854A, N856A 및/또는 N863A와 같은 돌연변이를 포함할 수 있다(스트렙토코커스 피오게네스(Streptococcus pyogenes) Cas9, SpyCas9의 넘버링 시스템을 참조). 뉴클레아제 결핍 Cas12 변이체는 두 개의 뉴클레아제 도메인에 필적할 만한 돌연변이를 포함할 수 있다. 일부 구체예에서, 뉴클레아제 결핍 CRISPR 변이체는 D10A 및 H840A 돌연변이를 갖는 죽은 Cas9 (dCas9) 변이체일 수 있다.
다른 구체예에서, 본 발명에 개시된 RNA-가이드 핵염기 변형 시스템의 CRISPR 단백질은 이중 가닥 서열의 한 가닥을 절단하는 CRISPR 니카제일 수 있다. 니카제는 CRISPR 뉴클레아제의 뉴클레아제 도메인 중 하나의 불활성화를 통해 조작될 수 있다. 예를 들어, RuvC 도메인 또는 Cas9 단백질의 HNH 도메인은 Cas9 니카제 (예를 들어, nCas9)를 생성하기 위해 상기 기재된 바와 같은 하나 이상의 돌연변이에 의해 불활성화될 수 있다. 다른 CRISPR 뉴클레아제에서의 유사한 돌연변이는 다른 CRISPR 니카제 (예를 들어, nCas12)를 생성할 수 있다.
추가적으로, CRISPR 단백질은 개선된 표적화 특이성, 개선된 충실도, 변경된 PAM 특이성 및/또는 증가된 안정성을 갖도록 변형될 수 있다. 예를 들어, CRISPR 단백질은 하나 이상의 돌연변이(예를 들어, 하나 이상의 아미노산의 치환, 결실, 및/또는 삽입)를 포함하도록 변형될 수 있다. 표적화 특이성을 개선하고, 충실도를 개선하고 및/또는 오프-타겟 효과(off-target effect)를 감소시키는 돌연변이의 비-제한적인 예는 N497A, R661A, Q695A, K810A, K848A, K855A, Q926A, K1003A, R1060A, 및/또는 D1135E를 포함한다 (SpyCas9의 넘버링 시스템 참조).
CRISPR 시스템은 또한 가이드 RNA를 포함한다. 가이드 RNA는 대상 핵산에서 CRISPR 단백질 및 표적 서열과 상호작용하고 CRISPR 단백질을 표적 서열로 안내한다. 표적 서열은, 서열이 프로토스페이서 인접 모티프(protospacer adjacent motif: PAM) 서열에 인접한다는 점을 제외하고는 서열 제한이 없다. 상이한 CRISPR 단백질은 상이한 PAM 서열을 인식한다. 예를 들어, Cas9 단백질에 대한 PAM 서열은 5'-NGG, 5'-NGGNG, 5'-NNAGAAW, 5'-NNNNGATT, 5-NNNNRYAC, 5'-NNNNCAAAA, 5'-NGAAA, 5'-NNAAT, 5'-NNNRTA, 5'-NNGG, 5'-NNNRTA, 5'-MMACCA, 5'-NNNNGRY, 5'-NRGNK, 5'-GGGRG, 5'-NNAMMMC 및 5'-NNG를 포함하고, Cas12a 단백질에 대한 PAM 서열은 5'-TTN 및 5'-TTTV를 포함하고, 여기서 N은 임의의 뉴클레오티드로서 규정되고, R은 G 또는 A로 규정되고, W는 A 또는 T로 규정되고, Y는 C 또는 T로 규정되고 V는 A, C 또는 G로 규정된다. 일반적으로, Cas9 PAM은 표적 서열의 3'에 위치하고, Cas12a PAM은 표적 서열의 5'에 위치된다. 다양한 PAM 서열 및 이를 인식하는 CRISPR 단백질은 당업계에 공지되어 있으며, 예를 들어, 미국 특허 출원 공개 2019/0249200(Leenay, Ryan T., et al.의 "CRISPR-Cas 시스템 전반에서 기능적 PAM 의 다양성의 특정 및 시각화"; Molecular cell(분자 세포) 62.1 (2016): 137-147과, Kleinstiver, Benjamin P., et al.의 "변경된 PAM 특이성을 갖는 조작된 CRISPR-Cas9 뉴클레아제", Nature 523.7561 (2015): 481에 공지되어 있고, 이들 각각은 그 전체가 본 발명에 참조로 포함된다.
가이드 RNA는 특정 CRISPR 단백질을 구비한 복합체로 조작된다. 일반적으로, 가이드 RNA는 (i) 표적 부위에서 혼성화하는 5' 말단에 가이드 또는 스페이서 서열을 포함하는 CRISPR RNA (crRNA) 및 (ii) crRNA 및 CRISPR 단백질과 상호작용하는 트랜스액팅(transacting) crRNA(tracrRNA) 서열을 포함한다. 각 가이드 RNA의 가이드 또는 스페이서 서열은 상이하다(예를 들어, 서열 특이적임). 가이드 RNA 서열의 나머지 부분은 일반적으로 특정 CRISPR 단백질과 복합체를 형성하도록 설계된 가이드 RNA에서 동일하다.
crRNA는 5' 말단에서의 가이드 서열과, tracrRNA의 5' 말단의 서열과 염기쌍을 이루어 이중 구조를 형성하는 3' 말단에서의 추가 서열을 포함하고, tracrRNA는 CRISPR 뉴클레아제와 상호작용하는 적어도 하나의 스템 루프 구조를 형성하는 추가의 서열을 포함한다. 가이드 RNA는 단일 분자 (예를 들어, 단일 가이드 RNA (sgRNA) 또는 1-피스 sgRNA)일 수 있으며, 여기서 crRNA 서열은 tracrRNA 서열에 연결된다. 또는, 가이드 RNA는 별개의 분자, 예를 들어, crRNA 및 tracrRNA를 포함하는 이중 분자 gRNA일 수 있다.
crRNA 가이드 서열은 대상 핵산에서의 표적 서열(예를 들어, 프로토스페이서)의 보체(補體)와 혼성화하도록 설계된다. "표적 핵산"은 이중-가닥 분자; 하나의 가닥은 표적 서열을 포함하고, "PAM 가닥"으로 지칭되고, 다른 상보적 가닥은 "비-PAM 가닥"으로 지칭된다. 당업자는 gRNA 스페이서 서열이 표적 핵산의 비-PAM 가닥에 위치되는 표적 서열의 역보체에 혼성화한다는 것을 인식한다. 일반적으로, 가이드 서열과 표적 서열 사이의 서열 동일성은 적어도 80%, 적어도 85%, 적어도 90%, 적어도 95%, 또는 적어도 99%이다. 특정 구체예에서, 상보성은 완전하다(예컨대 100%). 다양한 구체예에서, crRNA 가이드 서열의 길이는 약 15개 뉴클레오티드 내지 약 25개 뉴클레오티드의 범위일 수 있다. 예를 들어, crRNA 가이드 서열은 길이에 있어서 약 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 또는 25개 뉴클레오티드일 수 있다. 특정 구체예에서, 가이드는 길이에 있어서 약 19, 20, 또는 21개 뉴클레오티드이다. 한 구체예에서, crRNA 가이드 서열은 20개 뉴클레오티드의 길이를 갖는다. 일정 구체예에서, crRNA는 tracrRNA와 상호 작용하는 추가의 3' 서열을 포함할 수 있다. 추가의 서열은 약 10 내지 약 40개의 뉴클레오티드를 포함할 수 있다. 가이드 RNA가 단일 분자를 포함하는 구체예에서 gRNA의 crRNA 및 tracrRNA 부분은 루프를 형성하는 서열에 의해 연결될 수 있다. 루프를 형성하는 서열은 길이가 약 4개 뉴클레오티드 내지 약 10개 이상의 뉴클레오티드 범위에까지 이를 수 있다.
상기 언급한 바와 같이, tracrRNA는 CRISPR 뉴클레아제와 상호 작용하는 적어도 하나의 스템 루프 구조를 형성하는 반복 서열을 포함한다. 각 루프와 스템의 길이는 다를 수 있다. 예를 들어, 루프는 길이가 약 3 내지 약 10개 뉴클레오티드 범위일 수 있고, 스템 길이는 약 6 내지 약 20개 염기쌍 범위일 수 있다. 스템은 1 내지 약 10개 뉴클레오티드의 하나 이상의 벌지(bulge)를 포함할 수 있다. 가이드 RNA에서의 tracrRNA 서열은 일반적으로 야생-형 CRISPR 뉴클레아제와 상호 작용하는 야생형 tracrRNA의 서열에 기초한다. 야생-형 서열은 이차 구조 형성, 이차 구조 안정성 증가 등을 용이하게 하기 위해 변형될 수 있다. 예를 들어, 하나 이상의 뉴클레오티드 변화가 가이드 RNA 서열 내로 도입될 수 있다. tracrRNA 서열의 길이는 약 50개 뉴클레오티드에서 약 300개 뉴클레오티드까지의 범위일 수 있다. 다양한 구체예에서, tracrRNA는 길이가 약 50개 내지 약 90개 뉴클레오티드, 약 90개 내지 약 110개 뉴클레오티드, 약 110개 내지 약 130개 뉴클레오티드, 약 130개 내지 약 150개 뉴클레오티드, 약 150개 내지 약 170개 뉴클레오티드, 약 170개 내지 약 200개 뉴클레오티드, 약 200개 내지 약 250개 뉴클레오티드, 또는 약 250개 내지 약 300개 뉴클레오티드의 범위에 이를 수 있다. tracrRNA는 tracrRNA의 3' 말단에서 임의의 확장을 포함할 수 있다.
가이드 RNA는 표준 리보뉴클레오티드 및/또는 변형된 리보뉴클레오티드를 포함할 수 있다. 일부 구체예에서, 가이드 RNA는 표준 또는 변형된 디옥시리보뉴클레오티드를 포함할 수 있다. 가이드 RNA가 효소적으로 합성되는 구체예에서(즉, 생체내 또는 시험관내), 가이드 RNA는 일반적으로 표준 리보뉴클레오티드를 포함한다. 가이드 RNA가 화학적으로 합성되는 구체예에서, 가이드 RNA는 표준 또는 변형된 리보뉴클레오티드 및/또는 디옥시리보뉴클레오티드를 포함할 수 있다. 변형된 리보뉴클레오티드 및/또는 디옥시리보뉴클레오티드는 염기 변형(예를 들어, 슈도우리딘 (psudourine), 2-티오우리딘(thiouridine), N6-메틸아데노신(methyladenosine) 등) 및/또는 당 변형(예를 들어, 2'-0-메틸, 2'-플루오로, 2'-아미노, 잠금 핵산 (locked nucleic acid: LNA) 등)을 포함한다. 가이드 RNA의 골격은 또한 포스포로티오산염 결합(phosphorothioate linkage), 붕소인산염 결합(boranophosphate linkage), 또는 펩티드 핵산을 포함하도록 변형될 수 있다.
임의의 압타머 서열
일부 상황에서, CRISPR 단백질 또는 가이드 RNA의 tracrRNA는 하나 이상의 압타머(aptamer) 서열을 추가로 포함할 수 있다 (Konermann et al., Nature , 2015, 517(7536):583-588; Zalatan et al., Cell, 2 1015,60 (1-2) : 339-50). 압타머 서열은 핵산 (예를 들어, RNA) 또는 펩티드일 수 있다. 압타머 서열은 특정 어댑터(adaptor) 단백질에 의해 인식되고 결합될 수 있다. 적합한 압타머 서열의 비-제한적인 예는 MS2/MSP, PP7/PCP, Com, N22, AP205, BZ13, F1, F2, fd, fr, GA, ID2, JP34, JP500, JP501, KU1, M11, M12, MX1, NL95, PRR1, φCb5, φCb8r, φCb12r, φCb23r, Qβ, R17, SP, TW18, TW19, VK 및 7s가 포함된다. 당업자는 압타머 서열의 길이가 변할 수 있다는 것을 인정할 것이다. 압타머 서열은 공유 결합을 통해 CRISPR 단백질 또는 tracrRNA에 직접 연결될 수 있다. 대안적으로, 압타머 서열은 링커(linker)를 통해 CRISPR 단백질 또는 tracrRNA에 간접적으로 연결될 수 있다.
링커는 하나 이상의 공유 결합을 통해 하나 이상의 다른 화학기를 연결하는 화학기이다. 적합한 링커는 아미노산, 펩티드, 뉴클레오티드, 핵산, 유기 링커 분자 (예를 들어, 말레이미드 유도체, N-에톡시벤질이미다졸, 비페닐-3, 4',5-트리카르복실산, p-아미노벤질옥시카르보닐 등), 이황화 링커, 및 중합체 링커 (예를 들어, PEG) 등을 포함한다. 링커는 알킬렌, 알켄일렌, 알킨일렌, 알킬, 알켄일, 알킨일, 알콕시, 아릴, 헤테로아릴, 아랄킬, 아랄켄일, 아랄킨일 등을 포함하나 이에 한정되지 않는 하나 이상의 간격 기(spacing group)를 포함할 수 있다. 링커는 중성이거나 양전하 또는 음전하를 운반할 수 있다. 일부 구체예에서, 링커는 펩티드 링커일 수 있다. 펩티드 링커는 가요성 아미노산 링커일 수 있다(예를 들어, 작은, 비극성 또는 극성 아미노산 포함). 또는 펩티드 링커는 경질 아미노산 링커 (예를 들어, α-나선형)일 수 있다. 펩티드 링커는 길이가 약 네 개의 아미노산으로부터 백 개 이상의 아미노산까지의 범위로 변할 수 있다. 예를 들어, 적합한 링커는 10-20개 아미노산, 20-40개 아미노산, 40-80개 아미노산, 또는 80-120개 아미노산을 포함할 수 있다. 적합한 링커의 예는 당업계에 잘 알려져 있으며, 링커를 설계하기 위한 프로그램은 용이하게 입수가능하다 (Crasto et al., Protein Eng., 2000, 13(5):309-312 참고).
( ii) 핵염기 변형 효소(Nucleobase Modifying Enzymes)
본 발명에 개시된 조작된 RNA-가이드(CRISPR) 핵염기 변형 시스템은 또한 핵염기 변형 효소 또는 그의 촉매 도메인을 포함한다.
다양한 핵염기 변형 효소가 본 발명에 개시된 시스템 상에서 사용하기에 적합하다. 상기 핵염기 변형 효소는 DNA 염기 에디터(editor)일 수 있다. 일부 구체예에서, DNA 염기 에디터는 시티딘(cytidine)을 우리딘(uridine)으로 전환시키는 시티딘 데아미나제(cytidine deaminase)일 수 있으며, 이는 중합효소 효소에 의해 티민으로서 판독된다. 시티딘 데아미나제의 비-제한적인 예에는 시티딘 데아미나제 1 (CDA1), 시티딘 데아미나제 2 (CDA2), 활성화-유도된 시티딘 데아미나제 (AICDA), 아포리포단백질 B mRNA-편집 복합체 (APOBEC) 패밀리 시티딘 데아미나제 (예를 들어, APOBEC1, APOBEC2, APOBEC3A, APOBEC3B, APOBEC3C, APOBEC3D/E, APOBEC3F, APOBEC3G, APOBEC3H, APOBEC4), APOBEC1 보체 인자/APOBECI 자극 인자 (ACF1/ASF) 시티딘 데아미나제, RNA에 작용하는 시토신 데아미나제(CDAR), 세균의 긴 아이소폼(long isoform) 시티딘 데아미나제(CDDL), 및 tRNA에 작용하는 시토신 데아미나제(CDAT)를 포함한다. 다른 구체예에서, DNA 염기 에디터는, 아데노신(adenosine)을 이노신(inosine)으로 전환시키는 아데노신 데아미나제일 수 있으며, 이는 폴리머라제 효소에 의해 구아노신(guanosine)으로 판독된다. 아데노신 데아미나제의 비-제한적인 예는 tRNA 아데닌 데아미나제, 아데노신 데아미나제, RNA에 작용하는 아데노신 데아미나제(ADAR) 및 tRNA 에 작용하는 아데노신 데아미나제(ADAT)를 포함한다.
핵염기 변형 효소(염기 에디터)는 야생형 또는 그의 단편, 그의 변형 버전(예를 들어, 비-필수 도메인이 결실될 수 있음), 또는 그의 조작된 버전일 수 있다. 상기 핵염기 변형 효소(염기 에디터)는 진핵생물, 박테리아, 또는 고세균의 기원일 수 있다.
일부 구체예에서, 핵염기 변형 효소(염기 에디터)는 시티딘 데아미나제 또는 그의 촉매 도메인일 수 있다. 상기 시티딘 데아미나제는 인간, 쥐, 칠성장어, 전복 또는 대장균 기원의 것일 수 있다. 핵염기 변형 효소가 시티딘 데아미나제인 구체예에서, RNA-가이드 핵염기 변형 시스템은 적어도 하나의 우라실 글리코실라제 억제제 (UGI) 도메인을 추가로 포함할 수 있다. 시토신 탈아민화의 결과인 DNA로부터 우라실의 제거는 UGI에 의해 억제된다. 적합한 UGI 도메인은 당업계에 공지되어 있다.
일부 구체예들에서, 시티딘 데아미나제 및 UGI를 채용하는 시스템은 이들 성분들이 과발현되는 경우 부정적인 효과를 가질 수 있다. 과발현을 방지하기 위해 열화 태그(degradation tag)가 추가될 수 있다. 열화 태그는 단백질 재활용 시스템에 의해 분해되는 단백질을 신호한다. 이러한 열화 태그는 다른 단백질 반감기를 초래한다. 비-제한적인 열화 태그의 예는 LVA, AAV, ASV 및 LAA이다.
임의의 어댑터 단백질
일부 구체예에서, 핵염기 변형 효소 또는 그의 촉매 도메인은 압타머 서열을 인식하고 결합하는 어댑터 단백질에 연결될 수 있다. 일부 구체예에서, 어댑터 단백질은 MCP 압타머 서열을 인식하고 결합하는 MS2 박테리오파지 코트 단백질 또는 PCP 압타머 서열을 인식하고 결합하는 PP7 박테리오파지 코트 단백질일 수 있다. 다른 구체예에서, 어댑터 단백질은 Com, N22, AP205, BZ13, F1, F2, fd, fr, GA, ID2, JP34, JP500, JP501, KU1, M11, M12, MX1, NL95, PRR1, φCb5, φCb8r, φCb12r, φCb23r, Qβ, R17, SP, TW18, TW19, VK, 또는 7s 어댑터 서열을 인식하고 결합할 수 있다.
핵염기 변형 효소 또는 그의 촉매 도메인과 어댑터 단백질 사이의 결합은 공유 결합을 통해 직접적일 수 있다. 또는, 핵염기 변형 효소 또는 그의 촉매 도메인과 어댑터 단백질 사이의 결합은 링커를 통해 간접적일 수 있다. 링커는 상기 섹션 (l)(a)(i)에 기재되어 있다. 어댑터 단백질은 핵염기 변형 효소 또는 그의 촉매 도메인의 아미노 말단 및/또는 카르복시 말단에 연결될 수 있다.
(ⅲ) CRISPR 시스템과 핵염기 변형 효소 사이의 상호작용
본 발명에 개시된 조작된 RNA-가이드된 핵염기 변형 시스템은 (i) 뉴클레아제 활성을 갖지 않거나 니카제 활성을 갖는 CRISPR 시스템 (상기 섹션 (l)(a)(i)에서 기술됨) 및 (ii) 핵염기 변형 효소 (염기 에디터) 또는 그의 촉매 도메인 (상기 섹션 (l)(a)(ii)에서 기술됨)을 포함한다. CRISPR 시스템과 핵염기 변형 효소 또는 그의 촉매 도메인은 다양한 방식으로 상호 작용할 수 있다.
일부 구체예에서, CRISPR 시스템의 CRISPR 단백질은 핵염기 변형 효소 또는 그의 촉매 도메인에 연결될 수 있다. 일부 측면에서, CRISPR 단백질과 핵염기 변형효소 또는 그의 촉매 도메인 사이의 결합은 공유 결합 (예를 들어, 펩티드 결합)을 통해 직접적일 수 있다. 다른 측면에서, CRISPR 단백질과 핵염기 변형 효소 또는 그의 촉매 도메인 사이의 결합은 링커를 통해 이루어질 수 있다. 링커는 상기 섹션 (l)(a)(i)에 기재되어 있다. 핵염기 변형 효소 또는 그의 촉매 도메인은 CRISPR 단백질의 아미노 말단 및/또는 카르복시 말단에 연결될 수 있다.
다른 구체예에서, 핵염기 변형 효소 또는 그의 촉매 도메인은 어댑터 단백질에 연결될 수 있고(상기 섹션 (l)(a)(ii)에 기재됨) 및 CRISPR 단백질 또는 gRNA는 어댑터 단백질에 결합할 수 있는 압타머 서열(상기 섹션 (l)(a)(i)에 기재됨)을 포함할 수 있다. 예를 들어, 핵염기 변형 효소(예를 들어, 시티딘/아데노신 데아미나제)는 MS2 박테리오파지 코트 단백질에 연결될 수 있고, CRISPR 시스템의 gRNA는 스템-루프 구조를 형성하는 MCP 압타머 서열을 포함할 수 있고, 상기 MS2 단백질은 MSP 압타머 서열에 결합하여, CRISPR-시티딘/아데노신 데아미나제 시스템을 형성할 수 있다.
(iv) 조작된 RNA-유도 핵염기 변형 시스템의 발현
CRISPR 시스템의 가이드 RNA는 박테리아 염색체 DNA의 특정 유전자좌에 대한 RNA-유도 (CRISPR) 핵염기 변형 시스템을 표적화하도록 조작되어, 상기 기재된 바와 같이, 단백질-핵산 복합체가 형성될 수 있다. 일반적으로, 단백질-핵산 복합체는 박테리아(세균) 세포 내에서 형성된다.
일부 구체예에서, 조작된 RNA-가이드 (CRISPR) 핵염기 변형 시스템은 박테리아 종 또는 균주의 염색체 내로 통합되는 상기 시스템을 코딩하는 적어도 하나의 핵산으로부터 발현될 수 있다. 다른 구체예에서, 조작된 RNA-가이드 (CRISPR) 핵염기 변형 시스템은 적어도 하나의 염색체외 벡터 상에서 운반되는 상기 시스템을 인코딩하는 적어도 하나의 핵산으로부터 발현될 수 있다. 핵산을 박테리아 염색체로 통합하기 위한 수단과 마찬가지로, 핵산을 박테리아로 도입하기 위한 기술은 당업계에 잘 알려져 있다.
조작된 RNA-가이드 (CRISPR) 핵염기 변형 시스템의 발현이 조절될 수 있다. 예를 들어, 조작된 CRISPR 뉴클레아제 시스템의 발현은 다음 섹션 (Ⅱ)에 기재된 바와 같이 유도성 프로모터(inducible promotor)에 의해 조절될 수 있다.
일부 구체예에서, 조작된 RNA-가이드 (CRISPR) 핵염기 변형 시스템은 병렬로 많은 게놈 위치를 표적화하는 풀화된 가이드 RNA 라이브러리(pooled guide RNA library)로서 포맷화될 수 있어서, 각 세포가 상이한 RNA-가이드 게놈 변형을 갖는 박테로이데스 세포의 집단을 생성할 수 있다. 이들 풀화된 세포 집단은 이어서 선택적인 압력 하에 배치될 수 있고, 선택된 세포는 DNA 서열화에 의해 분석될 수 있다.
(b) 박테리아 염색체
본 발명에 개시된 단백질-핵산 복합체는 박테리아 염색체를 더 포함하며, 상기 박테리아 염색체는 SEQ ID NO:1(서열 번호 1)의 아미노산 서열과 적어도 50% 서열 동일성(서열 번호 1에 대하여 적어도 55%, 적어도 60%, 적어도 65%, 적어도 70%, 적어도 75%, 적어도 80%, 적어도 85%, 적어도 90%, 적어도 95%, 또는 적어도 99% 서열 동일성)을 갖는 아미노산 서열을 포함하는 HU 패밀리 DNA-결합 단백질을 인코딩하고, 박테리아의 염색체 DNA는 상기 HU 패밀리 DNA-결합 단백질과 연관된다. DNA-결합 단백질의 HU 패밀리는, 서열 특이성 없이 이중 가닥 DNA를 결합하고 포크, 3/4 방향 접합, 닉(nick), 돌출(overhang) 및 벌지와 같은 DNA 구조를 결합하는 작은 (~90개 아미노산) 염기성 히스톤-유사 단백질을 포함한다. HU 패밀리 DNA-결합 단백질의 결합은 DNA를 안정화시키고 극한의 환경 조건 하의 변성으로부터 DNA를 보호할 수 있다. 박테로이데스 HU 패밀리 DNA 단백질과 염색체 DNA의 연관성은, CRISPR 시스템과 같은 다른 DNA 결합 단백질이 염색체 표적을 결합하고 뉴클레아제, 니카제, 데아미나제 또는 기타 게놈 변형 양식으로서 기능하기 위하여 호환성이 있어야만 하는 독특한 구조적 환경을 조성한다.
일반적으로, 염색체(또는 그의 염색체 영역)는 박테로이데테스의 모든 구성원 내에 있을 수 있다. 일부 구체예에서, HU 패밀리 DNA-결합 단백질은 SEQ ID NO:1(서열 번호 1)에 대해 적어도 50%, 적어도 55%, 적어도 60%, 적어도 65%, 적어도 70%, 적어도 75%, 적어도 80%, 적어도 85%, 적어도 90%, 적어도 95%, 또는 적어도 99% 서열 동일성을 갖는 아미노산 서열을 포함한다. 다른 구체예에서, 상기 HU 패밀리 DNA-결합 단백질은 서열번호 1의 아미노산 서열을 갖는다.
일부 구체예에서, 유기체는 박테로이데스 속의 구성원이다. 박테로데스 종은 포유류 장내 미생물의 현저한 혐기성 공생물질이다. 그들은 다양한 당질 분해 효소를 함유하고 있으며 장내 다당류의 주요 발효조(發酵槽,fermenter)이다. 그들은 장내에 보유될 때 숙주와 복잡하고 일반적으로 유익한 관계를 유지하지만, 이 환경에서 벗어나면 심각한 병리를 일으킬 수 있다. 박테로이데스 종의 비-제한적 예에는 B. 아치디파치엔스(acidifaciens), B. 박테리움(bacterium), B. 바르네시아에스(barnesiaes), B. 카카에(caccae), B. 카에치콜라(caecicola), B. 카에치갈리나룸(caecigallinarum), B. 카필로시스(capillosis), B. 셀룰로실리티쿠스(cellulosilyticus), B. 셀룰로솔벤스(cellulosolvens), B. 클라러스(clarus), B. 코아굴란스(coagulans), B. 코프로콜라(coprocola), B. 코프로필러스(coprophilus), B. 코프로수이스(coprosuis), B. 디스타소니스(distasonis), B. 도레이(dorei), B. 에거르티이(eggerthii), B. 그라칠리스(gracilis), B. 파에치친칠라에(faecichinchillae), B. 파에시스(faecis), B. 피네골디이(finegoldii), B. 플러석스(fluxus), B. 프라길리스(fragilis), B. 갈락투로니커스(galacturonicus), B. 갈리나체움(gallinaceum), B. 갈리나룸(gallinarum), B. 골드스테인이(goldsteinii), B. 그라미니솔벤스(graminisolvens), B. 헬코게네(helcogene), B. 헤파리놀리티커스(heparinolyticus), B. 인테스티날리스(intestinalis), B. 존소니이(johnsonii), B. 루티(luti), B. 마실리엔시스(massiliensis), B. 멜라니노게니커스(melaninogenicus), B. 네오나티(neonati), B. 노르디이(nordii), B. 올레이치플레누스(oleiciplenus), B. 오리스(oris), B. 오바투스(ovatus), B.파우로사차롤리티쿠스(paurosaccharolyticus), B. 플레베이우스(plebeius), B. 폴리프라그마투스(polypragmatus), B. 프로피오니치파치엔스(propionicifaciens), B. 푸트레디니스(putredinis), B. 피오게네스(pyogenes), B. 레티쿨로테르미티스(reticulotermitis), B. 로덴티움(rodentium), B. 살라니트로니스(salanitronis), B. 살리에르시아에(salyersiae), B. 사르토리이(sartorii), B. 세디멘트(sediment), B. 스테르코리스(stercoris), B. 스테르코리로소리스(stercorirosoris), B. 수이스(suis), B. 텍투스(tectus), B. 테타이오타오미크론(thetaiotaomicron), B. 티모넨시스(timonensis), B. 유니포르미스(uniformis), B. 불가투스(vulgatus), B. 자일라니솔벤스(xylanisolvens), B. 자일라놀리티쿠스(xylanolyticus) 및 B. 주글레오포르만스(zoogleoformans)와, 이들 종의 균주 수준 변이체를 포함한다. 예를 들어, B. 셀룰로실리티쿠스(cellulosilyticus)의 균주 수준 변이체(strain level variant)는 B. 셀룰로실리티쿠스 DSM 14838, B. 셀룰로실리티쿠스 WH2, B. 셀룰로실리티쿠스 CL02T12C19, B.셀룰로실리티쿠스 CRE21 (T), 및 B. 셀룰로실리티쿠스 JCM 15632T를 포함하나 이에 제한되지는 않는다.
일부 구체예에서, 염색체 (또는 그의 염색체 영역)는 박테로이데스 세타이오타오미크론(Bacteroides thetaiotaomicron), 박테로이데스 불가투스(Bacteroides vulgatus), 박테로이데스 셀룰로실리티쿠스(Bacteroides cellulosilyticus), 박테로이데스 프라길리스(Bacteroides fragilis), 박테로이데스 헬코게네스(Bacteroides helcogenes), 박테로이데스 오바투스(Bacteroides ovatus), 박테로이데스 살라니트로니스(Bacteroides salanitronis), 박테로이데스 유니포르미스(Bacteroides uniformis), 또는 박테로이데스 자일라니솔벤스(Bacteroides xylanisolvens) 및 이들 종의 균주 수준 변이체로부터 선택된다.
일부 구체예에서, 염색체 (또는 그의 염색체 영역)는 바르네시엘라(Barnesiella) sp., 바르네시엘라 비스세리콜라(Barnesiella viscericola), 카프노시타가(Capnocytphaga) sp., 오도리박터 스플란치니쿠스(Odoribacter splanchnicus), 팔루디박터(Paludibacter) sp., 파라박테로이데스(Parabacteroides) sp., 포르피로모노나다체아에 박테리움(Porphyromonadaceae bacterium)쉴레이페리아(Schleiferia) sp., 및 이들 종의 균주 수준 변이체로부터 선택된다.
예를 들어, 염색체 영역은 플라스미드 DNA 또는 박테리아 인공 염색체와 연관된 길이(대략 2,000 내지 350,000개 염기 길이) 또는 일차 박테리아 염색체와 연관된 길이(130,000 염기 내지 14,000,000개 염기 길이)일 수 있다.
따라서, 예를 들어, 염색체 영역의 길이는 약 2000, 약 3000, 약 4000, 약 5000, 약 6000, 약 7000, 약 8000, 약 9000, 약 10000, 약 11000, 약 12000, 약 13000, 약 14000, 약 15000, 약 16000, 약 17000, 약 18000, 약 19000, 약 20000, 약 21000, 약 22000, 약 23000, 약 24000, 약 25000, 약 26000, 약 27000, 약 28000, 약 29000, 약 30000, 약 31000, 약 32000, 약 33000, 약 34000, 약 35000, 약 36000, 약 37000, 약 38000, 약 39000, 약 40000, 약 41000, 약 42000, 약 43000, 약 44000, 약 45000, 약 46000, 약 47000, 약 48000, 약 49000, 약 50000, 약 51000, 약 52000, 약 53000, 약 54000, 약 55000, 약 56000, 약 57000, 약 58000, 약 59000, 약 60000, 약 61000, 약 62000, 약 63000, 약 64000, 약 65000, 약 66000, 약 67000, 약 68000, 약 69000, 약 70000, 약 71000, 약 72000, 약 73000, 약 74000, 약 75000, 약 76000, 약 77000, 약 78000, 약 79000, 약 80000, 약 81000, 약 82000, 약 83000, 약 84000, 약 85000, 약 86000, 약 87000, 약 88000, 약 89000, 약 90000, 약 91000, 약 92000, 약 93000, 약 94000, 약 95000, 약 96000, 약 97000, 약 98000, 약 99000, 약 100000, 약 101000, 약 102000, 약 103000, 약 104000, 약 105000, 약 106000, 약 107000, 약 108000, 약 109000, 약 110000, 약 111000, 약 112000, 약 113000, 약 114000, 약 115000, 약 116000, 약 117000, 약 118000, 약 119000, 약 120000, 약 121000, 약 122000, 약 123000, 약 124000, 약 125000, 약 126000, 약 127000, 약 128000, 약 129000, 약 130000, 약 131000, 약 132000, 약 133000, 약 134000, 약 135000, 약 136000, 약 137000, 약 138000, 약 139000, 약 140000, 약 141000, 약 142000, 약 143000, 약 144000, 약 145000, 약 146000, 약 147000, 약 148000, 약 149000, 약 150000, 약 151000, 약 152000, 약 153000, 약 154000, 약 155000, 약 156000, 약 157000, 약 158000, 약 159000, 약 160000, 약 161000, 약 162000, 약 163000, 약 164000, 약 165000, 약 166000, 약 167000, 약 168000, 약 169000, 약 170000, 약 171000, 약 172000, 약 173000, 약 174000, 약 175000, 약 176000, 약 177000, 약 178000, 약 179000, 약 180000, 약 181000, 약 182000, 약 183000, 약 184000, 약 185000, 약 186000, 약 187000, 약 188000, 약 189000, 약 190000, 약 191000, 약 192000, 약 193000, 약 194000, 약 195000, 약 196000, 약 197000, 약 198000, 약 199000, 약 200000, 약 201000, 약 202000, 약 203000, 약 204000, 약 205000, 약 206000, 약 207000, 약 208000, 약 209000, 약 210000, 약 211000, 약 212000, 약 213000, 약 214000, 약 215000, 약 216000, 약 217000, 약 218000, 약 219000, 약 220000, 약 221000, 약 222000, 약 223000, 약 224000, 약 225000, 약 226000, 약 227000, 약 228000, 약 229000, 약 230000, 약 231000, 약 232000, 약 233000, 약 234000, 약 235000, 약 236000, 약 237000, 약 238000, 약 239000, 약 240000, 약 241000, 약 242000, 약 243000, 약 244000, 약 245000, 약 246000, 약 247000, 약 248000, 약 249000, 약 250000, 약 251000, 약 252000, 약 253000, 약 254000, 약 255000, 약 256000, 약 257000, 약 258000, 약 259000, 약 260000, 약 261000, 약 262000, 약 263000, 약 264000, 약 265000, 약 266000, 약 267000, 약 268000, 약 269000, 약 270000, 약 271000, 약 272000, 약 273000, 약 274000, 약 275000, 약 276000, 약 277000, 약 278000, 약 279000, 약 280000, 약 281000, 약 282000, 약 283000, 약 284000, 약 285000, 약 286000, 약 287000, 약 288000, 약 289000, 약 290000, 약 291000, 약 292000, 약 293000, 약 294000, 약 295000, 약 296000, 약 297000, 약 298000, 약 299000, 약 300000, 약 301000, 약 302000, 약 303000, 약 304000, 약 305000, 약 306000, 약 307000, 약 308000, 약 309000, 약 310000, 약 311000, 약 312000, 약 313000, 약 314000, 약 315000, 약 316000, 약 317000, 약 318000, 약 319000, 약 320000, 약 321000, 약 322000, 약 323000, 약 324000, 약 325000, 약 326000, 약 327000, 약 328000, 약 329000, 약 330000, 약 331000, 약 332000, 약 333000, 약 334000, 약 335000, 약 336000, 약 337000, 약 338000, 약 339000, 약 340000, 약 341000, 약 342000, 약 343000, 약 344000, 약 345000, 약 346000, 약 347000, 약 348000, 약 349000, 약 350000, 약 351000, 약 352000, 약 353000, 약 354000, 약 355000, 약 356000, 약 357000, 약 358000, 약 359000, 약 360000, 약 361000, 약 362000, 약 363000, 약 364000, 약 365000, 약 366000, 약 367000, 약 368000, 약 369000, 약 370000, 약 371000, 약 372000, 약 373000, 약 374000, 약 375000, 약 376000, 약 377000, 약 378000, 약 379000, 약 380000, 약 381000, 약 382000, 약 383000, 약 384000, 약 385000, 약 386000, 약 387000, 약 388000, 약 389000, 약 390000, 약 391000, 약 392000, 약 393000, 약 394000, 약 395000, 약 396000, 약 397000, 약 398000, 약 399000, 약 400000, 약 401000, 약 402000, 약 403000, 약 404000, 약 405000, 약 406000, 약 407000, 약 408000, 약 409000, 약 410000, 약 411000, 약 412000, 약 413000, 약 414000, 약 415000, 약 416000, 약 417000, 약 418000, 약 419000, 약 420000, 약 421000, 약 422000, 약 423000, 약 424000, 약 425000, 약 426000, 약 427000, 약 428000, 약 429000, 약 430000, 약 431000, 약 432000, 약 433000, 약 434000, 약 435000, 약 436000, 약 437000, 약 438000, 약 439000, 약 440000, 약 441000, 약 442000, 약 443000, 약 444000, 약 445000, 약 446000, 약 447000, 약 448000, 약 449000, 약 450000, 약 451000, 약 452000, 약 453000, 약 454000, 약 455000, 약 456000, 약 457000, 약 458000, 약 459000, 약 460000, 약 461000, 약 462000, 약 463000, 약 464000, 약 465000, 약 466000, 약 467000, 약 468000, 약 469000, 약 470000, 약 471000, 약 472000, 약 473000, 약 474000, 약 475000, 약 476000, 약 477000, 약 478000, 약 479000, 약 480000, 약 481000, 약 482000, 약 483000, 약 484000, 약 485000, 약 486000, 약 487000, 약 488000, 약 489000, 약 490000, 약 491000, 약 492000, 약 493000, 약 494000, 약 495000, 약 496000, 약 497000, 약 498000, 약 499000, 약 500000, 약 501000, 약 502000, 약 503000, 약 504000, 약 505000, 약 506000, 약 507000, 약 508000, 약 509000, 약 510000, 약 511000, 약 512000, 약 513000, 약 514000, 약 515000, 약 516000, 약 517000, 약 518000, 약 519000, 약 520000, 약 521000, 약 522000, 약 523000, 약 524000, 약 525000, 약 526000, 약 527000, 약 528000, 약 529000, 약 530000, 약 531000, 약 532000, 약 533000, 약 534000, 약 535000, 약 536000, 약 537000, 약 538000, 약 539000, 약 540000, 약 541000, 약 542000, 약 543000, 약 544000, 약 545000, 약 546000, 약 547000, 약 548000, 약 549000, 약 550000, 약 551000, 약 552000, 약 553000, 약 554000, 약 555000, 약 556000, 약 557000, 약 558000, 약 559000, 약 560000, 약 561000, 약 562000, 약 563000, 약 564000, 약 565000, 약 566000, 약 567000, 약 568000, 약 569000, 약 570000, 약 571000, 약 572000, 약 573000, 약 574000, 약 575000, 약 576000, 약 577000, 약 578000, 약 579000, 약 580000, 약 581000, 약 582000, 약 583000, 약 584000, 약 585000, 약 586000, 약 587000, 약 588000, 약 589000, 약 590000, 약 591000, 약 592000, 약 593000, 약 594000, 약 595000, 약 596000, 약 597000, 약 598000, 약 599000, 약 600000, 약 601000, 약 602000, 약 603000, 약 604000, 약 605000, 약 606000, 약 607000, 약 608000, 약 609000, 약 610000, 약 611000, 약 612000, 약 613000, 약 614000, 약 615000, 약 616000, 약 617000, 약 618000, 약 619000, 약 620000, 약 621000, 약 622000, 약 623000, 약 624000, 약 625000, 약 626000, 약 627000, 약 628000, 약 629000, 약 630000, 약 631000, 약 632000, 약 633000, 약 634000, 약 635000, 약 636000, 약 637000, 약 638000, 약 639000, 약 640000, 약 641000, 약 642000, 약 643000, 약 644000, 약 645000, 약 646000, 약 647000, 약 648000, 약 649000, 약 650000, 약 651000, 약 652000, 약 653000, 약 654000, 약 655000, 약 656000, 약 657000, 약 658000, 약 659000, 약 660000, 약 661000, 약 662000, 약 663000, 약 664000, 약 665000, 약 666000, 약 667000, 약 668000, 약 669000, 약 670000, 약 671000, 약 672000, 약 673000, 약 674000, 약 675000, 약 676000, 약 677000, 약 678000, 약 679000, 약 680000, 약 681000, 약 682000, 약 683000, 약 684000, 약 685000, 약 686000, 약 687000, 약 688000, 약 689000, 약 690000, 약 691000, 약 692000, 약 693000, 약 694000, 약 695000, 약 696000, 약 697000, 약 698000, 약 699000, 약 700000, 약 701000, 약 702000, 약 703000, 약 704000, 약 705000, 약 706000, 약 707000, 약 708000, 약 709000, 약 710000, 약 711000, 약 712000, 약 713000, 약 714000, 약 715000, 약 716000, 약 717000, 약 718000, 약 719000, 약 720000, 약 721000, 약 722000, 약 723000, 약 724000, 약 725000, 약 726000, 약 727000, 약 728000, 약 729000, 약 730000, 약 731000, 약 732000, 약 733000, 약 734000, 약 735000, 약 736000, 약 737000, 약 738000, 약 739000, 약 740000, 약 741000, 약 742000, 약 743000, 약 744000, 약 745000, 약 746000, 약 747000, 약 748000, 약 749000, 약제 750000, 약 751000, 약 752000, 약 753000, 약 754000, 약 755000, 약 756000, 약 757000, 약 758000, 약 759000, 약 760000, 약 761000, 약 762000, 약 763000, 약 764000, 약 765000, 약 766000, 약 767000, 약 768000, 약 769000, 약 770000, 약 771000, 약 772000, 약 773000, 약 774000, 약 775000, 약 776000, 약 777000, 약 778000, 약 779000, 약 780000, 약 781000, 약 782000, 약 783000, 약 784000, 약 785000, 약 786000, 약 787000, 약 788000, 약 789000, 약 790000, 약 791000, 약 792000, 약 793000, 약 794000, 약 795000, 약 796000, 약 797000, 약 798000, 약 799000, 약 800000, 약 801000, 약 802000, 약 803000, 약 804000, 약 805000, 약 806000, 약 807000, 약 808000, 약 809000, 약 810000, 약 811000, 약 812000, 약 813000, 약 814000, 약 815000, 약 816000, 약 817000, 약 818000, 약 819000, 약 820000, 약 821000, 약 822000, 약 823000, 약 824000, 약 825000, 약 826000, 약 827000, 약 828000, 약 829000, 약 830000, 약 831000, 약 832000, 약 833000, 약 834000, 약 835000, 약 836000, 약 837000, 약 838000, 약 839000, 약 840000, 약 841000, 약 842000, 약 843000, 약 844000, 약 845000, 약 846000, 약 847000, 약 848000, 약 849000, 약 850000, 약 851000, 약 852000, 약 853000, 약 854000, 약 855000, 약 856000, 약 857000, 약 858000, 약 859000, 약 860000, 약 861000, 약 862000, 약 863000, 약 864000, 약 865000, 약 866000, 약 867000, 약 868000, 약 869000, 약 870000, 약 871000, 약 872000, 약 873000, 약 874000, 약 875000, 약 876000, 약 877000, 약 878000, 약 879000, 약 880000, 약 881000, 약 882000, 약 883000, 약 884000, 약 885000, 약 886000, 약 887000, 약 888000, 약 889000, 약 890000, 약 891000, 약 892000, 약 893000, 약 894000, 약 895000, 약 896000, 약 897000, 약 898000, 약 899000, 약 900000, 약 901000, 약 902000, 약 903000, 약 904000, 약 905000, 약 906000, 약 907000, 약 908000, 약 909000, 약 910000, 약 911000, 약 912000, 약 913000, 약 914000, 약 915000, 약 916000, 약 917000, 약 918000, 약 919000, 약 920000, 약 921000, 약 922000, 약 923000, 약 924000, 약 925000, 약 926000, 약 927000, 약 928000, 약 929000, 약 930000, 약 931000, 약 932000, 약 933000, 약 934000, 약 935000, 약 936000, 약 937000, 약 938000, 약 939000, 약 940000, 약 941000, 약 942000, 약 943000, 약 944000, 약 945000, 약 946000, 약 947000, 약 948000, 약 949000, 약 950000, 약 951000, 약 952000, 약 953000, 약 954000, 약 955000, 약 956000, 약 957000, 약 958000, 약 959000, 약 960000, 약 961000, 약 962000, 약 963000, 약 964000, 약 965000, 약 966000, 약 967000, 약 968000, 약 969000, 약 970000, 약 971000, 약 972000, 약 973000, 약 974000, 약 975000, 약 976000, 약 977000, 약 978000, 약 979000, 약 980000, 약 981000, 약 982000, 약 983000, 약 984000, 약 985000, 약 986000, 약 987000, 약 988000, 약 989000, 약 990000, 약 991000, 약 992000, 약 993000, 약 994000, 약 995000, 약 996000, 약 997000, 약 998000, 약 999000, 약 1000000, 약 1001000, 약 1002000, 약 1003000, 약 1004000, 약 1005000, 약 1006000, 약 1007000, 약 1008000, 약 1009000, 약 1010000, 약 1011000, 약 1012000, 약 1013000, 약 1014000, 약 1015000, 약 1016000, 약 1017000, 약 1018000, 약 1019000, 약 1020000, 약 1021000, 약 1022000, 약 1023000, 약 1024000, 약 1025000, 약 1026000, 약 1027000, 약 1028000, 약 1029000, 약 1030000, 약 1031000, 약 1032000, 약 1033000, 약 1034000, 약 1035000, 약 1036000, 약 1037000, 약 1038000, 약 1039000, 약 1040000, 약 1041000, 약 1042000, 약 1043000, 약 1044000, 약 1045000, 약 1046000, 약 1047000, 약 1048000, 약 1049000, 약 1050000, 약 1051000, 약 1052000, 약 1053000, 약 1054000, 약 1055000, 약 1056000, 약 1057000, 약 1058000, 약 1059000, 약 1060000, 약 1061000, 약 1062000, 약 1063000, 약 1064000, 약 1065000, 약 1066000, 약 1067000, 약 1068000, 약 1069000, 약 1070000, 약 1071000, 약 1072000, 약 1073000, 약 1074000, 약 1075000, 약 1076000, 약 1077000, 약 1078000, 약 1079000, 약 1080000, 약 1081000, 약 1082000, 약 1083000, 약 1084000, 약 1085000, 약 1086000, 약 1087000, 약 1088000, 약 1089000, 약 1090000, 약 1091000, 약 1092000, 약 1093000, 약 1094000, 약 1095000, 약 1096000, 약 1097000, 약 1098000, 약 1099000, 약 1100000, 약 1101000, 약 1102000, 약 1103000, 약 1104000, 약 1105000, 약 1106000, 약 1107000, 약 1108000, 약 1109000, 약 1110000, 약 1111000, 약 1112000, 약 1113000, 약 1114000, 약 1115000, 약 1116000, 약 1117000, 약 1118000, 약 1119000, 약 1120000, 약 1121000, 약 1122000, 약 1123000, 약 1124000, 약 1125000, 약 1126000, 약 1127000, 약 1128000, 약 1129000, 약 1130000, 약 1131000, 약 1132000, 약 1133000, 약 1134000, 약 1135000, 약 1136000, 약 1137000, 약 1138000, 약 1139000, 약 1140000, 약 1141000, 약 1142000, 약 1143000, 약 1144000, 약 1145000, 약 1146000, 약 1147000, 약 1148000, 약 1149000, 약 1150000, 약 1151000, 약 1152000, 약 1153000, 약 1154000, 약 1155000, 약 1156000, 약 1157000, 약 1158000, 약 1159000, 약 1160000, 약 1161000, 약 1162000, 약 1163000, 약 1164000, 약 1165000, 약 1166000, 약 1167000, 약 1168000, 약 1169000, 약 1170000, 약 1171000, 약 1172000, 약 1173000, 약 1174000, 약 1175000, 약 1176000, 약 1177000, 약 1178000, 약 1179000, 약 1180000, 약 1181000, 약 1182000, 약 1183000, 약 1184000, 약 1185000, 약 1186000, 약 1187000, 약 1188000, 약 1189000, 약 1190000, 약 1191000, 약 1192000, 약 1193000, 약 1194000, 약 1195000, 약 1196000, 약 1197000, 약 1198000, 약 1199000, 약 1200000, 약 1201000, 약 1202000, 약 1203000, 약 1204000, 약 1205000, 약 1206000, 약 1207000, 약 1208000, 약 1209000, 약 1210000, 약 1211000, 약 1212000, 약 1213000, 약 1214000, 약 1215000, 약 1216000, 약 1217000, 약 1218000, 약 1219000, 약 1220000, 약 1221000, 약 1222000, 약 1223000, 약 1224000, 약 1225000, 약 1226000, 약 1227000, 약 1228000, 약 1229000, 약 1230000, 약 1231000, 약 1232000, 약 1233000, 약 1234000, 약 1235000, 약 1236000, 약 1237000, 약 1238000, 약 1239000, 약 1240000, 약 1241000, 약 1242000, 약 1243000, 약 1244000, 약 1245000, 약 1246000, 약 1247000, 약 1248000, 약 1249000, 약 1250000, 약 1251000, 약 1252000, 약 1253000, 약 1254000, 약 1255000, 약 1256000, 약 1257000, 약 1258000, 약 1259000, 약 1260000, 약 1261000, 약 1262000, 약 1263000, 약 1264000, 약 1265000, 약 1266000, 약 1267000, 약 1268000, 약 1269000, 약 1270000, 약 1271000, 약 1272000, 약 1273000, 약 1274000, 약 1275000, 약 1276000, 약 1277000, 약 1278000, 약 1279000, 약 1280000, 약 1281000, 약 1282000, 약 1283000, 약 1284000, 약 1285000, 약 1286000, 약 1287000, 약 1288000, 약 1289000, 약 1290000, 약 1291000, 약 1292000, 약 1293000, 약 1294000, 약 1295000, 약 1296000, 약 1297000, 약 1298000, 약 1299000, 약 1300000, 약 1301000, 약 1302000, 약 1303000, 약 1304000, 약 1305000, 약 1306000, 약 1307000, 약 1308000, 약 1309000, 약 1310000, 약 1311000, 약 1312000, 약 1313000, 약 1314000, 약 1315000, 약 1316000, 약 1317000, 약 1318000, 약 1319000, 약 1320000, 약 1321000, 약 1322000, 약 1323000, 약 1324000, 약 1325000, 약 1326000, 약 1327000, 약 1328000, 약 1329000, 약 1330000, 약 1331000, 약 1332000, 약 1333000, 약 1334000, 약 1335000, 약 1336000, 약 1337000, 약 1338000, 약 1339000, 약 1340000, 약 1341000, 약 1342000, 약 1343000, 약 1344000, 약 1345000, 약 1346000, 약 1347000, 약 1348000, 약 1349000, 약 1350000, 약 1351000, 약 1352000, 약 1353000, 약 1354000, 약 1355000, 약 1356000, 약 1357000, 약 1358000, 약 1359000, 약 1360000, 약 1361000, 약 1362000, 약 1363000, 약 1364000, 약 1365000, 약 1366000, 약 1367000, 약 1368000, 약 1369000, 약 1370000, 약 1371000, 약 1372000, 약 1373000, 약 1374000, 약 1375000, 약 1376000, 약 1377000, 약 1378000, 약 1379000, 약 1380000, 약 1381000, 약 1382000, 약 1383000, 약 1384000, 약 1385000, 약 1386000, 약 1387000, 약 1388000, 약 1389000, 약 1390000, 약 1391000, 약 1392000, 약 1393000, 약 1394000, 약 1395000, 약 1396000, 약 1397000, 약 1398000, 약 1399000, 또는 약 1400000 염기 쌍일 수 있다.
(C) 특정 단백질-핵산 복합체
특정 구체예에서, 단백질-핵산 복합체는 (i) 뉴클레아제 결핍 Cas9 또는 Cas12a 변이체 및 (ii) 박테로이데스 염색체에 결합하거나 연관된 시티딘 데아미나제 또는 아데노신 데아미나제(또는 그의 촉매 도메인)와 같은 염기 에디터를 포함하는 조작된 RNA-가이드 (CRISPR) 핵염기 변형 시스템을 포함할 수 있다. 일부 구체예에서, 조작된 RNA-가이드 (CRISPR) 핵염기 변형 시스템은 시티딘 데아미나제 또는 아데노신 데아미나제 (또는 그의 촉매 도메인)에 연결된 뉴클레아제 결핍 Cas9 또는 Cas12a 변이체를 포함한다.
(ii) 단백질-핵산 복합체를 제조하는 방법
본 발명의 추가 측면은 섹션 (I)에서 전술한 바와 같은 HU 패밀리 DNA-결합 단백질을 인코딩하는 박테리아 염색체 및 조작된 RNA-가이드 (CRISPR) 핵염기 변형 시스템을 포함하는 복합체를 제조하는 방법을 제공한다. 상기 방법은 (a) 박테리아 염색체 내의 특정 유전자좌를 표적으로 하는 핵염기 변형 시스템의 CRISPR 시스템을 조작하는 단계와, (b) 조작된 RNA-가이드 (CRISPR) 핵염기 변형 시스템을 박테로이데스 종/균주에 도입하는 단계를 포함한다.
핵염기 변형 시스템의 CRISPR 시스템을 조작하는 단계는, 상기 섹션 (l)(a)(i)에 기재된 바와 같이, crRNA 가이드 서열이 PAM 서열(대상 CRISPR 단백질에 의해 인식되는)에 인접하는 박테리아 염색체에서의 특정(~19-22 nt) 서열 또는 유전자좌를 표적으로 하고 tracrRNA 서열이 대상 CRISPR 단백질에 의해 인식되는 가이드 RNA를 설계하는 단계를 포함한다.
조작된 CRISPR 핵염기 변형 시스템은 적어도 하나의 인코딩 핵산으로서 박테리아 세포에 도입될 수 있다. 예를 들어, 인코딩 핵산(들)은 하나 이상의 벡터(vector)의 일부일 수 있다. 조작된 CRISPR 핵염기 변형시스템을 인코딩하는 벡터 (예를 들어, CRISPR-염기 에디터 융합 및 하나 이상의 gRNA)는 플라스미드 벡터, 파지미드(phagemid) 벡터, 바이러스 벡터, 박테리오파지 벡터, 박테리오파지-플라스미드 하이브리드 벡터, 또는 다른 적합한 벡터일 수 있다. 벡터는 통합 벡터, 콘쥬게이션 벡터(conjugation vector), 셔틀 벡터(shuttle vector), 발현 벡터, 염색체외 벡터 등일 수 있다. 다양한 벡터를 박테로이데스로 전달 또는 도입하기 위한 수단은 당업계에 잘 알려져 있다.
CRISPR-염기 에디터 융합을 인코딩하는 핵산 서열은 대상 박테리아에서의 발현을 위한 프로모터(promoter)에 작동가능하게 연결될 수 있다. 특정 구체예에서, CRISPR-염기 에디터 융합을 인코딩하는 핵산 서열은 조절된 프로모터에 작동가능하게 연결될 수 있다. 일부 측면에서, 상기 조절된 프로모터는 화학물질을 유도하는 프로모터에 의해 조절될 수 있다. 그러한 구체예에서, 프로모터는 pTetO일 수 있으며, 이는 대장균(Escherichia coli) Tn10-유래된 tet 조절 시스템에 기초하고, 강한 tet 작동기(tetO)-포함하는 마이코박테리아 프로모터 및 리프레서 TetR의 발현 카세트)로 이루어지며, 상기 화학물질을 유도하는 프로모터는 무수테트라사이클린(anhydrotetracycline:aTc)일 수 있다. 다른 구체예에서, 프로모터는 pBAD 또는 araC-ParaBAD 일 수 있고, 화학물질을 유도하는 프로모터는 아라비노스일 수 있다. 추가 구체예에서, 프로모터는 pLac or tac (trp-lac)일 수 있고, 화학물질을 유도하는 프로모터는 락토스/IPTG일 수 있다. 다른 구체예에서, 프로모터는 pPrpB일 수 있고, 화학물질을 유도하는 프로모터는 프로피온산염일 수 있다.
적어도 하나의 가이드 RNA를 인코딩하는 핵산 서열은 대상 박테리아에서의 발현을 위한 프로모터에 작동가능하게 연결될 수 있다. 일반적으로, 적어도 하나의 가이드 RNA의 발현은 구성 프로모터(constitutive promoter)에 의해 조절될 수 있다. 대상 박테리아가 박터로이데스인 구체예에서, 구성 프로모터는 B. 세타이오타오미크론(thetaiotaomicron) 16S rRNA 유전자 BT_r09의 상류에 놓여 있는 P1 프로모터일 수 있다(Wegmann et al., 응용환경, 미생물학(Applied Environ. Microbiol.), 2013, 79:1980-1989). 다른 적합한 박테로이데스 프로모터는 P2, P1 TD, P1TP, P1TDP (Lim et al., 세포(Cell), 2017, 169:547-558), PAM, PcfiA, PcepA, PBTI311 (Mimee et al., 세포시스템(Cell Systems), 2015, 1:62-71) 또는 상기한 모든 프로모터의 변이체를 포함한다. 다른 구체예에서, 구성 프로모터는 대장균 σ70 프로모터 또는 그의 유도체, B. 서브틸리스(subtilis) σA 또는 그의 유도체, 살모넬라(Salmonella) Pspv2 프로모터 또는 그의 유도체일 수 있다. 당업자는 대상 박테리아에 적합한 추가 구성 프로모터에 친숙하다.
일부 구체예에서, 벡터는 통합 벡터(integrative vector)일 수 있고, 하나 이상의 재조합효소(recombinase) 인식 부위 뿐만 아니라 재조합효소를 인코딩하는 서열을 추가로 포함할 수 있다. 일반적으로, 재조합효소는 비가역적 재조합효소이다. 적합한 재조합효소의 비-제한적 예에는 박테로이데스 intN2 티로신 인테그라제 (NBU2 유전자에 의해 코드됨), 스트렙토마이세스(Streptomyces) 파지 phiC31 (φC31) 재조합효소, 대장균 파지 P4 재조합효소, 대장균 람다 인테그라제, 리스테리아(Listeria) A118 파지 재조합효소, 및 악티노파지(actinophage) R4 Sre 재조합효소가 포함된다. 재조합효소/인테그라제는 두 개의 서열 특이적 인식(또는 부착) 부위(예를 들어, attP 부위 및 attB 부위) 사이의 재조합을 중재한다. 일부 구체예에서, 벡터는 하나의 재조합효소 인식 부위의 하나 (예를 들어, attP)를 포함할 수 있고, 다른 재조합효소 인식 부위 (예를 들어, attB)는 박테리아의 염색체(예를 들어, tRNA-Ser 유전자 근처)에 위치될 수 있다. 그러한 상황에서, 전체 벡터는 박테리아의 염색체에 통합될 수 있다. 다른 구체예에서, 조작된 CRISPR 핵염기 변형 시스템을 인코딩하는 서열은 두 개의 재조합효소 인식 부위에 의해 측면에 배치될 수 있어서, 조작된 CRISPR 핵염기 변형 시스템을 인코딩하는 서열만이 박테리아 염색체에 통합된다.
상술된 모든 벡터는 대상 박테로이데스 세포에서의 증식 및 선택을 위한 적어도 하나의 전사 종결 서열, 뿐만 아니라 적어도 하나의 복제 기점 및/또는 적어도 하나의 선택가능한 마커 서열 (예를 들어, 항생제 내성 유전자)을 추가로 포함할 수 있다.
벡터 및 그의 사용에 대한 추가 정보는 "분자 생물학의 현재 프로토콜(Current Protocols in Molecular Biology)" Ausubel et al, John Wiley & Sons, New York, 2003 또는 "분자복제(Molecular Cloning): 실험실 매뉴얼(A Laboratory Manual)" Sambrook & Russell, Cold Spring Harbor Press, Cold Spring Harbor, NY, 3rd edition, 2001에서 확인할 수 있다.
조작된 CRISPR 핵염기 변형 시스템을 코딩하는 벡터가 통합 벡터인 구체예에서, 조작된 시스템(또는 전체 벡터)을 인코딩하는 핵산은 벡터를 유기체에 전달(및 재조합효소/인테그라제의 발현)한 후에 박테로이데스 염색체에 안정하게 통합될 수 있다. 조작된 CRISPR 핵염기 변형 시스템을 인코딩하는 벡터가 통합벡터가 아닌 구체예에서, 벡터는 박테리아에 벡터를 전달한 후에 염색체외에 남아있을 수 있다.
CRISPR-염기 에디터 융합을 인코딩하는 핵산 서열은 유도성 프로모터에 작동가능하게 연결되는 구체예에서, CRISPR 핵염기 변형 시스템의 발현은 박테리아 내로 화학 물질을 유도하는 프로모터를 도입함으로써 유도될 수 있다. 특정 구체예에서, 화학 물질을 유도하는 프로모터는 무수테트라사이클린일 수 있다. 유도시, CRISPR-염기 에디터 융합은 박테리아 염색체 내의 표적 유전자좌에 대한 CRISPR 핵염기 변형 시스템을 표적으로 하는 하나 이상의 가이드 RNA와 합성되고 복합되어서, 여기에 개시된 바와 같은 단백질-핵산 복합체를 형성한다.
(Ⅲ) 박테리아에서 핵염기를 변형시키는 방법
본 발명의 추가 측면는 박테로이데테스(Bacteroidetes)의 표적 구성원의 염색체 내의 적어도 하나의 핵염기를 변형시키는 방법을 포함한다. 상기 방법은 표적 종/균주에서 조작된 RNA-가이드 (CRISPR) 핵염기 변형 시스템을 발현하는 단계를 포함하며, 여기서 조작된 RNA-가이드 (CRISPR) 핵염기 변형 시스템은 표적 박테리아의 염색체에서의 특정 유전자좌로 표적화되고, 조작된 RNA-가이드 핵염기 변형 시스템은 특정 유전자좌를 포함하는 유전자가 변형 및/또는 불활성화되도록 특정 유전자좌 내의 적어도 하나의 핵염기를 변형시키고, 상기 표적 박테리아 종/균주의 염색체는 서열 번호 1에 대해 적어도 50% 서열 동일성(예를 들어, 적어도 55%, 적어도 60%, 적어도 65%, 적어도 70%, 적어도 75%, 적어도 80%, 적어도 85%, 적어도 90%, 서열 번호 1에 대한 적어도 95%, 또는 적어도 99% 서열 동일성)을 갖는 아미노산 서열을 포함하는 HU 패밀리 DNA-결합 단백질을 인코딩한다. 핵염기 변형(예를 들어, 시토신을 티민으로 또는 아데닌을 구아닌으로 전환)은 특정 유전자좌 내에 단일 뉴클레오티드 다형성(single nucleotide polymorphisms: SNPs) 및/또는 정지 코돈(stop codon)을 도입할 수 있다. 적어도 하나의 핵염기 변형의 결과로서, 표적 박테리아는 특정 유전자좌를 포함하는 적어도 하나의 유전자의 발현을 변경, 감소 또는 제거할 수 있다.
상기 섹션(l)(a)에서 기술된 모든 RNA-가이드 (CRISPR) 핵염기 변형 시스템은 상기 섹션 (l)(b)에 기술되는 대상의 박테로이데테스 계통발생론적 계통(phylogenetic lineage)에서 박테리아 종/균주의 염색체 내의 특정 유전자좌를 표적화하도록 섹션 (Ⅱ)에서 전술한 바와 같이 조작될 수 있다. 조작된 CRISPR 핵염기 변형 시스템은 상기 섹션 (Ⅱ)에서 기재된 바와 같이 벡터의 일부로서 박테리아에 도입될 수 있다. 일반적으로, CRISPR-핵염기 변형 시스템은 유도성이다 (예를 들어, CRISPR-염기 에디터 융합을 인코딩하는 핵산 서열은 유도성 프로모터에 작동가능하게 연결된다). 이와 같이, CRISPR-핵염기 변형 시스템은 규정된 시점에서 발현될 수 있다. 화학물질을 유도하는 프로모터가 없는 경우, CRISPR-핵염기 변형 시스템은 생성될 수 없다. CRISPR-염기 에디터 융합은 상기 섹션(Ⅱ)에서 기술한 바와 같이 염색체적으로 통합된 인코딩 서열 또는 염색체외 인코딩 서열로부터 CRISPR-염기 에디터 융합 단백질이 발현되도록, 박테리아를 화학물질을 유도하는 프로모터에 노출함으로써 생성될 수 있다. CRISPR-염기 에디터 융합은 염색체 통합 인코딩 서열 또는 염색체외 인코딩 서열로부터 구성적으로 발현되는 적어도 하나의 가이드 RNA와 복합하여, 활성 CRISPR 핵염기 변형 시스템을 형성한다. CRISPR 핵염기 변형 시스템은 박테리아 염색체에서의 특정 유전자좌를 표적화하고, 여기서 적어도 하나의 핵염기를 변형시켜 특정 유전자좌를 포함하는 유전자의 발현이 변경, 감소 또는 제거되도록 한다.
일부 구체예에서, 표적 유기체는 섹션(Ⅰ)(b)에서 상기한 바와 같이 박테로이데스 종 또는 균주 수준 변이체일 수 있다.
다른 구체예에서, 유기체는 포유동물의 소화관(또는 장)에 보유될 수 있고, 여기서 화학물질을 유도하는 프로모터의 투여는 장내 미생물군(gut microbiota)에서의 표적 박테리아의 감소 또는 제거를 유도할 수 있는 핵염기 변형(예를 들어, 시토신을 티민 또는 아데닌으로의 구아닌으로의 전환)으로 유도할 수 있다. 화학물질을 유도하는 프로모터는 경구적으로(예를 들어, 식품, 음료 또는 약제학적 제제를 통해) 투여될 수 있다. 포유동물은 마우스, 래트, 또는 다른 연구 동물일 수 있다. 특정 구체예에서, 포유동물은 인간일 수 있다. 표적 박테리아 유기체 (예를 들어, 박테로이데스 속의 구성원)의 감소 또는 제거는 예를 들어, 개선된 장 건강을 유도할 수 있다.
박테리아의 혼합 집단(세포 배양 또는 소화관에서)은 광범위한 종류의 분류군을 포함할 수 있다. 예를 들어, 인간 장내 미생물군은 상당한 균주 수준 다양성을 수반하는 수백 종의 상이한 박테리아를 포함할 수 있다.
특정 구체예에서, 포유동물 (예를 들어, 인간)은 암 면역요법(cancer immunotherapy)을 받을 수 있고, 여기서 면역요법 반응자는 비-반응자와 비교하여 그들의 장내 미생물군에서 더 낮은 수준의 박테로이데스 종을 갖는 것으로 나타났다 (Gopalakrishnan et al., Science , 2018, 359:97-103). 따라서, 장내 미생물군에서 박테로이데스 종의 수준의 감소는 더 나은 인간 암 면역 요법 결과를 초래할 수 있다.
특정 구체예에서, 포유동물 (예를 들어, 인간, 개과, 고양이, 돼지, 말 또는 소)은 염증성 장 질환, 크론병, 게실염, 장 막힘, 폴립 제거, 암성 조직 제거, 궤양성 대장염, 장 절제술, 직장절제술, 완전 대장절제술, 또는 부분 대장절제술을 포함하는(그러나 반드시 이에 한정되지 않음) 다양한 이유로 장 수술을 받을 수 있으며, 유도성 CRISPR 핵염기 변형 시스템에 의한 수술 전 포유동물 장 내에서의 박테로이데스 프라길리스 종의 감쇠는, 포유동물의 몸체내 이기는 하나 장 외부의 위치에서의, B.프라길리스에 의한 수술 후 감염의 위험을 줄일 수 있다. 장 밖의 위치에는 장의 외부 표면이 포함된다. B. 프라길리스 내의 유도성 CRISPR 핵염기 변형 시스템은 병원성 유전자균(pathogenicity island), 독소(예컨대, B. 프라길리스 독소 또는 BFT) 또는 B. 프라길리스 또는 수술 후 감염을 유발하는 것으로 알려진 다른 천연 장내 박테리아의 감염성 균주와 관련된 다른 독특한 서열과 유사하지만 이에 한정되지 않는 위치를 변형시키기 위해 표적화될 수 있다. 예를 들어, 비독소생성(nontoxigenic) B. 프라길리스 (NTBF) 및 장독소생성(enterotoxigenic) B. 프라길리스 (ETBF)의 수준은 NTBF 균주가 아닌, ETBF 균주 내에 배치된 조작된 유도성 CRISPR 핵염기 변형 시스템을 사용하여 선택적으로 조절될 수 있다. 장 수술 후 감염을 일으킬 위험이 있는 다른 장내 박테리아로는 박테로이데스 카필로시스(Bacteroides capillosis), 에스케리치아 콜리(Escherichia coli), 엔테로코커스 파에칼리스(Enterococcus faecalis), 가멜라 해몰리산(Gamella haemolysan)모가넬라 모가니(Morganella morganii)가 포함될 수 있다. 유도성 CRISPR 핵염기 변형 시스템의 장내 미생물로의 전달은 수술 전, 도중, 또는 후에 프로바이오틱 치료의 일부로서 발생할 수 있다. 표적 박테리아에 대한 유도성 CRISPR 핵염기 변형 시스템의 전달은 포유동물 신체 외부 또는 포유동물 내에서 발생할 수 있다. 표적 박테리아에 대한 유도성 CRISPR 핵염기 변형 시스템의 전달은 플라스미드 또는 박테리오파지와 같은 핵산 벡터를 통해 발생할 수 있다. 플라스미드의 전달은 전기천공, 화학적 형질전환, 또는 박테리아 대 박테리아 접합을 통해 발생할 수 있다.
(IV) 프로바이오틱스로서의 CRISPR 통합 박테리아 종/균주
본 발명의 또 다른 측면은 예를 들어, 프로바이오틱스로서 사용하기 위한 조작된 박테리아 균주를 포함한다. 조작된 균주는 박테리아 염색체 내로 통합되거나 대상 유기체 내에서 에피솜 벡터로서 유지되는 섹션 (l)(a)에 기재된 임의의 조작된 CRISPR 핵염기 변형 시스템을 포함한다. 일부 구현예에서, 조작된 박테리아는 유도성 CRISPR 핵염기 변형 시스템을 포함하는 조작된 박테로이데스이다. 조작된 박테로이데스를 포유동물 대상체에게 투여한 다음, CRISPR 시스템의 유도는 박테리아 염색체 내의 특정 유전자좌를 표적화하는데 사용될 수 있다. 이러한 CRISPR 시스템에 의한 적어도 하나의 핵염기의 변형은, 특정 유전자좌를 포함하는 유전자의 발현이 변경, 감소 또는 제거되도록 함으로써, 포유동물 대상체에게 치료 이익을 제공한다. 다른 구체예에서, 박테로이데스 균주는 장내 미생물에서 박테로이데스의 야생형 균주를 능가하도록 조작될 수 있다. 이들 및 다른 구체예에서, 포유동물 대상체에 대한 치료 이익을 제공하는 조작된 박테로이데스 균주는 이어서 유도성 CRISPR 핵염기 변형 시스템의 유도에 의해 포유동물 대상체로부터 제거될 수 있다.
정의
달리 정의되지 않는 한, 본 명세서에서 사용된 모든 기술적 및 과학적 용어들은 본 발명이 속하는 기술분야의 당업자에 의해 통상적으로 이해되는 의미를 갖는다. 하기 참고문헌은 본 발명에 사용된 많은 용어들의 일반적인 정의를 당업자에게 제공한다: Singleton et al, 미생물학 및 분자생물학 사전(Dictionary of Microbiology and Molecular Biology) (2nd Ed. 1994); 과학 기술의 캠브리지 사전 (Walker ed., 1988); 유전학의 용어집, 5th Ed., R. Rieger et al. (eds.), 스프링어 베를라그 (1991); Hale & Marham, 하퍼콜린 생물학 사전(The Harper Collins Dictionary of Biology) (1991). 본 명세서에서 사용된 바와 같이, 하기 용어들은 달리 명시되지 않는 한, 그들에게 부여된 의미를 갖는다.
본 발명의 구성요소들 또는 이의 바람직한 구체예(들)을 소개할 때, 물품 앞의 영문 "a", "an", "the" 및 "said"는 하나 이상의 구성요소들이 존재한다는 것을 의미하는 것으로 의도된다. 용어 "포함하는"은 영문 "comprising, including 및 having"을 포함하는 포괄적 의미를 갖도록 의도되며, 열거된 요소 이외의 추가 요소가 존재할 수 있음을 의미한다.
용어 "약"은, 수치값 x와 관련하여 사용될 때, 예를 들어 x±5%를 의미한다.
본 발명에서 사용된 바와 같이, 용어 "상보적(complementary)" 또는 "상보성(complementarity)"은 특이적 수소 결합을 통한 염기 쌍(base pairing)에 의한 이중 가닥 핵산의 연관성을 나타낸다. 염기 쌍은 표준 왓슨-크릭 염기 쌍일 수 있다(예로서, 5'-A G T C-3'는 상보적 서열 3'-T C A G-5'와 한 쌍을 이룸). 염기 쌍은 또한 후그스틴(Hoogsteen) 또는 역전된 후그스틴 수소 결합일 수 있다. 상보성은 전형적으로 듀플렉스 영역에 대하여 측정되므로, 예를 들어 오버행(overhang)은 배제된다. 듀플렉스 영역의 두 가닥 사이의 상보성은, 염기의 일부(예를 들어, 70%)만이 상보적이라면 부분적이고 백분율(예컨대, 70%)로 표현될 수 있다. 상보적이지 않은 염기는 "불일치(mismatch)"한다. 듀플렉스 영역 내의 모든 염기가 상보적이라면 상보성은 또한 완전할 수 있다(예컨대 100%).
유전자 또는 폴리뉴클레오티드에 관하여 용어 "발현"은 유전자 또는 폴리뉴클레오티드의 전사 및, 적절하게는 mRNA 전사의 단백질 또는 폴리펩티드로의 번역을 말한다. 따라서, 본 명세서에서의 문맥으로부터 명확한 바와 같이, 단백질 또는 폴리펩티드의 발현은 오픈 리딩 프레임(open reading frame)의 전사 및/또는 번역으로부터 초래된다.
본 발명에 사용된 "유전자"는 유전자 생성물을 인코딩하는 DNA 영역(엑손 및 인트론 포함)뿐만 아니라, 그러한 조절 서열이 코딩 및/또는 전사된 서열에 인접해 있는지 여부에 관계없이 유전자 생성물의 제조를 조절하는 모든 DNA 영역을 지칭한다. 따라서, 유전자는 프로모터 서열, 터미네이터, 리보솜 결합 부위 및 내부 리보솜 진입 부위와 같은 번역 조절 서열, 인핸서(enhancer), 사일런서(silencer), 절연체, 경계 요소, 복제 기원, 매트릭스 부착 부위 및 유전자좌 제어 영역(locus control region)을 포함하나, 반드시 이에 한정되는 것은 아니다.
용어 "이종성(heterologous, 異種性)"은 대상 세포에 내인성이거나 고유하지 않는 개체를 지칭한다. 예를 들어, 이종 단백질은 외인적으로 도입된 핵산 서열과 같은 외인성 공급원으로부터 유래되거나 원래 유래되었던 단백질을 지칭한다. 일부 예에서, 이종성 단백질은 일반적으로 대상 세포에 의해 생산되지 않는다.
용어 "니카제(nickase)"는 이중 가닥 핵산 서열의 한 가닥을 절단하는 효소를 지칭한다.
용어 "엔도뉴클레아제"와 상호 교환가능하게 사용되는 용어 "뉴클레아제"는 이중 가닥 핵산 서열의 양쪽 가닥을 절단하거나 단일 가닥 핵산 서열을 절단하는 효소를 지칭한다.
용어 "핵산" 및 "폴리뉴클레오티드"는 선형 또는 원형 입체형태, 및 단일- 또는 이중-가닥 형태의 데옥시리보뉴클레오티드 또는 리보뉴클레오티드 중합체를 지칭한다. 본 발명의 목적을 위해, 이들 용어는 중합체의 길이에 대하여 제한하는 것으로 해석되어서는 안 된다. 상기 용어는 천연 뉴클레오티드의 공지된 유사체, 뿐만 아니라 염기, 당 및/또는 포스페이트 부분(phosphate moiety) (예를 들어, 포스포로티오산 골격: phosphorothioate backbone)에서 변형되는 뉴클레오티드를 포괄할 수 있다. 일반적으로, 특정 뉴클레오티드의 유사체는 동일한 염기-쌍 특이성을 갖고; 즉, A의 유사체는 T와 염기쌍을 이룰 것이다.
용어 "뉴클레오티드"는 데옥시리보뉴클레오티드 또는 리보뉴클레오티드를 지칭한다. 뉴클레오티드는 표준 뉴클레오티드 (즉, 아데노신, 구아노신, 시티딘, 티미딘 및 우리딘), 뉴클레오티드 이성질체 또는 뉴클레오티드 유사체일 수 있다. 뉴클레오티드 유사체는 변형된 퓨린 또는 피리미딘 염기 또는 변형된 리보스 모이어티를 갖는 뉴클레오티드를 지칭한다. 뉴클레오티드 유사체는 자연 발생 뉴클레오티드 (예를 들어, 이노신, 슈도우리딘 등) 또는 비-자연 발생 뉴클레오티드일 수 있다. 뉴클레오티드의 당 또는 염기 모이어티에 대한 변형의 비-제한적인 예는 아세틸기, 아미노기, 카르복실기, 카르복실기, 카르복시메틸기, 하이드록실기, 메틸기, 포스포릴기 및 티올기의 부가(또는 제거)뿐만 아니라, 염기의 탄소 및 질소 원자를 다른 원자(예를 들어, 7-데아자 퓨린)로 치환하는 것을 포함한다. 뉴클레오티드 유사체는 또한 디옥시뉴클레오타이드, 2'-O-메틸뉴클레오타이드, 잠긴 핵산(LNA), 펩티드 핵산(PNA), 및 모르폴리노스(morpholinos)를 포함한다.
용어 "폴리펩티드" 및 "단백질"은 아미노산 잔기의 중합체를 지칭하기 위해 상호 교환가능하게 사용된다.
용어 "표적 서열", "표적 부위" 및 "특정 유전자좌"는, CRISPR 시스템이 표적화되는 대상 핵산 (예를 들어, 염색체 DNA 또는 세포 RNA)에서의 특정 서열 및 CRISPR 시스템이 핵산과 관련된 핵산 또는 단백질(들)을 변형시키는 부위를 지칭하기 위해 상호 교환가능하게 사용된다.
핵산 및 아미노산 서열 동일성을 측정하기 위한 기술은 당업계에 공지되어 있다. 전형적으로, 이러한 기술은 유전자에 대한 mRNA의 뉴클레오티드 서열을 결정하고/하거나 그에 의해 인코딩되는 아미노산 서열을 결정하고, 이들 서열을 두 번째 뉴클레오티드 또는 아미노산 서열과 비교하는 것을 포함한다. 게놈 서열은 또한 이러한 방식으로 결정되고 비교될 수 있다. 일반적으로, 동일성은 각각 두 폴리뉴클레오티드 또는 폴리펩티드 서열의 정확한 뉴클레오티드 대 뉴클레오티드 또는 아미노산 대 아미노산 상응성을 지칭한다. 둘 이상의 서열(폴리뉴클레오티드 또는 아미노산)은 그들의 퍼센트 동일성(percent identity)을 결정함으로써 비교될 수 있다. 핵산 또는 아미노산 서열에 관계없이 두 서열의 퍼센트 동일성은 두 개의 정렬된 서열 사이의 정확한 일치 횟수를 더 짧은 서열의 길이로 나눈 후 100을 곱한 것이다. 핵산 서열에 대한 대략적인 정렬은 Smith와 Waterman, Advances in Applied Mathematics 2:482-489 (1981)의 국소 상동성 알고리즘에 의해 제공된다, 이 알고리즘은 Dayhoff, Atlas of Protein Sequence and Structure, M. O. Dayhoff ed., 5 suppl. 3:353-358, National Biomedical Research Foundation, Washington, D.C., USA에 의해 개발된 스코어링 매트릭스를 사용하여 아미노산 서열에 적용될 수 있으며, Gribskov, Nucl. Acids Res. 14(6):6745-6763 (1986)에 의해 정규화된다. 서열의 퍼센트 동일성을 결정하기 위한 이 알고리즘의 예시적인 구현은 "BestFit" 유틸리티 애플리케이션에서 유전학 컴퓨터 그룹(위스콘신주 매디슨)에 의해 제공된다. 서열 사이의 퍼센트 동일성 또는 유사성을 산출하기 위한 다른 적합한 프로그램은 당업계에 일반적으로 공지되어 있으며, 예를 들어, 또 다른 정렬 프로그램은 디폴트 파라미터(default parameter)와 함께 사용되는 BLAST이다. 예를 들어, BLASTN 및 BLASTP는 다음의 기본 매개변수(default parameter)를 사용하여 사용될 수 있다: 예를 들어, BLASTN 및 BLASTP는 다음 기본 매개변수를 사용하여 사용할 수 있습니다. 유전 코드=표준; 필터=없음; 가닥 = 둘 다; 컷오프 = 60; 기대=10; 매트릭스=BLOSUM62; 설명=50개 시퀀스; 정렬 기준=높은 점수; 데이터베이스=비중복, GenBank+EMBL+DDBJ+PDB+GenBank CDS 번역+Swiss protein+Spupdate+PIR. 이 프로그램에 대한 자세한 내용은 GenBank 웹사이트에서 확인할 수 있다.
본 발명의 범위를 벗어나지 않는 범위 내에서 상술한 세포 및 방법에서 다양한 변화가 이루어질 수 있으므로, 상기 설명 및 후술하는 실시예에 포함되는 모든 사항은 예시적인 것으로 해석되어야 하고, 한정적인 의미로 해석되어서는 안 된다.
본 특허 또는 출원 파일은 컬러로 실행된 하나 이상의 도면을 포함한다. 본 컬러도면과 함께 본 특허 또는 특허출원의 사본은 요청 및 필요한 비용의 지불시 특허청에서 제공할 것이다.
도 1은 CRISPR 염기 편집(dSpCas9-CDA/sgRNA)에 대한 개략적 모델을 나타낸다. dSpCas9-CDA/sgRNA 복합체는 이중 가닥 DNA에 결합하여 sgRNA- 및 PAM- 의존방식으로 R-루우프를 형성한다. CDA는 PAM으로부터 15-20염기 상류의 하부(비-상보적)가닥에 위치된 시토신의 탈아미드화를 촉매하여 C로부터 T로의 돌연변이 유발을 초래한다.
도 2는 박테로이데스 세타이오타오미크론 (Bacteroidesthetaiotaomicron)에서 tdk(BT_2275)를 표적으로 하는 CRISPR 염기 에디터 통합 플라스미드 [pNBU2.CRISPR-CDA]의 개략도를 나타낸다.
도 3A는 dSpCas9-CDA에 의해 편집된 tdk_Bt 돌연변이체의 서열 정렬을 나타낸다. 게놈 위치와 tdk_Bt sgRNA(N20)가 표적으로 하는 부위는 PAM으로 표시된다. ATG 시작 코돈에서 시작하는 tdk_Bt의 코딩 서열은 상단에 표시된다. aTc100 한천판에서 무작위로 선택된 8개의 콜로니(colony)에서 발견된 돌연변이 부위가 하단에 도시된다. 돌연변이된 염기(PAM으로부터 17-위치에서 C에서 T)는 tdk_Bt 코딩 서열의 위치 28에서 정지 코돈을 초래한다. 도 3A는 출현 순서대로 각각 서열 번호(SEQ ID NOS) 10-13을 개시한다.
도 3B는 dSpCas9-CDA에 의해 편집된 susC_Bt 돌연변이체의 서열 정렬을 나타낸다. 게놈 위치와 susC_Bt sgRNA(N20)가 표적으로 하는 부위는 PAM으로 표시된다. susC_Bt의 코딩 서열은 상부에 도시된다. aTc100 한천판에서 무작위로 선택된 8개의 콜로니에서 발견된 돌연변이 부위가 하단에 도시된다. 돌연변이된 염기(PAM으로부터 17- 및 19-위치에서 C에서 T)는 susC_Bt 코딩 서열의 위치 491 및 493에서 아미노산 치환 및 정지 코돈을 생성한다. 도 3B는 나타나는 순서대로 각각 SEQ ID NOS 14-17을 개시한다.
도 4는 박테로이데스 세타이오타오미크론 VPI-5482 게놈을 표적화하지 않는 비-표적화 가이드 RNA 스크램블된 뉴클레오티드 서열을 갖는 CRISPR 염기 에디터가 안정적으로 유지되는 플라스미드(pmobA.repA.CRISPR-CDA.NT)의 개략도를 나타낸다.
도 5A는 재구성된 1㎖ 호기성 대장균 박테로이데스 세타이오타오미크론 VPI-5482 접합 슬러리로부터의 1:10의 희석액 100㎕ 로 플레이트된 25㎍/㎖ 에리트로마이신(Em) 및 200㎍/㎖ 겐타마이신(Gm) 뇌-심장 주입(BHI) 혈액 한천판을 보여준다. 이러한 재구성된 접합 슬러리는 선택되지 않은 BHI 혈액 한천판에서 가져온 것이다. 한천판은 왼쪽에서 오른쪽으로 비-표적화 샘플, BT_0362 샘플 및 BT_0364 샘플을 보여준다.
도 5B는 25㎍/㎖ Em, 200㎍/㎖ Gm 및 100ng/㎖ 무수테트라사이클린(aTc) 선정 및 유도 BHI 혈액 한천판 상의 멸균 루프 성장 줄무늬를 보여준다. 도 5A에 도시된 각 한천판으로부터의 개별 콜로니는 25㎍/㎖ Em, 200㎍/㎖ Gm 및 100ng/㎖ aTc가 보충된 5㎖의 선택 및 유도 TYG 액체 배지에서 성장시켰다. 멸균 루프 샘플은 이러한 선택 및 유도 TYG 액체 배지 배양물로 부터 채취했다. 한천판은 왼쪽에서 오른쪽으로 비표적화 샘플, BT_0362 샘플 및 BT_0364 샘플을 보여준다.
도 6A는 "생어 트레이스(Sanger Trace)"라 불리는 밀리포르시그마 (MilliporeSigma)사가 내부적으로 개발한 소프트웨어를 사용한 정량적 돌연변이 분석을 예시한다. 이 분석 소프트웨어는 어플라이드 바이오시스템사(Applied Biosystem, Inc)의 포멧(ABI) 파일을 기반으로 한, 각 염기 신호 피크 값을 추출하고 "대조군"와 "샘플" 생어 시퀀싱 데이터(Sanger sequencing data)를 비교하여 돌연변이 비율을 계산한다. 상부 생어 트레이스는 가이드 RNA 시퀀스에 밑줄이 표시된 비-표적 샘플이다. 빨간색 화살표는 시토신 탈아미노의 위치인 PAM에 관련된 염기-17을 나타내며, 이는 C에서 T로의 돌연변이 유발과 BT_0362 코딩 서열을 자르는 정지 코돈의 도입을 초래한다. 중간 생어 트레이스는 BT_0362 편집 샘플을 보여주고 아래쪽 그래프는 C에서 T로의 돌연변이 빈도를 나타낸다. 도 6A는 나타나는 순서대로 각각 SEQ ID NOS 18-20을 나타낸다.
도 6B는 "생어 트레이스(Sanger Trace)"라 불리는 밀리포르시그마사가 내부적으로 개발한 소프트웨어를 사용한 정량적 돌연변이 분석을 예시한다. 이 분석 소프트웨어는 어플라이드 바이오시스템사의 포멧(ABI) 파일을 기반으로, 각 염기 신호 피크 값을 추출하고 "대조군"와 "샘플" 생어 시퀀싱 데이터를 비교하여 돌연변이 비율을 계산한다. 상부 생어 트레이스는 가이드 RNA 시퀀스에 밑줄이 표시된 비-표적 샘플이다. 빨간색 화살표는 시토신 탈아미노의 위치인 PAM에 관련된 염기-18, 19, 20을 나타내며, 이는 C에서 T로의 돌연변이 유발과 BT_0364 코딩 서열을 자르는 정지 코돈의 도입을 초래한다. 중간 생어 트레이스는 BT_0364 편집 샘플을 보여주고 하부 그래프는 C에서 T로의 돌연변이 빈도를 나타낸다. 도 6B는 나타나는 순서대로 각각 SEQ ID NOS 21-23을 나타낸다.
실시예들
다음의 실시예들은 본 발명의 특정 측면들을 예시한다.
실시예 1. 박테로이데스 세타이오타오미크론에서의 CRISPR 염기 편집
박테로이데스에서의 데아미나제-매개 표적화된 염기 편집을, DNA 절단 또는 주형 공여체 DNA 없이 가이드 RNA에 의해 특정된 표적 유전자좌에서 뉴클레오티드를 직접 편집하기 위해 진행하였다(도 1). 세포 사멸을 유도함이 없이 거의 100 %의 편집 효율을 달성하였으므로 박테로이데스의 게놈 조작에 적합하다.
박테로이데스 dCas9-AID 벡터 pNBU2.CRISPR-CDA를 구축하였다. 벡터는 (i) 무수테트라사이클린-유도성 프로모터 하에 페트로미존 마리누스 시토신 데아미나제(Petromyzon marinus cytosine deaminase) PmCDAI (CDA)에 융합된 촉매적으로 불활성화된 Cas9 (dCas: D10A 및 H840A 돌연변이) 및 (ii) 구성 프로모터 PI 하에 20-뉴클레오티드 (nt) 표적 서열-gRNA 스캐폴드 하이브리드(sgRNA)를 발현한다. 플라스미드는 대장균에서 암피실린 선택을 위한 R6K 복제 기점 및 bla 서열, 컨쥬게이션을 위한 RP4-oriT 서열 및 박테로이데스에서의 에리스로마이신(Em) 선택을 위한 ermG 서열을 함유한다. NBU2는 pNBU2.CRISPR-CDA 플라스미드 상의 attN2 부위와 박테로이데스 세포의 염색체 상에 위치한 attB 부위 중 하나 사이의 서열-특이적 재조합을 매개하는 intN2 티로신 인테그라제를 인코딩한다 (Wang et al., J. Bacteriology, 2000, 182(12):3559-3571). NBU2 인테그라제 인식 서열(attN2/attB)은 5'-CCTGTCTCTCCGC-3'(서열 번호 2)이다. CRISPR-CDA 유닛은 페트로미존 마리누스 시토신 데아미나제(PmCDAI)와 융합된 D10A 및 H840A 돌연변이를 갖는 유도성, 뉴클레아제-결핍 SpCas9로 구성된다. dCas9-CDA1 융합은 무수테트라사이클린(aTc)의 제어 하에 TetR 조절기(P2-A21-tetR, P1TDP-GH023-dSpCas9-PmCDA1)에 의해 조절되었고, 가이드 RNA는 구성 P1 프로모터(P1-N20 sgRNA 스캐폴드)에 의해 조절되었다. 프로모터 및 리보솜 결합 부위는 Lim et al., Cell, 2017, 169:547-558에 기재된 바와 같이 박테로이데스 세타이오타오미크론(Bt) 16S rRNA 유전자의 조절 서열로부터 유도되고 조작된다. 가이드 RNA는 코딩 또는 비-코딩 DNA 서열과 상동성이거나 비-표적화 스크램블 뉴클레오티드 서열인 뉴클레오티드 서열이다. 이 서열은 상이한 Cas9 상동체의 프로토스페이서 인접 모티프(PAM) 요건과 양립가능한 한 변할 수 있다. 가이드 RNA는 tracrRNA 및 crRNA의 개별 전사 단위에 있거나 하이브리드 키메라 tracr/crRNA 단일 가이드(sgRNA)에 융합될 수 있다. 플라스미드 pNBU2.CRISPR-STOP.tdkfit DNA 서열 (11, 383 bp)의 지도가 도 2에 도시되어 있으며 서열 번호 3(SEQ ID NO:3)으로 열거된다:
GGAAAGCGGGCAGTGAGCGCAACGCAATTAATGTGAGTTAGCTCACTCATTAGGCACCCCAGGCTTTACACTTTATGCTTCCGGCTCGTATGTTGTGTGGAATTGTGAGCGGATAACAATTTCACACAGGAAACAGCTATGACCATGATTACGCCCTTAAGACCCACTTTCACATTTAAGTTGTTTTTCTAATCCGCATATGATCAATTCAAGGCCGAATAAGAAGGCTGGCTCTGCACCTTGGTGATCAAATAATTCGATAGCTTGTCGTAATAATGGCGGCATACTATCAGTAGTAGGTGTTTCCCTTTCTTCTTTAGCGACTTGATGCTCTTGATCTTCCAATACGCAACCTAAAGTAAAATGCCCCACAGCGCTGAGTGCATATAATGCATTCTCTAGTGAAAAACCTTGTTGGCATAAAAAGGCTAATTGATTTTCGAGAGTTTCATACTGTTTTTCTGTAGGCCGTGTACCTAAATGTACTTTTGCTCCATCGCGATGACTTAGTAAAGCACATCTAAAACTTTTAGCGTTATTACGTAAAAAATCTTGCCAGCTTTCCCCTTCTAAAGGGCAAAAGTGAGTATGGTGCCTATCTAACATCTCAATGGCTAAGGCGTCGAGCAAAGCCCGCTTATTTTTTACATGCCAATACAATGTAGGCTGCTCTACACCTAGCTTCTGGGCGAGTTTACGGGTTGTTAAACCTTCGATTCCGACCTCATTAAGCAGCTCTAATGCGCTGTTAATCACTTTACTTTTATCTAATCTAGACATATTCGTTTAATATCATAAATAATTTATTTTATTTTAAAATGCGCGGGTGCAAAGGTAAGAGGTTTTATTTTAACTACCAAATGTTTTCGGAAGTTTTTTCGCTTTTCTTTTTCTATCGTTTCTCAGACTCTCTTAGCGAAAGGGAAAGAAGGTAAAGAAGAAAAACAAAACGCCTTTTCTTTTTTGCACCCGCTTTCCAAGAGAAGAAAGCCTTGTTAAATTGACTTAGTGTAAAAGCGCAGTACTGCTTGACCATAAGAACAAAAAAATCTCTATCACTGATAGGGATAAAGTTTGGAAGATAAAGCTAAAAGTTCTTATCTTTGCAGTCTCCCTATCAGTGATAGAGACGAAATAAAGACATATAAAAGAAAAGACACCATGGATAAGAAATACTCAATAGGCTTAGCTATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGAATATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGACAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGTAGATTCTACTGATAAAGCGGATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGTACAAACCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTGGAGTAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGAAGAAAAATGGCTTATTTGGGAATCTCATTGCTTTGTCATTGGGTTTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGAGTAAATACTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAACGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATTCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAAGGAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTTGAAGATAGATTTAATGCTTCATTAGGTACCTACCATGATTTGCTAAAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGAGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGAAGACATTCAAAAAGCACAAGTGTCTGGACAAGGCGATAGTTTACATGAACATATTGCAAATTTAGCTGGTAGCCCTGCTATTAAAAAAGGTATTTTACAGACTGTAAAAGTTGTTGATGAATTGGTCAAAGTAATGGGGCGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCTCCAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATGCCATTGTTCCACAAAGTTTCCTTAAAGACGATTCAATAGACAATAAGGTCTTAACGCGTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTAACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTTAGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGCCGGAGAATTACAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGGTGACGGTGGAGGAGGTTCTGGAGGTGGAGGTTCTGCTGAGTATGTGCGAGCCCTCTTTGACTTTAATGGGAATGATGAAGAGGATCTTCCCTTTAAGAAAGGAGACATCCTGAGAATCCGGGATAAGCCTGAGGAGCAGTGGTGGAATGCAGAGGACAGCGAAGGAAAGAGGGGGATGATTCCTGTCCCTTACGTGGAGAAGTATTCCGGAGACTATAAGGACCACGACGGAGACTACAAGGATCATGATATTGATTACAAAGACGATGACGATAAGTCTAGGCTCGAGTCCGGAGACTATAAGGACCACGACGGAGACTACAAGGATCATGATATTGATTACAAAGACGATGACGATAAGTCTAGGATGACCGACGCTGAGTACGTGAGAATCCATGAGAAGTTGGACATCTACACGTTTAAGAAACAGTTTTTCAACAACAAAAAATCCGTGTCGCATAGATGCTACGTTCTCTTTGAATTAAAACGACGGGGTGAACGTAGAGCGTGTTTTTGGGGCTATGCTGTGAATAAACCACAGAGCGGGACAGAACGTGGCATTCACGCCGAAATCTTTAGCATTAGAAAAGTCGAAGAATACCTGCGCGACAACCCCGGACAATTCACGATAAATTGGTACTCATCCTGGAGTCCTTGTGCAGATTGCGCTGAAAAGATCTTAGAATGGTATAACCAGGAGCTGCGGGGGAACGGCCACACTTTGAAAATCTGGGCTTGCAAACTCTATTACGAGAAAAATGCGAGGAATCAAATTGGGCTGTGGAATCTCAGAGATAACGGGGTTGGGTTGAATGTAATGGTAAGTGAACACTACCAATGTTGCAGGAAAATATTCATCCAATCGTCGCACAATCAATTGAATGAGAATAGATGGCTTGAGAAGACTTTGAAGCGAGCTGAAAAACGACGGAGCGAGTTGTCCATTATGATTCAGGTAAAAATACTCCACACCACTAAGAGTCCTGCTGTTTAAATTAATGCGGCTGCAATTTTTTTGGGCGGGGCCGCCCAAAAAAATCCTAGCACCCTGCAGCAGTACTGCTTGACCATAAGAACAAAAAAACTTCCGATAAAGTTTGGAAGATAAAGCTAAAAGTTCTTATCTTTGCAGTATACAAGAGACCAGAAGAAGGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTTGAGATCTGTCGACTCTAGAGGATCCCCGGGTACCGAGCTCGAATTCACTGGCCGTCGTTTTACAACGTCGTGACTGGGAAAACCCTGGCGTTACCCAACTTAATCGTACTTGTGCCTGTTCTATTTCCGAACCGACCGCTTGTATGAATCCATCAAAATTCGTTTTCTCTATGTTGGATTCCTTGTTGCTCATATTGTGATGATAATTTCTACAAATATAGTCATTGGTAACTATCTATGAAACTGTTTGATACTTTTATAGTTGATTAAACTTGTTCATGGCATTTGCCTTAATATCATCCGCTATGTCAATGTAGGGTTTCATAGCTTTGTAGTCGCTGTGTCCCGTCCATTTCATGACCACCTGTGCCGGGATTCCGAGAGCCAGCGCATTGCAGATGAATGTCCTTCTTCCTGCATGGGTACTGAGCAAAGCGTATTTGGGTGTGACTTCATCAATACGTTCATTTCCCTTGTAGTAGGTTTCCCGTACAGGCTCGTTGATTTCTGCCAGTTCGCCCAGCTCTTTCAGGTAATCGTTCATCTTCTGGTTGCTGATGACGGGCAGAGCCATGTAATTCTCGAAATGGATGTCCTTGTATTTGTCCAGTATGGCTTTGCTGTATTTGTTCAGTTCAATCGTCAGGCTGTCGGCAGTCTTGACTGTGGTTATTTCGATGTGGTCGGACTTCACATCGCTTCTTTTCAGATTGCGAACATCCGAATACCGCAAACTCGTAAAGCAGCAGAACAGGAAAACATCACGCACACGTTCCAGGTATTGCTTATCCTTGGGTATCTGGTAGTCTTTCAGCTTGTTCAGTTCATCCCAAGTCAGGAAGATTACTTTTTTCGAGGTGGTTTTCAGTTTCGGTTTGAACGTATCGTATGCAATGTTCTGATGATGTCCTTTCTTGAAGCTCCAGCGCAGGAACCATTTGAGGAATCCCATTTGCTTGCCGATGGTGCTGTTTCTCATATCCTTGGTGTCACGCAGGAAGTTGACGTATTCGTTCAATCCAAACTCGTTGAAATAGTTGAACGTTGCATCCTCCTTGAACTCTTTGAGGTGGTTCCTCACTGCTGCAAATTTTTCATAGGTGGATGCCGTCCAGTTATTCTGGTTACCGCACTCTTTTACAAACTCATCGAACACCTCCCAAAAGCTGACAGGGGCTTCTTCCGGCTGTTCTTCGCTGGTGTCTTTCATTCTCATGTTGAAAGCTTCCTTCAACTGTTGGGTCGTTGGCATGACCTCCTGCACCTCAAATTCCTTGAAAATATTCTGGATTTCGGCATAGTATTTCAGCAAGTCCGTATTGATTTCGGCTGCACTTTGCTTTAGCTTGTTGGTACATCCGCTCTTTACCCGCTGCTTATCTGCATCCCATTTGGCTACGTCAATCCGGTAGCCCGTTGTAAACTCGATGCGTTGGCTGGCAAAGATGACACGCATACGGATGGGTACGTTCTCTACGATTGGCACACCGTTCTTTTTCCGGCTCTCCAATGCAAAAATGATGTTGCGCTTGATATTCATAATTGGGTGCGTTTGAAATTCTACACCCAAATATACACCCAATTATTGAGATAGCAAAAGACATTTAGAAACATTTACTTTTACTCTATATTGTAATTTACACTTGATTATCAGTCGTTTGCAGTCTTATGATATTCTGTGAAAGTATAAGTTCGAGAGCCTGTCTCTCCGCAAAAAACGCTGAAAATCAGCAGATTGCAAAACAAACACCCTGTTTTACACCCAAGAATGTAAAGTCGGCTGTTTTTGTTTTATTTAAGATAATACAACCACTACATAATAAAAGAGTAGCGATATTAAAAGAATCCGATGAGAAAAGACTAATATTTATCTATCCATTCAGTTTGATTTTTCAGGACTTTACATCGTCCTGAAAGTATTTGTTGGTACCGGTACCGAGGACGCGTAAACATTTACAGTTGCATGTGGCCTATTGTTTTTAGCCGTTAAATATTTTATAACTATTAAATAGCGATACAAATTGTTCGAAACTAATATTGTTTATATCATATATTCTCGCATGTTTTAAAGCTTTATTAAATTGATTTTTTGTAAACAGTTTTTCGTACTCTTTGTTAACCCATTTCATTACAAAAGTTTCATATTTTTTTCTCTCTTTAAATGCCATTTTTGCTGGCTTTCTTTTTAATACAATTAATGTGCTATCCACTTTAGGTTTTGGATGGAAATAATACCTAGGAATTTTTGCTAATATAGAAATATCTACCTCTGCCATTAACAGCAATGCTAGTGATCTGTTTGTATCTAATAACATTTTAGCAAAACCATATTCCACTATTAAATAACTTATTGTGGCTGAACTTTCAAAAACAATTTTTCGAATTATATTTGTGCTTATGTTGTAAGGTATGCTGCCAAATATTTTATATGGATTGTGGCTAGGAAATGTAAATTTCAGTATATCATCATTTACTATTTGATAGTTAGGATAATTTAAGAGCTTATTACGAGTTACCTCACATAATTTAGAATCAATTTCTATCGCCGTTACAAAATTACATCTCTTTACCAATCCAGCAGTAAAATGACCTTTCCCTGCACCTATTTCAAAGATGTTATCTTTTTCATCTAAACTTATGCAATTCATTATTTTTTCTATGTGATATTTTGAAGTAATAAAATTTTGACTATCTTTTATATTTACTTTGTTCATTATAACCTCTCCTTAATTTATTGCATCTCTTTTCGAATATTTATGTTTTTTGAGAAAAGAACGTACTCATGGTTCATCCCGATATGCGTATCGGTCTGTATATCAGCAACTTTCTATGTGTTTCAACTACAATAGTCATCTATTCTCATCTTTCTGAGTCCACCCCCTGCAAAGCCCCTCTTTACGACATAAAAATTCGGTCGGAAAAGGTATGCAAAAGATGTTTCTCTCTTTAAGAGAAACTCTTCGGGATGCAAAAATATGAAAATAACTCCAATTCACCAAATTATATAGCGACTTTTTTACAAAATGCTAAAATTTGTTGATTTCCGTCAAGCAATTGTTGAGCAAAAATGTCTTTTACGATAAAATGATACCTCAATATCAACTGTTTAGCAAAACGATATTTCTCTTAAAGAGAGAAACACCTTTTTGTTCACCAATCCCCGACTTTTAATCCCGCGGCCATGATTGAAAAAGGAAGAGTATGAGTATTCAACATTTCCGTGTCGCCCTTATTCCCTTTTTTGCGGCATTTTGCCTTCCTGTTTTTGCTCACCCAGAAACGCTGGTGAAAGTAAAAGATGCTGAAGATCAGTTGGGTGCACGAGTGGGTTACATCGAACTGGATCTCAACAGCGGTAAGATCCTTGAGAGTTTTCGCCCCGAAGAACGTTTTCCAATGATGAGCACTTTTAAAGTTCTGCTATGTGGCGCGGTATTATCCCGTATTGACGCCGGGCAAGAGCAACTCGGTCGCCGCATACACTATTCTCAGAATGACTTGGTTGAGTACTCACCAGTCACAGAAAAGCATCTTACGGATGGCATGACAGTAAGAGAATTATGCAGTGCTGCCATAACCATGAGTGATAACACTGCGGCCAACTTACTTCTGACAACGATCGGAGGACCGAAGGAGCTAACCGCTTTTTTGCACAACATGGGGGATCATGTAACTCGCCTTGATCGTTGGGAACCGGAGCTGAATGAAGCCATACCAAACGACGAGCGTGACACCACGATGCCTGTAGCAATGGCAACAACGTTGCGCAAACTATTAACTGGCGAACTACTTACTCTAGCTTCCCGGCAACAATTAATAGACTGGATGGAGGCGGATAAAGTTGCAGGACCACTTCTGCGCTCGGCCCTTCCGGCTGGCTGGTTTATTGCTGATAAATCTGGAGCCGGTGAGCGTGGGTCTCGCGGTATCATTGCAGCACTGGGGCCAGATGGTAAGCCCTCCCGTATCGTAGTTATCTACACGACGGGGAGTCAGGCAACTATGGATGAACGAAATAGACAGATCGCTGAGATAGGTGCCTCACTGATTAAGCATTGGTAACTGTCAGACCAAGTTTACTCATAACGCGTCAATTCGAGGGGGATCAATTCCGTGATAGGTGGGCTGCCCTTCCTGGTTGGCTTGGTTTCATCAGCCATCCGCTTGCCCTCATCTGTTACGCCGGCGGTAGCCGGCCAGCCTCGCAGAGCAGGATTCCCGTTGAGCACCGCCAGGTGCGAATAAGGGACAGTGAAGAAGGAACACCCGCTCGCGGGTGGGCCTACTTCACCTATCCTGCCCGGCTGACGCCGTTGGATACACCAAGGAAAGTCTACACGAACCCTTTGGCAAAATCCTGTATATCGTGCGAAAAAGGATGGATATACCGAAAAAATCGCTATAATGACCCCGAAGCAGGGTTATGCAGCGGAAAACGGAATTGATCCGGCCACGATGCGTCCGGCGTAGAGGATCTGAAGATCAGCAGTTCAACCTGTTGATAGTACGTACTAAGCTCTCATGTTTCACGTACTAAGCTCTCATGTTTAACGTACTAAGCTCTCATGTTTAACGAACTAAACCCTCATGGCTAACGTACTAAGCTCTCATGGCTAACGTACTAAGCTCTCATGTTTCACGTACTAAGCTCTCATGTTTGAACAATAAAATTAATATAAATCAGCAACTTAAATAGCCTCTAAGGTTTTAAGTTTTATAAGAAAAAAAAGAATATATAAGGCTTTTAAAGCTTTTAAGGTTTAACGGTTGTGGACAACAAGCCAGGGATGTAACGCACTGAGAAGCCCTTAGAGCCTCTCAAAGCAATTTTGAGTGACACAGGAACACTTAACGGCTGACATGGGAATTCCCCTCCACCGCGGTGG
이 특정 실시예에서, Bt 게놈 상의 tdk_Bt (BT_2275) 또는 susC_Bt(BT_3702) 코딩 서열을 표적화하는 가이드 RNA 또는 비-표적화 대조군 가이드 RNA ('NT'로 명명된 5'-TGAT GGAGAGGTGCAAGTAG-3', SEQ ID NO:4)를 발현하는 3개의 플라스미드를 구성하였다. tdk 유전자는 티미딘 키나제를 인코딩하고, susC 유전자는 전분 결합에 관여하는 B. 세타이오타오미크론의 외막 단백질을 인코딩한다. tdk_Bt에 대한 프로토스페이서 서열은 5'-ATACAAGAGACCAGAAGAAG-3'(SEQ ID NO: 5)이고, susC_Bt에 대한 프로토스페이서 서열은 5-GCTCAAATCCGTATTCGTGG-3'(SEQ ID NO:6)이다. 박테로이데스 게놈에 대한 비-표적화 대조군 프로토스페이서 서열의 silico 분석에서 어떠한 유의한 서열 일치도 초래하지 않았으며, 이는 '오프-타겟' 활성이 없음을 나타냈다. tdk_BtsusC_Bt에 대한 표적화 서열을, PAM의 상류에 대략 15-20개의 염기에 위치한 시토신 뉴클레오티드 (C)에서 C-to-T 돌연변이가 발생하는 경우, 정지 코돈을 도입하기 위하여 선정하였다(Nishida et al., Science, 2016, 353 (6305), doi:10.1126/science, aaf8729; 12016, Banno et al. , Nature Microbiology, 2018, 3.10.1038/s41564-017-0102-6). 결과 생성된 플라스미드는 pNBU2.CRISPR-CDA.NT,pNBU2.CRISPR-CDA.tdk_Bt 및 pNBU2.CRISPR-CDA.SusC_Bt로 명명된다.
pNBU2.CRISPR-CDA 플라스미드를 에리스로마이신 선정과 함께 Bt 세포에 접합시켜서 접합 당 500-1000개의 콜로니를 생성하였다. 박테로이데스에 대한 복제 기원의 부족으로 인해, 이들 플라스미드는 유지될 수 없었다. 에리스로마이신 내성 콜로니는 염색체 성분(integrant)일 가능성이 높았다. 각각의 접합으로부터의 콜로니를 Bt 염색체 상의 두 attBT 유전자좌 중 어느 하나에서 CRISPR-CDA 통합의 콜로니 PCR 스크리닝을 위해 선별하였다. 각각의 attBT 유전자좌에서 염색체 서열을 표적화하는 프라이머를 이용한 PCR을, 통합 유전자좌를 추론하기 위해 사용하였으며, 이어서 염색체와 통합 벡터 서열 사이의 추가 접합 PCR 및 DNA 시퀀싱 확인에 사용하였다. NT(비-표적화), T(tdk_Bt) 및 S(susC_Bt)로 표지된 attBT2-1 유전자좌에 통합된 유도성 CRISPR-CDA 카세트와 함께 세 개의 CRISPR-CDA 통합 균주를, 다음의 유도성 CRISPR 염기 편집 실험을 위하여 수득하였다. NT, T 및 S CRISPR-CDA 구성성분의 단일 콜로니를 200 ㎍/㎖ 겐타마이신(Gm) 및 25 ㎍/㎖ 에리스로마이신(Em)으로 보충된 5 ㎖ TYG 액체 배지(Holdeman et al., Anaerobe Laboratory Manual, 1977; Blacksburg, Va., Virginia Polytechnic Institute and State University Anaerobe Laboratory)를 함유하는 팔콘 튜브 배양물(falcon tube culture)에서 밤새 코이 챔버 (Coy chamber; Coy Laboratory Products Inc.)에서 혐기적으로 성장시켰다. 배양물을 희석하였으며(1O-6 또는 10-8), 100 ㎕을, 각각 0 및 100 ng/㎖의 농도에서 aTc로 보충된 심장 주입 (BHI; Beckton Dickinson, Co.) 혈액 한천판(Gm 200 ㎍/㎖ 및 Em 25 ㎍/㎖) 상에 분무하였다. 한천판을 2-3일 동안 37℃에서 혐기적으로 배양하였다. 약 10-2-10-3 CFU(콜로니 형성 단위)를 모든 3개의 균주에 대해 각각의 혈액 한천판 상에서 수득하였다.
tdk_Bt 염기 편집을 위해, 여덟 개의 콜로니를 aTcO 및 aTc1OO 한천판으로부터 선택하였다. 이들 콜로니를 200㎍/㎖ Gm과 200㎍/㎖ 5-플루오로-20-디옥시우리딘(FUdR)으로 보충된 BHI 혈액 한천판 상에 기다란 줄무늬를 내고, 2-3일 동안 37 ℃에서 혐기적으로 배양하였다. aTc1OO 한천판으로부터의 모든 콜로니가 성장한 동안, aTc0 한천판으로부터의 콜로니에 대해서는 성장이 관찰되지 않았다. tdk_Bt 영역에 대한 콜로니 PCR을 수행한 후 DNA 시퀀싱을 수행하였다. 시퀀싱 결과는 aTc100 한천판으로부터의 여덟 콜로니 중 여덟 개가 PAM에 대하여 -17 위치에서 예상된 C에서 T로의 치환을 보유하여, 조기 정지 코돈의 도입을 초래함을 나타내었다(도 3A). 이러한 tdk 불활성화 돌연변이는 독성 뉴클레오티드 유사체 FUdR에 대한 내성을 부여한다. NT-aTcO, NT-aTc1OO, T-aTcO 및 T-aTc1OO 한천판에서 각각 최대 오십 개의 콜로니를 200㎍/㎖ Gm과 200㎍/㎖ FUdR로 보충된 BHI 혈액 한천판 상에 추가로 줄무늬를 두었다. T-aTc1OO 한천판으로부터의 모든 콜로니가 자라는 것이 관찰되었고, 반면에 다른 콜로니에 대해서는 성장이 관찰되지 않았다. 이것은 Bt 세포에서 유도성, RNA 가이드, 고효율 뉴클레오티드 돌연변이 유발을 시사한다.
susC_Bt 염기 편집을 위해, 여덟 개의 콜로니를 aTcO 및 aTc1OO 한천판으로부터 선택하였다. susC_ Bt 영역에 대한 콜로니 PCR을 수행한 후 DNA 시퀀싱을 수행하였다. 시퀀싱 결과는 aTdOO 한천판으로부터의 8개 콜로니 중 여덟 개가 PAM에 대하여 -17 및 -19 위치에서 예상되는 C에서 T로의 치환을 보유하여서, 아미노산 치환 (위치 491에서 A 에서 V로) 및 조기 정지 코돈 도입 (3,012 bp susC 코딩 서열의 위치 493에서)을 초래함을 나타내었다(도 3B). aTcO 한천판으로부터의 여덟 개의 콜로니 모두는 야생형 susC_ Bt 서열을 보유한다. 이것은 Bt 세포에서 유도성, 고효율, RNA 유도 염기 편집을 나타낸다.
실시예 2. 박테로이데스 세타이오타오미크론 VPI-5482 에서 안정적으로 유지 된 CRISPR 염기 편집
박테로이데스 dCas9-AID 벡터 pmobA.repA.CRISPR-CDA.NT 를 구성하였다. 벡터는 (i) 무수테트라사이클린 유도성 프로모터 하에 페트로미존 마리누스 시토신 데아미나제 PmCDAI (CDA)에 융합된 촉매적으로 불활성화된 Cas9 (dCas: D10A 및 H840A 돌연변이) 및 (ii) 구성 프로모터 P1 하에 20-뉴클레오티드(nt) 표적 서열-gRNA 스캐폴드 하이브리드 (sgRNA)를 발현한다. 플라스미드는 대장균에서 암피실린 선택을 위한 pBR322 복제 기점 및 bla 서열을 함유한다. 박테로이데스에서 에리스로마이신(Em) 선택을 위하여 ermF 서열이, 복제를 위하여 repA 서열이, 그리고 동원(mobilization)을 위하여 mobA 서열이 필요하다(Smith, C. J., et al., Plasmid, 1995, 34, 211-222). CRISPR-CDA 유닛은 페트로미존 마리누스 시토신 데아미나제(PmCDAI)와 융합된 D10A 및 H840A 돌연변이를 갖는 유도성 뉴클레아제 결핍 SpCas9로 구성된다. dCas9-CDA1 융합을 무수테트라사이클린(aTc)의 제어 하에 TetR 조절기(P2-A21-tetR, P1TDP-GH023-dSpCas9-PmCDA1)에 의해 조절하였고, 가이드 RNA를 구성 P1 프로모터(P1-N20 sgRNA 스캐폴드)에 의해 조절하였다. 프로모터 및 리보솜 결합 부위를, Lim et al., Cell, 2017, 169:547-558에 기재된 바와 같이, 박테로이데스 세타이오타오미크론(BT) 16S rRNA 유전자의 조절 서열로부터 유도하고 조작하였다. 가이드 RNA는 코딩 또는 비코딩 DNA 서열과 상동성인 뉴클레오티드 서열이거나 비-표적화 스크램블 뉴클레오티드 서열이다. 이 서열은 상이한 Cas9 상동체의 프로토스페이서 인접 모티프(PAM) 요건과 양립가능한 한 변할 수 있다. 가이드 RNA는 tracrRNA 및 crRNA의 개별 전사 단위에 있거나 하이브리드 키메라 tracr/crRNA 단일 가이드(sgRNA)에 융합될 수 있다. 플라스미드 pmobA.repA.CRISPR-CDA.NT DNA 서열(13,307 bp)의 맵(map)은 도 4에 도시되며 SEQ ID NO: 7로서 열거된다.
TCGGGACGCTCATCAATATCCACCCTGCCTGGGATAAATCCTCGCCCTGCATTTTTAGAACCACGTTTGGCATACCTGCGACCTTGTCTGCGAAGATATTTGTGCAGTTTGCCACCCCGCCGCTTATCCTCCCAAATCCAGCGATATATCGTTTCGTGAGATACCATCGCAATTCCCTCCAAGCGGCTCCTGCCGACAATCTGCTCCGGGCTGAATCCTTTCTTCAACAGCTTTATTATCCGTTTTCTCATTGCCGGTGTAAGCACTTCCTTGCGATGTTTTTGCTGCTTGCGCCTGTCTGCTTTTCGCTGGGCAAGCTCCATGCTATAGCTACCACTTCGGGCGTCGCAATTGCGCTTTATCTCCCTGTAAACAGTGCTTTTATCTACTCCGATAGCTTCCGCTATTGCTTTTTTGCTCATCGGTATTTGCAACATCATAGAAATTGCATACCTTTGTTCCTCGGTTATATGTTTGCTCATCTGCAACTTTTTTTTCTTTGGACGGACAATTAAAGCAAAGATAGCAAACTTTATCCATTCAGAGTGAGAGAAAGGGGGACATTGTCTCTCTTTCCTCTCTGAAAAATAAATGTTTTTATTGCTTATTATCCGCACCCAAAAAGTTGCATTTATAAGTTGAACTCAAGAAGTATTCACCTGTAAGAAGTTACTAATGACAAAAAAGAAATTGCCCGTTCGTTTTACGGGTCAGCACTTTACTATTGATAAAGTGCTAATAAAAGATGCAATAAGACAAGCAAATATAAGTAATCAGGATACGGTTTTAGATATTGGGGCAGGCAAGGGGTTTCTTACTGTTCATTTATTAAAAATCGCCAACAATGTTGTTGCTATTGAAAACGACACAGCTTTGGTTGAACATTTACGAAAATTATTTTCTGATGCCCGAAATGTTCAAGTTGTCGGTTGTGATTTTAGGAATTTTGCAGTTCCGAAATTTCCTTTCAAAGTGGTGTCAAATATTCCTTATGGCATTACTTCCGATATTTTCAAAATCCTGATGTTTGAGAGTCTTGGAAATTTTCTGGGAGGTTCCATTGTCCTTCAATTAGAACCTACACAAAAGTTATTTTCGAGGAAGCTTTACAATCCATATACCGTTTTCTATCATACTTTTTTTGATTTGAAACTTGTCTATGAGGTAGGTCCTGAAAGTTTCTTGCCACCGCCAACTGTCAAATCAGCCCTGTTAAACATTAAAAGAAAACACTTATTTTTTGATTTTAAGTTTAAAGCCAAATACTTAGCATTTATTTCCTGTCTGTTAGAGAAACCTGATTTATCTGTAAAAACAGCTTTAAAGTCGATTTTCAGGAAAAGTCAGGTCAGGTCAATTTCGGAAAAATTCGGTTTAAACCTTAATGCTCAAATTGTTTGTTTGTCTCCAAGTCAATGGTTAAACTGTTTTTTGGAAATGCTGGAAGTTGTCCCTGAAAAATTTCATCCTTCGTAGTTCAAAGTCGGGTGGTTGTCAAGATGATTTTTTTGGTTTGGTGTCGTCTTTTTTTAAGCTGCCGCATAACGGCTGGCAAATTGGCGATGGAGCCGACTTTGGTGGCACTTTTCGGGGAAATGTGCGCGGAACCCCTATTTGTTTATTTTTCTAAATACATTCAAATATGTATCCGCTCATGAGACAATAACCCTGATAAATGCTTCAATAATATTGAAAAAGGAAGAGTATGAGTATTCAACATTTCCGTGTCGCCCTTATTCCCTTTTTTGCGGCATTTTGCCTTCCTGTTTTTGCTCACCCAGAAACGCTGGTGAAAGTAAAAGATGCTGAAGATCAGTTGGGTGCACGAGTGGGTTACATCGAACTGGATCTCAACAGCGGTAAGATCCTTGAGAGTTTTCGCCCCGAAGAACGTTTTCCAATGATGAGCACTTTTAAAGTTCTGCTATGTGGCGCGGTATTATCCCGTATTGACGCCGGGCAAGAGCAACTCGGTCGCCGCATACACTATTCTCAGAATGACTTGGTTGAGTACTCACCAGTCACAGAAAAGCATCTTACGGATGGCATGACAGTAAGAGAATTATGCAGTGCTGCCATAACCATGAGTGATAACACTGCGGCCAACTTACTTCTGACAACGATCGGAGGACCGAAGGAGCTAACCGCTTTTTTGCACAACATGGGGGATCATGTAACTCGCCTTGATCGTTGGGAACCGGAGCTGAATGAAGCCATACCAAACGACGAGCGTGACACCACGATGCCTGTAGCAATGGCAACAACGTTGCGCAAACTATTAACTGGCGAACTACTTACTCTAGCTTCCCGGCAACAATTAATAGACTGGATGGAGGCGGATAAAGTTGCAGGACCACTTCTGCGCTCGGCCCTTCCGGCTGGCTGGTTTATTGCTGATAAATCTGGAGCCGGTGAGCGTGGGTCTCGCGGTATCATTGCAGCACTGGGGCCAGATGGTAAGCCCTCCCGTATCGTAGTTATCTACACGACGGGGAGTCAGGCAACTATGGATGAACGAAATAGACAGATCGCTGAGATAGGTGCCTCACTGATTAAGCATTGGTAACTGTCAGACCAAGTTTACTCATATATACTTTAGATTGATTTAAAACTTCATTTTTAATTTAAAAGGATCTAGGTGAAGATCCTTTTTGATAATCTCATGACCAAAATCCCTTAACGTGAGTTTTCGTTCCACTGAGCGTCAGACCCCGTAGAAAAGATCAAAGGATCTTCTTGAGATCCTTTTTTCTGCGCGTAATCTGCTGCTTGCAAACAAAAAAACCACCGCTACCAGCGGTGGTTTGTTTGCCGGATCAAGAGCTACCAACTCTTTTTCCGAAGGTAACTGGCTTCAGCAGAGCGCAGATACCAAATACTGTTCTTCTAGTGTAGCCGTAGTTAGGCCACCACTTCAAGAACTCTGTAGCACCGCCTACATACCTCGCTCTGCTAATCCTGTTACCAGTGGCTGCTGCCAGTGGCGATAAGTCGTGTCTTACCGGGTTGGACTCAAGACGATAGTTACCGGATAAGGCGCAGCGGTCGGGCTGAACGGGGGGTTCGTGCACACAGCCCAGCTTGGAGCGAACGACCTACACCGAACTGAGATACCTACAGCGTGAGCTATGAGAAAGCGCCACGCTTCCCGAAGGGAGAAAGGCGGACAGGTATCCGGTAAGCGGCAGGGTCGGAACAGGAGAGCGCACGAGGGAGCTTCCAGGGGGAAACGCCTGGTATCTTTATAGTCCTGTCGGGTTTCGCCACCTCTGACTTGAGCGTCGATTTTTGTGATGCTCGTCAGGGGGGCGGAGCCTATGGAAAAACGCCAGCAACGCGGCCTTTTTACGGTTCCTGGCCTTTTGCTGGCCTTTTGCTCACATGTTCTTTCCTGCGTTATCCCCTGATTCTGTGGATAACCGTATTACCGCCTTTGAGTGAGCTGATACCGCTCGCCGCAGCCGAACGACCGAGCGCAGCGAGTCAGTGAGCGAGGAAGCGGAAGAGCGCCCAATACGCAAACCGCCTCTCCCCGCGCGTTGGCCGATTCATTAATGCAGCTGGCACGACAGGTTTCCCGACTGGAAAGCGGGCAGTGAGCGCAACGCAATTAATGTGAGTTAGCTCACTCATTAGGCACCCCAGGCTTTACACTTTATGCTTCCGGCTCGTATGTTGTGTGGAATTGTGAGCGGATAACAATTTCACACAGGAAACAGCTATGACCATGATTACGCCCTTAAGACCCACTTTCACATTTAAGTTGTTTTTCTAATCCGCATATGATCAATTCAAGGCCGAATAAGAAGGCTGGCTCTGCACCTTGGTGATCAAATAATTCGATAGCTTGTCGTAATAATGGCGGCATACTATCAGTAGTAGGTGTTTCCCTTTCTTCTTTAGCGACTTGATGCTCTTGATCTTCCAATACGCAACCTAAAGTAAAATGCCCCACAGCGCTGAGTGCATATAATGCATTCTCTAGTGAAAAACCTTGTTGGCATAAAAAGGCTAATTGATTTTCGAGAGTTTCATACTGTTTTTCTGTAGGCCGTGTACCTAAATGTACTTTTGCTCCATCGCGATGACTTAGTAAAGCACATCTAAAACTTTTAGCGTTATTACGTAAAAAATCTTGCCAGCTTTCCCCTTCTAAAGGGCAAAAGTGAGTATGGTGCCTATCTAACATCTCAATGGCTAAGGCGTCGAGCAAAGCCCGCTTATTTTTTACATGCCAATACAATGTAGGCTGCTCTACACCTAGCTTCTGGGCGAGTTTACGGGTTGTTAAACCTTCGATTCCGACCTCATTAAGCAGCTCTAATGCGCTGTTAATCACTTTACTTTTATCTAATCTAGACATATTCGTTTAATATCATAAATAATTTATTTTATTTTAAAATGCGCGGGTGCAAAGGTAAGAGGTTTTATTTTAACTACCAAATGTTTTCGGAAGTTTTTTCGCTTTTCTTTTTCTATCGTTTCTCAGACTCTCTTAGCGAAAGGGAAAGAAGGTAAAGAAGAAAAACAAAACGCCTTTTCTTTTTTGCACCCGCTTTCCAAGAGAAGAAAGCCTTGTTAAATTGACTTAGTGTAAAAGCGCAGTACTGCTTGACCATAAGAACAAAAAAATCTCTATCACTGATAGGGATAAAGTTTGGAAGATAAAGCTAAAAGTTCTTATCTTTGCAGTCTCCCTATCAGTGATAGAGACGAAATAAAGACATATAAAAGAAAAGACACCATGGATAAGAAATACTCAATAGGCTTAGCTATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGAATATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGACAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGTAGATTCTACTGATAAAGCGGATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGTACAAACCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTGGAGTAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGAAGAAAAATGGCTTATTTGGGAATCTCATTGCTTTGTCATTGGGTTTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGAGTAAATACTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAACGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATTCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAAGGAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTTGAAGATAGATTTAATGCTTCATTAGGTACCTACCATGATTTGCTAAAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGAGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGAAGACATTCAAAAAGCACAAGTGTCTGGACAAGGCGATAGTTTACATGAACATATTGCAAATTTAGCTGGTAGCCCTGCTATTAAAAAAGGTATTTTACAGACTGTAAAAGTTGTTGATGAATTGGTCAAAGTAATGGGGCGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCTCCAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATGCCATTGTTCCACAAAGTTTCCTTAAAGACGATTCAATAGACAATAAGGTCTTAACGCGTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTAACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTTAGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGCCGGAGAATTACAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGGTGACGGTGGAGGAGGTTCTGGAGGTGGAGGTTCTGCTGAGTATGTGCGAGCCCTCTTTGACTTTAATGGGAATGATGAAGAGGATCTTCCCTTTAAGAAAGGAGACATCCTGAGAATCCGGGATAAGCCTGAGGAGCAGTGGTGGAATGCAGAGGACAGCGAAGGAAAGAGGGGGATGATTCCTGTCCCTTACGTGGAGAAGTATTCCGGAGACTATAAGGACCACGACGGAGACTACAAGGATCATGATATTGATTACAAAGACGATGACGATAAGTCTAGGCTCGAGTCCGGAGACTATAAGGACCACGACGGAGACTACAAGGATCATGATATTGATTACAAAGACGATGACGATAAGTCTAGGATGACCGACGCTGAGTACGTGAGAATCCATGAGAAGTTGGACATCTACACGTTTAAGAAACAGTTTTTCAACAACAAAAAATCCGTGTCGCATAGATGCTACGTTCTCTTTGAATTAAAACGACGGGGTGAACGTAGAGCGTGTTTTTGGGGCTATGCTGTGAATAAACCACAGAGCGGGACAGAACGTGGCATTCACGCCGAAATCTTTAGCATTAGAAAAGTCGAAGAATACCTGCGCGACAACCCCGGACAATTCACGATAAATTGGTACTCATCCTGGAGTCCTTGTGCAGATTGCGCTGAAAAGATCTTAGAATGGTATAACCAGGAGCTGCGGGGGAACGGCCACACTTTGAAAATCTGGGCTTGCAAACTCTATTACGAGAAAAATGCGAGGAATCAAATTGGGCTGTGGAATCTCAGAGATAACGGGGTTGGGTTGAATGTAATGGTAAGTGAACACTACCAATGTTGCAGGAAAATATTCATCCAATCGTCGCACAATCAATTGAATGAGAATAGATGGCTTGAGAAGACTTTGAAGCGAGCTGAAAAACGACGGAGCGAGTTGTCCATTATGATTCAGGTAAAAATACTCCACACCACTAAGAGTCCTGCTGTTTAAATTAATGCGGCTGCAATTTTTTTGGGCGGGGCCGCCCAAAAAAATCCTAGCACCCTGCAGCAGTACTGCTTGACCATAAGAACAAAAAAACTTCCGATAAAGTTTGGAAGATAAAGCTAAAAGTTCTTATCTTTGCAGTTGATGGAGAGGTGCAAGTAGGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTTGTCGACTCTAGAGGATCCCCGGGTACCGAGCTCGAATTCACTGGCCGTCGTTTTACAACGTCGTGACTGGGAAAACCCTGGCGTTACCCAACTTAATCGCCTTGCAGCACATCCCCCTTTCGCCAGCTGGCGTAATAGCGAAGAGGCCCGCACCGATCGCCCTTCCCAACAGTTGCGCAGCCTGAATGGCGAATGGCGCCTGATGCGGTATTTTCTCCTTACGCATCTGTGCGGTATTTCACACCGCATACACACCATAAACTTTTTTTAGAATAAGCACACAACCGTTTTCCGAACCCTGCAAAATGTTTTCTGAATCCGAACGGTGTAACACTCCATTGAGAGAGGCTGCCGTTTGGTCGCTCCCCCTTTGGGGGCGGGGGGGGGTTACATACCCATGCCGAAACCTCTGCTTCTGGTGATTTGCTTGAATAGGTCTTTCCCCTCTTCCATAGCTTTTGATATGTTTGGGAAATGATGCCTTAAAGCCTCCAGTTGTTCGGAATTGAACAAGTCTTTCATCTTACCAAGTTCTTTTTTCAACTCCTTGGTTTCGGCTTTTAGTTTTTGGTTCTCCGTCCTTAATAGGTTACTGGTTGTCCTTGCGTTGTCCATTTGTTGTCTATAATACTCCTTGTCATTCTCGGCTTTGAATGCCTTTGTGCTGTTTCGCTCTTTTTCAAGTATAGCCTTTCCCAGTCTATCGGATAGTTGTTCATTTTCCCCCTCTAAAGTCTTTACTTTGGCTTTTAAGGCATCCTTTTCCCTATCGTTGACTGTTTTTCCAATCAAGCCGTAAAACTTCTCTGAAGCCTTAGAAATGAGTTTTTGGACGTTCTTCTTTGTTTCAATGGAACGTAGTTCCTTCTGAAGCTGAAGAAGCTGGTTTTGTGCGTCCTTGTATTTGTCTAATGCACTGGATATATCGTTGGATAGTTCCTGAAGCTGTTCTTTCGCACATTCGGTCTTGTACTGCATAGCCGATAAGTGTTTGCGGTCAGAAGAAACGCCACGTTCCATGCCCAGTGTTTCAGATGCTATGGTTTGGAGTTCTGCCATGTCATCACGCGATAAACGCACACTTTTCCCATTCGGCTGCGTCCAATCGAAAACTACATGGGCATGAAGGTTAGGTGTCCACTGCTTTGCGTTCATGTATCCTTCGTCCTTGTGTATATGGATTTGAAACGCTTCGATACCGAAACGTTCTTTGCAGACCGTGGCAAACTGCTGGAGTTCCTGCATAGTGGTTTCTTGTTTGATTACTATTACTCCCTCTCGTATGGGTGCGGCTTTAGCCTGCATCTTCTGCCCAACCGTATCGAGATATCTTTGTTTTGCACTCTCCAGCCGATGGGAAATGCTATCTCCAACCCAGCTTTCATTCAAATGACTAAGTTCGGGACGAACATAGTCCAACTCTTTTTCCCTAAAGTTGTGAATCTCGCTCCCCGGCTTCACTGCTTGTACATGAATACTTGTTGCTCCCATAAGTTAACATTTTTGTGACAATCGATAACAGCCGGTGACAGCCGGCTGACAGGGGGTTAAGGGGGCTTGTCCCCTTACACACGCACTCTTTAGGGTGCTAGTGTGCTATCACCATACTGCATAGGTGCGAAGTTAGTGAATGTTTTGTAAATGCACAAATAAAGGGAAAAACATTTGGATTTGCGATAATAAAGTACTACCTTTGTTGCTGACCAAACGGTAGCTGACCGATACGGGAGAGTTACCAAAATACAAGCCGCTGGAGTTAATTGACGGACATCCGACATCTCCAGCGGCTTTATTTTTGCCTATCTGCTTCGCCTAGGCACACCAGTACCTCTACTAAAAATGTACTTCAAAGATACTTATTTTCTACCGACTTGATAGTTTTTACCCCATATTCTTGGACATTTTTCCCCCATGAGGTTATCTTTGTAGGGTGAAAGAGAAACCCATAAACGGGGATAGATTGAATGCTGGGAAGCATAAACAATCGGGGTAAGGTTAGCGAACCTTGCCTTTCATCCCCCATTATAACTTTACATAGAGGAACTTTATCTATCCCCCCCCGCCCCCAAAGGGGGAGCGACCAAACGGCAGCTTCACTCAATGGAGTGTTACTGTTCATCAAAGCCAAGTGATAATTGTCGTTTCTCTGCTTCTTCTTTCTTTTGGGCAGCTAAAGTCTTTTTCCGAACGTATGTTTTAGCAAATGTCACTCGGTCACCATTGAATACTATCAGAGGATTAATAAACCAAAGATTATCGGCTGGTCCTCGGGCTATGATTTCAGCTTTTACAAGTTCTGCAAGTCCTTTATAAACGGCTTTGTCTGTTTTGTATTTGGTATATTCTAGGCATTTTTTTCTATTGAAAATGATTAAATCATTTTTGGGTTTCATGCAGGTCATAAAGTAACCAAAAACCCGAATAGCTGCTTGTGATAGGTCAAAGAATGCAGCAAAGTTAGAAAGATACAATTTAGTGAATTGTTCTTCATCTACTTCTATTTGACGGATAAACGAAGTCTTAAACACTTCTCCAGTTTCAGTGTCGGCTAAAGCTACTACAGCTCTCTTATCGCCACCACTATTACTCTTATACTTTTTAACAACATGATTTTCAATACCTTCTATAGCTTGTTTCATAAAAGGATTTTCTTCGTTCTTTTGAAAATCGGTTAACTTAACTGCTTTTTTATTTTCCATTTTGATATGTTTTTGGGAAATATTATTCTCCACAAAGTAAACTATTATTTTCCATAAAAACAATATTAAGGGAAATATTATTTTCCTATTTAGTATCATATTAGGAAATCGGTATTTTCTAGATTGGAAAATGAGAATTTCCAATATGGAAAATGCCCTATATTGTGTATCAAGTACTTAACTTATTCTATTTCTTTTATTCTTAATATACCCCCAAAACAGCACAAAATCAGTCACTTAAAAATCATCGGTCGGGGAATGGTGCACTCTCAGTACAATCTGCTCTGATGCCGCATAGTTAAGCCAGCCCCGACACCCGCCAACACCCGCTGACGCGCCCTGACGGGCTTGTCTGCTCCCGGCATCCGCTTACAGACAAGCTGTGACCGTCTCCGGGAGCTGCATGTGTCAGAGGTTTTCACCGTCATCACCGAAACGCGCGAGACGAAAGGGCCTCGTGATACGCCTATTTTTATAGGTTAATGTCATGATAATAATGGTTTCTTAGCTAAATTTAAATATAAACAA
이 특정 실시예에서, 비-표적화 대조군 가이드 RNA ('NT'로 명명된 5'-TGAT GGAGAGGTGCAAGTAG-3', SEQ ID NO:4), 또는 Bt 게놈 상의 BT_0362 또는 BT_0364 코딩 서열을 표적화하는 가이드를 발현하는 3개의 플라스미드를 구성하였다. BT_0362에 대한 프로토스페이서 서열은 5'-GGACGAATCGTAAATGCAGA-3'(SEQ ID NO: 8)이고 BT_0364에 대한 프로토스페이서 서열은 5'-CCCATTGGCTGAATGTGGCG-3'(SEQ ID NO: 9)이다. 박테로이데스 게놈에 대한 비-표적화 대조군 프로토스페이서 서열의 실리코 분석에서는 어떠한 유의한 서열 일치도 초래하지 않았으며, 이는 '오프-표적' 활성이 없음을 나타내었다. BT_0362 및 BT_0364에 대한 표적화 서열을, PAM의 상류에 대략 15-20개의 염기에 위치한 시토신 뉴클레오티드 (C)에서, C에서 T로의 돌연변이가 발생하는 경우, 정지 코돈을 도입하기 위하여 선택하였다(Nishida et al., Science , 2016, 353 (6305), doi: 10.1126/science. aaf8729; 12016, Banno et al., Nature Microbiology, 2018, 3.10.1038/s41564-017-0102-6). 결과 생성된 플라스미드를 pmobA.repA.CRISPR-CDA.NT, pmobA.repA.CRISPR-CDA.BT_0362 및 pmobA.repA.CRISPR-CDA.BT_0364로 명명하였다.
pmobA.repA.CRISPR-CDA 플라스미드를, 호기성 조건 하에서 뇌-심장 주입( BHI; Beckton Dickinson, Co.) 혈액 한천판에 대한 선택 또는 유도 없이 초기에 Bt 세포 내로 접합시켰다. 이 접합 얼룩은 긁어 내고 1㎖의 TYG 액체 배지로 재구성하였다(Holdeman et al., Anaerobe Laboratory Manual, 1977; Blacksburg, Va., Virginia Polytechnic Institute 및 State University Anaerobe Laboratory). TYG 배지 중의 각각의 접합 플라스미드 샘플에 대해, TYG 배지에서 1:10 희석액 100 ㎕를 25㎍/㎖ 에리스로마이신(Em) 및 200㎍/㎖ 겐타마이신(Gm) BHI 10% 혈액 한천판상에 플레이팅하여, 접합 당 수백 개의 콜로니를 생성하였다(도 5A). 박테로이데스에 대한 repA 복제 기점으로 인해, 이들 플라스미드는 유지될 수 있다. 25㎍/㎖ 에리스로마이신(Em) 및 200㎍/㎖ 겐타마이신(Gm) 선정하에 계속된 TYG 배지 액체 배양 성장을 위해 각 접합으로부터의 단일 콜로니를 선별한 다음, 정확한 플라스미드 유지를 검증하기 위해 플라스미드 정제를 수행하였다. pmobA.repA.CRISPR-CDA 가이드 영역의 PCR 증폭 및 생어 시퀀싱은 각 플라스미드에 대한 정확한 가이드 서열을 검증하였다. 후속 유도성 CRISPR염기 편집 실험을 위하여 NT (비-표적화), BT_0362 및 BT_0364로 표지된 세 개의 pmobA.repA.CRISPR-CDA 안정적으로 유지된 플라스미드 균주를 수득하였다. NT, BT_0362 및 BT_0364 pmobA.repA.CRISPR-CDA 플라스미드 균주의 단일 콜로니를 200㎍/㎖ 겐타마이신(Gm), 25㎍/㎖ 에리스로마이신(Em) 및 100 ng/㎖ aTc로 보충된 5 ㎖ TYG 액체 배지를 함유하는 팔콘 튜브 배양물에서 밤새 코이 챔버 (Coy Laboratory Products Inc.)에서 혐기적으로 성장시켰다. 이어서, 이들 배양물로부터의 샘플을 100 ng/ml에서 aTc로 보충된 BHI 10% 혈액 한천 판(Gm 200㎍/㎖ 및 Em 25 ㎍/㎖) 상에 플라스틱 루프로 기다란 줄무늬를 형성하였다. 한천판을 2-3일 동안 37℃에서 혐기적으로 배양하였다. 개별 콜로니를 모든 3개의 균주에 대해 각각의 혈액 한천판 상의 루프 줄무늬 영역을 따라 수득하였다(도 5B).
콜로니들을 세 개의 aTc1OO 한천 플레이트로부터 선별하였다. BT_0362 및 BT_0364 영역에 대한 콜로니 PCR을 수행한 후 생어 시퀀싱을 수행하였다. 밀리포르시그마사 자체 개발한 소프트웨어를 사용한 정량적 돌연변이 분석은 BT_0362 및 BT_0364 염기 편집 샘플 aTc1OO 한천판은, BT_0362 샘플에 대해서는 PAM에 대해 -17 위치 및 BT_0364 샘플에 대해서는 PAM에 대해 -18, -19 및 -20 위치에서, 예기된 C에서 T로의 치환을 나타내었다. 대표적인 BT_0362 및 BT_0364 샘플은 도 6A 및 B에 도시되어 있다. 이러한 C에서 T로의 치환은 BT_0362 및 BT_0364의 염기 편집 샘플 둘 다에서 조기 정지 코돈 도입을 초래하였다. NT 균주는 aTC 도입 후 표적화된 BT_0362 또는 BT_0364 영역에서 어떠한 C에서 T로의 치환도 나타내지 않았다.
이 분석 소프트웨어를 "싱어 트레이스(SangerTrace)"라고 한다. Applied Biosystem, Inc. format(ABI) file을 기반으로 각 염기 신호 피크 값을 추출하고 싱어 시퀀싱 데이터의 "대조군"과 "샘플"을 비교하여 돌연변이 백분율을 산출한다.
실시예 3. 기타 박테로이데스 균주에서의 CRISPR 염기 편집
NBU2 인테그라제 재조합 tRNA-ser 부위 (5'-CCTGTCTCTCCGC-3'(SEQ ID NO:2)는 보존되고 공개된 게놈서열을 기초로 하여, 박테로이데스 불가투스(Bacteroides vulgatus), 박테로이데스 셀룰로실리티쿠스(Bacteroides cellulosilyticus), 박테로이데스 프라질리스(Bacteroides fragilis), 박테로이데스 헬코게네스 (Bacteroides helcogenes), 박테로이데스 오바투스(Bacteroides ovatus), 박테로이데스 살라니트로니스(Bacteroides salanitronis), 박테로이데스 유니포르미스 (Bacteroides uniformis)박테로이데스 자일라니솔벤스 (Bacteroides xylanisolvens)를 포함하는 많은 박테로이데스 균주에 존재한다. 표적화 가이드 RNA를 발현하는 유도성 CRISPR-CDA 카세트는 이들 박테로데스 균주의 염색체 상에 통합될 수 있고, 표적 가이드 RNA를 발현하는 균주에서 특정 유전자의 표적화된 CRISPR-CDA C에서 T로의 염기 편집은 aTc 인듀서를 사용하여 처리함으로써 달성될 수 있다(실시예 1에 기재된 바와 같음). 특정 종의 염색체 상에 NBU2 인테그라제 부위가 없는 경우, 이들 13개의 염기-쌍 DNA 서열은 염색체 CRISPR-CDA 통합 및 표적화된 유전자 염기 편집을 가능하게 하기 위해 당업계에 기재된 바와 같이 재조합(예를 들어, Cre//oxP) 또는 대립유전자 교환을 통해 염색체 상에 용이하게 삽입될 수 있다.
실시예 4. 마우스 장에서의 박테로이데스 의 CRISPR 염기 편집
특정 박테로이데스 종의 마우스 장에서의 표적화된 유도성 CRISPR0-CDA C에서 T로의 염기 편집을, 박테리아 접합을 통해 NBU2 인테그라제에 의해 매개되는 그의 게놈 염색체 상에 종 특이적 프로토스페이서 서열을 표적화하는 가이드 RNA를 발현하는 CRISPR-CDA 카세트를 통합함으로써 실시될 수 있다. 예시적인 경우에, 마우스는 인간을 포함한 포유동물 장내 미생물로부터 유래된 하나 이상의 박테로이데스로 콜로니화된 무감염상태(무균)의 동물이다. aTc 인듀서는 마우스 장에 특정 시점에서 적용될 수 있으며, 이로 인해 장내 미생물의 종에서 특정 유전자의 표적화 돌연변이 또는 불활성화를 초래하였다.
SEQUENCE LISTING <110> SIGMA-ALDRICH CO. LLC <120> GENOME EDITING IN BACTEROIDES <130> P19-235 WO-PCT <140> <141> <150> 62/949,314 <151> 2019-12-17 <160> 23 <170> PatentIn version 3.5 <210> 1 <211> 90 <212> PRT <213> Bacteroides sp. <400> 1 Met Asn Lys Ala Asp Leu Ile Ser Ala Val Ala Ala Glu Ala Gly Leu 1 5 10 15 Ser Lys Val Asp Ala Lys Lys Ala Val Glu Ala Phe Val Ser Thr Val 20 25 30 Thr Lys Ala Leu Gln Glu Gly Asp Lys Val Ser Leu Ile Gly Phe Gly 35 40 45 Thr Phe Ser Val Ala Glu Arg Ser Ala Arg Thr Gly Ile Asn Pro Ser 50 55 60 Thr Lys Ala Thr Ile Thr Ile Pro Ala Lys Lys Val Thr Lys Phe Lys 65 70 75 80 Pro Gly Ala Glu Leu Ala Asp Ala Ile Lys 85 90 <210> 2 <211> 13 <212> DNA <213> Bacteroides sp. <400> 2 cctgtctctc cgc 13 <210> 3 <211> 11383 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 3 ggaaagcggg cagtgagcgc aacgcaatta atgtgagtta gctcactcat taggcacccc 60 aggctttaca ctttatgctt ccggctcgta tgttgtgtgg aattgtgagc ggataacaat 120 ttcacacagg aaacagctat gaccatgatt acgcccttaa gacccacttt cacatttaag 180 ttgtttttct aatccgcata tgatcaattc aaggccgaat aagaaggctg gctctgcacc 240 ttggtgatca aataattcga tagcttgtcg taataatggc ggcatactat cagtagtagg 300 tgtttccctt tcttctttag cgacttgatg ctcttgatct tccaatacgc aacctaaagt 360 aaaatgcccc acagcgctga gtgcatataa tgcattctct agtgaaaaac cttgttggca 420 taaaaaggct aattgatttt cgagagtttc atactgtttt tctgtaggcc gtgtacctaa 480 atgtactttt gctccatcgc gatgacttag taaagcacat ctaaaacttt tagcgttatt 540 acgtaaaaaa tcttgccagc tttccccttc taaagggcaa aagtgagtat ggtgcctatc 600 taacatctca atggctaagg cgtcgagcaa agcccgctta ttttttacat gccaatacaa 660 tgtaggctgc tctacaccta gcttctgggc gagtttacgg gttgttaaac cttcgattcc 720 gacctcatta agcagctcta atgcgctgtt aatcacttta cttttatcta atctagacat 780 attcgtttaa tatcataaat aatttatttt attttaaaat gcgcgggtgc aaaggtaaga 840 ggttttattt taactaccaa atgttttcgg aagttttttc gcttttcttt ttctatcgtt 900 tctcagactc tcttagcgaa agggaaagaa ggtaaagaag aaaaacaaaa cgccttttct 960 tttttgcacc cgctttccaa gagaagaaag ccttgttaaa ttgacttagt gtaaaagcgc 1020 agtactgctt gaccataaga acaaaaaaat ctctatcact gatagggata aagtttggaa 1080 gataaagcta aaagttctta tctttgcagt ctccctatca gtgatagaga cgaaataaag 1140 acatataaaa gaaaagacac catggataag aaatactcaa taggcttagc tatcggcaca 1200 aatagcgtcg gatgggcggt gatcactgat gaatataagg ttccgtctaa aaagttcaag 1260 gttctgggaa atacagaccg ccacagtatc aaaaaaaatc ttataggggc tcttttattt 1320 gacagtggag agacagcgga agcgactcgt ctcaaacgga cagctcgtag aaggtataca 1380 cgtcggaaga atcgtatttg ttatctacag gagatttttt caaatgagat ggcgaaagta 1440 gatgatagtt tctttcatcg acttgaagag tcttttttgg tggaagaaga caagaagcat 1500 gaacgtcatc ctatttttgg aaatatagta gatgaagttg cttatcatga gaaatatcca 1560 actatctatc atctgcgaaa aaaattggta gattctactg ataaagcgga tttgcgctta 1620 atctatttgg ccttagcgca tatgattaag tttcgtggtc attttttgat tgagggagat 1680 ttaaatcctg ataatagtga tgtggacaaa ctatttatcc agttggtaca aacctacaat 1740 caattatttg aagaaaaccc tattaacgca agtggagtag atgctaaagc gattctttct 1800 gcacgattga gtaaatcaag acgattagaa aatctcattg ctcagctccc cggtgagaag 1860 aaaaatggct tatttgggaa tctcattgct ttgtcattgg gtttgacccc taattttaaa 1920 tcaaattttg atttggcaga agatgctaaa ttacagcttt caaaagatac ttacgatgat 1980 gatttagata atttattggc gcaaattgga gatcaatatg ctgatttgtt tttggcagct 2040 aagaatttat cagatgctat tttactttca gatatcctaa gagtaaatac tgaaataact 2100 aaggctcccc tatcagcttc aatgattaaa cgctacgatg aacatcatca agacttgact 2160 cttttaaaag ctttagttcg acaacaactt ccagaaaagt ataaagaaat cttttttgat 2220 caatcaaaaa acggatatgc aggttatatt gatgggggag ctagccaaga agaattttat 2280 aaatttatca aaccaatttt agaaaaaatg gatggtactg aggaattatt ggtgaaacta 2340 aatcgtgaag atttgctgcg caagcaacgg acctttgaca acggctctat tccccatcaa 2400 attcacttgg gtgagctgca tgctattttg agaagacaag aagactttta tccattttta 2460 aaagacaatc gtgagaagat tgaaaaaatc ttgacttttc gaattcctta ttatgttggt 2520 ccattggcgc gtggcaatag tcgttttgca tggatgactc ggaagtctga agaaacaatt 2580 accccatgga attttgaaga agttgtcgat aaaggtgctt cagctcaatc atttattgaa 2640 cgcatgacaa actttgataa aaatcttcca aatgaaaaag tactaccaaa acatagtttg 2700 ctttatgagt attttacggt ttataacgaa ttgacaaagg tcaaatatgt tactgaagga 2760 atgcgaaaac cagcatttct ttcaggtgaa cagaagaaag ccattgttga tttactcttc 2820 aaaacaaatc gaaaagtaac cgttaagcaa ttaaaagaag attatttcaa aaaaatagaa 2880 tgttttgata gtgttgaaat ttcaggagtt gaagatagat ttaatgcttc attaggtacc 2940 taccatgatt tgctaaaaat tattaaagat aaagattttt tggataatga agaaaatgaa 3000 gatatcttag aggatattgt tttaacattg accttatttg aagataggga gatgattgag 3060 gaaagactta aaacatatgc tcacctcttt gatgataagg tgatgaaaca gcttaaacgt 3120 cgccgttata ctggttgggg acgtttgtct cgaaaattga ttaatggtat tagggataag 3180 caatctggca aaacaatatt agattttttg aaatcagatg gttttgccaa tcgcaatttt 3240 atgcagctga tccatgatga tagtttgaca tttaaagaag acattcaaaa agcacaagtg 3300 tctggacaag gcgatagttt acatgaacat attgcaaatt tagctggtag ccctgctatt 3360 aaaaaaggta ttttacagac tgtaaaagtt gttgatgaat tggtcaaagt aatggggcgg 3420 cataagccag aaaatatcgt tattgaaatg gcacgtgaaa atcagacaac tcaaaagggc 3480 cagaaaaatt cgcgagagcg tatgaaacga atcgaagaag gtatcaaaga attaggaagt 3540 cagattctta aagagcatcc tgttgaaaat actcaattgc aaaatgaaaa gctctatctc 3600 tattatctcc aaaatggaag agacatgtat gtggaccaag aattagatat taatcgttta 3660 agtgattatg atgtcgatgc cattgttcca caaagtttcc ttaaagacga ttcaatagac 3720 aataaggtct taacgcgttc tgataaaaat cgtggtaaat cggataacgt tccaagtgaa 3780 gaagtagtca aaaagatgaa aaactattgg agacaacttc taaacgccaa gttaatcact 3840 caacgtaagt ttgataattt aacgaaagct gaacgtggag gtttgagtga acttgataaa 3900 gctggtttta tcaaacgcca attggttgaa actcgccaaa tcactaagca tgtggcacaa 3960 attttggata gtcgcatgaa tactaaatac gatgaaaatg ataaacttat tcgagaggtt 4020 aaagtgatta ccttaaaatc taaattagtt tctgacttcc gaaaagattt ccaattctat 4080 aaagtacgtg agattaacaa ttaccatcat gcccatgatg cgtatctaaa tgccgtcgtt 4140 ggaactgctt tgattaagaa atatccaaaa cttgaatcgg agtttgtcta tggtgattat 4200 aaagtttatg atgttcgtaa aatgattgct aagtctgagc aagaaatagg caaagcaacc 4260 gcaaaatatt tcttttactc taatatcatg aacttcttca aaacagaaat tacacttgca 4320 aatggagaga ttcgcaaacg ccctctaatc gaaactaatg gggaaactgg agaaattgtc 4380 tgggataaag ggcgagattt tgccacagtg cgcaaagtat tgtccatgcc ccaagtcaat 4440 attgtcaaga aaacagaagt acagacaggc ggattctcca aggagtcaat tttaccaaaa 4500 agaaattcgg acaagcttat tgctcgtaaa aaagactggg atccaaaaaa atatggtggt 4560 tttgatagtc caacggtagc ttattcagtc ctagtggttg ctaaggtgga aaaagggaaa 4620 tcgaagaagt taaaatccgt taaagagtta ctagggatca caattatgga aagaagttcc 4680 tttgaaaaaa atccgattga ctttttagaa gctaaaggat ataaggaagt taaaaaagac 4740 ttaatcatta aactacctaa atatagtctt tttgagttag aaaacggtcg taaacggatg 4800 ctggctagtg ccggagaatt acaaaaagga aatgagctgg ctctgccaag caaatatgtg 4860 aattttttat atttagctag tcattatgaa aagttgaagg gtagtccaga agataacgaa 4920 caaaaacaat tgtttgtgga gcagcataag cattatttag atgagattat tgagcaaatc 4980 agtgaatttt ctaagcgtgt tattttagca gatgccaatt tagataaagt tcttagtgca 5040 tataacaaac atagagacaa accaatacgt gaacaagcag aaaatattat tcatttattt 5100 acgttgacga atcttggagc tcccgctgct tttaaatatt ttgatacaac aattgatcgt 5160 aaacgatata cgtctacaaa agaagtttta gatgccactc ttatccatca atccatcact 5220 ggtctttatg aaacacgcat tgatttgagt cagctaggag gtgacggtgg aggaggttct 5280 ggaggtggag gttctgctga gtatgtgcga gccctctttg actttaatgg gaatgatgaa 5340 gaggatcttc cctttaagaa aggagacatc ctgagaatcc gggataagcc tgaggagcag 5400 tggtggaatg cagaggacag cgaaggaaag agggggatga ttcctgtccc ttacgtggag 5460 aagtattccg gagactataa ggaccacgac ggagactaca aggatcatga tattgattac 5520 aaagacgatg acgataagtc taggctcgag tccggagact ataaggacca cgacggagac 5580 tacaaggatc atgatattga ttacaaagac gatgacgata agtctaggat gaccgacgct 5640 gagtacgtga gaatccatga gaagttggac atctacacgt ttaagaaaca gtttttcaac 5700 aacaaaaaat ccgtgtcgca tagatgctac gttctctttg aattaaaacg acggggtgaa 5760 cgtagagcgt gtttttgggg ctatgctgtg aataaaccac agagcgggac agaacgtggc 5820 attcacgccg aaatctttag cattagaaaa gtcgaagaat acctgcgcga caaccccgga 5880 caattcacga taaattggta ctcatcctgg agtccttgtg cagattgcgc tgaaaagatc 5940 ttagaatggt ataaccagga gctgcggggg aacggccaca ctttgaaaat ctgggcttgc 6000 aaactctatt acgagaaaaa tgcgaggaat caaattgggc tgtggaatct cagagataac 6060 ggggttgggt tgaatgtaat ggtaagtgaa cactaccaat gttgcaggaa aatattcatc 6120 caatcgtcgc acaatcaatt gaatgagaat agatggcttg agaagacttt gaagcgagct 6180 gaaaaacgac ggagcgagtt gtccattatg attcaggtaa aaatactcca caccactaag 6240 agtcctgctg tttaaattaa tgcggctgca atttttttgg gcggggccgc ccaaaaaaat 6300 cctagcaccc tgcagcagta ctgcttgacc ataagaacaa aaaaacttcc gataaagttt 6360 ggaagataaa gctaaaagtt cttatctttg cagtatacaa gagaccagaa gaaggtttta 6420 gagctagaaa tagcaagtta aaataaggct agtccgttat caacttgaaa aagtggcacc 6480 gagtcggtgc tttttttgag atctgtcgac tctagaggat ccccgggtac cgagctcgaa 6540 ttcactggcc gtcgttttac aacgtcgtga ctgggaaaac cctggcgtta cccaacttaa 6600 tcgtacttgt gcctgttcta tttccgaacc gaccgcttgt atgaatccat caaaattcgt 6660 tttctctatg ttggattcct tgttgctcat attgtgatga taatttctac aaatatagtc 6720 attggtaact atctatgaaa ctgtttgata cttttatagt tgattaaact tgttcatggc 6780 atttgcctta atatcatccg ctatgtcaat gtagggtttc atagctttgt agtcgctgtg 6840 tcccgtccat ttcatgacca cctgtgccgg gattccgaga gccagcgcat tgcagatgaa 6900 tgtccttctt cctgcatggg tactgagcaa agcgtatttg ggtgtgactt catcaatacg 6960 ttcatttccc ttgtagtagg tttcccgtac aggctcgttg atttctgcca gttcgcccag 7020 ctctttcagg taatcgttca tcttctggtt gctgatgacg ggcagagcca tgtaattctc 7080 gaaatggatg tccttgtatt tgtccagtat ggctttgctg tatttgttca gttcaatcgt 7140 caggctgtcg gcagtcttga ctgtggttat ttcgatgtgg tcggacttca catcgcttct 7200 tttcagattg cgaacatccg aataccgcaa actcgtaaag cagcagaaca ggaaaacatc 7260 acgcacacgt tccaggtatt gcttatcctt gggtatctgg tagtctttca gcttgttcag 7320 ttcatcccaa gtcaggaaga ttactttttt cgaggtggtt ttcagtttcg gtttgaacgt 7380 atcgtatgca atgttctgat gatgtccttt cttgaagctc cagcgcagga accatttgag 7440 gaatcccatt tgcttgccga tggtgctgtt tctcatatcc ttggtgtcac gcaggaagtt 7500 gacgtattcg ttcaatccaa actcgttgaa atagttgaac gttgcatcct ccttgaactc 7560 tttgaggtgg ttcctcactg ctgcaaattt ttcataggtg gatgccgtcc agttattctg 7620 gttaccgcac tcttttacaa actcatcgaa cacctcccaa aagctgacag gggcttcttc 7680 cggctgttct tcgctggtgt ctttcattct catgttgaaa gcttccttca actgttgggt 7740 cgttggcatg acctcctgca cctcaaattc cttgaaaata ttctggattt cggcatagta 7800 tttcagcaag tccgtattga tttcggctgc actttgcttt agcttgttgg tacatccgct 7860 ctttacccgc tgcttatctg catcccattt ggctacgtca atccggtagc ccgttgtaaa 7920 ctcgatgcgt tggctggcaa agatgacacg catacggatg ggtacgttct ctacgattgg 7980 cacaccgttc tttttccggc tctccaatgc aaaaatgatg ttgcgcttga tattcataat 8040 tgggtgcgtt tgaaattcta cacccaaata tacacccaat tattgagata gcaaaagaca 8100 tttagaaaca tttactttta ctctatattg taatttacac ttgattatca gtcgtttgca 8160 gtcttatgat attctgtgaa agtataagtt cgagagcctg tctctccgca aaaaacgctg 8220 aaaatcagca gattgcaaaa caaacaccct gttttacacc caagaatgta aagtcggctg 8280 tttttgtttt atttaagata atacaaccac tacataataa aagagtagcg atattaaaag 8340 aatccgatga gaaaagacta atatttatct atccattcag tttgattttt caggacttta 8400 catcgtcctg aaagtatttg ttggtaccgg taccgaggac gcgtaaacat ttacagttgc 8460 atgtggccta ttgtttttag ccgttaaata ttttataact attaaatagc gatacaaatt 8520 gttcgaaact aatattgttt atatcatata ttctcgcatg ttttaaagct ttattaaatt 8580 gattttttgt aaacagtttt tcgtactctt tgttaaccca tttcattaca aaagtttcat 8640 atttttttct ctctttaaat gccatttttg ctggctttct ttttaataca attaatgtgc 8700 tatccacttt aggttttgga tggaaataat acctaggaat ttttgctaat atagaaatat 8760 ctacctctgc cattaacagc aatgctagtg atctgtttgt atctaataac attttagcaa 8820 aaccatattc cactattaaa taacttattg tggctgaact ttcaaaaaca atttttcgaa 8880 ttatatttgt gcttatgttg taaggtatgc tgccaaatat tttatatgga ttgtggctag 8940 gaaatgtaaa tttcagtata tcatcattta ctatttgata gttaggataa tttaagagct 9000 tattacgagt tacctcacat aatttagaat caatttctat cgccgttaca aaattacatc 9060 tctttaccaa tccagcagta aaatgacctt tccctgcacc tatttcaaag atgttatctt 9120 tttcatctaa acttatgcaa ttcattattt tttctatgtg atattttgaa gtaataaaat 9180 tttgactatc ttttatattt actttgttca ttataacctc tccttaattt attgcatctc 9240 ttttcgaata tttatgtttt ttgagaaaag aacgtactca tggttcatcc cgatatgcgt 9300 atcggtctgt atatcagcaa ctttctatgt gtttcaacta caatagtcat ctattctcat 9360 ctttctgagt ccaccccctg caaagcccct ctttacgaca taaaaattcg gtcggaaaag 9420 gtatgcaaaa gatgtttctc tctttaagag aaactcttcg ggatgcaaaa atatgaaaat 9480 aactccaatt caccaaatta tatagcgact tttttacaaa atgctaaaat ttgttgattt 9540 ccgtcaagca attgttgagc aaaaatgtct tttacgataa aatgatacct caatatcaac 9600 tgtttagcaa aacgatattt ctcttaaaga gagaaacacc tttttgttca ccaatccccg 9660 acttttaatc ccgcggccat gattgaaaaa ggaagagtat gagtattcaa catttccgtg 9720 tcgcccttat tccctttttt gcggcatttt gccttcctgt ttttgctcac ccagaaacgc 9780 tggtgaaagt aaaagatgct gaagatcagt tgggtgcacg agtgggttac atcgaactgg 9840 atctcaacag cggtaagatc cttgagagtt ttcgccccga agaacgtttt ccaatgatga 9900 gcacttttaa agttctgcta tgtggcgcgg tattatcccg tattgacgcc gggcaagagc 9960 aactcggtcg ccgcatacac tattctcaga atgacttggt tgagtactca ccagtcacag 10020 aaaagcatct tacggatggc atgacagtaa gagaattatg cagtgctgcc ataaccatga 10080 gtgataacac tgcggccaac ttacttctga caacgatcgg aggaccgaag gagctaaccg 10140 cttttttgca caacatgggg gatcatgtaa ctcgccttga tcgttgggaa ccggagctga 10200 atgaagccat accaaacgac gagcgtgaca ccacgatgcc tgtagcaatg gcaacaacgt 10260 tgcgcaaact attaactggc gaactactta ctctagcttc ccggcaacaa ttaatagact 10320 ggatggaggc ggataaagtt gcaggaccac ttctgcgctc ggcccttccg gctggctggt 10380 ttattgctga taaatctgga gccggtgagc gtgggtctcg cggtatcatt gcagcactgg 10440 ggccagatgg taagccctcc cgtatcgtag ttatctacac gacggggagt caggcaacta 10500 tggatgaacg aaatagacag atcgctgaga taggtgcctc actgattaag cattggtaac 10560 tgtcagacca agtttactca taacgcgtca attcgagggg gatcaattcc gtgataggtg 10620 ggctgccctt cctggttggc ttggtttcat cagccatccg cttgccctca tctgttacgc 10680 cggcggtagc cggccagcct cgcagagcag gattcccgtt gagcaccgcc aggtgcgaat 10740 aagggacagt gaagaaggaa cacccgctcg cgggtgggcc tacttcacct atcctgcccg 10800 gctgacgccg ttggatacac caaggaaagt ctacacgaac cctttggcaa aatcctgtat 10860 atcgtgcgaa aaaggatgga tataccgaaa aaatcgctat aatgaccccg aagcagggtt 10920 atgcagcgga aaacggaatt gatccggcca cgatgcgtcc ggcgtagagg atctgaagat 10980 cagcagttca acctgttgat agtacgtact aagctctcat gtttcacgta ctaagctctc 11040 atgtttaacg tactaagctc tcatgtttaa cgaactaaac cctcatggct aacgtactaa 11100 gctctcatgg ctaacgtact aagctctcat gtttcacgta ctaagctctc atgtttgaac 11160 aataaaatta atataaatca gcaacttaaa tagcctctaa ggttttaagt tttataagaa 11220 aaaaaagaat atataaggct tttaaagctt ttaaggttta acggttgtgg acaacaagcc 11280 agggatgtaa cgcactgaga agcccttaga gcctctcaaa gcaattttga gtgacacagg 11340 aacacttaac ggctgacatg ggaattcccc tccaccgcgg tgg 11383 <210> 4 <211> 20 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 4 tgatggagag gtgcaagtag 20 <210> 5 <211> 20 <212> DNA <213> Bacteroides thetaiotaomicron <400> 5 atacaagaga ccagaagaag 20 <210> 6 <211> 20 <212> DNA <213> Bacteroides thetaiotaomicron <400> 6 gctcaaatcc gtattcgtgg 20 <210> 7 <211> 13307 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 7 tcgggacgct catcaatatc caccctgcct gggataaatc ctcgccctgc atttttagaa 60 ccacgtttgg catacctgcg accttgtctg cgaagatatt tgtgcagttt gccaccccgc 120 cgcttatcct cccaaatcca gcgatatatc gtttcgtgag ataccatcgc aattccctcc 180 aagcggctcc tgccgacaat ctgctccggg ctgaatcctt tcttcaacag ctttattatc 240 cgttttctca ttgccggtgt aagcacttcc ttgcgatgtt tttgctgctt gcgcctgtct 300 gcttttcgct gggcaagctc catgctatag ctaccacttc gggcgtcgca attgcgcttt 360 atctccctgt aaacagtgct tttatctact ccgatagctt ccgctattgc ttttttgctc 420 atcggtattt gcaacatcat agaaattgca tacctttgtt cctcggttat atgtttgctc 480 atctgcaact tttttttctt tggacggaca attaaagcaa agatagcaaa ctttatccat 540 tcagagtgag agaaaggggg acattgtctc tctttcctct ctgaaaaata aatgttttta 600 ttgcttatta tccgcaccca aaaagttgca tttataagtt gaactcaaga agtattcacc 660 tgtaagaagt tactaatgac aaaaaagaaa ttgcccgttc gttttacggg tcagcacttt 720 actattgata aagtgctaat aaaagatgca ataagacaag caaatataag taatcaggat 780 acggttttag atattggggc aggcaagggg tttcttactg ttcatttatt aaaaatcgcc 840 aacaatgttg ttgctattga aaacgacaca gctttggttg aacatttacg aaaattattt 900 tctgatgccc gaaatgttca agttgtcggt tgtgatttta ggaattttgc agttccgaaa 960 tttcctttca aagtggtgtc aaatattcct tatggcatta cttccgatat tttcaaaatc 1020 ctgatgtttg agagtcttgg aaattttctg ggaggttcca ttgtccttca attagaacct 1080 acacaaaagt tattttcgag gaagctttac aatccatata ccgttttcta tcatactttt 1140 tttgatttga aacttgtcta tgaggtaggt cctgaaagtt tcttgccacc gccaactgtc 1200 aaatcagccc tgttaaacat taaaagaaaa cacttatttt ttgattttaa gtttaaagcc 1260 aaatacttag catttatttc ctgtctgtta gagaaacctg atttatctgt aaaaacagct 1320 ttaaagtcga ttttcaggaa aagtcaggtc aggtcaattt cggaaaaatt cggtttaaac 1380 cttaatgctc aaattgtttg tttgtctcca agtcaatggt taaactgttt tttggaaatg 1440 ctggaagttg tccctgaaaa atttcatcct tcgtagttca aagtcgggtg gttgtcaaga 1500 tgattttttt ggtttggtgt cgtctttttt taagctgccg cataacggct ggcaaattgg 1560 cgatggagcc gactttggtg gcacttttcg gggaaatgtg cgcggaaccc ctatttgttt 1620 atttttctaa atacattcaa atatgtatcc gctcatgaga caataaccct gataaatgct 1680 tcaataatat tgaaaaagga agagtatgag tattcaacat ttccgtgtcg cccttattcc 1740 cttttttgcg gcattttgcc ttcctgtttt tgctcaccca gaaacgctgg tgaaagtaaa 1800 agatgctgaa gatcagttgg gtgcacgagt gggttacatc gaactggatc tcaacagcgg 1860 taagatcctt gagagttttc gccccgaaga acgttttcca atgatgagca cttttaaagt 1920 tctgctatgt ggcgcggtat tatcccgtat tgacgccggg caagagcaac tcggtcgccg 1980 catacactat tctcagaatg acttggttga gtactcacca gtcacagaaa agcatcttac 2040 ggatggcatg acagtaagag aattatgcag tgctgccata accatgagtg ataacactgc 2100 ggccaactta cttctgacaa cgatcggagg accgaaggag ctaaccgctt ttttgcacaa 2160 catgggggat catgtaactc gccttgatcg ttgggaaccg gagctgaatg aagccatacc 2220 aaacgacgag cgtgacacca cgatgcctgt agcaatggca acaacgttgc gcaaactatt 2280 aactggcgaa ctacttactc tagcttcccg gcaacaatta atagactgga tggaggcgga 2340 taaagttgca ggaccacttc tgcgctcggc ccttccggct ggctggttta ttgctgataa 2400 atctggagcc ggtgagcgtg ggtctcgcgg tatcattgca gcactggggc cagatggtaa 2460 gccctcccgt atcgtagtta tctacacgac ggggagtcag gcaactatgg atgaacgaaa 2520 tagacagatc gctgagatag gtgcctcact gattaagcat tggtaactgt cagaccaagt 2580 ttactcatat atactttaga ttgatttaaa acttcatttt taatttaaaa ggatctaggt 2640 gaagatcctt tttgataatc tcatgaccaa aatcccttaa cgtgagtttt cgttccactg 2700 agcgtcagac cccgtagaaa agatcaaagg atcttcttga gatccttttt tctgcgcgta 2760 atctgctgct tgcaaacaaa aaaaccaccg ctaccagcgg tggtttgttt gccggatcaa 2820 gagctaccaa ctctttttcc gaaggtaact ggcttcagca gagcgcagat accaaatact 2880 gttcttctag tgtagccgta gttaggccac cacttcaaga actctgtagc accgcctaca 2940 tacctcgctc tgctaatcct gttaccagtg gctgctgcca gtggcgataa gtcgtgtctt 3000 accgggttgg actcaagacg atagttaccg gataaggcgc agcggtcggg ctgaacgggg 3060 ggttcgtgca cacagcccag cttggagcga acgacctaca ccgaactgag atacctacag 3120 cgtgagctat gagaaagcgc cacgcttccc gaagggagaa aggcggacag gtatccggta 3180 agcggcaggg tcggaacagg agagcgcacg agggagcttc cagggggaaa cgcctggtat 3240 ctttatagtc ctgtcgggtt tcgccacctc tgacttgagc gtcgattttt gtgatgctcg 3300 tcaggggggc ggagcctatg gaaaaacgcc agcaacgcgg cctttttacg gttcctggcc 3360 ttttgctggc cttttgctca catgttcttt cctgcgttat cccctgattc tgtggataac 3420 cgtattaccg cctttgagtg agctgatacc gctcgccgca gccgaacgac cgagcgcagc 3480 gagtcagtga gcgaggaagc ggaagagcgc ccaatacgca aaccgcctct ccccgcgcgt 3540 tggccgattc attaatgcag ctggcacgac aggtttcccg actggaaagc gggcagtgag 3600 cgcaacgcaa ttaatgtgag ttagctcact cattaggcac cccaggcttt acactttatg 3660 cttccggctc gtatgttgtg tggaattgtg agcggataac aatttcacac aggaaacagc 3720 tatgaccatg attacgccct taagacccac tttcacattt aagttgtttt tctaatccgc 3780 atatgatcaa ttcaaggccg aataagaagg ctggctctgc accttggtga tcaaataatt 3840 cgatagcttg tcgtaataat ggcggcatac tatcagtagt aggtgtttcc ctttcttctt 3900 tagcgacttg atgctcttga tcttccaata cgcaacctaa agtaaaatgc cccacagcgc 3960 tgagtgcata taatgcattc tctagtgaaa aaccttgttg gcataaaaag gctaattgat 4020 tttcgagagt ttcatactgt ttttctgtag gccgtgtacc taaatgtact tttgctccat 4080 cgcgatgact tagtaaagca catctaaaac ttttagcgtt attacgtaaa aaatcttgcc 4140 agctttcccc ttctaaaggg caaaagtgag tatggtgcct atctaacatc tcaatggcta 4200 aggcgtcgag caaagcccgc ttatttttta catgccaata caatgtaggc tgctctacac 4260 ctagcttctg ggcgagttta cgggttgtta aaccttcgat tccgacctca ttaagcagct 4320 ctaatgcgct gttaatcact ttacttttat ctaatctaga catattcgtt taatatcata 4380 aataatttat tttattttaa aatgcgcggg tgcaaaggta agaggtttta ttttaactac 4440 caaatgtttt cggaagtttt ttcgcttttc tttttctatc gtttctcaga ctctcttagc 4500 gaaagggaaa gaaggtaaag aagaaaaaca aaacgccttt tcttttttgc acccgctttc 4560 caagagaaga aagccttgtt aaattgactt agtgtaaaag cgcagtactg cttgaccata 4620 agaacaaaaa aatctctatc actgataggg ataaagtttg gaagataaag ctaaaagttc 4680 ttatctttgc agtctcccta tcagtgatag agacgaaata aagacatata aaagaaaaga 4740 caccatggat aagaaatact caataggctt agctatcggc acaaatagcg tcggatgggc 4800 ggtgatcact gatgaatata aggttccgtc taaaaagttc aaggttctgg gaaatacaga 4860 ccgccacagt atcaaaaaaa atcttatagg ggctctttta tttgacagtg gagagacagc 4920 ggaagcgact cgtctcaaac ggacagctcg tagaaggtat acacgtcgga agaatcgtat 4980 ttgttatcta caggagattt tttcaaatga gatggcgaaa gtagatgata gtttctttca 5040 tcgacttgaa gagtcttttt tggtggaaga agacaagaag catgaacgtc atcctatttt 5100 tggaaatata gtagatgaag ttgcttatca tgagaaatat ccaactatct atcatctgcg 5160 aaaaaaattg gtagattcta ctgataaagc ggatttgcgc ttaatctatt tggccttagc 5220 gcatatgatt aagtttcgtg gtcatttttt gattgaggga gatttaaatc ctgataatag 5280 tgatgtggac aaactattta tccagttggt acaaacctac aatcaattat ttgaagaaaa 5340 ccctattaac gcaagtggag tagatgctaa agcgattctt tctgcacgat tgagtaaatc 5400 aagacgatta gaaaatctca ttgctcagct ccccggtgag aagaaaaatg gcttatttgg 5460 gaatctcatt gctttgtcat tgggtttgac ccctaatttt aaatcaaatt ttgatttggc 5520 agaagatgct aaattacagc tttcaaaaga tacttacgat gatgatttag ataatttatt 5580 ggcgcaaatt ggagatcaat atgctgattt gtttttggca gctaagaatt tatcagatgc 5640 tattttactt tcagatatcc taagagtaaa tactgaaata actaaggctc ccctatcagc 5700 ttcaatgatt aaacgctacg atgaacatca tcaagacttg actcttttaa aagctttagt 5760 tcgacaacaa cttccagaaa agtataaaga aatctttttt gatcaatcaa aaaacggata 5820 tgcaggttat attgatgggg gagctagcca agaagaattt tataaattta tcaaaccaat 5880 tttagaaaaa atggatggta ctgaggaatt attggtgaaa ctaaatcgtg aagatttgct 5940 gcgcaagcaa cggacctttg acaacggctc tattccccat caaattcact tgggtgagct 6000 gcatgctatt ttgagaagac aagaagactt ttatccattt ttaaaagaca atcgtgagaa 6060 gattgaaaaa atcttgactt ttcgaattcc ttattatgtt ggtccattgg cgcgtggcaa 6120 tagtcgtttt gcatggatga ctcggaagtc tgaagaaaca attaccccat ggaattttga 6180 agaagttgtc gataaaggtg cttcagctca atcatttatt gaacgcatga caaactttga 6240 taaaaatctt ccaaatgaaa aagtactacc aaaacatagt ttgctttatg agtattttac 6300 ggtttataac gaattgacaa aggtcaaata tgttactgaa ggaatgcgaa aaccagcatt 6360 tctttcaggt gaacagaaga aagccattgt tgatttactc ttcaaaacaa atcgaaaagt 6420 aaccgttaag caattaaaag aagattattt caaaaaaata gaatgttttg atagtgttga 6480 aatttcagga gttgaagata gatttaatgc ttcattaggt acctaccatg atttgctaaa 6540 aattattaaa gataaagatt ttttggataa tgaagaaaat gaagatatct tagaggatat 6600 tgttttaaca ttgaccttat ttgaagatag ggagatgatt gaggaaagac ttaaaacata 6660 tgctcacctc tttgatgata aggtgatgaa acagcttaaa cgtcgccgtt atactggttg 6720 gggacgtttg tctcgaaaat tgattaatgg tattagggat aagcaatctg gcaaaacaat 6780 attagatttt ttgaaatcag atggttttgc caatcgcaat tttatgcagc tgatccatga 6840 tgatagtttg acatttaaag aagacattca aaaagcacaa gtgtctggac aaggcgatag 6900 tttacatgaa catattgcaa atttagctgg tagccctgct attaaaaaag gtattttaca 6960 gactgtaaaa gttgttgatg aattggtcaa agtaatgggg cggcataagc cagaaaatat 7020 cgttattgaa atggcacgtg aaaatcagac aactcaaaag ggccagaaaa attcgcgaga 7080 gcgtatgaaa cgaatcgaag aaggtatcaa agaattagga agtcagattc ttaaagagca 7140 tcctgttgaa aatactcaat tgcaaaatga aaagctctat ctctattatc tccaaaatgg 7200 aagagacatg tatgtggacc aagaattaga tattaatcgt ttaagtgatt atgatgtcga 7260 tgccattgtt ccacaaagtt tccttaaaga cgattcaata gacaataagg tcttaacgcg 7320 ttctgataaa aatcgtggta aatcggataa cgttccaagt gaagaagtag tcaaaaagat 7380 gaaaaactat tggagacaac ttctaaacgc caagttaatc actcaacgta agtttgataa 7440 tttaacgaaa gctgaacgtg gaggtttgag tgaacttgat aaagctggtt ttatcaaacg 7500 ccaattggtt gaaactcgcc aaatcactaa gcatgtggca caaattttgg atagtcgcat 7560 gaatactaaa tacgatgaaa atgataaact tattcgagag gttaaagtga ttaccttaaa 7620 atctaaatta gtttctgact tccgaaaaga tttccaattc tataaagtac gtgagattaa 7680 caattaccat catgcccatg atgcgtatct aaatgccgtc gttggaactg ctttgattaa 7740 gaaatatcca aaacttgaat cggagtttgt ctatggtgat tataaagttt atgatgttcg 7800 taaaatgatt gctaagtctg agcaagaaat aggcaaagca accgcaaaat atttctttta 7860 ctctaatatc atgaacttct tcaaaacaga aattacactt gcaaatggag agattcgcaa 7920 acgccctcta atcgaaacta atggggaaac tggagaaatt gtctgggata aagggcgaga 7980 ttttgccaca gtgcgcaaag tattgtccat gccccaagtc aatattgtca agaaaacaga 8040 agtacagaca ggcggattct ccaaggagtc aattttacca aaaagaaatt cggacaagct 8100 tattgctcgt aaaaaagact gggatccaaa aaaatatggt ggttttgata gtccaacggt 8160 agcttattca gtcctagtgg ttgctaaggt ggaaaaaggg aaatcgaaga agttaaaatc 8220 cgttaaagag ttactaggga tcacaattat ggaaagaagt tcctttgaaa aaaatccgat 8280 tgacttttta gaagctaaag gatataagga agttaaaaaa gacttaatca ttaaactacc 8340 taaatatagt ctttttgagt tagaaaacgg tcgtaaacgg atgctggcta gtgccggaga 8400 attacaaaaa ggaaatgagc tggctctgcc aagcaaatat gtgaattttt tatatttagc 8460 tagtcattat gaaaagttga agggtagtcc agaagataac gaacaaaaac aattgtttgt 8520 ggagcagcat aagcattatt tagatgagat tattgagcaa atcagtgaat tttctaagcg 8580 tgttatttta gcagatgcca atttagataa agttcttagt gcatataaca aacatagaga 8640 caaaccaata cgtgaacaag cagaaaatat tattcattta tttacgttga cgaatcttgg 8700 agctcccgct gcttttaaat attttgatac aacaattgat cgtaaacgat atacgtctac 8760 aaaagaagtt ttagatgcca ctcttatcca tcaatccatc actggtcttt atgaaacacg 8820 cattgatttg agtcagctag gaggtgacgg tggaggaggt tctggaggtg gaggttctgc 8880 tgagtatgtg cgagccctct ttgactttaa tgggaatgat gaagaggatc ttccctttaa 8940 gaaaggagac atcctgagaa tccgggataa gcctgaggag cagtggtgga atgcagagga 9000 cagcgaagga aagaggggga tgattcctgt cccttacgtg gagaagtatt ccggagacta 9060 taaggaccac gacggagact acaaggatca tgatattgat tacaaagacg atgacgataa 9120 gtctaggctc gagtccggag actataagga ccacgacgga gactacaagg atcatgatat 9180 tgattacaaa gacgatgacg ataagtctag gatgaccgac gctgagtacg tgagaatcca 9240 tgagaagttg gacatctaca cgtttaagaa acagtttttc aacaacaaaa aatccgtgtc 9300 gcatagatgc tacgttctct ttgaattaaa acgacggggt gaacgtagag cgtgtttttg 9360 gggctatgct gtgaataaac cacagagcgg gacagaacgt ggcattcacg ccgaaatctt 9420 tagcattaga aaagtcgaag aatacctgcg cgacaacccc ggacaattca cgataaattg 9480 gtactcatcc tggagtcctt gtgcagattg cgctgaaaag atcttagaat ggtataacca 9540 ggagctgcgg gggaacggcc acactttgaa aatctgggct tgcaaactct attacgagaa 9600 aaatgcgagg aatcaaattg ggctgtggaa tctcagagat aacggggttg ggttgaatgt 9660 aatggtaagt gaacactacc aatgttgcag gaaaatattc atccaatcgt cgcacaatca 9720 attgaatgag aatagatggc ttgagaagac tttgaagcga gctgaaaaac gacggagcga 9780 gttgtccatt atgattcagg taaaaatact ccacaccact aagagtcctg ctgtttaaat 9840 taatgcggct gcaatttttt tgggcggggc cgcccaaaaa aatcctagca ccctgcagca 9900 gtactgcttg accataagaa caaaaaaact tccgataaag tttggaagat aaagctaaaa 9960 gttcttatct ttgcagttga tggagaggtg caagtaggtt ttagagctag aaatagcaag 10020 ttaaaataag gctagtccgt tatcaacttg aaaaagtggc accgagtcgg tgcttttttt 10080 gtcgactcta gaggatcccc gggtaccgag ctcgaattca ctggccgtcg ttttacaacg 10140 tcgtgactgg gaaaaccctg gcgttaccca acttaatcgc cttgcagcac atcccccttt 10200 cgccagctgg cgtaatagcg aagaggcccg caccgatcgc ccttcccaac agttgcgcag 10260 cctgaatggc gaatggcgcc tgatgcggta ttttctcctt acgcatctgt gcggtatttc 10320 acaccgcata cacaccataa acttttttta gaataagcac acaaccgttt tccgaaccct 10380 gcaaaatgtt ttctgaatcc gaacggtgta acactccatt gagagaggct gccgtttggt 10440 cgctccccct ttgggggcgg gggggggtta catacccatg ccgaaacctc tgcttctggt 10500 gatttgcttg aataggtctt tcccctcttc catagctttt gatatgtttg ggaaatgatg 10560 ccttaaagcc tccagttgtt cggaattgaa caagtctttc atcttaccaa gttctttttt 10620 caactccttg gtttcggctt ttagtttttg gttctccgtc cttaataggt tactggttgt 10680 ccttgcgttg tccatttgtt gtctataata ctccttgtca ttctcggctt tgaatgcctt 10740 tgtgctgttt cgctcttttt caagtatagc ctttcccagt ctatcggata gttgttcatt 10800 ttccccctct aaagtcttta ctttggcttt taaggcatcc ttttccctat cgttgactgt 10860 ttttccaatc aagccgtaaa acttctctga agccttagaa atgagttttt ggacgttctt 10920 ctttgtttca atggaacgta gttccttctg aagctgaaga agctggtttt gtgcgtcctt 10980 gtatttgtct aatgcactgg atatatcgtt ggatagttcc tgaagctgtt ctttcgcaca 11040 ttcggtcttg tactgcatag ccgataagtg tttgcggtca gaagaaacgc cacgttccat 11100 gcccagtgtt tcagatgcta tggtttggag ttctgccatg tcatcacgcg ataaacgcac 11160 acttttccca ttcggctgcg tccaatcgaa aactacatgg gcatgaaggt taggtgtcca 11220 ctgctttgcg ttcatgtatc cttcgtcctt gtgtatatgg atttgaaacg cttcgatacc 11280 gaaacgttct ttgcagaccg tggcaaactg ctggagttcc tgcatagtgg tttcttgttt 11340 gattactatt actccctctc gtatgggtgc ggctttagcc tgcatcttct gcccaaccgt 11400 atcgagatat ctttgttttg cactctccag ccgatgggaa atgctatctc caacccagct 11460 ttcattcaaa tgactaagtt cgggacgaac atagtccaac tctttttccc taaagttgtg 11520 aatctcgctc cccggcttca ctgcttgtac atgaatactt gttgctccca taagttaaca 11580 tttttgtgac aatcgataac agccggtgac agccggctga cagggggtta agggggcttg 11640 tccccttaca cacgcactct ttagggtgct agtgtgctat caccatactg cataggtgcg 11700 aagttagtga atgttttgta aatgcacaaa taaagggaaa aacatttgga tttgcgataa 11760 taaagtacta cctttgttgc tgaccaaacg gtagctgacc gatacgggag agttaccaaa 11820 atacaagccg ctggagttaa ttgacggaca tccgacatct ccagcggctt tatttttgcc 11880 tatctgcttc gcctaggcac accagtacct ctactaaaaa tgtacttcaa agatacttat 11940 tttctaccga cttgatagtt tttaccccat attcttggac atttttcccc catgaggtta 12000 tctttgtagg gtgaaagaga aacccataaa cggggataga ttgaatgctg ggaagcataa 12060 acaatcgggg taaggttagc gaaccttgcc tttcatcccc cattataact ttacatagag 12120 gaactttatc tatccccccc cgcccccaaa gggggagcga ccaaacggca gcttcactca 12180 atggagtgtt actgttcatc aaagccaagt gataattgtc gtttctctgc ttcttctttc 12240 ttttgggcag ctaaagtctt tttccgaacg tatgttttag caaatgtcac tcggtcacca 12300 ttgaatacta tcagaggatt aataaaccaa agattatcgg ctggtcctcg ggctatgatt 12360 tcagctttta caagttctgc aagtccttta taaacggctt tgtctgtttt gtatttggta 12420 tattctaggc atttttttct attgaaaatg attaaatcat ttttgggttt catgcaggtc 12480 ataaagtaac caaaaacccg aatagctgct tgtgataggt caaagaatgc agcaaagtta 12540 gaaagataca atttagtgaa ttgttcttca tctacttcta tttgacggat aaacgaagtc 12600 ttaaacactt ctccagtttc agtgtcggct aaagctacta cagctctctt atcgccacca 12660 ctattactct tatacttttt aacaacatga ttttcaatac cttctatagc ttgtttcata 12720 aaaggatttt cttcgttctt ttgaaaatcg gttaacttaa ctgctttttt attttccatt 12780 ttgatatgtt tttgggaaat attattctcc acaaagtaaa ctattatttt ccataaaaac 12840 aatattaagg gaaatattat tttcctattt agtatcatat taggaaatcg gtattttcta 12900 gattggaaaa tgagaatttc caatatggaa aatgccctat attgtgtatc aagtacttaa 12960 cttattctat ttcttttatt cttaatatac ccccaaaaca gcacaaaatc agtcacttaa 13020 aaatcatcgg tcggggaatg gtgcactctc agtacaatct gctctgatgc cgcatagtta 13080 agccagcccc gacacccgcc aacacccgct gacgcgccct gacgggcttg tctgctcccg 13140 gcatccgctt acagacaagc tgtgaccgtc tccgggagct gcatgtgtca gaggttttca 13200 ccgtcatcac cgaaacgcgc gagacgaaag ggcctcgtga tacgcctatt tttataggtt 13260 aatgtcatga taataatggt ttcttagcta aatttaaata taaacaa 13307 <210> 8 <211> 20 <212> DNA <213> Bacteroides thetaiotaomicron <400> 8 ggacgaatcg taaatgcaga 20 <210> 9 <211> 20 <212> DNA <213> Bacteroides thetaiotaomicron <400> 9 cccattggct gaatgtggcg 20 <210> 10 <211> 51 <212> DNA <213> Bacteroides thetaiotaomicron <220> <221> CDS <222> (1)..(51) <400> 10 atg gta tta ttt tca gaa gac cac ata caa gag acc aga aga aga ggt 48 Met Val Leu Phe Ser Glu Asp His Ile Gln Glu Thr Arg Arg Arg Gly 1 5 10 15 aga 51 Arg <210> 11 <211> 17 <212> PRT <213> Bacteroides thetaiotaomicron <400> 11 Met Val Leu Phe Ser Glu Asp His Ile Gln Glu Thr Arg Arg Arg Gly 1 5 10 15 Arg <210> 12 <211> 51 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <220> <221> CDS <222> (1)..(27) <400> 12 atg gta tta ttt tca gaa gac cac ata taagagacca gaagaagagg taga 51 Met Val Leu Phe Ser Glu Asp His Ile 1 5 <210> 13 <211> 9 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 13 Met Val Leu Phe Ser Glu Asp His Ile 1 5 <210> 14 <211> 36 <212> DNA <213> Bacteroides thetaiotaomicron <220> <221> CDS <222> (1)..(36) <400> 14 ggt ggt ggc gct caa atc cgt att cgt ggc ggt tct 36 Gly Gly Gly Ala Gln Ile Arg Ile Arg Gly Gly Ser 1 5 10 <210> 15 <211> 12 <212> PRT <213> Bacteroides thetaiotaomicron <400> 15 Gly Gly Gly Ala Gln Ile Arg Ile Arg Gly Gly Ser 1 5 10 <210> 16 <211> 36 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <220> <221> CDS <222> (1)..(12) <400> 16 ggt ggt ggc gtt taaatccgta ttcgtggcgg ttct 36 Gly Gly Gly Val 1 <210> 17 <211> 4 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 17 Gly Gly Gly Val 1 <210> 18 <211> 80 <212> DNA <213> Bacteroides thetaiotaomicron <400> 18 tgggcgcaag atgctaaagt cctgaaagga cgaatcgtaa atgcagaggg tgaacctatc 60 gcaggtgcgg tggtcaacgt 80 <210> 19 <211> 80 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 19 tgggcgcaag atgctaaagt cctgaaagga tgaatcgtaa atgcagaggg tgaacctatc 60 gcaggtgcgg tggtcaacgt 80 <210> 20 <211> 81 <212> DNA <213> Bacteroides thetaiotaomicron <400> 20 tgggcgcaag atgctaaagt cctgaaagga cgaatcgtaa atgcagaggg tgaacctatc 60 gcaggtgcgg tggtcaacgt a 81 <210> 21 <211> 80 <212> DNA <213> Bacteroides thetaiotaomicron <400> 21 cggtgatctg cttgttctgc gcatacaccc attggctgaa tgtggcgagg cagagtatca 60 gtataaaatt tttcatgtat 80 <210> 22 <211> 80 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 22 ccgtccggtg atctgcttgt tctgcgcata catttattgg ctgaatgtgg cgaggcagag 60 tatcagtata aaatttttca 80 <210> 23 <211> 81 <212> DNA <213> Bacteroides thetaiotaomicron <400> 23 ccgtccggtg atctgcttgt tctgcgcata cacccattgg ctgaatgtgg cgaggcagag 60 tatcagtata aaatttttca t 81

Claims (37)

  1. 박테리아 세포의 염색체와 연관하여 조작된 RNA-가이드 핵염기 변형 시스템을 포함하는 단백질-핵산 복합체로서,
    상기 조작된 RNA-가이드 핵염기 변형 시스템은 박테리아 세포의 염색체에서의 특정 유전자좌를 표적으로 하고, 박테리아 세포의 염색체는 SEQ ID NO: 1에 대해 50% 이상의 동일성을 갖는 아미노산 서열을 포함하는 HU 패밀리 DNA-결합 단백질을 인코딩하는 것인, 단백질-핵산 복합체.
  2. 제1항에 있어서, 상기 조작된 RNA-가이드 핵염기 변형 시스템은 (ⅰ) CRISPR 단백질 및 가이드 RNA(gRNA)를 포함하는 CRISPR 시스템 및 (ii) 핵염기 변형 효소 또는 그의 촉매 도메인을 포함하며,
    상기 CRISPR 단백질은 뉴클레아제 결핍 변이체 또는 니카제인 것인, 단백질-핵산 복합체.
  3. 제2항에 있어서, 상기 CRISPR 시스템은 타입 I CRISPR 시스템, 타입 Ⅱ CRISPR 시스템, 타입 Ⅲ CRISPR 시스템, 타입 Ⅳ CRISPR 시스템, 타입 Ⅴ CRISPR 시스템, 또는 타입 Ⅵ CRISPR 시스템인 것인, 단백질-핵산 복합체.
  4. 제2항 또는 제3항에 있어서, 상기 CRISPR 단백질이 Cas9, Cas12, Cas 13, Cas14 또는 Cas X인 것인, 단백질-핵산 복합체.
  5. 제2항 내지 제4항 중 어느 한 항에 있어서, 상기 gRNA는 CRISPR RNA(crRNA) 및 트랜스액팅 crRNA(tracrRNA)를 포함하는 이중 분자 gRNA인 것인, 단백질-핵산 복합체.
  6. 제2항 내지 제4항 중 어느 한 항에 있어서, 상기 gRNA는 CRISPR RNA(crRNA) 및 트랜스액팅 crRNA(tracrRNA)의 융합 하이브리드를 포함하는 단일 분자 gRNA인 것인, 단백질-핵산 복합체.
  7. 제2항 내지 제6항 중 어느 한 항에 있어서, 상기 핵염기 변형 효소 또는 그의 촉매 도메인은 시티딘 데아미나제 1 (CDA1), 시티딘 데아미나제 2 (CDA2), 활성화-유도된 시티딘 데아미나제 (AICDA), 아포리포단백질 B mRNA-편집 복합체 (APOBEC) 패밀리 시티딘 데아미나제, APOBEC1 보체 인자/APOBECI 자극 인자 (ACF1/ASF) 시티딘 데아미나제, RNA에 작용하는 시토신 데아미나제(CDAR), tRNA에 작용하는 시토신 데아미나제(CDAT), tRNA 아데닌 데아미나제, 아데노신 데아미나제, RNA에 작용하는 아데노신 데아미나제(ADAR) 또는 tRNA에 작용하는 아데노신 데아미나제(ADAT)로부터 선정되는 것인, 단백질-핵산 복합체.
  8. 제2항 내지 제7항 중 어느 한 항에 있어서, 상기 핵염기 변형 효소 또는 그의 촉매 도메인은 시티딘 데아미나제 또는 그의 촉재 도메인이고,
    상기 조작된 RNA 가이드 핵염기 변형 시스템은 하나 이상의 우라실 글리코실라제 억제제 도메인을 더 포함하는 것인, 단백질-핵산 복합체.
  9. 제2항 내지 제8항 중 어느 한 항에 있어서, 상기 CRISPR 단백질은 상기 핵염기 변형 효소 또는 그의 촉매 도메인에 직접 또는 링커를 통하여 연결되는 것인, 단백질-핵산 복합체.
  10. 제2항 내지 제8항 중 어느 한 항에 있어서, 상기 핵염기 변형 효소 또는 그의 촉매 도메인은 어댑터 단백질에 직접 또는 링커를 통하여 연결되며,
    상기 CRISPR 단백질은 또는 gRNA는 어댑터 단백질에 결합할 수 있는 압타머서열을 포함하는 것인, 단백질-핵산 복합체.
  11. 제10항에 있어서, 상기 압타머 서열은 MS2/MSP, PP7/PCP, Com, N22, AP205, BZ13, F1, F2, fd, fr, GA, ID2, JP34, JP500, JP501, KU1, M11, M12, MX1, NL95, PRR1, φCb5, φCb8r, φCb12r, φCb23r, Qβ, R17, SP, TW18, TW19, VK 또는 7s로부터 선정되는 것인, 단백질-핵산 복합체.
  12. 제2항 내지 제11항 중 어느 한 항에 있어서, 상기 조작된 RNA-가이드 핵염기 변형 시스템은 시티딘 데아미나제 또는 그의 촉매 도메인에 연결된 뉴클레아제 결핍 Cas9 또는 Cas12a 변이체를 포함하는 것인, 단백질-핵산 복합체.
  13. 제1항 내지 제12항 중 어느 한 항에 있어서, 상기 조작된 RNA-가이드 핵염기 변형 시스템은 조작된 RNA-가이드 핵염기 변형 시스템을 인코딩하는 핵산으로부터 발현되고, 박테리아 염색체로 통합되는 것인, 단백질-핵산 복합체.
  14. 제1항 내지 제12항 중 어느 한 항에 있어서, 상기 조작된 RNA-가이드 핵염기 변형 시스템은 조작된 RNA-가이드 핵염기 변형 시스템을 인코딩하는 핵산으로부터 발현되고, 염색체외 벡터상에 지지되는 것인, 단백질-핵산 복합체.
  15. 제1항 내지 제14항 중 어느 한 항에 있어서, 상기 박테리아 세포의 염색체상에 인코딩된 HU 패밀리 DNA-결합 단백질의 아미노산 서열이 SEQ ID NO: 1에 대해 55%이상, 60%이상, 65%이상, 70%이상, 75%이상, 80%이상, 85%이상, 90%이상, 95%이상, 또는 99%이상의 서열 동일성을 갖는 것인, 단백질-핵산 복합체.
  16. 제1항 내지 제15항 중 어느 한 항에 있어서, 상기 박테리아는 박테로이데스 종 또는 그의 균주 수준 변이체인 것인, 단백질-핵산 복합체.
  17. 제16항에 있어서, 상기 박테로이데스 종 또는 그의 균주 수준 변이체는 B. 세타이오타오미크론, B. 불가투스, B. 셀룰로실리티쿠스, B. 프라길리스, B. 헬코게네스, B. 오바투스, B. 살라니트로니스, B. 유니포르미스 또는 B. 자일라니솔벤스로부터 선정되는 것인, 단백질-핵산 복합체.
  18. 표적 박테리아 세포의 염색체에서 하나 이상의 핵염기를 변형시키는 방법으로서,
    상기 방법은 표적 박테리아 세포에서 조작된 RNA-가이드 핵염기 변형 시스템을 발현시키는 것을 포함하며,
    상기 조작된 RNA-가이드 핵염기 변형 시스템은 표적 박테리아 세포의 염색체에서의 특정 유전자좌를 표적으로 하며, 상기 조작된 RNA-가이드 핵염기 변형 시스템이 특정 유전자좌내에서 하나 이상의 핵염기를 변형하여서 특정 유전자좌를 포함하는 유전자의 발현이 변경, 변형 및/또는 비활성화되고,
    상기 표적 박테리아 세포의 염색체는 SEQ ID NO: 1에 대해 50%이상의 서열 동일성을 갖는 아미노산 서열을 포함하는 HU 패밀리 DNA-결합 단백질을 인코딩하는 것인, 표적 박테리아 세포의 염색체에서의 하나 이상의 핵염기를 변형하는 방법.
  19. 제18항에 있어서, 하나 이상의 핵염기의 변형은 표적 박테리아 세포의 염색체에서의 특정 유전자좌 내에서 하나 이상의 단일 핵염기 다형성 및/또는 하나 이상의 정지 코돈의 도입을 초래하는 것인, 표적 박테리아 세포의 염색체에서의 하나 이상의 핵염기를 변형하는 방법. ??
  20. 제18항 또는 제19항에 있어서, 상기 조작된 RNA-가이드 핵염기 변형 시스템은 (ⅰ) CRISPR 단백질 및 가이드 RNA(gRNA)를 포함하는 CRISPR 시스템 및 (ii) 핵염기 변형 효소 또는 그의 촉매 도메인을 포함하며,
    상기 CRISPR 단백질은 뉴클레아제 결핍 CRISPR 변이체 또는 CRISPR 니카제인 것인, 표적 박테리아 세포의 염색체에서의 하나 이상의 핵염기를 변형하는 방법.
  21. 제20항에 있어서, 상기 CRISPR 시스템은 타입 I CRISPR 시스템, 타입 Ⅱ CRISPR 시스템, 타입 Ⅲ CRISPR 시스템, 타입 Ⅳ CRISPR 시스템, 타입 Ⅴ CRISPR 시스템, 또는 타입 Ⅵ CRISPR 시스템인 것인, 표적 박테리아 세포의 염색체에서의 하나 이상의 핵염기를 변형하는 방법.
  22. 제20항 또는 제21항에 있어서, 상기 CRISPR 단백질이 Cas9, Cas12, Cas 13, Cas14 또는 Cas X인 것인, 표적 박테리아 세포의 염색체에서의 하나 이상의 핵염기를 변형하는 방법.
  23. 제20항 내지 제22항 중 어느 한 항에 있어서, 상기 gRNA는 CRISPR RNA(crRNA) 및 트랜스액팅 crRNA(tracrRNA)를 포함하는 이중 분자 gRNA인 것인, 표적 박테리아 세포의 염색체에서의 하나 이상의 핵염기를 변형하는 방법.
  24. 제20항 내지 제22항 중 어느 한 항에 있어서, 상기 gRNA는 CRISPR RNA(crRNA) 및 트랜스액팅 crRNA(tracrRNA)의 융합 하이브리드를 포함하는 단일 분자 gRNA인 것인, 표적 박테리아 세포의 염색체에서의 하나 이상의 핵염기를 변형하는 방법.
  25. 제20항 내지 제24항 중 어느 한 항에 있어서, 상기 핵염기 변형 효소 또는 그의 촉매 도메인은 시티딘 데아미나제 1 (CDA1), 시티딘 데아미나제 2 (CDA2), 활성화-유도된 시티딘 데아미나제 (AICDA), 아포리포단백질 B mRNA-편집 복합체 (APOBEC) 패밀리 시티딘 데아미나제, APOBEC1 보체 인자/APOBECI 자극 인자 (ACF1/ASF) 시티딘 데아미나제, RNA에 작용하는 시토신 데아미나제(CDAR), tRNA에 작용하는 시토신 데아미나제(CDAT), tRNA 아데닌 데아미나제, 아데노신 데아미나제, RNA에 작용하는 아데노신 데아미나제(ADAR) 또는 tRNA에 작용하는 아데노신 데아미나제(ADAT)로부터 선정되는 것인, 표적 박테리아 세포의 염색체에서의 하나 이상의 핵염기를 변형하는 방법.
  26. 제20항 내지 제25항 중 어느 한 항에 있어서, 상기 핵염기 변형 효소 또는 그의 촉매 도메인은 시티딘 데아미나제 또는 그의 촉재 도메인이고,
    상기 조작된 RNA 가이드 핵염기 변형 시스템은 하나 이상의 우라실 글리코실라제 억제제 도메인을 더 포함하는 것인, 표적 박테리아 세포의 염색체에서의 하나 이상의 핵염기를 변형하는 방법.
  27. 제20항 내지 제26항 중 어느 한 항에 있어서, 상기 CRISPR 단백질은 상기 핵염기 변형 효소 또는 그의 촉매 도메인에 직접 또는 링커를 통하여 연결되는 것인, 표적 박테리아 세포의 염색체에서의 하나 이상의 핵염기를 변형하는 방법.
  28. 제20항 내지 제26항 중 어느 한 항에 있어서, 상기 핵염기 변형 효소 또는 그의 촉매 도메인은 어댑터 단백질에 직접 또는 링커를 통하여 연결되며,
    상기 CRISPR 단백질은 또는 gRNA는 어댑터 단백질에 결합할 수 있는 압타머서열을 포함하는 것인, 표적 박테리아 세포의 염색체에서의 하나 이상의 핵염기를 변형하는 방법.
  29. 제28항에 있어서, 상기 압타머 서열은 MS2, PP7, Com, N22, AP205, BZ13, F1, F2, fd, fr, GA, ID2, JP34, JP500, JP501, KU1, M11, M12, MX1, NL95, PRR1, φCb5, φCb8r, φCb12r, φCb23r, Qβ, R17, SP, TW18, TW19, VK 또는 7s로부터 선정되는 것인, 표적 박테리아 세포의 염색체에서의 하나 이상의 핵염기를 변형하는 방법.
  30. 제20항 내지 제29항 중 어느 한 항에 있어서, 상기 조작된 RNA-가이드 핵염기 변형 시스템은 시티딘 데아미나제 또는 그의 촉매 도메인에 연결된 뉴클레아제 결핍 Cas9 또는 Cas12a 변이체를 포함하는 것인, 표적 박테리아 세포의 염색체에서의 하나 이상의 핵염기를 변형하는 방법.
  31. 제20항 내지 제30항 중 어느 한 항에 있어서, 상기 핵염기 변형 효소 또는 그의 촉매 도메인, CRISPR 단백질 및 gRNA는 표적 박테리아 세포의 염색체로 통합된 하나 이상의 핵산으로부터 발현되는 것인, 표적 박테리아 세포의 염색체에서의 하나 이상의 핵염기를 변형하는 방법.
  32. 제20항 내지 제31항 중 어느 한 항에 있어서, 상기 핵염기 변형 효소 또는 그의 촉매 도메인, CRISPR 단백질 및 gRNA는 염색체외 벡터상에 지지된 하나 이상의 핵산으로부터 발현되는 것인, 표적 박테리아 세포의 염색체에서의 하나 이상의 핵염기를 변형하는 방법.
  33. 제31항 또는 제32항에 있어서, CRISPR 단백질을 인코딩하는 핵산은 유도성 프로모터에 작동가능하게 연결되는 것인, 표적 박테리아 세포의 염색체에서의 하나 이상의 핵염기를 변형하는 방법.
  34. 제33항에 있어서, 화학물질을 유도하는 상기 프로모터는 무수테트라사이클린인 것인, 표적 박테리아 세포의 염색체에서의 하나 이상의 핵염기를 변형하는 방법.
  35. 제18항 내지 제34항 중 어느 한 항에 있어서, 상기 박테리아 세포의 염색체상에 인코딩된 HU 패밀리 DNA-결합 단백질의 아미노산 서열이 SEQ ID NO: 1에 대해 55%이상, 60%이상, 65%이상, 70%이상, 75%이상, 80%이상, 85%이상, 90%이상, 95%이상, 또는 99%이상의 서열 동일성을 갖는 것인, 표적 박테리아 세포의 염색체에서의 하나 이상의 핵염기를 변형하는 방법.
  36. 제18항 내지 제35항 중 어느 한 항에 있어서, 상기 표적 박테리아 세포는 박테로이데스 종 또는 그의 균주 수준 변이체인 것인, 표적 박테리아 세포의 염색체에서의 하나 이상의 핵염기를 변형하는 방법.
  37. 제36항에 있어서, 상기 박테로이데스 종 또는 그의 균주 수준 변이체는 B. 세타이오타오미크론, B. 불가투스, B. 셀룰로실리티쿠스, B. 프라길리스, B. 헬코게네스, B. 오바투스, B. 살라니트로니스, B. 유니포르미스 또는 B. 자일라니솔벤스로 규정된 계통발생군에 속하는 것인, 표적 박테리아 세포의 염색체에서의 하나 이상의 핵염기를 변형하는 방법.
KR1020227024550A 2019-12-17 2020-12-17 박테로이데스의 게놈편집 KR20220116512A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962949314P 2019-12-17 2019-12-17
US62/949,314 2019-12-17
PCT/US2020/065654 WO2021127209A1 (en) 2019-12-17 2020-12-17 Genome editing in bacteroides

Publications (1)

Publication Number Publication Date
KR20220116512A true KR20220116512A (ko) 2022-08-23

Family

ID=74285544

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227024550A KR20220116512A (ko) 2019-12-17 2020-12-17 박테로이데스의 게놈편집

Country Status (9)

Country Link
US (1) US20210180071A1 (ko)
EP (1) EP4077675A1 (ko)
JP (1) JP2023507163A (ko)
KR (1) KR20220116512A (ko)
CN (1) CN114829602A (ko)
AU (1) AU2020405038A1 (ko)
CA (1) CA3156789A1 (ko)
IL (1) IL292517A (ko)
WO (1) WO2021127209A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024085539A1 (ko) * 2022-10-17 2024-04-25 한국생명공학연구원 박테로이데스 속에 속하는 미생물에서 작동하는 에피솜 벡터

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190249200A1 (en) 2018-02-15 2019-08-15 Sigma-Aldrich Co., Llc Engineered cas9 systems for eukaryotic genome modification

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002077183A2 (en) * 2001-03-21 2002-10-03 Elitra Pharmaceuticals, Inc. Identification of essential genes in microorganisms
US10956422B2 (en) 2012-12-05 2021-03-23 Oracle International Corporation Integrating event processing with map-reduce
US20170173086A1 (en) * 2014-03-25 2017-06-22 Ginkgo Bioworks, Inc. Methods and Genetic Systems for Cell Engineering
WO2017066719A2 (en) * 2015-10-14 2017-04-20 Research Institute At Nationwide Children's Hospital Hu specific interfering agents
IL258821B (en) * 2015-10-23 2022-07-01 Harvard College Nucleobase editors and their uses
WO2018165629A1 (en) * 2017-03-10 2018-09-13 President And Fellows Of Harvard College Cytosine to guanine base editor
WO2018213726A1 (en) * 2017-05-18 2018-11-22 The Broad Institute, Inc. Systems, methods, and compositions for targeted nucleic acid editing
WO2019005886A1 (en) * 2017-06-26 2019-01-03 The Broad Institute, Inc. CRISPR / CAS-CYTIDINE DEAMINASE COMPOSITIONS, SYSTEMS AND METHODS FOR TARGETED EDITING OF NUCLEIC ACIDS
KR20210023831A (ko) * 2018-05-11 2021-03-04 빔 테라퓨틱스, 인크. 프로그래밍가능한 염기 편집기 시스템을 이용하여 병원성 아미노산을 치환하는 방법
BR112022005831A2 (pt) * 2019-09-30 2022-06-21 Sigma Aldrich Co Llc Modulação de composições de microbiota usando nucleases direcionadas

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190249200A1 (en) 2018-02-15 2019-08-15 Sigma-Aldrich Co., Llc Engineered cas9 systems for eukaryotic genome modification

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024085539A1 (ko) * 2022-10-17 2024-04-25 한국생명공학연구원 박테로이데스 속에 속하는 미생물에서 작동하는 에피솜 벡터

Also Published As

Publication number Publication date
IL292517A (en) 2022-06-01
US20210180071A1 (en) 2021-06-17
EP4077675A1 (en) 2022-10-26
WO2021127209A1 (en) 2021-06-24
CA3156789A1 (en) 2021-06-24
AU2020405038A1 (en) 2022-04-21
JP2023507163A (ja) 2023-02-21
CN114829602A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
AU2019208278B2 (en) Intein-modified proteases, their production and industrial applications
US20240067982A1 (en) Rna-directed dna cleavage and gene editing by cas9 enzyme from neisseria meningitidis
KR20210149060A (ko) Tn7-유사 트랜스포존을 사용한 rna-유도된 dna 통합
CN107250363B (zh) 在大肠杆菌中进行有效基因编辑的组合物和方法
AU2018279457B2 (en) Method for manufacturing DNA-edited eukaryotic cell, and kit used in method
CN107574179A (zh) 一种为克鲁维酵母优化的CRISPR/Cas9高效基因编辑系统
KR101982360B1 (ko) 콤팩트 tale-뉴클레아제의 발생 방법 및 이의 용도
AU2016337408A1 (en) Inducible modification of a cell genome
KR20210023830A (ko) 프로그래밍가능한 염기 편집기 시스템을 이용하여 병원성 돌연변이를 억제하는 방법
DK2663645T3 (da) Gærstammer, der er modificeret til produktion af ethanol fra glycerol
CA2763792C (en) Expression cassettes derived from maize
KR20140092759A (ko) 숙주 세포 및 아이소부탄올의 제조 방법
CN101460611B (zh) 具有改良生长特性的植物及其制备方法
US11939594B2 (en) Engraftable cell-based immunotherapy for long-term delivery of therapeutic proteins
CN106947779B (zh) 利用乳腺生物反应器提高乳汁中褪黑素含量的方法
KR20210005146A (ko) 유전자 편집된 t 세포에서의 인간 foxp3의 발현
CN113817775B (zh) 修饰的阿柏西普、组合物、方法及其在基因治疗中的应用
US20230203463A1 (en) Rna-guided nucleases and active fragments and variants thereof and methods of use
KR20240001708A (ko) 유전적 장애의 치료를 위해 생체내 뉴클레아제-매개의 유전자 표적화를 위한 조성물 및 방법
KR20220051259A (ko) 표적화된 뉴클레아제를 이용하여 미생물총 조성물의 변조
KR20220116512A (ko) 박테로이데스의 게놈편집
US5750384A (en) L5 shuttle phasmids
US20200017917A1 (en) Mapping a Functional Cancer Genome Atlas of Tumor Suppressors Using AAV-CRISPR Mediated Direct In Vivo Screening
KR20220142502A (ko) 근육 특이적 핵산 조절 요소 및 이의 방법 및 용도
US20210093679A1 (en) Engineered gut microbes and uses thereof

Legal Events

Date Code Title Description
A201 Request for examination