KR20220025708A - 확장된 dna 표적 범위를 갖는 조작된 cas9 - Google Patents

확장된 dna 표적 범위를 갖는 조작된 cas9 Download PDF

Info

Publication number
KR20220025708A
KR20220025708A KR1020217038012A KR20217038012A KR20220025708A KR 20220025708 A KR20220025708 A KR 20220025708A KR 1020217038012 A KR1020217038012 A KR 1020217038012A KR 20217038012 A KR20217038012 A KR 20217038012A KR 20220025708 A KR20220025708 A KR 20220025708A
Authority
KR
South Korea
Prior art keywords
sacas9
sequence
protein
amino acid
variant
Prior art date
Application number
KR1020217038012A
Other languages
English (en)
Inventor
리 콩
Original Assignee
더 보드 오브 트러스티스 오브 더 리랜드 스탠포드 주니어 유니버시티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 더 보드 오브 트러스티스 오브 더 리랜드 스탠포드 주니어 유니버시티 filed Critical 더 보드 오브 트러스티스 오브 더 리랜드 스탠포드 주니어 유니버시티
Publication of KR20220025708A publication Critical patent/KR20220025708A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/52Genes encoding for enzymes or proenzymes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • C12N15/902Stable introduction of foreign DNA into chromosome using homologous recombination
    • C12N15/907Stable introduction of foreign DNA into chromosome using homologous recombination in mammalian cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y301/00Hydrolases acting on ester bonds (3.1)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Zoology (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Microbiology (AREA)
  • Physics & Mathematics (AREA)
  • Plant Pathology (AREA)
  • Biophysics (AREA)
  • Medicinal Chemistry (AREA)
  • Mycology (AREA)
  • Cell Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Peptides Or Proteins (AREA)
  • Medicines Containing Antibodies Or Antigens For Use As Internal Diagnostic Agents (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Enzymes And Modification Thereof (AREA)

Abstract

본 개시는 프로토스페이서 인접 모티프(protospacer adjacent motif, PAM) 서열에 대해 변경된 특이성을 갖는 변이체 스타필로코커스 아우레우스 Cas9 (SaCas9) 단백질을 제공한다. 본 개시는 또한 상기 변이체 SaCas9 단백질을 사용하여 게놈 DNA 서열을 변경하는 CRISPR/Cas9 시스템 및 방법에 관한 것이다. 변경된 PAM 특이성을 갖는 변이체 Cas9 단백질을 생성하는 방법이 또한 개시된다.

Description

확장된 DNA 표적 범위를 갖는 조작된 CAS9
관련 출원에 대한 상호 참조
본 출원은 2019년 4월 25일에 출원된 미국 가특허 출원 번호 62/838,498의 이익을 주장하며, 이 가출원의 전체가 본원에 참고로 포함된다.
분야
본원 발명은 확장된 DNA 표적화 범위를 갖는 조작된 CAS9 단백질, 및 이를 사용한 방법, 키트, 조성물 및 시스템에 관한 것이다.
박테리아 및 고세균(archaea)에서 처음 발견된, 클러스터화된 규칙적 간격의 짧은 회문 반복서열(Clustered Regularly Interspaced Short Palindromic Repeats, CRISPR) 시스템은 외래 유전자 물질에 적응적으로 저항하여 RNA-가이드 단백질 기구(machinery) 및 복잡한 분자 메커니즘을 이용하는 미생물 면역을 제공할 수 있다[Mojica et al., J. Mol. Evol., 60: 174-182 (2005); Bolotin et al., Microbiology, 151: 2551-2561 (2005); Barrangou et al., Science, 315: 1709-1712 (2007); Garneau et al., Nature, 468: 67 (2010); Deltcheva et al., Nature, 471: 602 (2011); Sapranauskas et al., Nucl. Acids Res., 39: 9275-9282 (2011); Jinek et al., Science, 337: 816-821 (2012); Gasiunas et al., Proc. Natl. Acad. Sci. USA, 109: E2579-E2586 (2012); 및 Wiedenheft et al., Nature, 482: 331 (2012)]. 최근의 발전은 진핵 유기체의 게놈 편집을 위해 맞춤형 CRISPR 시스템의 활용을 가능하게 한다[Cong et al., Science, 339: 819-823 (2013); Mali et al., Science, 339: 823-826 (2013); Jiang et al., Nature Biotech., 31: 233-239 (2013); Jinek et al., Elife, 2: e00471 (2013); Cho et al., Nature Biotech., 31: 230 (2013); 및 Hwang et al., Nature Biotech., 31: 227 (2013)]. 예시적인 II형 CRISPR 시스템은 단일 가이드 RNA(sgRNA)와의 복합체에서 Cas9 단백질을 이용하여 이중 가닥 DNA(dsDNA) 표적을 절단하는 프로그램가능한 엔도뉴클레아제를 형성한다. dsDNA 기질은 sgRNA 내의 가이드 서열에 상보적인 표적 가닥[Jinek et al., Science, 337: 816-821 (2012)] 및 표적 인식에 필요한 프로토스페이서 인접 모티프(protospacer adjacent motif, PAM)를 보유하는 비표적 가닥[Mojica et al., J. Mol. Evol., 60: 174-182 (2005); Bolotin et al., Microbiology, 151: 2551-2561 (2005)]을 함유한다.
스트렙토코커스 피오게네스(Streptococcus pyogenes) 유래의 널리 사용되는 Cas9(SpCas9)는 PAM 서열 NGG를 인식하는 반면(Jinek et al., 상기 문헌 참조), 스타필로코커스 아우레우스(Staphylococcus aureus) 유래의 새로 식별된 Cas9(SaCas9)는 NNGRRT의 더 긴 PAM 서열[Ran et al., Nature, 520:186-191 (2015)]을 인식한다. SaCas9는 SpCas9보다 훨씬 작아서, 유전자 치료 적용예에서 그의 전달을 더 편리하고 효율적이게 한다 [Ran et al., 상기 문헌 참조]. 컴팩트한 크기로 인한 임상 해독(clinical translation)의 장래성에도 불구하고, SaCas9의 더 긴 PAM은, 예를 들어, 이의 PAM이 질병 관련 유전자좌에 근접해 있지 않은 경우, 표적 범위 및 적용 가능성을 제한한다. 최근에, 삼중 돌연변이 E782K/N968K/R1015H(KKH) 세트가 SaCas9 PAM 특이성을 NNGRRT에서 NNNRRT로 효과적으로 변경시키는 것으로 발견되었다[Kleinstinver et al., Nature Biotech., 33: 1293-1298 (2015)]. 또한, sgRNA/DNA와 결합된 야생형 SaCas9의 구조는 규명되어 있고[Nishimasu et al., Cell, 162: 1113-1126 (2015)], 이는 SaCas9 기능의 분자적 기초에 대한 중요한 통찰을 제공한다.
그러나, 더 넓은 PAM 특이성을 갖는 Cas9 단백질, 및 Cas9 단백질의 PAM 특이성을 변경시키는 방법에 대한 필요성은 여전히 남아 있다.
본 개시는 변이체(variant) 스타필로코커스 아우레우스 Cas9(Staphylococcus aureus Cas9, SaCas9) 단백질로서, 예를 들어, 서열번호 1의 아미노산 서열을 포함하고, 여기서 아미노산 잔기 E782, N968, N986, 및 R991 중 하나 이상이 다른 아미노산에 의해 치환된 변이체 SaCas9 단백질을 제공한다. 또한, 상기 변이체 SaCas9 단백질을 암호화하는 핵산 서열 및 벡터, 및, 숙주 세포의 표적 게놈 DNA 서열을 변경시키는 시스템 및 방법도 제공한다.
본 개시는 또한 원하는 PAM 특이성을 갖는 변이체 Cas9 단백질을 생성하는 방법을 제공하며, 이 방법은, (a) 원하는 PAM에 대한 하나 이상의 돌연변이 Cas9 단백질의 결합을 분자적으로 시뮬레이션하는 단계; (b) 상기 (a)의 시뮬레이션에서 상기 원하는 PAM에 결합하는 하나 이상의 돌연변이 Cas9 단백질을 합성적으로 생성하는 단계; (c) 상기 하나 이상의 돌연변이 Cas9 단백질을 숙주 세포에서 이 숙주 세포의 표적 DNA 서열에 상보적인 가이드 RNA 서열과 조합으로 발현시키는 단계로서, 여기서 상기 숙주 세포 게놈은 상기 표적 DNA 서열과 상기 원하는 PAM을 포함하는 것인, 단계; (d) 상기 하나 이상의 돌연변이 Cas9 단백질의 절단 활성을 측정하는 단계; 및 (e) 상기 원하는 PAM에 결합하고 상기 표적 DNA 서열을 절단하는 하나 이상의 돌연변이 Cas9 단백질을 선택하여, 이로써 원하는 PAM 특이성을 갖는 Cas9 변이체를 생성하는 단계를 포함한다.
또한, 본원에 기재된 임의의 방법을 실행하는데 유용하거나, 필요하거나, 또는 충분한 하나 이상의 시약 또는 기타 성분을 함유하는 키트가 제공된다. 예를 들어, 키트는 CRISPR 시약(Cas9 단백질, 가이드 서열, 플라스미드 등), 형질감염 또는 투여 시약, 음성 및 양성 대조군 샘플(예를 들어, 세포, 주형 DNA), 세포, 하나 이상의 구성요소(예를 들어, 미세원심분리관, 박스)를 수용하는 용기, 검출가능한 표지, 검출 및 분석 기기, 소프트웨어, 설명서 등을 포함할 수 있다.
도 1a는 결합된 DNA 및 RNA를 갖는 SaCas9를 MD 시뮬레이션하기 위한 모델 시스템을 예시한 개략도이다. DNA의 PAM 영역과 이의 주변 단백질 잔기 사이의 상호작용이 확대되어 있다. 도 1b는 E782-K910 및 E782-G0 쌍에 대한 시간 의존적 거리를 보여주는 그래프이다. 도 1c는 N968-G3 및 R1015-G3 쌍에 대한 시간 의존적 거리를 보여주는 그래프이다. 도 1d는 0, 57 및 80ns에서 E782의 배위를 보여주는 일련의 이미지이다. E782K 돌연변이에 대한 FEP 계산에서, 도 1d의 Na+ 이온은 E782와 함께 소멸되어 신생 K782와 그의 바람직하지 않은 충돌(또는 정전기적 반발)을 회피했다. 따라서, 자유 상태에 대한 FEP 계산에서, 전해질 중 여분의 Na+(단백질 복합체에 가깝지 않은 것)은 E782와 동시에 소멸되었다.
도 2a 내지 도 2c는 결정화된 SaCas9 복합체의 원자 구조의 개략도이다. 도 2a는 A, B, C 및 D로 표지된 4개의 복합체 카피(copy)를 포함하는 단위 셀(unit cell)을 나타낸다. 도 2b는 카피 A와 B, 또는 C와 D 사이의 결정 접촉에 대한 확대도를 나타낸다. 도 2c는 카피 B와 C 사이의 결정 접촉에 대한 확대도를 나타낸다.
도 3a 내지 도 3c는 SaCas9 복합체의 MD 시뮬레이션의 개략도이다. 도 3a는 약 200 ns 시뮬레이션 동안 단백질, DNA 및 RNA 백본(backbone)의 평균제곱근편차(root-mean-square-deviations, RMSD)를 나타낸다. 도 3b는 SaCas9에 있는 PI 도메인과 비표적(non-target) DNA 가닥에 있는 PAM 사이의 원자 배위를 나타낸다. 도 3c는 결정 구조(회색)와 최종 시뮬레이션 구조(녹색)의 중첩을 나타낸다.
도 4는 결합된 sgRNA만을 갖는 SaCas9에 대한 MD 시뮬레이션에서 단백질 백본의 평균제곱근편차를 예시하는 그래프이다. 삽입도: MD 시뮬레이션 마지막에 복합체의 스냅사진.
도 5a는 돌연변이 R1015H의 △△G를 계산하기 위한 열역학적 사이클을 보여주는 일련의 개략도이다. △GA 및 △GB는 각각 야생형 단백질 및 돌연변이 단백질에 결합하는 dsDNA의 자유 에너지 변화이다; △G1 및 △G2는 각각 DNA 결합 상태와 DNA 자유 상태에서 발생한 상기 돌연변이에 대한 자유 에너지 변화이다. 단백질 잔기 993 및 1015의 원자는 반데르발스 구(van der Waals spheres)로서 강조 표시된다. 도 5b는 PAM 인식에 관여하는 선택된 잔기에 대한 알라닌 스캐닝의 자유 에너지 변화를 예시하는 그래프이다. 도 5c는 컴퓨터 분석에서 수행된 돌연변이 스캐닝에 상응하는 분자 작제물을 사용하여 포유동물 세포 실험에서 측정된 바와 같은 정규화된 Cas9 효율을 예시하는 그래프이다. 도 5d는 COMET 작업흐름의 유효성을 입증하는 실험적 Cas9 효율과 FEP 결과 사이의 강력한 선형 상관관계를 보여주는 그래프이다. 선형 회귀는 야생형 대조군에 대비하여, 테스트된 각 돌연변이 Cas9에 대한 △△G 및 효율성 비율의 자연 로그(ln)를 사용하여 수행했다. R 제곱에 의한 적합도(goodness of fit)는 0.92였다.
도 6a는 KKH SaCas9 돌연변이체와 연관된 다양한 돌연변이에 대한 자유 에너지 변화를 예시하는 그래프이다. 도 6b는 SaCas9에 있는 E782K 돌연변이를 예시하는 개략도이다. 단백질 잔기 K782 및 K910의 원자는 반데르발스 구로서 강조 표시된다. 도 6c는 E782K 및 N968K 돌연변이에서 물의 역할을 예시하는 개략도이다. 도 6d는 KKH-SaCas9 단백질과 결합된 DNA 간의 핵심 상호작용의 투시 개략도이다.
도 7a는 확장된 PAM 범위를 갖는 SaCas9 변이체의 COMET 기반의 최적화를 위한 다양한 돌연변이에 대한 FEP 계산을 보여주는 그래프이다. 도 7b는 NNGRRT=C=G=A PAM을 표적으로 하는 조작된 saCas9 변이체에 대한 정규화된 Cas9 효율을 보여주는 그래프이다. 도 7c는 DNA 백본과 R986의 배위 및 R986과 L991 사이의 소수성 상호작용(R991L 돌연변이 후)의 개략도이다. 도 7d는 COMET 작업흐름을 통해 발견된 신규 SaCas9 변이체의 내인성 게놈 표적화 활성을 보여주는 그래프이고, 대시선(dash line)은 정규화(normalization)의 기초로서 야생형 SaCas9 활성을 나타낸다. X 축에 표시된 각 PAM 서열마다, 상이한 표적의 결과가 오차막대로서 S.E.M과 함께 표시되었다. 도 7e는 CRISPR 게놈 편집 도구를 이해하고 조작하는 조합 접근법에 대한 COMET를 요약한 다이어그램이다.
도 8은 N986R 및 추가 R991 조합 돌연변이를 보유하여 이의 표적화 범위를 더욱 향상시키기 위한 SaCas9 변이체의 실험적 검증 및 특성화를 예시하는 그래프로서, 야생형 SaCas9에 대해 정규화된 SaCas9 변이체의 Cas9 효율이 제시된다. 상이한 색상 막대는 마지막 위치가 4개의 DNA 염기 전부를 포함하도록 변경되는 상이한 PAM 서열을 보유하는 표적을 나타낸다.
도 9a 내지 도 9d는 상이한 PAM 서열 그룹에 걸쳐서, 야생형 SaCas9와 비교된 상이한 SaCas9 변이체의 활성을 예시하는 그래프로서, 이 검정에서 테스트된 개별 게놈 부위가 상세히 설명된다. 각 데이터 막대는 독립된 반복물(replicate)들에 대한 결과를 나타내고, 오차 막대는 S.E.M을 나타낸다.
도 10은 PAM 인식을 향상시키는 SaCas9의 또 다른 잔기들에 대한 구조 분석의 개략도이다.
도 11은 표적 DNA 상의 PAM 이본쇄(duplex)를 인식하는데 초점을 맞춘 돌연변이 조합을 갖는 SaCas9 변이체의 Cas9 활성을 예시하는 그래프이다. 결과는 상이한 PAM 서열을 갖는 DNA 표적에 대한 결합에 의해 채색된다.
도 12는 표적 DNA의 일반적인 결합 친화성을 향상시키는데 초점을 맞춘 돌연변이 조합을 갖는 SaCas9 변이체의 Cas9 활성을 예시하는 그래프이다. 결과는 상이한 PAM 서열을 갖는 DNA 표적의 결합에 의해 채색된다.
도 13은 게놈 표적의 절단에 의해 측정된 SaCas9 변이체의 Cas9 활성을 예시하는 그래프로서, 표적 DNA에 대한 절단 활성은 도 7에서 측정된 결합 활성과 상이할 것이다. 상이한 색상은 상이한 PAM 서열을 갖는 DNA 표적의 절단 결과를 나타낸다.
본 개시는 변경된 PAM 특이성을 갖는 변이체 Cas9 단백질을 식별하기 위해 컴퓨터 분석 및 실험적 검정을 조합한 방법의 개발에 적어도 부분적으로 근거를 두고 있다. 특히, 개시된 방법은 이전에 표적화할 수 없었던 서열에 대한 유전자 편집을 위해 확장된 PAM 활성을 보유하는 변이체 SaCas9 단백질의 설계를 가능하게 한다. 본원에 설명된 방법론은 컴퓨터 물리 화학과 유전자 편집의 힘을 조합한 비천연 CRISPR 유용성을 탐색하는 데 있어서 범용(general)모티프 역할을 할 수 있다.
정의
본원 기술의 이해를 용이하게 하기 위해, 다수의 용어 및 문구가 아래에 정의된다. 상세한 설명 전반에 걸쳐 추가 정의가 제시된다.
본원에 사용된 "핵산" 또는 "핵산 서열"은 피리미딘 및/또는 퓨린 염기, 바람직하게는 시토신, 티민 및 우라실, 및 아데닌과 구아닌 각각의 중합체 또는 올리고머를 지칭한다[Albert L. Lehninger, Principles of Biochemistry, at 793-800 (Worth Pub. 1982) 참조]. 본원 기술은 임의의 데옥시리보뉴클레오타이드, 리보뉴클레오타이드, 또는 펩타이드 핵산 성분, 및 이의 임의의 화학적 변이체, 예컨대, 이들 염기의 메틸화, 하이드록시메틸화 또는 글리코실화된 형태 등을 고려한다. 중합체 또는 올리고머는 조성이 불균일(heterogenous) 하거나 균일(homogenous)할 수 있고, 자연 발생의 공급원으로부터 단리될 수 있거나, 또는 인위적으로 또는 합성적으로 생성될 수 있다. 또한, 핵산은 DNA 또는 RNA, 또는 이들의 혼합물일 수 있으며, 이는 동종이본쇄(homoduplex), 이종이본쇄(heteroduplex) 및 혼성 상태를 포함한 단일 가닥 또는 이중 가닥 형태로 영구적으로 또는 일시적으로 존재할 수 있다. 일부 구현예들에서, 핵산 또는 핵산 서열은, 예를 들어, DNA/RNA 나선, 펩타이드 핵산(PNA), 모르폴리노 핵산[예를 들어, Braasch and Corey, Biochemistry, 41(14): 4503-4510(2002) 및 미국 특허 제5,034,506호 참조], 잠금 핵산[locked nucleic acid, LNA; Wahlestedt et al., Proc. Natl. Acad. Sci. U.S.A., 97:5633-5638 (2000) 참조], 사이클로헥세닐 핵산[Wang, J. Am. Chem. Soc., 122: 8595-8602 (2000) 참조], 및/또는 리보자임과 같은 다른 유형의 핵산 구조를 포함한다. 따라서, 용어 "핵산" 또는 "핵산 서열"은 천연 뉴클레오타이드와 동일한 기능을 나타낼 수 있는 비-천연 뉴클레오타이드, 변형된 뉴클레오타이드, 및/또는 비-뉴클레오타이드 빌딩 블록(building block)(예를 들어, "뉴클레오타이드 유사체")을 포함하는 사슬도 추가로 포함할 수 있으며; 추가로, 본원에 사용된 용어 "핵산 서열"은 올리고뉴클레오타이드, 뉴클레오타이드 또는 폴리뉴클레오타이드, 및 이들의 단편 또는 일부를 지칭하며, 단일 가닥 또는 이중 가닥일 수 있고 센스 또는 안티센스 가닥을 나타낼 수 있는 게놈 또는 합성 기원의 DNA 또는 RNA를 지칭한다. 용어 "핵산", "폴리뉴클레오타이드", "뉴클레오타이드 서열" 및 "올리고뉴클레오타이드"는 상호교환적으로 사용된다. 이들은 데옥시리보뉴클레오타이드 또는 리보뉴클레오타이드, 또는 이들의 유사체인 임의의 길이의 뉴클레오타이드의 중합체 형태를 지칭한다.
"상보적" 및 "상보성"이라는 용어는 전통적인 왓슨-크리크(Watson-Crick) 염기-쌍형성(base-pairing) 또는 다른 비전통적 유형의 쌍형성에 의해 또 다른 핵산 서열과 수소 결합(들)을 형성하는 핵산의 능력을 지칭한다. 두 핵산 서열 사이의 상보성 정도는 제2 핵산 서열과 수소 결합(예를 들어, 왓슨-크리크 염기쌍)을 형성할 수 있는 핵산 서열 중 뉴클레오타이드의 백분율로 나타낼 수 있다(예를 들어, 50%, 60%, 70%, 80%, 90% 및 100% 상보적). 2개의 핵산 서열은 핵산 서열의 모든 근접 뉴클레오타이드가 제2 핵산 서열 중 동일한 수의 근접 뉴클레오타이드와 수소 결합하는 경우 "완전히 상보적"이다. 2개의 핵산 서열 간의 상보성 정도가 적어도 8개의 뉴클레오타이드(예를 들어, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 30, 35, 40, 45, 50, 또는 그 이상의 뉴클레오타이드)의 영역에 걸쳐 적어도 60%(예를 들어, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 97%, 98%, 99% 또는 100%)인 경우, 또는 2개의 핵산 서열이 적어도 중간, 바람직하게는 높은 엄중도(stringency) 조건 하에서 혼성화하는 경우, 2개의 핵산 서열은 "실질적으로 상보적"이다. 예시적인 중간 엄중도 조건은 20% 포름아미드, 5xSSC(150 mM NaCl, 15 mM 시트르산삼나트륨), 50 mM 인산나트륨(pH 7.6), 5x덴하르트(Denhardt) 용액, 10% 덱스트란 설페이트, 및 20 mg/mL 변성된 전단 연어 정자 DNA를 포함하는 용액에서 37℃ 하에 밤샘 항온처리한 다음, 약 37-50℃에서 1xSSC에 필터를 세척하는 것, 또는 실질적으로 유사한 조건, 예를 들어, 아래 Sambrook et al.에 기재된 중간 엄중 조건을 포함한다. 높은 엄중도 조건은, 예를 들어, (1) 50℃에서 0.015 M 염화나트륨/0.0015 M 시트르산나트륨/0.1% 도데실황산나트륨(SDS)과 같이, 세척을 위한 낮은 이온 강도 및 고온을 이용하거나, (2) 혼성화 동안 변성제, 예컨대 50%(v/v) 포름아미드와 0.1% 소 혈청 알부민(BSA)/0.1% Ficoll/0.1% 폴리비닐피롤리돈(PVP)/50 mM 인산나트륨 완충액, pH 6.5 및 750 mM 염화나트륨 및 75 mM 시트르산나트륨을 42℃에서 이용하거나, 또는 (3) 50% 포름아미드, 5xSSC(0.75 M NaCl, 0.075 M 시트르산나트륨), 50 mM 인산나트륨(pH 6.8), 0.1% 피로인산나트륨, 5×덴하르트 용액, 초음파 처리된 연어 정자 DNA(50 ㎍/mL), 0.1% SDS, 및 10% 덱스트란 설페이트를 42℃에서 이용하고, (i) 42℃에서 0.2xSSC로 세척, (ii) 55℃에서 50% 포름아미드로 세척, 및 (iii) 55℃에서 0.1 x SSC(바람직하게는 EDTA와 조합)로 세척을 이용하는 조건이다. 혼성화 반응의 엄중도에 대한 추가 세부사항 및 설명은, 예를 들어, Sambrook et al., Molecular Cloning: A Laboratory Manual, 3rd ed., Cold Spring Harbor Press, Cold Spring Harbor, N.Y.(2001); 및 Ausubel et al., Current Protocols in Molecular Biology, Greene Publishing Associates and John Wiley & Sons, New York(1994)에 제공되어 있다.
본원에 사용된 용어 "퍼센트 서열 동일성(percent sequence identity)"은 2개의 서열을 정렬하고, 최대 퍼센트 동일성을 달성하기 위해 필요한 경우 갭(gap)을 도입시킨 후 참조 서열 중 상응하는 뉴클레오타이드 또는 아미노산과 동일한, 핵산 서열 중 뉴클레오타이드 또는 뉴클레오타이드 유사체, 또는 아미노산 서열 중 아미노산의 백분율을 지칭한다. 따라서, 본원 기술에 따른 핵산이 참조 서열보다 긴 경우, 참조 서열과 정렬되지 않은 핵산의 추가 뉴클레오타이드는 서열 동일성을 결정하는 데 있어서 고려하지 않는다. BLAST, Align 2, 및 FASTA를 비롯한, 정렬에 대한 방법 및 컴퓨터 프로그램은 본 기술분야에 잘 알려져 있다.
용어 "상동성(homology)" 및 "상동성인(homologous)"은 동일성의 정도를 지칭한다. 부분적 상동성 또는 완전한 상동성이 있을 수 있다. 부분적 상동성 서열은 다른 서열에 대해 100% 미만으로 동일한 서열이다.
본원에 사용된 용어 "혼성화(hybridization)"는 상보적 핵산의 쌍형성과 관련하여 사용된다. 혼성화 및 혼성화 강도(즉, 핵산 간의 연관 강도)는 핵산 간의 상보성 정도, 관여된 조건의 엄중도 및 형성된 혼성체의 Tm과 같은 요인에 의해 영향을 받는다. "혼성화" 방법은 하나의 핵산을 또 다른 상보적 핵산, 예를 들어, 상보적 뉴클레오타이드 서열을 갖는 핵산에 어닐링하는 것을 포함한다. 상보적 서열을 함유하는 핵산의 두 중합체가 서로를 찾아서 염기쌍 상호작용을 통해 "어닐링" 또는 "혼성화"하는 능력은 잘 알려진 현상이다. Marmur and Lane, Proc. Natl. Acad. Sci. USA, 46: 453 (1960) 및 Doty et al., Proc. Natl. Acad. Sci. USA, 46: 461(1960)에 의한 "혼성화" 과정의 초기 관찰에 이어, 현대 생물학의 필수 도구에 이 과정의 개량이 후속되었다. 예를 들어, 혼성화 및 세척 조건은 현재 잘 알려져 있고 Sambrook, J., Fritsch, E. F. and Maniatis, T. Molecular Cloning: A Laboratory Manual, Second Edition, Cold Spring Harbor Laboratory Press, Cold Spring Harbor (1989), 특히 11장 및 표 11.1; 및 Sambrook, J. and Russell, W., Molecular Cloning: A Laboratory Manual, Third Edition, Cold Spring Harbor Laboratory Press, Cold Spring Harbor(2001)에 예시되어 있다. 온도 및 이온 강도의 조건은 혼성화의 "엄중도"를 결정한다.
본원에 사용된 "이중 가닥 핵산"은 핵산의 일부, 더 긴 핵산의 영역, 또는 전체 핵산일 수 있다. "이중 가닥 핵산"은, 예를 들어, 제한 없이, 이중 가닥 DNA, 이중 가닥 RNA, 이중 가닥 DNA/RNA 혼성체 등일 수 있다. 2차 구조(예를 들어, 염기쌍 2차 구조) 및/또는 고차 구조[예를 들어, 스템-루프(stem-loop) 구조]를 갖는 단일 가닥 DNA는 "이중 가닥 핵산"을 포함한다. 예를 들어, 삼본쇄(triplex) 구조는 "이중 가닥"인 것으로 간주된다. 일부 구현예들에서, 임의의 염기쌍 핵산은 "이중 가닥 핵산"이다.
용어 "유전자"는 비-암호 기능을 갖는 RNA(예를 들어, 리보솜 또는 전달 RNA), 폴리펩타이드 또는 전구체의 생산에 필요한 제어(control) 및 암호 서열을 포함하는 DNA 서열을 지칭한다. RNA 또는 폴리펩타이드는 전체 길이의 암호 서열에 의해 또는 원하는 활성 또는 기능이 유지되는 한, 암호 서열의 임의의 일부에 의해 암호화될 수 있다. 따라서, "유전자"는 유기체에서 기능적 역할을 하는 폴리펩타이드 또는 RNA 사슬을 암호화하는 DNA 또는 RNA, 또는 이의 일부를 지칭한다. 본 개시의 목적을 위해, 이러한 조절 서열이 암호 서열 및/또는 전사된 서열에 인접하는지 여부에 상관없이, 유전자는 이 유전자 생성물의 생산을 조절하는 영역을 포함하는 것으로 간주될 수 있다. 따라서, 유전자는 프로모터 서열, 종결인자(terminator), 해독 조절 서열, 예컨대, 리보솜 결합 부위 및 내부 리보솜 진입 부위, 인핸서(enhancer), 사일런서(silencer), 절연체(insulator), 경계 요소, 복제 기점, 기질 부착 부위 및 유전자좌 제어 영역을 포함하지만, 반드시 이에 제한되는 것은 아니다.
용어 "야생형(wild-type)"은 자연 발생 공급원으로부터 단리된 경우, 해당 유전자 또는 유전자 생성물의 특성을 갖는 유전자 또는 유전자 생성물을 지칭한다. 야생형 유전자는 집단에서 가장 빈번하게 관찰되는 것으로서, 상기 유전자의 "정상" 또는 "야생형" 형태로 임의로 지정된다. 이와 대조적으로, "변형된(modified)", "돌연변이(mutant)" 또는 "다형성(polymorphic)"이라는 용어는 야생형 유전자 또는 유전자 생성물과 비교했을 때 서열 및/또는 기능적 특성(즉, 변경된 특성)의 변형을 나타내는 유전자 또는 유전자 생성물을 지칭한다. 자연적으로 발생하는 돌연변이체는 단리될 수 있음을 유의한다; 이들은 야생형 유전자 또는 유전자 생성물과 비교했을 때 변경된 특성을 갖는다는 사실에 의해 식별된다.
본원에 사용된, 용어 "변이체(variant)"는 자연에서 발생하는 것에서 벗어나는 패턴을 갖는 특성의 표시를 지칭한다. 일부 구현예들에서, 변이체는 또한 돌연변이체일 수 있다.
"비-자연적으로 발생하는(non-naturally occurring)" 또는 "조작된(engineered)"이라는 용어는 상호교환적으로 사용되며 인간의 기술의 관여를 나타낸다. 핵산 분자 또는 폴리펩타이드를 지칭할 때, 상기 용어는 상기 핵산 분자 또는 상기 폴리펩타이드에 자연에서 본래 연관이 있고 자연에서 발견되는 적어도 하나의 다른 성분이 적어도 실질적으로 없는 것을 의미한다.
본원에 사용된 용어 "올리고뉴클레오타이드"는 2개 이상의 데옥시리보뉴클레오타이드 또는 리보뉴클레오타이드, 바람직하게는 적어도 5개의 뉴클레오타이드, 보다 바람직하게는 적어도 약 10 내지 15개의 뉴클레오타이드 및 더욱 바람직하게는 적어도 약 15 내지 50개의 뉴클레오타이드(예를 들어, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 50개 이상의 뉴클레오타이드)를 포함하는 분자로서 정의된다. 정확한 크기는 많은 요인에 따라 달라지며, 이는 결국 올리고뉴클레오타이드의 궁극적인 기능 또는 용도에 따라 달라진다. 올리고뉴클레오타이드는 화학적 합성, DNA 복제, 역전사, PCR, 또는 이들의 조합을 포함하는 임의의 방식으로 생성될 수 있다.
용어 "펩타이드" 및 "폴리펩타이드" 및 "단백질"은 본원에서 상호교환가능하게 사용되며, 암호된 아미노산 및 비-암호된 아미노산, 화학적으로 또는 생화학적으로 변형된 또는 유도체화된 아미노산을 포함할 수 있는 임의의 길이의 아미노산의 중합체 형태, 및 변형된 펩타이드 백본을 갖는 폴리펩타이드를 지칭한다.
본원에 사용된 "결합(binding)"(예를 들어, 폴리펩타이드의 RNA-결합 도메인과 관련하여)은 거대분자 사이(예를 들어, 단백질과 핵산 사이)의 비공유 상호작용을 지칭한다. 비공유 상호작용의 상태에 있는 동안, 거대분자는 "연관된(associated)" 또는 "상호작용" 또는 "결합"하는 것이라고 말한다(예를 들어, 분자 X가 분자 Y와 상호작용한다고 말할 때, 이는 분자 X가 비공유 방식으로 분자 Y에 결합함을 의미한다). 결합 상호작용의 모든 성분이 서열 특이적일 필요는 없지만(예를 들어, DNA 백본 중 인산염 잔기와 접촉), 결합 상호작용의 몇몇 일부는 서열 특이적일 수 있다. 결합 상호작용은 일반적으로 10-6 M 미만, 10-7 M 미만, 10-8 M 미만, 10-9 M 미만, 10-10 M 미만, 10-11 M 미만, 10-12 M 미만, 10-13 M 미만, 10-14 M 미만 또는 10-15 M 미만의 해리 상수(Kd)를 특징으로 한다. "친화도"는 결합 강도를 지칭하며, 증가된 결합 친화도는 더 낮은 Kd와 상관성이 있다.
"결합 도메인"은 다른 분자에 비공유적으로 결합할 수 있는 단백질 도메인을 의미한다. 결합 도메인은, 예를 들어, DNA 분자(DNA-결합 단백질), RNA 분자(RNA-결합 단백질) 및/또는 단백질 분자(단백질 결합 단백질)에 결합할 수 있다. 단백질 도메인-결합 단백질의 경우, 이것은 그 자체에 결합할 수 있고(동종이량체, 동종삼량체 등을 형성함) 및/또는 상이한 단백질 또는 단백질들의 하나 이상의 분자에 결합할 수 있다.
본원에 사용된 "재조합"은 특정 핵산(DNA 또는 RNA)이 자연계에서 발견되는 내인성 핵산과 구별할 수 있는 구조적 암호 또는 비암호 서열을 갖는 작제물을 초래하는 클로닝, 제한, 폴리머라제 연쇄 반응(PCR) 및/또는 결찰(ligation) 단계의 다양한 조합의 생성물임을 의미한다. 폴리펩타이드를 암호화하는 DNA 서열은 세포 또는 무세포 전사 및 해독 시스템에 함유된 재조합 전사 단위로부터 발현될 수 있는 합성 핵산을 제공하기 위해 cDNA 단편 또는 일련의 합성 올리고뉴클레오타이드로부터 조립될 수 있다. 관련 서열을 포함하는 게놈 DNA는 또한 재조합 유전자 또는 전사 단위의 형성에도 사용될 수 있다. 미해독(non-translated) DNA의 서열은 오픈 리딩 프레임(open reading frame)으로부터 5' 또는 3'에 존재할 수 있으며, 이러한 서열은 암호 영역의 조작 또는 발현을 방해하지 않으며 실제로 다양한 메커니즘에 의해 원하는 생성물의 생산을 조절하는 작용을 할 수 있다. 대안적으로, 미해독(non-translated) RNA(예를 들어, DNA-표적화 RNA)를 암호화하는 DNA 서열도 재조합체로 간주될 수 있다. 따라서, 예를 들어, 용어 "재조합" 핵산은 자연적으로 발생하지 않는 것, 예를 들어, 인간 개입을 통해 두 개의 달리 분리된 서열 분절의 인위적 조합에 의해 만들어진 것을 지칭한다. 이 인위적 조합은 종종 화학적 합성 수단에 의해, 또는 핵산의 단리된 분절의 인위적 조작에 의해, 예를 들어, 유전자 조작 기술에 의해 달성된다. 이는 일반적으로 코돈을 동일한 아미노산, 보존적 아미노산 또는 비보존적 아미노산을 암호화하는 코돈에 의해 대체하는 것으로 수행된다. 대안적으로, 원하는 기능의 조합을 생성하기 위해 원하는 기능의 핵산 분절을 함께 접합하는 것으로 수행된다. 이 인위적인 조합은 화학적 합성 수단에 의해, 또는 단리된 핵산 분절의 인위적 조작에 의해, 예를 들어, 유전자 조작 기술에 의해 종종 달성된다. 재조합 폴리뉴클레오타이드가 폴리펩타이드를 암호화하는 경우, 암호화된 폴리펩타이드의 서열은 자연 발생("야생형")일 수 있거나, 자연 발생 서열의 변이체(예를 들어, 돌연변이체)일 수 있다. 따라서, 용어 "재조합" 폴리펩타이드는 이의 서열이 자연적으로 발생하지 않는 폴리펩타이드를 반드시 지칭하는 것은 아니다. 대신, "재조합" 폴리펩타이드는 재조합 DNA 서열에 의해 암호화되지만, 폴리펩타이드의 서열은 자연 발생("야생형") 또는 비-자연 발생(예를 들어, 변이체, 돌연변이체 등)일 수 있다. 따라서, "재조합" 폴리펩타이드는 인간 개입의 결과이지만, 자연 발생의 아미노산 서열일 수 있다.
"벡터" 또는 "발현 벡터"는 플라스미드, 파지, 바이러스 또는 코스미드와 같은 레플리콘(replicon)이며, 여기에 또 다른 DNA 분절, 즉 "삽입체"가 부착되거나 혼입되어 세포에서 부착된 분절의 복제를 유발할 수 있다.
외인성 DNA, 예를 들어, 재조합 발현 벡터에 의해, 이러한 DNA가 세포 내로 도입된 경우 세포는 "유전자 변형", "형질전환" 또는 "형질감염"되어 있다. 외인성 DNA의 존재는 영구적이거나 일시적인 유전자 변화를 초래한다. 형질전환 DNA는 세포의 게놈 내로 통합(공유 연결)되거나 통합되지 않을 수 있다. 예를 들어, 원핵생물, 효모 및 포유동물 세포에서 형질전환하는 DNA는 플라스미드와 같은 에피솜 요소에 유지될 수 있다. 진핵세포와 관련하여 안정적으로 형질전환된 세포는 형질전환하는 DNA가 염색체에 통합되어 염색체 복제를 통해 딸세포에 의해 유전되는 세포이다. 이 안정성은 형질전환 DNA를 함유하는 딸 세포 집단을 포함하는 세포주 또는 클론을 확립하는 진핵 세포의 능력에 의해 입증된다. "클론"은 유사분열에 의해 단세포 또는 공통 조상에서 유래된 세포 집단이다. "세포주"는 여러 세대 동안 시험관내에서 안정적으로 성장할 수 있는 1차 세포의 클론이다.
CRISPR/Cas 유전자 편집 시스템은 진핵 세포에서 관심 있는 특정 유전자에 대한 표적 변형을 가능하게 하기 위해 개발되었다. CRISPR/Cas 유전자 편집 시스템은 II형 원핵생물 클러스터링된 규칙적으로 간격을 둔 짧은 회문 반복서열(CRISPR) 적응 면역 시스템으로부터의 RNA-가이드 Cas9 뉴클레아제를 기반으로 한다[예를 들어, Jinek et al., Science, 337: 816(2012); Gasiunas et al., Proc. Natl. Acad. Sci. U.S.A., 109, E2579(2012); Garneau et al., Nature, 468:67(2010); Deveau et al., Annu. Rev. Microbiol., 64: 475(2010); Horvath and Barrangou, Science, 327: 167(2010); Makarova et al., Nat. Rev. Microbiol., 9, 467(2011); Bhaya et al., Annu. Rev. Genet., 45: 273(2011); 및 Cong et al., Science, 339: 819-823(2013) 참조]. 박테리아 및 고세균에서 CRISPR/Cas 시스템은 침입성 파지, 바이러스 및 플라스미드 DNA의 단편을 CRISPR 유전자좌에 혼입시키고 상동성 서열의 분해를 유도하기 위해 상응하는 CRISPR RNA("crRNA")를 사용하여 면역을 제공한다. 각 CRISPR 유전자좌는 반복 서열에 의해 분리된, 획득된 "스페이서(spacer)"를 암호화한다. CRISPR 유전자좌의 전사는 "프리(pre)-crRNA"를 생산하고, 이는 프로세싱되어 스페이서에 상보적인 dsDNA 서열을 절단하도록 이펙터 뉴클레아제 복합체를 유도하는 스페이서-반복 단편을 함유하는 crRNA를 생성한다.
II형 CRISPR 유전자좌는 Cas9 단백질을 암호화하는 유전자, 2개의 비암호 crRNA인 트랜스-활성화 crRNA(tracrRNA) 및 동일한 직접 반복서열(DR)에 의해 이격된 뉴클레아제 가이드 서열("스페이서"라고도 지칭되기도 함)을 함유하는 전구체 crRNA(pre-crRNA) 어레이를 포함하는 4개의 유전자를 포함한다 [Cong et al., 상기 문헌 참조]. tracrRNA는 pre-crRNA의 프로세싱 및 Cas9 복합체의 형성에 중요하다. 병원성 서열의 CRISPR-가이드 분해는 3단계로 발생한다. 첫째, tracrRNA는 pre-crRNA의 반복 영역에 혼성화한다. 둘째, 내인성 RNaseIII은 혼성화된 crRNA-tracrRNA를 절단하고, 두 번째 이벤트는 각 스페이서의 5' 말단을 제거하여 tracrRNA 및 Cas9 모두와 연관된 상태를 유지하는 성숙한 crRNA를 생성한다. 셋째, 각각의 성숙한 복합체는 표적 이중 가닥 DNA(dsDNA) 서열에 위치하여 두 가닥을 모두 절단한다.
진핵 세포에서 사용하기 위한 CRISPR/Cas 시스템의 조작은 전형적으로 crRNA-tracrRNA-Cas9 복합체의 재구성을 수반한다. 인간 세포에서, 예를 들어, Cas9 아미노산 서열은 코돈 최적화되고 변형되어 적절한 핵 국재화 신호를 포함할 수 있으며, crRNA 및 tracrRNA 서열은 개별적으로 또는 RNA 폴리머라제 II 프로모터를 통해 단일 키메라 분자로서 발현될 수 있다. 전형적으로, crRNA 및 tracrRNA 서열은 키메라로서 발현되며, "가이드 RNA"(gRNA) 또는 단일 가이드 RNA(sgRNA)로서 통칭된다. 따라서, "가이드 RNA", "단일 가이드 RNA" 및 "합성 가이드 RNA"라는 용어는 본원에서 상호교환적으로 사용되며, tracrRNA 및 가이드 서열을 함유하는 pre-crRNA 어레이를 포함하는 핵산 서열을 지칭한다. 용어 "가이드 서열", "가이드" 및 "스페이서"는 본원에서 상호교환가능하게 사용되며 표적 부위를 특정하는 가이드 RNA 내의 약 20개의 뉴클레오타이드 서열을 지칭한다. CRISPR/Cas9 시스템에서 가이드 RNA는 20개의 뉴클레오타이드 가이드 서열과 이어서 Cas9를 왓슨-크리크 염기쌍형성을 통해 표적 서열로 유도하는 프로토스페이서 인접 모티프(PAM)를 함유한다 [Deveau et al., Annu. Rev. Microbiol., 64: 475-493(2010), Jinek et al., Science, 337: 816-821(2012); 및 Xie et al., Genome Res., 24(9): 1526-1533(2014)]. 정형적인 PAM 서열은 스트렙토코커스 피오게네스(Streptococcus pyogenes)의 Cas9의 경우 NGG 또는 NAG이고, 나이세리아 메닌지티디스(Neisseria meningitidis)의 Cas9의 경우 NNNNGATT이다.
본 개시는 변이체 Cas 단백질을 제공한다. 변이체 Cas 단백질은 임의의 적합한 Cas 단백질(또는 이의 상동체 또는 변형된 버전)에 기초하거나, 이로부터 유래될 수 있다. Cas 단백질의 비제한적인 예는 Cas1, Cas1B, Cas2, Cas3, Cas4, Cas5, Cas6, Cas7, Cas8, Cas9(Csn1 및 Csx12로도 알려짐), Cas10, Csy1, Csy2, Csy3, Cse1, Cse2, Csc1, Csc2, Csa5, Csn2, Csm2, Csm3, Csm4, Csm5, Csm6, Cmr1, Cmr3, Cmr4, Cmr5, Cmr6, Csb1, Csb2, Csb3, Csx17, Csx14, Csx10, Csx16, CsaX, Csx3, Csx1, Csx15, Csf1, Csf2, Csf3, 및 Csf4를 포함한다. Cas 단백질 패밀리는, 예를 들어, Haft et al., PLoS Comput. Biol., 1(6): e60(2005)에 더 상세하게 설명되어 있다. 일 구현예에서, 변이체 Cas 단백질은 야생형 Cas9 단백질에 기초하거나 이로부터 유래된다. Cas9 단백질은 임의의 적절한 미생물로부터 수득할 수 있으며, 많은 박테리아가 Cas9 단백질 변이체를 발현한다. 스트렙토코커스 피오게네스 및 S. 써모필러스의 Cas9는 본 기술분야에서 널리 사용된다; 그러나, 다른 Cas9 단백질은 S. 피오게네스 Cas9와 높은 수준의 서열 동일성이 있으며 동일한 가이드 RNA를 사용한다. 다른 종의 Cas9 단백질은 본 기술분야에 공지되어 있고(예를 들어, 미국 특허 출원 공개 2017/0051312 참조), 본 개시와 관련하여 사용될 수 있다. Cas9 단백질은, 예를 들어, Mali et al., Nat Methods, 10(10): 957-963(2013)에 더 설명되어 있고, 다양한 종의 Cas 단백질의 아미노산 서열은 GenBank 및 UniProt 데이터베이스를 통해 공개적으로 이용가능하다.
일 구현예에서, 변이체 Cas9 단백질은 스타필로코커스 아우레우스 Cas9(SaCas9) 단백질, 이상적으로는 야생형 S. 아우레우스 Cas9 단백질에 기초하거나, 이로부터 수득된다. SaCas9는 작고 효율적이며 광범위하게 표적화하는 Cas9 이종상동체(ortholog)에 대한 검색에서 최근에 식별되었고, 이는 유전자 요법 응용예에서 그의 전달을 보다 편리하고 효율적으로 만든다[Ran et al., Nature, 520(7546): 186-191(2015)]. SaCas9는 21 내지 23nt 길이의 가이드 RNA 서열을 사용하여 포유동물 세포에서 알려진 가장 높은 편집 효율을 달성하고 직접 반복체:항-반복체 영역에 대해 다양한 길이를 수용할 수 있다. SaCas9가 NNGRRT의 PAM 서열을 통해 게놈 표적을 가장 효율적으로 절단하지만, 모든 NNGRR PAM은 SaCas9에 의해 절단될 수 있다[Ran et al., 상기 문헌 참조; 및 Friedland et al., Genome Biology, 16: 257 (2015)]. 예시적인 야생형 SaCas9 아미노산 서열은 수탁 번호 J7RUA5(CAS9_STAAU) 하에 UniProt 데이터베이스에 기탁된 아미노산 서열, 및 서열번호 1을 포함한다. SaCas9를 암호화하는 핵산 서열을 포함하는 플라스미드는 Addgene 저장소로부터 공개적으로 입수가능하다.
일 구현예에서, 변이체 SaCas9 단백질은 서열번호 1의 아미노산 서열을 포함하지만, 서열번호 1의 하나 이상의 아미노산 잔기의 치환을 추가로 포함한다. 아미노산 "대체" 또는 " 치환"은 폴리펩타이드 서열 내의 동일한 위치 또는 잔기에 있는 또 다른 아미노산에 의한 주어진 위치 또는 잔기에 있는 하나의 아미노산의 대체를 지칭한다. 아미노산은 "방향족" 또는 "지방족"으로 광범위하게 그룹화된다. 방향족 아미노산은 방향족 고리를 포함한다. "방향족" 아미노산의 예로는 히스티딘(H 또는 His), 페닐알라닌(F 또는 Phe), 티로신(Y 또는 Tyr) 및 트립토판(W 또는 Trp)을 포함한다. 비방향족 아미노산은 "지방족"으로 광범위하게 그룹화된다. "지방족" 아미노산의 예로는 글리신(G 또는 Gly), 알라닌(A 또는 Ala), 발린(V 또는 Val), 류신(L 또는 Leu), 이소류신(I 또는 He), 메티오닌(M 또는 Met), 세린(S 또는 Ser), 트레오닌(T 또는 Thr), 시스테인(C 또는 Cys), 프롤린(P 또는 Pro), 글루탐산(E 또는 Glu), 아스파르트산(A 또는 Asp), 아스파라긴(N 또는 Asn), 글루타민(Q 또는 Gin), 라이신(K 또는 Lys), 및 아르기닌(R 또는 Arg)을 포함한다.
지방족 아미노산은 4개의 하위그룹으로 세분될 수 있다. "큰 지방족 비극성 하위그룹"은 발린, 류신 및 이소류신으로 구성된다. "지방족 약간 극성 하위그룹"은 메티오닌, 세린, 트레오닌 및 시스테인으로 구성된다. "지방족 극성/하전 하위그룹"은 글루탐산, 아스파르트산, 아스파라긴, 글루타민, 라이신 및 아르기닌으로 구성된다. "작은 잔기 하위그룹"은 글리신과 알라닌으로 구성된다. 하전/극성 아미노산 그룹은 3개의 하위그룹으로 세분될 수 있다: 라이신과 아르기닌으로 구성된 "양하전 하위그룹", 글루탐산 및 아스파르트산으로 구성된 "음하전 하위그룹", 및 아스파라긴 및 글루타민으로 구성된 "극성 하위그룹".
방향족 아미노산은 2개의 하위 그룹으로 세분될 수 있다: 히스티딘 및 트립토판으로 구성된 "질소 고리 하위그룹" 및 페닐알라닌 및 티로신으로 구성된 "페닐 하위그룹".
아미노산 대체 또는 치환은 보존적, 반보존적(semi-conservative) 또는 비보존적일 수 있다. "보존적 아미노산 치환" 또는 "보존적 돌연변이"라는 어구는 공통 특성을 갖는 다른 아미노산에 의한 하나의 아미노산의 대체를 지칭한다. 개별 아미노산 사이에 공통 특성을 정의하는 기능적 방식은 동족 유기체의 상응하는 단백질 간에 아미노산 변화의 정규화된 빈도를 분석하는 것이다[Schulz and Schirmer, Principles of Protein Structure, Springer-Verlag, New York(1979)]. 이러한 분석에 따르면, 아미노산 그룹은 일 그룹 내의 아미노산이 서로 우선적으로 교환되고, 따라서 전체 단백질 구조에 미치는 영향이 서로 가장 유사한 것으로 정의될 수 있다 [Schulz 및 Schirmer, 상기 문헌 참조].
보존적 아미노산 치환의 예는 전술한 하위그룹 내의 아미노산에 의한 치환을 포함하며, 예를 들어, 양하전이 유지될 수 있도록 하는 아르기닌 대신 라이신으로의 치환 및 그 반대, 음하전이 유지될 수 있도록 하는 아스파르트산 대신 글루탐산으로의 치환 및 그 반대, 유리 -OH가 유지될 수 있도록 하는 트레오닌 대신 세린으로의 치환, 및 유리 -NH2가 유지될 수 있도록 하는 아스파라긴 대신 글루타민으로의 치환을 포함한다.
"반보존적 돌연변이"는 위에 열거된 동일한 그룹 내이지만, 동일한 하위그룹 내인 것은 아닌 아미노산들의 아미노산 치환을 포함한다. 예를 들어, 아스파라긴 대신 아스파르트산으로의 치환, 또는 라이신 대신 아스파라긴으로의 치환은 동일한 그룹 내이지만, 상이한 하위그룹의 아미노산을 수반한다. "비보존적 돌연변이"는 트립토판 대신 라이신으로의 치환, 또는 세린 대신 페닐알라닌으로의 치환 등과 같이, 상이한 그룹 간의 아미노산 치환을 수반한다.
변이체 SaCas9 단백질은 상기 변이체 SaCas9가 모(parent) SaCas9 단백질의 유용한 활성을 유지하는 한, 또는 바람직하게는 모 단백질과 비교했을 때 향상된 활성 또는 특성(예를 들어, 뉴클레아제 활성, 가이드 RNA 및 표적 DNA와 상호작용하는 능력 등)을 나타내는 한, 서열번호 1의 적합한 아미노산 치환 중 어느 하나 또는 이의 조합을 포함하거나, 상기한 서열번호 1의 적합한 아미노산 치환 중 어느 하나 또는 이의 조합으로 본질적으로 이루어지거나, 또는 상기한 서열번호 1의 적합한 아미노산 치환 중 어느 하나 또는 이의 조합으로 이루어질 수 있다. 일 구현예에서, 변이체 SaCas9 단백질은 아미노산 잔기 E782, N968, N986, 및 R991 중 하나 이상이 상이한 아미노산에 의해 치환된 것을 제외하고는 서열번호 1의 아미노산 서열을 포함한다. 이들 위치의 아미노산은 각각 개별적으로 변형될 수 있거나, 또는 조합이 변형될 수 있다(예를 들어, 위치 986 및 991, 위치 968 및 986, 위치 782 및 986, 위치 782, 986 및 991, 위치 968, 986 및 991이 변형됨). 서열번호 1의 위치 986에 있는 아스파라긴 잔기는, 예를 들어, 알라닌(N986A), 아르기닌(N986R), 라이신(N986K) 또는 히스티딘(N986H)과 같은 임의의 적합한 아미노산 잔기에 의해 치환될 수 있다. 이와 유사하게, 서열번호 1의 위치 991에 있는 아르기닌 잔기는, 예를 들어, 알라닌(R991A), 라이신(R991K), 류신(R991L), 시스테인(R991C), 또는 발린(R991V)과 같은 임의의 적합한 아미노산 잔기에 의해 치환될 수 있다. 서열번호 1의 위치 782에 있는 글루탐산 잔기는, 예를 들어, 라이신(E782K), 아르기닌(E782R) 또는 히스티딘(E782H)과 같은 임의의 적합한 아미노산 잔기에 의해 치환될 수 있다. 서열번호 1의 위치 968에 있는 아스파라긴 잔기는, 예를 들어, 라이신(N968K), 아르기닌(N968R) 또는 히스티딘(N968H)과 같은 임의의 적합한 아미노산 잔기에 의해 치환될 수 있다.
일부 구현예들에서, 변이체 SaCas9 단백질은 N885(아스파라긴, Asn), K886(라이신, K), L887(류신, L), N888(아스파라긴, Asn), A889(알라닌, Ala), R1015(아르기닌, Arg) 및 T1019(트레오닌, Thr)로부터 선택되는 서열번호 1의 하나 이상의 잔기의 아미노산 치환을 추가로 포함할 수 있다. 서열번호 1의 위치 885에서 아스파라긴 잔기는, 예를 들어, 라이신(N885K)과 같은 임의의 적합한 아미노산 잔기에 의해 치환될 수 있다. 서열번호 1의 위치 886에서 라이신 잔기는, 예를 들어, 아스파라긴(K886N) 또는 아르기닌(K886R)과 같은 임의의 적합한 아미노산 잔기에 의해 치환될 수 있다. 서열번호 1의 위치 887에서 라이신 잔기는, 예를 들어, 류신(L887K)과 같은 임의의 적합한 아미노산 잔기에 의해 치환될 수 있다. 서열번호 1의 위치 888에서 라이신 잔기는, 예를 들어, 아스파라긴(N888K)과 같은 임의의 적합한 아미노산 잔기에 의해 치환될 수 있다. 서열번호 1의 위치 889에서 알라닌 잔기는, 예를 들어, 히스티딘(A889H), 라이신(A889K), 또는 아스파라긴(A889N)과 같은 임의의 적합한 아미노산 잔기에 의해 치환될 수 있다. 서열번호 1의 위치 1015에서 아르기닌 잔기는, 예를 들어, 히스티딘(R1015H)과 같은 임의의 적합한 아미노산 잔기에 의해 치환될 수 있다. 서열번호 1의 위치 1019에서 트레오닌 잔기는, 예를 들어, 아르기닌(T1019R), 라이신(T1019K) 또는 히스티딘(T1019H)과 같은 임의의 적합한 아미노산 잔기에 의해 치환될 수 있다.
변이체 SaCas9 단백질은 서열번호 1의 전술한 아미노산 치환 중 어느 하나 또는 조합을 포함하거나, 변이체 SaCas9 단백질은 서열번호 1의 전술한 아미노산 치환 중 어느 하나 또는 조합으로 본질적으로 이루어지거나, 또는 변이체 SaCas9 단백질은 서열번호 1의 전술한 아미노산 치환 중 어느 하나 또는 조합으로 이루어질 수 있다. 일부 구현예들에서, 변이체 Cas9 단백질은, 서열번호 1의 아미노산 서열 및 2개 이상(예를 들어, 2, 3, 4, 5개 또는 그 이상)의 아미노산 치환을 포함한다. 예를 들어, 변이체 SaCas9 단백질은, N986R 및 R991A; N986R 및 R991K; N986R 및 R991L; N885K 및 N986R; K886N 및 N986R; K886R 및 N986R; L887K 및 N986R; N888K 및 N986R; A889H 및 N986R; A889K 및 N986R; A889N 및 N986R; E782K 및 N986R; N968K 및 N986R; E782K 및 N986R; N968K 및 N986R, 또는 상기 치환들 중 2종의 임의의 다른 조합을 포함하나 이에 제한되지는 않는, 서열번호 1의 2개의 아미노산 잔기의 치환을 포함하거나, 상기한 서열번호 1의 2개의 아미노산 잔기의 치환으로 본질적으로 이루어지거나, 또는 상기한 서열번호 1의 2개의 아미노산 잔기의 치환으로 이루어질 수 있다. 다른 구현예에서, 변이체 SaCas9 단백질은, N986R, R991A, 및 T1019R; N986R, R991A 및 T1019K; N986R, R991A 및 T1019H; N986R, R991K 및 T1019R; N986R, R991K 및 T1019K; N986R, R991K 및 T1019H; N986R, R991L 및 T1019R; N986R, R991L 및 T1019K; N986R, R991L 및 T1019H; N986R, R991C 및 T1019R; N986R, R991C 및 T1019K; N986R, R991C 및 T1019H; N986R, R991V 및 T1019R; N986R, R991V 및 T1019K; N986R, R991V 및 T1019H; N885K, N986R 및 R991L; K886N, N986R 및 R991L; K886R, N986R 및 R991L; L887K, N986R 및 R991L; N888K, N986R 및 R991L; A889H, N986R 및 R991L; A889K, N986R 및 R991L; A889N, N986R 및 R991L; E782K, N968K 및 N986R; E782K, N986R 및 R1015H; N968K, N986R 및 R1015H; E782K, N986R 및 R991L; N968K, N986R 및 R991L; 또는 전술한 3개의 치환들 중 임의의 조합을 포함하나 이에 제한되지는 않는, 서열번호 1의 3개의 아미노산 잔기의 치환을 포함하거나, 상기한 서열번호 1의 3개의 아미노산 잔기의 치환으로 본질적으로 이루어지거나, 또는 상기한 서열번호 1의 3개의 아미노산 잔기의 치환으로 본질적으로 이루어질 수 있다. 다른 구현예에서, 변이체 SaCas9 단백질은, E782K, N968K, N986R, 및 R1015H; E782K, N968K, N986R 및 R991L; E782K, N986R, R991L 및 R1015H; N968K, N986R, R991L 및 R1015H, 또는 상기 치환들 4개의 임의의 조합을 포함하는, 서열번호 1의 4개의 아미노산 잔기의 치환을 포함하거나, 상기한 서열번호 1의 4개의 아미노산 잔기의 치환으로 본질적으로 이루어지거나, 상기한 서열번호 1의 4개의 아미노산 잔기의 치환으로 이루어질 수 있다. 일부 구현예들에서, 변이체 SaCas9 단백질은, E782K, N968K, N986R, R991L, 및 R1015H, 또는 상기 치환들 5개의 임의의 조합을 포함하나 이에 제한되지는 않는, 서열번호 1의 5개 아미노산 잔기의 치환을 포함하거나, 상기한 서열번호 1의 5개 아미노산 잔기의 치환으로 본질적으로 이루어지거나, 또는 상기한 서열번호 1의 5개 아미노산 잔기의 치환으로 이루어질 수 있다. 5개보다 많은 아미노산 치환(예를 들어, 6, 7, 8, 9, 10 또는 그 이상의 치환)을 포함하는 변이체 SaCas9 단백질도 본 개시의 영역 내에 있다.
일부 구현예들에서, 본 개시는 본원에 기술된 임의의 아미노산 치환과 함께 또는 치환 없이, 서열번호 1에 대해 적어도 90% 동일한(예를 들어, 적어도 91%, 적어도 92%, 적어도 93%, 적어도 94%, 적어도 95%, 적어도 96%, 적어도 97%, 적어도 98%, 적어도 99%, 또는 100% 동일한) 아미노산 서열을 포함하는 Cas9 단백질을 제공한다. 핵산 또는 아미노산 서열 동일성은 관심 있는 핵산 또는 아미노산 서열을 본원에 기재된 바와 같은 참조 핵산 또는 아미노산 서열과 비교함으로써 결정할 수 있다.
본 개시는 또한 본원에 기술된 변이체 SaCas9 단백질을 암호화하는 단리 또는 정제된 핵산 서열을 제공한다. 또한, 숙주 세포(예를 들어, 포유동물 세포)에서 핵산 서열의 발현을 제공하는 하나 이상의 발현 제어 서열[예를 들어, 프로모터, 인핸서, 폴리아데닐화 신호, 전사 종결인자, 내부 리보솜 진입 부위(IRES) 등]에 선택적으로 작동가능하게 연결된, 단리된 핵산을 포함하는 벡터가 제공된다. 벡터는, 예를 들어, 플라스미드, 에피솜, 코스미드, 바이러스 벡터(예를 들어, 레트로바이러스, 아데노바이러스, 렌티바이러스, 또는 아데노 연관 바이러스 벡터), 또는 파지일 수 있다. 적합한 벡터 및 벡터 제조 방법은 본 기술분야에 잘 알려져 있다[예를 들어, Sambrook et al., Molecular Cloning, a Laboratory Manual, 3rd edition, Cold Spring Harbor Press, Cold Spring Harbor, N.Y.(2001), 및 Ausubel et al., Current Protocols in Molecular Biology, Greene Publishing Associates and John Wiley & Sons, New York, N.Y.(1994) 참조]. 벡터 시스템에서 유전자 발현을 제어하기 위한 예시적인 발현 제어 서열은, 예를 들어, 문헌[Goeddel, Gene Expression Technology: Methods in Enzymology, Vol. 185, Academic Press, San Diego, Calif. (1990), Sambrook et al., 상기 문헌 참조; 및 Ausubel et al., 상기 문헌 참조]에 기술된 원핵 및 진핵 서열을 포함한다.
프로모터와 같은 발현 제어 서열의 선택은 본원에 기술된 벡터 및 시스템의 특정 적용예에 따라 달라진다. 다양한 상이한 공급원으로부터의 구성적, 유도성 및 억제성 프로모터를 비롯한 다수의 프로모터는 본 기술분야에 잘 알려져 있다. 프로모터의 대표적인 공급원은, 예를 들어, 바이러스, 포유동물, 곤충, 식물, 효모 및 박테리아를 포함하고, 이러한 공급원으로부터의 적합한 프로모터는, 예를 들어, ATCC와 같은 기탁소 뿐만 아니라 다른 상업적 또는 개별 공급원에서 공개적으로 이용가능한 서열을 기반으로 하여 쉽게 입수할 수 있거나, 또는 합성적으로 제조될 수 있다. 프로모터는 일방향(즉, 한 방향으로 전사를 개시함) 또는 양방향(즉, 3' 또는 5' 방향으로 전사를 개시함)일 수 있다. 프로모터의 비제한적인 예는, 예를 들어, T7 박테리아 발현 시스템, pBAD(araA) 박테리아 발현 시스템, 거대세포바이러스(CMV) 프로모터, SV40 프로모터, RSV 프로모터를 포함한다. 유도성 프로모터는, 예를 들어, Tet 시스템(미국 특허 제5,464,758호 및 제5,814,618호), 엑디손(Ecdysone) 유도성 시스템[No et al., Proc. Natl. Acad. Sci., 93: 3346-3351(1996)], T-REX™ 시스템(Invitrogen, 캘리포니아 칼즈배드 소재), LACSWITCH™ 시스템(Stratagene, 캘리포니아 샌디에고 소재) 및 Cre-ERT 타목시펜 유도성 재조합효소 시스템[Indra et al., Nuc. Acid. Res., 27: 4324-4327(1999); Nuc. Acid. Res., 28: e99(2000); 미국 특허 제7,112,715호; 및 Kramer & Fussenegger, Methods Mol. Biol., 3086: 123-144(2005)]을 포함한다.
변이체 SaCas9 단백질을 암호화하는 핵산 서열은 동족 가이드 RNA 서열(sgRNA)과 동일한 벡터[즉, 시스(cis)로] 상에서 세포로 제공될 수 있다. 이러한 구현예에서, 일방향 프로모터는 각 핵산 서열의 발현을 제어하는데 사용될 수 있다. 또 다른 구현예에서, 양방향 및 일방향 프로모터의 조합이 사용되어, 다중 핵산 서열의 발현을 제어할 수 있다. 다른 구현예에서, 변이체 SaCas9 단백질 및 이의 동족 가이드 RNA 서열을 암호화하는 핵산 서열은 별도의 벡터 상에서[즉, 트랜스(trans)로] 세포로 제공될 수 있다. 각각의 별도의 벡터 내의 각각의 핵산 서열은 동일하거나 상이한 발현 제어 서열을 포함할 수 있다. 별도의 벡터는 동시에 또는 순차적으로 세포로 제공될 수 있다.
변이체 SaCas9 단백질을 암호화하는 핵산 서열을 포함하는 벡터는 임의의 적합한 원핵 또는 진핵 세포를 포함하여, 암호화된 폴리펩타이드를 발현할 수 있는 숙주 세포 내로 도입될 수 있다. 이와 같이, 본 개시는 본원에 개시된 벡터 또는 핵산 서열을 포함하는 단리된 세포를 제공한다. 바람직한 숙주 세포는 용이하고 안정적으로 성장할 수 있고, 합리적으로 빠른 성장 속도를 가지며, 잘 특성화된 발현 시스템을 갖고, 쉽고 효율적으로 형질전환 또는 형질감염될 수 있는 것이다. 적합한 원핵 세포의 예로는, 바실러스 속[예를 들어, 바실러스 서브틸리스(Bacillus subtilis) 및 바실러스 브레비스(Bacillus brevis)], 에스케리키아(Escherichia)(예컨대, E. 콜라이), 슈도모나스(Pseudomonas), 스트렙토마이세스(Streptomyces), 살모넬라(Salmonella) 및 엔비니아(Envinia) 속의 세포를 포함하지만, 이에 제한되지는 않는다. 적합한 진핵 세포는 본 기술분야에 공지되어 있으며, 예를 들어, 효모 세포, 곤충 세포 및 포유동물 세포를 포함한다. 적합한 효모 세포의 예는 클루이베로마이세스(Kluyveromyces), 피치아(Pichia), 라이노-스포리디움(Rhino-sporidium), 사카로마이세스(Saccharomyces) 및 쉬조사카로마이세스(Schizosaccharomyces) 속의 것들을 포함한다. 예시적인 곤충 세포는 Sf-9 및 HIS(Invitrogen, 캘리포니아 칼즈배드 소재)를 포함하고, 예를 들어, Kitts et al., Biotechniques, 14: 810-817(1993); Lucklow, Curr. Opin. Biotechnol., 4: 564-572(1993); 및 Lucklow et al., J. Virol., 67: 4566-4579(1993)에 기술되어 있다. 바람직하게는, 숙주 세포는 포유동물 세포이고, 일부 구현예들에서, 숙주 세포는 인간 세포이다. 다수의 적합한 포유동물 및 인간 숙주 세포는 본 기술분야에 공지되어 있고, 다수가 미국 모식균 배양 수집소[American Type Culture Collection(ATCC), 버지니아 마나사스 소재]로부터 입수가능하다. 적합한 포유동물 세포의 예로는 중국 햄스터 난소 세포(CHO)(ATCC 번호 CCL61), CHO DHFR-세포[Urlaub et al., Proc. Natl. Acad. Sci. USA, 97: 4216-4220(1980)], 인간 배아 신장(HEK) 293 또는 293T 세포(ATCC 번호 CRL1573), 및 3T3 세포(ATCC 번호 CCL92)를 포함하나, 이에 제한되지는 않는다. 다른 적합한 포유동물 세포주는 원숭이 COS-1(ATCC 번호 CRL1650) 및 COS-7 세포주(ATCC 번호 CRL1651), 및 CV-1 세포주(ATCC 번호 CCL70)이다. 또 다른 예시적인 포유동물 숙주 세포는 형질전환된 세포주를 비롯한, 영장류, 설치류 및 인간 세포주를 포함한다. 정상 이배체 세포, 1차 조직의 시험관내 배양물에서 유래된 세포 계통, 및 1차 외식편도 적합하다. 다른 적합한 포유동물 세포주는 마우스 신경모세포종 N2A 세포, HeLa, 마우스 L-929 세포, 및 BHK 또는 HaK 햄스터 세포주를 포함하지만, 이에 제한되지 않으며, 이들 모두는 ATCC로부터 입수가능하다. 적합한 포유동물 숙주 세포를 선택하는 방법 및 세포의 형질전환, 배양, 증폭, 스크리닝 및 정제 방법은 본 기술분야에 공지되어 있다.
본 개시는 본원에 기술된 변이체 SaCas9 단백질을 포함하는, CRISPR/Cas 시스템을 제공한다. 본원에 사용된 "CRISPR/Cas 시스템"은 Cas 유전자, Cas 단백질, tracr(트랜스-활성화 CRISPR) 서열(예를 들어, tracrRNA 또는 활성 부분 tracrRNA), cr(CRISPR) 서열(예를 들어, crRNA 또는 활성 부분 crRNA)을 암호화하는 서열, 또는 CRISPR 유전자좌로부터의 다른 서열 및 전사체를 비롯한, CRISPR-연관("Cas") 유전자의 발현 및/또는 그의 활성을 유도하는데 관여하는 전사체 및 기타 요소를 통칭한다. 일부 구현예들에서, CRISPR 시스템의 하나 이상의 요소는 I형, II형 또는 III형 CRISPR 시스템에서 유래된다. 일부 구현예들에서, CRISPR 시스템의 하나 이상의 요소는 내인성 CRISPR 시스템을 포함하는 특정 유기체, 예컨대 스타필로코커스 아우레우스 또는 스트렙토코커스 피오게네스로부터 유래된다. 특정 구현예들에서, Cas9 단백질은 벡터와 별도이거나, 벡터와 연관되거나, 또는 벡터에 의해 암호화되는 시스템에 포함될 수 있다. 따라서, 본 개시는 (a) 숙주 세포 중 표적 게놈 DNA 서열에 상보적인 가이드 RNA 서열로서, 상기 표적 게놈 DNA 서열이 1종 이상의 유전자 생성물을 암호화하는 것인, 가이드 RNA 서열; 및 (b) 본원에 기재된 변이체 SaCas9 단백질을 암호화하는 핵산 서열을 포함하는 핵산 분자를 포함하는 시스템을 제공한다. 다른 구현예들에서, 본 개시는 (a) 숙주 세포 중 표적 게놈 DNA 서열에 상보적인 가이드 RNA 서열로서, 상기 표적 게놈 DNA 서열이 1종 이상의 유전자 생성물을 암호화하는 것인, 가이드 RNA 서열; 및 (b) 본원에 기재된 변이체 SaCas9 단백질을 포함하는 시스템을 제공한다. 상기 시스템이 가이드 RNA 서열 및 상기 변이체 SaCas9 단백질을 암호화하는 핵산 서열을 포함하는 경우, 상기 변이체 SaCas9 단백질을 암호화하는 핵산 분자 및 이의 가이드 RNA 서열은 상기 논의된 바와 같이, 상이한 벡터에 존재하거나 동일한 벡터에 존재할 수 있다. Cas9 단백질이 벡터와 별도의 시스템에 포함되는 경우, 단일 조성물(예를 들어, 약제학적 조성물)에 단독으로 존재하거나, 또는 가이드 RNA 서열을 포함하는 벡터와 조합되어 바람직하게 포함되며, 상기 벡터에 물리적 또는 화학적으로 결합되지 않는다. 다른 구현예에서, Cas9 단백질은 상기 벡터에 물리적 또는 화학적으로 연결 또는 결합된다면, Cas9 단백질과 벡터 간에 복합체(예를 들어, Cas9 단백질과 바이러스 벡터 간의 복합체)가 형성되도록 가이드 RNA 서열을 포함하는 벡터와 "연관"될 수 있다. 상기 Cas9 단백질은 본 기술분야에 공지된 단백질-단백질 연결 또는 단백질-바이러스 연결을 위한 임의의 적합한 방법을 사용하여 벡터와 연관될 수 있다.
용어 "표적 서열", "표적 핵산" 및 "표적 부위"(예를 들어, "표적 게놈 DNA 서열")는 가이드 서열(예를 들어, 가이드 RNA)이 상보성을 갖도록 설계되는 숙주 세포의 폴리뉴클레오타이드(핵산, 유전자, 염색체, 게놈 등)를 지칭하기 위해 본원에서 상호교환가능하게 사용되며, 여기서 상기 표적 서열과 가이드 서열 간의 혼성화는 결합에 충분한 조건이 존재한다면, CRISPR 복합체의 형성을 촉진한다. 본원에 사용된 용어 "게놈"은 세포의 염색체 상에 위치하는 핵산 서열(예를 들어, 유전자 또는 유전자좌)을 지칭한다. 상기 표적 서열과 가이드 서열은 혼성화를 유발하여 CRISPR 복합체의 형성을 촉진하기에 충분한 상보성이 있다면, 완전한 상보성을 나타낼 필요는 없다. 표적 서열은 DNA 또는 RNA와 같은 임의의 폴리뉴클레오타이드를 포함할 수 있다. 적합한 DNA/RNA 결합 조건은 세포에 정상적으로 존재하는 생리학적 조건을 포함한다. 다른 적합한 DNA/RNA 결합 조건(예를 들어, 무세포 시스템의 조건)은 본 기술분야에 공지되어 있다; 예를 들어, 본원에 참고되고 참고로 포함된 Sambrook 참조. DNA-표적화 RNA에 상보적이고 혼성화하는 표적 DNA의 가닥은 "상보적 가닥"이라고 지칭되며, "상보적 가닥"에 상보적인(이에 따라 상기 DNA 표적화 RNA에는 상보적이지 않음) 표적 DNA의 가닥은 "비상보적 가닥" 또는 "비-상보적 가닥"이라고 지칭된다.
표적 게놈 DNA 서열은 바람직하게는 유전자 생성물을 암호화한다. 본원에 사용된 용어 "유전자 생성물"은 유전자의 발현으로 인한 임의의 생화학적 생성물을 지칭한다. 유전자 생성물은 RNA 또는 단백질일 수 있다. RNA 유전자 생성물로는 tRNA, rRNA, 마이크로RNA(miRNA), 및 작은 간섭 RNA(small interfering RNA, siRNA)와 같은 비-암호 RNA, 및 전령 RNA(mRNA)와 같은 암호 RNA를 포함한다. 일부 구현예들에서, 표적 게놈 DNA 서열은 단백질 또는 폴리펩타이드를 암호화한다.
본 개시는 또한 숙주 세포 중 표적 게놈 DNA 서열을 변경하는 방법을 제공하며, 이 방법은 표적 게놈 DNA 서열을 포함하는 숙주 세포를 본원에 기술된 상기 시스템과 접촉시키는 것을 포함하고, 여기서 (a) 상기 가이드 RNA 서열은 숙주 세포에서 발현되어 숙주 세포 게놈 중 표적 게놈 DNA 서열에 결합하며, (b) 상기 변이체 SaCas9 단백질은 숙주 세포에서 발현되며, 상기 표적 게놈 DNA 서열의 이중 가닥 파손(break)을 유도하여, 상기 숙주 세포 중 상기 표적 게놈 DNA 서열을 변경한다. 본원 발명의 시스템과 관련하여 상기 제시된 변이체 SaCas9 단백질, 가이드 RNA 서열, 숙주 세포, 표적 게놈 DNA 서열, 및 이의 성분에 대한 설명은 숙주 세포 중 표적 게놈 DNA 서열을 변경하는 방법에도 적용가능하다.
본원에 사용된 "DNA 서열을 변경하는(altering)"이라는 문구는 관심 있는 야생형 DNA 서열의 적어도 하나의 물리적 특징을 변형시키는 것을 지칭한다. DNA 변경은, 예를 들어, 단일 또는 이중 가닥 DNA 파손, 하나 이상의 뉴클레오타이드의 결실 또는 삽입, 및 DNA 서열의 구조적 완전성 또는 뉴클레오타이드 서열에 영향을 미치는 기타 변형을 포함한다. 일 구현예에서, 방법은 표적 DNA 서열의 단일 가닥 또는 이중 가닥 파손을 도입시킨다. 이와 관련하여, 변이체 SaCas9 단백질은 표적 게놈 DNA 서열 내 및/또는 표적 서열의 보체 내와 같은 표적 DNA 서열의 한 가닥 또는 양 가닥의 절단을 유도한다. 일부 구현예들에서, 변이체 SaCas9 단백질은 표적 서열의 첫 뉴클레오타이드 또는 마지막 뉴클레오타이드로부터 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 50, 100, 200, 500개 이상의 염기쌍 내에 있는 표적 서열의 한 가닥 또는 양 가닥의 절단을 유도한다.
바람직하게는, 개시된 방법은 표적 DNA 서열의 발현을 조절하기 위해 숙주 세포 중 표적 게놈 DNA 서열을 변경하며, 즉, 표적 DNA 서열의 발현이 증가 또는 감소된다. 일 구현예에서, 변이체 SaCas9 단백질은 이중 가닥 DNA 파손을 생산하도록 숙주 세포의 표적 DNA 서열을 절단한다. 이중 가닥 파손은 비상동 말단 접합(non-homologous end joining, NHEJ) 또는 상동 재조합을 통해 숙주 세포에 의해 수복될 수 있다. NHEJ에서 이중 가닥 파손은 파손 말단을 서로 직접 결찰하여 수복한다. 따라서, 새로운 핵산 물질이 DNA 파손 위치에 삽입되지 않는다; 그러나, 일부 핵산 물질이 손실되어 결실을 초래할 수 있다. 상동 재조합 수복에서, 절단된 표적 DNA 서열과 상동성을 갖는 제2 DNA 서열을 포함하는 공여 핵산 분자는 절단된 표적 DNA 서열의 수복을 위한 주형으로서 사용되어 공여 핵산 분자로부터 표적 DNA로 유전자 정보의 전달을 초래한다. 그 결과, 새로운 핵산 물질이 DNA 파손 부위에 삽입/카피된다. NHEJ 및/또는 상동 재조합 수복으로 인한 표적 서열의 변형은, 예를 들어, 유전자 교정, 유전자 대체, 유전자 태그화(tagging), 전이유전자 삽입, 뉴클레오타이드 결실, 유전자 파괴, 유전자 돌연변이, 유전자 녹다운(knock-down) 등을 초래한다.
일부 구현예들에서, 본원에 기재된 시스템 및 방법은 유전자의 하나 이상의 결함 또는 돌연변이를 교정하는데 사용될 수 있다("유전자 교정"이라 지칭됨). 이러한 경우에, 표적 게놈 DNA 서열은 유전자의 결함 버전을 암호화하고, CRISPR/Cas 시스템은 유전자의 야생형 또는 교정된 버전을 암호화하는 공여 핵산 분자를 추가로 포함한다. 즉, 환언하면, 표적 게놈 DNA 서열은 "질병 연관" 유전자이다. 용어 "질병 연관 유전자(disease-associated gene)"는 질병에 걸리지 않은 개체로부터 얻은 조직 또는 세포와 비교했을 때, 상기 질병에 걸린 개체로부터 얻은 세포에서 유전자 생성물이 비정상적인 수준 또는 비정상적인 형태로 발현되는 임의의 유전자 또는 폴리뉴클레오타이드를 지칭한다. 질병 연관 유전자는 비정상적으로 높은 수준 또는 비정상적으로 낮은 수준으로 발현될 수 있으며, 여기서 변경된 발현은 질병의 발생 및/또는 진행과 상관성이 있다. 질병 연관 유전자는 또한 이 유전자의 돌연변이 또는 유전자 변이가 질병의 병인에 직접 책임이 있거나, 질병의 병인에 책임이 있는 유전자(들)와 연결 불균형 상태에 있는 유전자를 지칭한다. 이러한 "단일 유전자" 또는 "일유전자(monogenic)" 질병에 책임이 있는 유전자의 예로는 아데노신 탈아미노효소, α-1 항트립신, 낭포성 섬유증 막관통 전도도 조절인자(CFTR), β-헤모글로빈(HBB), 안구피부 백색증 II(OCA2), 헌팅틴(HTT), 근긴장증-단백질 키나제(DMPK), 저밀도 지단백 수용체(LDLR), 아포지단백 B(APOB), 뉴로피브로민 1(NF1), 다낭성 신장 질환 1(PKD1), 다낭성 신장 질환 2(PKD2), 응고 인자 VIII(F8), 디스트로핀(DMD), 인산염 조절 엔도펩티다제 동족체, X-연관형(PHEX), 메틸-CpG-결합 단백질 2(MECP2) 및 유비퀴틴 특이적 펩티다제 9Y, Y-연관형(USP9Y)을 포함하지만, 이에 제한되지는 않는다. 다른 단일 유전자 또는 일유전자 질병은 본 기술분야에 공지되어 있고, 예를 들어, Chial, H. Rare Genetic Disorders: Learning About Genetic Disease Through Gene Mapping, SNPs, and Microarray Data, Nature Education 1(1): 192(2008); Online Mendelian Inheritance in Man (OMIM)(www.ncbi.nim.nih.gov/entrez/query.fcgi?db=OMIM); 및 Human Gene Mutation Database(HGMD)(www.hgmd.cf.ac.uk)에 기술되어 있다. 다른 구현예들에서, 표적 게놈 DNA 서열은 유전자의 돌연변이가 다른 유전자의 돌연변이와 조합으로 특정 질병에 기여하는 유전자를 포함할 수 있다. 단순(즉, 멘델식) 유전 패턴이 결여된 다중 유전자의 기여에 의해 유발되는 질병은 본 기술분야에서 "다인성" 또는 "다유전자성" 질병으로 지칭된다. 다인성 또는 다유전자성 질병의 예로는 천식, 당뇨병, 간질, 고혈압, 양극성 장애 및 정신분열증을 포함하지만, 이에 제한되지는 않는다. 특정 발달 이상은 또한 다인성 또는 다유전자성 패턴으로 유전될 수 있으며, 예를 들어, 구순구개열, 선천성 심장 결함 및 신경관 결함을 포함한다.
또 다른 구현예에서, 표적 게놈 DNA 서열을 변경하는 방법은, 표적 서열을 절단하고 외인적으로 제공된 공여(donor) 핵산 분자의 부재 하에 상기 숙주 세포가 상기 절단된 서열을 수복(repair)하도록 하여, 숙주 세포의 표적 서열로부터 핵산을 결실시키는데 사용될 수 있다. 이러한 방식으로 핵산 서열의 결실은, 예를 들어, 뉴런에서 질병 유발 트리뉴클레오타이드 반복 서열을 제거하고, 유전자 녹아웃 또는 녹다운을 만들고, 연구 중인 질병 모델을 위해 돌연변이를 생성하는 것과 같은 다양한 적용예에 사용될 수 있다.
본원에서 논의된 바와 같이, 변이체 SaCas9 단백질은 야생형 SaCas9 단백질과 비교하여 변경되고 개선된 PAM 특이성을 나타낸다. 변경된 PAM 특이성은 현재 표적화할 수 없는 게놈 유전자좌(genome loci)를 SaCas9 변이체가 효율적으로 파괴할 수 있도록 한다. 따라서, 일부 구현예들에서, 변이체 SaCas9 단백질은 표적 게놈 DNA 서열에 인접하게 위치한 핵산 서열 NNGRR[T/A/C/G]를 포함하는 프로토스페이서 인접 모티프(PAM)를 포함하는 숙주 세포 게놈에서 활성적이며, 여기서 "N"은 구아닌, 아데닌, 티민 또는 시토신이고 "R"은 구아닌 또는 아데닌이다. PAM은 전형적으로 표적 서열 바로 뒤에 있다는 점에서 표적 게놈 DNA 서열에 "인접"한 것이다. 특정 변이체 SaCas9 단백질에 의해 인식되는 PAM 서열은 상기 변이체에 존재하는 특정 아미노산 치환에 따라 달라질 것이다. 특정 구현예들에서, 상기 개시된 변이체 SaCas9 단백질에 의해 인식되는 PAM은 핵산 서열 NNGRRT, NNGRRC, NNGRRA 또는 NNGRRG를 포함한다.
본 기술분야에 공지된 임의의 적합한 CRISPR/Cas 유전자 편집 시스템의 임의의 요소는 적절한 경우, 본원에 기재된 시스템 및 방법에 이용될 수 있다. CRISPR/Cas 유전자 편집 기술은, 예를 들어, Cong et al., 상기 문헌 참조; Xie et al., 상기 문헌 참조; 미국 특허 출원 공개 공보 2014/0068797; 미국 특허 제8,697,359호; 제8,771,945호; 및 제8,945,839호; US2010/0076057; US2011/0189776; US2011/0223638; US2013/0130248; WO/2008/108989; WO/2010/054108; WO/2012/164565; WO/2013/098244; WO/2013/176772; US20150050699; US20150045546; US20150031134; US20150024500; US20140377868; US20140357530; US20140349400; US20140335620; US20140335063; US20140315985; US20140310830; US20140310828; US20140309487; US20140304853; US20140298547; US20140295556; US20140294773; US20140287938; US20140273234; US20140273232; US20140273231; US20140273230; US20140271987; US20140256046; US20140248702; US20140242702; US20140242700; US20140242699; US20140242664; US20140234972; US20140227787; US20140212869; US20140201857; US20140199767; US20140189896; US20140186958; US20140186919; US20140186843; US20140179770; US20140179006; 및 US20140170753; Makarova et al., Nature Reviews Microbiology, 9(6): 467-477 (2011); Wiedenheft et al., Nature, 482: 331-338(2012); Gasiunas et al., Proceedings of the National Academy of Sciences USA, 109(39): E2579-E2586(2012); Jinek et al., Science, 337: 816-821 (2012); Carroll, Molecular Therapy, 20(9): 1658-1660 (2012); Al-Attar et al., Biol Chem., 392(4): 277-289(2011); 및 Hale et al., Molecular Cell, 45(3): 292-302(2012)에 상세하게 기술되어 있다.
본 개시는 분자 역학 및 실험적 표적 검증을 조합한, 원하는 PAM 특이성을 갖는 변이체 Cas9 단백질을 생성하는 방법을 추가로 제공한다. 상기 방법은 (a) 원하는 PAM에 대한 하나 이상의 돌연변이 Cas9 단백질의 결합을 분자적으로 시뮬레이션하는 단계; (b) 상기 (a)의 시뮬레이션에서 원하는 PAM에 결합하는 하나 이상의 돌연변이 Cas9 단백질을 합성적으로 생성하는 단계, (c) 숙주 세포 중 표적 DNA 서열에 상보적인 가이드 RNA 서열과 조합으로 하나 이상의 돌연변이 Cas9 단백질을 숙주 세포에서 발현시키는 단계로서, 상기 숙주 세포 게놈이 상기 표적 DNA 서열 및 상기 원하는 PAM을 포함하는 것인, 단계; (d) 상기 하나 이상의 돌연변이 Cas9 단백질의 절단 활성을 측정하는 단계; 및 (e) 상기 원하는 PAM에 결합하고 상기 표적 DNA 서열을 절단하는 하나 이상의 돌연변이 Cas9 단백질을 선택함으로써, 원하는 PAM 특이성을 갖는 변이체 Cas9이 생성되는 단계를 포함한다.
본 명세서에 사용된 "분자 역학(molecular dynamics, MD)"이라는 용어는 원자 및 분자의 물리적 움직임(movement)들을 연구하기 위한 컴퓨터 시뮬레이션 방법을 지칭한다. 원자 및 분자는 고정된 시간 동안 상호작용하게 함으로써 시스템의 동적 진화(dynamic evolution)의 뷰(view)를 제공한다. 실험 연구를 보완하는 MD 시뮬레이션은 단백질-DNA 상호작용을 이해하는 데 효과적인 것으로 입증되었다 [Palermo et al., Proc. Natl. Acad. Sci. USA, 114: 7260-7265 (2017); 및 Cong et al., Nat. Commun., 3: 968(2012)]. PAM 서열과의 Cas9 결합 상호작용을 포함하는 CRISPR/Cas9 시스템의 다양한 구조적 성분을 탐침하는 방법은 본 기술분야에 기술되어 있고 본 개시와 관련하여 사용될 수 있다 [예를 들어, Estarellas et al., Biochim Biophys Acta, 1850(5): 1072-1090(2015); Palermo et al., J Am Chem Soc., 139(45):16028-16031(2017); Palermo et al., ACS Cent Sci., 2(10): 756-76(2016); Huai et al., Nat Commun., 8(1):1375(2017); 및 Wan et al., Sci Rep., 9(1):3188(2019)]. 본원에 기재된 변이체 SaCas9 단백질에 대한 상세한 MD 시뮬레이션 방법론은 실시예에 제시되어 있다. 돌연변이 Cas9 단백질은 본원에 기재된 것과 같은 임의의 종으로부터의 임의의 적합한 야생형 Cas9 단백질에 기초하거나 그로부터 유래될 수 있다.
일부 구현예들에서, 원하는 PAM에 대한 하나 이상의 돌연변이 Cas9 단백질의 결합을 분자적으로 시뮬레이션하는 것은 자유 에너지 섭동(FEP, free energy perturbation) 계산을 포함한다. 본원에 사용된 용어 "자유 에너지 섭동(free energy perturbation)"은 분자 역학으로부터 자유 에너지 차이를 계산하기 위해 컴퓨터 화학에서 사용되는 통계 역학에 기초한 방법을 지칭한다. FEP 계산은 단백질의 인-실리코(in-silico) 돌연변이유발 연구뿐만 아니라 호스트-게스트 결합 에너지론, pKa 예측, 반응에 대한 용매 효과 및 효소 반응을 연구하는 데 널리 사용되었다. FEP 방법은, 예를 들어, Chipot, C.; Pohorille, A. (eds.), Free Energy Calculations, Springer (2007); 및 Steinbrecher et al., J Mol Biol., 429(7): 923-929(2017)에 상세히 기술되어 있다.
분자 역학 시뮬레이션은 PAM 특이성을 변경(예를 들어, 향상 또는 확장)시킬 수 있는 Cas9 단백질의 잠재적인 아미노산 치환의 식별을 허용한다. 따라서, 원하는 PAM 서열에 대한 하나 이상의 돌연변이 Cas9 단백질의 결합을 분자적으로 시뮬레이션한 후; 상기 방법은 (a)의 시뮬레이션에서 원하는 PAM 서열에 결합하는 하나 이상의 돌연변이 Cas9 단백질을 합성적으로 생성하는 것을 포함한다. 하나 이상의 돌연변이 Cas9 단백질은 본 기술분야에 공지된 재조합 DNA 기술 및/또는 시험관내 단백질 합성 방법을 사용하여 합성적으로 생성될 수 있다 [예를 들어, Sambrook et al., 상기 문헌 참조]. 야생형 Cas9 아미노산 서열은, 예를 들어, 삽입, 결실 및/또는 치환과 같은, 본 기술분야에 공지된 임의의 적합한 방법에 의해 Cas9 돌연변이체를 생성하도록 돌연변이될 수 있다. 예를 들어, 돌연변이는 야생형 Cas9 단백질을 암호화하는 핵산 서열 내로, 무작위로 또는 부위 특이적 방식으로 도입될 수 있다. 무작위 돌연변이는, 예를 들어, Cas9 주형 서열의 오류가 발생하기 쉬운(error-prone) PCR에 의해 생성될 수 있다. 부위 특이적 돌연변이는, 예를 들어, 변형된 부위를 포함하는 합성된 올리고뉴클레오타이드를 발현 벡터 내에 결찰시킴으로써 도입될 수 있다. 대안적으로, 예컨대, Walder et al., Gene, 42:133 (1986); Bauer et al., Gene, 37: 73(1985); Craik, Biotechniques, 12-19(January 1995); 및 미국 특허 제4,518,584호 및 제4,737,462호에 개시된 것과 같은 올리고뉴클레오타이드-유도 부위 특이적 돌연변이유발 절차가 사용될 수 있다.
분자 역학 시뮬레이션에 의해 예측된 하나 이상의 Cas9 돌연변이 단백질의 PAM 특이성을 평가하기 위해, 하나 이상의 돌연변이 Cas9 단백질은 숙주 세포의 표적 DNA 서열에 상보적인 가이드 RNA 서열과 조합으로 숙주 세포에서 발현될 수 있고, 여기서, 상기 숙주 세포 게놈은 표적 DNA 서열 및 원하는 PAM을 포함한다. 핵산 서열을 변경시키는 본원 발명의 시스템 및 방법과 관련하여 상기 제시된 숙주 세포, 가이드 RNA 서열, 표적 DNA 서열, 및 이들의 성분에 대한 설명은 또한 변이체 Cas9 단백질을 생성하는 방법에도 적용가능하다. 하나 이상의 돌연변이 Cas9 단백질의 절단 활성은 일단 숙주 세포에서 발현되면, 엔도뉴클레아제 활성을 측정하기에 적합한 임의의 검정을 사용하여 측정할 수 있다. 이러한 검정은, 예를 들어, Ander, C. and M. Jinek, Methods Enzymol., 546: 1-20 (2014); Maria J. Yebra and Ashok S. Bhagwat, Nucleic Acids Research, 21(24): 5797-5798(1993); Zhang et al., Chem Sci., 7(8): 4951-495 (2016); 및 Seamon et al., Anal. Chem., 90(11): 6913-6921(2018)에 기술되어 있다. 본원에 기술된 조작 전략은 표적가능한 PAM의 범위를 더욱 다양화하기 위해 임의의 야생형 또는 합성 Cas9 단백질, 또는 이의 유도체를 이용하여 수행할 수 있다.
하기 실시예들은 본원 발명을 추가로 예시하지만, 물론 그 범위를 어떤 식으로든 제한하는 것으로 해석되어서는 안 된다.
[실시예]
재료 및 방법
MD 시뮬레이션
모든 원자 분자 역학(MD) 시뮬레이션은 도 1a에 도시된 바와 같이 0.15 M NaCl 전해질에 용매화된 결합된 DNA와 함께 또는 없이 SaCas9-sgRNA 복합체에 대해 수행했다. 단백질 접힘(folding) 역학 연구[Zhou et al., Proc. Natl. Acad. Sci. USA, 100: 13280-13285(2003); Liu et al., Nature, 437: 159-162(2005)], 단백질-리간드 결합의 분자 메커니즘 발견[Want et al., Proc. Natl. Acad. Sci. USA, 109: 1937-1942 (2012); 및 Chipot, C. and A. Pohorille, Free Energy Calculations; Springer(2007)], 바이오나노 계면에서의 상호작용 조사[Ge et al., Proc. Natl. Acad. Sci. USA, 108: 16968-16973(2011), Tu et al., Nature Nanotechnol., 8: 594-601(2013); Luan et al., ACS Nano, 9:663-669(2015); Luan et al., ACS Nano, 11:12615-12623(2017)] 등에 사용된 이전 프로토콜에 따라, 모든 MD 시뮬레이션 및 FEP 계산은 소프트웨어 패키지 NAMD2.11[Phillips et al., J. Comp. Chem., 26: 1781-1802(2005)]을 이용하여 수행했다. 각 모서리(edge)가 약 126.3Å으로 측정되는 입방형 워터 박스(cubic water box)에서 복합체(PDB ID: 5CZZ)를 용매화한 후, 이 시스템에 249 Na+ 및 175Cl-를 첨가하여 복합체의 전하를 중화하고, 이온 농도를 SaCas9의 실험적으로 검증된 활성 조건[Ran et al., Nature, 520: 186-191 (2015)]에 상응하는 0.15 M이 되도록 설정했다. Mg2+ 또는 이와 유사한 2가 금속 이온은 SaCas9에서 RuvC 및 HNH 도메인의 DNA 절단 활성에 중요하지만, 이들은 뉴클레아제 도메인 활성 부위에 위치하여, 본원에 기술된 연구의 핵심인 PAM 인식 과정에 결합하거나 영향을 미치지 않는다. 따라서, 이 시뮬레이션에는 2가 이온을 포함시키지 않았다. 도 1a에 도시된 최종 시스템은 206,984개의 원자를 함유하고, 백본의 원자가 조화롭게 제약된(스프링 상수 k = 1 kcal/mol/Å2) NPT 앙상블(P ~ 1bar 및 T ~ 300K)에서 10ps 동안 최소화되었고, 10 ns 동안 더욱 평형화되었다. S9 제약을 제거한 후, 전체 시스템은 그 다음 NPT 앙상블(ensemble) 중 추가 5 ns 동안 평형화했고, 이어서 NVT 앙상블에서 생산 진행을 수행하였다.
CHARMM 역장(force field)[MacKerell et al., J. Phys. Chem. B, 102: 3586-3616(1998)]은 단백질, DNA 및 RNA 분자에 적용되었으며; TIP3P 모델[Jorgensen et al., J. Chem. Phys., 79: 926-935(1983); Neria et al., J. Chem. Phys., 105: 1902-1921(1996)]은 물에 선택되었으며; 표준 힘장[Beglov, D. and B. Roux, J. Chem. Phys., 100: 9050-9063(1994)]은 이온에 사용되었다. 주기적 경계 조건(periodic boundary conditions, PBC)은 모든 3차원에 적용했다. 원거리(long-range) 쿨롱 상호작용은 각 차원에서 그리드(grid) 크기가 약 1 Å인 입자-메시 Ewald(particle-mesh Ewald, PME) 전체 정전기학을 사용하여 계산했다. 원자 간의 반데르발스(vdW) 에너지는 매끄러운(10-12Å) 컷오프를 사용하여 계산했다. 온도 T는 시뮬레이션된 분자의 골격 원자와 물의 모든 산소 원자에 Langevin 써모스탯(thermostat)을 적용하여 300K로 유지시켰다[Allen, M.P. and Tildesley, D.J., Computer Simulation of Liquids; Oxford University Press: New York (1987)]. 압력은 Nose-Hoover 방법[Martinez, T. and K. Schulten, Neur. Netw., 7: 507-522(1994)]을 사용하여 1 bar에서 일정하게 유지시켰다. SETTLE 알고리즘[Miyamoto et al., J. Comp. Chem., 13: 952-962(1992)]을 사용하여 모든 결합을 견고하게 유지될 수 있도록 하면서 시뮬레이션 시간 단계는 결합 및 미결합[예를 들어, vdW, 각도 및 이면체(dihedral)] 상호작용 동안 2fs였고, 전기적 상호작용은 다중 시간 단계 알고리즘을 사용하여 4 fs마다 계산했다 [Tuckerman et al., The Journal of Chemical Physics, 97: 1990-2001(1992); Morrone et al., Journal of Chemical Theory and Computation, 6: 1798- 1804(2010)].
자유 에너지 섭동 계산
자유 에너지 섭동(FEP) 방법은 Chipot, C.; Pohorille, A. Free energy calculations; Springer, 2007에 기술되어 있다. 여기서, 복합체들의 평형화된 결합 상태 및 자유 상태를 얻은 후, 이 방법을 사용하여 SaCas9에 대해 각각 제안된 돌연변이에 대한 결합 자유 에너지의 변화를 계산했다. 도 2a는 돌연변이 R1015H에 대한 자유 에너지 차이 △△G를 계산하기 위해 FEP 방법에 사용된 열 역학적 사이클을 보여준다: △G A 및 △G B 는 각각 야생형 SaCas9 및 돌연변이 SaCas9에 결합하는 dsDNA의 자유 에너지 변화이다; △G 1 및 △G 2 는 각각 결합(dsDNA와) 상태 및 자유(dsDNA 없이) 상태에서 R1015를 소멸시키고 동시에 H1015를 생성하는 동안의 자유 에너지 변화이다.
R1015H 돌연변이의 경우, dsDNA의 결합 자유 에너지 간의 차이는 다음 방정식에 의해 계산될 수 있다:
Figure pct00001
(1)
일반적으로, △G A 및 △G B 를 직접 계산하는 것은 어렵고, 대신 △G 1 및 △G 2 를 계산하여 우회할 수 있다(상기 방정식 1 참조). 하기 앙상블 평균(Chipot, 상기 문헌 참조)으로부터, △G 1 및 △G 2 는 하기 방정식을 사용하여 이론적으로 계산할 수 있다:
Figure pct00002
(2)
여기서, k B 는 볼츠만(Boltzmann) 상수이고; T는 온도이며; H i H f 는 각각 초기(i) 및 최종(f) 단계에서의 해밀턴연산자(Hamiltonian)이다. 예를 들어, R1015H 돌연변이의 경우, 초기 상태는 야생형 SaCas9이고 최종 상태는 R1015가 H1015에 의해 대체된 것이다. 섭동 방법을 사용하여, 정확도를 향상시키기 위해 초기 상태와 최종 상태 사이에 해밀턴연산자 H(λ)=λH f +(1-λ)H i 많은 중간 단계(λ로 표시)를 삽입해야 한다. △G 1 및 △G 2 의 계산에서, λ는 소프트-코어 전위가 활성화된 18개의 섭동 창(perturbation window)에서 0에서 1로 변화하여 각각 R1015 및 H1015에 대한 점진적 소멸 및 생성 과정을 산출한다.
SaCas9 실험
실험 검정은 조작 설계 또는 컴퓨터 시뮬레이션에 상응하는 돌연변이 또는 변경을 도입시키는 분자 클로닝과 함께 초기 SaCas9 연구로부터의 작제물을 사용하여 수행했다. 사용된 백본 벡터는 Ran et al., Nature, 520:186-19(2015)에서 이미 설명된 바와 같은 pX601-SaCas9 플라스미드(Addgene에서 입수가능)였다. 간단히 설명하면, 올리고 프라이머(IDT DNA)는 SaCas9 작제물의 바람직한 돌연변이를 함유하는 DNA 단편을 증폭시키기 위해 설계했고 주형 pX601 플라스미드를 이용한 PCR 반응에 사용했다. 생성된 PCR 생성물은 PCR 정제 키트(QIAGEN)를 사용하여 정제했고, 아가로스 겔 전기영동으로 추가 분리한 다음, 하류 조립을 위한 정규화 전에 겔 추출 키트(QIAGEN)를 사용하여 다시 정제했다. 벡터의 최종 클로닝은 Gibson Assembly 방법을 사용하여 수행했고 플라스미드를 단리하기 위해 박테리아에 형질전환시켰다. 모든 플라스미드는 Sanger Sequencing(Genewiz)에 의해 검증했고 세포 형질감염 실험을 위해 보관했다.
포유류 세포에서 SaCas9 활성을 측정하기 위해, 인간 배아 신장 293FT 세포(Thermo Fisher)를 FBS와 GlutaMAX(ThermoFisher)가 보충된 둘베코 변형 이글 배지(Dulbecco's modified Eagle's Medium, DMEM)에서 37℃ 하에 5% CO2 공급 인큐베이터에서 유지시켰다. 형질감염하기 약 24시간 전에 세포를 웰당 2.5x105 세포 밀도로 24웰-플레이트(Corning)에 씨딩(seeding)하고, 제조업체의 권장 프로토콜에 따라 Lipofectamine 2000(Thermo Fisher)을 사용하여 적절한 융합도(confluency)에서 형질감염시켰다. 총 600ng DNA를 24-웰 플레이트의 각 웰에 사용했다. 그 다음, 세포를 수확할 준비가 될 때까지 항온배양했다. 게놈 변형의 검출 및 정량화는, 예를 들어, Cong et al., Science, 339: 819-823 (2013); 및 Nishimasu et al., Cell, 162: 1113-1126(2015)에 기술된 것과 유사한 작업흐름을 사용하여 수행했다. 간단히 말해서, 형질감염 후 약 72시간 후에, 형질감염된 세포로부터의 게놈 DNA를 단계적 항온배양 방법과 함께 QuickExtract DNA 추출 용액(Epicentre)을 사용하여 수확한 다음, 이전에 기술된 바와 같은(Cong et al., 상기 문헌 참조) SURVEYOR 검정을 사용하여 InDel 분석을 수행하였다. 표적화된 게놈 영역은 모든 표적에 대해 500 내지 900bp 사이의 앰플리콘 크기를 갖는 SURVEYOR 검정용 프라이머를 사용하여 증폭시켰다. SURVEYOR 검정에서, 정제된 PCR 생성물은 다시 어닐링하고, SURVEYOR 뉴클레아제 분해를 거친 다음, 폴리아크릴아미드 겔 전기영동으로 분석 및 정량했다(Cong et al., 상기 문헌 참조). 모든 실험은 검정에서 가능한 기술적 노이즈를 고려하여 오류 통계를 얻기 위해 3회 반복으로 수행했다.
실시예 1
본 실시예는 SaCas9 복합체의 모든 원자 분자 역학 시뮬레이션을 입증한다.
고해상도 SaCas9 복합체 구조의 검사(Nishimasu et al., 상기 문헌 참조)를 수행했다(결정 접촉이 국소적인 구조에 영향을 미칠 수 있을지라도; 도 2 참조). SaCas9 복합체의 천연 상태에서의 역학적 세부 사항을 확립시키기 위해, 분자 역학(MD) 방법을 사용하여 생리학적 조건 하의 복합체를 모델링했다. 실험 연구를 보완하는 MD 시뮬레이션은 단백질-DNA 상호작용을 이해하는 데 효과적인 것으로 입증되었다[Palermo et al., Proceedings of the National Academy of Sciences, 114: 7260-7265(2017); 및 Cong et al., Nat. Commun., 3: 968(2012)]. 모든 원자 MD 시뮬레이션을 수행하여 DNA 표적이 SaCas9-sgRNA 복합체와 결합하는 분자 메커니즘을 특성화하였다(도 1a 참조).
MD 분석에서 표적 DNA 기질과 결합된 상태에서 평형화 후(도 3a), RNA 및 DNA 분자의 2차 구조는 결정 구조에 대해 계산된 포화 평균제곱근편차(RMSD)의 평균이 둘 모두 약 2.5Å일 때 안정적이었다. 유사한 프로토콜에 따라, 결합된 DNA 없이 평형화된 복합체를 독립적으로 얻었다. 전체적인 관점에서, 백본 원자의 포화 RMSD는 기질 DNA가 있는 SaCas9 복합체에서 약 3.2Å뿐이었으며(도 3a), 반면 뉴클레아제(NUC) 로브(lobe)의 HNH 도메인(이 HNH 도메인은 가이드 RNA 서열에 상보적인 DNA 가닥을 절단함)은 결정 환경에서 이웃 단백질 유래의 인식(REC) 로브에 의해 차단됨이 없이(도 2c), 표적 DNA 가닥 상의 절단 부위쪽으로 7.6Å의 거리를 이동했고, 이는 생리적 과정을 정확히 재현했다(도 3c). 이와 유사하게, REC 로브 및 DNA-RNA 이종이본쇄의 말단 단편은 NUC 로브에 더 가깝게 이동했다(도 3c). 다른 한편, 결합된 DNA가 없는 SaCas9의 경우(도 4), RMSD는 증가하여 7.5Å에서 포화되었고, 이는 관련 도메인에서의 더 큰 형태적 변화를 시사한다. 그럼에도 불구하고, DNA 결합 영역(제안된 돌연변이가 있는 곳)에 대한 RMSD는 작게 유지되었다(약 3.5Å)(도 4). 이러한 관찰은 모두 이전 보고서[Sternberg et al., Nature, 527: 110(2015); Jiang et al., Science, 351: 867-871(2016); Dagdas et al., Science Advances, 3: eaao0027(2017); 및 Chen et al., Nature, 550: 407(2017)]의 생화학적 및 생물물리학적 분석과 모두 일치했다. 실험 결과와 충분히 관련이 있는 결합 상태 및 자유 상태 모두에서의 이러한 평형 구조와 함께, SaCas9 PAM 인식의 분자 기본을 그 다음 조사했고, 신규 SaCas9 변이체의 돌연변이(즉, 인-실리코 돌연변이유발 연구)에 대해 자유 에너지 섭동(FEP) 계산을 수행했다.
도 1a에 확대 및 강조 표시된 바와 같이, PAM-상호작용(PI) 도메인의 결합 부위는 특이성이 변경된 NNGRRT의 G와 함께, KKH SaCas9의 3개의 잔기, 즉 E782, N968, R1015를 모두 함유한다[Kleinstiver et al., Nature Biotech., 33: 1293-1298(2015)]. 이후, G3은 PAM의 세 번째 위치(KKH SaCas9 PAM에서 변화된 염기)를 나타내는데 사용했고, G0은 표적 DNA 가닥의 PAM 근접 말단에 있는 첫 번째 뉴클레오타이드를 나타내는데 사용했다. MD 결과로부터, 모든 핵심 PAM 인식 잔기 상호작용이 결정 구조에서 관찰되었다: R1015는 G3과 배위결합하고; N985는 네 번째 위치에서 A와 배위결합하며; 및 R991은 각각 다섯 번째 및 여섯 번째 위치에서 A 및 T 둘 모두와 역학적으로 배위결합한다(도 3b 참조). 다섯 번째 위치에서 A(또는 일반적으로 R)와 배위결합하는 데 있어서 R991의 역할은 A와 접촉하고 있는 잔기가 없는 결정 구조(정적)에서는 유래될 수 없다.
더 상세한 세부사항에 대한 근접 관찰에서, PI 도메인 부근에 위치한 몇몇 핵심 잔기는 결정에 있는 것과 비교하여 측쇄 위치를 조정하는 것으로 관찰되었다. 이는 생체내 활성 상태와 더 가까운 유사성을 보유한 환경 때문일 수 있다. 잔기 쌍의 거리(비수소 원자 사이의 최단 거리로서 정의됨)를 계산함으로써, 잔기 E782는 K910 또는 G0에 가까워질 수 있는 것으로 발견되었는데, 이는 PAM 상호작용에 있어서 그 잔기의 가능한 직접적인 연루성을 암시하는 것이다(도 1b 참조). 다른 한편, 유연한 N968은 G3 근처였지만, 직접 접촉을 형성할 만큼 가깝지는 않았다(도 1c 참조). 특히, K910은 결정 구조에서 볼 수 없었던 역학적 배위를 형성하였다. 도 1d는 음하전된 E782 및 G3에 의해 중첩된 K910(0 ns에서의 결정 환경 중)의 입체형태를 나타낸다. 그러나, K910의 양하전된 아민기(NH3 +)는 E782의 카르복실기(COO-) 또는 G3의 인산염 기(PO4 -1)와 염 가교(salt bridge)를 형성하지 않았다. MD 시뮬레이션 동안, K910은 E782 쪽으로 이동했고, 57 ns 후에 E782와 염 가교를 형성했다(도 1d). 이 염 가교는 나중에 Na+가 이 영역으로 확산된 후 파손되었다. 도 1d는 80 ns에서 K910이 G3과 새로운 염 가교를 형성하면서, 동시에 E782는 이 Na+에 결합하여, 표적 DNA 가닥 중 G0의 인산염 기와 배위결합하여 dsDNA 결합을 안정시킨다는 것을 보여준다. 이러한 배위는 기질이 없는 상태에서는 존재하지 않았으며, SaCas9의 강력한 PAM 인식을 위한 역학적 입체형태 전이의 중요한 역할을 더욱 입증한다.
실시예 2
본 실시예는 Cas9 PAM 인식을 탐침하기 위한 자유 에너지 섭동 및 실험적 검정의 사용을 기재한다.
완전한 시스템 평형화 및 MD 분석은 이전에 과소인지된 PAM 인식의 역학을 규명했고, 정량적 방식으로 표적 인식에 대한 단백질 잔기의 기여에 정보를 제공하는 방식인 게놈 편집 도구를 모델링하는 데 있어 근본적인 문제 중 하나를 해결했다. 이를 위해 구조적 통찰력이 컴퓨터 분석을 유도한 다음, 표적화된 유전자 편집 실험을 통해 Cas9 변이체 활성의 컴퓨터 매핑에 추가로 정당성을 부여하는 조합 공정을 활용하였고, 여기서 인-실리코 예측은 실험적 Cas9 편집 효율과 상관성이 있을 수 있다.
먼저, SaCas9 PAM 인식에 대한 PI 도메인 잔기의 기여도는 자유 에너지 섭동(FEP) 계산으로 정량화했다(도 5a). PAM 서열 바로 근처에 있는 잔기의 알라닌 스캔 분석을 수행했다. 도 5b는 돌연변이 R991A 및 R1015A가 결합 자유 에너지를 현저하게 감소시킨 반면, N986A(△△G의 작은 값으로 인해)는 훨씬 덜 중요하다는 것을 보여준다. 돌연변이 N985A 및 E993A는 또한 △△G의 약 2-4 kcal/mol 증가를 초래했고, 이는 PAM 결합을 불안정하게 만들 수 있다. 실험적으로, 표적화된 알라닌 돌연변이를 보유하는 상응하는 SaCas9 돌연변이체가 생성되었고 가이드 RNA(gRNA)에 의해 발현되어, 3개의 상이한 게놈 표적에 걸친 그의 절단 효율로서 측정된, Cas9 활성을 정량적으로 평가하였다. 야생형 Cas9에 대한 효율은 정규화하여, 알라닌 돌연변이 도입 후 활성의 감소가 테스트된 특정 잔기의 중요성을 나타낼 수 있도록 하였다(도 5c). 다음으로, 컴퓨터 데이터와 실험 데이터 간의 상관성을 조사하기 위해, DDG의 선형 적합도는 각 알라닌 돌연변이 대 실험적 대응물의 형질전환된 활성(야생형 대조군에 대한 돌연변이 SaCas9 효율의 자연 로그를 취하여 계산함)으로부터 수행했고, 이는 도 5c(삽입도)에 플로팅된 바와 같다. 측정된 생물학적 활성은 0.92에 달하는 적합도(도 5c 삽입도)로 표시되는 바와 같이, FEP 계산과 잘 일치하였다. 종합하면, 이러한 결과는 이러한 조합된 분자 역학 및 실험적 표적(COmbined Molecular dynamics and Experimental Target, "COMET") 검증 접근법의 강력한 예측 가능성을 보여주었고, 내인성 게놈 정황과 같이 컴퓨터-실험적 해독에 영향을 미칠 수 있는 가능한 비선형 인자가 주목되었다.
실시예 3
본 실시예는 확장된 PAM의 분자 메커니즘을 규명하기 위한 KKH SaCas9 변이체의 분석을 기재한다.
SaCas9의 KKH 돌연변이체는 E782K, N968K 및 R1015H의 3가지 치환을 수반한다[Kleinstiver et al., Nature Biotech., 33: 1293-1298 (2015)]. R1015H에 대한 열역학적 사이클은 도 5a에 예시된다. 결합 상태에서 R1015는 PAM 특이성 NNGRRT에 역할을 하는 2개의 수소 결합에 의해 G3에 결합한다. 이 상호작용은 R1015의 입체형태적 변동을 현저히 감소시킬 수 있는 E993과 R1015 사이의 염 가교에 의해 더욱 안정화되었다. 동일한 염 가교는 도 5a에 도시된 바와 같은 SaCas9의 자유 상태에서도 존재한다. R1015H 돌연변이 후, 결합 상태에서 H1015는 G3에서 멀어져 NNGRRT PAM에서 G3에 대한 특이성을 해제시켰다. 그러나, 이러한 돌연변이(도 5a에서 △G1로 표시됨)는 결합 자유 에너지(또는 결합 친화도)를 현저하게 감소시켰다. 자유 상태에서의 동일한 돌연변이 과정(도 5a에서 △G2로 표시됨)과 비교 시, 결합 자유 에너지의 순 변화는 +11.3 kcal/mol이었다(도 3a). 이것은 결합 친화도의 현저한 감소였고, 이것은 R1015A 돌연변이에 대한 △△G(약 16.9 kcal/mol, 도 5b 참조)와 비교했을 때 훨씬 더 불리한 것이었다. 따라서, PAM 특이성의 감소에도 불구하고, SaCas9의 PI 도메인과 dsDNA의 PAM 영역 사이의 결합은 R1015H에 의해 불안정해졌다. 이에 대해 보상하고 단백질-DNA 결합을 안정화하기 위해, 추가 돌연변이(E782K 및 N968K)가 이전 연구[Kleinstiver et al., 상기 문헌 참조]에서 도입되었다. 도 1d에 도시된 바와 같이, E782K 돌연변이는 국소 배위에 있어서 중대한 변화를 가질 것으로 예상되었다: 1) K782의 NH3 + 기는 표적 DNA 가닥 중 G0의 인산염 기에 직접 결합한다; 2) K782에 의해 반발된 K910은 G3에 보다 안정적으로 결합한다. 실제로, FEP 계산의 최종 단계에서 K910과 K782는 아민 및 인산염 기에 의해 형성된 염 가교를 통해 2개의 상보적 DNA 가닥 중 G3 및 G0에 각각 결합했으며(도 6b), 이는 DNA-단백질 결합 자유 에너지를 현저하게 증가시킬 수 있다. 이와 일관되게, E782K 돌연변이에 대한 계산된 △△G는 -13.1 kcal/mol이었고, 이는 계산된 DDG가 약 1.1 kcal/mol로 국소 배위(E782-Na+-G0, 도 1d)를 불안정하게 하는 E782A 돌연변이보다 훨씬 더 유리한 것이었다(도 6a). 또한, N968K 돌연변이는 기질 결합을 향상시키는 것으로 시사되었다[Kleinstiver et al., 상기 문헌 참조]. 실험 결과와 일관되게, FEP 계산은 이 잔기 변화에 대한 △△G가 약 -2.3 kcal/mol임을 나타냈다(도 6a). 결합 상태에 대한 FEP 분석의 마지막에, K968은 K968의 아민 기와 G3의 인산염 기 사이의 정전기적 인력으로 인해 PAM 서열 중 G3에 가깝게 이동할 수 있었다. K910은 G3에도 일시적으로 결합할 수 있었다(도 1d). 따라서 E782K와 비교하여 N968K 돌연변이에 대한 더 작은 자유 에너지 감소는 K910과 K968 사이의 일시적인 정전기적 반발의 결과, 즉 PAM의 G3과 K968 사이의 더 약한 결합의 결과였다.
N968의 알라닌으로의 돌연변이화는 단백질-DNA 결합에 대한 효과가 무시할 수 있는 정도였고(△△G=0.5 kcal/mol), 이는 MD 시뮬레이션으로부터의 초기 결과를 확증하는, 야생형 SaCas9에서의 PAM 인식에 대한 그의 상대적 중립성을 나타낸다(도 1c). 이중 돌연변이 E782K 및 N968K(KK)는 훨씬 더 강한 단백질-DNA 결합을 초래했고, 결합 자유 에너지를 14.2 kcal/mol까지 향상시켰다(도 6a). 단순 부가 방식으로 작용한다면, KK 이중 돌연변이는 결합 자유 에너지를 15.3 kcal/mol(2개의 -△△G 값의 부가를 통해)까지 최소한 증가시킬 것으로 예상했다. E782K 돌연변이의 결과로서, K910은 PAM 서열에서 G3에 안정적으로 결합할 수 있다. 하지만, K968은 또한 동일한 G3와 경쟁적으로 상호작용할 수 있다. 따라서, KK 돌연변이에 대한 -△△G의 변화는 독립적인 두 값의 단순 부가보다 작으며, 이는 이러한 돌연변이된 잔기 간의 복잡한 상호작용을 나타낸다. 마지막으로, 동시 삼중 돌연변이 E782K, N968K, 및 R1015H(KKH)는 결합 자유 에너지의 순 증가인 -3.9 kcal/mol의 △△G를 산출했다(도 6a). 예상한 대로, R1015와 G3 사이의 특이적 결합이 해제되었을 때, 비표적 DNA 가닥 상의 PAM 영역은 엔트로피 계산에 의해 나타나는 바와 같은, 더 큰 입체형태적 변동을 허용했다. 간단히 말해서, KKH 돌연변이의 FEP 계산 전(l=0) 및 후에(l=1), 시뮬레이션 시스템은 PAM 서열 TTGAAT 중 삼중자(triplet) TGA의 샘플 입체형태에 초과 2 ns 동안 진행되었다. R1015H 돌연변이 후, PAM 서열의 뉴클레오타이드 G는 PI 도메인에 의해 덜 배위결합될 것이며 더 큰 변동을 가질 수 있을 것으로 예상되었다. KKH 돌연변이 전후의 입체형태적 엔트로피를 계산하는 데에는 Schlitter 방법[Schlitter, J., Chemical Physics Letters, 215: 617-621(1993)]을 사용했다. 결과는 삼중자의 입체형태적 엔트로피가 KKH 돌연변이로 인해 1400 J/(mol·K)에서 1341 J/(mol·K)로 변화되었음을 보여준다. 결과적으로, FEP 계산은 K968이 T(TTGAAT PAM 중 G3보다 한 뉴클레오타이드 앞에 있는 것)의 인산염 기에 결합할 수 있고 K910이 G3에 결합할 수 있으며, 이는 K968과 K910 사이의 정전기적 반발을 감소시켜 단백질-DNA 결합의 친화도를 개선시킨다는 것을 보여준다(도 6c).
K968과 상기 T에 의해 형성된 염 가교는 상기 염 가교의 4 Å 내에 12개의 물 분자가 있어, 물에 잘 노출된다(도 6c). 그러나, K782와 G0에 의해 형성된 염 가교는 복합체 내에 상당히 묻혀 있어, 상기 염 가교의 4 Å 내에 6개의 물 분자만이 있다. 따라서, 다른 유전 환경으로 인해, K968-T 염 가교로부터의 결합 자유 에너지 향상은 K782-G0 염 가교에 의한 것보다 훨씬 작을 수 있다[Zhou, R., Proc. Natl. Acad. Sci. USA, 100: 13280-13285(2003)]. 따라서, FEP 계산에 기초한, KKH 돌연변이는 분석 오류를 고려하여 단백질-DNA 결합을 약간만 향상시킬 수 있었다(도 6a). KKH 돌연변이의 분자 메커니즘은 도 3d에 요약되며, E782K 및 N968K는 PAM 중 G3에 대한 제한을 없애는 R1015H 돌연변이에 의한 자유 에너지 손실을 보상하므로, KKH SaCas9의 확장된 표적 범위를 에너지 특성의 손상 없이 초래한다.
에너지 계산에 추가하여, 상기 시뮬레이션은 야생형 SaCas9와 결합된 DNA 사이에 모든 다른 배위결합이 보존되었음을 나타냈다. 예를 들어, 인산염 로커(locker) T787은 G0(도 6d)와 수소 결합을 형성하고 R991은 TTGAAT PAM 중 AT와 배위결합하며, 이 둘 모두는 표적 DNA 결합에 관여하는 핵심 잔기이다.
실시예 4
본 실시예는 PAM 범위를 확장하기 위한 SaCas9 변이체의 COMET 기반의 조작을 기재한다.
전술한 KKH SaCas9의 분석 및 이전 실험과의 일관성은 PAM 특이성을 변경하기 위한 신규 SaCas9 디자인의 합리적인 탐색을 위한 COMET 접근법의 확장으로 이어졌다. 이를 위해 SaCas9 PAM의 나머지 흔들리지 않는 위치, 즉 유전자 편집 적용예의 최대 제약인 NNGRRT의 마지막(6번째) T 염기를 표적으로 삼았다. 구조 정보 및 전술한 MD 시뮬레이션으로부터 보면, N986은 이 PAM 위치에 배위결합하기 위한 핵심 잔기로서 역할을 한다. 따라서, 첫 번째 단계로서, COMET 작업흐름을 사용하여 N986을 대체 아미노산(대부분 단백질-DNA 상호작용을 유지하기 위한 하전된 아미노산)으로 변화시키도록 N986에 대해 다양한 돌연변이의 스크리닝을 수행했고, 하류 실험을 유도하는 FEP 계산 세트를 산출했다(도 7a). 자유 에너지 결과에 기초할 때, 가장 유망한 후보는 N986H/K/R 돌연변이체였다. N986A, N986E 및 N986Q 돌연변이체에 대한 바람직하지 않은 에너지 예측은 이러한 변이체들이 실험 테스트에서 배제될 수 있도록 실험 노력을 유도했다. 여기서, COMET 작업흐름은 Cas9 PAM 특이성을 정의하기 위해 표적 위치에서 4개의 서로 다른 염기에 걸쳐 편집 부위의 완전한 세트에 대해 각 개별 돌연변이체, 즉 NNGRRT=C=G=A를 테스트해야 한다는 점을 감안할 때 상당한 시간 및 비용을 절약했다. SaCas9 N986H/K/R 변이체에 대한 표적 실험은 이들의 PAM 인식 프로파일이 사실상 다양한 정도로 변형되었고, SaCas9 N986R이 가장 주목할만한 단일 후보임을 나타냈다(도 7b). 야생형에 비해, SaCas9 N986R은 NNGRRT에 대한 활성이 감소된 비천연 PAM NNGRRG를 적당히 선호했고, 한편 여섯 번째 PAM 위치에 있는 다른 염기들의 PAM 인식 활성은 대부분 유지했다. 예상한 바와 같이, 단일 돌연변이는 영향을 미칠 수는 있지만, 강력한 새로운 변이체를 충분히 만들지 못하여, COMET의 또 다른 반복을 이용하여 탐침하기 위해 추가 돌연변이로부터의 조합 효과를 요구한다.
조합 돌연변이유발을 위한 추가 표적 잔기의 선택을 유도하기 위해, 최상의 SaCas9 N986R 변이체에 대해 이의 PAM 인식 과정을 탐침하기 위한 새로운 MD 시뮬레이션 모델링을 수행했다(도 7c). 잔기 배위의 분자적 세부사항으로부터, N986R에 밀접해 있는 R991이 N986R과 음성적 방식으로 상호작용할 가능성이 있을 것이라는 가설을 세웠다. 따라서, R991에 대한 가능한 돌연변이의 컴퓨터 스크리닝에 이어, N986R의 비-T PAM 인식을 더욱 향상시키기 위해 N986R과 R991A/L/K 변이체를 조합시켰다. COMET 작업흐름으로부터의 이러한 유도와 함께, 다시 야생형 참조와 비교하여, 이러한 조합적 SaCas9 변이체의 마지막 PAM 위치의 염기 선호도를 테스트하기 위해 DNA 표적화 검정을 적용했다.
결과는 또 다른 후보 비-T PAM SaCas9 변이체인 SaCas9 N986R + R991L을 산출했으며, 이는 NNGRRC 및 NNGRRG의 현저히 향상된 인식 및 표적 내인성 게놈 서열에 적용했을 때 상이한 표적에 걸쳐 적당히 개선된 NNGRRA PAM 결합 활성을 보여주었다(도 8 참조). 원래의 SaCas9와 비교 시, 두 변이체의 활성은 인간 세포에서 입증된 바와 같이(도 7d, 도 9), SaCas9 작용 범위를 잠재적으로 3배 또는 4배 확장함으로써, 이 작은 Cas9에 접근할 수 없었던 신규 PAM 서열의 효율적인 표적화를 처음으로 허용한다. 포유동물 세포 정황 내에서 여러 표적들에 대해 입증된 이러한 고무적인 결과는 이러한 신규 변이체를 SaCas9-NR(SaCas9 N986R의 경우) 및 SaCas9-RL(SaCas9 N986R+R991L의 경우)로 명명하게 했다. 이러한 SaCas9 변이체는 SaCas9 천연 PAM의 마지막 위치가 편집 전략의 최적의 설계를 방해하는 질병 관련 유전자좌를 표적화하는데 있어서 Cas9 도구 패밀리 중 유망한 성분으로서 작용한다. 확장은 특히 SaCas9-NR 및 SaCas9-RL을, 향상을 위한 다른 강력한 Cas9 기반 도구와 조합할 수 있는 능력을 감안할 때, 사용가능한 작은 Cas9 도구의 범위를 향상시킬 수 있다[Slaymaker et al., Science, 351: 84 (2016)].
이들 결과는 변형된 특성들을 갖는 신규 Cas9 단백질을 조작하는 COMET의 능력을 입증했다.
실시예 5
본 실시예는 PAM 이본쇄와의 더 강한 상호작용을 제공하고 더 높은 활성을 갖는 또 다른 SaCas9 돌연변이체를 설명한다.
조작 설계 또는 컴퓨터 시뮬레이션에 해당하는 돌연변이 또는 변경을 도입하기 위해 분자 클로닝을 사용하여 신규 SaCas9 변이체를 생성하였다. 사용된 백본 벡터는 이전에 설명된 바와 같은 pX601-SaCas9 플라스미드(Addgene에서 구입 가능)였다. 간단히 말해서, 올리고 프라이머(IDT DNA)는 SaCas9 작제물의 바람직한 돌연변이를 함유하는 DNA 단편을 증폭하도록 설계했고 주형 pX601 플라스미드와 함께 PCR 반응에 사용했다. 생성된 PCR 생성물을 PCR 정제 키트(QIAGEN)를 사용하여 정제했고, 아가로스 겔 전기영동에 의해 추가로 분리하고, 하류 조립을 위한 정규화 전에 겔 추출 키트(QIAGEN)를 이용하여 다시 정제했다. 벡터의 최종 클로닝은 Gibson Assembly 방법을 사용하여 수행했고, 플라스미드를 단리하기 위한 박테리아에 형질전환시켰다. 모든 플라스미드는 Sanger Sequencing(Genewiz)에 의해 검증했고 세포 형질감염 실험을 위해 보관했다.
포유동물 세포에서 SaCas9 활성의 측정을 위해, 인간 배아 신장 293T 세포를 FBS 및 GlutaMAX(Thermo Fisher)가 보충된 둘베코 변형 이글 배지(DMEM)에서 37℃ 하의 5% CO2 공급 인큐베이터에서 유지시켰다. 형질감염 약 24시간 전에 세포를 24-웰 플레이트(Corning)에 씨딩하고 Lipofectamine 2000(Thermo Fisher)을 제조업체의 권장 프로토콜에 따라 사용하여 적절한 융합도에서 형질감염시켰다. 24-웰 플레이트의 각 웰에 대해 총 600 ng 내지 800 ng의 DNA를 사용했다. 그 다음, 세포를 수확할 준비가 될 때까지 항온배양했다.
추가적인 구조 및 컴퓨터 분석을 이용하여, SaCas9의 PAM 인식 활성을 개선하기 위한 잠재적 후보로서 SaCas9 단백질 내에서 또 다른 아미노산 잔기를 식별하였다. 이들은 본원 발명자들의 기존 변이체에 상승작용적일 수 있는 것으로 결론지어졌다. 실험적으로 테스트된 아미노산 잔기는 N885; K886; L887; N888; A889였다. 도 10에 도시된 바와 같이, 이들 잔기는 표적 DNA 부위 내에 위치한 PAM 이본쇄와 비교적 짧은 거리를 갖는다. 따라서, 2개의 상위 변이체와 조합으로 또 다른 아미노산 돌연변이를 보유하는 신규 SaCas9 변이체가 생성되었다: (1) 도 10에서 986R로 표지된 SaCas9-N986R(SaCas9-NR); (2) 도 10에서 986R/991L로 표지된 SaCas9-N986R/R991L(SaCas9-RL). 원래의 986R 및 986R/991L 변이체는 본 테스트에 참조로 포함시켰다.
이들 신규 변이체에서, 원래의 아미노산 잔기는 도 11에 도시된 바와 같이 더 높은 결합 활성을 위해 PAM 이본쇄와 더 강력하고 더 유리한 상호작용을 제공하도록 고도로 하전된 잔기로 돌연변이되었다.
실시예 6
본 실시예는 E782, N968에 대한 돌연변이가 기존 SaCas9 변이체에 대해 조합적 향상을 나타낸다는 것을 시사하는 추가 구조 모델링 및 실험을 설명한다.
돌연변이의 상기 이전 라운드들은 SaCas9 단백질의 추가 분석, 및 돌연변이하여 테스트할 또 다른 잔기의 제안을 유도했다. 이들 신규 아미노산 잔기, 즉 E782 및 N968은 실시예 5에서 돌연변이된 잔기 세트(N885; K886; L887; N888; A889) 중 구조적으로 특이한 영역에 위치한 것으로서, 표적 DNA 부위의 PAM 이본쇄에 대한 결합에 초점을 맞춘 것이다. 대신, 이 분석에서 E782 및 N968 잔기는 SaCas9와 이의 표적 DNA와의 일반적인 결합을 잠재적으로 향상시킬 수 있지만, 반드시 PAM 이본쇄에 국한되지 않는다. 따라서, 이들 잔기 돌연변이와 본원에 기술된 다른 변이체와의 조합은 더 높은 유전자 편집 활성을 갖는 비천연 PAM 서열과 DNA 표적에 결합시키는 능력을 더욱 강화시키는 SaCas9-NR 및 SaCas9-RL 변이체의 "v2.0"을 생성할 수 있다. 특히, 이들 2개의 잔기는 상이한 PAM 서열에 결합하는 것으로 이전에 확인된 설계의 일부였다(Kleinstiver et al., 상기 문헌 참조).
SaCas9-NR 및 SaCas9-RL 돌연변이와 조합으로 E782K 또는 N968K를 보유하는 돌연변이체는 기존 변이체를 향상시킬 수 있었다. E782K/N986R, N968K/N986R, E782K/N986R/R991L, N968K/N986R/R991L은 비천연 PAM 서열 NNGRR[A/C/G]에 대해 더 높은 효율을 갖는 상위 변이체였다. 이러한 변이체는 표 1에 제시된 일련의 v2.0 SaCas9 변이체를 구성한다.
Figure pct00003
Figure pct00004
Figure pct00005
Figure pct00006
결합과 절단 사이의 차이(디커플링)는 결합(도 12) 및 게놈 절단/편집(도 13)을 측정하는 테스트에 의해 밝혀졌다. 예를 들어, SaCas9-E782K/N986R은 높은 결합 활성을 나타내지 않았지만, 높은 게놈 절단 활성을 입증했다. 반면에 SaCas9-N968K/N986R/R991L은 양호한 표적 결합제였으나 게놈 DNA 부위를 절단하는 데 효과적이지 않았다.
본원에 기술된 추가 "v2.0" SaCas9는 결합-기반 유전자 활성화/억제 또는 절단 기반 유전자 편집에 사용될 수 있다. 특정 SaCas9 변이체는 최적의 결과를 위한 바람직한 적용을 기반으로 하여 선택할 수 있다.
서열번호 1
KRNYILGLDIGITSVGYGIIDYETRDVIDAGVRLFKEANVENNEGRRSKRGARRLKRRRRHRIQRVKKLLFDYNLLTDHSELSGINPYEARVKGLSQKLSEEEFSAALLHLAKRRGVHNVNEVEEDTGNELSTKEQISRNSKALEEKYVAELQLERLKKDGEVRGSINRFKTSDYVKEAKQLLKVQKAYHQLDQSFIDTYIDLLETRRTYYEGPGEGSPFGWKDIKEWYEMLMGHCTYFPEELRSVKYAYNADLYNALNDLNNLVITRDENEKLEYYEKFQIIENVFKQKKKPTLKQIAKEILVNEEDIKGYRVTSTGKPEFTNLKVYHDIKDITARKEIIENAELLDQIAKILTIYQSSEDIQEELTNLNSELTQEEIEQISNLKGYTGTHNLSLKAINLILDELWHTNDNQIAIFNRLKLVPKKVDLSQQKEIPTTLVDDFILSPVVKRSFIQSIKVINAIIKKYGLPNDIIIELAREKNSKDAQKMINEMQKRNRQTNERIEEIIRTTGKENAKYLIEKIKLHDMQEGKCLYSLEAIPLEDLLNNPFNYEVDHIIPRSVSFDNSFNNKVLVKQEENSKKGNRTPFQYLSSSDSKISYETFKKHILNLAKGKGRISKTKKEYLLEERDINRFSVQKDFINRNLVDTRYATRGLMNLLRSYFRVNNLDVKVKSINGGFTSFLRRKWKFKKERNKGYKHHAEDALIIANADFIFKEWKKLDKAKKVMENQMFEEKQAESMPEIETEQEYKEIFITPHQIKHIKDFKDYKYSHRVDKKPNRELINDTLYSTRKDDKGNTLIVNNLNGLYDKDNDKLKKLINKSPEKLLMYHHDPQTYQKLKLIMEQYGDEKNPLYKYYEETGNYLTKYSKKDNGPVIKKIKYYGNKLNAHLDITDDYPNSRNKVVKLSLKPYRFDVYLDNGVYKFVTVKNLDVIKKENYYEVNSKCYEEAKKLKKISNQAEFIASFYNNDLIKINGELYRVIGVNNDLLNRIEVNMIDITYREYLENMNDKRPPRIIKTIASKTQSIKKYSTDILGNLYEVKSKKHPQIIKKG
본 명세서에 언급된 간행물, 특허 출원 및 특허를 비롯한 모든 참고문헌은 마치 각 참고문헌이 참고로 포함되는 것으로 개별적으로 그리고 특이적으로 표시되고 그 전체가 본원에 제시된 것처럼 동일한 정도로 참고로 포함된다.
용어 "a" 및 "an" 및 "the" 및 "적어도 하나"의 사용 및 본원 발명을 설명하는 맥락에서(특히 다음 청구범위의 맥락에서) 유사한 지시대상은 본원에 달리 표시되지 않거나 문맥상 명백하게 모순되지 않는 한, 단수와 복수를 모두 커버하는 것으로 해석되어야 한다. 용어 "적어도 하나"와 이어서 하나 이상의 항목의 목록(예를 들어, "A 및 B 중 적어도 하나")의 사용은 본원에 달리 표시되거나 문맥상 명백히 모순되지 않는 한, 나열된 항목(A 또는 B) 또는 나열된 항목(A 및 B) 중 2 이상의 임의의 조합으로부터 선택되는 하나의 항목을 의미하는 것으로 해석되어야 한다. "포함하는(comprising)", "가지는(having)", "포함하는(including)" 및 "함유하는(containing)"이라는 용어는 달리 언급되지 않는 한, 개방형 용어(즉, "포함하지만, 이에 제한되지 않는"을 의미)로서 해석되어야 한다. 본원에서 값들의 범위들에 대한 언급은 본원에서 달리 명시되지 않는 한, 범위 내에 속하는 각각 별도의 값을 개별적으로 지칭하는 약식 방법으로서 역할을 하기 위한 것일 뿐이며, 각각 별도의 값은 본원에 개별적으로 언급되는 것처럼 본 명세서에 포함된다. 본원에 기술된 모든 방법은 본원에 달리 표시되지 않거나 문맥상 달리 명백히 모순되지 않는 한, 임의의 적합한 순서로 수행될 수 있다. 임의의 예들 및 모든 예들 또는 본원에 제공된 예시적인 언어(예를 들어, "~와 같은")의 사용은 단지 본원 발명을 더 잘 설명하기 위한 것이며 달리 청구되지 않는 한, 본원 발명의 범위를 제한하지 않는다. 본 명세서의 어떤 언어도 임의의 청구되지 않는 요소를 본원 발명의 실행에 필수적인 것으로 나타내는 것으로서 해석되지 않아야 한다.
본원 발명을 수행하기 위해 본원 발명자들에게 알려진 최상의 방식을 포함한, 본원 발명의 바람직한 구현예들이 본원에 설명된다. 이러한 바람직한 구현예들의 변형은 전술한 설명을 읽을 때 본 기술분야의 통상의 기술자에게 명백해질 수 있다. 본원 발명자들은 본 기술분야의 통상의 기술자가 이러한 변형을 적절하게 이용할 것으로 예상하며, 본원 발명자들은 본원에 구체적으로 기술된 것과 다르게 본원 발명이 실행되기를 의도한다. 따라서, 본원 발명은 관련 법률이 허용하는 바에 따라 본원에 첨부된 청구범위에 언급된 주제의 모든 변형 및 등가물을 포함한다. 또한, 모든 가능한 변형에서 전술한 요소의 임의의 조합은 본원에 달리 표시되지 않거나 문맥상 명백하게 모순되지 않는 한, 본원 발명에 포함된다.
SEQUENCE LISTING <110> THE BOARD OF TRUSTEES OF THE LELAND STANFORD JUNIOR UNIVERSITY <120> ENGINEERED CAS9 WITH BROADENED DNA TARGETING RANGE <130> STDU2-37746.601 <150> US 62/838,498 <151> 2019-04-25 <160> 1 <170> PatentIn version 3.5 <210> 1 <211> 1052 <212> PRT <213> Staphylococcus aureus <400> 1 Lys Arg Asn Tyr Ile Leu Gly Leu Asp Ile Gly Ile Thr Ser Val Gly 1 5 10 15 Tyr Gly Ile Ile Asp Tyr Glu Thr Arg Asp Val Ile Asp Ala Gly Val 20 25 30 Arg Leu Phe Lys Glu Ala Asn Val Glu Asn Asn Glu Gly Arg Arg Ser 35 40 45 Lys Arg Gly Ala Arg Arg Leu Lys Arg Arg Arg Arg His Arg Ile Gln 50 55 60 Arg Val Lys Lys Leu Leu Phe Asp Tyr Asn Leu Leu Thr Asp His Ser 65 70 75 80 Glu Leu Ser Gly Ile Asn Pro Tyr Glu Ala Arg Val Lys Gly Leu Ser 85 90 95 Gln Lys Leu Ser Glu Glu Glu Phe Ser Ala Ala Leu Leu His Leu Ala 100 105 110 Lys Arg Arg Gly Val His Asn Val Asn Glu Val Glu Glu Asp Thr Gly 115 120 125 Asn Glu Leu Ser Thr Lys Glu Gln Ile Ser Arg Asn Ser Lys Ala Leu 130 135 140 Glu Glu Lys Tyr Val Ala Glu Leu Gln Leu Glu Arg Leu Lys Lys Asp 145 150 155 160 Gly Glu Val Arg Gly Ser Ile Asn Arg Phe Lys Thr Ser Asp Tyr Val 165 170 175 Lys Glu Ala Lys Gln Leu Leu Lys Val Gln Lys Ala Tyr His Gln Leu 180 185 190 Asp Gln Ser Phe Ile Asp Thr Tyr Ile Asp Leu Leu Glu Thr Arg Arg 195 200 205 Thr Tyr Tyr Glu Gly Pro Gly Glu Gly Ser Pro Phe Gly Trp Lys Asp 210 215 220 Ile Lys Glu Trp Tyr Glu Met Leu Met Gly His Cys Thr Tyr Phe Pro 225 230 235 240 Glu Glu Leu Arg Ser Val Lys Tyr Ala Tyr Asn Ala Asp Leu Tyr Asn 245 250 255 Ala Leu Asn Asp Leu Asn Asn Leu Val Ile Thr Arg Asp Glu Asn Glu 260 265 270 Lys Leu Glu Tyr Tyr Glu Lys Phe Gln Ile Ile Glu Asn Val Phe Lys 275 280 285 Gln Lys Lys Lys Pro Thr Leu Lys Gln Ile Ala Lys Glu Ile Leu Val 290 295 300 Asn Glu Glu Asp Ile Lys Gly Tyr Arg Val Thr Ser Thr Gly Lys Pro 305 310 315 320 Glu Phe Thr Asn Leu Lys Val Tyr His Asp Ile Lys Asp Ile Thr Ala 325 330 335 Arg Lys Glu Ile Ile Glu Asn Ala Glu Leu Leu Asp Gln Ile Ala Lys 340 345 350 Ile Leu Thr Ile Tyr Gln Ser Ser Glu Asp Ile Gln Glu Glu Leu Thr 355 360 365 Asn Leu Asn Ser Glu Leu Thr Gln Glu Glu Ile Glu Gln Ile Ser Asn 370 375 380 Leu Lys Gly Tyr Thr Gly Thr His Asn Leu Ser Leu Lys Ala Ile Asn 385 390 395 400 Leu Ile Leu Asp Glu Leu Trp His Thr Asn Asp Asn Gln Ile Ala Ile 405 410 415 Phe Asn Arg Leu Lys Leu Val Pro Lys Lys Val Asp Leu Ser Gln Gln 420 425 430 Lys Glu Ile Pro Thr Thr Leu Val Asp Asp Phe Ile Leu Ser Pro Val 435 440 445 Val Lys Arg Ser Phe Ile Gln Ser Ile Lys Val Ile Asn Ala Ile Ile 450 455 460 Lys Lys Tyr Gly Leu Pro Asn Asp Ile Ile Ile Glu Leu Ala Arg Glu 465 470 475 480 Lys Asn Ser Lys Asp Ala Gln Lys Met Ile Asn Glu Met Gln Lys Arg 485 490 495 Asn Arg Gln Thr Asn Glu Arg Ile Glu Glu Ile Ile Arg Thr Thr Gly 500 505 510 Lys Glu Asn Ala Lys Tyr Leu Ile Glu Lys Ile Lys Leu His Asp Met 515 520 525 Gln Glu Gly Lys Cys Leu Tyr Ser Leu Glu Ala Ile Pro Leu Glu Asp 530 535 540 Leu Leu Asn Asn Pro Phe Asn Tyr Glu Val Asp His Ile Ile Pro Arg 545 550 555 560 Ser Val Ser Phe Asp Asn Ser Phe Asn Asn Lys Val Leu Val Lys Gln 565 570 575 Glu Glu Asn Ser Lys Lys Gly Asn Arg Thr Pro Phe Gln Tyr Leu Ser 580 585 590 Ser Ser Asp Ser Lys Ile Ser Tyr Glu Thr Phe Lys Lys His Ile Leu 595 600 605 Asn Leu Ala Lys Gly Lys Gly Arg Ile Ser Lys Thr Lys Lys Glu Tyr 610 615 620 Leu Leu Glu Glu Arg Asp Ile Asn Arg Phe Ser Val Gln Lys Asp Phe 625 630 635 640 Ile Asn Arg Asn Leu Val Asp Thr Arg Tyr Ala Thr Arg Gly Leu Met 645 650 655 Asn Leu Leu Arg Ser Tyr Phe Arg Val Asn Asn Leu Asp Val Lys Val 660 665 670 Lys Ser Ile Asn Gly Gly Phe Thr Ser Phe Leu Arg Arg Lys Trp Lys 675 680 685 Phe Lys Lys Glu Arg Asn Lys Gly Tyr Lys His His Ala Glu Asp Ala 690 695 700 Leu Ile Ile Ala Asn Ala Asp Phe Ile Phe Lys Glu Trp Lys Lys Leu 705 710 715 720 Asp Lys Ala Lys Lys Val Met Glu Asn Gln Met Phe Glu Glu Lys Gln 725 730 735 Ala Glu Ser Met Pro Glu Ile Glu Thr Glu Gln Glu Tyr Lys Glu Ile 740 745 750 Phe Ile Thr Pro His Gln Ile Lys His Ile Lys Asp Phe Lys Asp Tyr 755 760 765 Lys Tyr Ser His Arg Val Asp Lys Lys Pro Asn Arg Glu Leu Ile Asn 770 775 780 Asp Thr Leu Tyr Ser Thr Arg Lys Asp Asp Lys Gly Asn Thr Leu Ile 785 790 795 800 Val Asn Asn Leu Asn Gly Leu Tyr Asp Lys Asp Asn Asp Lys Leu Lys 805 810 815 Lys Leu Ile Asn Lys Ser Pro Glu Lys Leu Leu Met Tyr His His Asp 820 825 830 Pro Gln Thr Tyr Gln Lys Leu Lys Leu Ile Met Glu Gln Tyr Gly Asp 835 840 845 Glu Lys Asn Pro Leu Tyr Lys Tyr Tyr Glu Glu Thr Gly Asn Tyr Leu 850 855 860 Thr Lys Tyr Ser Lys Lys Asp Asn Gly Pro Val Ile Lys Lys Ile Lys 865 870 875 880 Tyr Tyr Gly Asn Lys Leu Asn Ala His Leu Asp Ile Thr Asp Asp Tyr 885 890 895 Pro Asn Ser Arg Asn Lys Val Val Lys Leu Ser Leu Lys Pro Tyr Arg 900 905 910 Phe Asp Val Tyr Leu Asp Asn Gly Val Tyr Lys Phe Val Thr Val Lys 915 920 925 Asn Leu Asp Val Ile Lys Lys Glu Asn Tyr Tyr Glu Val Asn Ser Lys 930 935 940 Cys Tyr Glu Glu Ala Lys Lys Leu Lys Lys Ile Ser Asn Gln Ala Glu 945 950 955 960 Phe Ile Ala Ser Phe Tyr Asn Asn Asp Leu Ile Lys Ile Asn Gly Glu 965 970 975 Leu Tyr Arg Val Ile Gly Val Asn Asn Asp Leu Leu Asn Arg Ile Glu 980 985 990 Val Asn Met Ile Asp Ile Thr Tyr Arg Glu Tyr Leu Glu Asn Met Asn 995 1000 1005 Asp Lys Arg Pro Pro Arg Ile Ile Lys Thr Ile Ala Ser Lys Thr 1010 1015 1020 Gln Ser Ile Lys Lys Tyr Ser Thr Asp Ile Leu Gly Asn Leu Tyr 1025 1030 1035 Glu Val Lys Ser Lys Lys His Pro Gln Ile Ile Lys Lys Gly 1040 1045 1050

Claims (25)

  1. 서열번호 1의 아미노산 서열을 포함하는 변이체(variant) 스타필로코커스 아우레우스 Cas9(Staphylococcus aureus Cas9, SaCas9) 단백질로서,
    E782, N968, N986, 및 R991 중 하나 이상의 잔기가 상이한 아미노산에 의해 치환된 것인,
    변이체 스타필로코커스 아우레우스 Cas9(SaCas9) 단백질.
  2. 제1항에 있어서, 서열번호 1의 상기 아미노산 잔기 N986이 상이한 아미노산에 의해 치환된 것인, 변이체 SaCas9 단백질.
  3. 제1항 또는 제2항에 있어서, 상기 아미노산 치환이 N986A, N986R, N986K, 및 N986H로부터 선택되는 것인, 변이체 SaCas9 단백질.
  4. 제1항에 있어서, 서열번호 1의 상기 아미노산 잔기 R991이 상이한 아미노산에 의해 치환된 것인, 변이체 SaCas9 단백질.
  5. 제1항 또는 제4항에 있어서, 상기 아미노산 치환이 R991A, R991K, R991L, R991C, 및 R991V로부터 선택되는 것인, 변이체 SaCas9 단백질.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서, 서열번호 1의 상기 아미노산 잔기 N986 및 R991 둘 모두가 상이한 아미노산에 의해 치환된 것인, 변이체 SaCas9 단백질.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서, E782, N885, K886, L887, N888, A889, N968, R1015, 및 T1019로부터 선택되는 서열번호 1의 하나 이상의 잔기의 아미노산 치환을 추가로 포함하는, 변이체 SaCas9 단백질.
  8. 제7항에 있어서, E782K, N885K, K886N, K886R, L887K, N888K, A889H, A889K, A889N, N968K, R1015H, T1019R, T1019K, 및 T1019H 중 하나 이상의 아미노산 치환을 추가로 포함하는, 변이체 SaCas9 단백질.
  9. 제8항에 있어서, 서열번호 1의 상기 아미노산 서열 및 하기로부터 선택되는 2개 이상의 아미노산 치환을 포함하는, 변이체 SaCas9 단백질:
    (a) N986R 및 R991A;
    (b) N986R 및 R991K;
    (c) N986R 및 R991L;
    (d) N986R, R991A, 및 T1019R;
    (e) N986R, R991A, 및 T1019K;
    (f) N986R, R991A, 및 T1019H;
    (g) N986R, R991K, 및 T1019R;
    (h) N986R, R991K, 및 T1019K;
    (i) N986R, R991K, 및 T1019H;
    (j) N986R, R991L, 및 T1019R;
    (k) N986R, R991L, 및 T1019K;
    (l) N986R, R991L, 및 T1019H;
    (m) N986R, R991C, 및 T1019R;
    (n) N986R, R991C, 및 T1019K;
    (o) N986R, R991C, 및 T1019H;
    (p) N986R, R991V, 및 T1019R;
    (q) N986R, R991V, 및 T1019K;
    (r) N986R, R991V, 및 T1019H;
    (s) N885K 및 N986R;
    (t) K886N 및 N986R;
    (u) K886R 및 N986R;
    (v) L887K 및 N986R;
    (w) N888K 및 N986R;
    (x) A889H 및 N986R;
    (y) A889K 및 N986R;
    (z) A889N 및 N986R;
    (aa) N885K, N986R, 및 R991L;
    (bb) K886N, N986R, 및 R991L;
    (cc) K886R, N986R, 및 R991L;
    (dd) L887K, N986R, 및 R991L;
    (ee) N888K, N986R, 및 R991L;
    (ff) A889H, N986R, 및 R991L;
    (gg) A889K, N986R, 및 R991L;
    (hh) A889N, N986R, 및 R991L;
    (ii) E782K 및 N986R;
    (jj) N968K 및 N986R;
    (kk) E782K, N968K, 및 N986R;
    (ll) E782K, N986R, 및 R1015H;
    (mm) N968K, N986R, 및 R1015H;
    (nn) E782K, N968K, N986R, 및 R1015H;
    (oo) E782K, N986R, 및 R991L;
    (pp) N968K, N986R, 및 R991L;
    (qq) E782K, N968K, N986R, 및 R991L;
    (rr) E782K, N986R, R991L, 및 R1015H;
    (ss) N968K, N986R, R991L, 및 R1015H; 및
    (tt) E782K, N968K, N986R, R991L, 및 R1015H.
  10. 제1항 내지 제9항 중 어느 한 항의 SaCas9 단백질에 대해 적어도 95% 아미노산 서열 동일성을 포함하는, 변이체 SaCas9 단백질.
  11. 제1항 내지 제10항 중 어느 한 항의 변이체 SaCas9 단백질을 암호화하는 단리된 핵산 서열.
  12. 제11항의 핵산 서열을 포함하는 벡터.
  13. 하기를 포함하는, 시스템:
    (a) 숙주 세포 중 표적 게놈 DNA 서열에 상보적인 가이드 RNA 서열로서, 상기 표적 게놈 DNA 서열이 1종 이상의 유전자 생성물을 암호화하는 것인, 가이드 RNA 서열; 및
    (b) 제1항 내지 제10항 중 어느 한 항의 변이체 SaCas9 단백질을 암호화하는 핵산 서열을 포함하는 핵산 분자.
  14. 제13항에 있어서, 상기 (a)의 가이드 RNA 서열 및 상기 (b)의 핵산 분자가 상이한 벡터에 존재하는 것인, 시스템.
  15. 제13항에 있어서, 상기 (a)의 가이드 RNA 서열 및 상기 (b)의 핵산 분자가 동일한 벡터에 존재하는 것인, 시스템.
  16. 하기를 포함하는, 시스템:
    (a) 숙주 세포 중 표적 게놈 DNA 서열에 상보적인 가이드 RNA 서열로서, 상기 표적 게놈 DNA 서열은 1종 이상의 유전자 생성물을 암호화하는 것인, 가이드 RNA 서열; 및
    (b) 제1항 내지 제10항 중 어느 한 항의 변이체 SaCas9 단백질.
  17. 표적 게놈 DNA 서열을 포함하는 숙주 세포를 제13항 내지 제16항 중 어느 한 항의 시스템과 접촉시키는 것을 포함하는, 숙주 세포 중 표적 게놈 DNA 서열을 변경시키는 방법으로서,
    (a) 상기 숙주 세포에서 가이드 RNA 서열이 발현되어 상기 숙주 세포 게놈 중 표적 게놈 DNA 서열에 결합하고,
    (b) 상기 숙주 세포에서 변이체 SaCas9 단백질이 발현되어 상기 표적 게놈 DNA 서열 중 이중 가닥 파손을 유도하여, 상기 숙주 세포 중 상기 표적 게놈 DNA 서열을 변경시키는 것인, 방법.
  18. 제17항에 있어서, 상기 숙주 세포 게놈이 상기 표적 게놈 DNA 서열에 인접하게 위치한 핵산 서열 NNGRR[T/A/C/G]를 포함하는 프로토스페이서 인접 모티프(protospacer adjacent motif, PAM)를 포함하는 것이고, 여기서 "N"은 구아닌, 아데닌, 티민, 또는 시토신이고, "R"은 구아닌 또는 아데닌인 것인, 방법.
  19. 제18항에 있어서, 상기 PAM이 핵산 서열 NNGRRT, NNGRRC, NNGRRA, 또는 NNGRRG를 포함하는 것인, 방법.
  20. 제17항 내지 제19항 중 어느 한 항에 있어서, 상기 표적 게놈 DNA 서열이 단백질을 암호화하는 것인, 방법.
  21. 제17항 내지 제20항 중 어느 한 항에 있어서, 상기 숙주 세포가 포유동물 세포인 것인, 방법.
  22. 제21항에 있어서, 상기 숙주 세포가 인간 세포인 것인, 방법.
  23. 숙주 세포 중 표적 DNA 서열을 변경시키기 위한, 제13항 내지 제16항 중 어느 한 항의 시스템의 용도.
  24. 원하는 PAM 특이성을 갖는 변이체 Cas9 단백질을 생성하는 방법으로서,
    (a) 원하는 PAM에 대한 하나 이상의 돌연변이 Cas9 단백질의 결합을 분자적으로 시뮬레이션하는 단계;
    (b) 상기 (a)의 시뮬레이션에서 상기 원하는 PAM에 결합하는 하나 이상의 돌연변이 Cas9 단백질을 합성적으로 생성하는 단계;
    (c) 숙주 세포에서 상기 하나 이상의 돌연변이 Cas9 단백질을 상기 숙주 세포 중 표적 DNA 서열에 상보적인 가이드 RNA 서열과 조합으로 발현시키는 단계로서, 상기 숙주 세포 게놈이 상기 표적 DNA 서열 및 상기 원하는 PAM을 포함하는 것인, 단계;
    (d) 상기 하나 이상의 돌연변이 Cas9 단백질의 절단 활성을 측정하는 단계; 및
    (e) 상기 원하는 PAM에 결합하고 상기 표적 DNA 서열을 절단하는 하나 이상의 돌연변이 Cas9 단백질을 선택하여, 원하는 PAM 특이성을 갖는 변이체 Cas9를 생성하는 단계
    를 포함하는, 방법.
  25. 제24항에 있어서, 상기 원하는 PAM에 상기 하나 이상의 돌연변이 Cas9 단백질의 결합을 분자적으로 시뮬레이션하는 단계가 자유 에너지 섭동(free energy perturbation, FEP) 계산을 포함하는 것인, 방법.
KR1020217038012A 2019-04-25 2020-04-24 확장된 dna 표적 범위를 갖는 조작된 cas9 KR20220025708A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962838498P 2019-04-25 2019-04-25
US62/838,498 2019-04-25
PCT/US2020/029855 WO2020219908A1 (en) 2019-04-25 2020-04-24 Engineered cas9 with broadened dna targeting range

Publications (1)

Publication Number Publication Date
KR20220025708A true KR20220025708A (ko) 2022-03-03

Family

ID=72941444

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217038012A KR20220025708A (ko) 2019-04-25 2020-04-24 확장된 dna 표적 범위를 갖는 조작된 cas9

Country Status (12)

Country Link
US (1) US20220204954A1 (ko)
EP (1) EP3958914A4 (ko)
JP (1) JP2022530055A (ko)
KR (1) KR20220025708A (ko)
CN (1) CN114206394A (ko)
AU (1) AU2020261071A1 (ko)
BR (1) BR112021021306A2 (ko)
CA (1) CA3137903A1 (ko)
IL (1) IL287541A (ko)
MX (1) MX2021012966A (ko)
SG (1) SG11202111814XA (ko)
WO (1) WO2020219908A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117866926A (zh) * 2024-03-07 2024-04-12 珠海舒桐医疗科技有限公司 一种CRISPR-FrCas9蛋白突变体及应用

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10202589B2 (en) * 2015-03-03 2019-02-12 The General Hospital Corporation Engineered CRISPR-Cas9 nucleases with altered PAM specificity
WO2016205759A1 (en) * 2015-06-18 2016-12-22 The Broad Institute Inc. Engineering and optimization of systems, methods, enzymes and guide scaffolds of cas9 orthologs and variants for sequence manipulation
US9512446B1 (en) * 2015-08-28 2016-12-06 The General Hospital Corporation Engineered CRISPR-Cas9 nucleases
WO2018027078A1 (en) * 2016-08-03 2018-02-08 President And Fellows Of Harard College Adenosine nucleobase editors and uses thereof
JP7456605B2 (ja) * 2016-12-23 2024-03-27 プレジデント アンド フェローズ オブ ハーバード カレッジ Pcsk9の遺伝子編集
CN111201317B (zh) * 2017-09-05 2024-04-05 国立大学法人东京大学 经修饰的Cas9蛋白及其用途

Also Published As

Publication number Publication date
MX2021012966A (es) 2022-04-06
EP3958914A4 (en) 2023-07-19
JP2022530055A (ja) 2022-06-27
BR112021021306A2 (pt) 2022-02-01
IL287541A (en) 2021-12-01
AU2020261071A1 (en) 2021-11-25
CN114206394A (zh) 2022-03-18
CA3137903A1 (en) 2020-10-29
EP3958914A1 (en) 2022-03-02
SG11202111814XA (en) 2021-11-29
US20220204954A1 (en) 2022-06-30
WO2020219908A1 (en) 2020-10-29

Similar Documents

Publication Publication Date Title
US20230407341A1 (en) Using Truncated Guide RNAs (tru-gRNAs) to Increase Specificity for RNA-Guided Genome Editing
Wang et al. Eliminating base-editor-induced genome-wide and transcriptome-wide off-target mutations
EP3765616B1 (en) Novel crispr dna and rna targeting enzymes and systems
Sloan et al. Testing for selection on synonymous sites in plant mitochondrial DNA: the role of codon bias and RNA editing
WO2019042284A1 (en) FUSION PROTEINS FOR ENHANCED PRECISION IN THE BASIC EDITION
Tou et al. Precise cut-and-paste DNA insertion using engineered type VK CRISPR-associated transposases
KR20180069898A (ko) 핵염기 편집제 및 그의 용도
CA3127494A1 (en) Nucleobase editors having reduced off-target deamination and methods of using same to modify a nucleobase target sequence
WO2019161783A1 (en) Fusion proteins for base editing
US20230265404A1 (en) Engineered mad7 directed endonuclease
CA3140093A1 (en) Methods of editing a single nucleotide polymorphism using programmable base editor systems
CN112912496A (zh) 提高氨基酸球菌属cpf1的dna切割活性的新型突变
Dou et al. Genome-wide discovery of circular RNAs in the leaf and seedling tissues of Arabidopsis thaliana
US20230091242A1 (en) Rna-guided genome recombineering at kilobase scale
Liu et al. A novel DNA methylation motif identified in Bacillus pumilus BA06 and possible roles in the regulation of gene expression
US20220204954A1 (en) Engineered cas9 with broadened dna targeting range
JP2007520221A (ja) 突然変異rna分解酵素を用いた短い二重鎖rnaの組成物および製造方法
Larsen et al. Computationally optimised DNA assembly of synthetic genes
Wu et al. Two compact Cas9 ortholog-based cytosine base editors expand the DNA targeting scope and applications in vitro and in vivo
Sekulovski et al. Structural basis of substrate recognition by human tRNA splicing endonuclease TSEN
WO2024094084A1 (en) Iscb polypeptides and uses thereof
Zhang et al. Extension and Improvement of CRISPR-Based Technology
WO2024044329A1 (en) Crispr base editor
KR20240099418A (ko) 세린 재조합효소
CN114641566A (zh) 改进的热稳定性病毒反转录酶