KR20190122596A - Gene Construct for Base Editing, Vector Comprising the Same and Method for Base Editing Using the Same - Google Patents

Gene Construct for Base Editing, Vector Comprising the Same and Method for Base Editing Using the Same Download PDF

Info

Publication number
KR20190122596A
KR20190122596A KR1020190046808A KR20190046808A KR20190122596A KR 20190122596 A KR20190122596 A KR 20190122596A KR 1020190046808 A KR1020190046808 A KR 1020190046808A KR 20190046808 A KR20190046808 A KR 20190046808A KR 20190122596 A KR20190122596 A KR 20190122596A
Authority
KR
South Korea
Prior art keywords
vector
sequence
cas9
gene
domain
Prior art date
Application number
KR1020190046808A
Other languages
Korean (ko)
Inventor
김진수
구태영
Original Assignee
기초과학연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 기초과학연구원 filed Critical 기초과학연구원
Publication of KR20190122596A publication Critical patent/KR20190122596A/en

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/111General methods applicable to biologically active non-coding nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/85Vectors or expression systems specially adapted for eukaryotic hosts for animal cells
    • C12N15/8509Vectors or expression systems specially adapted for eukaryotic hosts for animal cells for producing genetically modified animals, e.g. transgenic
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/78Hydrolases (3) acting on carbon to nitrogen bonds other than peptide bonds (3.5)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y305/00Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5)
    • C12Y305/04Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5) in cyclic amidines (3.5.4)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y305/00Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5)
    • C12Y305/04Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5) in cyclic amidines (3.5.4)
    • C12Y305/04004Adenosine deaminase (3.5.4.4)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]

Abstract

The present invention relates to a gene construct for base editing, specifically, a gene construct encoding split-Cas9 and deaminase, a vector comprising the gene construct, and a method for base editing by introducing the vector.

Description

염기 교정용 유전자 구조체, 이를 포함하는 벡터 및 이를 이용한 염기 교정 방법 {Gene Construct for Base Editing, Vector Comprising the Same and Method for Base Editing Using the Same}Gene Construct for Base Editing, Vector Comprising and Vector Comprising the Same and Method for Base Editing Using the Same}

본 발명은 염기 교정용 유전자 구조체, 구체적으로 스플릿 Cas9 (Split-Cas 9)과 디아미네이즈를 코딩하는 유전자 구조체, 상기 유전자 구조체를 포함하는 벡터, 상기 벡터를 도입하여 염기를 교정하는 방법 및 상기 벡터가 도입되어 교정된 염기가 발현되는 비-인간 동물에 관한 것이다.The present invention relates to a gene construct for correcting a base, specifically, a split Cas9 (Split-Cas 9) and a gene construct encoding a diminase, a vector comprising the gene construct, a method for correcting a base by introducing the vector, and the vector And non-human animals in which the corrected bases are expressed.

APOBEC1 (apolipoprotein B editing complex 1) 또는 AID (activation-induced deaminase)와 같은 시티딘 디아미네이즈 (cytidine deaminase)가 Cas9 니케이즈 (Cas9 nickase; nCas9) 또는 촉매활성 결핍 Cas9(catalytically-deficient Cas9; dCas9)와 연결되어, 표적 부위에서 DSB 생성 없이 C를 T로 (또는 G를 A로) 치환시킬 수 있다는 결과가 보고된 바 있다 (Ma, Y. et al. Nat. Methods 13, 1029-1035 (2016)). Cytidine deaminase, such as apolipoprotein B editing complex 1 (APOBEC1) or activation-induced deaminase (AID), may be used to treat Cas9 nickase (nCas9) or catalytically-deficient Cas9 (dCas9). In conjunction with, it has been reported that at the target site C can be replaced by T (or G by A) without DSB production (Ma, Y. et al. Nat. Methods 13, 1029-1035 (2016) ).

핵산 염기의 탈아미노화로 인한 점 돌연변이는 인간의 유전적 장애 및 다양성의 주요 원인이다. 랜덤한 핵산 염기의 탈아미노화를 일으키는 돌연변이 제제와는 달리, Streptococcus pyogenes 유래의 nCas9(D10A Cas9 nickase) 또는 촉매적 결함이 있는 dCas9 (D10A/H840A Cas9)와 같은 촉매적 결함이 있는 CRISPR-Cas9 변이체 및 다양한 소스의 디아미네이즈 단백질이 가이드 RNA 의존적으로 세포와 생물의 단일 뉴클레오티드 변환 또는 염기 편집을 가능하게 한다. 이러한 염기 편집 시스템은 2 개의 카테고리로 분류할 수 있다: C : G 염기 쌍을 T : A 쌍으로 변환하는 시토신 염기 편집기 (CBE) 및 A : T 염기 쌍을 G : C 염기 쌍으로 변환하는 아데닌 염기 편집기 (ABE). Point mutations due to deamination of nucleic acid bases are a major cause of genetic disorders and diversity in humans. Unlike mutant agents that cause deamination of random nucleic acid bases, catalytically defective CRISPR-Cas9 variants such as nCas9 (D10A Cas9 nickase) from Streptococcus pyogenes or catalytically defective dCas9 (D10A / H840A Cas9) And deminase proteins from various sources allow guide RNA dependent single nucleotide conversion or base editing of cells and organisms. Such base editing systems can be classified into two categories: cytosine base editor (CBE), which converts C: G base pairs into T: A pairs, and adenine bases that convert A: T base pairs into G: C base pairs. Editor (ABE).

이러한 RNA-guided programmable 디아미네이즈는 Cas9 뉴클레아제와는 달리 DNA 이중 가닥 절단 (DSB)을 초래하지 않고, 내생 DSB 복구 경로에 의존하지 않기 때문에 염기 편집에 상동성 관련 복구를 위한 주형 도너 DNA를 요구하지 않으며, 표적 부위에서 오류 빈발 비상동 말단 연결 (error-prone non-homologous end joining, NHEJ)에 의해 유도되는 바람직하지 않은 작은 삽입 또는 결실 (인델)을 남기지 않는다. These RNA-guided programmable delaminations, unlike Cas9 nucleases, do not result in DNA double strand cleavage (DSB) and do not rely on endogenous DSB repair pathways, so that template donor DNA for homology-related repair in base editing is not available. It does not require and does not leave undesirable small insertions or deletions (indels) induced by error-prone non-homologous end joining (NHEJ) at the target site.

개발 이후, CBE는 식물과 동물의 표적 돌연변이 유도에 빠르게 채택되어 왔다. nCas9와 E. coli 유래 변형 디아미네이즈인 TadA (tRNA 아데노신 디아미네이즈)는 고등 진핵 생물에서는 아직 시험되지 않았다.Since development, CBE has been rapidly adopted for inducing target mutations in plants and animals. nCas9 and TadA (tRNA adenosine diamines), a modified dianase derived from E. coli , have not yet been tested in higher eukaryotes.

이러한 기술적 배경하에서, 본 출원의 발명자들은 유전자 조작된 아데닌 디아미네이즈 및 Streptococcus Pyogenes Cas9 니케이즈 변이체로 구성된 아데닌 염기 편집기 (Adenine base editor: ABE)를 이용하여, 성체 동물에서 효율적인 아데닌 염기 편집을 달성할 수 있음을 확인하고, 본 발명을 완성하였다.Under this technical background, the inventors of the present application utilize an Adenine base editor (ABE) consisting of genetically engineered adenine deaminase and Streptococcus Pyogenes Cas9 kinase variants to achieve efficient adenine base editing in adult animals. It was confirmed that the present invention was completed.

본 발명의 목적은 염기 교정용 유전자 구조체를 제공하는 데 있다.It is an object of the present invention to provide a genetic construct for base correction.

본 발명의 다른 목적은 상기 유전자 구조체가 작동 가능하게 연결된 염기 교정용 벡터를 제공하는 데 있다.Another object of the present invention is to provide a vector for base correction in which the gene construct is operably linked.

본 발명의 다른 목적은 상기 유전자 구조체 또는 상기 벡터를 도입하는 단계를 포함하는 염기 교정 방법을 제공하는 데 있다.Another object of the present invention to provide a method for correcting a base comprising the step of introducing the gene construct or the vector.

본 발명의 다른 목적은 상기 벡터가 도입되어 교정된 염기가 발현되는 비-인간 동물을 제공하는 데 있다.Another object of the present invention is to provide a non-human animal in which the vector is introduced and the corrected base is expressed.

상기 목적을 달성하기 위하여, 본 발명은 (i) Cas9 단백질의 N-말단을 포함하는 제1도메인을 코딩하는 유전자, 상기 제1도메인을 코딩하는 유전자와 연결되어 있는 디아미네이즈를 코딩하는 유전자; 및 (ii) Cas9 단백질의 C-말단을 포함하는 제2도메인을 코딩하는 유전자를 포함하고, 상기 제1도메인 및 제2도메인이 융합 발현되어 Cas9 단백질을 형성하는 것을 특징으로 하는 유전자 구조체를 제공한다.In order to achieve the above object, the present invention is (i) a gene encoding a first domain comprising the N-terminal of the Cas9 protein, a gene encoding a dominant is linked to the gene encoding the first domain; And (ii) a gene encoding a second domain comprising the C-terminus of the Cas9 protein, wherein the first domain and the second domain are fused and expressed to form a Cas9 protein. .

본 발명은 또한, (i) Cas9 단백질의 N-말단을 포함하는 제1도메인을 코딩하는 유전자, 디아미네이즈를 코딩하는 유전자가 작동 가능하도록 연결된 제1벡터; 및 (ii) Cas9 단백질의 C-말단을 포함하는 제2도메인을 코딩하는 유전자가 작동 가능하도록 연결된 제2벡터를 포함하고, 상기 제1도메인 및 제2도메인이 융합 되어 Cas9 단백질을 발현시키는 것을 특징으로 하는 염기 교정용 벡터를 제공한다. The present invention also provides a kit comprising: (i) a gene encoding a first domain comprising the N-terminus of a Cas9 protein, a first vector operably linked to a gene encoding a diminase; And (ii) a second vector operably linked to a gene encoding a second domain including the C-terminus of the Cas9 protein, wherein the first domain and the second domain are fused to express the Cas9 protein. A base correction vector is provided.

본 발명은 또한, 상기 벡터를 도입하는 단계를 포함하는 염기 교정 방법을 제공한다. The present invention also provides a base calibration method comprising the step of introducing the vector.

본 발명은 더욱이, 상기 벡터가 도입되어 교정된 염기가 발현되는 비-인간 동물을 제공한다.The present invention further provides a non-human animal in which the vector is introduced and the corrected base is expressed.

본 발명에 따르면, trans-splicing 아데노 부속 바이러스 벡터를 이용하여 분할 아데닌 염기 교정 (ABE) 유전자를 Duchenne 근이영양증의 마우스 모델의 근육세포에 성공적으로 전달하여, Dmd 유전자의 넌센스 돌연변이를 교정하였으며, 최초로 성체 동물에서 치료용 염기 편집을 입증하였다. 또한, 유전질환의 원인이 되는 돌연변이를 성체에서도 정밀하게 교정할 수 있다는 가능성을 보였다. 이에 따라, 아데닌 염기 교정을 동물 개체 수준에 적용할 수 있을 뿐만 아니라 유전 질환이 발현된 동물 개체의 유전자를 정상으로 교정할 수 있다. According to the present invention, a trans-splicing adeno accessory viral vector was successfully transferred to a muscle cell of a mouse model of Duchenne muscular dystrophy, using a trans-splicing adeno-associated virus vector to correct nonsense mutations in the Dmd gene, and for the first time in adult animals. Demonstrated therapeutic base editing. In addition, the mutations that cause genetic diseases can be accurately corrected in adults. Accordingly, not only can adenine base correction be applied at the animal subject level, but also the gene of the animal subject in which the genetic disease is expressed can be corrected to normal.

본 발명에 따르면, 다양한 형질 전환 동물들을 효과적이고 정확하게 제작할 수 있고, 실제 유전자 치료에도 적용될 수 있다. According to the present invention, various transgenic animals can be produced effectively and accurately, and can be applied to actual gene therapy.

도 1은 Duchenne 근이영양증의 마우스 모델에서 ABE의 치료적 염기 편집 결과를 나타낸다.
(a) 넌센스 돌연변이를 포함하는 Dmd 유전자의 엑손 20 중 ABE 표적 서열. PAM 서열은 파란색으로 표시. proto-spacer 서열에는 밑줄. Dmd 녹아웃 마우스에서 돌연변이 뉴클레오티드 및 ABE 의해 교정된 구아닌 뉴클레오티드는 각각 빨간색과 녹색으로 표시되어 있다.
(b) 제1 하프 니케이즈 Cas9 (nCas9 - NT) 및 제2 하프 니케이즈 Cas9 (nCas9 - CT)에 결합된 재조합 대장균 TadA (ecTadA)를 코딩하는 트랜스 스플라이싱 AAV 벡터의 개략도. SD; splicing donor, SA; splicing acceptor.
(c) Dmd 표적 부위의 염기 편집 빈도는 딥 시퀀싱에 의해 측정하였다. 오류 막대는 s.e.m. (n=3)을 의미한다.
(d) tsAAV의 근육 내 전달 후 8 주에 야생형, Dmd 녹아웃 및 ABE 처리 (+ ABE) Dmd 녹아웃 마우스에서 tibialis anterior (TA) 근육에 대한 조직학적 분석. 다음 부분에서 보여지는 바와 같이, 디스트로핀 및 neuronal nitric oxide synthase (nNOS)는 근육세포막에 공존했다. (e) TA 근육의 단면에서 디스트로핀 양성 (dys +) 섬유의 정량. 오류 막대는 s.e.m. (n=3)을 의미한다.
도 2는 ABE를 코딩하는 trans-splicing AAV 벡터의 모식도를 나타낸다. 제1벡터는 U6 프로모터에 의해 유도되는 sgRNA, Spc512 프로모터, nCas9-NT cDNA의 5 '말단에 융합된 ecTadA, nCas9-NT cDNA의 3'말단에 결합한 splice donor signal를 전달한다. 제2벡터는 nCas9-CT의 5 '말단에 splice acceptor가 인접한 nCas9-CT에 이어 NLS, HA 태그 및 bGH 폴리 A 신호를 포함한다.
(a) 2 개의 분할 AAV - ABE 벡터를 표적 세포에 동시에 감염시킨다.
(b) 2 개의 바이러스 벡터는 재조합에 의해 ITR에서 재결합하여, ecTadA, nCas9-NT, SD, SA, nCas9-CT가 하나로 연결된 형태인 이종이합체 형성이 유도된다.
(c) Dmd 표적 특이적 sgRNA 및 ABE Pre-mRNA를 제작한다.
(d) splicing에 의해 ITR 함께 SD, SA 인트론이 제거되고, ABE 단백질이 번역된다. SD, splicing donor; SA, splicing acceptor; NLS, nuclear localization signal; ITR, inverted terminal repeat.
도 3은 Dmd 녹아웃 마우스에서 ABE의 염기 편집 특이성을 나타내는 결과를 도시한 것이다. tsAAV : ABE 주사 8 주 후 근육에서 분리된 게놈 DNA에 대한 표적화 딥 시퀀싱을 이용하여, Cas-OFFinder 의해 식별된 잠재적 오프-타겟 부위에서 염기 편집 빈도를 측정하였다. 미스매치 뉴클레오티드 및 PAM 서열은 각각 빨간색과 파란색으로 표시되어 있다. OT: off-target site. 오차 막대는 s.e.m. (n = 3)를 나타낸다.
1 shows the results of therapeutic baseline editing of ABE in a mouse model of Duchenne muscular dystrophy.
(a) ABE target sequence in exon 20 of the Dmd gene comprising a nonsense mutation. PAM sequence is shown in blue. underline the proto-spacer sequence. Mutant nucleotides and guanine nucleotides corrected by ABE in Dmd knockout mice are shown in red and green, respectively.
(b) Schematic of a trans splicing AAV vector encoding recombinant E. coli TadA (ecTadA) bound to a first half Nikase Cas9 (nCas9-NT) and a second half Nikase Cas9 (nCas9 -CT). SD; splicing donor, SA; splicing acceptor.
(c) Base editing frequency of the Dmd target site was determined by deep sequencing. Error bars mean sem (n = 3).
(d) Histological analysis of tibialis anterior (TA) muscles in wild-type, Dmd knockout and ABE-treated (+ ABE) Dmd knockout mice 8 weeks after intramuscular delivery of tsAAV. As shown in the next section, dystrophin and neuronal nitric oxide synthase (nNOS) coexisted in the muscle cell membrane. (e) Quantification of dystrophin positive (dys +) fibers in the cross section of TA muscle. Error bars mean sem (n = 3).
2 shows a schematic diagram of a trans-splicing AAV vector encoding ABE. The first vector delivers a splice donor signal that is bound to the ecTadA and nCas9-NT cDNA fused to the 5 'end of the sgRNA, Spc512 promoter, and nCas9-NT cDNA induced by the U6 promoter. The second vector contains an NLS, HA tag and a bGH poly A signal following nCas9-CT adjacent to the splice acceptor at the 5 'end of nCas9-CT.
(a) Infect two target AAV-ABE vectors simultaneously.
(b) The two viral vectors recombine in ITR by recombination, leading to heterodimer formation in the form of ecTadA, nCas9-NT, SD, SA, nCas9-CT linked together.
(c) Construct Dmd target specific sgRNAs and ABE Pre-mRNAs.
(d) By splicing, SD and SA introns are removed together with ITR and ABE protein is translated. SD, splicing donor; SA, splicing acceptor; NLS, nuclear localization signal; ITR, inverted terminal repeat.
3 shows the results showing the base editing specificity of ABE in Dmd knockout mice. Targeting deep sequencing on genomic DNA isolated from muscle 8 weeks after tsAAV: ABE injection, base editing frequencies were measured at potential off-target sites identified by Cas-OFFinder. Mismatched nucleotides and PAM sequences are shown in red and blue, respectively. OT: off-target site. Error bars represent sem (n = 3).

다른 식으로 정의되지 않는 한, 본 명세서에서 사용된 모든 기술적 및 과학적 용어들은 본 발명이 속하는 기술분야에서 숙련된 전문가에 의해서 통상적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로, 본 명세서에서 사용된 명명법은 본 기술분야에서 잘 알려져 있고 통상적으로 사용되는 것이다.Unless defined otherwise, all technical and scientific terms used herein have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. In general, the nomenclature used herein is well known and commonly used in the art.

본 발명은 일 관점에서, (i) Cas9 단백질의 N-말단을 포함하는 제1도메인을 코딩하는 유전자, 상기 제1도메인을 코딩하는 유전자와 연결되어 있는 디아미네이즈를 코딩하는 유전자; 및 (ii) Cas9 단백질의 C-말단을 포함하는 제2도메인을 코딩하는 유전자를 포함하고, 상기 제1도메인 및 제2도메인이 융합 발현되어 Cas9 단백질을 형성하는 것을 특징으로 하는 유전자 구조체 (construct)에 관한 것이다.The present invention, in one aspect, (i) a gene encoding a first domain comprising the N-terminal of the Cas9 protein, a gene encoding a diminase is linked to the gene encoding the first domain; And (ii) a gene encoding a second domain comprising the C-terminus of the Cas9 protein, wherein the first domain and the second domain are fused and expressed to form a Cas9 protein. It is about.

상기 디아미네이즈는 아데노신 디아미네이즈 또는 시티딘 디아미네이즈를 포함하고, 아데노신(A)을 이노신(I)으로 전환하거나 시티딘(C)을 우리딘(U)으로 전환시킬 수 있다. 상기 디아미네이즈는 예를 들어, APOBEC1 (apolipoprotein B editing complex 1), AID (activation-induced deaminase) 및 tadA (tRNA-specific adenosine deaminase)으로 구성된 군에서 선택될 수 있다.The diamines include adenosine diamines or cytidine diamines and can convert adenosine (A) to inosine (I) or cytidine (C) to uridine (U). The dianamin may be selected from the group consisting of, for example, apolipoprotein B editing complex 1 (APOBEC1), activation-induced deaminase (AID), and tRNA-specific adenosine deaminase (tadA).

하나의 실시예에서, 상기 디아미네이즈는 아데노신 디아미네이즈 (adenosine deaminase)일 수 있으며, 본 발명에서 디아미네이즈를 사용한 염기 교정 반응은 표적 RNA 서열을 변화시키고 편집 반응을 통해 수행될 수 있다. 아데노신 디아미네이즈를 사용한 편집 반응은 아데노신 탈아민화이며, 아데노신을 이노신으로 전환시킬 수 있다. 시티딘 디아미네이즈를 사용한 편집 반응은 시티딘 탈아민화이며, 시티딘을 우리딘으로 전환시킬 수 있다.In one embodiment, the dianamin may be adenosine deaminase, and in the present invention, the base correction reaction using the demiamine may be performed by changing a target RNA sequence and performing an editing reaction. The editorial reaction with adenosine deaminase is adenosine deamination and can convert adenosine to inosine. The editorial reaction with cytidine diminase is cytidine deamination and can convert cytidine to uridine.

상기 아데노신 디아미네이즈는 아데노신(A)을 이노신(I)으로 전환하는 것에 관여하는 효소로, 효소에 따라 2 내지 3개의 이중 가닥 RNA 인식 도메인 및 촉매 활성 도메인을 포함하는 다중 도메인 단백질이다. 인식 도메인은 특정한 이중 가닥 RNA(dsRNA) 서열 및/또는 형상을 인식하는 반면, 촉매 활성 도메인은 뉴클레오베이스의 탈아민에 의해 표적 RNA의 인근 또는 미리 예정된 위치에서 아데노신(A)을 이노신(I)으로 전환시킬 수 있는 것이다. 이노신은 세포의 번역화 과정에 의해 구아닌으로 판독되고 이는 만약 편집된 아데노신이 mRNA 또는 프리-mRNA의 코딩 영역에 존재한다면 이는 단백질 서열을 암호화시킬 수 있는 것이다.The adenosine deaminase is an enzyme involved in converting adenosine (A) to inosine (I), and is a multi-domain protein comprising two to three double-stranded RNA recognition domains and a catalytically active domain depending on the enzyme. Recognition domains recognize specific double-stranded RNA (dsRNA) sequences and / or shapes, while catalytically active domains indenosine (I) bind adenosine (A) at nearby or pre-determined positions of the target RNA by deamine of nucleobases. Can be converted to Inosine is read into guanine by the translational process of the cell, which is capable of encoding protein sequences if the edited adenosine is present in the coding region of the mRNA or pre-mRNA.

아데노신(A)에서 이노신(I)으로의 전환은 또한 표적 mRNA의 5' 비코딩 서열에서 발생할 수 있고, N 말단 상에 연장된 단백질 또는 3'UTR 또는 다른 전사체 내의 비코딩 부위 내에서 생성될 수 있도록 원래의 출발 위치의 업스트림에 새로운 번역 시작 부위를 생성시킬 수 있다. 이는 RNA의 프로세싱 및/또는 안정성에 영향을 미칠 수 있다. 또한, 아데노신(A)에서 이노신(I)으로의 전환은 pre-mRNA 내의 인트론 또는 엑손의 스플라이스 구성에서 일어날 수 있으며 이는 스플라이싱 패턴의 변화를 야기할 수 있다. 그 결과로서 엑손이 포함되거나 스킵핑될 수 있다. 아데노신 디아미네이즈는 인간 디아미네이즈 hADAR1, hADAR2 및 hADAR3을 포함하여 RNA(ADAR)에 작용하는 아데노신 디아미나제라고 불리는 효소 패밀리의 일부이다.The conversion of adenosine (A) to inosine (I) can also occur at the 5 'noncoding sequence of the target mRNA and be generated in a protein extending on the N terminus or in a noncoding site in the 3'UTR or other transcript. A new translation start site can be created upstream of the original starting position. This may affect the processing and / or stability of the RNA. In addition, the conversion of adenosine (A) to inosine (I) can occur in the splice configuration of introns or exons in the pre-mRNA, which can lead to changes in the splicing pattern. As a result, exons can be included or skipped. Adenosine deaminase is part of a family of enzymes called adenosine deaminase that act on RNA (ADAR), including the human deminase hADAR1, hADAR2, and hADAR3.

하나의 실시예에서, 상기 아데노신 디아미네이즈는 예를 들어 tadA (tRNA-specific adenosine deaminase)일 수 있다. 상기 아데노신 디아미네이즈는 예를 들어, E. coli 유래 TadA 7.10을 포함할 수 있다. 상기 아데노신 디아미네이즈는 Cas9 단백질의 N-말단을 포함하는 제1도메인을 코딩하는 유전자의 5' 방향에 연결될 수 있다. 상기 아데노신 디아미네이즈는 단백질 또는 이를 암호화하는 DNA, 또는 이를 암호화하는 mRNA 형태로 사용될 수 있다. 상기 디아미네이즈를 코딩하는 유전자는 예를 들어, 서열번호 6의 서열을 포함할 수 있다. In one embodiment, the adenosine deaminase may be, for example, tadA (tRNA-specific adenosine deaminase). The adenosine deaminase is derived from, for example, E. coli TadA 7.10. The adenosine deminase may be linked to the 5 'direction of the gene encoding the first domain including the N-terminus of the Cas9 protein. The adenosine deaminase may be used in the form of a protein or DNA encoding the same, or an mRNA encoding the same. The gene encoding the diminase may include, for example, the sequence of SEQ ID NO: 6.

상기 Cas 단백질은 CRISPR/Cas 시스템의 주요 단백질 구성 요소로, 활성화된 엔도뉴클레아제 또는 니케이즈를 형성할 수 있는 단백질이다.The Cas protein is a major protein component of the CRISPR / Cas system and is a protein capable of forming activated endonucleases or nickases.

Cas 단백질 또는 유전자 정보는 NCBI (National Center for Biotechnology Information)의 GenBank와 같은 공지의 데이터 베이스에서 얻을 수 있다. 예컨대, 상기 Cas 단백질은, Cas protein or genetic information can be obtained from known databases such as GenBank of the National Center for Biotechnology Information (NCBI). For example, the Cas protein,

스트렙토코커스 sp. (Streptococcus sp.), 예컨대, 스트렙토코커스 피요게네스 (Streptococcus pyogenes) 유래의 Cas 단백질, 예컨대, Cas9 단백질 (예컨대, SwissProt Accession number Q99ZW2(NP_269215.1)); Streptococcus sp. Streptococcus sp., Such as Cas proteins from Streptococcus pyogenes , such as Cas9 proteins (eg SwissProt Accession number Q99ZW2 (NP — 269215.1));

캄필로박터 속, 예컨대, 캄필로박터 제주니 (Campylobacter jejuni) 유래의 Cas 단백질, 예컨대, Cas9 단백질; Campylobacter genus, for example, Campylobacter Jeju Needle (Campylobacter jejuni) derived from Cas proteins, e.g., protein Cas9;

스트렙토코커스 속, 예컨대, 스트렙토코커스 써모필러스 (Streptococcus thermophiles) 또는 스트렙토코커스 아우레우스 (Streptocuccus aureus) 유래의 Cas 단백질, 예컨대, Cas9 단백질;Cas proteins, such as Cas9 proteins from the Streptococcus genus, such as Streptococcus thermophiles or Streptocuccus aureus ;

네이세리아 메닝기디티스 (Neisseria meningitidis) 유래의 Cas 단백질, 예컨대, Cas9 단백질;Cas proteins, such as Cas9 proteins from Neisseria meningitidis ;

파스테우렐라 (Pasteurella) 속, 예컨대, 파스테우렐라 물토시다 (Pasteurella multocida) 유래의 Cas 단백질, 예컨대 Cas9 단백질;Cas proteins, such as Cas9 proteins, from the genus Pasteurella , such as Pasteurella multocida ;

프란시셀라 (Francisella) 속, 예컨대, 프란시셀라 노비시다 (Francisella novicida) 유래의 Cas 단백질, 예컨대 Cas9 단백질 등으로 이루어진 군에서 선택된 하나 이상일 수 있으나, 이에 제한되는 것은 아니다.Fran when cellar (Francisella) in, for example, when Francisco Cellar Novi Let (Francisella novicida), but may be one or more selected from the group consisting of the origin of the Cas proteins, such as Cas9 protein or the like, without being limited thereto.

상기 Cas9 단백질은 미생물에서 분리된 것 또는 재조합적 방법 또는 합성적 방법 등과 같이 인위적 또는 비자연적 생산된 것(non-naturally occurring)일 수 있다. 일 예에서, 상기 Cas9 단백질은 재조합 DNA에 의하여 만들어진 재조합 단백질일 수 있다. 재조합 DAN(Recombinant DNA; rDNA)는 다양한 유기체로부터 얻어진 이종 또는 동종 유전 물질을 포함하기 위하여 분자 클로닝과 같은 유전자 재조합 방법에 의하여 인공적으로 만들어진 DNA 분자를 의미한다. 예컨대, 재조합 DNA를 적절한 유기체에서 발현시켜 표적 특이적 뉴클레아제를 생산 (in vivo 또는 in vitro)하는 경우, 재조합 DNA는 제조하고자 하는 단백질을 암호화 하는 코돈들 중에서 상기 유기체에 발현하기에 최적화된 코돈을 선택하여 재구성된 뉴클레오타이드 서열을 갖는 것일 수 있다.The Cas9 protein may be isolated from a microorganism or may be artificially or non-naturally occurring, such as in a recombinant or synthetic method. In one embodiment, the Cas9 protein may be a recombinant protein made by recombinant DNA. Recombinant DNA (rDNA) refers to a DNA molecule artificially produced by genetic recombination methods such as molecular cloning to include heterologous or homologous genetic material obtained from various organisms. For example, when recombinant DNA is expressed in an appropriate organism to produce target specific nucleases ( in vivo or in vitro ), the recombinant DNA is optimized for expression in the organism among codons encoding the protein to be prepared. It may have a nucleotide sequence reconstructed by selecting.

본 발명에서는 Cas9을 바이러스 벡터에서 발현시키기 위해 Cas9의 일부를발현할 수 있는 벡터를 제작하였다. 즉, Cas9 단백질을 바이러스 벡터에서 패키징이 가능한 크기로 나누어 각각의 벡터에서 발현시키고자 하였다. 본 발명에서 Cas9 단백질의 제1도메인 및 제2도메인은 Cas9 단백질의 일부 부위를 지칭하는 것으로, 이들이 별도의 벡터가 각각세포 내로 전달된 후 융합되어 발현되도록 한 것이다. 본 발명에서는 상기와 같은 방식으로 제작된 Cas9 단백질을 "split-Cas9"이라 명명하였다. In the present invention, a vector capable of expressing a part of Cas9 was prepared to express Cas9 in a viral vector. That is, the Cas9 protein was divided into sizes that can be packaged in a viral vector and expressed in each vector. In the present invention, the first domain and the second domain of the Cas9 protein refer to a part of the Cas9 protein, and these are intended to be expressed by fusion after a separate vector is delivered into each cell. In the present invention, the Cas9 protein produced in the above manner was named "split-Cas9".

split-Cas9은 기존에 크기가 커서 바이러스 벡터 등을 통해 패키징되지 않던 Cas9 단백질을 패키징 가능한 크기로 나누어서 이들 각각을 벡터를 통해 발현시키더라도 세포 내에서 그 기능을 잃지 않는다.split-Cas9 divides Cas9 protein, which is large in size and has not been packaged through a viral vector, into a packageable size, and does not lose its function in cells even though each of them is expressed through the vector.

"제1 도메인"은 상기와 같은 목적으로 절단된 Cas9의 일부분을 발현시키는 경우 원래 Cas9 단백질의 N-말단 부위를 포함하는 도메인을 의미하며, "제2 도메인" 원래 Cas9 단백질의 C-말단 부위를 포함하는 도메인을 말한다. 이들 각각의 도메인은 본 발명에서 "하프(절반) 도메인"이라는 용어와 혼용하여 사용하였다. 상기 각각의 도메인은 바이러스 벡터에서 발현시키기 위한 것이므로, 각각 바이러스 벡터에서 패키징될 수 있는 크기인 400 bp 내지 3.7 kbp의 크기일 수 있다. 구체적으로, 본 발명에서는 상기 제1 도메인 및 제2 도메인이 융합되어 원래의 Cas9 단백질 전체를 구성하므로, 하나의 도메인의 크기는 Cas9 단백질 전체의 크기에서 다른 하나의 도메인의 크기를 뺀 것이 된다.“First domain” refers to a domain comprising the N-terminal portion of the original Cas9 protein when expressing a portion of Cas9 cleaved for this purpose, and refers to a “second domain” C-terminal portion of the original Cas9 protein. Refers to the containing domain. Each of these domains is used interchangeably with the term "half (half) domain" in the present invention. Since each domain is intended to be expressed in a viral vector, each of the domains may be a size of 400 bp to 3.7 kbp that can be packaged in the viral vector. Specifically, in the present invention, since the first domain and the second domain are fused to constitute the entire original Cas9 protein, the size of one domain is obtained by subtracting the size of the other domain from the size of the entire Cas9 protein.

본 발명의 구체적인 일 실시예에서는 야생형 (Wild-type, WT) Cas9 (CRISPR associated protein 9) 단백질의 중간부위에 존재하는 disordered linker(agcggccagggc; SGQG 아미노산을 인코팅하는 시퀀스)의 중간 부위를 절단하여 SG 아미노산과 QG 아미노산이 제1 도메인과 제2 도메인에 각각 연결된 두 개의 하프 도메인을 제작하였다. In a specific embodiment of the present invention, SG is cleaved by cleaving an intermediate region of a disordered linker (agcggccagggc; a sequence encoding an SGQG amino acid) present in an intermediate region of a wild-type (WT) Cas9 (CRISPR associated protein 9) protein. Two half domains were constructed in which the amino acid and the QG amino acid were linked to the first domain and the second domain, respectively.

제1도메인을 2.1 kbp, 제2 도메인을 1.9 kbp로 하여 플라스미드 벡터 및 바이러스 벡터에 도입하였으며, 상기 각각의 벡터를 이용하여 세포 내에서 split-Cas9이 표적위치에서 Indel을 유도할 수 있음을 확인하였다. 상기 제1도메인을 코딩하는 유전자는 서열번호 8의 서열을 포함하거나, 상기 제2도메인을 코딩하는 유전자는 서열번호 11의 서열을 포함할 수 있다. The first domain was introduced into the plasmid vector and the viral vector with 2.1 kbp and the second domain as 1.9 kbp, and it was confirmed that split-Cas9 was able to induce Indel at the target position in the cells using the respective vectors. . The gene encoding the first domain may include the sequence of SEQ ID NO: 8, or the gene encoding the second domain may include the sequence of SEQ ID NO: 11.

상기 Cas9 단백질은 변이된 형태일 수 있다. DNA 이중 가닥을 절단하는 엔도뉴클레아제 활성을 상실하도록 변이된 것을 의미할 수 있으며, 예컨대, 엔도뉴클레아제 활성을 상실하고 니케이즈 활성을 갖도록 변이되거나, 표적 특이적 뉴클레아제 및 엔도뉴클레아제 활성과 니케이즈 활성을 모두 상실하도록 변이될 수 있다. 니케이즈 활성을 갖는 경우, 상기 디아미나제에 의한 염기 변환(예컨대, 시티딘이 우라딘으로 변환)과 동시 또는 순서와 무관하게 순차적으로, 상기 염기 변환이 일어난 가닥 또는 그 반대 가닥 (예컨대, 염기 변환이 일어난 가닥의 반대 가닥)에서 nick이 도입될 수 있다 (예컨대, PAM이 위치하는 가닥의 반대가닥에서, PAM 서열의 5' 말단 방향으로 3번째 뉴클레오타이드와 4번째 뉴클레오타이드 사이에 해당하는 위치에 nick이 도입됨). 이와 같은 변이 (예컨대, 아미노산 치환 등)는 적어도 뉴클레아제의 촉매 활성 도메인 (예컨대, Cas9의 경우 RuvC 촉매 도메인)에서 일어나는 것일 수 있다. The Cas9 protein may be in mutated form. It may mean that it has been mutated to lose endonuclease activity that cleaves DNA double strands, eg, to lose endonuclease activity and to have Nikase activity, or to target specific nucleases and endonucleases. It can be mutated to lose both first and Nikase activity. If it has Nikase activity, either the strand in which the base transformation takes place or the opposite strand (eg, base) simultaneously or sequentially with or without the base transformation by the diaminase (eg, cytidine to uradine) Nick may be introduced at the opposite strand of the strand where the transformation takes place (e.g., at the opposite strand of the strand where the PAM is located, nick at a position corresponding between the 3rd and 4th nucleotides in the 5 'end direction of the PAM sequence) Is introduced). Such mutations (eg, amino acid substitutions, etc.) may occur at least in the catalytic active domain of the nuclease (eg, the RuvC catalytic domain for Cas9).

일 예에서, 스트렙토코커스 피요젠스 유래 Cas9 단백질 (SwissProt Accession number Q99ZW2(NP_269215.1))의 경우, 상기 변이는 촉매 활성을 갖는 아스파르트산 잔기 (catalytic aspartate residue; 10번째 위치의 아스파르트산 (D10) 등), 762번째 위치의 글루탐산 (E762), 840번째 위치의 히스티딘 (H840), 854번째 위치의 아스파라긴 (N854), 863번째 위치의 아스파라긴 (N863), 986번째 위치의 아스파르트산 (D986) 등으로 이루어진 군에서 선택된 하나 이상 임의의 다른 아미노산으로 치환된 돌연변이를 포함할 수 있다. 이 때, 치환되는 임의의 다른 아미노산은 알라닌 (alanine)일 수 있지만, 이에 제한되지 않는다. In one embodiment, for the Streptococcus pyogenes derived Cas9 protein (SwissProt Accession number Q99ZW2 (NP_269215.1)), the mutation is catalytic aspartate residue (aspartic acid residue at position 10 (D10), etc.) ), Glutamic acid at position 762 (E762), histidine at position 840 (H840), asparagine at position 854 (N854), asparagine at position 863 (N863), aspartic acid at position 986 (D986), and the like. Mutations substituted with one or more of any other amino acid selected from the group. At this time, any other amino acid to be substituted may be alanine, but is not limited thereto.

다른 예에서, 야생형 Cas9 단백질과 상이한 PAM 서열을 인식하도록 변이된 Cas9 단백질일 수 있다. 예컨대, 스트렙토코커스 피요젠스 유래 Cas9 단백질의 1135번째 위치의 아스파르트산 (D1135), 1335번째 위치의 아르기닌 (R1335), 및 1337번째 위치의 트레오닌 (T1337) 중 하나 이상, 예컨대 3개 모두가 다른 아미노산으로 치환되어, 야생형 Cas9의 PAM 서열 (NGG)와 상이한 NGA (N은 A, T, G, 및 C 중에서 선택된 임의의 염기임)을 인식하도록 변이된 것일 수 있다. In another example, the Cas9 protein may be mutated to recognize a different PAM sequence than the wild type Cas9 protein. For example, one or more of the aspartic acid at position 1135 (D1135), arginine at position 1335 (R1335), and threonine at position 1337 (T1337) of the Streptococcus pyogenes derived Cas9 protein, such as all three, may be And may be mutated to recognize an NGA (N is any base selected from A, T, G, and C) that is different from the PAM sequence (NGG) of wild type Cas9.

일 예에서, 상기 스트렙토코커스 피요젠스 유래 Cas9 단백질의 아미노산 서열 중, In one embodiment, the amino acid sequence of the Cas9 protein derived from Streptococcus pyogenes,

(1) D10, H840, 또는 D10 + H840; (1) D10, H840, or D10 + H840;

(2) D1135, R1335, T1337, 또는 D1135 + R1335 + T1337; 또는(2) D1135, R1335, T1337, or D1135 + R1335 + T1337; or

(3) (1)과 (2) 잔기 모두에서 아미노산 치환이 일어난 것일 수 있다.(3) Amino acid substitutions may have occurred at both (1) and (2) residues.

본 명세서에 사용된 바로서, 상기 '다른 아미노산'은, 알라닌, 이소류신, 류신, 메티오닌, 페닐알라닌, 프롤린, 트립토판, 발린, 아스파라긴산, 시스테인, 글루타민, 글리신, 세린, 트레오닌, 티로신, 아스파르트산, 글루탐산, 아르기닌, 히스티딘, 라이신, 상기 아미노산들의 공지된 모든 변형체 중에서, 야생형 단백질이 원래 변이 위치에 갖는 아미노산을 제외한 아미노산들 중에서 선택된 아미노산을 의미한다. 일 예에서, 상기 '다른 아미노산'은 알라닌, 발린, 글루타민, 또는 아르기닌일 수 있다.As used herein, the 'other amino acids' are alanine, isoleucine, leucine, methionine, phenylalanine, proline, tryptophan, valine, aspartic acid, cysteine, glutamine, glycine, serine, threonine, tyrosine, aspartic acid, glutamic acid, Arginine, histidine, lysine, among all known variants of these amino acids, refers to an amino acid selected from among amino acids except for those that the wild type protein originally had at the mutation site. In one embodiment, the 'other amino acid' may be alanine, valine, glutamine, or arginine.

일 예에서, 엔도뉴클레아제 활성을 상실(예컨대, 니케이즈 활성을 갖거나, 엔도뉴클레아제 활성 및 니케이즈 활성을 모두 상실)한 변형 Cas9 단백질, 또는 야생형 Cas9과 상이한 PAM 서열을 인식하는 것일 수 있다. 예컨대, 상기 변형 Cas9 단백질은, 스트렙토코커스 피요제네스 (Streptococcus pyogenes) 유래의 Cas9 단백질에 있어서,In one embodiment, to recognize a modified Cas9 protein that has lost endonuclease activity (eg, has Nikase activity, or has lost both endonuclease activity and Nikase activity), or a PAM sequence that is different from wild type Cas9. Can be. For example, the modified Cas9 protein, in the Cas9 protein derived from Streptococcus pyogenes ,

(1) D10 또는 H840 위치에 돌연변이 (예컨대, 다른 아미노산으로의 치환)가 도입되어 엔도뉴클레아제 활성이 상실되고 니케이즈 활성을 갖는 변형 Cas9, 또는 스트렙토코커스 피요젠스 (Streptococcus pyogenes) 유래의 Cas9 단백질에 D10 및 H840 위치에 모두 돌연변이 (예컨대, 다른 아미노산으로의 치환)가 도입되어 엔도뉴클레아제 활성 및 니케이즈 활성을 모두 상실한 변형 Cas9 단백질; (1) a modified Cas9, or Cas9 protein from Streptococcus pyogenes , which has introduced a mutation (e.g., substitution with another amino acid) at the D10 or H840 position, resulting in loss of endonuclease activity and having Nikase activity A modified Cas9 protein wherein mutations (eg, substitution with other amino acids) were introduced at both the D10 and H840 positions, resulting in loss of both endonuclease activity and Nikase activity;

(2) D1135, R1335 및 T1337 중에서 하나 이상 또는 이들 모두에 돌연변이(예컨대, 다른 아미노산으로의 치환)가 도입되어 야생형과 상이한 PAM 서열을 인식하는 변형 Cas9 단백질; 또는(2) a modified Cas9 protein that incorporates a mutation (eg, substitution with another amino acid) in one or more or all of D1135, R1335, and T1337 to recognize a PAM sequence that is different from the wild type; or

(3) (1) 및 (2)의 돌연변이가 모두 도입되어 니케이즈 활성을 갖고 야생형과 상이한 PAM 서열을 인식하거나, 엔도뉴클레아제 활성 및 니케이즈 활성을 모두 상실하고 야생형과 상이한 PAM 서열을 인식하는 변형 Cas9 단백질일 수 있다. (3) Both mutations of (1) and (2) have been introduced to recognize PAM sequences that have Nikase activity and differ from the wild type, or lose both endonuclease activity and Nikase activity and recognize PAM sequences that differ from the wild type May be a modified Cas9 protein.

예컨대, 상기 CAs9 단백질의 D10 위치에서의 돌연변이는 D10A 돌연변이 (Cas9 단백질의 아미노산 중 10번째 아미노산인 D가 A로 치환된 돌연변이를 의미함; 이하, Cas9에 도입된 돌연변이는 동일한 방법으로 표기됨)일 수 있고, 상기 H840 위치에서의 돌연변이는 H840A 돌연변이일 수 있으며, D1135, R1335, 및 T1337 위치에서의 돌연변이는 각각 D1135V, R1335Q, 및T1337R일 수 있다. For example, the mutation at the D10 position of the CAs9 protein means a D10A mutation (mutation in which D, the tenth amino acid of the amino acids of the Cas9 protein, is replaced by A; hereinafter, a mutation introduced into Cas9 is represented by the same method). And the mutation at the H840 position may be an H840A mutation and the mutations at the D1135, R1335, and T1337 positions may be D1135V, R1335Q, and T1337R, respectively.

일 예에서, 본 명세서에서 사용되는 Cas9 단백질 중 스트렙토코커스 피요젠스 (Streptococcus pyogenes) 유래의 Cas9 단백질(예컨대, SwissProt Accession number Q99ZW2(NP_269215.1))에 (1) D10 위치에서의 돌연변이 (예컨대, 다른 아미노산으로의 치환) 가 도입되어 엔도뉴클레아제 활성이 상실되고 니케이즈 활성을 갖는 변형 Cas9, (2) H840 위치에서의 돌연변이 (예컨대, 다른 아미노산으로의 치환)가 도입되어 엔도뉴클레아제 활성이 상실되고 니케이즈 활성을 갖는 변형 Cas9, (3) D10 위치에서의 돌연변이(예컨대, 다른 아미노산으로의 치환)와 H840 위치에 돌연변이 (예컨대, 다른 아미노산으로의 치환)가 모두 도입되어 엔도뉴클레아제 활성 및 니케이즈 활성을 모두 상실한 변형 Cas9 단백질 등으로 이루어진 군에서 선택된 1종 이상일 수 있다. 예컨대, 상기 CAs9 단백질의 D10 위치에서의 돌연변이는 D10A 돌연변이 (Cas9 단백질의 아미노산 중 10번째 아미노산인 D가 A로 치환된 돌연변이를 의미함; 이하, Cas9에 도입된 돌연변이는 동일한 방법으로 표기됨)일 수 있고, 상기 H840 위치에서의 돌연변이는 H840A 돌연변이일 수 있다.In one embodiment, a Cas9 protein derived from Streptococcus pyogenes (eg, SwissProt Accession number Q99ZW2 (NP_269215.1)) of the Cas9 protein used herein, (1) a mutation at the D10 position (eg, another Substitution with amino acids) results in the loss of endonuclease activity and modification Cas9 with Nikase activity, (2) a mutation at the H840 position (e.g., substitution with another amino acid) is introduced to result in an endonuclease activity Modified Cas9, (3) a mutation at the D10 position (e.g., substitution with another amino acid) and a mutation (e.g., substitution with another amino acid) at the H840 position are introduced, resulting in endonuclease activity And it may be one or more selected from the group consisting of modified Cas9 protein, etc. that lost all the Nikase activity. For example, the mutation at the D10 position of the CAs9 protein means a D10A mutation (mutation in which D, the tenth amino acid of the amino acids of the Cas9 protein, is replaced by A; hereinafter, a mutation introduced into Cas9 is represented by the same method). And the mutation at the H840 position may be a H840A mutation.

상기 뉴클레아제는 미생물에서 분리된 것 또는 재조합적 방법 또는 합성적 방법 등과 같이 인위적 또는 비자연적 생산된 것(non-naturally occurring)일 수 있다. 일 예에서, 상기 뉴클레아제는 재조합 DNA에 의하여 만들어진 재조합 단백질일 수 있다. 재조합 DAN(Recombinant DNA; rDNA)는 다양한 유기체로부터 얻어진 이종 또는 동종 유전 물질을 포함하기 위하여 분자 클로닝과 같은 유전자 재조합 방법에 의하여 인공적으로 만들어진 DNA 분자를 의미한다. 예컨대, 재조합 DNA를 적절한 유기체에서 발현시켜 단백질을 생산 (in vivo 또는 in vitro)하는 경우, 재조합 DNA는 제조하고자 하는 단백질을 암호화 하는 코돈들 중에서 상기 유기체에 발현하기에 최적화된 코돈을 선택하여 재구성된 뉴클레오타이드 서열을 갖는 것일 수 있다. The nuclease may be isolated from a microorganism or artificially or non-naturally occurring, such as in a recombinant or synthetic method. In one embodiment, the nuclease may be a recombinant protein made by recombinant DNA. Recombinant DNA (rDNA) refers to a DNA molecule artificially produced by genetic recombination methods such as molecular cloning to include heterologous or homologous genetic material obtained from various organisms. For example, when recombinant DNA is expressed in an appropriate organism to produce a protein ( in vivo or in vitro ), the recombinant DNA is reconstituted by selecting a codon optimized for expression in the organism among the codons encoding the protein to be produced. It may have a nucleotide sequence.

상기 뉴클레아제는 단백질, 이를 암호화하는 핵산 분자 (DNA 또는 mRNA), 가이드 RNA와 결합된 리보핵산 단백질, 상기 리보핵산 단백질을 암호화하는 핵산 분자, 또는 상기 핵산 분자를 포함하는 재조합 벡터의 형태로 사용될 수 있다. The nuclease may be used in the form of a protein, a nucleic acid molecule (DNA or mRNA) encoding the same, a ribonucleic acid protein coupled with a guide RNA, a nucleic acid molecule encoding the ribonucleic acid protein, or a recombinant vector comprising the nucleic acid molecule. Can be.

상기 뉴클레아제 또는 이를 코딩하는 핵산 분자는 핵 내로 전달, 작용, 및/또는 발현될 수 있는 형태일 수 있다.The nuclease or nucleic acid molecule encoding the same may be in a form that can be delivered, acted, and / or expressed into the nucleus.

상기 뉴클레아제는 세포 내로 도입되기에 용이한 형태일 수 있다. 일 예로, 상기 뉴클레아제는 세포 침투 펩타이드 및/또는 단백질 전달 도메인 (protein transduction domain)과 연결될 수 있다. 상기 단백질 전달 도메인은 폴리-아르기닌 또는 HIV 유래의 TAT 단백질일 수 있으나, 이에 제한되지 않는다. 세포 침투 펩타이드 또는 단백질 전달 도메인은 상기 기술된 예 외에도 다양한 종류가 당업계에 공지되어 있으므로, 당업자는 상기 예에 제한되지 않고 다양한 예를 적용할 수 있다. The nuclease may be in a form that is easy to introduce into the cell. In one example, the nuclease may be linked with a cell penetrating peptide and / or a protein transduction domain. The protein transfer domain may be, but is not limited to, poly-arginine or HIV derived TAT protein. Cell penetrating peptides or protein delivery domains are known in the art in addition to the examples described above, so those skilled in the art can apply various examples without being limited to these examples.

또한, 상기 뉴클레아제 또는 암호화하는 핵산 분자는 핵 위치 신호 (nuclear localization signal, NLS) 서열 또는 이를 암호화하는 서열을 추가로 포함할 수 있다. 따라서, 상기 뉴클레아제를 암호화하는 핵산 분자를 포함하는 발현 카세트는 상기 뉴클레아제를 발현시키기 위한 프로모터 서열 등의 조절 서열, 또는 여기에 더하여, NLS 서열을 포함할 수 있다. 상기 NLS 서열은 당업계에 잘 알려져 있다.In addition, the nuclease or nucleic acid molecule encoding may further comprise a nuclear localization signal (NLS) sequence or a sequence encoding it. Thus, an expression cassette comprising a nucleic acid molecule encoding said nuclease may comprise a regulatory sequence, such as a promoter sequence for expressing said nuclease, or in addition, an NLS sequence. Such NLS sequences are well known in the art.

상기 뉴클레아제 또는 이를 암호화하는 핵산 분자는 분리 및/또는 정제를 위한 태그 또는 상기 태그를 암호화하는 핵산 서열과 연결될 수 있다. 일 예로, 상기 태그는 His 태그, Flag 태그, S 태그 등과 같은 작은 펩타이드 태그, GST (Glutathione S-transferase) 태그, MBP (Maltose binding protein) 태그 등으로 이루어진 군에서 적절하게 선택될 수 있으나, 이에 제한되지 않는다.The nuclease or nucleic acid molecule encoding the same may be linked to a tag for isolation and / or purification or to a nucleic acid sequence encoding the tag. For example, the tag may be appropriately selected from the group consisting of small peptide tags such as His tag, Flag tag, S tag, GST (Glutathione S-transferase) tag, MBP (Maltose binding protein) tag, but not limited thereto. It doesn't work.

하나의 실시예에서, 가이드 RNA를 추가로 포함할 수 있다. "가이드 RNA (guide RNA)"는 표적 DNA 특이적인 RNA (예컨대, DNA의 표적 부위와 혼성화 가능한 RNA)를 의미하며, Cas 단백질과 같은 뉴클레아제와 결합하여 표적 DNA로 인도하는 역할을 한다.In one embodiment, the guide RNA may further comprise. "Guide RNA" refers to a target DNA specific RNA (eg, RNA hybridizable with a target site of DNA), and binds to and directs to a target DNA a nuclease such as a Cas protein.

상기 가이드 RNA는 복합체를 형성할 뉴클레아제의 종류 및/또는 그 유래 미생물에 따라서 적절히 선택될 수 있다. 예컨대, 상기 가이드 RNA는 The guide RNA may be appropriately selected depending on the type of nuclease and / or the microorganism derived from the nuclease. For example, the guide RNA

DNA 표적 부위와 혼성화 가능한 부위를 포함하는 CRISPR RNA (crRNA); CRISPR RNA (crRNA) comprising a site that is hybridizable with a DNA target site;

Cas 단백질, Cpf1 등과 같은 엔도뉴클레오타이드와 상호작용하는 부위를 포함하는 trans-activating crRNA (tracrRNA); 및 Trans- activating crRNA (tracrRNA) comprising a site that interacts with an endonnucleotide such as Cas protein, Cpf1, etc .; And

상기 crRNA 및 tracrRNA의 주요 부위 (예컨대, crRNA의 혼성화 부위 및 tracrRNA의 상호작용 부위)가 융합된 형태의 단일 가이드 RNA (single guide RNA; sgRNA)로 이루어진 군에서 선택된 1종 이상일 수 있으며, The main site of the crRNA and tracrRNA (eg, hybridization site of the crRNA and the interaction site of the tracrRNA) may be one or more selected from the group consisting of a single guide RNA (sgRNA) in a fused form,

구체적으로 CRISPR RNA (crRNA) 및 trans-activating crRNA (tracrRNA)를 포함하는 이중 RNA (dual RNA), 또는 crRNA 및 tracrRNA의 주요 부위를 포함하는 단일 가이드 RNA (sgRNA)일 수 있다. Specifically, it may be a dual RNA including CRISPR RNA (crRNA) and a trans- activating crRNA (tracrRNA), or a single guide RNA (sgRNA) comprising a major site of crRNA and tracrRNA.

상기 sgRNA는 표적 DNA 내 서열과 상보적인 서열을 가지는 부분 (이를 Spacer region, Target DNA recognition sequence, base pairing region 등으로도 명명함) 및 Cas 단백질 결합을 위한 hairpin 구조를 포함할 수 있다. 보다 구체적으로, 표적 DNA 내 서열과 상보적인 서열을 가지는 부분, Cas 단백질 결합을 위한 hairpin 구조 및 Terminator 서열을 포함할 수 있다. 상기 기술된 구조는 5'에서 3' 순으로 순차적으로 존재하는 것일 수 있으나, 이에 제한되는 것은 아니다. 상기 가이드 RNA가 crRNA 및 tracrRNA의 주요 부분 및 표적 DNA의 상보적인 부분을 포함하는 경우라면 어떠한 형태의 가이드 RNA도 본 발명에서 사용될 수 있다.The sgRNA may include a portion having a sequence complementary to a sequence in the target DNA (also referred to as a spacer region, a target DNA recognition sequence, a base pairing region, etc.) and a hairpin structure for Cas protein binding. More specifically, it may include a portion having a sequence complementary to the sequence in the target DNA, a hairpin structure and a Terminator sequence for Cas protein binding. The structure described above may be present in order from 5 'to 3', but is not limited thereto. Any form of guide RNA may be used in the present invention, provided that the guide RNA comprises a major portion of crRNA and tracrRNA and complementary portions of the target DNA.

예컨대, Cas9 단백질을 타겟 유전자 교정을 위하여 두 개의 가이드 RNA, 즉, 표적 유전자의 표적 서열 부위와 혼성화 가능한 뉴클레오타이드 서열을 갖는 CRISPR RNA (crRNA)와 Cas9 단백질와 상호작용하는 trans-activating crRNA (tracrRNA; Cas9 단백질과 상호작용함)를 필요로 하며, 이들 crRNA와 tracrRNA는 서로 결합된 이중 가닥 crRNA:tracrRNA 복합체 형태, 또는 링커를 통하여 연결되어 단일 가이드 RNA (single guide RNA; sgRNA) 형태로 사용될 수 있다. 일 예에서, Streptococcus pyogenes 유래의 Cas9 단백질을 사용하는 경우, sgRNA는 상기 Cas9의 crRNA의 혼성화 가능한 뉴클레오타이드 서열을 적어도 포함하는 crRNA 일부 또는 전부와 상기 Cas9의 tracrRNA의 Cas9 단백질와 상호작용하는 부위를 적어도 포함하는 tracrRNA 일부 또는 전부가 뉴클레오타이드 링커를 통하여 헤어핀 구조 (stem-loop 구조)를 형성하는 것일 수 있다 (이 때 뉴클레오타이드 링커가 루프 구조에 해당할 수 있음). For example, a Cas9 protein can be used to correct two target RNAs, ie, a CRISPR RNA (crRNA) having a nucleotide sequence that can hybridize with a target sequence site of a target gene, and a trans- activating crRNA (tracrRNA; And the crRNA and tracrRNA can be used in the form of a double stranded crRNA: tracrRNA complex bound to each other, or linked through a linker to form a single guide RNA (sgRNA). In one embodiment, when using a Cas9 protein derived from Streptococcus pyogenes , the sgRNA comprises at least a portion of all or part of the crRNA comprising the hybridizable nucleotide sequence of the crRNA of the Cas9 and a site that interacts with the Cas9 protein of the tracrRNA of the Cas9. Some or all of the tracrRNA may be to form a hairpin structure (stem-loop structure) through the nucleotide linker (the nucleotide linker may correspond to the loop structure).

상기 가이드 RNA, 구체적으로 crRNA 또는 sgRNA는 표적 DNA 내 서열과 상보적인 서열을 포함하며, crRNA 또는 sgRNA의 업스트림 부위, 구체적으로 sgRNA 또는 dual RNA의 crRNA의 5' 말단에 하나 이상, 예컨대, 1-10개, 1-5개, 또는 1-3개의 추가의 뉴클레오티드를 포함할 수 있다. 상기 추가의 뉴클레오티드는 구아닌 (guanine, G)일 수 있으나, 이에 제한되는 것은 아니다. The guide RNA, specifically crRNA or sgRNA, comprises a sequence complementary to the sequence in the target DNA, and at least one at the 5 'end of the upstream site of the crRNA or sgRNA, specifically the crRNA of the sgRNA or dual RNA, eg 1-10 Dogs, 1-5, or 1-3 additional nucleotides. The additional nucleotide may be guanine (G), but is not limited thereto.

상기 가이드 RNA의 구체적 서열은 뉴클레아제 (Cas9 단백질)의 종류 (즉, 유래 미생물)에 따라서 적절히 선택할 수 있으며, 이는 이 발명이 속하는 기술 분야의 통상의 지식을 가진 자가 용이하게 알 수 있는 사항이다. The specific sequence of the guide RNA may be appropriately selected according to the type of nuclease (Cas9 protein) (ie, derived microorganism), which is easily understood by those skilled in the art. .

일 예에서, 표적 특이적 뉴클레아제로서 Streptococcus pyogenes 유래의 Cas9 단백질을 사용하는 경우, crRNA는 다음의 일반식 1로 표현될 수 있다:In one example, when using a Cas9 protein from Streptococcus pyogenes as a target specific nuclease, the crRNA can be expressed by the following general formula (1):

5'-(Ncas9)l-(GUUUUAGAGCUA)-(Xcas9)m-3' (일반식 1)5 '-(N cas9 ) l- (GUUUUAGAGCUA)-(X cas9 ) m -3' (Formula 1)

상기 일반식 1에서, In the general formula 1,

Ncas9는 표적화 서열, 즉 표적 유전자(target gene)의 표적 부위(target site)의 서열에 따라서 결정되는 부위 (즉, 표적 부위의 서열과 혼성화 가능한 서열임)이며, l은 상기 표적화 서열에 포함된 뉴클레오타이드 수를 나타내는 것으로 17 내지 23 또는 18 내지 22의 정수, 예컨대 20일 수 있고;N cas9 is a targeting sequence, i.e., a site determined according to the sequence of a target site of a target gene (ie, a sequence that is hybridizable with the sequence of the target site), and l is included in the targeting sequence. Indicative of the number of nucleotides, which may be an integer from 17 to 23 or 18 to 22, such as 20;

상기 표적 서열의 3' 방향으로 인접하여 위치하는 연속하는 12개의 뉴클레오타이드(GUUUUAGAGCUA)를 포함하는 부위는 crRNA의 필수적 부분이고, The site comprising 12 consecutive nucleotides (GUUUUAGAGCUA) located adjacent in the 3 'direction of the target sequence is an essential part of the crRNA,

Xcas9는 crRNA의 3' 말단쪽에 위치하는 (즉, 상기 crRNA의 필수적 부분의 3' 방향으로 인접하여 위치하는) m개의 뉴클레오타이드를 포함하는 부위로, m은 8 내지 12의 정수, 예컨대 11일 수 있으며, 상기 m개의 뉴클레오타이드들은 서로 같거나 다를 수 있으며, 각각 독립적으로 A, U, C 및 G로 이루어진 군에서 선택될 수 있다. X cas9 is a site comprising m nucleotides located at the 3 'end of the crRNA (ie, located adjacent in the 3' direction of an essential part of the crRNA), where m is an integer from 8 to 12, such as 11 The m nucleotides may be the same as or different from each other, and may be independently selected from the group consisting of A, U, C, and G.

일 예에서, 상기 Xcas9는 UGCUGUUUUG를 포함할 수 있으나 이에 제한되지 않는다.In one example, the X cas9 may include but is not limited to UGCUGUUUUG.

또한, 상기 tracrRNA는 다음의 일반식 2로 표현될 수 있다:In addition, the tracrRNA may be represented by the following general formula (2):

5'-(Ycas9)p-(UAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC)-3' (일반식 2)5 '-(Y cas9 ) p- (UAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC) -3' (Formula 2)

상기 일반식 2에서, 60개의 뉴클레오타이드 (UAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC)로 표시된 부위는 tracrRNA의 필수적 부분이고,In Formula 2, the site represented by 60 nucleotides (UAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC) is an essential part of the tracrRNA,

Ycas9는 상기 tracrRNA의 필수적 부분의 5' 말단에 인접하여 위치하는 p개의 뉴클레오타이드를 포함하는 부위로, p는 6 내지 20의 정수, 예컨대 8 내지 19의 정수일 수 있으며, 상기 p개의 뉴클레오타이드들은 서로 같거나 다를 수 있고, A, U, C 및 G로 이루어진 군에서 각각 독립적으로 선택될 수 있다.Y cas9 is a site comprising p nucleotides located adjacent to the 5 'end of the essential portion of the tracrRNA, p may be an integer of 6 to 20, such as an integer of 8 to 19, the p nucleotides are the same as each other Or may be independently selected from the group consisting of A, U, C and G.

또한, sgRNA는 상기 crRNA의 표적화 서열과 필수적 부위를 포함하는 crRNA 부분과 상기 tracrRNA의 필수적 부분 (60개 뉴클레오타이드)를 포함하는 tracrRNA 부분이 올리고뉴클레오타이드 링커를 통하여 헤어핀 구조 (stem-loop 구조)를 형성하는 것일 수 있다 (이 때, 올리고뉴클레오타이드 링커가 루프 구조에 해당함). 보다 구체적으로, 상기 sgRNA는 crRNA의 표적화 서열과 필수적 부분을 포함하는 crRNA 부분과 tracrRNA의 필수적 부분을 포함하는 tracrRNA 부분이 서로 결합된 이중 가닥 RNA 분자에서, crRNA 부위의 3' 말단과 tracrRNA 부위의 5' 말단이 올리고뉴클레오타이드 링커를 통하여 연결된 헤어핀 구조를 갖는 것일 수 있다.In addition, the sgRNA is a crRNA moiety comprising the targeting sequence and the essential site of the crRNA and a tracrRNA moiety including the essential moiety (60 nucleotides) of the tracrRNA form a hairpin structure (stem-loop structure) through the oligonucleotide linker. Where the oligonucleotide linker corresponds to the loop structure. More specifically, the sgRNA is a double stranded RNA molecule in which a crRNA portion including a targeting sequence and an essential portion of the crRNA and a tracrRNA portion including an essential portion of the tracrRNA are bonded to each other, and the 3 'end of the crRNA region and 5 of the tracrRNA region ′ May have a hairpin structure linked via an oligonucleotide linker.

일 예에서, sgRNA는 다음의 일반식 3으로 표현될 수 있다:In one example, the sgRNA can be represented by the following general formula 3:

5'-(Ncas9)l-(GUUUUAGAGCUA)-(올리고뉴클레오타이드 링커)-(UAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC)-3' (일반식 3) 상기 일반식 3에서, (Ncas9)l는 표적화 서열로서 앞서 일반식 1에서 설명한 바와 같다. 5 ′-(N cas9 ) l- (GUUUUAGAGCUA)-(oligonucleotide linker)-(UAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC) -3 '(Formula 3) In Formula 3, (N cas9 ) l is the preceding targeting formula in Formula 1 As described.

상기 sgRNA에 포함되는 올리고뉴클레오타이드 링커는 3 내지 5개, 예컨대 4개의 뉴클레오타이드를 포함하는 것일 수 있으며, 상기 뉴클레오타이드들은 서로 같거나 다를 수 있고, A, U, C 및 G로 이루어진 군에서 각각 독립적으로 선택될 수 있다. The oligonucleotide linker included in the sgRNA may be one containing 3 to 5, such as 4 nucleotides, the nucleotides may be the same or different from each other, each independently selected from the group consisting of A, U, C and G Can be.

상기 crRNA 또는 sgRNA는 5' 말단 (즉, crRNA의 타겟팅 서열 부위의 5' 말단)에 1 내지 3개의 구아닌(G)을 추가로 포함할 수 있다.The crRNA or sgRNA may further comprise 1-3 guanine (G) at the 5 'end (ie, the 5' end of the targeting sequence region of the crRNA).

상기 tracrRNA 또는 sgRNA는 tracrRNA의 필수적 부분(60nt)의 3' 말단에 5개 내지 7개의 우라실 (U)을 포함하는 종결부위를 추가로 포함할 수 있다.The tracrRNA or sgRNA may further comprise a termination region comprising 5 to 7 uracils (U) at the 3 'end of the essential portion (60nt) of the tracrRNA.

상기 가이드 RNA의 표적 서열은 표적 DNA 상의 PAM (Protospacer Adjacent Motif 서열(S. pyogenes Cas9의 경우, 5'-NGG-3' (N은 A, T, G, 또는 C임))의 5'에 인접하여 위치하는 약 17개 내지 약 23개 또는 약 18개 내지 약22개, 예컨대 20개의 연속하는 핵산 서열일 수 있다. The target sequence of the guide RNA is adjacent to 5 'of PAM on the target DNA (5'-NGG-3' (N is A, T, G, or C) for Protospacer Adjacent Motif sequence ( S. pyogenes Cas9) And from about 17 to about 23 or from about 18 to about 22, such as 20 contiguous nucleic acid sequences.

상기 가이드 RNA의 표적 서열과 혼성화 가능한 가이드 RNA의 표적화 서열은 상기 표적 서열이 위치하는 DNA 가닥 (즉, PAM 서열(5'-NGG-3' (N은 A, T, G, 또는 C임)이 위치하는 DNA 가닥)의 상보적인 가닥의 뉴클레오타이드 서열과 50% 이상, 60% 이상, 70% 이상, 80% 이상, 90% 이상, 95% 이상, 99% 이상, 또는 100%의 서열 상보성을 갖는 뉴클레오타이드 서열을 의미하는 것으로, 상기 상보적 가닥의 뉴클레오타이드 서열과 상보적 결합이 가능하다.The targeting sequence of the guide RNA that can hybridize with the target sequence of the guide RNA is a DNA strand (ie, PAM sequence (5'-NGG-3 '(N is A, T, G, or C)) in which the target sequence is located. Nucleotide sequence of the complementary strand of the DNA strand) located at least 50%, at least 60%, at least 70%, at least 80%, at least 90%, at least 95%, at least 99%, or at least 100% of the nucleotide sequence By sequence, complementary binding to the nucleotide sequence of the complementary strand is possible.

본 명세서에서, 표적 부위의 핵산 서열은 표적 유전자의 해당 유전자 부위의 두 개의 DNA 가닥 중 PAM 서열이 위치하는 가닥의 핵산 서열로 표시된다. 이 때, 실제로 가이드 RNA가 결합하는 DNA 가닥은 PAM 서열이 위치하는 가닥의 상보적 가닥이므로, 상기 가이드 RNA에 포함된 표적화 서열은, RNA 특성상 T를 U로 변경하는 것을 제외하고, 표적 부위의 서열과 동일한 핵산 서열을 갖게 된다. 따라서, 본 명세서에서, 가이드 RNA의 표적화 서열과 표적 부위의 서열 (또는 절단 부위의 서열)은 T와 U가 상호 변경되는 것을 제외하고 동일한 핵산 서열로 표시된다.In this specification, the nucleic acid sequence of the target site is represented by the nucleic acid sequence of the strand where the PAM sequence is located among the two DNA strands of the corresponding gene site of the target gene. At this time, since the DNA strand to which the guide RNA actually binds is the complementary strand of the strand where the PAM sequence is located, the targeting sequence included in the guide RNA is a sequence of the target site, except that T is changed to U due to RNA characteristics. It will have the same nucleic acid sequence as. Thus, in this specification, the targeting sequence of the guide RNA and the sequence of the target site (or the sequence of the cleavage site) are represented by the same nucleic acid sequence except that T and U are mutually altered.

상기 가이드 RNA는 RNA 형태로 사용되거나, 이를 암호화하는 DNA를 포함하는 플라스미드 형태로 사용될 수 있다.The guide RNA may be used in the form of RNA or in the form of a plasmid containing DNA encoding the same.

"유전체 교정 (genome editing)"은 인간세포를 비롯한 동식물 세포의 유전체 염기서열에 표적화된 돌연변이를 도입할 수 있는 기술로서, 특정 유전자를 낙아웃 (knock-out) 또는 낙인 (knock-in)하거나, 단백질을 생성하지 않는 비-코딩 DNA 서열에 변이를 도입하는 것을 말한다. 또한, 유전체 교정을 통해 유전체 상의 DNA를 결실, 중복, 역위, 교체 또는 재배열시킬 수 있다."Genome editing" is a technique that allows the introduction of targeted mutations in genomic sequences of animal and plant cells, including human cells, by knocking out or knocking out a specific gene, Refers to introducing a mutation into a non-coding DNA sequence that does not produce a protein. In addition, genome correction allows deletion, duplication, inversion, replacement or rearrangement of DNA on the genome.

"결실"은 염색체의 일부 또는 DNA 상 염기의 일부가 누락되어 일어나는 돌연변이를 의미한다. "중복"은 게놈 내에 같은 유전자가 2개 또는 그 이상 존재하는 것을 의미한다. "역위"는 게놈의 일부가 원래의 게놈과 비교할 때 거꾸로 배치된 것을 의미한다. 본 발명에서, "교체"는 하나의 뉴클레오티드 서열이 서로 교체되는 것(즉, 정보를 지닌 서열의 교체)를 의미하며, 반드시 하나의 폴리뉴클레오티드가 다른 폴리뉴클레티드로 화학적 또는 물리적으로 교체되는 것만을 의미하는 것은 아니다. 본 발명에서, "재배열"이란 염색체 상의 유전자의 위치 및 순서의 변화를 일으키는 구조적 변화를 의미하며, 트랜스포존 등과 같이 전이인자가 삽입되는 것도 포함된다. 아울러, DNA 분자 내에서 염기 재배열에 의한 유전 정보의 변환을 포함할 수 있다."Deleted" means a mutation that results from a missing portion of a chromosome or a portion of a base on DNA. "Duplicate" means two or more of the same gene in the genome. "Inverted" means that a portion of the genome is placed upside down as compared to the original genome. In the present invention, "replacement" means that one nucleotide sequence is replaced with each other (i.e., replacement of informational sequences), and that only one polynucleotide is chemically or physically replaced with another polynucleotide. It does not mean. In the present invention, "rearrangement" means a structural change that causes a change in the position and sequence of genes on a chromosome, and includes translocation factors such as transposons or the like. In addition, it may include the conversion of genetic information by base rearrangement in the DNA molecule.

본 발명에서 "표적 위치 (on-target site)" 란, 상기 Cas9 단백질을 이용하여 변이(절단, 삽입, 및/또는 결실)를 도입하고자 하는 위치를 의미하며, 그 목적에 따라 임의로 선택될 수 있는 것으로 특정 유전자의 코딩 서열 내부에 존재할 수 있을 뿐만 아니라, 단백질을 생성하지 않는 비-코딩 DNA 서열에 존재할 수도 있다.In the present invention, "on-target site" means a position to introduce a mutation (cutting, insertion, and / or deletion) using the Cas9 protein, which can be arbitrarily selected according to the purpose In addition to being present inside the coding sequence of a particular gene, it may be present in a non-coding DNA sequence that does not produce a protein.

상기 Cas9 단백질은 서열 특이성 (specificity)을 가지므로 표적 위치에 작용하는 것이나, 표적 서열에 따라 비표적 위치 (off-target site)에 작용하는 부작용이 발생할 수도 있다. Since the Cas9 protein has sequence specificity, the Cas9 protein acts at the target position, but side effects may occur at the off-target site depending on the target sequence.

본 명세서에서, 비표적 위치 (off-target site)라 함은 Cas9 단백질의 표적 서열과 동일하지 않은 서열을 갖지만 상기 Cas9 단백질가 활성을 가지는 위치를 말한다. 즉, 표적 위치 이외의, Cas9 단백질에 의해 절단되는 위치를 말한다. 일 예에서, 상기 비표적 위치는 특정 Cas9 단백질에 대한 실제 비표적 위치뿐만 아니라 비표적 위치가 될 가능성이 있는 위치까지 포함하는 개념으로 사용될 수 있다. 상기 비표적 위치는 이에 제한되는 것은 아니나, 시험관 내 (in vitro)에서 Cas9 단백질에 의해 절단되는 표적 위치 이외의 모든 위치일 수 있다. In the present specification, the off-target site refers to a position having a sequence that is not identical to the target sequence of the Cas9 protein, but the Cas9 protein is active. That is, it refers to a position cleaved by the Cas9 protein other than the target position. In one example, the non-target position can be used as a concept that includes not only the actual non-target position for a particular Cas9 protein but also a position that is likely to be a non-target position. The non-target position may be any position other than the target position cleaved by the Cas9 protein in vitro , but not limited thereto.

유전자 가위가 표적 위치 이외의 위치에서도 활성을 가지는 것은 다양한 원인에 의해 야기될 수 있다. 예컨대, 표적 위치에 대하여 설계된 표적 서열과 뉴클레오티드 불일치 (mismatch)를 가지는, 표적 위치와 서열 상동성이 높은 비표적 서열의 경우 유전자 가위가 작동할 가능성이 있다. 상기 비표적 위치는 이에 제한되는 것은 아니나, 표적 서열과 1 이상의 뉴클레오티드 불일치 (mismatch)를 가지는 위치일 수 있다. Genetic shearing activity at a position other than the target position can be caused by a variety of causes. For example, it is possible that genetic scissors work for non-target sequences that have high sequence homology with the target position, which has a nucleotide mismatch with the target sequence designed for the target position. The non-target position may be a position having one or more nucleotide mismatches with a target sequence, but not limited thereto.

다른 관점에서, 본 발명은 (i) Cas9 단백질의 N-말단을 포함하는 제1도메인을 코딩하는 유전자, 디아미네이즈를 코딩하는 유전자가 작동 가능하도록 연결된 제1벡터; 및 (ii) Cas9 단백질의 C-말단을 포함하는 제2도메인을 코딩하는 유전자가 작동 가능하도록 연결된 제2벡터를 포함하고, 상기 제1도메인 및 제2도메인이 융합 발현되어 Cas9 단백질을 형성하는 것을 특징으로 하는 염기 교정용 벡터에 관한 것이다. In another aspect, the present invention provides a kit comprising: (i) a first vector encoding a first domain comprising the N-terminus of a Cas9 protein, a first vector operably linked to a gene encoding a diminase; And (ii) a second vector operably linked to a gene encoding a second domain comprising the C-terminus of the Cas9 protein, wherein the first domain and the second domain are fused and expressed to form a Cas9 protein. The present invention relates to a base calibration vector.

"작동 가능하게 연결된"은 유전자 발현과 관련된 조절서열(예: 프로모터, 시그널 서열, 또는 전사조절인자 등)과 다른 유전자 사이의 기능적인 결합을 의미하며, 이에 의해 상기 조절서열은 상기 다른 유전자의 전사 및/또는 해독을 조절하게 된다."Operably linked" means a functional binding between a regulatory sequence associated with gene expression (eg, a promoter, signal sequence, or transcriptional regulator, etc.) and another gene, whereby the regulatory sequence is transcription of the other gene. And / or control detoxification.

유전자의 과발현을 위하여 사용되는 벡터는 당업계에 공지된 발현 벡터가 사용될 수 있다. "벡터"는 세포 내로 전달하는 DNA 단편(들), 핵산 분자를 지칭할 때 사용된다. 벡터는 DNA를 복제시키고, 숙주세포에서 독립적으로 재생산될 수 있다. 용어 "전달체"는 흔히 "벡터"와 호환하여 사용된다. 용어 "발현 벡터"는 목적한 코딩 서열과, 특정 숙주 생물에서 작동가능하게 연결된 코딩 서열을 발현하는데 필수적인 적정 핵산 서열을 포함하는 재조합 DNA 분자를 의미한다. As the vector used for overexpression of the gene, an expression vector known in the art may be used. "Vector" is used to refer to a DNA fragment (s), a nucleic acid molecule, that delivers into a cell. Vectors can replicate DNA and be reproduced independently in host cells. The term "carrier" is often used interchangeably with "vector". The term “expression vector” refers to a recombinant DNA molecule comprising a coding sequence of interest and a suitable nucleic acid sequence necessary to express a coding sequence operably linked in a particular host organism.

발현 벡터는 바람직하게는 하나 이상의 선택성 마커를 포함할 수 있다. 상기 마커는 통상적으로 화학적인 방법으로 선택될 수 있는 특성을 갖는 핵산 서열로, 형질전환된 세포를 비형질전환 세포로부터 구별할 수 있는 모든 유전자가 해당될 수 있다. 예를 들어, 카나마이신(Kanamycin), G418, 블레오마이신(Bleomycin), 하이그로마이신(hygromycin), 클로람페니콜(chloramphenicol)과 같은 항생제 내성 유전자가 있으나, 이에 한정되는 것은 아니다.The expression vector may preferably comprise one or more selectable markers. The marker is a nucleic acid sequence having a characteristic that can be selected typically by a chemical method, may be any gene that can distinguish the transformed cells from non-transformed cells. For example, there are antibiotic resistance genes such as kanamycin, G418, bleomycin, hygromycin, chloramphenicol, but are not limited thereto.

상기 벡터는 상기 제1벡터에 ITR(inverted terminal repeat), 프로모터, NLS (nucleus localization protein sequence) 및 스플라이싱 도너 (Splicing Donor: SD)를 추가로 포함; 및/또는 상기 제2벡터에 ITR, 스플라이싱 수용체 (Splicing Acceptor: SA), NLS, HA (hemagglutinin) 태그, 폴리A를 추가로 포함할 수 있다. The vector further includes an inverted terminal repeat (IRT), a promoter, a nucleus localization protein sequence (NLS), and a splicing donor (SD) in the first vector; And / or the second vector may further include an ITR, a Splicing Acceptor (SA), an NLS, a hemagglutinin (HA) tag, and a polyA.

"프로모터"는 구조 유전자로부터의 DNA 업스트림의 영역을 의미하며 전사를 개시하기 위하여 RNA 폴리머라아제가 결합하는 DNA 분자를 의미한다. 상기 프로모터는 포유류에서의 발현을 위한 프로모터를 포함할 수 있으며, 예를 들어 Spc512, U6, U3, H1 또는 7SL를 포함할 수 있으나, 이에 한정되는 것은 아니다. "Promoter" means a region of DNA upstream from a structural gene and refers to a DNA molecule to which an RNA polymerase binds to initiate transcription. The promoter may include a promoter for expression in a mammal, and may include, for example, Spc512, U6, U3, H1, or 7SL, but is not limited thereto.

상기 제1벡터 및 제2벡터 각각은 5' 및 3'에 동일한 ITR (inverted terminal repeat) 서열을 포함하고, 동일한 ITR 서열의 재조합을 통해 이종이량체화될 수 있다. Each of the first vector and the second vector includes the same inverted terminal repeat (ITR) sequence at 5 'and 3', and may be heterodimerized through recombination of the same ITR sequence.

두 벡터는 스플라이싱 도너 또는 수용체 신호도 포함하며, 스플라이싱 도너 신호는 제1벡터의 3' 말단에 위치하고, 스플라이싱 수용체 신호는 제2벡터의 5'말단에 위치할 수 있다. 스플라이싱 도너 또는 수용체 신호에 의해 전장 ABE 단백질은 mRNA의 성숙 및 스플라이싱 후 발현될 수 있다. Both vectors may also comprise a splicing donor or acceptor signal, the splicing donor signal may be located at the 3 'end of the first vector, and the splicing acceptor signal may be located at the 5' end of the second vector. Full-length ABE proteins can be expressed after maturation and splicing of mRNA by splicing donor or receptor signals.

상기 벡터는 NLS를 추가로 포함할 수 있으며, 포유류에서 검출 가능한 양으로 단백질의 축적을 유도하기에 충분한 강도를 가지는 아미노산 서열을 포함할 수 있다. NLS는 염기성의, 양으로 하전된 잔기(예를 들어, 라이신 및/또는 아르기닌)의 하나 이상을 포함하는 짧은 서열(예를 들어, 2개 내지 20개의 잔기)을 포함할 수 있으며, 표적 특이적 뉴클레아제의 N 말단 또는 C 말단에 작동 가능하게 연결될 수 있다. The vector may further comprise an NLS and may comprise an amino acid sequence having a strength sufficient to induce accumulation of the protein in a detectable amount in a mammal. The NLS may comprise short sequences (eg, 2-20 residues) comprising one or more of the basic, positively charged residues (eg, lysine and / or arginine) and are target specific. It may be operably linked to the N terminus or C terminus of the nuclease.

상기 벡터는 검출가능한 표지로 태그를 포함할 수 있으며, 상기 태그는6xHis, FLAG, HA, GST, Myc 등을 포함할 수 있으나, 이에 제한되는 것은 아니다. The vector may include a tag as a detectable label, and the tag may include 6xHis, FLAG , HA, GST, Myc, and the like, but is not limited thereto.

상기 벡터는 플라스미드 벡터, 코즈미드 벡터 또는 바이러스 벡터 등을 포함할 수 있으며 구체적으로는 바이러스 벡터일 수 있다. 바이러스 벡터는 레트로바이러스(Retrovirus), 예를 들어 HIV(Human immunodeficiency virus) MLV(Murine leukemia virus) ASLV(Avian sarcoma/leukosis), SNV(Spleen necrosis virus), RSV(Rous sarcoma virus), MMTV(Mouse mammary tumor virus) 등, 아데노바이러스(Adenovirus), 아데노 부속 바이러스(Adeno-associated virus), 헤르페스 심플렉스 바이러스(Herpes simplex virus) 등에서 유래한 벡터를 포함하나, 이에 제한되지 않는다. The vector may include a plasmid vector, a cosmid vector or a viral vector, and specifically, may be a viral vector. Viral vectors are retroviruses such as Human immunodeficiency virus HIV (Murine leukemia virus) Avian sarcoma / leukosis (ASLV), Spleen necrosis virus (SNV), Rous sarcoma virus (RSV) and Mouse mammary (MMTV). tumor viruses, such as, but not limited to, vectors derived from Adenovirus, Adeno-associated virus, Herpes simplex virus, and the like.

구체적으로, 제1벡터는 5'에서 3' 방향으로 ITR-프로모터(U6)-가이드 RNA-프로모터(Spc5-12)-NLS-디아미네이즈 코딩 유전자-Cas9 단백질의 N-말단을 포함하는 제1도메인 코딩 유전자-스플라이싱 도너-ITR을 포함하고, 제2벡터는 5'에서 3' 방향으로 ITR-스플라이싱 수용체- Cas9 단백질의 C-말단을 포함하는 제2도메인 코딩 유전자-NLS-태그(HA)-폴리 A-ITR을 포함한다. Specifically, the first vector comprises the N-terminus of the ITR-promoter (U6) -guide RNA-promoter (Spc5-12) -NLS-deamiase coding gene-Cas9 protein in the 5 'to 3' direction. A second domain coding gene-NLS-tag comprising a domain coding gene-splicing donor-ITR and the second vector comprising the C-terminus of the ITR-splicing receptor-Cas9 protein in the 5 'to 3' direction (HA) -poly A-ITR.

다른 관점에서, 본 발명은 상기 벡터를 포함하는 염기 편집용 조성물에 관한 것이다. 상기 조성물에 포함되는 구성은 앞서 설명한 바와 동일하며, 조성물에 대하여 동일하게 적용될 수 있다. In another aspect, the present invention relates to a base editing composition comprising the vector. The composition included in the composition is the same as described above, it can be applied equally to the composition.

다른 관점에서, 본 발명은 상기 벡터를 도입하는 단계를 포함하는 염기 교정 방법에 관한 것이다. In another aspect, the present invention relates to a base calibration method comprising the step of introducing said vector.

본 발명에 따른 구체적 실시예에서, Dmd 넌센스 돌연변이를 표적으로 하는 ABE7.10을 이용(도 1a)하여 Dmd 유전자 중에 조기 종결 코돈을 가지는 Duchenne 근이영양증의 마우스 모델에서 치료적 염기 편집을 증명하고자 하였다. 약 4.7kbp 포장 한계를 갖는 단일의 AAV 벡터에 ABE7.10 유전자와 sgRNA (프로모터 포함 6.1kbp의 크기)를 패키징할 수 없기 때문에, 이중 tsAAV (trans-splicing adeno-associated virus) 벡터 시스템을 사용하여, ABE 유전자를 두 부분으로 나누어 골격근에 전달하였다(도 1b 및 도 2). 동시 형질도입 세포에서 각각 ABE7.10의 N 말단 또는 C 말단 절반을 코딩하는 2 개의 AAV 벡터는 각 벡터에 동일한 ITR (inverted terminal repeat) 서열의 재조합을 통해 효율적으로 이종이량체화 된다. 두 벡터는 스플라이싱 도너 또는 수용체 신호도 포함하므로, 전장 ABE7.10 단백질은 mRNA의 성숙 및 스플라이싱 후 발현된다.In a specific embodiment according to the present invention, in which the ABE7.10 Dmd a nonsense mutation in the target used (Fig. 1a) was to demonstrate the therapeutic nucleotide edited in a mouse model of Duchenne muscular dystrophy with a premature termination codon in the Dmd gene. Using the double trans-splicing adeno-associated virus (tsAAV) vector system, since the ABE7.10 gene and sgRNA (6.1kbp in size with promoter) cannot be packaged in a single AAV vector with a packing limit of about 4.7 kbp, The ABE gene was divided into two parts and delivered to skeletal muscle (FIGS. 1B and 2). Two AAV vectors encoding the N- or C-terminal half of ABE7.10, respectively, in cotransduced cells are efficiently heterodimerized by recombination of the same inverted terminal repeat (ITR) sequence in each vector. Since both vectors also contain a splicing donor or receptor signal, the full length ABE7.10 protein is expressed after maturation and splicing of the mRNA.

상기 도입은 미세주입법 (microinjection), 전기천공법 (electroporation), DEAE-덱스트란 처리, 리포펙션 (lipofection), 나노파티클-매개 형질주입, 단백질 전달 도메인 매개 도입 등과 같은 당업계의 다양한 방법에 의해 수행될 수 있다. The introduction is carried out by various methods in the art such as microinjection, electroporation, DEAE-dextran treatment, lipofection, nanoparticle-mediated transfection, protein delivery domain mediated introduction, etc. Can be.

본 발명에 따른 유전자 구조체, 벡터 및 방법은 진핵 유기체에 적용되는 것일 수 있다. 상기 진핵 유기체는 진핵세포 예를 들어, 효모 등의 균류, 진핵 동물 유래 세포 예를 들어, 배아세포, 줄기세포, 체세포, 생식세포 등, 또는 진핵 동물 예를 들어, 인간, 원숭이 등의 영장류, 개, 돼지, 소, 양, 염소, 우스, 래트 등일 수 있다. 본 발명에 따른 유전자 구조체, 벡터 및 방법을 이용하여, 염기 교정에 의한 형질전환 진핵 유기체를 제조할 수 있다. Gene constructs, vectors and methods according to the invention may be applied to eukaryotic organisms. The eukaryotic organisms are eukaryotic cells such as yeast, fungi, eukaryotic-derived cells such as embryonic cells, stem cells, somatic cells, germ cells, etc., or eukaryotic animals such as humans, monkeys, etc. , Pigs, cattle, sheep, goats, cows, rats, and the like. Gene constructs, vectors and methods according to the invention can be used to prepare transformed eukaryotic organisms by base correction.

이러한 관점에서, 본 발명은 상기 벡터가 도입되어 교정된 염기가 발현되는 비-인간 동물에 관한 것이다. 상기 동물로는 비-인간 포유동물이 유리할 수 있다. 특히, 마우스, 래트 또는 토끼일 수 있다.In this respect, the present invention relates to a non-human animal in which the vector is introduced and the corrected base is expressed. Such animals may be advantageous for non-human mammals. In particular, it may be a mouse, rat or rabbit.

실시예Example

이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다. 이들 실시예는 오로지 본 발명을 예시하기 위한 것으로서, 본 발명의 범위가 이들 실시예에 의해 제한되는 것으로 해석되지는 않는 것은 당업계에서 통상의 지식을 가진 자에게 있어서 자명할 것이다.Hereinafter, the present invention will be described in more detail with reference to Examples. These examples are only for illustrating the present invention, it will be apparent to those skilled in the art that the scope of the present invention is not to be construed as being limited by these examples.

실시예 1. trans-splicing AAV 벡터 플라스미드 및 gRNA 구축 Example 1 trans-splicing AAV vector plasmid and gRNA construction

E. coli TadA 및 nCas9의 N 말단 하프 (2,145bp, 715 아미노산)를 코딩하는 서열을 AAV ITR (inverted terminal repeat) 기반 벡터 플라스미드 (pAAV - ABE - NT)에 클로닝하였다. Dmd (엑손 20) 표적하는 sgRNA (gX20) 서열을 삽입하여 U6 프로모터 (pAAV - ITR - ABE - NT - sgRNA)의 제어하에 전사하였다. ABE 발현은 SpC5-12 근육 특이적 프로모터에 의해 제어되었다. NLS, HA 태그 및 bGH 폴리 A 신호와 접합된 nCas9의 C 말단 하프 (1,959 bp, 653 아미노산)를 코딩하는 서열을 AAV ITR 기반 벡터 플라스미드 (pAAV-ABE-CT)에 복제하였다. 인간 β 글로빈 유전자 유래의 합성 스플라이싱 도너 서열 및 인간 면역글로불린 중쇄 유전자 유래의 스플라이싱 수용체 서열을 각각 nCas9-NT의 3' 말단 및 nCas9-CT의 5' 말단에 도입하여, 형질 도입 세포에서 전장 ABE7.10 단백질의 조립을 유도하였다.Sequences encoding the N-terminal half (2,145 bp, 715 amino acids) of E. coli TadA and nCas9 were cloned into an AAV ITR (inverted terminal repeat) based vector plasmid (pAAV-ABE-NT). Dmd (Exon 20) Targeting sgRNA (gX20) sequences were inserted and transcribed under the control of the U6 promoter (pAAV-IRT-ABE-NT-sgRNA). ABE expression was controlled by the SpC5-12 muscle specific promoter. The sequence encoding the C-terminal half (1,959 bp, 653 amino acids) of nCas9 conjugated with the NLS, HA tag and bGH poly A signal was cloned into an AAV ITR based vector plasmid (pAAV-ABE-CT). The synthetic splicing donor sequence derived from the human β globin gene and the splicing receptor sequence derived from the human immunoglobulin heavy chain gene were introduced at the 3 'end of nCas9-NT and 5' end of nCas9-CT, respectively, in transduced cells. Assembly of the full length ABE7.10 protein was induced.

표 1. Table 1.

Figure pat00001
Figure pat00001

Figure pat00002
Figure pat00002

Figure pat00003
Figure pat00003

Dmd 넌센스 돌연변이를 표적으로 하는 ABE7.10을 이용(도 1a)하여 Dmd 유전자 중에 조기 종결 코돈을 가지는 Duchenne 근이영양증의 마우스 모델에서 치료적 염기 편집을 증명하고자 하였다. 약 4.7kbp 포장 한계를 갖는 단일의 AAV 벡터에 ABE7.10 유전자와 sgRNA (프로모터 포함 6.1kbp의 크기)를 패키징할 수 없기 때문에, 이중 tsAAV (trans-splicing adeno-associated virus) 벡터 시스템을 사용하여, ABE 유전자를 두 부분으로 나누어 골격근에 전달하였다(도 1b 및 도 2). 동시 형질도입 세포에서 각각 ABE7.10의 N 말단 또는 C 말단 절반을 코딩하는 2 개의 AAV 벡터는 각 벡터에 동일한 ITR (inverted terminal repeat) 서열의 재조합을 통해 효율적으로 이종이량체화 된다. 두 벡터는 스플라이싱 도너 또는 수용체 신호도 포함하므로, 전장 ABE7.10 단백질은 mRNA의 성숙 및 스플라이싱 후 발현된다.ABE7.10 targeting Dmd nonsense mutations (FIG. 1A) was used to demonstrate therapeutic baseline editing in a mouse model of Duchenne muscular dystrophy with early termination codons in the Dmd gene. Using the double trans-splicing adeno-associated virus (tsAAV) vector system, since the ABE7.10 gene and sgRNA (6.1kbp in size with promoter) cannot be packaged in a single AAV vector with a packing limit of about 4.7 kbp, The ABE gene was divided into two parts and delivered to skeletal muscle (FIGS. 1B and 2). Two AAV vectors encoding the N- or C-terminal half of ABE7.10, respectively, in cotransduced cells are efficiently heterodimerized by recombination of the same inverted terminal repeat (ITR) sequence in each vector. Since both vectors also contain a splicing donor or receptor signal, the full length ABE7.10 protein is expressed after maturation and splicing of the mRNA.

Dmd 녹아웃 마우스의 TA(tibialis anterior) 근육에 근육 내 투여를 통해 2개의 트랜스-스플라이싱 바이러스 벡터 tsAAV: ABE를 동시에 전달하여, 정확한 A에서 G로 염기 치환을 유도하였고, 표적화 딥 시퀀싱에 의해 평가하는 경우 조기 중단 코돈을 주사 후 8주 동안 3.3 ± 0.4 % 빈도로 변환하였다. 표적 부위에서 바람직하지 않은 인델은 tsAAV : ABE 처리에 의해 유도되지 않았고, 이는 마우스에서 CRISPR-Cas9 매개 Dmd 유전자에 대한 염기 편집의 이점을 증명한다. 또한 최대 3 개의 미스 매치를 갖는 상동 부위에서 오프 타겟 변이는 검출될 정도로 유도되지 않았다 (도 3).Intramuscular administration of two trans-splicing viral vectors tsAAV: ABE via intramuscular administration to tibialis anterior (TA ) muscles of Dmd knockout mice induced base substitutions from exact A to G and evaluated by targeted deep sequencing Early stop codons were converted to a frequency of 3.3 ± 0.4% for 8 weeks post-injection. Undesired indels at the target site were not induced by tsAAV: ABE treatment, demonstrating the advantage of base editing for the CRISPR-Cas9 mediated Dmd gene in mice. In addition, off target mutations were not induced to the extent of detection at homologous sites with up to three mismatches (FIG. 3).

중요한 것은, Dmd 표적화 tsAAV : ABE는 근육 섬유의 17 ± 1 %에서 디스트로핀의 발현을 회복시켰다 (도 1d 및 e). 일반적 디스트로핀 발현의 약 ~4 %가 근육 기능을 개선하는 데 충분하다는 것에 주목할 필요가 있다. 또한, tsAAV : ABE 처리는 골격 근육 운동 능력의 중요한 조절 인자인 nNOS(neuronal nitric oxide synthase)의 근육속막(sarcolemmal)의 국소화를 야기하며, 이것은 염기 편집된 근육 세포에서 생산된 디스트로핀이 디스트로핀 관련 단백질 복합체와 기능적으로 상호 작용하는 것을 시사한다 (도 1d).Importantly, Dmd targeting tsAAV: ABE restored expression of dystrophin in 17 ± 1% of muscle fibers (FIGS. 1D and e). It should be noted that about 4% of general dystrophin expression is sufficient to improve muscle function. In addition, tsAAV: ABE treatment results in the localization of the sarcolemmal of the neuronal nitric oxide synthase (nNOS), an important regulator of skeletal muscle locomotor capacity, which is a dystrophin-associated protein complex produced from base-edited muscle cells. Suggests functional interaction with (FIG. 1D).

요약하면 ABE를 사용하여 단일 염기 치환을 포함하는 질환 모델을 제작하는데 사용할 수 있고, 5 '말단에 몇 개의 추가의 뉴클레오티드를 갖는 연장 sgRNA를 통해 in vitro 및 in vivo에서의 염기 편집 창을 확장할 수 있음을 보여주었다. 트랜스 스플라이싱 AAV를 통해 전달되는 ABE가 생체 내에서의 치료적 염기 편집을 가능하게 하여, 유전적 장애를 일으키는 점 돌연변이를 교정하는 것을 제안한다.In summary, ABE can be used to construct disease models containing single base substitutions, and extend the in vitro and in vivo base editing windows through extended sgRNAs with several additional nucleotides at the 5 'end. Showed that there is. It is proposed that ABE delivered via trans-splicing AAV enables therapeutic base editing in vivo to correct for point mutations that cause genetic disorders.

이상으로 본 발명의 내용의 특정한 부분을 상세히 기술하였는바, 당업계의 통상의 지식을 가진 자에게 있어서, 이러한 구체적 기술은 단지 바람직한 실시양태일 뿐이며, 이에 의해 본 발명의 범위가 제한되는 것이 아닌 점은 명백할 것이다. 따라서, 본 발명의 실질적인 범위는 첨부된 청구항들과 그것들의 등가물에 의하여 정의된다고 할 것이다.As described above in detail a specific part of the content of the present invention, for those skilled in the art, such a specific description is only a preferred embodiment, which is not limited by the scope of the present invention Will be obvious. Thus, the substantial scope of the present invention will be defined by the appended claims and their equivalents.

<110> Institute for Basic Science <120> Gene Construct for Base Editing, Vector Comprising the Same and Method for Base Editing Using the Same <130> 078 <160> 13 <170> PatentIn version 3.5 <210> 1 <211> 130 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 1 cctgcaggca gctgcgcgct cgctcgctca ctgaggccgc ccgggcgtcg ggcgaccttt 60 ggtcgcccgg cctcagtgag cgagcgagcg cgcagagagg gagtggccaa ctccatcact 120 aggggttcct 130 <210> 2 <211> 141 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 2 aggaacccct agtgatggag ttggccactc cctctctgcg cgctcgctcg ctcactgagg 60 ccgggcgacc aaaggtcgcc cgacgcccgg gctttgcccg ggcggcctca gtgagcgagc 120 gagcgcgcag ctgcctgcag g 141 <210> 3 <211> 241 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 3 gagggcctat ttcccatgat tccttcatat ttgcatatac gatacaaggc tgttagagag 60 ataattggaa ttaatttgac tgtaaacaca aagatattag tacaaaatac gtgacgtaga 120 aagtaataat ttcttgggta gtttgcagtt ttaaaattat gttttaaaat ggactatcat 180 atgcttaccg taacttgaaa gtatttcgat ttcttggctt tatatatctt gtggaaagga 240 c 241 <210> 4 <211> 361 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 4 caccgcggtg gcggccgtcc gccctcggca ccatcctcac gacacccaaa tatggcgacg 60 ggtgaggaat ggtggggagt tatttttaga gcggtgagga aggtgggcag gcagcaggtg 120 ttggcgctct aaaaataact cccgggagtt atttttagag cggaggaatg gtggacaccc 180 aaatatggcg acggttcctc acccgtcgcc atatttgggt gtccgccctc ggccggggcc 240 gcattcctgg gggccgggcg gtgctcccgc ccgcctcgat aaaaggctcc ggggccggcg 300 gcggcccacg agctacccgg aggagcggga ggcgccaagc tctagaacta gtggatcccc 360 c 361 <210> 5 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 5 ccaaaaaaga agagaaaggt a 21 <210> 6 <211> 1095 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <220> <221> misc_feature <222> (1095) <223> n is a, c, g, or t <400> 6 agtgaagtgg aattctccca cgagtattgg atgagacacg cattgacgct cgcaaaaaga 60 gcgtgggacg agagggaagt acccgtcgga gcagtcctcg tgcataacaa tcgggtgata 120 ggcgagggct ggaatcgacc tatcggccga catgacccga ccgcccatgc agaaattatg 180 gctctgcgac agggagggtt ggtgatgcag aactatcggc ttatcgatgc cacactctac 240 gttacgcttg aaccgtgcgt tatgtgtgcg ggggcgatga tacatagtag aatagggagg 300 gtcgtgttcg gggcgcgaga tgcgaaaacc ggggccgcag gctcattgat ggacgtcctg 360 caccaccccg gcatgaacca tcgggtcgag ataaccgaag gcatattggc agacgaatgt 420 gctgcgctcc tttccgattt ctttaggatg cgacgccagg agatcaaggc gcaaaaaaaa 480 gcccagtcta gtaccgactc cgggggcagc agtggggggt ctagtggcag tgagacgccc 540 ggtacgagcg agagcgccac gcctgaatca tcaggtggaa gcagtggtgg ctcttctgaa 600 gtcgaatttt cccacgagta ctggatgaga cacgcactta cgcttgccaa gagggcaaga 660 gatgaacgcg aggtcccggt cggagcagtg cttgtcctta ataatagagt gataggcgaa 720 ggctggaatc gagctatcgg cctccacgat cctaccgcgc atgctgagat catggcgctg 780 cgacaagggg ggctggtaat gcaaaactat agactcatcg atgcgacgct gtatgtgacc 840 tttgagccct gtgttatgtg tgctggggct atgatacata gcagaattgg cagggtagtc 900 ttcggcgtcc gcaatgccaa aaccggggca gctggatcct tgatggatgt tttgcattac 960 cctggaatga atcatagggt tgagattaca gaaggtatct tggcggatga atgcgccgca 1020 cttctctgtt atttttttcg gatgccgagg caagtcttca atgcccagaa aaaagcgcag 1080 tctagtacag acsdn 1095 <210> 7 <211> 96 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 7 agtggaggct caagtggggg cagctcagga agcgaaactc ctggtacctc agagtccgct 60 actcccgaat cctctggggg tagctcaggg ggcagt 96 <210> 8 <211> 2148 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <220> <221> misc_feature <222> (2148) <223> n is a, c, g, or t <400> 8 atggacaaga agtacagcat cggcctggcc atcggtacca acagcgtggg ctgggccgtg 60 atcaccgacg agtacaaggt gcccagcaag aagttcaagg tgctgggcaa caccgaccgc 120 cacagcatca agaagaacct gatcggcgcc ctgctgttcg acagcggcga gaccgccgag 180 gccacccgcc tgaagcgcac cgcccgccgc cgctacaccc gccgcaagaa ccgcatctgc 240 tacctgcagg agatcttcag caacgagatg gccaaggtgg acgacagctt cttccaccgc 300 ctggaggaga gcttcctggt ggaggaggac aagaagcacg agcgccaccc catcttcggc 360 aacatcgtgg acgaggtggc ctaccacgag aagtacccca ccatctacca cctgcgcaag 420 aagctggtgg acagcaccga caaggccgac ctgcgcctga tctacctggc cctggcccac 480 atgatcaagt tccgcggcca cttcctgatc gagggcgacc tgaaccccga caacagcgac 540 gtggacaagc tgttcatcca gctggtgcag acctacaacc agctgttcga ggagaacccc 600 atcaacgcca gcggcgtgga cgccaaggcc atcctgagcg cccgcctgag caagagccgc 660 cgcctggaga acctgatcgc ccagctgccc ggcgagaaga agaacggcct gttcggcaac 720 ctgatcgccc tgagcctggg cctgaccccc aacttcaaga gcaacttcga cctggccgag 780 gacgccaagc tgcagctgag caaggacacc tacgacgacg acctggacaa cctgctggcc 840 cagatcggcg accagtacgc cgacctgttc ctggccgcca agaacctgag cgacgccatc 900 ctgctgagcg acatcctgcg cgtgaacacc gagatcacca aggcccccct gagcgccagc 960 atgatcaagc gctacgacga gcaccaccag gacctgaccc tgctgaaggc cctggtgcgc 1020 cagcagctgc ccgagaagta caaggagatc ttcttcgacc agagcaagaa cggctacgcc 1080 ggctacatcg acggcggcgc cagccaggag gagttctaca agttcatcaa gcccatcctg 1140 gagaagatgg acggcaccga ggagctgctg gtgaagctga accgcgagga cctgctgcgc 1200 aagcagcgca ccttcgacaa cggcagcatc ccccaccaga tccacctggg cgagctgcac 1260 gccatcctgc gccgccagga ggacttctac cccttcctga aggacaaccg cgagaagatc 1320 gagaagatcc tgaccttccg catcccctac tacgtgggcc ccctggcccg cggcaacagc 1380 cgcttcgcct ggatgacccg caagagcgag gagaccatca ccccctggaa cttcgaggag 1440 gtggtggaca agggcgccag cgcccagagc ttcatcgagc gcatgaccaa cttcgacaag 1500 aacctgccca acgagaaggt gctgcccaag cacagcctgc tgtacgagta cttcaccgtg 1560 tacaacgagc tgaccaaggt gaagtacgtg accgagggca tgcgcaagcc cgccttcctg 1620 agcggcgagc agaagaaggc catcgtggac ctgctgttca agaccaaccg caaggtgacc 1680 gtgaagcagc tgaaggagga ctacttcaag aagatcgagt gcttcgacag cgtggagatc 1740 agcggcgtgg aggaccgctt caacgccagc ctgggcacct accacgacct gctgaagatc 1800 atcaaggaca aggacttcct ggacaacgag gagaacgagg acatcctgga ggacatcgtg 1860 ctgaccctga ccctgttcga ggaccgcgag atgatcgagg agcgcctgaa gacctacgcc 1920 cacctgttcg acgacaaggt gatgaagcag ctgaagcgcc gccgctacac cggctggggc 1980 cgcctgagcc gcaagcttat caacggcatc cgcgacaagc agagcggcaa gaccatcctg 2040 gacttcctga agagcgacgg cttcgccaac cgcaacttca tgcagctgat ccacgacgac 2100 agcctgacct tcaaggagga catccagaag gcccaggtga gcggcsdn 2148 <210> 9 <211> 50 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 9 gtaagtatca aggttacaag acaggtttaa ggagaccaat agaaactggg 50 <210> 10 <211> 83 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 10 cttgtcgaga cagagaagac tcttgcgttt ctgataggca cctattggtc ttactgacat 60 ccactttgcc tttctctcca cag 83 <210> 11 <211> 1962 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <220> <221> misc_feature <222> (1962) <223> n is a, c, g, or t <400> 11 cagggcgaca gcctgcacga gcacatcgcc aacctggccg gcagccccgc catcaagaag 60 ggcatcctgc agaccgtgaa ggtggtggac gagctggtga aggtgatggg ccgccacaag 120 cccgagaaca tcgtgatcga gatggcccgc gagaaccaga ccacccagaa gggccagaag 180 aacagccgcg agcgcatgaa gcgcatcgag gagggcatca aggagctggg cagccagatc 240 ctgaaggagc accccgtgga gaacacccag ctgcagaacg agaagctgta cctgtactac 300 ctgcagaacg gccgcgacat gtacgtggac caggagctgg acatcaaccg cctgagcgac 360 tacgacgtgg accacatcgt gccccagagc ttcctgaagg acgacagcat cgacaacaag 420 gtgctgaccc gcagcgacaa gaaccgcggc aagagcgaca acgtgcccag cgaggaggtg 480 gtgaagaaga tgaagaacta ctggcgccag ctgctgaacg ccaagctgat cacccagcgc 540 aagttcgaca acctgaccaa ggccgagcgc ggcggcctga gcgagctgga caaggccggc 600 ttcatcaagc gccagctggt ggagacccgc cagatcacca agcacgtggc ccagatcctg 660 gacagccgca tgaacaccaa gtacgacgag aacgacaagc tgatccgcga ggtgaaggtg 720 atcaccctga agagcaagct ggtgagcgac ttccgcaagg acttccagtt ctacaaggtg 780 cgcgagatca acaactacca ccacgcccac gacgcctacc tgaacgccgt ggtgggcacc 840 gccctgatca agaagtaccc caagctggag agcgagttcg tgtacggcga ctacaaggtg 900 tacgacgtgc gcaagatgat cgccaagagc gagcaggaga tcggcaaggc caccgccaag 960 tacttcttct acagcaacat catgaacttc ttcaagaccg agatcaccct ggccaacggc 1020 gagatccgca agcgccccct gatcgagacc aacggcgaga ccggcgagat cgtgtgggac 1080 aagggccgcg acttcgccac cgtgcgcaag gtgctgagca tgccccaggt gaacatcgtg 1140 aagaagaccg aggtgcagac cggcggcttc agcaaggaga gcatcctgcc caagcgcaac 1200 agcgacaagc tgatcgcccg caagaaggac tgggacccca agaagtacgg cggcttcgac 1260 agccccaccg tggcctacag cgtgctggtg gtggccaagg tggagaaggg caagagcaag 1320 aagctgaaga gcgtgaagga gctgctgggc atcaccatca tggagcgcag cagcttcgag 1380 aagaacccca tcgacttcct ggaggccaag ggctacaagg aggtgaagaa ggacctgatc 1440 atcaagctgc ccaagtacag cctgttcgag ctggagaacg gccgcaagcg catgctggcc 1500 agcgccggcg agctgcagaa gggcaacgag ctggccctgc ccagcaagta cgtgaacttc 1560 ctgtacctgg ccagccacta cgagaagctg aagggcagcc ccgaggacaa cgagcagaag 1620 cagctgttcg tggagcagca caagcactac ctggacgaga tcatcgagca gatcagcgag 1680 ttcagcaagc gcgtgatcct ggccgacgcc aacctggaca aggtgctgag cgcctacaac 1740 aagcaccgcg acaagcccat ccgcgagcag gccgagaaca tcatccacct gttcaccctg 1800 accaacctgg gcgcccccgc cgccttcaag tacttcgaca ccaccatcga ccgcaagcgc 1860 tacaccagca ccaaggaggt gctggacgcc accctgatcc accagagcat caccggtctg 1920 tacgagaccc gcatcgacct gagccagctg ggcggcgacs dn 1962 <210> 12 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 12 ccaaaaaaga agagaaaggt a 21 <210> 13 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 13 ccaaagaaaa agagaaaagt a 21 <110> Institute for Basic Science <120> Gene Construct for Base Editing, Vector Comprising the Same and          Method for Base Editing Using the Same <130> 078 <160> 13 <170> PatentIn version 3.5 <210> 1 <211> 130 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 1 cctgcaggca gctgcgcgct cgctcgctca ctgaggccgc ccgggcgtcg ggcgaccttt 60 ggtcgcccgg cctcagtgag cgagcgagcg cgcagagagg gagtggccaa ctccatcact 120 aggggttcct 130 <210> 2 <211> 141 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 2 aggaacccct agtgatggag ttggccactc cctctctgcg cgctcgctcg ctcactgagg 60 ccgggcgacc aaaggtcgcc cgacgcccgg gctttgcccg ggcggcctca gtgagcgagc 120 gagcgcgcag ctgcctgcag g 141 <210> 3 <211> 241 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 3 gagggcctat ttcccatgat tccttcatat ttgcatatac gatacaaggc tgttagagag 60 ataattggaa ttaatttgac tgtaaacaca aagatattag tacaaaatac gtgacgtaga 120 aagtaataat ttcttgggta gtttgcagtt ttaaaattat gttttaaaat ggactatcat 180 atgcttaccg taacttgaaa gtatttcgat ttcttggctt tatatatctt gtggaaagga 240 c 241 <210> 4 <211> 361 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 4 caccgcggtg gcggccgtcc gccctcggca ccatcctcac gacacccaaa tatggcgacg 60 ggtgaggaat ggtggggagt tatttttaga gcggtgagga aggtgggcag gcagcaggtg 120 ttggcgctct aaaaataact cccgggagtt atttttagag cggaggaatg gtggacaccc 180 aaatatggcg acggttcctc acccgtcgcc atatttgggt gtccgccctc ggccggggcc 240 gcattcctgg gggccgggcg gtgctcccgc ccgcctcgat aaaaggctcc ggggccggcg 300 gcggcccacg agctacccgg aggagcggga ggcgccaagc tctagaacta gtggatcccc 360 c 361 <210> 5 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 5 ccaaaaaaga agagaaaggt a 21 <210> 6 <211> 1095 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <220> <221> misc_feature <222> (1095) N is a, c, g, or t <400> 6 agtgaagtgg aattctccca cgagtattgg atgagacacg cattgacgct cgcaaaaaga 60 gcgtgggacg agagggaagt acccgtcgga gcagtcctcg tgcataacaa tcgggtgata 120 ggcgagggct ggaatcgacc tatcggccga catgacccga ccgcccatgc agaaattatg 180 gctctgcgac agggagggtt ggtgatgcag aactatcggc ttatcgatgc cacactctac 240 gttacgcttg aaccgtgcgt tatgtgtgcg ggggcgatga tacatagtag aatagggagg 300 gtcgtgttcg gggcgcgaga tgcgaaaacc ggggccgcag gctcattgat ggacgtcctg 360 caccaccccg gcatgaacca tcgggtcgag ataaccgaag gcatattggc agacgaatgt 420 gctgcgctcc tttccgattt ctttaggatg cgacgccagg agatcaaggc gcaaaaaaaa 480 gcccagtcta gtaccgactc cgggggcagc agtggggggt ctagtggcag tgagacgccc 540 ggtacgagcg agagcgccac gcctgaatca tcaggtggaa gcagtggtgg ctcttctgaa 600 gtcgaatttt cccacgagta ctggatgaga cacgcactta cgcttgccaa gagggcaaga 660 gatgaacgcg aggtcccggt cggagcagtg cttgtcctta ataatagagt gataggcgaa 720 ggctggaatc gagctatcgg cctccacgat cctaccgcgc atgctgagat catggcgctg 780 cgacaagggg ggctggtaat gcaaaactat agactcatcg atgcgacgct gtatgtgacc 840 tttgagccct gtgttatgtg tgctggggct atgatacata gcagaattgg cagggtagtc 900 ttcggcgtcc gcaatgccaa aaccggggca gctggatcct tgatggatgt tttgcattac 960 cctggaatga atcatagggt tgagattaca gaaggtatct tggcggatga atgcgccgca 1020 cttctctgtt atttttttcg gatgccgagg caagtcttca atgcccagaa aaaagcgcag 1080 tctagtacag acsdn 1095 <210> 7 <211> 96 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 7 agtggaggct caagtggggg cagctcagga agcgaaactc ctggtacctc agagtccgct 60 actcccgaat cctctggggg tagctcaggg ggcagt 96 <210> 8 <211> 2148 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <220> <221> misc_feature <222> (2148) N is a, c, g, or t <400> 8 atggacaaga agtacagcat cggcctggcc atcggtacca acagcgtggg ctgggccgtg 60 atcaccgacg agtacaaggt gcccagcaag aagttcaagg tgctgggcaa caccgaccgc 120 cacagcatca agaagaacct gatcggcgcc ctgctgttcg acagcggcga gaccgccgag 180 gccacccgcc tgaagcgcac cgcccgccgc cgctacaccc gccgcaagaa ccgcatctgc 240 tacctgcagg agatcttcag caacgagatg gccaaggtgg acgacagctt cttccaccgc 300 ctggaggaga gcttcctggt ggaggaggac aagaagcacg agcgccaccc catcttcggc 360 aacatcgtgg acgaggtggc ctaccacgag aagtacccca ccatctacca cctgcgcaag 420 aagctggtgg acagcaccga caaggccgac ctgcgcctga tctacctggc cctggcccac 480 atgatcaagt tccgcggcca cttcctgatc gagggcgacc tgaaccccga caacagcgac 540 gtggacaagc tgttcatcca gctggtgcag acctacaacc agctgttcga ggagaacccc 600 atcaacgcca gcggcgtgga cgccaaggcc atcctgagcg cccgcctgag caagagccgc 660 cgcctggaga acctgatcgc ccagctgccc ggcgagaaga agaacggcct gttcggcaac 720 ctgatcgccc tgagcctggg cctgaccccc aacttcaaga gcaacttcga cctggccgag 780 gacgccaagc tgcagctgag caaggacacc tacgacgacg acctggacaa cctgctggcc 840 cagatcggcg accagtacgc cgacctgttc ctggccgcca agaacctgag cgacgccatc 900 ctgctgagcg acatcctgcg cgtgaacacc gagatcacca aggcccccct gagcgccagc 960 atgatcaagc gctacgacga gcaccaccag gacctgaccc tgctgaaggc cctggtgcgc 1020 cagcagctgc ccgagaagta caaggagatc ttcttcgacc agagcaagaa cggctacgcc 1080 ggctacatcg acggcggcgc cagccaggag gagttctaca agttcatcaa gcccatcctg 1140 gagaagatgg acggcaccga ggagctgctg gtgaagctga accgcgagga cctgctgcgc 1200 aagcagcgca ccttcgacaa cggcagcatc ccccaccaga tccacctggg cgagctgcac 1260 gccatcctgc gccgccagga ggacttctac cccttcctga aggacaaccg cgagaagatc 1320 gagaagatcc tgaccttccg catcccctac tacgtgggcc ccctggcccg cggcaacagc 1380 cgcttcgcct ggatgacccg caagagcgag gagaccatca ccccctggaa cttcgaggag 1440 gtggtggaca agggcgccag cgcccagagc ttcatcgagc gcatgaccaa cttcgacaag 1500 aacctgccca acgagaaggt gctgcccaag cacagcctgc tgtacgagta cttcaccgtg 1560 tacaacgagc tgaccaaggt gaagtacgtg accgagggca tgcgcaagcc cgccttcctg 1620 agcggcgagc agaagaaggc catcgtggac ctgctgttca agaccaaccg caaggtgacc 1680 gtgaagcagc tgaaggagga ctacttcaag aagatcgagt gcttcgacag cgtggagatc 1740 agcggcgtgg aggaccgctt caacgccagc ctgggcacct accacgacct gctgaagatc 1800 atcaaggaca aggacttcct ggacaacgag gagaacgagg acatcctgga ggacatcgtg 1860 ctgaccctga ccctgttcga ggaccgcgag atgatcgagg agcgcctgaa gacctacgcc 1920 cacctgttcg acgacaaggt gatgaagcag ctgaagcgcc gccgctacac cggctggggc 1980 cgcctgagcc gcaagcttat caacggcatc cgcgacaagc agagcggcaa gaccatcctg 2040 gacttcctga agagcgacgg cttcgccaac cgcaacttca tgcagctgat ccacgacgac 2100 agcctgacct tcaaggagga catccagaag gcccaggtga gcggcsdn 2148 <210> 9 <211> 50 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 9 gtaagtatca aggttacaag acaggtttaa ggagaccaat agaaactggg 50 <210> 10 <211> 83 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 10 cttgtcgaga cagagaagac tcttgcgttt ctgataggca cctattggtc ttactgacat 60 ccactttgcc tttctctcca cag 83 <210> 11 <211> 1962 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <220> <221> misc_feature <222> (1962) N is a, c, g, or t <400> 11 cagggcgaca gcctgcacga gcacatcgcc aacctggccg gcagccccgc catcaagaag 60 ggcatcctgc agaccgtgaa ggtggtggac gagctggtga aggtgatggg ccgccacaag 120 cccgagaaca tcgtgatcga gatggcccgc gagaaccaga ccacccagaa gggccagaag 180 aacagccgcg agcgcatgaa gcgcatcgag gagggcatca aggagctggg cagccagatc 240 ctgaaggagc accccgtgga gaacacccag ctgcagaacg agaagctgta cctgtactac 300 ctgcagaacg gccgcgacat gtacgtggac caggagctgg acatcaaccg cctgagcgac 360 tacgacgtgg accacatcgt gccccagagc ttcctgaagg acgacagcat cgacaacaag 420 gtgctgaccc gcagcgacaa gaaccgcggc aagagcgaca acgtgcccag cgaggaggtg 480 gtgaagaaga tgaagaacta ctggcgccag ctgctgaacg ccaagctgat cacccagcgc 540 aagttcgaca acctgaccaa ggccgagcgc ggcggcctga gcgagctgga caaggccggc 600 ttcatcaagc gccagctggt ggagacccgc cagatcacca agcacgtggc ccagatcctg 660 gacagccgca tgaacaccaa gtacgacgag aacgacaagc tgatccgcga ggtgaaggtg 720 atcaccctga agagcaagct ggtgagcgac ttccgcaagg acttccagtt ctacaaggtg 780 cgcgagatca acaactacca ccacgcccac gacgcctacc tgaacgccgt ggtgggcacc 840 gccctgatca agaagtaccc caagctggag agcgagttcg tgtacggcga ctacaaggtg 900 tacgacgtgc gcaagatgat cgccaagagc gagcaggaga tcggcaaggc caccgccaag 960 tacttcttct acagcaacat catgaacttc ttcaagaccg agatcaccct ggccaacggc 1020 gagatccgca agcgccccct gatcgagacc aacggcgaga ccggcgagat cgtgtgggac 1080 aagggccgcg acttcgccac cgtgcgcaag gtgctgagca tgccccaggt gaacatcgtg 1140 aagaagaccg aggtgcagac cggcggcttc agcaaggaga gcatcctgcc caagcgcaac 1200 agcgacaagc tgatcgcccg caagaaggac tgggacccca agaagtacgg cggcttcgac 1260 agccccaccg tggcctacag cgtgctggtg gtggccaagg tggagaaggg caagagcaag 1320 aagctgaaga gcgtgaagga gctgctgggc atcaccatca tggagcgcag cagcttcgag 1380 aagaacccca tcgacttcct ggaggccaag ggctacaagg aggtgaagaa ggacctgatc 1440 atcaagctgc ccaagtacag cctgttcgag ctggagaacg gccgcaagcg catgctggcc 1500 agcgccggcg agctgcagaa gggcaacgag ctggccctgc ccagcaagta cgtgaacttc 1560 ctgtacctgg ccagccacta cgagaagctg aagggcagcc ccgaggacaa cgagcagaag 1620 cagctgttcg tggagcagca caagcactac ctggacgaga tcatcgagca gatcagcgag 1680 ttcagcaagc gcgtgatcct ggccgacgcc aacctggaca aggtgctgag cgcctacaac 1740 aagcaccgcg acaagcccat ccgcgagcag gccgagaaca tcatccacct gttcaccctg 1800 accaacctgg gcgcccccgc cgccttcaag tacttcgaca ccaccatcga ccgcaagcgc 1860 tacaccagca ccaaggaggt gctggacgcc accctgatcc accagagcat caccggtctg 1920 tacgagaccc gcatcgacct gagccagctg ggcggcgacs dn 1962 <210> 12 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 12 ccaaaaaaga agagaaaggt a 21 <210> 13 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 13 ccaaagaaaa agagaaaagt a 21

Claims (18)

(i) Cas9 단백질의 N-말단을 포함하는 제1도메인을 코딩하는 유전자, 상기 제1도메인을 코딩하는 유전자와 연결되어 있는 디아미네이즈를 코딩하는 유전자; 및
(ii) Cas9 단백질의 C-말단을 포함하는 제2도메인을 코딩하는 유전자를 포함하고,
상기 제1도메인 및 제2도메인이 융합 발현되어 Cas9 단백질을 형성하는 것을 특징으로 하는 유전자 구조체 (construct).
(i) a gene encoding a first domain comprising the N-terminus of a Cas9 protein, a gene encoding a dominase linked to a gene encoding the first domain; And
(ii) comprises a gene encoding a second domain comprising the C-terminus of the Cas9 protein,
The first and second domains are fusion-expressed to form a Cas9 protein.
제1항에 있어서, 상기 디아미네이즈는 APOBEC1 (apolipoprotein B editing complex 1), AID (activation-induced deaminase) 또는 tadA (tRNA-specific adenosine deaminase)인 것을 특징으로 하는 유전자 구조체.
The gene construct according to claim 1, wherein the dianamin is APOBEC1 (apolipoprotein B editing complex 1), activation-induced deaminase (AID) or tRNA-specific adenosine deaminase (tadA).
제1항에 있어서, 상기 디아미네이즈는 아데노신 디아미네이즈 (adenosine deaminase)인 것을 특징으로 하는 유전자 구조체.
The gene construct according to claim 1, wherein the dianamin is adenosine deaminase.
제3항에 있어서, 상기 아데노신 디아미네이즈는 tadA (tRNA-specific adenosine deaminase)인 것을 특징으로 하는 유전자 구조체.
The gene construct according to claim 3, wherein the adenosine deminase is tadA (tRNA-specific adenosine deaminase).
제1항에 있어서, 상기 디아미네이즈는 TadA 7.10인 것을 특징으로 하는 유전자 구조체.
The gene construct according to claim 1, wherein the dianamin is TadA 7.10.
제1항에 있어서, 상기 디아미네이즈를 코딩하는 유전자는 서열번호 6의 서열을 포함하는 것을 특징으로 하는 유전자 구조체.
The gene construct according to claim 1, wherein the gene encoding the dianaminase comprises the sequence of SEQ ID NO.6.
제1항에 있어서, 상기 Cas9 단백질은 야생형 Cas9, 불활성화된 Cas9 (dCas9), 또는 Cas9 니케이즈 (nickase)인 것을 특징으로 하는 유전자 구조체.
The gene construct according to claim 1, wherein the Cas9 protein is wild type Cas9, inactivated Cas9 (dCas9), or Cas9 nickase.
제1항에 있어서, 상기 Cas9 단백질은 스트렙토코커스 피요젠스 (Streptococcus pyogenes) 유래 Cas9 단백질의 (1) D10, H840, 또는 D10 및 H840; (2) D1135, R1335, 및 T1337로 이루어진 군에서 선택된 하나 이상; 또는 (3) 상기 (1) 및 (2)의 아미노산 잔기 모두가 야생형과 다른 아미노산으로 치환된 것을 특징으로 하는 유전자 구조체.
The method of claim 1, wherein the Cas9 protein is (1) D10, H840, or D10 and H840 of the Cas9 protein derived from Streptococcus pyogenes ; (2) one or more selected from the group consisting of D1135, R1335, and T1337; Or (3) all of the amino acid residues of (1) and (2) are substituted with wild type and other amino acids.
제1항에 있어서, 상기 제1도메인을 코딩하는 유전자는 서열번호 8의 서열을 포함하는 것을 특징으로 하는 유전자 구조체.
The gene construct according to claim 1, wherein the gene encoding the first domain comprises the sequence of SEQ ID NO: 8.
제1항에 있어서, 상기 제2도메인을 코딩하는 유전자는 서열번호 11의 서열을 포함하는 것을 특징으로 하는 유전자 구조체.
The gene construct according to claim 1, wherein the gene encoding the second domain comprises the sequence of SEQ ID NO.
제1항에 있어서, 가이드 RNA를 추가로 포함하는 것을 특징으로 하는 유전자 구조체.
The gene construct of claim 1, further comprising a guide RNA.
제11항에 있어서, 상기 가이드 RNA는 CRISPR RNA (crRNA) 및 trans-activating crRNA (tracrRNA)를 포함하는 이중 RNA, 또는 단일 가이드 RNA (sgRNA)인 것을 특징으로 하는 유전자 구조체.
The gene construct of claim 11, wherein the guide RNA is a double RNA, or a single guide RNA (sgRNA), including CRISPR RNA (crRNA) and trans-activating crRNA (tracrRNA).
(i) Cas9 단백질의 N-말단을 포함하는 제1도메인을 코딩하는 유전자, 디아미네이즈를 코딩하는 유전자가 작동 가능하도록 연결된 제1벡터; 및
(ii) Cas9 단백질의 C-말단을 포함하는 제2도메인을 코딩하는 유전자가 작동 가능하도록 연결된 제2벡터를 포함하고,
상기 제1도메인 및 제2도메인이 융합 발현되어 Cas9 단백질을 형성하는 것을 특징으로 하는 염기 교정용 벡터.
(i) a gene encoding a first domain comprising the N-terminus of the Cas9 protein, a first vector operably linked to a gene encoding a diazase; And
(ii) a second vector operably linked to a gene encoding a second domain comprising the C-terminus of the Cas9 protein,
The first and second domains are fusion-expressed to form a Cas9 protein, characterized in that the vector.
제13항에 있어서, 상기 제1벡터에 ITR(inverted terminal repeat), 프로모터, NLS (nucleus localization protein sequence) 및 스플라이싱 도너 (Splicing Donor: SD)를 추가로 포함; 및/또는
상기 제2벡터에 ITR, 스플라이싱 수용체 (Splicing Acceptor: SA), NLS, HA (hemagglutinin) 태그, 폴리A를 추가로 포함하는 벡터.
The method of claim 13, further comprising an inverted terminal repeat (IRT), a promoter, a nucleus localization protein sequence (NLS), and a splicing donor (SD) in the first vector; And / or
The vector further comprises ITR, Splicing Acceptor (SA), NLS, hemagglutinin (HA) tag, and polyA.
제14항에 있어서, 상기 벡터는 레트로바이러스 (retrovirus) 벡터, 아데노바이러스 (adenovirus) 벡터, 아데노부속바이러스 (adeno-associated virus) 벡터, 및 헤르페스 심플렉스 바이러스 (herpes simplex virus) 벡터로 이루어진 군에서 선택되는 것을 특징으로 하는 벡터.
The method of claim 14, wherein the vector is selected from the group consisting of a retrovirus vector, an adenovirus vector, an adeno-associated virus vector, and a herpes simplex virus vector. Vector, characterized in that.
제13항 내지 제15항 중 어느 한 항에 따른 벡터를 포함하는 염기 편집용 조성물.
A base editing composition comprising a vector according to any one of claims 13 to 15.
제13항 내지 제15항 중 어느 한 항에 따른 벡터를 도입하는 단계를 포함하는 염기 교정 방법.
16. A base calibration method comprising the step of introducing a vector according to claim 13.
제13항 내지 제15항 중 어느 한 항에 따른 벡터가 도입되어 교정된 염기가 발현되는 비-인간 동물.
Non-human animal in which the vector according to any one of claims 13 to 15 is introduced to express the corrected base.
KR1020190046808A 2018-04-20 2019-04-22 Gene Construct for Base Editing, Vector Comprising the Same and Method for Base Editing Using the Same KR20190122596A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201862660301P 2018-04-20 2018-04-20
US62/660,301 2018-04-20

Publications (1)

Publication Number Publication Date
KR20190122596A true KR20190122596A (en) 2019-10-30

Family

ID=68463117

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190046808A KR20190122596A (en) 2018-04-20 2019-04-22 Gene Construct for Base Editing, Vector Comprising the Same and Method for Base Editing Using the Same

Country Status (1)

Country Link
KR (1) KR20190122596A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110964741A (en) * 2019-12-20 2020-04-07 北京市农林科学院 Nuclear localization signal FNB and application thereof in improving base editing efficiency
CN113774087A (en) * 2021-09-24 2021-12-10 佛山科学技术学院 Method for constructing dwarfism syndrome animal model

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110964741A (en) * 2019-12-20 2020-04-07 北京市农林科学院 Nuclear localization signal FNB and application thereof in improving base editing efficiency
CN110964741B (en) * 2019-12-20 2022-03-01 北京市农林科学院 Nuclear localization signal FNB and application thereof in improving base editing efficiency
CN113774087A (en) * 2021-09-24 2021-12-10 佛山科学技术学院 Method for constructing dwarfism syndrome animal model

Similar Documents

Publication Publication Date Title
US11560555B2 (en) Engineered proteins
US10781432B1 (en) Engineered cascade components and cascade complexes
US20230235309A1 (en) Adenine base editors and uses thereof
US20230026726A1 (en) Crispr/cas-related methods and compositions for treating sickle cell disease
WO2020181180A1 (en) A:t to c:g base editors and uses thereof
WO2020181178A1 (en) T:a to a:t base editing through thymine alkylation
US11713471B2 (en) Class II, type V CRISPR systems
AU2020223060B2 (en) Compositions and methods for treating hemoglobinopathies
WO2021030666A1 (en) Base editing by transglycosylation
EP4100032A1 (en) Gene editing methods for treating spinal muscular atrophy
CN110612353A (en) RNA targeting of mutations via inhibitory tRNAs and deaminases
CA3009727A1 (en) Compositions and methods for the treatment of hemoglobinopathies
WO2021050571A1 (en) Novel nucleobase editors and methods of using same
JP2022500017A (en) Compositions and Methods for Delivering Nucleobase Editing Systems
CN113423831B (en) Nuclease-mediated repeat amplification
WO2020236936A1 (en) Methods of editing a single nucleotide polymorphism using programmable base editor systems
CN116801913A (en) Compositions and methods for targeting BCL11A
KR20190122596A (en) Gene Construct for Base Editing, Vector Comprising the Same and Method for Base Editing Using the Same
AU2022284808A1 (en) Class ii, type v crispr systems
JP2024501892A (en) Novel nucleic acid-guided nuclease
KR20220039564A (en) Compositions and methods for use of engineered base editing fusion protein
CA3225808A1 (en) Context-specific adenine base editors and uses thereof

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal