KR20230134098A - 듀센 근이영양증 치료를 위한 유전자 편집 시스템 및 이를 이용한 질병 치료 방법 - Google Patents

듀센 근이영양증 치료를 위한 유전자 편집 시스템 및 이를 이용한 질병 치료 방법 Download PDF

Info

Publication number
KR20230134098A
KR20230134098A KR1020230032152A KR20230032152A KR20230134098A KR 20230134098 A KR20230134098 A KR 20230134098A KR 1020230032152 A KR1020230032152 A KR 1020230032152A KR 20230032152 A KR20230032152 A KR 20230032152A KR 20230134098 A KR20230134098 A KR 20230134098A
Authority
KR
South Korea
Prior art keywords
sequence
seq
clause
guide rna
nucleic acid
Prior art date
Application number
KR1020230032152A
Other languages
English (en)
Inventor
김용삼
김도연
이정미
진현정
Original Assignee
주식회사 진코어
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 진코어 filed Critical 주식회사 진코어
Publication of KR20230134098A publication Critical patent/KR20230134098A/ko

Links

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K48/00Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K48/00Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy
    • A61K48/005Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy characterised by an aspect of the 'active' part of the composition delivered, i.e. the nucleic acid delivered
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P21/00Drugs for disorders of the muscular or neuromuscular system
    • A61P21/04Drugs for disorders of the muscular or neuromuscular system for myasthenia gravis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/85Vectors or expression systems specially adapted for eukaryotic hosts for animal cells
    • C12N15/86Viral vectors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/10Transferases (2.)
    • C12N9/12Transferases (2.) transferring phosphorus containing groups, e.g. kinases (2.7)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/50Physical structure
    • C12N2310/53Physical structure partially self-complementary or closed
    • C12N2310/531Stem-loop; Hairpin
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2750/00MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA ssDNA viruses
    • C12N2750/00011Details
    • C12N2750/14011Parvoviridae
    • C12N2750/14111Dependovirus, e.g. adenoassociated viruses
    • C12N2750/14141Use of virus, viral particle or viral elements as a vector
    • C12N2750/14143Use of virus, viral particle or viral elements as a vector viral genome or elements thereof as genetic vector

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Biomedical Technology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Plant Pathology (AREA)
  • Veterinary Medicine (AREA)
  • Public Health (AREA)
  • Animal Behavior & Ethology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Virology (AREA)
  • Epidemiology (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • General Chemical & Material Sciences (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Physical Education & Sports Medicine (AREA)
  • Orthopedic Medicine & Surgery (AREA)
  • Neurology (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)

Abstract

본 발명은 듀센 근이영양증 치료를 위한 유전자 편집 시스템 및 이를 이용한 질병 치료 방법에 관한 것이다. 본 발명의 일 태양에 따르면, CRISPR/Cas12f1 또는 TaRGET 시스템을 이용하여 디스트로핀 유전자를 편집함으로써, 하나의 벡터에 유전자 편집 시스템을 패키징할 수 있을 뿐만 아니라, 엑손 51의 스키핑을 통해 엑손 51의 종결코돈의 생성을 막음으로써 정상기능을 하는 디스트로핀 단백질 생성이 가능하게 하는 효과가 있어 듀센 근이영양증의 치료에 유용하게 사용될 수 있다.

Description

듀센 근이영양증 치료를 위한 유전자 편집 시스템 및 이를 이용한 질병 치료 방법{GENE EDITING SYSTEM FOR TREATING DUCHENNE MUSCULAR DYSTROPHY AND METHOD OF TREATING THE DISEASE USING THE SAME}
본 발명은 듀센 근이영양증 치료를 위한 유전자 편집 시스템 및 이를 이용한 질병 치료 방법에 관한 것이다. 구체적으로, 본 발명은 듀센 근이영양증 치료를 위한 CRISPR/Cas12f1 유전자 편집 시스템(예컨대, TaRGET 시스템) 및 이를 이용한 질병 치료 방법에 관한 것이다. 또한, 본 발명은 디스트로핀 유전자에서 엑손 51을 포함하는 핵산 세그먼트를 결실시키기 위한 CRISPR/Cas12f1 유전자 편집 시스템(예컨대, TaRGET 시스템) 및 방법에 관한 것이다.
듀센 근이영양증(Duchenne muscular dystrophy, DMD)은 X염색체에 있는 디스트로핀(dystrophin) 유전자의 이상으로 인해 점진적인 횡문근 약화를 일으키는 질환이다. 주로 운동 발달이 가속되는 3~5살경에 진단되는데, 혈청 크레아틴 카이네이즈 수치 상승으로 인해 무증상 시기에 발견되기도 한다. 듀센 근이영양증으로 인하여 평균적으로는 9.5살, 늦어도 13살 이전에 보행이 불가능하게 되는데, 16살 이후까지 보행이 가능한 경한 형태의 질환은 베커 근이영양증(Becker muscular dystrophy; BMD)으로 분류한다. DMD는 남아 평균 5,000명 당 한 명꼴로 발생하며 근이영양증 질환군 중에 가장 환자 수가 많다.
다른 유전 질환과 달리 DMD 질환 변이 중 80%는 하나 또는 수 개의 엑손 결실 또는 중복에 원인이 있다. 특히, 특정 엑손의 결실/중복이나 점 돌연변이에 의해 디스트로글리칸(디스트로핀 결합 당단백질)의 구조적 이상과 근조직의 심각한 성능 저하를 유발한다.
한편, 결실된 엑손이 3의 배수 개의 핵산으로 구성되어 리딩 프레임을 망가트리지 않는다면, 결실된 엑손 부분의 아미노산 서열 정보만 사라질 뿐 대부분의 아미노산 서열은 정상 디스트로핀과 동일한 상태로 보존된다. 즉, 결실된 디스트로핀 유전자의 엑손을 복구하는 유전자 교정은 쉽지 않지만, 이상이 있는 유전자의 전후에 추가적인 결실을 만들어서 이상 유전자 이후의 아미노산 서열을 회복하는 유전자 교정은 치료적 효과가 있을 수 있다. 이상이 있는 유전자의 전후에 추가적인 결실을 만들어서 그 이상 유전자를 건너뛰도록 하는 유전자 교정, 즉 엑손 스키핑(exon skipping)을 통해, 유전자 돌연변이에도 불구하고, 일부 서열이 잘려나갔지만 여전히 기능을 하는 단백질을 유도할 수 있다.
디스트로핀 유전자 이상의 교정에 있어, 타겟하는 엑손에 따라 치료가능한 환자군이 달라진다. 가장 많은 수의 환자에 적용할 수 있는 엑손 51번 스키핑은 전체 DMD 환자수의 14%, 결실 돌연변이를 가진 환자수의 20%를 치료할 수 있다. 또한, 엑손 53번 스키핑은 전체 환자의 10%, 결실 돌연변이 환자의 15%를 치료할 수 있으며, 그 외에도 엑손 45번(전체 환자의 9%, 결실 돌연변이 환자의 13%), 엑손 44번(전체 환자의 7%, 결실 돌연변이 환자의 11%), 엑손 43번(전체 환자의 7%, 결실 돌연변이 환자의 11%), 엑손 46번(전체 환자의 5%, 결실 돌연변이 환자의 7%), 엑손 50번(전체 환자의 4%, 결실 돌연변이 환자의 6%), 엑손 52번(전체 환자의 4%, 결실 돌연변이 환자의 5%), 엑손 55번(전체 환자의 3%, 결실 돌연변이 환자의 4%), 또는 엑손 8번(전체 환자의 2%, 결실 돌연변이 환자의 3%)의 스키핑이 치료에 이용될 수 있다.
엑손 스키핑에 의한 유전자 치료는 여러 회사에서 연구되고 있으며, 일부 DMD 치료제가 FDA 승인을 받은 바 있다. 사렙타 테라퓨틱스(Sarepta Therapeutics)사가 개발한 Exondys 51(성분명: eteplirsen), Vyondys 53(성분명: golodirsen) 및 Amondys 45(성분명: casimersen)은 엑손 51번, 엑손 53번 및 엑손 45번을 각각 타겟으로 하는 RNA 기반 치료제이다. 상기 치료제는 안티센스 올리고뉴클레오티드(antisense oligonucleotide)를 해당 엑손에 결합해 엑손이 암호화하는 단백질의 발현을 막는다. 하지만 RNA 기반 치료제는 지속적인 치료 효과 보다는 일시적인 치료만 나타내는 경우가 있으며, 부작용도 빈번하게 발생한다. Exondys 51은 2016년 FDA 승인을 받았지만 치료 대상 환자군의 13%에서만 효능을 나타내었다. Vypndy 53은 2019년 FDA에 의해 신속 승인을 받았지만 안티센스 올리고뉴클레오티드 투여 후 치명적인 사구체신염을 비롯한 신장 독성이 관찰된 사례가 있다.
최근에는 CRISPR 유전자가위 기술의 발전으로 이를 DMD 치료제 개발에 적용하고자 하는 연구가 시도되고 있다. 하지만, CRISPR 기술은 세포 내 유전자 편집 활성이 낮거나, 유전자 편집 시스템이 하나의 벡터에 패키징되기 어려운 문제가 있다. 따라서, 세포 내 유전자 편집 활성을 증가시키거나 하나의 벡터에 유전자 편집 시스템을 패키징하고 이를 전달하여 DMD를 치료할 수 있는 기술의 개발이 필요하다.
본 발명은 전술한 종래 기술의 문제점을 모두 해결하는 것을 그 목적으로 한다.
본 발명은 디스트로핀 유전자에서 엑손 51을 포함하는 핵산 세그먼트를 결실시키기 위한 CRISPR/Cas12f1 편집 기술을 제공하는 것을 일 목적으로 한다.
본 발명은 CRISPR/Cas12f1 편집 기술을 이용하여 듀센 근이영양증을 치료하거나 이의 발병 또는 진행을 지연시키는 방법을 제공하는 것을 다른 목적으로 한다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않는다. 본 발명의 목적은 이하의 설명으로 보다 분명해질 것이며, 청구범위에 기재된 수단 및 그 조합으로 실현될 것이다.
상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.
본 발명의 일 태양에 따르면, Cas12f1 또는 이의 변이체 단백질을 포함하는 엔도뉴클레아제 또는 상기 엔도뉴클레아제를 암호화하는 핵산; 디스트로핀 유전자 내의 표적 서열과 혼성화하는 제1 가이드 서열을 포함하는 엔지니어링된 가이드 RNA 또는 상기 가이드 RNA를 암호화하는 핵산; 및 디스트로핀 유전자 내의 표적 서열과 혼성화하는 제2 가이드 서열을 포함하는 엔지니어링된 가이드 RNA 또는 상기 가이드 RNA를 암호화하는 핵산을 포함하고, 상기 제1 가이드 서열은 디스트로핀 엑손 51의 5000bp 업스트림(upstream) 영역에 존재하는 PAM(protospacer-adjacent Motif) 서열의 5' 말단 또는 3' 말단에 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화가능한 것이고, 상기 제2 가이드 서열은 5000bp 다운스트림(downstream) 영역에 존재하는 PAM 서열의 5' 말단 또는 3' 말단에 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화가능한 것인 디스트로핀 유전자의 편집 시스템이 제공된다.
본 발명의 다른 태양에 따르면, Cas12f1 또는 이의 변이체 단백질을 포함하는 엔도뉴클레아제 또는 상기 엔도뉴클레아제를 암호화하는 핵산; 디스트로핀 유전자 내의 표적 서열과 혼성화하는 제1 가이드 서열을 포함하는 엔지니어링된 가이드 RNA 또는 상기 가이드 RNA를 암호화하는 핵산; 및 디스트로핀 유전자 내의 표적 서열과 혼성화하는 제2 가이드 서열을 포함하는 엔지니어링된 가이드 RNA 또는 상기 가이드 RNA를 암호화하는 핵산을 포함하고, 상기 제1 가이드 서열은 디스트로핀 엑손 51의 5000bp 업스트림(upstream) 영역에 존재하는 PAM(protospacer-adjacent Motif) 서열의 5' 말단 또는 3' 말단에 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화가능한 것이고, 상기 제2 가이드 서열은 5000bp 다운스트림(downstream) 영역에 존재하는 PAM 서열의 5' 말단 또는 3' 말단에 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화가능한 것인 조성물이 제공된다.
본 발명의 또 다른 태양에 따르면, Cas12f1 또는 이의 변이체 단백질을 포함하는 엔도뉴클레아제를 암호화하는 뉴클레오티드 서열이 작동 가능하게 연결된 제1 핵산 구조물; 디스트로핀 유전자 내의 표적 서열과 혼성화하는 제1 가이드 서열을 포함하는 엔지니어링된 가이드 RNA 또는 이를 암호화하는 뉴클레오티드 서열이 작동 가능하게 연결된 제2 핵산 구조물; 및 디스트로핀 유전자 내의 표적 서열과 혼성화하는 제2 가이드 서열을 포함하는 엔지니어링된 가이드 RNA 또는 이를 암호화하는 뉴클레오티드 서열이 작동 가능하게 연결된 제3 핵산 구조물을 포함하는 하나 이상의 벡터를 포함하고, 상기 제1 가이드 서열은 디스트로핀 엑손 51의 5000bp 업스트림(upstream) 영역에 존재하는 PAM(protospacer-adjacent Motif) 서열의 5’ 말단 또는 3’ 말단에 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화가능한 것이고, 상기 제2 가이드 서열은 디스트로핀 엑손 51의 5000bp 다운스트림(downstream) 영역에 존재하는 PAM 서열의 5’ 말단 또는 3’ 말단에 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화가능한 것인 벡터 시스템이 제공된다.
본 발명의 또 다른 태양에 따르면, 디스트로핀 유전자 내의 표적 서열과 혼성화하는 가이드 서열을 포함하는 스페이서 영역 및 스캐폴드 영역을 포함하는 엔지니어링된 가이드 RNA로서, 상기 가이드 서열은 디스트로핀 엑손 51의 5000bp 업스트림(upstream) 영역 또는 5000bp 다운스트림(downstream) 영역에 존재하고 Cas12f1 또는 이의 변이체 단백질이 인식하는 PAM(protospacer-adjacent Motif) 서열의 5' 말단 또는 3' 말단에 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화가능한 것인 엔지니어링된 가이드 RNA가 제공된다.
본 발명의 또 다른 태양에 따르면, 본 명세서에 개시된 벡터 시스템에 의해 제조된 바이러스가 제공된다.
본 발명의 또 다른 태양에 따르면, 본 명세서에 개시된 시스템, 조성물 또는 벡터 시스템을 세포와 접촉시키는 단계를 포함하는 세포 내 디스트로핀 유전자에서 엑손 51을 포함하는 세그먼트를 제거하는 방법이 제공된다.
디스트로핀 유전자의 이상으로 인한 듀센 근이영양증은 디스트로핀 유전자에서 엑손 51을 결실시켜 정상적인 기능이 가능한 단백질 생성이 가능하도록 하는 치료 전략을 통해 치료될 수 있다. 본 발명자들은 새로운 초소형 핵산 절단 단백질인 Cas12f1 단백질(예컨대, UnCas12f1, CWCas12f1 또는 이의 변이체 단백질)과 상기 단백질과 함께 사용되어 우수한 인델 효율을 나타내도록 특정 영역이 변형된 엔지니어링된 가이드 RNA를 포함하여 보다 효율적이고 응용 범위가 증대된 유전자 편집 시스템이 엑손 51을 효과적으로 결실시킬 수 있음을 확인하였다. 상기 시스템은 표적 핵산 또는 표적 유전자에 대한 핵산 절단 효율(특히, 이중가닥 절단 효율)이 탁월하고, Cas12f1 단백질은 현재까지 가장 많은 연구가 진행된 Cas9 단백질을 포함하는 기존 핵산 분해 단백질들과 비교하여 분자량은 1/3 정도로 작고, 엔지니어링된 가이드 RNA도 야생형 Cas12f1 가이드 RNA에 비해 그 크기가 훨씬 작기 때문에, 운반할 수 있는 유전자의 크기가 제한된 벡터(예컨대, 아데노 연관 바이러스(AAV) 벡터)로도 세포 내(in vivo) 전달이 가능하다는 이점을 갖는다. 이러한 작은 크기의 유전자 편집 시스템은 엑손 51의 결실 효율을 높일 수 있는 다른 구성 요소와 함께 하나의 벡터로 세포 내 전달하는 것을 가능하게 한다. 또한, 본 발명자들은 비-상동 말단연결(non-homologous end joining, NHEJ)에 관여하는 유전자의 발현을 억제함으로써 엑손 51의 결실 효율을 높일 수 있다는 놀라운 사실을 확인하였다.
본 발명자들은 하나의 벡터로 세포 내 전달이 가능하면서도 디스트로핀 유전자 내 엑손 51의 효과적인 결실(large deletion)이 가능한 새로운 초소형 핵산 편집 시스템을 구축하였다.
도 1은 일 실시예에 따른 시스템을 이용한 듀센 근이영양증의 치료법을 도식화한 도면이다.
도 2는 일 실시예에 따른 시스템의 엔지니어링된 가이드 RNA의 변형부위를 도시한 도면이다.
도 3은 UnCas12f1(서열번호 5), CWCas12f1(TnpB)(서열번호 1) 또는 이의 변이체 단백질(서열번호 2 내지 4)의 인간 코돈-최적화된 아미노산 서열(도 3a 및 도 3c) 및 상기 단백질을 암호화하는 인간 코돈-최적화된 염기서열(도 3d 내지 도 3h)을 나타내는 도면이다.
도 4는 HEK293 세포에서 일 실시예에 따른 시스템의 후보 gRNA들과 그 조합에 따른 엑손 51의 결실 효율을 나타낸 그래프이다.
도 5는 AC16 세포에서 일 실시예에 따른 시스템의 후보 gRNA들과 그 조합에 따른 엑손 51의 결실 효율을 나타낸 그래프이다.
도 6은 HEK293 세포에서 일 실시예에 따른 Cas12f1 또는 TaRGET 시스템에 사용된 프로모터별 엑손 51의 결실 효율을 나타낸 그래프이다. UNCas12f1 단백질을 이용한 실험은 “Cas12f1”로 표시하였고, CWCas12f1 단백질을 이용한 실험은 “TaRGET”으로 표시하였다.
도 7은 일 실시예에 따른 shRNA로 트랜스펙션된 세포에서 ATM1 및 XRCC4의 mRNA 발현 수준을 측정한 그래프이다.
도 8은 일 실시예에 따른 shRNA로 트랜스펙션된 세포에서 XLF-1 및 XRCC6의 mRNA 발현 수준을 측정한 그래프이다.
도 9는 일 실시예에 따른 shRNA로 트랜스펙션된 세포에서 LIG4 및 DCLRE1C의 mRNA 발현 수준을 측정한 그래프이다.
도 10은 HEK293 세포에서 NHEJ 관련 유전자의 발현 억제를 통한 엑손 51의 결실 효율을 qRT-PCR로 확인한 그래프이다. UNCas12f1 단백질을 이용한 실험은 "Cas12f1"로 표시하였고, CWCas12f1 단백질을 이용한 실험은 "TaRGET"으로 표시하였다.
도 11은 AC16 세포에서 NHEJ 관련 유전자의 발현 억제를 통한 엑손 51의 결실 효율을 qRT-PCR로 확인한 그래프이다. UNCas12f1 단백질을 이용한 실험은 “Cas12f1”로 표시하였고, CWCas12f1 단백질을 이용한 실험은 “TaRGET”으로 표시하였다.
도 12는 HEK293 세포에서 1종의 shRNA 또는 2종 이상의 shRNA 조합을 사용하여 엑손 51의 결실 효율을 qRT-PCR로 확인한 그래프이다. UNCas12f1 단백질을 이용한 실험은 “Cas12f1”로 표시하였고, CWCas12f1 단백질을 이용한 실험은 “TaRGET”으로 표시하였다.
도 13은 AC16 세포에서 1종의 shRNA 또는 2종 이상의 shRNA 조합을 사용하여 엑손 51의 결실 효율을 qRT-PCR로 확인한 그래프이다. UNCas12f1 단백질을 이용한 실험은 “Cas12f1”로 표시하였고, CWCas12f1 단백질을 이용한 실험은 “TaRGET”으로 표시하였다.
도 14는 shRNA을 포함하는 일 실시예에 따른 시스템을 이용하여 감염 후 경과일에 따른 엑손 51의 결실 효율을 qRT-PCR로 확인한 그래프이다. 상기 시스템에 사용된 CRISPR 단백질에 따라 각각 SaCas9, Cas12f1(UNCas12f1) 및 TaRGET(CWCas12f1)으로 표시하였다.
도 15는 shRNA를 포함하는 일 실시예에 따른 시스템에 사용된 프로모터별 엑손 51의 결실 효율을 qRT-PCR로 확인한 그래프이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 구현예에 관하여 특정 도면을 참조하여(도면이 있는 경우에 한함) 기술될 것이지만, 본 발명은 이에 한정되지 않고, 청구항들이 기술하는 것과 동일하거나 균등한 모든 범위에 관하여 첨부된 청구항에 의해서만 한정된다. 본 발명의 다양한 구현예/실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 기술적 사상과 범위를 벗어나지 않으면서 일 구현예/실시예에서 다른 구현예/실시예로 변경되거나 복수의 구현예/실시예가 조합되어 실현될 수 있다. 본 명세서에서 사용된 기술 및 학술 용어들은, 달리 정의되지 않는 한, 본 발명이 속하는 분야에서 일반적으로 사용되는 것과 같은 의미를 갖는다. 본 명세서의 해석을 위한 목적으로 하기 정의들이 적용될 것이고, 단수형으로 표현된 용어는 적절한 경우에는 복수형을 나타내는 것으로 그 의미가 해석되어야 할 것이며 그 반대도 마찬가지이다.
이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 바람직한 구현예/실시예에 관하여 첨부된 도면을 참조하여(도면이 있는 경우에 한함) 상세히 설명하기로 한다.
I. 정의
본 명세서에서 사용된 "핵산", "뉴클레오티드", "뉴클레오시드" 및 "염기"는 관련 기술 분야에서 통상의 기술자에 의해 일반적으로 이해되는 의미를 가진다. 구체적으로, "핵산"은 뉴클레오티드로 구성된 생체 분자이며, 폴리뉴클레오티드와 상호교환적으로 사용된다. 핵산은 단일 가닥 또는 이중 가닥의 DNA와 RNA를 모두 포함한다. "뉴클레오티드"는 인산, 오탄당 및 염기(또는 핵염기)로 이루어진 단위체이다. RNA(리보핵산)은 오탄당이 리보오스이며, DNA(디옥시리보핵산)은 오탄당이 디옥시리보오스이다. 뉴클레오티드는 핵염기로 아데닌(adenine; A), 구아닌(guanine; G), 사이토신(cytosine; C), 티민(thymine; T) 및 유라실(uracil; U) 중 선택된 하나를 가진다. 아데닌, 구아닌 및 사이토신은 RNA와 DNA에 공통적으로 존재하고, 티민은 DNA에만 존재하며, 유라실은 RNA에만 존재한다. 또한, 뉴클레오티드를 구성하는 오탄당과 핵 염기는 "뉴클레오시드"라고 지칭될 수 있다. 뉴클레오시드는 핵 염기의 종류에 따라 아데노신(adenosine; A), 티미딘(thymidine; T), 사이티딘(cytidine; C), 구아노신(guanosine; G) 및 유리딘(uridine; U)으로 분류된다. 염기, 뉴클레오시드 및 뉴클레오티드의 약어는 동일할 수 있으며, 문맥에 따라 적절히 해석될 수 있다. 예를 들어, 5'-UUUUU-3' 서열은 연속된 5개의 염기(유라실) 서열, 연속된 5개의 뉴클레오시드(유리딘) 서열 및/또는 연속된 5개의 뉴클레오티드(유리딘 일인산) 서열일 수 있다. 또한, 핵산, RNA 및 DNA를 기술함에 있어, 이들을 구성하는 뉴클레오티드는 뉴클레오시드의 종류에 따라 유리딘, 아데노신, 티미딘, 사이티딘 및 구아노신으로 약칭하여 기재할 수 있다. 상기 약칭은 문맥에 따라 적절히 해석될 수 있다. 예를 들어, 연속된 4개의 유리딘 서열을 포함하는 RNA는 연속된 4개의 유리딘 일인산 뉴클레오티드를 포함하는 RNA로 해석될 수 있다. 이외에도, 본 명세서에서 사용되는 용어 핵산, 뉴클레오티드, 뉴클레오시드 및 염기는, 예컨대 이들의 안전성 또는 면역원성 등의 개선을 위해 관련 기술분야에 공지된 변형된 핵산, 뉴클레오티드, 뉴클레오시드 및 염기를 포함할 수 있다.
본 명세서에 사용된 "표적 핵산" 또는 "표적 유전자"는 유전자 편집 시스템(예를 들면, Cas12f1 시스템 또는 TaRGET 시스템)에 의한 유전자 편집(예컨대, 이중가닥 절단 또는 유전자 세그먼트의 결실)의 대상 또는 표적화 대상이 되는 핵산 또는 유전자를 의미한다. 이들 용어는 상호 교환가능하게 사용될 수 있고, 서로 동일한 대상을 지칭할 수 있다. 표적 유전자는 달리 정의되지 않는 한 대상 세포(예컨대, 원핵세포, 진핵세포, 동물세포, 포유류 세포 또는 식물 세포)가 가진 고유한 유전자 또는 핵산 혹은 외부 유래의 유전자 또는 핵산, 또는 인위적으로 합성된 핵산 또는 유전자일 수 있고, 단일가닥 또는 이중가닥의 DNA 또는 RNA를 의미할 수 있다. 표적 유전자 또는 표적 핵산은 유전 질환에 관여하는 변이 유전자일 수 있다. 일 구현예에서, 표적 유전자 또는 표적 핵산은 인간 디스트로핀 유전자일 수 있다. 일 구현예에서, 표적 유전자 또는 표적 핵산은 변이된 인간 디스트로핀 유전자일 수 있다.
본 명세서에서 사용된 "표적 영역"은 가이드 RNA가 결합하고 절단하도록 설계된 표적 유전자의 영역을 의미한다. 표적 영역은 표적 서열을 포함할 수 있다. 또한, 이중가닥 핵산에서 표적 영역은 표적 서열(표적 가닥에 포함됨) 및 그에 상보적인 서열(비-표적 가닥에 포함됨)을 포함하는 영역을 지칭할 수 있다.
본 명세서에서 사용된 "표적 서열"은 표적 핵산 또는 표적 유전자에 존재하는 서열로서, 가이드 RNA에 의해 인식되는 서열 또는 CRISPR/Cas12f1 시스템 또는 TaRGET 시스템에 의해 변형되는 대상 서열을 의미한다. 구체적으로, 표적 서열은 가이드 RNA에 포함된 가이드 서열에 상보적인 서열 또는 가이드 서열에 상보적으로 결합하는 서열을 의미한다. 표적 서열을 포함하는 가닥은 "표적 가닥"으로 지칭된다. 표적 핵산 또는 표적 유전자가 단일 가닥인 경우, 해당 가닥은 표적 가닥일 수 있다. 표적 핵산 또는 표적 유전자가 이중 가닥일 경우, 그 이중 가닥 중 하나는 표적 가닥일 수 있으며, 표적 가닥에 상보적인 가닥이 존재할 수 있다. 표적 가닥에 상보적인 가닥은 "비-표적 가닥"으로 지칭된다. "비-표적 가닥"은 PAM(Protospacer Adjacent Motif) 서열 및 프로토스페이서(protospacer) 서열을 포함한다. PAM 서열은 CRISPR/Cas12f1 시스템 또는 TaRGET 시스템의 Cas12f1 또는 이의 변이체 단백질이 인식하는 서열이다. 프로토스페이서 서열은 PAM 서열의 5' 말단 또는 3' 말단에 위치하는 서열로, 상기 프로토스페이서 서열은 표적 서열에 상보성을 가지는 서열 또는 표적 서열과 상보적인 결합을 하는 서열이다. 프로토스페이서 서열과 표적 서열 간의 관계는 표적 서열과 가이드 서열 간의 관계와 유사하다. 이러한 특징에 의해, 가이드 서열은 통상 프로토스페이서 서열을 이용하여 설계할 수 있다. 즉, 표적 서열에 상보적으로 결합하는 가이드 서열은 프로토스페이서 서열과 동일한 염기서열을 가지는 뉴클레오티드 서열로 설계할 수 있으며, 프로토스페이서 서열 중 T는 U로 대체하여 가이드 서열을 설계한다.
본 명세서에 사용된"스템"은 이중가닥을 형성할 수 있는 뉴클레오티드 영역을 포함하는 2차 구조를 갖는 핵산 영역을 의미한다. 이중가닥이 주로 단일가닥 뉴클레오티드의 영역(루프 영역)에 의해 연결된 형태를 "스템-루프"라고 지칭한다. "스템" 또는 "스템-루프"는 상호교환적으로 사용될 수 있으며, 문맥에 따라 적절히 해석되어야 한다.
용어 "뉴클레아제" 및 "엔도뉴클레아제"는 DNA 절단을 위한 촉매적 활성을 포함하는 효소를 의미하고 서로 상호교환적으로 사용될 수 있다.
용어 "비-상동 말단 연결(Non-homologous end joining DNA repair pathway; NHEJ)"은 (핵산 서열의 이중가닥 절단의 치유를 유도하기 위해 상동 서열을 필요로 하는 상동지정복구(homology-directed repair, HDR)와 대조적으로) 상동성 주형에 대한 요구 없이 파괴 말단의 직접 결찰로 핵산 서열의 이중가닥 절단을 치유하는 기작을 의미한다. NHEJ는 흔히 이중가닥 절단 부위 근처의 뉴클레오티드 서열의 손실(결실)을 유도한다.
용어 "벡터(vector)"는 달리 특정되지 않는 한, 유전 물질을 세포 내로 운반할 수 있는 물질을 의미한다. 예를 들어, 벡터는 대상이 되는 유전 물질, 예를 들어, CRISPR/Cas 시스템의 이펙터 단백질(Cas 단백질)을 암호화하는 핵산, 및/또는 가이드 RNA를 암호화하는 핵산을 포함하는 핵산, 통상 DNA 분자일 수 있으나, 이에 제한되는 것은 아니다.
용어 "작동가능하게 연결된(operably linked)"은 기술된 구성이 의도된 방식으로 기능하는 것을 허용하도록 배치된 둘 이상 구성의 기능적 연결을 의미한다. 예를 들어, 프로모터 서열이 A 단백질을 암호화하는 서열과 작동가능하게 연결되어 있을 때, 이는 상기 프로모터가 세포 내에서 A 단백질을 암호화하는 서열을 전사 및/또는 발현하도록 A 단백질을 암호화하는 서열에 연결된 것을 의미한다. 또한, 상기 용어는 관련 기술분야에서 통상의 기술자에 의해 일반적으로 인식되는 다른 의미를 모두 포함하며, 문맥에 따라 적절히 해석될 수 있다.
용어 "엔지니어링된"은 자연계에 천연적으로 존재하는 구성을 가진 물질 또는 분자와 구분하기 위해 사용하는 용어로서, 상기 물질 또는 분자에 인위적인 변형이 가해진 것을 의미한다. 예를 들어, "엔지니어링된 가이드 RNA"는 자연계에 천연적으로 존재하는 가이드 RNA의 구성에 인위적인 변형이 가해진 가이드 RNA를 의미한다.
용어 "NLS(Nuclear Localization Sequence or Signal)"는 예를 들어 핵 수송(nuclear transport) 작용에 의해 세포 핵 외부의 물질을 핵 내부로 도입하는 것을 촉진하는 아미노산 서열을 의미한다. 용어 "NES(Nuclear Export Sequence or Signal)"는 예를 들어 핵 수송 작용에 의해 세포 핵 내부의 물질을 핵 외부로 수송하는 것을 촉진하는 아미노산 서열을 의미한다. 용어 NLS 또는 NES는 관련 기술분야에 공지되어 있으며 통상의 기술자에 의해 명확하게 이해될 수 있다.
용어 "약"은 참조 양, 수준, 값, 수, 빈도, 퍼센트, 치수, 크기, 양, 중량 또는 길이에 대해 30, 25, 20, 15, 10, 9, 8, 7, 6, 5, 4, 3, 2 또는 1% 정도로 변하는 양, 수준, 값, 수, 빈도, 퍼센트, 치수, 크기, 양, 중량 또는 길이를 의미한다. 예를 들어, 용어 "약"은 숫자 또는 수치로 표현된 값 x와 관련하여 사용될 때 x ± 5%를 의미할 수 있다.
용어 "대상"은 "환자"와 상호교환적으로 사용되고, 듀센 근이영양증의 예방 또는 치료를 필요로 하는 포유동물, 예를 들어, 영장류(예: 인간), 반려 동물(예: 개, 고양이 등), 가축 동물(예: 소, 돼지, 말, 양, 염소 등) 및 실험실 동물(예: 랫트, 마우스, 기니피그 등)일 수 있다. 본 발명의 일 구현예에서, 대상은 인간이다.
용어 “치료”는 일반적으로 목적하는 약리학적 효과 및/또는 생리학적 효과를 수득하는 것을 의미한다. 이러한 효과는 질병 및/또는 이러한 질병으로 인한 부작용을 부분적으로 또는 완전히 치유하는 점에서 치료적 효과를 가진다. 바람직한 치료적 효과는 질환의 발생 또는 재발 방지, 증상의 호전, 질환의 임의의 직접 또는 간접적인 병리학적 결과의 축소, 전이의 방지, 질환 진행 속도의 감소, 질환 상태의 호전 또는 완화, 및 차도 또는 개선된 예후를 포함하지만 이에 제한되지 않는다. 바람직하게는 “치료”는 이미 나타난 질환 또는 장애의 의료적 개입을 의미할 수 있다. 보다 바람직하게는, "치료"는 디스트로핀 유전자에서 엑손 51을 포함하는 세그먼트의 결실 또는 이에 의한 디스트로핀 유전자의 리딩 프레임의 복구일 수 있다.
본 명세서에서 사용된 용어 "표적 핵산(의) 편집 시스템", "유전자 편집 시스템" 또는 "유전자 복구 시스템"은 핵산 편집 단백질 또는 엔도뉴클레아제 등의 핵산 분해효소 및 상기 핵산 분해효소에 대응하는 핵산 표적화 분자를 포함하는 시스템을 의미하는 것으로서, 표적 핵산 또는 표적 유전자에 결합 또는 상호작용하여 표적 핵산 또는 표적 유전자의 표적 부위를 절단, 편집, 수선 및/또는 복구할 수 있는 시스템을 의미한다. 여기서 핵산 표적화 분자는 엔지니어링된 가이드 RNA(gRNA)로 대표될 수 있으나 이에 제한되는 것은 아니다. 한편, 표적 핵산 편집 시스템은 표적 핵산 편집이 가능한 모든 형태로 존재할 수 있으며, 예를 들어, 핵산 분해효소와 핵산 표적화 분자를 포함하는 복합체를 포함하는 조성물 형태일 수 있으며, 상기 핵산 분해효소와 핵산 표적화 분자를 각각 별개의 조성물에 포함된 키트 형태일 수 있으며, 핵산 분해효소를 암호화하는 핵산 및 핵산 표적화 분자를 암호화하는 핵산 분자를 포함하는 하나 이상의 벡터를 포함하는 벡터 시스템 또는 조성물일 수 있다.
용어 "초소형 유전자 편집 시스템(Hypercompact TaRGET system)"은 초소형 CRISPR/Cas 단백질 또는 소형 엔도뉴클레아제 등(tiny endonuclease)(예컨대, Cas12f1 또는 이들의 변이체)의 핵산 분해효소 및 상기 핵산 분해효소에 대응하는 핵산 표적화 분자가 포함된 유전자 편집 시스템으로서, 기존의 유전자 편집 시스템과 차별되는 용어로 사용된다. 여기서 핵산 표적화 분자는 엔지니어링된 가이드 RNA(gRNA)로 대표될 수 있으나, 이에 제한되지는 않는다. 상기 시스템은 표적 핵산 또는 표적 유전자에 결합하여 표적 핵산 또는 유전자의 표적 부위를 절단, 편집, 수선 및/또는 복구할 수 있는 임의의 형태의 유전자 편집 시스템일 수 있다.
용어 "엔도뉴클레아제"는 "핵산 편집 단백질", "유전자 편집 단백질" 또는 "핵산 분해 단백질"과 상호 교환적으로 사용될 수 있으며, 이들 엔도뉴클레아제 또는 단백질로 지칭되는 분자는 표적화하는 핵산인 DNA 또는 RNA, 또는 표적 유전자 내에 존재하는 프로토스페이서 인접 모티프(protospacer adjacent motif, PAM)를 인식한 후, 표적 핵산 서열의 내부 또는 외부 염기서열에서 DNA 이중가닥 절단(double-strand breaks, DSBs)이 일어나게 할 수 있는 (엔도)뉴클레아제를 의미한다. 또한, 상기 엔도뉴클레아제, 핵산 편집 단백질 등은 핵산 편집 시스템 또는 상동지정복구를 위한 핵산 구조물(construct)을 구성하는 효과기(effector) 단백질로도 지칭한다. 여기서 효과기 단백질은 가이드 RNA(gRNA) 또는 엔지니어링된 gRNA에 결합할 수 있는 핵산 분해 단백질이나, 표적 핵산 또는 표적 유전자에 결합할 수 있는 펩티드 단편일 수 있다.
용어 "가이드 RNA(gRNA)"는 엔도뉴클레아제, 유전자 편집 단백질 또는 핵산 분해 단백질 등으로 지칭되는 분자와 복합체를 형성할 수 있고, 표적 핵산 서열과 상호작용(예컨대, 혼성화, 상보적 결합 또는 수소 결합 등)할 수 있으며, 표적 핵산 서열에 대한 복합체의 서열-특이적 결합(sequence-specific binding)을 야기하기에 충분한 정도로 표적 핵산 서열과 상보성을 갖는 가이드(guide) 서열을 포함하는 RNA를 의미한다. 본 명세서에서 가이드 RNA 또는 가이드 분자는 상호 교환적으로 사용될 수 있다.
용어 "tracrRNA(trans-activating crRNA)" 및 "crRNA(CRISPR RNA)"는 유전자 편집 기술 분야에서 통상의 기술자에 의해 일반적으로 이해되는 의미를 가진다. 이는 자연계에서 발견되는 듀얼 가이드 RNA(dual guide RNA)의 각 분자를 지칭하는 용어로 사용될 수 있고, 상기 tracrRNA 및 crRNA를 링커로 연결한 싱글 가이드 RNA(single guide RNA, sgRNA)의 각 해당 부분을 지칭하는데도 사용될 수 있다. 달리 서술하지 않는 한, tracrRNA 및 crRNA라고 기재하는 경우에 가이드 RNA를 구성하는 tracrRNA 및 crRNA를 의미한다.
용어 "스캐폴드(Scaffold) 영역"은 가이드 RNA(gRNA)에서 엔도뉴클레아제, 유전자 편집 단백질 또는 핵산 분해 단백질 등으로 지칭되는 분자와 상호작용할 수 있는 부분을 통틀어 지칭하며, 자연계에서 발견되는 가이드 RNA의 부분 중 스페이서(spacer)를 제외한 나머지 부분을 지칭하는데 사용될 수 있다.
용어 "가이드 서열", "스페이서" 또는 "스페이서 서열"은 상호 교환적으로 사용될 수 있으며, CRISPR/Cas 시스템에서 표적 서열 부분과 상호작용(예를 들어, 혼성화, 상보적 결합 또는 수소 결합 등)할 수 있는 폴리뉴클레오티드를 의미한다. 예컨대, 가이드 서열 또는 스페이서 서열은 표적 핵산 편집 시스템에서 가이드 RNA를 구성하는 crRNA의 3'-말단부 또는 3'-말단 부근에 직접 또는 링커 등을 통해 간접적으로 연결된 10개 내지 50개의 연속된 뉴클레오티드를 지칭한다.
용어 "엔지니어링된(engineered)"은 "비-자연 발생적(non-naturally occurring)", "인공적(artificial)" 또는 "조작된(modified)"과 상호 교환적으로 사용될 수 있으며, 자연에서 발견되는 그대로의 형태, 상태 등이 아님을 의미한다. 본 용어가 가이드 RNA, 가이드 폴리뉴클레오티드 또는 핵산 분자를 지시하는 경우, 가이드 RNA, 가이드 폴리뉴클레오티드 또는 핵산 분자는 자연에서 발견되거나 자연 발생적인 적어도 하나의 성분을 실질적으로 함유하지 않거나, 또는 자연에서 발견되지 않거나 비-자연 발생적인 적어도 하나의 성분을 실질적으로 함유함을 의미한다. 예를 들어, "엔지니어링된 가이드 RNA(engineered guide RNA)"는 자연계에 존재하는 가이드 RNA(gRNA)의 구성(예를 들어, 서열)에 인위적인 변형이 가해진 gRNA를 의미하며, 본 명세서 내에서 "augmented RNA"로 지칭될 수 있다.
용어 "야생형"은 통상의 기술자에 의해 이해되는 해당 분야의 용어이며, 그것이 돌연변이체 또는 변이체 형태로부터 구별되는 정도로 천연에서 발생하는 것과 같은 전형적인 형태의 유기체, 균주, 유전자, 단백질 또는 특징을 의미한다.
용어 "변이체"는 천연에서 발생하는 것에서 벗어난 패턴을 갖는 특성의 표현을 의미하는 것으로 이해해야 한다. 예컨대, Cas12f1 또는 이의 변이체 단백질이라고 기재할 때, 상기 변이체 단백질은 (야생형) Cas12f1의 변이체를 의미할 수 있다.
용어 "핵산 구조물"은 엔도뉴클레아제, 핵산 편집 단백질 또는 핵산 분해 단백질 등을 암호화하는 뉴클레오티드 서열 및/또는 가이드 RNA를 암호화하는 뉴클레오티드 서열을 구성요소로 포함하는 구조물로서, 필요에 따라 다양한 종류의 (폴리)펩티드 또는 링커를 암호화하는 뉴클레오티드 서열을 추가로 포함할 수 있다.
용어 "단백질", "폴리펩티드" 및 "펩티드"는 상호 교환적으로 사용될 수 있으며, 유전적으로 암호화된 그리고 비유전적으로 암호화된 아미노산, 화학적 또는 생화학적으로 변형되거나 또는 유도체화된 아미노산, 및 변형된 펩티드 골격을 갖는 폴리펩티드를 포함할 수 있는 임의의 길이를 갖는 아미노산 중합체 형태를 지칭한다. 상기 용어는 N-말단의 메티오닌 잔기가 있거나 없는, 이종성 아미노산 서열과의 융합 단백질, 이종성 및 상동성 리더 서열과의 융합; 면역학적으로 태그된 단백질 등을 포함하지만, 이들로 제한되지 않는 융합 단백질을 모두 포괄한다.
본 발명에서 사용되는 모든 기술용어는, 달리 정의되지 않는 이상, 관련 기술 분야의 통상의 기술자가 일반적으로 이해하는 의미를 갖고, 문맥에 따라 적절히 해석될 수 있다.
II. 디스트로핀 유전자
디스트로핀은 근육 섬유의 세포 골격을 세포막을 통해 주위 세포외 기질에 연결하는 단백질 복합체의 일부인 봉형의 세포질 단백질을 지칭한다. 디스트로핀은 근육 세포를 온전하게 지켜주고 세포막의 구조 안전성을 제공한다. 디스트로핀은 유전자좌 Xp21에서 2.4 메가베이스 크기를 갖고 79개 엑손을 포함하는 디스트로핀 유전자에 의해 발현되며, 3600개 이상의 아미노산 잔기로 이루어진다.
듀센 근이영양증은 디스트로핀 유전자(예컨대, 인간 디스트로핀 유전자)의 유전성 또는 자발적 변이(즉, 디스트로핀 유전자에서 넌센스 또는 프레임시프트 변이를 유발하는 변이)의 결과이다. 듀센 근이영양증에 대한 자연적으로 발생하는 변이 및 이의 결과는 잘 알려져 있다. 엑손 45 내지 55 영역(예컨대 엑손 51)에서 일어나는 인-프레임 결실은 기능적인 디스트로핀 단백질을 생산할 수 있고 이러한 변이 보유자는 증상이 없거나 경미한 증상만을 나타낸다. 듀센 근이영양증 환자에서 비필수적인 엑손(예컨대 엑손 51)을 결실시켜 디스트로핀 유전자의 파괴된 리딩 프레임을 재건함으로써 단백질 일부가 결실되었지만 기능을 갖는 디스트로핀 단백질의 생산이 가능하다. 듀센 근이영양증의 치료 또는 이의 발병 또는 진행 지연을 위해, 디스트로핀 유전자의 엑손 51의 유전자 편집(예를 들어, 엑손 51을 포함하는 세그먼트의 결실 또는 제거)이 고려될 수 있다.
본 명세서에 개시된 바와 같이, 디스트로핀 유전자 변이는 유전자 편집, 예컨대 본 발명의 Cas12f1 시스템을 이용하여 디스트로핀 유전자에서 엑손 51을 포함하는 세그먼트를 결실시키는 유전자 편집에 의해 교정될 수 있다.
본 명세서에 개시된 바와 같이, 디스트로핀 유전자 편집(예컨대 본 발명의 Cas12f1 시스템을 이용한 디스트로핀 유전자에서 엑손 51의 결실)에 의해, 듀센 근이영양증(예컨대 디스트로핀 유전자 엑손 51의 변이에 의해 유발된 듀센 근이영양증)이 치료되거나 이의 발병 또는 진행이 지연될 수 있다.
일 구현예에서, 디스트로핀 유전자 편집은 엑손 51을 포함하는 세그먼트의 결실(즉, 엑손 51의 스키핑)일 수 있다. 디스트로핀 유전자 편집(예컨대, 엑손 51을 포함하는 세그먼트의 결실)을 위한 Cas12f1 시스템 등에 대해서는 아래에서 상술한다.
III. 디스트로핀 유전자의 편집을 위한 CRISPR/Cas 시스템
본 명세서에 개시된 바와 같이, 디스트로핀 유전자(예컨대, 인간 디스트로핀 유전자)의 편집 또는 변경을 위한 CRISPR/Cas12f1 시스템이 제공된다. 개시된 시스템은 (i) 1종 이상의 Cas12f1 단백질 또는 이의 변이체를 포함하는 엔도뉴클레아제 또는 상기 엔도뉴클라아제를 암호화하는 핵산 및 (ii) 1종 이상(예컨대 2종)의 가이드 RNA 분자 또는 이를 암호화하는 핵산을 포함한다.
본 발명자들은 Candidatus Woesearchaeota archaeon 유래의 TnpB(Transposon-associated transposase B) 단백질이 UnCas12f1 단백질과 유사한 아미노산 서열을 가지며(이에 따라, UnCas12f1 단백질과 유사한 아미노산 서열을 갖는 TnpB는 CWCas12f1이라고도 명명되고; CWCas12f1은 UnCas12f1과 함께 Cas12f1 단백질로 통칭될 수 있으며, UnCas12f1과의 관계에서 Cas12f1 변이체일 수 있다.), 현재까지 가장 많은 연구가 진행된 Cas9 단백질을 포함하는 기존 핵산 분해 단백질들보다 분자량은 1/3 정도로 작고, 표적 핵산 또는 표적 유전자에 대한 핵산 절단 효율이 월등히 높은 것을 확인하였다. 또한, 본 발명자들은 야생형 Cas12f1 가이드 RNA에 변형을 가하여 작은 크기를 갖도록 개발된 엔지니어링된 가이드 RNA가 CWCas12f1 또는 UnCas12f1과 같은 Cas12f1 단백질과 함께 우수한 핵산 절단 효율(예컨대, 이중가닥 절단)을 유도할 수 있음을 확인하였다. 본 명세서에 개시된 엔지니어링된 가이드 RNA 및 CWCas12f1 또는 UnCas12f1과 같은 Cas12f1 또는 이의 변이체를 포함하는 초소형의 유전자 편집 시스템을 용어 "Cas12f1 시스템"또는 "TaRGET 시스템"으로 지칭하고, 이들 용어는 상호 교환적으로 사용될 수 있다. (다만, 실시예에서는 편의상 UnCas12f1 단백질을 이용한 시스템을 Cas12f1 시스템이라 지칭하고 CWCas12f1 단백질을 이용한 시스템을 TaRGET 시스템이라고 지칭하였다.)
본 발명의 유전자 편집 시스템은 디스트로핀 유전자의 표적 위치 근처(예컨대, 엑손 51의 업스트림 영역, 다운스트림 영역 또는 둘 모두)에서 하나 이상의 절단(예컨대, 단일가닥 절단 또는 이중가닥 절단)을 생성할 수 있다. 하나 이상의 절단은 표적 서열의 바깥 부분 또는 3'말단 안쪽(예컨대 1 내지 5bp 안쪽)을 절단하는 것일 수 있다.
일 구현예에서, CRISPR/Cas12f1 시스템은 디스트로핀 유전자에서 상이한 서열을 표적화하는 2종 이상의 가이드 RNA를 포함할 수 있다. 표적 서열은 중첩될 수 있다.
다른 구현예에서, 가이드 RNA는 디스트로핀 유전자에서 엑손 51의 인접 영역을 표적화하여 절단(예컨대, 단일가닥 절단 또는 이중가닥 절단)을 생성할 수 있다.
또 다른 구현예에서, 2종의 가이드 RNA가 디스트로핀 유전자에서 엑손 51의 업스트림 영역 및 다운스트림 영역 각각을 표적화하여 하나 이상의 절단(예컨대, 2개 단일가닥 절단 또는 2개 이중가닥 절단)을 생성할 수 있다.
또 다른 구현예에서, 2종 이상의 가이드 RNA가 사용되어 두 세트 이상의 절단(예컨대, 2개 이중가닥 절단, 1개 이중가닥 절단 및 1개 단일가단 절단; 또는 두 쌍의 단일가닥 절단)을 생성할 수 있다.
예컨대, 본 명세서에 개시된 시스템은 엑손 51의 업스트림 영역 및 다운스트림 영역을 각각 표적화하는 2종의 가이드 RNA 분자가 Cas12f1 엔도뉴클레아제와 함께 절단을 생성함으로써, 엑손 51을 포함하는 핵산 세그먼트의 결실을 유도할 수 있다.
다른 구현예에서, 본 발명에 개시된 시스템에서, Cas12f1 또는 이의 변이체 단백질을 포함하는 엔도뉴클레아제 및 가이드 RNA는 리보뉴클레오단백질 입자(ribonucleoprotein particle, RNP) 형태로 포함될 수 있다. 이하에서는 Cas12f1 시스템의 각 구성요소에 대해 설명한다.
1. Cas12f1 또는 이의 변이체 단백질을 포함하는 엔도뉴클라아제
본 발명의 CRISPR/Cas12f1에 기반한 유전자 편집 시스템은 Cas12f1 또는 이의 변이체를 포함하는 엔도뉴클라아제 또는 상기 엔도뉴클레아제를 암호화하는 핵산을 포함한다. Cas12f1 또는 이의 변이체는 표적 핵산의 표적 부위를 절단함에 있어 우수한 활성을 나타내고, 기존의 CRISPR/Cas9 시스템에 비하여 핵산 분해 단백질의 크기가 1/3 정도로 현저히 작은 것을 특징으로 하는 (소형) 엔도뉴클레아제이다.
Cas12f1은 선행연구(Harrington et al., Science, 362, 839-842, 2018)에서 Cas14로 명명된 이펙터 단백질 중 하나로, Cas14a1 단백질로도 불린다. 본 명세서에 개시되는 Cas12f1 단백질은 자연계에 존재하는 야생형(wildtype) Cas12f1 단백질일 수 있다. 또한, Cas12f1 단백질은 야생형 Cas12f1 단백질의 변이체(variant)일 수 있다. Cas12f1의 변이체는 “Cas12f1 변이체(Cas12f1 variant)”로 지칭한다. 상기 Cas12f1 변이체는 야생형 Cas12f1 단백질과 동일 또는 동등한 기능을 가지는 변이체, 기능 일부 또는 전부가 변형된 변이체 및/또는 추가적인 기능이 부가된 변이체일 수 있다. 또한, Cas12f1 단백질은 야생형 Cas12f1 단백질의 엔지니어링된 형태일 수 있다. 야생형 Cas12f1 단백질의 기능을 변경하거나 개선하기 위하여 엔지니어링된 것일 수 있다. Cas12f1 변이체와 상호교환적으로 사용될 수 있다.
Cas12f1 단백질은 두 개의 분자가 이량체 형태로 가이드 RNA와 결합하여 복합체를 이루고 있으며 Cas12f1 단백질의 도메인 전부 또는 일부가 Cas12f1 가이드 RNA의 스캐폴드 영역의 특정 부분을 인식하여 CRISPR/Cas12f1 복합체를 형성하는 것으로 보고되었다(Takeda et al., Structure of the miniature type V-F CRISPR-Cas effector enzyme, Molecular Cell 81, 1-13, 2021; 및 Xiao et al., Structural basis for the dimerization-dependent CRISPR-Cas12f nuclease, bioRxiv, 2020). Cas12f1 단백질 또는 이의 변이체는 표적 핵산 또는 표적 유전자에서 이중가닥 또는 단일가닥 절단을 생성할 수 있다. 이러한 이중가닥 또는 단일가닥 절단에 의해 목적하는 유전자 세그먼트의 결실이 유도될 수 있다.
Cas12f1 단백질은 표적 핵산 또는 표적 유전자 내에 존재하는 PAM 서열을 인식할 수 있다. PAM 서열은 CRIPSR 단백질에 따라 정해지는 고유한 서열이다. Cas12f1에 의해 인식되는 PAM 서열은 T-rich 서열일 수 있다. Cas12f1에 의해 인식되는 PAM 서열은 5'-TTTR-3'서열일 수 있고, 여기서 R은 T, A, C 또는 G일 수 있다. 바람직하게는, PAM 서열은 5'-TTTA-3', 5'-TTTT-3', 5'-TTTC-3' 또는 5'-TTTG-3'일 수 있다. 보다 바람직하게는, PAM 서열은 5'-TTTA-3' 또는 5'-TTTG-3'일 수 있다.
일 구현예에서, Cas12f1 단백질은 Cas14 패밀리(Harrington et al., Science 362, 839-842 (2018); US 2020/0172886 A1)에서 유래한 것일 수 있다.
다른 구현예로서, Cas12f1 단백질은 Uncultured archaeon 유래의 Cas14a1(UnCas12f1) 단백질일 수 있다(Harrington et al., Science 362, 839-842 (2018); US 2020/0172886 A1). 예를 들어, UnCas12f1 단백질은 서열번호 5의 아미노산 서열을 포함하거나 이로 이루어질 수 있다(도 3 참조).
또 다른 구현예에서, Cas12f1 단백질은 Candidatus Woesearchaeota archaeon 유래의 TnpB(Transposon-associated transposase B) 단백질일 수 있다. TnpB 단백질은 종래에 전이효소(transposase)로 알려진 단백질이다. 현재까지 TnpB 단백질은 전이인자(transposon)를 암호화하는 핵산 분해 단백질(transposon-encoded nuclease)로만 알려져 있었고, TnpB 단백질이 Cas 엔도뉴클레아제 활성을 가지는지 알려진 바는 없다. 또한, TnpB 단백질에 대한 가이드 RNA도 알려진 바 없다. 본 발명자들은 TnpB 단백질 서열 기반의 TnpB 변이체 또는 엔지니어링된 TnpB가 핵산 분해 단백질 중 분자량이 가장 작은 그룹에 속하는 Cas12f1 단백질과 그 크기가 유사하면서, 표적 핵산 또는 표적 유전자를 표적화하여 표적 부위의 이중가닥 DNA를 절단하는 탁월한 엔도뉴클레아제 활성을 가지고 있음을 처음으로 확인하고, TnpB 또는 이의 변이체 단백질과 함께 사용되어 우수한 유전자 편집 활성을 나타내는 엔지니어링된 가이드 RNA를 제작하였다. Candidatus Woesearchaeota archaeon 유래의 TnpB 단백질은 또한 CWCas12f1이라고 지칭된다. 예를 들어, CWCas12f1 단백질은 서열번호 1의 아미노산 서열을 포함하거나 이로 이루어질 수 있다(도 3 참조).
일 구현예에서, Cas12f1 단백질은 Cas12f1 변이체일 수 있다. Cas12f1 변이체는 야생형 Cas12f1 단백질의 아미노산 서열에 비하여 하나 이상의 아미노산의 변형, 예컨대 결실(deletion), 치환(substitution), 삽입(insertion) 또는 부가(addition)를 포함하는 것일 수 있다.
다른 구현예에서, Cas12f1 변이체는 야생형 Cas12f1 단백질의 아미노산 서열(예컨대, RuvC 도메인 또는 PAM 인식 도메인의 아미노산 서열)에 비하여 하나 이상의 아미노산의 결실 또는 다른 아미노산 서열로의 치환을 포함할 수 있다.
또 다른 구현예에서, Cas12f1 변이체는 야생형 Cas12f1(예컨대, UnCas12f1 또는 CWCas12f1) 또는 이의 변이체 아미노산 서열의 N 말단 및/또는 C 말단에 하나 이상의 아미노산 서열이 추가된 변이체일 수 있다. 본 발명자들은 야생형 Cas12f1 단백질의 N 말단 및/또는 C 말단에 아미노산이 추가된 변이체 중에 야생형 Cas12f1과 동등한 기능을 갖는 변이체가 있음을 확인하였다. 이를 위해 한국 특허출원 제10-2021-0181875호를 참조할 수 있고, 해당 명세서는 그 전체로서 여기에 편입된 것으로 간주되어야 한다. 바람직하게는, Cas12f1 변이체는 야생형의 Cas12f1 또는 이의 변이체 단백질의 N 말단 및/또는 C말단에 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개, 또는 30개의 아미노산이 추가된 것일 수 있다. 일 구현예에서, Cas12f1(예컨대, UnCas12f1 또는 CWCas12f1) 또는 이의 변이체 단백질은 서열번호 1의 아미노산 서열에서 N-말단의 1개 내지 28개의 아미노산이 제거 또는 치환된 아미노산 서열을 포함하는 것일 수 있다. 예컨대, Cas12f1 변이체는 UnCas12f1 단백질의 N-말단에 CasX의 N-말단에서 유래한 26aa를 더 포함하는 TnpB-v1 단백질(서열번호 2), 28aa 무작위 서열을 더 포함하는 TnpB-v2 단백질(서열번호 3) 또는 26aa 무작위 서열을 더 포함하는 TnpB-v3 단백질(서열번호 4)을 포함하거나 이로 이루어질 수 있다(도 3 참조).
일 구현예에서, Cas12f1 변이체는 5'-TTTA-3' 또는 5'-TTTG-3'이외의 PAM 서열을 인식하도록 엔지니어링된 것일 수 있다. 일 구현예에서, Cas12f1 변이체는 CWCas12f1(TnpB)의 야생형 서열(예컨대, 서열번호 1의 아미노산 서열)을 기준으로 170번 아미노산(세린), 174번 아미노산(타이로신), 184번 아미노산(알라닌), 188번 아미노산(세린), 191번 아미노산(아르기닌), 225번 아미노산(글루타민), 230번(타이로신), 271번 아미노산(발린) 및 272번 아미노산(글루타민)으로 이루어진 군에서 선택된 하나 이상의 위치에서 아미노산 치환을 포함할 수 있다. 바람직하게는, Cas12f1 변이체는 170번 아미노산(세린, S), 188번 아미노산(세린, S), 191번 아미노산(아르기닌, R), 225번 아미노산(글루타민, Q) 및 272번 아미노산(글루타민, Q)으로 이루어진 군에서 선택된 하나 이상의 위치에서 아미노산 치환을 포함할 수 있다. 보다 바람직하게는, Cas12f1 변이체는 야생형 서열(예컨대, 서열번호 1의 아미노산 서열)을 기준으로 하기 치환에서 선택되는 하나 이상을 포함할 수 있다: S170T, S188Q, S188H, S188K, R191K, Q225T, Q225F 및 Q272K(T: 트레오닌, Q: 글루타민, H: 히스티딘, K: 리신, F: 페닐알라닌). 또한, Cas12f1 변이체는 서열번호 392 내지 399로 이루어진 군에서 선택된 아미노산 서열을 포함할 수 있다. 이들 Cas12 변이체는 5’-TNTN-3’, 5’-TTTN-3’, 5’-TGTA-3’, 5’-TCTG-3’, 5’-TGTG-3’또는 5’-TTTC-3’을 추가로 인식할 수 있고, 여기서 N 은 A, T, C, 또는 G이다.
다른 구현예에서, Cas12f1 변이체는 융합 단백질일 수 있다. 융합 단백질은 둘 이상의 이종성 폴리펩티드 도메인을 포함할 수 있는데, 하나의 폴리펩티드 도메인은 Cas12f1 단백질 또는 이의 변이체를 포함하고, 다른 도메인은 다른 기능 또는 활성을 갖는 (폴리)펩티드를 포함할 수 있다. 예컨대, 다른 기능 또는 활성을 갖는 (폴리)펩티드는 메틸라아제(methylase) 활성, 디메틸라아제(demethylase) 활성, 전사촉진(transcription activation) 활성, 전사 저해(transcription repression) 활성, 전사 방출 인자(transcription release factor) 활성, 히스톤 변형(histone modification) 활성, RNA 절단(cleavage) 활성 또는 핵산 결합 활성을 갖는 것일 수 있다. 또한, 다른 기능 또는 활성을 갖는 (폴리)펩티드는 분리정제를 위한 태그(tag) 또는 리포터 단백질일 수 있다. 예컨대, 태그 또는 리포터 단백질은 히스티딘(His) 태그, V5 태그, FLAG 태그, 인플루엔자 헤마글루티닌(HA) 태그, Myc 태그, VSV-G 태그 및 티오레독신(Trx) 태그 등의 태그 단백질; 녹색 형광 단백질(GFP), 황색 형광 단백질(YFP), 청록색 형광 단백질(CFP), 청색 형광 단백질(BFP), HcRED, DsRed 등의 형광 단백질; 및 글루타티온-S-트랜스 퍼라제(GST), 호스라디시(horseradish) 과산화효소(HRP), 클로람페니콜 아세틸트랜스퍼라제(CAT) 베타-갈락토시다제, 베타 -글루쿠로니다제, 루시퍼라제 등의 리포터 단백질(효소)를 포함하지만, 이에 제한되는 것은 아니다.
또한, 다른 기능 또는 활성을 갖는 (폴리)펩티드는 역전사 효소, 디아미네이즈 또는 다른 단백질 분해 효소일 수 있으나, 이에 제한되지 않는다.
다른 구현예에서, Cas12f1 또는 이의 변이체 단백질은 서열번호 1 내지 서열번호 5로 이루어진 군에서 선택된 아미노산 서열과 70% 이상, 75% 이상, 80% 이상, 85% 이상, 90% 이상 또는 95% 이상의 서열 동일성을 갖는 아미노산 서열을 포함할 수 있다.
또 다른 구현예에서, Cas12f1 단백질은 서열번호 1 또는 5의 아미노산 서열과 70% 이상, 75% 이상, 80% 이상, 85% 이상, 90% 이상 또는 95% 이상의 서열 동일성을 갖는 아미노산 서열을 포함할 수 있다.
일 구현예에서, Cas12f1 (또는 이의 변이체) 단백질은 (ⅰ) 서열번호 5의 아미노산 서열; (ⅱ) 서열번호 1의 아미노산 서열; (ⅲ) 서열번호 1의 아미노산 서열에서 N-말단의 1개 내지 28개의 아미노산이 제거 또는 치환된 아미노산 서열; 또는 (ⅳ) 서열번호 1의 아미노산 서열의 N-말단 또는 C-말단에 1개 내지 600개의 아미노산이 추가된 아미노산 서열 중 하나를 포함하는 것일 수 있다.
다른 구현예에서, Cas12f1 변이체 단백질은 서열번호 1의 아미노산 서열의 N-말단 또는 C-말단에 1개 내지 600개의 아미노산이 추가된 아미노산 서열 중 하나를 포함하거나 이로 이루어진 단백질일 수 있다. 이때 추가된 1개 내지 600개의 아미노산 서열에는 제한이 없다. 예컨대, 상기 추가된 1개 내지 600개의 아미노산은 서열번호 390 또는 서열번호 391의 아미노산 서열일 수 있다. 추가 서열과 Cas12f1 변이체 단백질 사이에는 NLS 또는 NES 서열이 더 포함될 수 있다.
일 구현예에서, 본 발명의 표적 핵산 편집 시스템은 표적 핵산 또는 표적 유전자의 표적 부위에서 핵산을 절단하는 것이므로, 표적 부위가 세포의 핵 내에 위치할 수 있다. Cas12f1 또는 이의 변이체 단백질은 이를 핵 내로 위치시키는 핵 위치 신호(nuclear localization signal, NLS) 서열을 하나 이상 포함할 수 있다. 예컨대, 하나 이상의 핵 위치 신호 서열은 상기 Cas12f1 또는 이의 변이체 단백질이 진핵세포(예컨대, 포유동물 세포)의 핵에서 검출 가능한 양으로 핵 내로 표적화되도록 유도하는 데 충분한 양 또는 활성을 가질 수 있다. 예컨대, 그 활성의 강도 차이는 Cas12f1 또는 이의 변이체 단백질 내에 포함되는 NLS의 수, 사용되는 특정 NLS(들)의 종류 또는 이들 인자의 조합으로부터 야기될 수 있다. 예를 들어, 상기 NLS는 SV40 바이러스 대형 T-항원의 NLS, 뉴클레오플라스민(nucleoplasmin)으로부터의 NLS, c-myc NLS; hRNPA1 M9 NLS, 임포틴-알파로부터의 IBB 도메인의 서열, 마이오마(myoma) T 단백질의 서열, 인간 p53의 서열, 마우스 c-abl IV의 서열, 인플루엔자 바이러스 NS1의 서열, 간염 바이러스 델타 항원의 서열, 마우스 Mx1 단백질의 서열, 인간 폴리(ADP-리보스) 중합효소의 서열, 또는 스테로이드 호르몬 수용체(인간) 글루코코르티코이드의 서열로부터 유래된 NLS 서열일 수 있으나, 이에 제한되지 않는다.
다른 구현예에서, Cas12f1 또는 이의 변이체 단백질은 NES(Nuclear Export Sequence)를 포함할 수 있다.
다른 구현예에서, Cas12f1 또는 이의 변이체 단백질은 세포 내의 유전자 발현 과정에 관여할 수 있는 다양한 효소가 융합된 것일 수 있다. 이때, 상기 효소가 융합된 Cas12f1 또는 이의 변이체 단백질은 세포 내 유전자 발현에 다양한 양적 및/또는 질적 변화를 초래할 수 있다. 예컨대, 상기 추가적으로 결합되는 다양한 효소는 DNMT, TET, KRAB, DHAC, LSD, p300, Moloney Murine Leukemia Virus(M-MLV) 역전사 효소 또는 그 변이체일 수 있다. 역전사 효소가 융합된 Cas12f1 또는 이의 변이체 단백질은 프라임 에디터(prime editor)로도 기능할 수 있다.
일 구현예에서, Cas12f1 또는 이의 변이체를 암호화하는 핵산이 제공된다. Cas12f1 또는 이의 변이체를 암호화하는 핵산은 Cas12f1 단백질을 도입하고자 하는 대상(예컨대 인간)에 맞추어 코돈 최적화(codon optimization)된 것일 수 있다. 예를 들어, Cas12f1 또는 이의 변이체를 암호화하는 인간 코돈 최적화된 핵산 서열은 예컨대 서열번호 6 내지 10로부터 선택된 하나 이상일 수 있다.
2. 가이드 RNA
본 명세서에 개시된 바와 같이, CRISPR/Cas12f1 시스템은 하나 이상의 가이드 RNA 또는 상기 가이드 RNA를 암호화하는 핵산을 포함한다. Cas12f1 가이드 RNA는 CRISPR/Cas12f1의 표적화를 제공한다. 본 발명의 Cas12f1 CRISPR/Cas12f1 시스템의 가이드 RNA는 자연계에서 발견되는 Cas12f1 가이드 RNA 또는 엔지니어링된 Cas12f1 가이드 RNA일 수 있다. 자연계에서 발견되는 Cas12f1 가이드 RNA 또는 엔지니어링된 Cas12f1 가이드 RNA는 스캐폴드 영역 및 스페이서 영역을 포함한다. Cas12f1 가이드 RNA의 스캐폴드 영역은 tracrRNA(trans-activating CRISPR RNA) 및 crRNA(CRISPR RNA)의 일부를 포함하는 영역으로, Cas12f1 단백질과 상호작용하는 기능을 한다. Cas12f1 가이드 RNA의 스페이서 영역은 가이드 서열을 포함한다.
야생형 가이드 RNA는 tracrRNA의 일부(tracrRNA anti-repeat) 및 crRNA 반복 부분(crRNA repeat)의 일부가 상보적으로 결합하여 듀플렉스(duplex)를 이루고 있는 구조를 2개 포함하며, 이를 편의상 R:AR1 및 R:AR2 부분으로 지칭한다. 야생형 가이드 RNA은 (ⅰ) 하나 이상의 스템(stem) 영역, (ⅱ) tracrRNA-crRNA 상보성 영역 및 임의적으로 (ⅲ) 연속되는 3개 이상의 유라실(U)을 포함하는 영역을 포함할 수 있다. 구체적으로, 야생형 가이드 RNA는 5'-말단부터 순차적으로 제1 스템 영역, 제2 스템 영역, 제3 스템 영역, 제4 스템 영역 및 제5 스템 영역(tracrRNA-crRNA 상보성 영역)을 포함할 수 있다. 예컨대, 도 2를 참조하면, 야생형 가이드 RNA의 스캐폴드 영역은 5개의 스템 영역, 즉, 5'말단으로부터 제1 스템 영역(스템 1), 제2 스템 영역(스템 2), 제3 스템 영역(스템 3), 제4 스템 영역(스템 4) 및 제5 스템 영역(스템 5(R:AR2))를 포함한다. 스템 5(R:AR2)를 포함하는 영역을 tracrRNA-crRNA 상보성 영역으로도 지칭한다.
보다 구체적으로, 야생형 gRNA는 서열번호 11의 염기서열을 갖는 야생형 tracrRNA를 포함하거나, 서열번호 12의 염기서열을 갖는 야생형 crRNA를 포함할 수 있다. 또한, 야생형 gRNA는 싱글 가이드 RNA 형태로 융합되어 서열번호 13의 염기서열을 갖는 싱글 가이드 RNA(sgRNA)일 수 있다.
명칭 염기서열 서열번호
Wild-type tracrRNA CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUUUCCUCUCCAAUUCUGCACAA 11
Wild-type crRNA GUUGCAGAACCCGAAUAGACGAAUGAAGGAAUGCAAC 12
Canonical sgRNA CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUUUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGacgaaUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 13
2.1. 가이드 서열
가이드 RNA는 디스트로핀 유전자 내 표적 서열과 혼성화하는 하나 이상의 가이드 서열을 포함할 수 있다. 표적 서열에 상보적인 프로토스페이서 서열은 Cas12f1 단백질이 인식하는 PAM 서열의 5'말단 또는 3'말단에 위치하기 때문에, 가이드 서열은 프로토스페이서 서열을 이용하여 설계할 수 있다. 표적 서열에 상보적으로 결합하는 가이드 서열은 프로토스페이서 서열과 동일한 염기서열을 갖는 뉴클레오티드 서열로 설계될 수 있다. 프로토스페이서 서열이 DNA 서열일 때, 가이드 서열은 프로토스페이서 서열에서 T는 U로 대체할 수 있다.
일 구현예에서, 가이드 서열은 디스트로핀 엑손 51의 5000bp, 4000bp, 3000bp, 2000bp 또는 1000bp 업스트림 영역 또는 디스트로핀 엑손 51의 5000bp, 4000bp, 3000bp, 2000bp 또는 1000bp 다운스트림 영역에 존재하는 Cas12f1 단백질 또는 이의 변이체가 인식하는 PAM 서열의 5' 말단 또는 3' 말단에 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화가능하거나 상보적일 수 있다.
일 구현예에서, 표적 서열을 포함하는 표적 영역은 서열번호 190 내지 311로부터 선택된 프로토스페이서 서열을 포함할 수 있다. 표적 서열은 표적 영역 내 서열번호 190 내지 311로부터 선택된 프로토스페이서 서열에 상보적인 서열일 수 있다.
일 구현예에서, 가이드 RNA의 가이드 서열은 상기 표적 서열과 상보적으로 결합할 수 있다. 가이드 서열과 표적 서열의 상보적 결합은 하나 이상의 미스매칭 결합을 포함할 수 있다. 예를 들어, 가이드 서열과 표적 서열의 상보적 결합은 0 내지 5개의 미스매치를 포함할 수 있다. 가이드 서열은 표적 서열에 대해 70% 이상 서열 상보성을 갖는 서열일 수 있다. 특히 언급되지 않는 한, "상보적"은 0 내지 5개의 미스매치를 포함하거나 70% 이상 상보성을 갖는 것을 의미할 수 있으며, 문맥에 따라 적절히 해석되어야 한다. 표적 서열이 DNA인 경우에, 표적 서열에 존재하는 아데노신(A)에 대해, 가이드 서열은 A에 상보적인 결합을 형성할 수 있는 유리딘(U)를 포함할 수 있다.
일 구현예에, 표적 서열은 15 내지 40개의 뉴클레오티드 서열일 수 있다. 예컨대, 표적 서열은 15 내지 20개, 15 내지 25개, 15 내지 30개, 15 내지 35개 또는 15 내지 40개의 뉴클레오티드 서열일 수 있다. 표적 서열은 20 내지 25개, 20 내지 30개, 20 내지 35개 또는 20 내지 40개의 뉴클레오티드 서열일 수 있다. 또한, 표적 서열은 25 내지 30개, 25 내지 35개 또는 25 내지 40개의 뉴클레오티드 서열일 수 있다. 또한, 상기 표적 서열은 30 내지 35개 또는 30 내지 40개의 뉴클레오티드 서열일 수 있다. 또한, 상기 표적 서열은 35 내지 40개의 뉴클레오티드 서열일 수 있다. 또한, 상기 표적 서열은 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39 또는 40개의 뉴클레오티드 서열일 수 있다.
일 구현예에서, 가이드 서열은 표적 서열에 대해 적어도 70% 내지 75%, 적어도 70% 내지 80%, 적어도 70% 내지 85%, 적어도 70% 내지 90%, 적어도 70% 내지 95%, 적어도 70% 내지 100%, 적어도 75% 내지 80%, 적어도 75% 내지 85%, 적어도 75% 내지 90%, 적어도 75% 내지 95% 또는 적어도 75% 내지 100% 상보적인 서열일 수 있다. 구체적으로, 상기 가이드 서열은 표적 서열에 대해 적어도 80% 내지 85%, 적어도 80% 내지 90%, 적어도 80% 내지 95%, 적어도 80% 내지 100%, 적어도 85% 내지 90%, 적어도 85% 내지 95% 또는 적어도 85% 내지 100% 상보적인 서열일 수 있다. 보다 구체적으로, 상기 가이드 서열은 표적 서열에 대해 적어도 90% 내지 95%, 적어도 90% 내지 100% 또는 적어도 95% 내지 100% 상보적인 서열일 수 있다. 보다 더 구체적으로, 상기 가이드 서열은 표적 서열에 대해 적어도 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99 또는 100% 상보적인 서열일 수 있다.
다른 구현예에서, 가이드 서열은 프로토스페이서 서열과 동일하거나 유사한 서열일 수 있다. 가이드 서열은 프로토스페이서 서열에 대해 70% 이상의 서열 동일성을 가질 수 있다. 프로토스페이서 서열 내에 존재하는 티민(T)에 대해, 가이드 서열은 티민(T) 대신에 유라실(U)을 포함할 수 있다.
일 구현예에서, 가이드 서열은 프로토스페이서 서열과 적어도 70% 내지 75%, 적어도 70% 내지 80%, 적어도 70% 내지 85%, 적어도 70% 내지 90%, 적어도 70% 내지 95%, 적어도 70% 내지 100%, 적어도 75% 내지 80%, 적어도 75% 내지 85%, 적어도 75% 내지 90%, 적어도 75% 내지 95% 또는 적어도 75% 내지 100% 서열 동일성 또는 유사성을 가질 수 있다. 구체적으로, 상기 가이드 서열은 프로토스페이서 서열과 적어도 80% 내지 85%, 적어도 80% 내지 90%, 적어도 80% 내지 95%, 적어도 80% 내지 100%, 적어도 85% 내지 90%, 적어도 85% 내지 95% 또는 적어도 85% 내지 100% 서열 동일성 또는 유사성을 가질 수 있다. 보다 구체적으로, 가이드 서열은 프로토스페이서 서열과 적어도 90% 내지 95%, 적어도 90% 내지 100% 또는 적어도 95% 내지 100% 동일성 또는 유사성을 가질 수 있다. 보다 더 구체적으로, 가이드 서열은 프로토스페이서 서열과 적어도 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99 또는 100% 동일성 또는 유사성을 가질 수 있다.
일 구현예에서, 가이드 서열은 디스트로핀 엑손 51의 5000bp 업스트림 또는 다운스트림 영역의 비-표적 가닥에 존재하는 서열번호 190 내지 311로 구성된 군에서 선택된 핵산 서열에 상보적인 표적 서열에 혼성화가능하거나 상보적인 서열을 포함하거나 이로 이루어질 수 있다.
일 구현예에서, 가이드 서열은 디스트로핀 엑손 51의 5000bp 업스트림 영역의 비-표적 가닥에 존재하는 서열번호 190 내지 217 및 서열번호 255 내지 280으로 구성된 군에서 선택된 핵산 서열에 상보적인 표적 서열에 혼성화가능하거나 상보적인 서열을 포함하거나 이로 이루어질 수 있다.
일 구현예에서, 가이드 서열은 디스트로핀 엑손 51의 5000bp 다운스트림 영역의 비-표적 가닥에 존재하는 서열번호 218 내지 254 및 서열번호 281 내지 311로 이루어진 군에서 선택된 핵산 서열에 상보적인 표적 서열에 혼성화가능하거나 상보적인 서열을 포함하거나 이로 이루어질 수 있다.
일 구현예에서, 가이드 서열은 서열번호 190 내지 311로 이루어진 군으로부터 선택된 핵산 서열에서 연속된 15개 내지 20개 뉴클레오티드 서열을 포함하거나 이로 이루어지고 상기 연속된 뉴클레오티드 서열에서 티민(T)이 유라실(U)로 치환된 핵산 서열일 수 있다. 구체적으로, 가이드 서열은 서열번호 312 내지 서열번호 335로 이루어진 군에서 선택된 핵산 서열을 포함하거나 이로 이루어질 수 있다.
일 구현예에서, 가이드 서열은 서열번호 190 내지 217 및 서열번호 255 내지 280으로 이루어진 군으로부터 선택된 핵산 서열에서 연속된 15개 내지 20개 뉴클레오티드 서열을 포함하고 상기 연속된 뉴클레오티드 서열에서 티민(T)이 유라실(U)로 치환된 핵산 서열일 수 있다.
일 구현예에서, 가이드 서열은 서열번호 218 내지 254 및 서열번호 281 내지 311로 이루어진 군으로부터 선택된 핵산 서열에서 연속된 15개 내지 20개 뉴클레오티드을 포함하고 상기 연속된 뉴클레오티드 서열에서 티민(T)이 유라실(U)로 치환된 핵산 서열일 수 있다.
일 구현예에서, 가이드 서열은 서열번호 312 내지 서열번호 323으로 이루어진 군에서 선택된 핵산 서열을 포함하거나 이로 이루어질 수 있다.
일 구현예에서, 가이드 서열은 서열번호 324 내지 서열번호 335로 이루어진 군에서 선택된 핵산 서열을 포함하거나 이로 이루어질 수 있다.
일 구현예에서, Cas12f1 시스템에서 2종 이상의 가이드 RNA가 사용될 때, 제1 가이드 서열은 디스트로핀 엑손 51의 5000bp 업스트림 영역에 존재하는 PAM 서열의 5' 말단 또는 3' 말단에 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화가능한 서열이고, 제2 가이드 서열은 5000bp 다운스트림 영역에 존재하는 PAM 서열의 5' 말단 또는 3' 말단에 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화가능한 서열일 수 있다.
다른 구현예에서, 제1 가이드 서열은 디스트로핀 엑손 51의 5000bp 업스트림 영역의 비-표적 가닥에 존재하는 서열번호 190 내지 217 및 서열번호 255 내지 280으로 구성된 군에서 선택된 핵산 서열에 상보적인 표적 서열에 혼성화가능한 서열이고/거나,
제2 가이드 서열은 디스트로핀 엑손 51의 5000bp 다운스트림 영역의 비-표적 가닥에 존재하는 서열번호 218 내지 254 및 서열번호 281 내지 311로 이루어진 군에서 선택된 핵산 서열에 상보적인 표적 서열에 혼성화가능한 서열일 수 있다.
또 다른 구현예에서, 제1 가이드 서열은 서열번호 190 내지 217 및 서열번호 255 내지 280으로 이루어진 군으로부터 선택된 핵산 서열에서 연속된 15개 내지 20개 뉴클레오티드 서열을 포함하고 상기 연속된 뉴클레오티드 서열에서 티민(T)이 유라실(U)로 치환된 핵산 서열이고/거나, 제2 가이드 서열은 서열번호 218 내지 254 및 서열번호 281 내지 311로 이루어진 군으로부터 선택된 핵산 서열에서 연속된 15개 내지 20개 뉴클레오티드를 포함하고 상기 연속된 뉴클레오티드 서열에서 티민(T)이 유라실(U)로 치환된 핵산 서열일 수 있다.
또 다른 구현예에서, 제1 가이드 서열은 서열번호 312 내지 서열번호 323로 이루어진 군에서 선택된 핵산 서열을 포함하거나 이로 이루어지고/거나, 상기 제2 가이드 서열은 서열번호 324 내지 서열번호 335로 이루어진 군에서 선택된 핵산 서열을 포함하거나 이루어질 수 있다.
일 구현예에서, 가이드 서열을 crRNA의 3'말단에 존재할 수 있다. 다른 구현예에서, 가이드 서열의 3'말단에 U rich tail이 추가될 수 있다. U rich tail에 대해서는 후술한다.
2.2. 엔지니어링된 가이드 RNA
본 발명의 일 구현예에 따른 CWCas12f1에 대하여는 자연에 존재하는 gRNA가 발견되지 않았으므로, 엔지니어링된 UnCas12f1 단백질뿐만 아니라 엔지니어링된 CWCas12f1 단백질에 대해서도 고효율의 표적 및 편집 활성을 나타내는 최적의 gRNA를 제작하고자 하였다. 이러한 관점에서, gRNA는 CWCas12f1 단백질과 크기가 유사한 야생형 UnCas12f1에 대해 자연계에서 발견되는 야생형 gRNA일 수 있다. 즉, 본 발명에서 엔지니어링된 Cas12f1 단백질에 대한 "야생형" gRNA는 "기본형" 또는 "원형(canonical)" gRNA의 의미로 사용되었다.
일 구현예에서, 엔지니어링된 Cas12f1 단백질에 대한 gRNA는 자연계에서 발견되는 야생형 gRNA에 새로운 구성을 추가하거나, 기존의 구조를 제거 및/또는 치환하거나, 그 구조의 일부를 변형한 엔지니어링된 gRNA인 것을 특징으로 한다.
일 구현예에서, 엔지니어링된 gRNA는 야생형 gRNA 서열에서 1개 이상의 뉴클레오티드가 치환, 결실, 삽입 또는 부가된 서열을 포함하고, 가이드 서열을 제외한 부분이 상기 야생형 Cas12f1 gRNA와 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성을 갖는 엔지니어링된 gRNA이다. RNA, 핵산 또는 폴리펩티드의 문맥에서 용어 "서열 동일성"은 비교 범위에서 최적으로 정렬된 2개의 서열을 비교하여 결정된 값을 의미하며, 이때 비교 범위 내의 RNA, 핵산 등의 서열 부분은 최적의 정렬을 위해 기준 서열과 비교하여 삽입 또는 결실(즉, 갭)을 포함할 수 있다.
이하, 야생형과 엔지니어링된 gRNA의 구조 및 그의 변형에 대해 5개의 변형부위 별로 상세히 설명한다. 변형부위는 본 명세서 전체에 걸쳐 "MS(modification site)"로 약칭되었으며, "변형부위" 또는 "MS" 뒤의 숫자는 일 실시예에 따른 각 변형부위의 실험적 엔지니어링 흐름에 따라 순차적으로 부여한 것이나, 뒤의 숫자를 가지는 변형부위에서의 엔지니어링(변형)이 앞선 숫자의 변형부위에서의 엔지니어링(변형)을 반드시 포함한다는 의미는 아니다. 도 2는 본 발명의 구현예에 따른 엔지니어링된 가이드 RNA(engineered gRNA)가 포함하는 변형부위인 MS1 내지 MS5를 야생형 가이드 RNA 서열 상에 도시한 것이다.
본 발명의 엔지니어링된 가이드 RNA(gRNA)에 적용된 변형은 궁극적으로 높은 유전자 편집 효율을 달성함과 동시에 길이는 더 짧은 gRNA를 도출하기 위한 목적을 가진다. 즉, 본 발명에서 개시하는 변형들은 길이가 더 긴 야생형의 gRNA와 비교하여 표적 핵산에 대한 인식/절단 효율이 유지 또는 향상된 더 짧은 길이의 엔지니어링된 gRNA를 제조함으로써, 아데노-연관 바이러스(AAV)와 같은 전달체의 패키징 한계치(약 4.7 kb) 내에서 더 많은 공간을 다양한 목적 또는 용도로 사용하기 위한 다른 구성 요소들(예를 들어, 추가의 가이드 RNA, 특정 유전자 발현을 억제하기 위한 shRNA)에 할당할 수 있도록 하여 기존의 CRISPR/Cas 시스템으로는 달성할 수 없었던 고효율의 유전자 편집 효과를 부여하고자 함에 있다.
따라서 본 발명에서 제공하는 엔지니어링된 gRNA는 기본적으로 야생형 Cas12f1 gRNA 서열에서 하나 이상의 뉴클레오티드가 치환, 결실, 삽입 또는 부가된 서열을 포함한다. 이때, 엔지니어링된 gRNA는 가이드 서열을 제외한 부분이 상기 야생형 Cas12f1 gRNA와 50% 이상, 60% 이상, 70% 이상, 80% 이상, 85% 이상, 90% 이상 또는 95% 이상의 서열 동일성을 가지는 것일 수 있다.
일 구현예에서, 엔지니어링된 가이드 RNA는, (ⅰ) 하나 이상의 스템(stem) 영역, (ⅱ) tracrRNA-crRNA 상보성 영역 및 임의적으로 (ⅲ) 연속되는 3개 이상의 유라실(U)을 포함하는 영역을 포함하는 야생형 Cas12f1 gRNA과 비교하여, 본 발명의 엔지니어링된 gRNA는 (a) 하나 이상의 스템 영역의 일부 또는 전부의 결실; (b) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실; (c) 연속되는 3개 이상의 유라실(U)이 존재하는 경우 그 중 하나 이상의 U의 치환; 및 (d) crRNA 서열의 3'-말단에 하나 이상의 유리딘(uridine)의 부가로 이루어진 군에서 선택되는 하나 이상의 변형을 포함할 수 있다.
일 구현예에서, 엔지니어링된 가이드 RNA는 (a1) 제1 스템 영역의 일부 또는 전부의 결실; (a2) 제2 스템 영역의 일부 또는 전부의 결실; (b) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실; (c) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환; 및 (d1) crRNA 서열의 3'-말단에 U-rich tail의 부가(상기 U-rich tail의 서열은 5'-(UmV)nUo-3'로 표시되고, 여기서 V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수임)로 이루어진 군에서 선택되는 하나 이상의 변형을 포함할 수 있다.
다른 구현예에서, 엔지니어링된 가이드 RNA는 하기 화학식 (I)로 표시될 수 있다.
식 (I)에서,
Xa, Xb1, Xb2, Xc1 및 Xc2는 각각 독립적으로 0 내지 35개의 (폴리)뉴클레오티드로 이루어지고,
Xg는 가이드 서열이고,
Lk는 길이 2 내지 20의 폴리뉴클레오티드 링커이거나 부존재하고,
(UmV)nUo는 U-rich tail로서 존재하거나 부존재하고, 존재하는 경우 U는 유리딘이고, V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 각각 독립적으로 1 내지 20의 정수이며, n은 0 내지 5의 정수이다.
[식 (Ⅰ)에서, 검정색 실선은 뉴클레오티드 또는 특정 분자 사이의 화학적 결합(예를 들어, 포스포다이에스터 결합)을 의미하고, 회색 굵은선은 뉴클레오티드 사이의 상보적 결합을 의미한다.]
일 구현예에서, Xa는 존재하지 않거나 스템-루프 형태를 형성할 수 있는 (폴리)뉴클레오티드일 수 있다.
일 구현예에서, Xb1 및 Xb2는 서로 상보적 결합을 할 수 있는 (폴리)뉴클레오티드일 수 있다.
일 구현예에서, Xc1 및 Xc2는 서로 상보적 결합을 할 수 있는 (폴리)뉴클레오티드일 수 있다.
또 다른 구현예에서, 엔지니어링된 가이드 RNA는 화학식 (I)로 표시되는 서열에 70% 이상, 80% 이상, 85% 이상, 90% 이상, 95% 이상 또는 98% 이상 서열 동일성을 가질 수 있다. 이 때, 화학식 (I)에 대한 서열 동일성은 부호로 표시된 영역을 제외한 서열을 기준으로 한 것이다.
야생형 가이드 RNA의 스캐폴드 영역을 참조할 때, 스캐폴드 서열의 제1 스템 영역은 식 (Ⅰ)에서 Xa에 대응되는 영역일 수 있다. 스캐폴드 서열의 제2 스템 영역은 식 (Ⅰ)에서 Xb1 및 Xb2에 대응되는 영역일 수 있다. 스캐폴드 서열의 제3 스템 영역은 식 (Ⅰ)에서 5'-GGCUGCUUGCAUCAGCC-3' 서열에 대응되는 영역일 수 있다. 스캐폴드 서열의 제4 스템 영역은 식 (Ⅰ)에서 5'-UCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGA-3' 서열에 대응되는 영역일 수 있다. 또한, 스캐폴드 서열의 tracrRNA-crRNA 상보성 영역(제5 스템 영역)은 식 (Ⅰ)에서 Xc1 및 Xc2에 대응되는 영역일 수 있다.
이하, 엔지니어링된 gRNA에서 각 변형부위별 변형에 대해 자세히 설명한다.
(1) 변형부위 1(modification site 1, MS1)에서의 변형
본 항목에서는 MS1에서의 변형을 기술한다. 일 구현예에서, 자연에 존재하는 가이드 RNA(gRNA)가 될 수 있는 야생형 tracrRNA(예컨대, 서열번호 11)는 서열 내에 연속된 다섯 개의 유라실(U)을 포함하는 서열을 가질 수 있다. 이는 상기 야생형 tracrRNA를 세포 내에서 벡터 등을 이용하여 발현시키고자 할 때, 특정 조건에서는 상기 서열이 전사종결신호로써 작용하여 의도하지 않은 전사의 조기 종결을 야기하는 문제를 안고 있다. 즉, 상기 연속된 다섯 개의 U를 포함하는 서열이 전사종결신호로써 작동하게 되는 경우에는 상기 tracrRNA의 정상적인 또는 완전한 발현이 억제되고, 정상적인 또는 완전한 gRNA의 형성 또한 저해되어 결과적으로 본 발명의 표적 핵산 편집 시스템의 표적 핵산 또는 표적 유전자의 절단 또는 상동지정복구 효율을 감소시킨다.
따라서 상술한 문제점을 해결하기 위해, 엔지니어링된 gRNA는 야생형 tracrRNA(예컨대, 서열번호 11)의 연속된 세 개 이상, 네 개 이상, 다섯 개 이상의 U, 바람직하게는 네 개 또는 다섯 개의 U 중 적어도 하나의 U를 다른 뉴클레오티드인 A, C, T 또는 G로 인위적으로 변형시킨 것일 수 있다.
일 구현예로, MS1으로 지칭되는 연속되는 3개 이상의 유라실(U)을 포함하는 영역에서 연속되는 3개 이상의 U 중 적어도 하나의 U를 다른 종류의 뉴클레오티드로 치환된 변형을 포함하는 엔지니어링된 gRNA가 제공된다. 예컨대, 상기 연속되는 3개 이상의 U는 tracrRNA의 tracrRNA-crRNA 상보성 영역 내에 존재할 수 있으며, 여기서 상기 연속되는 3개 이상의 U 중 하나 이상을 A, G 또는 C로 치환함으로써 3개 이상의 U가 연속되는 서열이 나타나지 않도록 변형될 수 있다.
이때, 상기 변형되는 서열에 대응되는 crRNA의 tracrRNA-crRNA 상보성 영역 내 서열 또한 함께 변형되는 것이 바람직하다. 일 구현예로, tracrRNA의 tracrRNA-crRNA 상보성 영역 내에서 서열 5'-UUUUU-3'과 일부 상보적 결합을 이루는 crRNA의 tracrRNA-crRNA 상보성 영역 내에 서열 5'-ACGAA-3'가 존재하는 경우 해당 서열은 5'-NGNNN-3'로 치환될 수 있다. 여기서, N은 각각 독립적으로 A, C, G 또는 U이다.
다른 구현예에서, MS1은 식 (Ⅰ)의 Xc1 및 Xc2로 표시된 폴리뉴클레오티드 내에 존재할 수 있다.
일 구현예에서, 식 (Ⅰ)의 엔지니어링된 gRNA에서 Xc1 서열 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 이들 중 하나 이상의 U가 A, G 또는 C로 치환되는 변형을 포함할 수 있다. 예컨대, Xc1 서열 내에 서열 5'-UUUUU-3'이 존재하는 경우 해당 서열은 5'-NNNCN-3'으로 치환될 수 있다. 여기서, N은 각각 독립적으로 A, C, G 또는 U이다. 보다 구체화된 예로, Xc1 서열 내의 서열 5'-UUUUU-3'은 하기 서열로 이루어진 군에서 선택된 어느 하나의 핵산 서열로 치환될 수 있으나, 연속되는 3개 이상의 U를 포함하는 서열을 나타나지 않게 하는 것이라면 하기 서열로 제한되지 않는다: 5'-UUUCU-3', 5'-GUUCU-3', 5'-UCUCU-3', 5'-UUGCU-3', 5'-UUUCC-3', 5'-GCUCU-3', 5'-GUUCC-3', 5'-UCGCU-3', 5'-UCUCC-3', 5'-UUGCC-3', 5'-GCGCU-3', 5'-GCUCC-3', 5'-GUGCC-3', 5'-UCGCC-3', 5'-GCGCC-3' 및 5'-GUGCU-3'.
다른 구현예에서, 식 (Ⅰ)의 엔지니어링된 gRNA에서 Xc2 서열은 Xc1 서열과 적어도 일부 서열이 상보적 결합을 이루는 영역을 포함하며(tracrRNA-crRNA 상보성 영역으로도 지칭됨), 이때 Xc1 서열 내에 존재하는 연속되는 3개 이상의 U와 적어도 하나의 상보성 결합을 형성하는 Xc2 서열 내의 대응 서열도 함께 변형될 수 있다. 예컨대, 상기 Xc2 서열 내에 서열 5'-ACGAA-3'가 존재하는 경우 해당 서열은 5'-NGNNN-3'로 치환될 수 있다. 여기서, N은 각각 독립적으로 A, C, G 또는 U이다. 보다 구체화된 예로, Xc1 서열 내의 서열 5'-ACGAA-3'은 하기 서열로 이루어진 군에서 선택된 어느 하나의 핵산 서열로 치환될 수 있으나 하기 서열에 제한되는 것은 아니다: 5'-AGGAA-3', 5'-AGCAA-3', 5'-AGAAA-3', 5'-AGCAU-3', 5'-AGCAG-3', 5'-AGCAC-3', 5'-AGCUA-3', 5'-AGCGA-3', 5'-AGCCA-3', 5'-UGCAA-3', 5'-UGCUA-3', 5'-UGCGA-3', 5'-UGCCA-3', 5'-GGCAA-3', 5'-GGCUA-3', 5'-GGCGA-3', 5'-GGCCA-3', 5'-CGCAA-3', 5'-CGCUA-3', 5'-CGCGA-3' 및 5'-CGCCA-3'.
다른 구현예에서, Xc1 서열 내의 연속되는 3개 이상의 U를 포함하는 서열이 다른 서열로 변형되는 경우, 이에 대응되는(즉, 적어도 일부가 상보적 결합을 형성하는) Xc2 서열 내의 대응되는 뉴클레오티드는 변형된 뉴클레오티드와 상보적 결합을 이룰 수 있도록 변형되는 것이 바람직하다. 예를 들어, Xc1 서열 내의 서열 5'-UUUUU-3'이 5'-GUGCU-3'으로 변형되는 경우 Xc2 서열 내의 서열 5'-ACGAA-3'은 5'-AGCAA-3'로 변형되는 것이 바람직하나, 상보적 결합이 필수로 요구되는 것은 아니다.
(2) 변형부위 2(modification site 2, MS2)에서의 변형
본 항목에서는 MS2에서의 변형을 기술한다. 일 구현예에서, 엔지니어링된 가이드 RNA(gRNA)는 자연계에서 발견되는 gRNA에 새로운 구성을 추가한 것으로서 crRNA 서열의 3'-말단에 하나 이상의 유리딘(uridine)이 부가된 것일 수 있다. 여기서, 상기 crRNA 서열의 3'-말단은 가이드 서열(스페이서)의 3'-말단일 수 있다. 본 명세서에서 상기 3'-말단에 부가된 하나 이상의 유리딘은 U-rich tail로도 지칭된다. 상기 3'-말단에 부가된 하나 이상의 유리딘 또는 U-rich tail을 포함하는 엔지니어링된 gRNA는 초소형 CRISPR/Cas12 시스템의 표적 유전자 또는 표적 핵산에 대한 핵산 절단 또는 인델(indel) 효율을 높이는 역할을 한다.
본 명세서에서 사용되는 용어 "U-rich tail"은 유리딘(U)이 풍부하게 포함된 RNA 서열 그 자체뿐 아니라, 이를 암호화하는 DNA 서열을 의미할 수도 있으며, 이는 문맥에 따라서 적절하게 해석된다. 본 발명자들은 U-rich tail 서열의 구조 및 그 효과에 대해 실험적으로 자세히 밝혔으며, 이하 구체적인 구현예로 더 자세히 설명한다.
일 구현예에서, U-rich tail 서열은 Ux로 표현될 수 있다. 상기 x는 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20일 수 있다. 예컨대, x는 상기 나열된 수치 중에서 선택된 두 수치 범위 내의 정수일 수 있다. 예를 들어, x는 1 내지 6 사이의 정수일 수 있다. 또 다른 예를 들어, x는 1 내지 20 사이의 정수일 수 있다. 일 구현예로, x는 20 이상의 정수일 수 있다.
다른 구현예에서, U-rich tail의 서열은 5'-(UmV)nUo-3'로 표시되고 여기서 상기 V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수일 수 있다. 예컨대, 상기 n은 0, 1 또는 2일 수 있다. 예컨대, 상기 m 및 o는 각각 독립적으로 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10일 수 있다.
다른 구현예에서, 엔지니어링된 gRNA는 식 (Ⅰ)로 표시되는 서열로 이루어지거나 상기 서열과 80% 이상, 85% 이상, 90% 이상 또는 95% 이상 서열 동일성을 갖는 gRNA일 수 있고, 여기서 MS2는 식 (Ⅰ)의 (UmV)nUo에 대응되는 영역으로서 U는 유리딘이고, V, m, o 및 n은 위에 정의된 바와 같다.
바람직하게는, 식 (Ⅰ)로 표시되는 엔지니어링된 gRNA에서 (UmV)nUo는 (ⅰ) n이 0이고, o가 1 내지 6 사이의 정수이거나 (ⅱ) V가 A 또는 G이고, m 및 o는 각각 독립적으로 3 내지 6 사이의 정수이고, n은 1 내지 3 사이의 정수인 U-rich tail일 수 있다. 구체화된 예에서, 식 (Ⅰ)의 (UmV)nUo 5'-U-3', 5'-UU-3', 5'-UUU-3', 5'-UUUU-3', 5'-UUUUU-3', 5'-UUUUUU-3', 5'-UUURUUU-3', 5'-UUURUUURUUU-3', 5'-UUUURU-3', 5'-UUUURUU-3', 5'-UUUURUUU-3', 5'-UUUURUUUU-3', 5'-UUUURUUUUU-3' 및 5'-UUUURUUUUUU-3'로 이루어진 군에서 선택된 어느 하나의 서열로 이루어지고, 상기 R은 A 또는 G인 U-rich tail일 수 있다.
또 다른 구현예에서, U-rich tail 서열은 유리딘이 1개 내지 5개 반복될 때마다 유리딘이 아닌 다른 리보뉴클레오시드(A, C 또는 G)가 하나씩 포함된 변형된 유리딘 반복 서열을 포함할 수 있다. 상기 변형된 유리딘 연속 서열은 특히 엔지니어링된 crRNA를 발현하는 벡터를 설계할 때 유용하다. 일 구현예로, U-rich tail 서열은 UV, UUV, UUUV, UUUUV 및/또는 UUUUUV가 하나 이상 반복된 서열을 포함할 수 있다. 이때, 상기 V는 A, C, G 중 하나이다.
또한, 상기 U-rich tail 서열은 Ux로 표현되는 서열 및 (UaV)n로 표현되는 서열이 조합된 형태일 수 있다. 일 구현예로, 상기 U-rich tail 서열은 (U)n1-V1-(U)n2-V2-Ux로 표현될 수 있다. 이때, V1 및 V2는 각각 아데닌(A), 시티딘(C), 구아닌(G) 중 하나이다. 이때, 상기 n1 및 n2는 각각 1 내지 4 사이의 정수일 수 있다. 이때, 상기 x는 1 내지 20 사이의 정수일 수 있다. 또한, 상기 U-rich tail 서열의 길이는 1nt, 2nt, 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 또는 20nt일 수 있다. 일 구현예로, 상기 U-rich tail 서열의 길이는 20nt 이상일 수 있다.
다른 구현예에서, 엔지니어링된 gRNA가 세포 내에서 발현될 경우 U-rich tail은 전사 조기 종결에 의해 복수의 형태로 존재할 수 있다. 예를 들어, 일 구현예에 따라 5'-UUUUAUUUUUU-3' 서열의 U-rich tail이 포함되도록 의도한 gRNA가 세포 내에서 전사될 때 4개 이상 또는 5개 이상의 T는 종결 시퀀스로 작용할 수 있으므로, 5'-UUUUAUUUU-3', 5'-UUUUAUUUUU-3' 또는 5'-UUUUAUUUUUU-3' 등의 U-rich tail을 포함하는 gRNA가 동시에 생성될 수 있다. 따라서, 본 발명에서 4개 이상의 U가 포함된 U-rich tail은 의도한 길이보다 더 짧은 길이의 U-rich tail 서열을 함께 포함하는 것으로 이해될 수 있다.
또 다른 구현예에서, U-rich tail 서열은 CRISPR/Cas12 시스템의 실사용 환경 및 발현 환경, 예를 들어 진핵 세포 또는 원핵 세포 내부 환경에 따라 유리딘 외에 추가적인 염기를 더 포함할 수 있다.
(3) 변형부위 3(modification site 3, MS3)에서의 변형
본 항목에서는 MS3에서의 변형을 기술한다. 상술한 바와 같이 MS3은 gRNA 및 이펙터 단백질 복합체 내에서 스템 구조를 형성하는 뉴클레오티드의 일부 또는 전부를 포함하는 부위(제1 스템 영역으로 지칭될 수 있음)로서, 상기 MS3는 gRNA 및 이펙터 단백질이 복합체를 이룰 때 이펙터 단백질과 상호작용하지 않는 영역을 포함할 수 있다. MS3에서의 변형은 tracrRNA의 5'-말단 부근의 제1 스템 영역의 일부 또는 전부의 제거를 포함한다.
일 구현예에서, 엔지니어링된 gRNA는 제1 스템 영역(예컨대, 서열번호 14의 서열)의 일부 또는 전부가 결실된 변형을 포함한다.
다른 구현예에서, 엔지니어링된 gRNA는 tracrRNA 상의 제1 스템 영역의 일부 또는 전부가 결실된 변형을 포함하며, 이때 상기 결실되는 제1 스템 영역의 일부 또는 전부는 1개 내지 20개 뉴클레오티드일 수 있다. 구체적으로, 상기 제1 스템 영역의 일부 또는 전부는 2개 내지 20개, 3개 내지 20개, 4개 내지 20개, 5개 내지 20개, 6개 내지 20개, 7개 내지 20개, 8개 내지 20개, 9개 내지 20개, 10개 내지 20개, 11개 내지 20개, 12개 내지 20개, 13개 내지 20개, 14개 내지 20개, 15개 내지 20개, 16개 내지 20개, 17개 내지 20개, 18개 내지 20개, 19개 또는 20개 뉴클레오티드일 수 있다.
또 다른 구현예에서, MS3 또는 제1 스템 영역은 식 (Ⅰ)의 Xa로 표시된 폴리뉴클레오티드에 대응되는 부위로서, 제1 스템 영역의 일부 또는 전부가 결실된 변형에 의해 상기 Xa는 0 내지 35개의 (폴리)뉴클레오티드로 이루어질 수 있고, 바람직하게는 0 내지 20개, 0 내지 19개, 0 내지 18개, 0 내지 17개, 0 내지 16개, 0 내지 15개, 0 내지 14개, 0 내지 13개, 0 내지 12개, 0 내지 11개, 0 내지 10개, 0 내지 9개, 0 내지 8개, 0 내지 7개, 0 내지 6개, 0 내지 5개, 0 내지 4개, 0 내지 3개, 0 내지 2개, 1개 또는 0개의 (폴리)뉴클레오티드로 이루어질 수 있다.
일 구현예로, 식 (Ⅰ)의 엔지니어링된 gRNA에서 Xa는 서열번호 14의 핵산 서열을 포함하거나 상기 서열의 전부 또는 일부, 바람직하게는 상기 서열번호 14의 서열에서 1 내지 20개의 뉴클레오티드가 결실된 핵산 서열을 포함할 수 있다. 예컨대, 상기 뉴클레오티드의 결실은 서열번호 14의 서열에서 뉴클레오티드가 무작위로 적어도 1개, 2개, 3개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개 15개, 16개, 17개, 18개, 19개 또는 20개가 결실된 것일 수 있다. 바람직한 예로, 상기 뉴클레오티드의 결실은 서열번호 14의 서열에서 5'-말단으로부터 적어도 1개, 2개, 3개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개 15개, 16개, 17개, 18개, 19개 또는 20개의 뉴클레오티드가 5'-말단부터 순차적으로 결실된 것일 수 있다. 보다 구체적으로, 상기 Xa는 5'-CUUCACUGAUAAAGUGGAGA-3'(서열번호 14), 5'-UUCACUGAUAAAGUGGAGA-3'(서열번호 15), 5'-UCACUGAUAAAGUGGAGA-3'(서열번호 16), 5'-CACUGAUAAAGUGGAGA-3'(서열번호 17), 5'-ACUGAUAAAGUGGAGA-3'(서열번호 18), 5'-CUGAUAAAGUGGAGA-3'(서열번호 19), 5'-UGAUAAAGUGGAGA-3'(서열번호 20), 5'-GAUAAAGUGGAGA-3'(서열번호 21), 5'-AUAAAGUGGAGA-3'(서열번호 22), 5'-UAAAGUGGAGA-3'(서열번호 23), 5'-AAAGUGGAGA-3'(서열번호 24), 5'-AAGUGGAGA-3', 5'-AGUGGAGA-3', 5'-GUGGAGA-3', 5'-UGGAGA-3', 5'-GGAGA-3', 5'-GAGA-3', 5'-AGA-3', 5'-GA-3' 또는 5'-A-3'의 서열을 포함하거나 이로 이루어질 수 있고, 또는 Xa는 부존재할 수 있다.
(4) 변형부위 4(modification site 4, MS4)에서의 변형
본 항목에서는 MS4에서의 변형을 기술한다. MS4는 tracrRNA의 3'-말단부 및 crRNA의 5'-말단부에 걸쳐 위치한 부위, 또는 싱글 가이드 RNA 형태인 경우 tracrRNA에 해당하는 서열과 crRNA에 해당하는 서열이 적어도 일부 상보적 결합을 이루는 부위로서 tracrRNA-crRNA 상보성 영역(제5 스템 영역으로도 지칭될 수 있음)으로 지칭되는 서열의 일부 또는 전부를 포함할 수 있다. 본 발명에서 tracrRNA-crRNA 상보성 영역은 변형부위 1(MS1)과 변형부위 4(MS4)를 함께 포함할 수 있다. MS4에서의 변형은 tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실을 포함한다. 상기 tracrRNA-crRNA 상보성 영역은 tracrRNA의 일부 및 crRNA의 일부를 포함하여, gRNA 및 핵산 분해 단백질의 복합체 내에서 tracrRNA에 포함된 일부 뉴클레오티드가 crRNA에 포함된 일부 뉴클레오티드와 상보적인 결합을 형성할 수 있는 뉴클레오티드를 포함하고, 이와 인접한 뉴클레오티드를 포함할 수 있다. tracrRNA의 tracrRNA-crRNA 상보성 영역은 gRNA와 핵산 분해 단백질 복합체 내에서 핵산 분해 단백질과 상호작용하지 않는 영역을 포함할 수 있다.
일부 구현예에서, 엔지니어링된 gRNA는 tracrRNA에서의 tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실, crRNA에서의 tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실, 또는 상기 tracrRNA 및 crRNA 모두에서의 tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실을 포함한다.
다른 구현예에서, 엔지니어링된 gRNA는 tracrRNA-crRNA 상보성 영역의 일부가 결실된 변형을 포함하며, 이때 결실되는 상기 상보성 영역의 일부는 1개 내지 54개 뉴클레오티드일 수 있다.
또 다른 구현예에서, 엔지니어링된 gRNA는 tracrRNA-crRNA 상보성 영역의 전부가 결실된 변형을 포함하며, 이때 결실되는 상기 상보성 영역의 전부는 55개 뉴클레오티드일 수 있다.
일 구현예에서, tracrRNA-crRNA 상보성 영역은 서열번호 39의 뉴클레오티드 서열 및/또는 서열번호 58의 뉴클레오티드 서열을 포함할 수 있다.
다른 구현예에서, tracrRNA-crRNA 상보성 영역은 tracrRNA-crRNA 상보성 영역은 링커 서열을 추가로 포함할 수 있다.
구체적으로, 상기 tracrRNA-crRNA 상보성 영역의 일부 또는 전부는 3개 내지 55개, 5개 내지 55개, 7개 내지 55개, 9개 내지 55개, 11개 내지 55개, 13개 내지 55개, 15개 내지 55개, 17개 내지 55개, 19개 내지 55개, 21개 내지 55개, 23개 내지 55개, 25개 내지 55개, 27개 내지 55개, 29개 내지 55개, 31개 내지 55개, 33개 내지 55개, 35개 내지 55개, 37개 내지 55개, 39개 내지 55개 또는 41개 내지 55개 뉴클레오티드일 수 있으며, 바람직하게는 42개 내지 55개, 43개 내지 55개, 44개 내지 55개, 45개 내지 55개, 46개 내지 55개, 47개 내지 55개, 48개 내지 55개, 49개 내지 55개, 50개 내지 55개, 51개 내지 55개, 52개 내지 55개, 53개 내지 55개, 54개 또는 55개 뉴클레오티드일 수 있다.
또 다른 구현예에서, MS4 또는 tracrRNA-crRNA 상보성 영역은 식 (Ⅰ)의 Xc1 및 Xc2로 표시된 폴리뉴클레오티드에 대응되는 영역으로서, tracrRNA-crRNA 상보성 영역의 일부 또는 전부가 결실된 변형에 의해 Xc1 및 Xc2는 각각 독립적으로 0 내지 35개의 (폴리)뉴클레오티드로 이루어질 수 있다.
바람직하게, Xc1은 0 내지 28개, 0 내지 27개, 0 내지 26개, 0 내지 25개, 0 내지 24개, 0 내지 23개, 0 내지 22개, 0 내지 21개, 0 내지 20개, 0 내지 19개, 0 내지 18개, 0 내지 17개, 0 내지 16개, 0 내지 15개, 0 내지 14개, 0 내지 13개, 0 내지 12개, 0 내지 11개, 0 내지 10개, 0 내지 9개, 0 내지 8개, 0 내지 7개, 0 내지 6개, 0 내지 5개, 0 내지 4개, 0 내지 3개, 0 내지 2개, 1개 또는 0개의 (폴리)뉴클레오티드로 이루어질 수 있다. 또한, 바람직하게, Xc2는 0 내지 27개, 0 내지 26개, 0 내지 25개, 0 내지 24개, 0 내지 23개, 0 내지 22개, 0 내지 21개, 0 내지 20개, 0 내지 19개, 0 내지 18개, 0 내지 17개, 0 내지 16개, 0 내지 15개, 0 내지 14개, 0 내지 13개, 0 내지 12개, 0 내지 11개, 0 내지 10개, 0 내지 9개, 0 내지 8개, 0 내지 7개, 0 내지 6개, 0 내지 5개, 0 내지 4개, 0 내지 3개, 0 내지 2개, 1개 또는 0개의 (폴리)뉴클레오티드로 이루어질 수 있다.
일 구현예에서, 식 (Ⅰ)의 엔지니어링된 gRNA에서 Xc1은 서열번호 39의 핵산 서열을 포함하거나 상기 서열번호 39의 서열에서 1 내지 28개의 뉴클레오티드가 결실된 핵산 서열을 포함할 수 있다. 바람직하게, 상기 뉴클레오티드의 결실은 서열번호 39의 서열에서 5'-말단으로부터 적어도 1개, 2개, 3개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개 또는 28개의 뉴클레오티드가 순차적으로 제거된 것일 수 있다. 보다 구체적으로, 상기 Xc1은 5'-UUCAUUUUUCCUCUCCAAUUCUGCACAA-3'(서열번호 39), 5'-UUCAUUUUUCCUCUCCAAUUCUGCACA-3'(서열번호 40), 5'-UUCAUUUUUCCUCUCCAAUUCUGCAC-3'(서열번호 41), 5'-UUCAUUUUUCCUCUCCAAUUCUGCA-3'(서열번호 42), 5'-UUCAUUUUUCCUCUCCAAUUCUGC-3'(서열번호 43), 5'-UUCAUUUUUCCUCUCCAAUUCUG-3'(서열번호 44), 5'-UUCAUUUUUCCUCUCCAAUUCU-3'(서열번호 45), 5'-UUCAUUUUUCCUCUCCAAUUC-3'(서열번호 46), 5'-UUCAUUUUUCCUCUCCAAUU-3'(서열번호 47), 5'-UUCAUUUUUCCUCUCCAAU-3'(서열번호 48), 5'-UUCAUUUUUCCUCUCCAA-3'(서열번호 49), 5'-UUCAUUUUUCCUCUCCA-3'(서열번호 50), 5'-UUCAUUUUUCCUCUCC-3'(서열번호 51), 5'-UUCAUUUUUCCUCUC-3'(서열번호 52), 5'-UUCAUUUUUCCUCU-3'(서열번호 53), 5'-UUCAUUUUUCCUC-3'(서열번호 54), 5'-UUCAUUUUUCCU-3'(서열번호 55), 5'-UUCAUUUUUCC-3'(서열번호 56), 5'-UUCAUUUUUC-3'(서열번호 57), 5'-UUCAUUUUU-3', 5'-UUCAUUUU-3', 5'-UUCAUUU-3', 5'-UUCAUU-3', 5'-UUCAU-3', 5'-UUCA-3', 5'-UUC-3', 5'-UU-3' 또는 5'-U-3'의 서열을 포함하거나 이로 이루어질 수 있고, 또는 Xc1은 부존재할 수 있다.
이때, 일부 뉴클레오티드가 제거된 Xc1 서열 내에 3개, 4개 또는 5개 이상의 유라실(U)을 포함하는 영역이 존재하는 경우에는 상술한 MS1에서의 변형이 또한 적용될 수 있다. MS1에 대한 구체적인 내용은 상기 "(1) 변형부위 1(modification site 1, MS1)에서의 변형" 항목을 참조한다.
또 다른 구현예로, 상기 식 (Ⅰ)의 엔지니어링된 gRNA에서 Xc2는 서열번호 58의 핵산 서열을 포함하거나 서열번호 58의 서열에서 1 내지 27개의 뉴클레오티드가 결실된 핵산 서열을 포함할 수 있다. 바람직하게, 상기 뉴클레오티드의 결실은 서열번호 58의 서열에서 5'-말단으로부터 적어도 1개, 2개, 3개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개 또는 27개의 뉴클레오티드가 순차적으로 제거된 것일 수 있다. 보다 구체적으로, 상기 Xc2는 5'-GUUGCAGAACCCGAAUAGACGAAUGAA-3'(서열번호 58), 5'-UUGCAGAACCCGAAUAGACGAAUGAA-3'(서열번호 59), 5'-UGCAGAACCCGAAUAGACGAAUGAA-3'(서열번호 60), 5'-GCAGAACCCGAAUAGACGAAUGAA-3'(서열번호 61), 5'-CAGAACCCGAAUAGACGAAUGAA-3'(서열번호 62), 5'-AGAACCCGAAUAGACGAAUGAA-3'(서열번호 63), 5'-GAACCCGAAUAGACGAAUGAA-3'(서열번호 64), 5'-AACCCGAAUAGACGAAUGAA-3'(서열번호 65), 5'-ACCCGAAUAGACGAAUGAA-3'(서열번호 66), 5'-CCCGAAUAGACGAAUGAA-3'(서열번호 67), 5'-CCGAAUAGACGAAUGAA-3'(서열번호 68), 5'-CGAAUAGACGAAUGAA-3'(서열번호 69), 5'-GAAUAGACGAAUGAA-3'(서열번호 70), 5'-AAUAGACGAAUGAA-3'(서열번호 71), 5'-AUAGACGAAUGAA-3'(서열번호 72), 5'-UAGACGAAUGAA-3'(서열번호 73), 5'-AGACGAAUGAA-3'(서열번호 74), 5'-GACGAAUGAA-3'(서열번호 75), 5'-ACGAAUGAA-3', 5'-CGAAUGAA-3', 5'-GAAUGAA-3', 5'-AAUGAA-3', 5'-AUGAA-3', 5'-UGAA-3', 5'-GAA-3', 5'-AA-3' 또는 5'-A-3'의 서열을 포함하거나 이로 이루어질 수 있고, 또는 Xc2는 부존재할 수 있다.
이때, 일부 뉴클레오티드가 제거된 Xc2 서열 내에 Xc1 서열 내 3개 이상, 3개, 4개 또는 5개 이상의 U를 포함하는 서열에 대응되는 서열이 존재하는 경우에는 상술한 MS1에서의 변형이 또한 적용될 수 있다. MS1에 대한 구체적인 내용은 상기 "(1) 변형부위 1(modification site 1, MS1)에서의 변형" 항목을 참조한다.
식 (Ⅰ)의 엔지니어링된 gRNA에서 Xc1과 Xc2에 해당하는 영역은 각각 독립적으로 변형될 수 있으나, MS4 또는 tracrRNA-crRNA 상보성 영역은 tracrRNA와 crRNA가 상보적 결합을 이루는 영역으로서 듀얼 가이드 RNA로 작동하기 위해서는 Xc1 및 Xc2 각각에서 결실되는 뉴클레오티드의 위치와 개수를 동일하거나 유사하게 하는 것이 바람직하다. 즉, 상보성의 보존을 위해, MS4(tracrRNA-crRNA 상보성 영역)에서 tracrRNA의 3'-말단에 위치한 서열부터 순차적으로 결실시키는 경우 crRNA는 5'-말단 서열부터 순차적으로 결실시키는 것이 바람직하다.
일부 구현예에서, 식 (Ⅰ)의 엔지니어링된 gRNA에서 Xc1의 3'-말단과 Xc2의 5'-말단은 링커(Lk)로 연결되어 싱글 가이드 RNA(sgRNA) 형태로 변형될 수 있다. 링커 Lk는 tracrRNA 및 crRNA을 물리적 또는 화학적으로 연결하는 서열로서, 길이 1 내지 30개의 폴리뉴클레오티드 서열일 수 있다. 일 구현예로서, Lk는 1 내지 5개, 5 내지 10개, 10 내지 15개, 2 내지 20개, 15 내지 20개, 20개 내지 25개 또는 25 내지 30개의 뉴클레오티드 서열일 수 있다. 예를 들어, Lk는 5'-GAAA-3' 서열일 수 있으나, 이에 제한되는 것은 아니다. 다른 예로, Lk는 5'-UUAG-3', 5'-UGAAAA-3', 5'-UUGAAAAA-3', 5'-UUCGAAAGAA-3'(서열번호 76), 5'-UUCAGAAAUGAA-3'(서열번호 77), 5'-UUCAUGAAAAUGAA-3'(서열번호 78) 또는 5'-UUCAUUGAAAAAUGAA-3'(서열번호 79)의 서열을 포함하거나 이로 이루어진 링커일 수 있다.
한편, sgRNA로 만들기 위해 링커(Lk)를 사용하는 것도 가능하지만, 3'-말단부의 일부 서열이 제거된 tracrRNA의 3' 말단부와 5'-말단부의 일부 서열이 제거된 crRNA의 3'-말단부를 직접 연결하는 것도 가능하다.
또 다른 구현예로, 식 (Ⅰ)의 엔지니어링된 gRNA에서 Xc1과 Xc2가 링커로 연결되는 경우, 식 (Ⅰ)에서와 같이 5'-Xc1-Lk-Xc2-3'로 표현될 수 있으며, 이는 서열번호 80 내지 서열번호 86로 이루어진 군에서 선택된 어느 하나의 핵산 서열일 수 있으나, 이에 제한되는 것은 아니다.
(5) 변형부위 5(modification site 5, MS5)에서의 변형
본 항목에서는 MS5에서의 변형을 기술한다. 상술한 바와 같이, MS5는 제2 스템 영역으로 지칭되는 tracrRNA 내 3'-말단 방향에 위치한 영역에 대응된다. 상기 제2 스템 영역은 가이드 RNA(gRNA) 및 핵산 편집 단백질 복합체 내에서 스템 구조를 형성하는 뉴클레오티드를 포함하고, 이와 인접한 뉴클레오티드를 포함할 수 있다. 이때, 상기 스템 구조는 상술한 제1 스템 영역에 포함된 스템과는 구분되는 것이다.
일 구현예에서, 엔지니어링된 gRNA는 제2 스템 영역의 일부 또는 전부가 결실된 변형을 포함한다.
다른 구현예에서, 엔지니어링된 gRNA는 제2 스템 영역의 일부 또는 전부의 결실을 포함하고, 이때 상기 결실되는 제2 스템 영역의 일부 또는 전부는 1개 내지 27개 뉴클레오티드일 수 있다. 구체적으로, 상기 제2 스템 영역의 일부 또는 전부는 2개 내지 27개, 3개 내지 27개, 4개 내지 27개, 5개 내지 27개, 6개 내지 27개, 7개 내지 27개, 8개 내지 27개, 9개 내지 27개, 10개 내지 27개, 11개 내지 27개, 12개 내지 27개, 13개 내지 27개, 14개 내지 27개, 15개 내지 27개, 16개 내지 27개, 17개 내지 27개, 18개 내지 27개, 19개 내지 27개, 20개 내지 27개, 21개 내지 27개, 22개 내지 27개, 23개 내지 27개, 24개 내지 27개, 25개 내지 27개, 26개 또는 27개의 뉴클레오티드일 수 있다.
일 구현예에서, 제2 스템 영역은 서열번호 25의 뉴클레오티드 서열 및/또는 서열번호 29의 뉴클레오티드 서열을 포함하거나 이로 이루어질 수 있다.
또 다른 구현예에서, MS5 또는 제2 스템 영역은 식 (Ⅰ)의 Xb1 및 Xb2로 표시된 폴리뉴클레오티드와 인접한 (폴리)뉴클레오티드(5'-UUAG-3' 서열의 루프 포함)를 포함하는 부위로서, 제2 스템 영역의 일부 또는 전부가 결실된 변형에 의해 상기 Xb1 및 Xb2는 각각 독립적으로 0 내지 35개의 (폴리)뉴클레오티드로 이루어질 수 있다.
바람직하게, 식 (I)에서, Xb1은 0 내지 13개, 0 내지 12개, 0 내지 11개, 0 내지 10개, 0 내지 9개, 0 내지 8개, 0 내지 7개, 0 내지 6개, 0 내지 5개, 0 내지 4개, 0 내지 3개, 0 내지 2개, 1개 또는 0개의 (폴리)뉴클레오티드로 이루어질 수 있다. 또한, 바람직하게, Xb2는 0 내지 14개, 0 내지 13개, 0 내지 12개, 0 내지 11개, 0 내지 10개, 0 내지 9개, 0 내지 8개, 0 내지 7개, 0 내지 6개, 0 내지 5개, 0 내지 4개, 0 내지 3개, 0 내지 2개, 1개 또는 0개의 (폴리)뉴클레오티드로 이루어질 수 있다.
일 구현예로, 식 (Ⅰ)의 엔지니어링된 gRNA에서 Xb1은 서열번호 25의 핵산 서열을 포함하거나 상기 서열번호 25의 서열에서 1 내지 13개의 뉴클레오티드가 결실된 핵산 서열을 포함할 수 있다. 바람직하게, 상기 뉴클레오티드의 결실은 서열번호 25의 서열에서 5'-말단으로부터 적어도 1개, 2개, 3개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개 또는 13개의 뉴클레오티드가 순차적으로 제거된 것일 수 있다. 보다 구체적으로, 상기 Xb1은 5'-CAAAAGCUGUCCC-3'(서열번호 25), 5'-CAAAAGCUGUCC-3'(서열번호 26), 5'-CAAAAGCUGUC-3'(서열번호 27), 5'-CAAAAGCUGU-3'(서열번호 28), 5'-CAAAAGCUG-3', 5'-CAAAAGCU-3', 5'-CAAAAGC-3', 5'-CAAAAG-3', 5'-CAAAA-3', 5'-CAAA-3', 5'-CAA-3', 5'-CA-3' 또는 5'-C-3'의 서열을 포함하거나 이로 이루어질 수 있고, 또는 Xb1은 부존재할 수 있다.
다른 구현예로, 상기 식 (Ⅰ)의 엔지니어링된 gRNA에서 Xb2는 서열번호 29의 핵산 서열을 포함하거나 상기 서열번호 29의 서열에서 1 내지 14개의 뉴클레오티드가 결실된 핵산 서열을 포함할 수 있다. 바람직하게, 상기 뉴클레오티드의 결실은 서열번호 29의 서열에서 5'-말단으로부터 적어도 1개, 2개, 3개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개 또는 14개의 뉴클레오티드가 순차적으로 제거된 것일 수 있다. 보다 구체적으로, Xb2는 5'-GGGAUUAGAACUUG-3' (서열번호 29), 5'-GGAUUAGAACUUG-3'(서열번호 30), 5'-GAUUAGAACUUG-3'(서열번호 31), 5'-AUUAGAACUUG-3'(서열번호 32), 5'-UUAGAACUUG-3'(서열번호 33), 5'-UAGAACUUG-3', 5'-AGAACUUG-3', 5'-GAACUUG-3', 5'-AACUUG-3', 5'-ACUUG-3', 5'-CUUG-3', 5'-UUG-3', 5'-UG-3' 또는 5'-G-3'의 서열을 포함하거나 이로 이루어질 수 있고, 또는 Xb1은 부존재할 수 있다.
식 (Ⅰ)의 엔지니어링된 gRNA에서 Xb1과 Xb2에 해당하는 영역은 각각 독립적으로 변형될 수 있으나, 정상적인 스템-루프 구조의 보존을 위해 Xb1 및 Xb2 각각에서 결실되는 뉴클레오티드의 위치와 개수를 동일하거나 유사하게 하는 것이 바람직하다. 예를 들어, Xb1에서 5'-말단 방향의 서열부터 순차적으로 결실시키는 경우 Xb2에서는 3'-말단 방향의 서열부터 순차적으로 결실시키는 것이 바람직하다.
다른 구현예에서, 식 (Ⅰ)의 엔지니어링된 gRNA의 Xb1과 Xb2를 연결하는 루프(Loop) 부분의 서열은 5'-UUAG-3'로 표시되어 있으나, 이는 필요에 따라 5'-NNNN-3', '5-NNN-3' 등의 다른 서열로 치환될 수 있다. 여기서, N은 각각 독립적으로 A, C, G 또는 U이다. 예를 들면, 상기 5'-NNNN-3'는 5'-GAAA-3'일 수 있고, 상기 '5-NNN-3'은 5'-CGA-3'일 수 있다.
예컨대, 식 (Ⅰ)의 엔지니어링된 gRNA의 Xb1과 Xb2를 연결하는 루프(Loop) 부분의 서열은 5'-UUAG-3'이고, 상기 식 (Ⅰ) 내의 서열 5'-Xb1UUAGXb2-3'은 서열번호 34 내지 서열번호 38로 이루어진 군에서 선택된 어느 하나의 핵산 서열을 포함하거나 이로 이루어진 것일 수 있다.
(6) 변형부위 1 내지 변형부위 5에서의 변형이 적용된 gRNA의 예시
본 발명의 표적 핵산 편집 시스템에 포함되는 엔지니어링된 가이드 RNA(gRNA)는 상술한 변형부위 1(MS1) 내지 변형부위 5(MS5) 중 둘 이상의 변형부위에서의 변형을 포함하는 것일 수 있다.
일부 구현예에서, 엔지니어링된 가이드 RNA는 (a1) 제1 스템 영역의 일부 또는 전부의 결실; (a2) 제2 스템 영역의 일부 또는 전부의 결실; (b) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실; (c) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환; 및 (d1) crRNA 서열의 3'-말단에 U-rich tail의 부가로 이루어진 군에서 선택되는 하나 이상의 변형을 포함하는 것일 수 있다. 상기 U-rich tail의 서열은 5'-(UmV)nUo-3'로 표시될 수 있고, 여기서 상기 V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수이다.
예컨대, 상기 엔지니어링된 가이드 RNA는 (d1) crRNA 서열의 3'-말단에 U-rich tail의 부가 및 (c) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환을 포함하는 것일 수 있다.
다른 예로, 상기 엔지니어링된 가이드 RNA는 (d1) crRNA 서열의 3'-말단에 U-rich tail의 부가, (c) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환 및 (a1) 제1 스템 영역의 일부 또는 전부의 결실을 포함하는 것일 수 있다.
또 다른 예로, 상기 엔지니어링된 가이드 RNA는 (d1) crRNA 서열의 3'-말단에 U-rich tail의 부가, (c) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환 및 (a1) 제1 스템 영역의 일부 또는 전부의 결실을 포함하는 것일 수 있다.
또 다른 예로, 상기 엔지니어링된 가이드 RNA는 (d1) crRNA 서열의 3'-말단에 U-rich tail의 부가, (a1) 제1 스템 영역의 일부 또는 전부의 결실 및 (b) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실을 포함하는 것일 수 있으며, 상기 일부 결실을 포함하는 tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로의 치환이 추가로 포함될 수 있다.
또 다른 예로, 상기 엔지니어링된 가이드 RNA는 (d1) crRNA 서열의 3'-말단에 U-rich tail의 부가, (a1) 제1 스템 영역의 일부 또는 전부의 결실, (b) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실 및 (a2) 제2 스템 영역의 일부 또는 전부의 결실을 포함하는 것일 수 있으며, 상기 일부 결실을 포함하는 tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로의 치환이 추가로 포함될 수 있다.
상술한 복수의 변형부위(MS)에서의 변형이 적용된 tracrRNA의 예시로서 서열번호 87 내지 서열번호 132의 뉴클레오티드 서열 포함하는 엔지니어링된 tracrRNA가 제공된다.
구체적으로, 본 발명의 엔지니어링된 tracrRNA는 서열번호 87(MS1), 서열번호 88(MS1/MS3-1), 서열번호 89(MS1/MS3-2), 서열번호 90(MS1/MS3-3), 서열번호 91(MS1/MS4*-1), 서열번호 92(MS1/MS4*-2), 서열번호 93(MS1/MS4*-3), 서열번호 94(MS1/MS5-1), 서열번호 95(MS1/MS5-2), 서열번호 96(MS1/MS5-3), 서열번호 97(MS1/MS3-3/MS4*-1), 서열번호 98(MS1/MS3-3/MS4*-2), 서열번호 99(MS1/MS3-3/MS4*-3), 서열번호 100(MS1/MS4*-2/MS5-1), 서열번호 101(MS1/MS4*-2/MS5-2), 서열번호 102(MS1/MS4*-2/MS5-3), 서열번호 103(MS1/MS3-3/MS5-1), 서열번호 104(MS1/MS3-3/MS5-2), 서열번호 105(MS1/MS3-3/MS5-3), 서열번호 106(MS1/MS3-3/MS4*-2/MS5-3), 서열번호 107(mature form, MF), 서열번호 108(MF/MS3-1), 서열번호 109(MF/MS3-2), 서열번호 110(MF/MS3-3), 서열번호 111(MF/MS4-1), 서열번호 112(MF/MS4-2), 서열번호 113(MF/MS4-3), 서열번호 114(MF/MS5-1), 서열번호 115(MF/MS5-2), 서열번호 116(MF/MS5-3), 서열번호 117(MF/MS5), 서열번호 118(MF/MS3-3/MS4-1), 서열번호 119(MF/MS3-3/MS4-2), 서열번호 120(MF/MS3-3/MS4-3), 서열번호 121(MF/MS4-3/MS5-1), 서열번호 122(MF/MS4-3/MS5-2), 서열번호 123(MF/MS4-3/MS5-3), 서열번호 124(MF/MS4-3/MS5-F), 서열번호 125(MF/MS3-3/MS5-1), 서열번호 126(MF/MS3-3/MS5-2), 서열번호 127(MF/MS3-3/MS5-3), 서열번호 128(MF/MS3-3/MS5), 서열번호 129(MF/MS3-3/MS4-3/MS5-3), 서열번호 130(MF/MS3-3/MS4-1/MS5), 서열번호 131(MF/MS3-3/MS4-2/MS5) 또는 서열번호 132(MF/MS3-3/MS4-3/MS5)의 뉴클레오티드 서열을 포함하거나 이로 이루어진 것일 수 있다.
일부 구현예로서, MS1, MS3, MS4 및 MS5에서 선택된 어느 하나 이상의 변형부위에서 하나 이상의 변형을 갖는 엔지니어링된 tracrRNA의 예시적인 서열을 하기 표 2에 나타내었다.
tracrRNA 염기서열 서열번호
MS1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA 87
MS1/MS3-1 GAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA 88
MS1/MS3-2 UGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA 89
MS1/MS3-3 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA 90
MS1/MS4*-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUC 91
MS1/MS4*-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUC 92
MS1/MS4*-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCU 93
MS1/MS5-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA 94
MS1/MS5-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUUAGGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA 95
MS1/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA 96
MS1/MS3-3/MS4*-1 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUC 97
MS1/MS3-3/MS4*-2 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUC 98
MS1/MS3-3/MS4*-3 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCU 99
MS1/MS4*-2/MS5-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUC 100
MS1/MS4*-2/MS5-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUUAGGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUC 101
MS1/MS4*-2/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUC 102
MS1/MS3-3/MS5-1 ACCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA 103
MS1/MS3-3/MS5-2 ACCGCUUCACCAAAAGCUUAGGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA 104
MS1/MS3-3/MS5-3 ACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA 105
MS1/MS3-3/MS4*-2/MS5-3 ACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUC 106
Mature Form(MF) CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 107
MF/MS3-1 GAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 108
MF/MS3-2 UGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 109
MF/MS3-3 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 110
MF/MS4-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAU 111
MF/MS4-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUC 112
MF/MS4-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAA 113
MF/MS5-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 114
MF/MS5-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUUUAGAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 115
MF/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 116
MF/MS5 CUUCACUGAUAAAGUGGAGAACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 117
MF/MS3-3/MS4-1 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAU 118
MF/MS3-3/MS4-2 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUC 119
MF/MS3-3/MS4-3 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAA 120
MF/MS4-3/MS5-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAA 121
MF/MS4-3/MS5-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUUUAGAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAA 122
MF/MS4-3/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAA 123
MF/MS4-3/MS5 CUUCACUGAUAAAGUGGAGAACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAA 124
MF/MS3-3/MS5-1 ACCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 125
MF/MS3-3/MS5-2 ACCGCUUCACCAAAAGCUUUAGAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 126
MF/MS3-3/MS5-3 ACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 127
MF/MS3-3/MS5 ACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU 128
MF/MS3-3/MS4-3/MS5-3 ACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAA 129
MF/MS3-3/MS4-1/MS5 ACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAU 130
MF/MS3-3/MS4-2/MS5 ACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUC 131
MF/MS3-3/MS4-3/MS5 ACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAA 132
또한, 상기 복수의 변형부위(MS)에서의 변형이 적용된 crRNA의 예시로서 서열번호 133 내지 서열번호 148의 뉴클레오티드 서열 포함하는 엔지니어링된 crRNA가 제공된다.구체적으로, 본 발명의 엔지니어링된 crRNA는 서열번호 133(MS1), 서열번호 134(MS1/MS4*-1), 서열번호 135(MS1/MS4*-2), 서열번호 136(MS1/MS4*-3), 서열번호 137(mature form; MF), 서열번호 138(MF/MS4-1), 서열번호 139(MF/MS4-2), 서열번호 140(MF/MS4-3), 서열번호 141(MS1/MS2), 서열번호 142(MS1/MS2/MS4*-1), 서열번호 143(MS1/MS2/MS4*-2), 서열번호 144(MS1/MS2/MS4*-3), 서열번호 145(MF/MS2), 서열번호 146(MF/MS2/MS4-1), 서열번호 147(MF/MS2/MS4-2) 또는 서열번호 148(MF/MS2/MS4-3)의 뉴클레오티드 서열을 포함하거나 이로 이루어진 것일 수 있다.
일부 구현예로서, MS1, MS2 및 MS4에서 선택된 어느 하나 이상의 변형부위에서 하나 이상의 변형을 갖는 엔지니어링된 crRNA의 예시적인 서열을 하기 표 3에 나타내었다.
crRNA 염기서열 서열번호
MS1 GUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAAC 133
MS1/MS4*-1 GAACCCGAAUAGAGCAAUGAAGGAAUGCAAC 134
MS1/MS4*-2 GAAUAGAGCAAUGAAGGAAUGCAAC 135
MS1/MS4*-3 AGCAAUGAAGGAAUGCAAC 136
MF GAAUGAAGGAAUGCAAC 137
MF/MS4-1 AUGAAGGAAUGCAAC 138
MF/MS4-2 GAAGGAAUGCAAC 139
MF/MS4-3 GGAAUGCAAC 140
MS1/MS2 GUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 141
MS1/MS2/MS4*-1 GAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 142
MS1/MS2/MS4*-2 GAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 143
MS1/MS2/MS4*-3 AGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 144
MF/MS2 GAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 145
MF/MS2/MS4-1 AUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 146
MF/MS2/MS4-2 GAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 147
MF/MS2/MS4-3 GGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 148
상기 표 3에서, 필요한 경우를 제외하고 모든 crRNA 서열은 가이드 서열(스페이서)은 표시를 생략하였으며, 'NNNNNNNNNNNNNNNNNNNN'으로 표시된 서열은 표적 유전자 내의 표적 서열과 혼성화할 수 있는 임의의 가이드 서열(스페이서)을 의미한다. 상기 가이드 서열은, 상술한 바와 같이 목적하는 표적 유전자 및/또는 상기 표적 유전자 내 표적 서열에 따라 통상의 기술자에 의해 적절하게 설계될 수 있으며, 따라서 특정 길이의 특정 서열로 한정되는 것은 아니다.
다른 구현예로, 엔지니어링된 gRNA는 서열번호 87 내지 서열번호 132로 이루어진 군에서 선택된 어느 하나의 뉴클레오티드 서열을 포함하거나 이로 이루어진 tracrRNA; 및 서열번호 133 내지 서열번호 148로 이루어진 군에서 선택된 어느 하나의 뉴클레오티드 서열을 포함하거나 이로 이루어진 crRNA를 포함하는 것일 수 있다.
또 다른 구현예로, 본 발명의 엔지니어링된 gRNA가 싱글 가이드 RNA(sgRNA) 형태인 경우, 상기 엔지니어링된 sgRNA는 서열번호 149 내지 서열번호 186으로 이루어진 군에서 선택된 어느 하나의 뉴클레오티드 서열을 포함하거나 이로 이루어진 sgRNA일 수 있다.
구체적으로, 상기 엔지니어링된 sgRNA는 MS1에서의 변형을 포함하는 서열번호 149의 sgRNA, MS1/MS2에서의 변형을 포함하는 서열번호 150의 sgRNA, MS1/MS2/MS3에서의 변형을 포함하는 서열번호 151의 sgRNA, MS2/MS3/MS4에서의 변형을 포함하는 서열번호 152의 sgRNA 또는 MS2/MS3/MS4/MS5에서 변형을 포함하는 서열번호 153의 sgRNA일 수 있다.
또 다른 구체예로, 상기 엔지니어링된 sgRNA는 서열번호 154(MS1/MS3-1), 서열번호 155(MS1/MS3-2), 서열번호 156(MS1/MS3-3), 서열번호 157(MS1/MS4*-1), 서열번호 158(MS1/MS4*-2), 서열번호 159(MS1/MS4*-3), 서열번호 160(MS1/MS5-1), 서열번호 161(MS1/MS5-2), 서열번호 162(MS1/MS5-3), 서열번호 163(MS1/MS2/MS4*-2), 서열번호 164(MS1/MS3-3/MS4*-2), 서열번호 165(MS1/MS2/MS5-3), 서열번호 166(MS1/MS3-3/MS5-3), 서열번호 167(MS1/MS4*-2/MS5-3), 서열번호 168(MS1/MS2/MS3-3/MS4*-2), 서열번호 169(MS1/MS2/MS3-3/MS5-3), 서열번호 170(MS1/MS2/MS4*-2/MS5-3), 서열번호 171(MS1/MS3-3/MS4*-2/MS5-3) 또는 서열번호 172(MS1/MS2/MS3-3/MS4*-2/MS5-3)의 뉴클레오티드 서열을 포함하거나 이로 이루어진 sgRNA일 수 있다.
또한, 상기 sgRNA는 성숙형(mature form, MF로 약칭됨)의 sgRNA인 서열번호 173의 뉴클레오티드 서열을 포함하거나 이로 이루어진 sgRNA일 수 있다.
다른 구체예로, 상기 MF sgRNA에서 핵산 서열의 일부 변형을 포함하는 예시적인 sgRNA가 제공된다. 구체적으로, 상기 MF sgRNA는 서열번호 174(MS3-1), 서열번호 175(MS3-2), 서열번호 176(MS3-3), 서열번호 177(MS4-1), 서열번호 178(MS4-2), 서열번호 179(MS4-3), 서열번호 180(MS5-1), 서열번호 181(MS5-2), 서열번호 182(MS5-3), 서열번호 183(MS3-3/MS4-3), 서열번호 184(MS3-3/MS5-3), 서열번호 185(MS4-3/MS5-3) 또는 서열번호 186(MS3-3/MS4-3/MS5-3) 뉴클레오티드 서열을 포함하거나 이로 이루어진 sgRNA일 수 있다.
바람직한 구현예로, 엔지니어링된 sgRNA는 서열번호 151(Cas12f_ge3.0), 서열번호 152(Cas12f_ge4.0) 또는 서열번호 153(Cas12f_ge4.1)의 뉴클레오티드 서열로 이루어진 것일 수 있다.
(7) 추가 서열(additional sequence)
본 발명의 엔지니어링된 tracrRNA는 추가 서열(additional sequence)을 선택적으로 더 포함할 수 있다. 상기 추가 서열은 엔지니어링된 tracrRNA의 3'-말단에 위치할 수 있다. 또한, 상기 추가 서열은 엔지니어링된 tracrRNA의 5'-말단에 위치할 수도 있다. 예를 들어, 상기 추가 서열은 제1 스템 영역의 5'-말단에 위치할 수 있다.
상기 추가 서열은 1개 내지 40개의 뉴클레오티드일 수 있다. 일 구현예로서, 상기 추가 서열은 임의의 뉴클레오티드 서열 또는 임의로 배열된 뉴클레오티드 서열일 수 있다. 예를 들어, 상기 추가 서열은 5'-AUAAAGGUGA-3'(서열번호 187) 서열일 수 있다.
또한, 상기 추가 서열은 공지된 뉴클레오티드 서열일 수 있다. 예컨대, 상기 추가 서열은 망치머리형 리보자임(hammerhead ribozyme) 뉴클레오티드 서열일 수 있다. 여기서, 상기 망치머리형 리보자임의 뉴클레오티드 서열은 5'-CUGAUGAGUCCGUGAGGACGAAACGAGUAAGCUCGUC-3'(서열번호 188) 서열 또는 5'-CUGCUCGAAUGAGCAAAGCAGGAGUGCCUGAGUAGUC-3'(서열번호 189) 서열일 수 있다. 상기 열거한 서열들은 단순 예시로서, 추가 서열이 이에 제한되는 것은 아니다.
(8) 화학적 변형(Chemical modification)
일부 구현예에서, 상기 엔지니어링된 gRNA에 포함되는 엔지니어링된 tracrRNA 또는 엔지니어링된 crRNA는 필요에 따라 적어도 하나 이상의 뉴클레오티드가 화학적 변형을 가질 수 있다. 이때, 상기 화학적 변형은 뉴클레오티드의 염기 및/또는 당에서 발생할 수 있는 다양한 공유 결합의 변형일 수 있다.
예컨대, 상기 화학적 변형은 메틸화(methylation), 할로젠화(halogenation), 아세틸화(acetylation), 인산화(phosphorylation), PS(phosphorothioate) 연결, LNA(locked nucleic acid), 2'-O-methyl 3'phosphorothioate(MS) 또는 2'-O-methyl 3'thioPACE(MSP)일 수 있다. 상기 예시는 단순 예시로, 이에 제한되지 않는다.
본 발명의 엔지니어링된 gRNA 및 엔지니어링된 Cas12f1(CWCas12f1 또는 UnCas12f1) 복합체를 포함하는 초소형 유전자 편집 시스템을 사용하는 경우, 자연계에서 발견되는 가이드 RNA 또는 Cas12f1 단백질을 사용하는 경우에 비해 세포 내에서 표적 유전자 또는 표적 핵산의 인델(indel) 효율이 현저하게 향상되는 효과가 나타난다.
무엇보다 상기 엔지니어링된 gRNA는 고효율을 나타내는 길이의 최적화와 이에 따른 gRNA 합성 비용 절감, 바이러스 벡터에 삽입하는 경우에 추가 공간 또는 용량 확보, tracrRNA의 정상적인 발현, 작동 가능한 gRNA 발현의 증가, gRNA의 안정성(stability) 증가, gRNA와 핵산 편집 단백질 복합체의 안정성 증가, 고효율의 gRNA 및 핵산 편집 단백질 복합체 형성 유도, gRNA 및 핵산 편집 단백질 복합체를 포함하는 초소형 표적 핵산 편집 시스템에 의한 표적 핵산의 절단 효율 증가 및 상기 시스템에 의한 표적 핵산의 상동지정복구 효율 증가 효과를 수반할 수 있다. 이에 따라, Cas12f1 또는 엔지니어링된 Cas12f1 단백질에 대해 상술한 엔지니어링된 gRNA를 사용하면 전술한 종래 기술의 한계점을 극복하여 세포 내에서 높은 효율로 유전자를 절단 또는 편집할 수 있다.
또한, 엔지니어링된 gRNA는 자연계에서 발견되는 gRNA와 비교하여 짧은 길이를 가지므로 유전자 편집 기술 분야에서 그 응용 가능성이 높다. 상기 엔지니어링된 gRNA를 사용하면 gRNA 및 핵산 편집 단백질 복합체를 포함하는 초소형 핵산 편집 시스템의 크기가 매우 작고, 편집 효율이 우수하다는 장점은 다양한 유전자 편집 기술에 활용할 수 있게 된다.
3. 비-상동 말단 연결 활성을 감소시킬 수 있는 인자
본 명세서에 개시된 바와 같이, Cas12f1 시스템은 비-상동 말단 연결 활성을 감소시킬 수 있는 인자, 예를 들면, 비-상동 말단 연결에 관여하는 유전자의 발현을 억제하는 분자, 또는 상기 분자를 암호화하는 핵산을 더 포함할 수 있다. 임의의 특정 이론에 구속됨 없이, 예를 들면, NHEJ 활성 감소는 HDR-매개된 경로의 촉진을 일으킬 수 있다. 상기 억제제 분자는 NHEJ 활성의 감소 또는 HDR 활성의 증가 또는 감소를 위해 사용될 수 있다. 일 실시예에서, 본 발명자들은 디스트로핀 유전자에서 엑손 51을 포함하는 핵산 세그먼트를 결실시키기 위한 본 발명의 Cas12f1 시스템에 비-상동 말단 연결에 관여하는 유전자의 발현을 억제하는 분자를 추가한 결과, 엑손 51을 포함하는 세그먼트의 결실 효율이 유의미하게 증가함을 확인하였다.
일 구현예에서, 억제제 분자는 작은 분자 또는 억제성 핵산일 수 있다. 억제제 분자는, 예를 들어, 간섭 핵산(예컨대, 짧은 간섭 RNA(siRNA), 이중-가닥 RNA(dsRNA), 마이크로-RNA(miRNA), 유전자 전사체에 특이적인 짧은 헤어핀 RNA(shRNA) 또는 안티센스 올리고뉴클레오티드일 수 있으나, 이에 제한되지 않는다.
다른 구현예에서, 억제제 분자는, 예를 들어 인산화, 유비퀴틸화, 및/또는 수모화를 통해 번역 후 변형에 의한 NHEJ, HDR 또는 이의 업스트림 조절에 관여하는 효소를 타겟팅할 수 있다.
포유류 세포에서, “표준적” 또는 “고전적”NHEJ 경로(C-NHEJ)는 DSB를 수복하기 위해 DNA-PK, Ku70-80, 아르테미스, 리가제 IV(Lig4), XRCC4, CLF 및 Pol μ를 포함하는 몇 개의 인자를 요구한다(Kasparek & Humphrey Seminars in Cell & Dev. Biol. 22:886-897, 2011).
일 구현예에서, 본 발명의 Cas12f1 시스템은 세포에서 C-NHEJ 경로를 억제하기 위해, NHEJ 경로에 관여하는 인자의 발현 또는 활성을 감소 또는 제거하도록 변형될 수 있다. 예를 들어, Cas12f1 시스템은 MRE11, RAD50, NBS1, DNA-PK, CtIP, Ku70, Ku80, 아르테미스(DCLRE1C), 리가제 IV (Lig4), PNKP, XRCC4, XLF(XRCC4-like factor), ATM(ATM Serine/Threonine Kinase), CHK1/CHK2, CLF(CURLY LEAF) 및 Pol Mu(POLM)로 이루어진 군에서 선택된 하나 이상의 발현 또는 활성을 감소 또는 제거할 수 있는 인자를 더 포함할 수 있다.
포유류에서, C-NHEJ에 더해, 대체 NHEJ(alternative NHEJ, A-NHEJ) 경로가 존재하고, 이는 상이한 인자들을 요구하는 것으로 알려져 있다.
다른 구현예에서, 본 발명의 Cas12f1 시스템은 세포에서 A-NHEJ 경로를 억제하기 위해, NHEJ 경로에 관여하는 인자의 발현 또는 활성을 감소 또는 제거하도록 변형될 수 있다. 예를 들어, Cas12f1 시스템은 XRCC1, PARP(예를 들면, PARP1), Lig1 및 Lig3으로 이루어진 군에서 선택된 하나 이상의 발현 또는 활성을 감소 또는 제거할 수 있는 인자를 더 포함할 수 있다.
일 구현예에서, 비-상동 말단 연결에 관여하는 유전자는 ATM1, XRCC4, XLF, XRCC6, LIG4 및 DCLRE1C로 이루어진 군에서 선택된 하나 이상일 수 있다.
다른 구현예에서, 비-상동 말단 연결에 관여하는 유전자는 XRCC6 및 DCLRE1C로 이루어진 군에서 선택된 하나 이상일 수 있다.
일 구현예에서, 억제제 분자는 shRNA, siRNA, miRNA, 또는 안티센스 올리고뉴클레오티드일 수 있다.
다른 구현예에서, 억제제 분자는 shRNA일 수 있다.
또 다른 구현예에서, shRNA 분자는 XRCC6 및 DCLRE1C로 이루어진 군에서 선택된 하나 이상을 억제하는 분자일 수 있다. 구체적으로, shRNA 분자는 shXRCC6 및 shDCLRE1C로 이루어진 군으로부터 선택된 하나 이상일 수 있다.
또 다른 구현예에서, shRNA 분자는 서열번호 360 내지 389 및 403으로 이루어진 군으로부터 선택된 하나 이상일 수 있다.
또 다른 구현예에서, shRNA 분자는 서열번호 375 내지 379 내지 385 내지 389로 이루어진 군으로부터 선택된 하나 이상일 수 있다.
일 구현예에서, 본 발명에 개시된 시스템 또는 조성물은 비-상동 말단 연결에 관여하는 유전자의 발현을 억제하는 분자 또는 이를 암호화하는 핵산(핵산 구조물)은 둘 이상 포함할 수 있다.
일 구현예에서, 둘 이상의 억제 분자는 각각 동일하거나 상이한 유전자의 발현을 억제하는 것일 수 있다.
4. Cas12f1 시스템의 각 구성요소를 암호화하는 핵산 또는 폴리뉴클레오티드
본 발명에서 제공하는 유전자 편집 시스템의 각 구성 요소는 세포 내에서 발현되도록 하는 것이므로, 본 발명의 다른 태양에 따르면, 유전자 편집 시스템의 각 구성 요소를 암호화하는 핵산 또는 폴리뉴클레오티드가 제공된다. 상기 핵산 또는 폴리뉴클레오티드는 합성 핵산 서열일 수 있다.
구체적으로, 상기 핵산 또는 폴리뉴클레오티드는 발현하고자 하는 유전자 편집 시스템에 포함된 핵산 편집 단백질(엔지니어링된 엔도뉴클레아제), 가이드 RNA, 및/또는 비-상동 말단 연결에 관여하는 유전자의 발현을 억제하는 분자를 암호화하는 핵산 서열이 제공된다. 일 구현예에서, 상기 핵산 서열은 DNA 또는 RNA(예컨대, mRNA)일 수 있다. 유전자 편집 시스템의 각 구성 요소를 암호화하는 핵산 또는 폴리뉴클레오티드는 본 명세서에 그 대표적인 예가 개시되어 있거나, 그 핵산 서열은 각 구성요소의 구체적인 서열을 참고하여 통상의 기술자가 쉽게 결정할 수 있다.
일 구현예에서, 상기 핵산 또는 폴리뉴클레오티드는 Cas12f1 단백질을 암호화하는 인간 코돈 최적화된 핵산 서열을 포함할 수 있다. 용어 "코돈 최적화"는 고유 서열의 적어도 하나의 코돈을 대상 세포의 유전자에 더욱 빈번하게 또는 가장 빈번하게 사용되는 코돈으로 대체하면서, 고유 아미노산 서열을 유지함으로써 관심 대상 세포에서의 발현의 증진을 위해 핵산서열을 변형시키는 과정을 의미한다. 다양한 종은 특정 아미노산의 특정 코돈에 대한 특정 편향을 가지며, 코돈 편향(유기체 간의 코돈 사용의 차이)은 종종 mRNA의 번역의 효율과 상호관련 되며, 이는 번역되는 코돈의 특성 및 특정 tRNA 분자의 이용가능성에 의해 좌우되는 것으로 여겨진다. 세포에서 선택된 tRNA의 우세는 일반적으로 펩티드 합성에 가장 빈번하게 사용되는 코돈을 반영한 것이다. 따라서, 유전자는 코돈 최적화에 기초하여 주어진 유기체에서 최적의 유전자 발현을 위해 맞춤화될 수 있다.
예를 들어, 인간 코돈 최적화된 CWCas12f1 단백질 또는 그의 변이체를 암호화하는 핵산은 서열번호 6 내지 9로부터 선택된 서열을 포함하거나 이로 이루어질 수 있다. 또한, 인간 코돈 최적화된 UnCas12f1 단백질을 암호화하는 핵산은 서열번호 10의 서열을 포함하거나 이로 이루어질 수 있다.
다른 구현예에서, 핵산 또는 폴리뉴클레오티드는 자연계에 존재하는 DNA 또는 RNA일 수 있고, 핵산 또는 폴리뉴클레오티드의 일부 또는 전부에 화학적 변형이 일어난 변형된 핵산일 수 있다. 예를 들어, 핵산 또는 폴리뉴클레오티드는 하나 이상의 뉴클레오티드가 화학적으로 변형된 것일 수 있다. 이때, 상기 화학적 변형은 이 기술 분야의 통상의 기술자에게 알려진 핵산의 변형을 모두 포함할 수 있다.
IV. 디스트로핀 유전자의 편집을 위한 벡터 시스템
본 명세서에 개시된 바와 같이, 디스트로핀 유전자(예컨대, 인간 디스트로핀 유전자)의 편집 또는 변경을 위한 벡터 시스템이 제공된다. 개시된 벡터 시스템은 전술한 Cas12f1 시스템의 각 구성요소가 세포 내에서 발현되도록 하는 것이므로, 벡터 시스템에 포함되는 핵산 구조물(예컨대, 핵산 서열)은 Cas12f1 시스템의 각 구성요소를 암호화하는 핵산 서열을 하나 이상 포함한다. 또한, 개시된 벡터 시스템은 전술한 Cas12f1 시스템의 각 구성요소가 세포 내에서 발현되도록 하는 것이므로, 전술한 Cas12f1 시스템이 달성하는 효과 및 이점이 모두 그대로 적용된다.
개시된 벡터 시스템에서, 각 핵산 구조물은 세포 내에서 Cas12f1 시스템의 각 구성요소를 발현할 수 있다. 벡터 시스템은 세포 내에서 디스트로핀 유전자의 편집(예컨대, 엑손 51을 포함한 세그먼트의 결실)을 가능하게 한다.
본 명세서에 개시된 벡터 시스템에서, 각 핵산 구조물의 뉴클레오티드 서열 및 이에 의해 발현되는 구성요소에 관한 설명은 "III. 디스트로핀 유전자의 편집을 위한 CRISPR/Cas 시스템"항목을 참조한다.
본 명세서에 개시된 Cas12f1 시스템을 디스트로핀 유전자의 편집(예컨대, 엑손 51을 포함하는 세그먼트의 결실)에 사용하기 위해, 상술한 Cas21f1 시스템의 각 구성요소를 암호화하는 뉴클레오티드 서열을 포함하는 하나 이상의 벡터를 표적 세포 내로 직접 또는 적절한 전달 수단을 통해 도입하거나 바이러스 등의 매개체로 전달하고 표적 세포 내에서 상기 유전자 편집 시스템의 각 구성이 발현되도록 하는 방법이 이용될 수 있다. 바람직하게는, 디스트로핀 유전자의 편집(예컨대, 엑손 51을 포함하는 세그먼트의 결실)을 위해, 상술한 Cas21f1 시스템의 각 구성요소를 암호화하는 뉴클레오티드 서열이 작동가능하게 연결되어 하나의 벡터에 포함될 수 있다.
일 구현예에서, 전술한 Cas12f1 시스템에서 하나 이상의 구성요소를 암호화하는 핵산 서열은 둘 이상의 벡터에 존재할 수 있다.
다른 구현예에서, 전술한 Cas12f1 시스템에서 하나 이상의 구성요소를 암호화하는 핵산 서열은 하나의 벡터에 존재할 수 있다.
또한, 본 발명의 벡터 시스템은, 전술한 Cas12f1 시스템의 구성요소 외에, 관련 기술 분야의 통상의 기술자가 필요에 의해 발현시키고자 하는 부가 발현 요소를 암호화하는 핵산 서열을 포함할 수 있다. 예컨대, 부가 발현 요소는 태그일 수 있다. 구체적으로, 부가 발현 요소는, 글리포세이트(glyphosate), 글루포시네이트암모늄 (glufosinate ammonium) 또는 포스피노트리신(phosphinothricin)과 같은 제초제 저항성 유전자, 암피실린(ampicillin), 카나마이신(kanamycin), G418, 블레오마이신(Bleomycin), 하이그로마이신(hygromycin), 클로람페니콜(chloramphenicol)과 같은 항생제 내성 유전자일 수 있다.
다른 구현예에서, 상기 벡터 시스템을 직접 세포 내에서 발현시키기 위해서는 하나 이상의 조절 및/또는 제어 구성요소를 포함해야 한다. 구체적으로, 조절 및/또는 제어 구성요소는 프로모터, 인핸서, 인트론, 폴리아데닐화 신호, 코작 컨센서스(Kozak consensus) 서열, 내부 리보솜 유입 부위(IRES, Internal Ribosome Entry Site), 스플라이스 억셉터, 2A 서열 및/또는 복제원점(replication origin)을 포함할 수 있으나, 이에 제한되는 것은 아니다. 상기 복제원점은 f1 복제원점, SV40 복제원점, pMB1 복제원점, 아데노 복제원점, AAV 복제원점 및/또는 BBV 복제원점일 수 있으나, 이에 제한되는 것은 아니다.
다른 구현예에서, 상기 벡터 시스템에 포함되어 있는 본 발명의 핵산 편집 시스템을 암호화하는 핵산 서열을 세포 내에서 발현시키기 위해서, 각 구성요소를 암호화하는 서열에 프로모터 서열을 작동가능하게 연결시켜 세포 내에서 RNA 전사인자가 활성화될 수 있도록 해야 할 수 있다. 상기 프로모터 서열은 대응하는 RNA 전사인자 또는 발현 환경에 따라 달리 설계할 수 있으며, 본원의 핵산 편집 시스템(TaRGET system)의 구성요소를 세포 내에서 적절히 발현시킬 수 있는 것이라면 제한되지 않는다.
예컨대, 프로모터 서열은 RNA 중합효소 RNA Pol I, Pol II 또는 Pol III의 전사를 촉진시키는 프로모터일 수 있다. 구체적으로, 상기 프로모터는 U6 프로모터, EFS 프로모터, EF1-α 프로모터, H1 프로모터, 7SK 프로모터, CMV 프로모터, LTR 프로모터, Ad MLP 프로모터, HSV 프로모터, SV40 프로모터, CBA 프로모터 또는 RSV 프로모터 중 하나일 수 있다.
또 다른 구현예에서, 상기 벡터 서열이 프로모터 서열을 포함하는 경우에 RNA 전사인자에 의해 상기 프로모터와 작동 가능하게 연결된 서열의 전사가 유도되는데, 이러한 RNA 전사 인자의 전사 종결을 유도하는 종결 신호가 포함될 수 있다. 상기 종결 신호는 프로모터 서열의 종류에 따라 달라질 수 있다. 구체적으로, 상기 프로모터가 U6, 또는 H1 프로모터일 경우, 상기 프로모터는 티미딘(T) 연속 서열인 TTTTT(T5) 또는 TTTTTT(T6) 서열을 종결 신호로 인식한다.
본 발명에서 제공하는 엔지니어링된 가이드 RNA의 서열은 그 3'-말단에 U-rich tail 서열을 포함할 수 있다. 이에 따라, 상기 엔지니어링된 가이드 RNA를 암호화하는 서열은 그 3'-말단에 U-rich tail 서열에 대응하는 T-rich 서열을 포함하게 된다. 전술한 바와 같이, 일부 프로모터 서열은 티미딘(T) 연속 서열, 예를 들어 티미딘(T)이 5개 이상 연속으로 연결된 서열을 종결 신호로 인식하므로, 경우에 따라 상기 T-rich 서열을 종결 신호로 인식하게 될 수 있다. 다시 말해, 본 명세서에서 제공하는 벡터 서열이 엔지니어링된 가이드 RNA를 암호화하는 서열을 포함하는 경우, 상기 엔지니어링된 gRNA 서열에 포함된 U-rich tail 서열을 암호화하는 서열이 종결 신호로 사용될 수 있다.
일 구현예로, 상기 벡터 서열이 U6 또는 H1 프로모터 서열을 포함하고, 이와 작동가능하게 연결된 엔지니어링된 가이드 RNA를 암호화하는 서열을 포함할 때, 상기 가이드 RNA 서열에 포함된 U-rich tail 서열을 암호화하는 서열 부분이 종결 신호로 인식될 수 있다. 구체적으로, U-rich tail 서열은 유리딘(U)이 5개 이상 연속으로 연결된 서열을 포함할 수 있다.
일 구현예에서, 벡터는 바이러스 벡터일 수 있다. 구체적으로, 바이러스 벡터는 레트로바이러스 벡터, 렌티바이러스 벡터, 아데노바이러스 벡터, 아데노-연관 바이러스 벡터, 백시니아바이러스 벡터, 폭스바이러스 벡터, 단순포진 바이러스 벡터 및 파지미드 벡터로 구성된 군에서 선택되는 하나 이상일 수 있다. 바람직하게는, 바이러스 벡터는 아데노-연관 바이러스 벡터일 수 있다. 또한, 바이러스 벡터는 SIN 렌티바이러스 벡터, 레트로바이러스 벡터, 포우미(foamy) 바이러스 벡터, 아데노바이러스 벡터, 아데노-연관 바이러스(AAV) 벡터, 하이브리드 벡터 및/또는 플라스미드 트랜스포존(예를 들어, 슬리핑 뷰티 트랜스포존 시스템) 또는 인테그라제 기반 벡터 시스템을 포함하지만 이들로 제한되지 않는다.
다른 구현예에서는, 벡터는 비-바이러스 벡터일 수 있다. 구체적으로, 비-바이러스 벡터는 플라스미드, 네이키드 DNA, DNA 복합체, mRNA(전사물) 및 앰플리콘(amplicon)으로 구성된 군에서 선택되는 하나 이상일 수 있으나, 이에 제한되지 않는다. 예컨대, 플라스미드는 pcDNA 시리즈, pSC101, pGV1106, pACYC177, ColE1, pKT230, pME290, pBR322, pUC8/9, pUC6, pBD9, pHC79, pIJ61, pLAFR1, pHV14, pGEX 시리즈, pET 시리즈, 및 pUC19으로 이루어진 군에서 선택된 것일 수 있다.
용어 "네이키드 DNA"는 발현을 위해서 적절한 배향으로 적합한 발현 벡터(예를 들어, 플라스미드) 내에 클로닝된 단백질, 예컨대, 본 발명의 Cas12f1 또는 이의 변이체를 암호화하는 DNA(예를 들어, 히스톤이 없는 DNA)를 지칭한다.
용어 "앰플리콘"은 핵산에 대해 이용되는 경우, 핵산 복제 산물을 의미하며, 여기서 산물은 핵산의 적어도 일부 뉴클레오티드 서열과 동일하거나 상보적인 뉴클레오티드 서열을 갖는다. 앰플리콘은, 예를 들어 폴리머라제 확장, 폴리머라제 연쇄 반응(PCR), 롤링 서클 증폭(RCA), 다중 변위 증폭(MDA), 결찰 확장, 또는 결찰 연쇄 반응을 포함하는, 주형으로서 핵산 또는 이들의 앰플리콘을 이용하는 다양한 임의의 증폭 방법에 의해 생성될 수 있다. 앰플리콘은 특정 뉴클레오티드 서열의 단일 복사체(예를 들어, PCR 산물) 또는 뉴클레오티드 서열의 다중 사본(예로서 RCA의 콘카타머 산물)을 갖는 핵산 분자일 수 있다.
본 명세서에 개시된 벡터는 선형 또는 원형 벡터 형태로 설계될 수 있다. 벡터가 선형 벡터인 경우, 선형 벡터 서열이 종결 신호를 따로 포함하지 않더라도, 그 3'-말단에서 RNA 전사가 종결된다. 그러나 벡터가 원형 벡터인 경우, 상기 원형 벡터 서열이 종결 신호를 따로 포함하지 않는다면, RNA 전사가 종결되지 않게 된다. 그러므로 원형 벡터를 사용하는 경우에는 의도한 대상을 발현하기 위해서는 각 프로모터 서열과 관련된 전사 인자에 대응하는 종결 신호가 포함되어야 한다.
일 구현예에서, 바이러스 벡터 또는 비-바이러스 벡터는 리포좀, 폴리머 나노파티클(예컨대, 지질 나노파티클), 수중유 나노에멀젼 또는 이들의 조합과 같은 전달 시스템에 의해 전달될 수 있거나, 바이러스 형태로 전달될 수 있다.
V. 본 발명의 벡터 시스템에 의해 제조된 바이러스
본 명세서에 개시된 벡터 시스템에 의해 제조된 바이러스 입자가 제공된다.
일 구현예에서, 상기 바이러스 벡터는 예를 들어, 레트로바이러스 벡터, 렌티바이러스 벡터, 아데노바이러스 벡터, 아데노 연관 바이러스 벡터, 백시니아바이러스 벡터, 폭스바이러스 벡터, 단순포진 바이러스 벡터 및 파지미드 벡터로 구성된 군에서 선택되는 하나 이상의 바이러스 벡터일 수 있다. 바람직하게, 상기 바이러스 벡터는 아데노 연관 바이러스 벡터일 수 있다.
다른 구현예에서, 상기 바이러스는 레트로바이러스, 렌티바이러스, 아데노바이러스, 아데노-연관 바이러스, 백시니아바이러스, 폭스바이러스, 단순포진 바이러스 및 파지로 구성된 군에서 선택될 수 있다.
또 다른 구현예에서, 상기 파지는 λgt4λB, λ-charon, λΔz1, 및 M13으로 이루어진 군에서 선택된 것일 수 있다.
본 발명의 표적 핵산 편집 시스템을 바이러스, 특히 아데노 연관 바이러스(AAV)를 통해 표적 세포 또는 표적 부위로 효율적으로 전달하기 위해서는 편집 시스템의 구성요소를 모두 암호화하는 뉴클레오티드 서열의 크기를 AAV의 패키징 한계인 4.7 kb 내로 설계하는 것이 중요하다. 본 발명의 Cas12f1 시스템을 사용하는 경우에, 초소형 핵산 편집 단백질 및 2종의 엔지니어링된 gRNA를 포함하더라도 이들의 크기가 매우 작기 때문에 추가적인 조절 분자를 더 포함하더라도 AAV에 의해 충분히 패키징될 수 있다는 이점이 있다.
VI. 디스트로핀 유전자의 편집을 위한 조성물
본 명세서에 개시된 바와 같이, 상술한 시스템의 각 구성요소, 상술한 벡터 시스템의 하나 이상의 벡터 또는 상술한 바이러스를 포함하는 조성물이 제공된다. 개시된 조성물은 약학 조성물일 수 있다.
일 구현예에서, 약학 조성물은 디스트로핀 유전자의 편집(예컨대, 디스트로핀 유전자에서 엑손 51을 포함하는 세그먼트의 결실)을 위한 것일 수 있다. 또한, 약학 조성물은 듀센 근이영양증의 치료 또는 이의 발병 또는 진행 지연을 위한 것일 수 있다.
일 구현예에서, 약학 조성물은 사용되는 투여 방식에 따라 제형화될 수 있다. 예컨대, 약학 조성물이 주사용 약학 조성물인 경우, 등장성 제제가 사용되는 것이 바람직할 수 있다. 등장성을 위한 첨가제는 일반적으로 염화나트륨, 덱스트로스, 만니톨, 소르비톨 및 락토스를 포함할 수 있다. 일 구현예에서, 인산 완충 생리 식염수 등의 등장성 용액이 바람직하다. 안정제로는 젤라틴 및 알부민을 들 수 있다. 일 구현예에서, 혈관 수축제가 제제에 첨가된다.
다른 구현예에서, 조성물은 약학적으로 허용할 수 있는 부형제를 추가로 포함할 수 있다. 약학적으로 허용할 수 있는 부형제는 비히클, 보조제, 담체, 또는 희석제로서의 기능성 분자일 수 있다. 약학적으로 허용할 수 있는 부형제는 유전자 도입 촉진제(계면활성제가 포함될 수 있다), 예를 들면 면역 자극 복합체(ISCOMS), 프로인트 불완전 보조제, LPS 유사체(모노포스포릴 지질 A를 포함하고), 뮤라밀 펩타이드, 퀴논 유사체, 베시클, 스쿠알렌, 히알루론산, 지질, 리포좀, 칼슘 이온, 바이러스 단백질, 포리아니온, 폴리 양이온, 또는 나노 입자, 또는 다른 공지된 유전자 도입 촉진제일 수 있다.
다른 구현예에서, 조성물은 유전자 도입 촉진제를 포함할 수 있다. 유전자 도입 촉진제는 포리아니온, 폴리 양이온(폴리-L-글루탐산(LGS)을 포함하고), 또는 지질일 수 있다. 유전자 도입 촉진제는 폴리-L-글루탐산이며, 보다 바람직하게는, 폴리-L-글루탐산은 골격근 또는 심근의 게놈 편집을 위한 조성물 중에 6 mg/ml미만의 농도로 존재할 수 있다. 유전자 도입 촉진제는 또한 계면활성제, 예를 들면 면역 자극 복합체(ISCOMS), 프로인트 불완전 보조제, LPS 유사체(모노포스포릴 지질 A를 포함하고), 뮤라밀 펩타이드, 퀴논 유사체 및 베시클, 예를 들면 스쿠알렌을 포함할 수 있고, 또한 히알루론산도 사용할 수 있다.
일 구현예에서, 상술한 벡터 시스템에 포함되는 하나 이상의 벡터를 포함하는 조성물은 유전자 도입 촉진제, 예를 들면 지질, 리포좀(레시틴 리포좀, 또는 해당 기술 분야에서 공지된 다른 리포좀을 포함하고), DNA-리포좀 혼합물, 칼슘 이온, 바이러스 단백질, 포리아니온, 폴리 양이온, 또는 나노 입자, 또는 다른 공지된 유전자 도입 촉진제를 포함할 수 있다. 바람직하게는, 유전자 도입 촉진제는 포리아니온, 폴리 양이온(예컨대, 폴리-L-글루탐산(LGS)) 또는 지질이다.
(약학) 조성물의 실제 투여량은 다양한 인자, 예컨대 벡터 선택, 표적 세포, 유기체, 또는 조직, 치료될 대상체의 상태, 구하는 형질전환/변형의 정도, 투여 경로, 투여 방법, 구하는 형질전환/변형의 형태 등에 따라 크게 달라질 수 있다. 상기 투여는 망막하(subretinal), 피하(subcutaneously), 피내(intradermaliy), 안구내(intraocularly), 유리체내(intravitreally) 종양내(intratumorally), 절내(intranodally), 골수내(intramedullary), 근육내(intramuscularly), 정맥내(intravenous), 림프액내(intralymphatic) 및 복막내(intraperitoneally)에서 선택된 투여 경로로 수행될 수 있다. 상기 약학적 조성물은 담체(예를 들어, 물, 식염수, 에탄올, 글리세롤, 락토오스, 수크로오스, 인산칼슘, 젤라틴, 덱스트란, 한천, 펙틴, 땅콩유, 참기름 등), 희석제, 약학적으로 허용가능한 담체(예를 들어, 인산염 완충 식염수), 약학적으로 허용가능한 부형제, 및/또는 당업계에 알려진 기타 다른 화합물을 추가로 함유할 수 있다.
예를 들면, 질병 치료를 위한 전달은 AAV를 통해 이루어질 수 있다. 인간에 대한 AAV의 생체 내 전달을 위한 치료적으로 유효한 투여량은, 용액 ml 당 약 1Х1010 내지 약 1Х10100의 AAV를 함유하는 약 20 ml 내지 약 50 ml 범위의 식염수 용액일 수 있다. 투여량은 임의의 부작용에 대하여 치료 이익의 균형을 맞추도록 조정될 수 있다.
VII. 세포 내 디스트로핀 유전자를 편집하는 방법
본 명세서에 개시된 바와 같이, 본 발명의 Cas12f1 시스템, 벡터 시스템, 조성물 또는 바이러스를 이용하여 디스트로핀 유전자를 편집하는 방법이 제공된다. 구체적으로, 디스트로핀 유전자의 편집은 디스트로핀 유전자에서 엑손 51을 포함하는 세그먼트의 결실을 생성하는 것일 수 있다.
일 구현예에서, 엑손 51을 포함하는 세그먼트의 길이는 230bp 내지 9kbp일 수 있고, 예컨대, 230bp 내지 8kbp, 230bp 내지 8kbp, 230bp 내지 7kbp, 230bp 내지 6kbp, 230bp 내지 5kbp, 230bp 내지 4kbp, 230bp 내지 3kbp, 230bp 내지 2kbp, 230bp 내지 1kbp; 1kbp 내지 9kbp, 2kbp 내지 8kbp, 3kbp 내지 7kbp, 4kbp 내지 6kbp; 230bp 내지 1000bp, 300bp 내지 1000bp, 400bp 내지 900bp, 500bp 내지 800bp, 500bp 내지 700bp 또는 500bp 내지 600bp일 수 있으나, 이에 제한되지 않는다. 관련 기술분야의 통상의 기술자에 의해 적절히 결정되거나 이해될 수 있음은 분명하다.
개시된 방법은 본 발명의 Cas12f1 시스템, 벡터 시스템, 조성물 또는 바이러스를 세포와 접촉하는 단계를 포함한다.
일 구현예에서, 세포와 접촉시키는 단계는 본 발명의 Cas12f1 시스템, 벡터 시스템, 조성물 또는 바이러스의 세포 내로의 전달 또는 도입을 포함할 수 있다.
본 발명의 핵산 또는 핵산 구축물(예컨대, 벡터)은, 예컨대 생체내 전기천공, 리포좀, 나노파티클, 또는 재조합 벡터와 함께 또는 이들 없이, DNA 주사(injection) 또는 DNA 백신(vaccination)에 의해 전달 또는 도입될 수 있다.
본 발명의 벡터 시스템은 바이러스, 예컨대 레트로바이러스, 렌티바이러스, 아데노바이러스, 아데노-연관 바이러스, 백시니아바이러스, 폭스바이러스, 단순포진 바이러스 또는 파지에 의해 전달 또는 도입될 수 있다. 구체적으로, 패키징 바이러스에 포함되어 패키징 바이러스에 의해 생성된 바이러스 형태로 세포 내로 전달되는 것일 수 있다.
구체적으로, 상기 접촉, 전달 또는 도입은 전기천공법, 유전자총, 초음파천공법, 자기주입법(magnetofection), 나노파티클 방법 및/또는 일시적인 세포 압축 또는 스퀴징 방법을 이용한 것일 수 있다. 세포가 진핵 세포인 경우, 양이온성 리포좀법, 초산 리튬-DMSO, 지질-매개 형질감염(transfection), 인산칼슘 침전법(precipitation), 리포펙타민(lipofection), PEI(Polyethyleneimine)-매개 형질감염, DEAE-dextran 매개 형질감염, 및/또는 나노파티클-매개 핵산 전달[문헌(Panyam et al., Adv Drug Deliv Rev. 2012 Sep 13. pii: S0169-409X(12)00283-9.) 참조]이 이용될 수 있다.
다른 구현예에서, 상기 접촉, 전달 또는 도입은 in vitro, in vivo 또는 ex vivo에서 수행될 수 있다.
일 구현예에서, 세포는 식물세포, 비인간 동물 세포 또는 인간 세포일 수 있다. 또한, 세포는 진핵 세포 또는 원핵 세포일 수 있다. 또한, 세포는 근이영양증 환자의 세포일 수 있다.
또한, 본 명세서에 개시된 바와 같이, 본 발명의 Cas12f1 시스템, 벡터 시스템, 조성물 또는 바이러스를 대상에 투여하는 것을 포함하는 듀센 근이영양증을 치료하는 방법이 제공된다.
일 구현예에서, 대상은 듀센 근이영양증을 갖는 대상, 예컨대 인간을 포함한 포유동물일 수 있다.
다른 구현예에서, 본 발명의 Cas12f1 시스템, 벡터 시스템, 조성물 또는 바이러스는 대상의 근육, 예컨대, 골격근, 심근 또는 경골근에 투여될 수 있다.
이하, 본 발명을 하기 실시예에 의하여 더욱 상세하게 설명한다. 단, 기 실시예는 본 발명을 예시하기 위한 것일 뿐, 본 발명의 범위가 이들만으로 한정되는 것은 아니다.
실시예 1. 디스트로핀 엑손 51의 결실을 위한 핵산 편집 시스템의 제작
실시예 1.1. 엔지니어링된 gRNA의 제작
DMD(Duchenne muscular dystrophy) 환자 중 가장 많은 수를 차지하고 있는 유형은 디스트로핀 엑손 51에 종결코돈이 생기는 유형이다. 도 1을 참조하면, 엑손 49 및 엑손 50가 소실되면 엑손 51에 단백질 합성의 중단 신호인 종결코돈이 생겨나 디스트로핀 단백질을 생성하지 못하게 된다. 이때, 엑손 51을 제거하면 종결코돈 생성이 방지되어 정상보다는 길이가 짧지만 정상기능을 하는 디스트로핀 단백질이 생성될 수 있다.
디스트로핀 엑손 51의 결실을 위한 CRISPR/Cas12f1 시스템과 TaRGET 시스템을 제작하였다. 상기 시스템에서, 엑손 51의 결실을 위한 표적 서열과 혼성화하는 가이드 서열을 갖는 gRNA는 도 2에 나타낸 바와 같은 5개의 변형 부위(MS1, MS2, MS3, MS4 및 MS5) 중 하나 이상을 갖는 엔지니어링된 gRNA를 제작하였고, 구체적인 서열은 아래 표 4에 나타내었다.
gRNA Sequence(5´ to 3´) 서열번호
Canonical sgRNA CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUUUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGacgaaUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 13
MS1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 149
MS1/MS2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 150
MS1/MS2/MS3(ge3.0) ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 151
MS2/MS3/MS4(ge4.0) ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 152
MS2/MS3/MS4/MS5(ge4.1) ACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 153
MS1/MS3-1 GAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 154
MS1/MS3-2 UGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 155
MS1/MS3-3 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 156
MS1/MS4*-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCgaaaGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 157
MS1/MS4*-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 158
MS1/MS4*-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUgaaaAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 159
MS1/MS5-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUuuagAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 160
MS1/MS5-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCuuagGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 161
MS1/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 162
MS1/MS2/MS4*-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU 163
MS1/MS3-3/MS4*-2 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 164
MS1/MS2/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU 165
MS1/MS3-3/MS5-3 ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 166
MS1/MS4*-2/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 167
MS1/MS2/MS3-3/MS4*-2 ACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU 168
MS1/MS2/MS3-3/MS5-3 ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU 169
MS1/MS2/MS4*-2/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU 170
MS1/MS3-3/MS4*-2/MS5-3 ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 171
MS1/MS2/MS3-3/MS4*-2/MS5-3 ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU 172
또한, 상기 Canonical gRNA에서 변형부위 MS1이 제거된 성숙된 형태의 gRNA(mature form gRNA)를 제작하였으며, 구체적인 서열을 아래 표 5에 나타내었다.
gRNA Sequence(5´ to 3´) 서열번호
Mature form gRNA CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 173
MS3-1 GAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 174
MS3-2 UGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 175
MS3-3 ACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 176
MS4-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUgaaaAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 177
MS4-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCgaaaGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 178
MS4-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 179
MS5-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUuuagAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 180
MS5-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUuuagAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 181
MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 182
MS3-3/MS4-3 ACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 183
MS3-3/MS5-3 ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 184
MS4-3/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 185
MS3-3/MS4-3/MS5-3 ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 186
상기 표 4 및 5에서 NNNNNNNNNNNNNNNNNNNN으로 표시된 서열은 표적 서열과 혼성화할 수 있는 임의의 가이드 서열(스페이서 서열)을 의미한다. 상기 가이드 서열은 목적하는 표적 유전자 및/또는 표적 서열에 따라 통상의 기술자에 의해 적절하게 설계될 수 있으며, 특정 길이의 특정 서열로 한정되는 것은 아니다.
실시예 1.2. Cas12f1 및 TaRGET 시스템
실시예 1.1의 가이드 RNA와 함께, UnCas12f1 및 CWCas21f1을 사용하였다. 상기 단백질의 인간 코돈-최적화된 핵산 서열(서열번호 10 및 6)을 주형으로 PCR 증폭을 진행하고 Gibson assembly 방법에 의해 진핵 세포 시스템(eukaryotic cell system)에서 발현이 가능한 프로모터와 poly(A) 신호 서열(signal sequence)을 가지는 벡터에 원하는 클로닝(cloning) 서열에 맞게 클로닝을 진행하였다. 클로닝 후, 얻어진 재조합 플라스미드 벡터의 서열은 생거시퀀싱(Sanger sequencing) 방법을 통하여 최종 확인하였다. 이렇게 제조한 핵산 구조물을 pMAL-c2 플라스미드 벡터에 클로닝하여 BL21(DE3) E. coli 세포에 형질전환하였다. 상기 형질전환된 E. coli 콜로니를 광학 밀도가 0.7에 도달할 때까지 37℃의 LB broth에서 성장시켰다. 상기 형질전환된 E. coli 세포들은 0.1 mM isopropylthio-β-D-galactoside 존재 하에 18℃에서 하룻밤 배양되었다. 그 후, 상기 배양된 세포들을 3,500 g에서 30분간 원심분리하여 수집하고, 수집된 세포들을 20 mM Tris-HCl(pH 7.6), 500 mM NaCl, 5 mM β-mercaptoethanol, 5% glycerol에 재현탁하였다. 상기 세포를 용해 버퍼에서 용해한 후, 음파처리(sonication)에 의해 파쇄하였다. 파쇄된 세포가 포함된 샘플을 15,000 g로 30분 간 원심분리하여 수득한 상측액을 0.45 ㎛ 주사기 필터(Millipore)를 통해 여과하고, 여과된 상층액을 FPLC 정제 시스템(KTA Purifier, GE Healthcare)을 사용하여, Ni2+-친화성 컬럼에 로드하였다. 결합 분획(bound fractions)은 80-400 mM imidazole, 20 mM Tris-HCl(pH 7.5) 구배에서 용출되었다.
상기 용출된 단백질을 TEV 프로테아제로 16시간 동안 처리하여 절단하였다. 절단된 단백질을 0.15-1.6 M NaCl 선형 농도구배의 Heparin 컬럼에서 정제하였다. Heparin 컬럼에서 정제된 재조합 Cas12f1 변이체 단백질은 20 mM Tris pH 7.6, 150 mM NaCl, 5 mM β-mercaptoethanol, 5% glycerol의 용액에서 투석되었다. 상기 투석된 단백질을 MBP 컬럼을 통과시켜 정제한 후, 0.5-1.2 M NaCl의 선형 구배로 monoS 컬럼(GE Healthcare) 또는 EnrichS에서 재정제하였다.
상기 재정제된 단백질들을 모아, 20 mM Tris pH 7.6, 150 mM NaCl, 5 mM β-mercaptoethanol, 5% glycerol의 용액으로 투석하여 본 발명에서 사용되는 초소형 유전자 편집 단백질(소형 엔도뉴클레아제)을 정제하였다. 상기 생산된 초소형 유전자 편집 단백질의 농도는 소 혈청 알부민(BSA)을 표준으로 사용하는 Bradford 정량법을 이용하여 정량하여 coomassie blue-stained SDS-PAGE 겔에서 전기영동적(electrophoretically)으로 측정되었다.
비교예 1. SaCas9 시스템
U6 프로모터와 SaCas9 스캐폴드가 존재하는 플라스미드에 각각의 가이드 서열을 클로닝한 후 각각의 U6 프로모터부터 가이드 RNA의 서열을 SaCas9을 코딩하고 있는 플라스미드에 삽입하여 하나의 벡터(One vector) 모듈을 제작하였다. SaCas9 시스템의 F68 및 R84의 프로토스페이서 서열 및 PAM 서열 정보는 다음과 같다. F68 프로토스페이서 서열은 5'-GTGTATTGCTTGTACTACTCA-3'(서열번호 401)이며, PAM 서열은 5'-CTGAAT-3'이다. 또한, R84의 프로토스페이서 서열은 5'-GTGTTATTACTTGCTACTGCA-3'(서열번호 402)이며, PAM 서열은 5'-GAGAGT-3'이다.
실시예 1.3. 표적 서열의 선정
엑손 51의 2000bp 업스트림 영역 및 2000bp 다운스트림 영역을 엑손 51의 제거를 위한 표적 영역으로 설정하였고, 각각을 Front 영역(F 영역) 및 Rear 영역(R 영역)으로 지칭한다. 상기 영역에서 프로토스페이서 서열을 선정하였고, 선정된 프로토스페이서 서열을 하기 표 6에 정리하였다. F 영역에 존재하는 프로토스페이서 영역은 F를 붙여 넘버링하였고, R 영역에 존재하는 프로토스페이서 영역은 R을 붙여 넘버링하였다. 각 프로토스페이서 서열에 인접하는 PAM 서열도 함께 표시하였다.
연번 이름 PAM
(TTTR)
프로토스페이서 서열
(5´->3´)
서열번호
1 F102 TTTA AGGTTGTCTCCTCATTAGAG 190
2 F104 TTTA ATATTCTTAGAATCGTTCAC 191
3 F108 TTTG CCACCAATCTTCTGGTTATA 192
4 F109 TTTA TAGACAACAGACTCAAGAGC 193
5 F110 TTTG ACTGACTACTCCCCAAGTAT 194
6 F111 TTTG GGGCCTTATCTCCAGTTTCT 195
7 F114 TTTA TAAACGCCTGGCTAGTAAGA 196
8 F115 TTTA TAAAAACAGTAATACCTAAC 197
9 F118 TTTG CCTTGCTTACTGCTTATTGC 198
10 F119 TTTG TTCAGTACTAGCAATAAGCA 199
11 F121 TTTA TTTAATGACTTTGAAACAGT 200
12 F123 TTTG AAACAGTATTTCATGTCTAA 201
13 F124 TTTA GACATGAAATACTGTTTCAA 202
14 F128 TTTA AGAAAATATTGTATCTTGGT 203
15 F130 TTTA TTTCAGATTGTTAGTAAACT 204
16 F131 TTTA TACTGGGAGCAGTTTATCAT 205
17 F133 TTTG ATTTCCCTAGGGTCCAGCTT 206
18 F134 TTTG AAGCTGGACCCTAGGGAAAT 207
19 F135 TTTA AAATTCCCTTGAATAGGAAG 208
20 F136 TTTA AATCAGAAAGAAGATCTTAT 209
21 F138 TTTA TTCAAGAAAAAACAAAGGCA 210
22 F140 TTTA CCACTTCCACAATGTATATG 211
23 F141 TTTA ACTTAAGTTACTTGTCCAGG 212
24 F142 TTTG CTCATTCTCATGCCTGGACA 213
25 F143 TTTA AAAAATTGTTAAATGTATAT 214
26 F147 TTTA ATTGAAGAGTAACAATTTGA 215
27 F148 TTTG ACTTATTGTTATTGAAATTG 216
28 F43 TTTA GTATCAATTCACACCAGCAA 217
29 R52 TTTG CTCTCCTAGACCATTTCCCA 218
30 R55 TTTA CTGAGAGAGAAACAGTTGCC 219
31 R56 TTTG TATCCTTGATTATACTTAGG 220
32 R57 TTTG CATTAATTTATATCCTTGAT 221
33 R58 TTTA TTATTTGCATTAATTTATAT 222
34 R59 TTTA ACTGAGACAACTATTCTTGT 223
35 R60 TTTA GTAAATTTAACTGAGACAAC 224
36 R61 TTTA AAATACCAGGTTGTTTAGTA 225
37 R62 TTTA TACCAAATAAGTCACTCAAC 226
38 R63 TTTG AATGTAAATAGCTCAGTTGA 227
39 R64 TTTG GCACTACGCAGCCCAACATA 228
40 R65 TTTG ATTCTGCAATATGTTGGGCT 229
41 R66 TTTA CCTTCTCCAATGATAAGGAT 230
42 R68 TTTA AGTTATAGCTCTCTTTCAAT 231
43 R69 TTTA AAATTACCCTAGATCTTAAA 232
44 R70 TTTG TGCAATGCCATGTTCAAATG 233
45 R71 TTTA AACATGGCATTGCATAAATG 234
46 R73 TTTG CCAAATGGATTACACTGAGG 235
47 R74 TTTA GTAAAATTATGACATCAACT 236
48 R75 TTTG CCTAGCTAGATCAAATATAC 237
49 R76 TTTA ATCTAGCTAGGTAAACCATA 238
50 R77 TTTA TATTTGTGAATGATTAAGAA 239
51 R79 TTTA ATGTATAACAATTCCAACAT 240
52 R82 TTTG GAAAGGCTTGAAAGCTGTTA 241
53 R84 TTTA TATTTCTTTAGAAAGGCTTG 242
54 R85 TTTG ATACCTAAATACCTTCAGCA 243
55 R86 TTTG AAAAAACAAGAAGTGAGGCA 244
56 R89 TTTA TAAAATAAACTTCACCAATT 245
57 R90 TTTA CAAAGAAATTCCCCTTACTC 246
58 R91 TTTA TTCCTATGGAATTGGTGAAG 247
59 R92 TTTA AAGGCCTTGAGCTTGAATAC 248
60 R93 TTTG AATGCAGGTTGTTTACTATC 249
61 R94 TTTG CAAATGATGATTGTGGTCAA 250
62 R95 TTTA CAAATGGCACTGAATTCAGG 251
63 R97 TTTA TATACATCCATATCCATAAC 252
64 R98 TTTA CATATATTTATATACATCCA 253
65 R99 TTTA CTTCTGCTTTAAAAAAAGTA 254
또한, 엑손 51의 업스트림 2000bp 내지 3000bp 영역 및 엑손 51의 다운스트림 2000bp 내지 3000bp 영역을 엑손 51의 제거를 위한 추가 표적 영역으로 설정하였다. 구체적인 서열을 아래 표 7에 나타내었다. 마찬가지로, F 영역에 존재하는 프로토스페이서 영역은 F를 붙여 넘버링하였고, R 영역에 존재하는 프로토스페이서 영역은 R을 붙여 넘버링하였다. 각 프로토스페이서 서열에 인접하는 PAM 서열도 함께 표시하였다.
연번 이름 PAM
(TTTR)
프로토스페이서 서열
(5´->3´)
서열번호
1 F1 TTTA TCATCCCAATGGCATATTTA 255
2 F2 TTTA GTCATCATGAACCATTCTCT 256
3 F3 TTTG AGTCTCAGGCCCTGGCCTTG 257
4 F4 TTTG GAAAAAGACAGAAAGGAAGA 258
5 F5 TTTA TTGAAATTTAGTGTGACATG 259
6 F6 TTTA GTGTGACATGATCATTTCCA 260
7 F7 TTTG ACCCTCAAATAAGAGCAGAG 261
8 F8 TTTG AGGGTCAAATTTTCAATAAG 262
9 F9 TTTA AAAAGTGACTTATTGAAAAT 263
10 F10 TTTA AAAAAGCATTTTCTGACACT 264
11 F11 TTTA GGAGGATTTCAAGCTTATGG 265
12 F12 TTTA GGAACACTCCATCCACATTT 266
13 F13 TTTG CCAGTCAGCCTGGTGTTCTG 267
14 F14 TTTA ATTTAGCTCTCTTTTCATCC 268
15 F15 TTTA GCTCTCTTTTCATCCTCACA 269
16 F16 TTTA GCTCCTTTCCTGGAATCCCT 270
17 F17 TTTG CTTCCATGATTTCTTCTCCT 271
18 F18 TTTG TGTCACAGTCCAGGAGAAGA 272
19 F19 TTTA CATTACATTTAATTCTTTCT 273
20 F20 TTTA ATTCTTTCTAGAAAGAGCCT 274
21 F21 TTTG TTTCTCAAAGCTATCTGACT 275
22 F22 TTTA TTGCCTCACTGTTACTGCCT 276
23 F23 TTTG TGTCACGAAACAATGATTGA 277
24 F24 TTTA ATTGTCAGAGAGAATAAAAA 278
25 F25 TTTA TTCTCTCTGACAATTAAAAC 279
26 F26 TTTG ATCAATGCAGACAGAAAAAA 280
27 R1 TTTG ACATCTATGAGCCTCAGTTA 281
28 R2 TTTG AATCCTTGTTCTGCTACTTA 282
29 R3 TTTG ATTCCTAAGCTTGTGTTATT 283
30 R4 TTTA GTGATTTGTATGTAGATGTA 284
31 R5 TTTG TATGTAGATGTAGATGTAGT 285
32 R6 TTTA TGGTTGCTATGTACTGATAC 286
33 R7 TTTA CAATACCATATTGAGTTATA 287
34 R8 TTTG GTAAATAAAAGTCCTGGGAG 288
35 R9 TTTA TTTACCAAAGGAAACAATAT 289
36 R10 TTTA CCAAAGGAAACAATATTTTA 290
37 R11 TTTA AACATTATAAAATATTGTTT 291
38 R12 TTTA TAATGTTTAAAGCCCAGGTT 292
39 R13 TTTA AAGCCCAGGTTTTGAAGTTA 293
40 R14 TTTG AACCCAGACAATGTAACTTC 294
41 R15 TTTG AAGTTACATTGTCTGGGTTC 295
42 R16 TTTA TAGCTAGATAAACTTGGGCT 296
43 R17 TTTA TCTAGCTATAAAATGGGGAT 297
44 R18 TTTG TCATCAGGATTAAGTTGGTT 298
45 R19 TTTG TTCAATACTAGCAGTAAGCA 299
46 R20 TTTG CCTTGCTTACTGCTTACTGC 300
47 R21 TTTG GTTCCACCACGAACTCTAGA 301
48 R22 TTTG CATAATACAAATGCCATCAT 302
49 R23 TTTG TATTATGCAAACTGTATATC 303
50 R24 TTTG TGAGTCCAGCATTTAGGGAA 304
51 R25 TTTA GGGAAGCCATTGATGTGCTC 305
52 R26 TTTA GAGAACTCTGGAGACTACTG 306
53 R27 TTTA TTTAGAGAACTCTGGAGACT 307
54 R28 TTTG ATGCCCCCTCACAGAGATCG 308
55 R29 TTTA AAGACGATCTCTGTGAGGGG 309
56 R30 TTTG ACCTATATTTAAAGACGATC 310
57 R31 TTTA AATATAGGTCAAAAACTAAT 311
선정된 프로토스페이서 서열을 기초로 가이드 RNA를 설계하고 인델 효율을 분석하였다. 구체적으로, 상기 선정된 프로토스페이서 서열 및 표 4의 엔지니어링된 gRNA(서열번호 153의 ge4.1)에 기초하여 카세트(U6 Promoter - Direct Repeat - gRNA; PCR 엠플리콘)를 제작하였고, Cas12f1 벡터와 함께 FuGENE HD를 이용하여 미리 준비된 HEK293 세포에 트랜스펙션하였다. Cas12f1 벡터 제작에 Un1Cas12f1를 암호화하는 인간 코돈-최적화된 핵산을 사용하였다. 트랜스펙션된 세포를 5일간 배양하여 gDNA(게놈 DNA)를 추출하고, 이후에 디자인된 프라이머를 이용하여 PCR 증폭을 실시하였다. 이로부터 인델 효율을 측정하여 아래 표 8 및 9에 표시하였다. 미처리군을 대조군으로 하였다.
연번 이름 %인델 연번 이름 %인델
1 F102 15.3 34 R59 0.7
2 F104 14.3 35 R60 0.85
3 F108 1.1 36 R61 0.85
4 F109 11 37 R62 1
5 F110 0 38 R63 0.95
6 F111 0.8 39 R64 17.69
7 F114 0 40 R65 0.11
8 F115 0 41 R66 8.06
9 F118 0 42 R68 3.51
10 F119 5.6 43 R69 2.67
11 F121 0.9 44 R70 7.35
12 F123 0.8 45 R71 0.85
13 F124 4.2 46 R73 3.52
14 F128 0.6 47 R74 2.39
15 F130 0.5 48 R75 3.63
16 F131 5.7 49 R76 8.1
17 F133 4.9 50 R77 0.43
18 F134 13 51 R79 0.84
19 F135 0 52 R82 2.67
20 F136 0 53 R84 2.39
21 F138 6.7 54 R85 0.17
22 F140 0 55 R86 0.19
23 F141 1.1 56 R89 0.15
24 F142 20.16 57 R90 0.05
25 F143 0 58 R91 1.59
26 F147 1.9 59 R92 0.67
27 F148 0 60 R93 5.78
28 F43 0 61 R94 6.14
29 R52 22.61 62 R95 1.21
30 R55 2.15 63 R97 1.25
31 R56 4.2 64 R98 5.97
32 R57 6.05 65 R99 2.94
33 R58 6.25
연번 이름 %인델 연번 이름 %인델
1 F1 6.48 30 R4 14.69
2 F2 11.69 31 R5 15.55
3 F3 0.94 32 R6 15.08
4 F4 0 33 R7 4.75
5 F5 0.69 34 R8 6.33
6 F6 0 35 R9 10.24
7 F7 0.66 36 R10 8.62
8 F8 0.05 37 R11 0
9 F9 0.26 38 R12 0
10 F10 0 39 R13 0
11 F11 6.77 40 R14 2.33
12 F12 0 41 R15 3.57
13 F13 0.84 42 R16 21.51
14 F14 0 43 R17 19.72
15 F15 0.69 44 R18 1.12
16 F16 6.91 45 R19 0.1
17 F17 4.92 46 R20 3.55
18 F18 6.21 47 R21 12.44
19 F19 0 48 R22 6.68
20 F20 0.19 49 R23 27.42
21 F21 0.41 50 R24 0.21
22 F22 0.73 51 R25 0.36
23 F23 2.3 52 R26 9.86
24 F24 0.02 53 R27 11.74
25 F25 0.11 54 R28 9.08
26 F26 0.56 55 R29 0.06
27 R1 0.91 56 R30 0
28 R2 0.17 57 R31 4.34
29 R3 9.34
인델 효율이 높은 것으로 확인된 표적 서열을 선정하여 이후 실험을 수행하였다.
실시예 1.4. CRISPR/Cas12f1 시스템을 이용한 인델 효율 분석
상기 선정된 표적 서열에 대해 엔지니어링된 gRNA를 포함하는 CRISPR/Cas12f1 시스템을 이용하여 인델 효율을 분석하였다. 표 4 및 5의 ge4.0, ge4.1을 이용하여 제작된 카세트(2ug)를 AC16 세포와 HEK293 세포에 트랜스펙션시키고, 독립적으로 세 번의 실험을 반복하여 인델 효율을 분석하였다. 그의 평균 인델 효율(%)를 표 10에 나타내였다.
HEK293 AC16
이름 gRNA 버전 평균 인델(%) 평균 인델(%)
F142 ge4.0 53.98 48.08
ge4.1 49.98 19.18
wt 0 0
R52 ge4.0 46.06 36.47
ge4.1 34.83 11.73
wt 0 0
F102 ge4.1 40.13 14.46
wt 0 0
F104 ge4.1 27.99 2.62
wt 0 0
F109 ge4.1 24.87 7.09
wt 0 0
F131 ge4.1 24.26 3.98
wt 0 0
F134 ge4.1 19.54 2.11
wt 0 0
R57 ge4.1 2.21 0.53
wt 0 0
R64 ge4.1 36.41 5.33
wt 0 0
R66 ge4.1 4.38 0.36
wt 0 0
R76 ge4.1 41.89 14.33
wt 0 0
F2 ge4.0 35.17 9.34
ge4.1 36.88 10.18
wt 0 0
R4 ge4.0 0.00 0.00
ge4.1 43.65 12.25
wt 0 0
R5 ge4.0 37.67 8.73
ge4.1 55.68 22.08
wt 0 0
R6 ge4.0 21.60 5.96
ge4.1 57.97 13.18
wt 0 0
R16 ge4.0 44.34 18.85
ge4.1 58.83 29.76
wt 0 0
R17 ge4.0 4.04 0.35
ge4.1 31.66 7.40
wt 0 0
R23 ge4.0 4.43 0.46
ge4.1 232.98 6.85
wt 0 0
실시예 1.5. 스페이서 최적화 및 인델 효율 분석
인델 효율을 높이기 위해 스페이서 최적화를 진행하였다. F142와 R52의 프로토스페이서 서열에 인접한 PAM을 기준으로 아래 표 11에 19 내지 25mer의 가이드 서열을 갖도록 벡터를 제작하였고 가이드 서열 길이에 따른 상대적인 인델 효율을 분석하였다. 여기서 상대적이라 함은 트랜스펙션 시간, 벡터의 형태, 농도에 따라 인델 효율은 달라지므로 동일한 조건에서의 상대적인 값을 의미한다. 가이드 RNA의 안정화 및 인델 효율의 증가를 위해 U-rich tail(UR) 및 U6를 각 가이드 RNA의 3' 말단에 위치시켜 인델 효율을 분석하였다. 그 결과를 표 11에 나타내었다.
F142
이름 스페이서 서열 서열번호 인델(%)
Control - - 0.04
19-bp_UR CUCAUUCUCAUGCCUGGACUUUUAUUUU 336 20.38
20-bp_UR CUCAUUCUCAUGCCUGGACAUUUUAUUUU 337 30.01
21-bp_UR CUCAUUCUCAUGCCUGGACAAUUUUAUUUU 338 23.94
22-23-bp_UR CUCAUUCUCAUGCCUGGACAAGUUUUAUUUU 339 15.56
24_UR CUCAUUCUCAUGCCUGGACAAGUAUUUUAUUUU 340 13.61
25-bp_UR CUCAUUCUCAUGCCUGGACAAGUAAUUUUAUUUU 341 9.59
19-bp_U6 CUCAUUCUCAUGCCUGGACUUUU 342 13.41
20-bp_U6 CUCAUUCUCAUGCCUGGACAUUUU 343 14.36
21-bp_U6 CUCAUUCUCAUGCCUGGACAAUUUU 344 19.84
22-23-bp_U6 CUCAUUCUCAUGCCUGGACAAGUUUU 345 16.42
24-bp_U6 CUCAUUCUCAUGCCUGGACAAGUAUUUU 346 12.00
25-bp_U6 CUCAUUCUCAUGCCUGGACAAGUAAUUUU 347 9.87
R52
이름 스페이서 서열 서열번호 인델(%)
Control - - 0.21
19-bp_UR CUCUCCUAGACCAUUUCCCUUUUAUUUU 348 16.18
20-bp_UR CUCUCCUAGACCAUUUCCCAUUUUAUUUU 349 15.72
21-bp_UR CUCUCCUAGACCAUUUCCCACUUUUAUUUU 350 17.98
22-bp_UR CUCUCCUAGACCAUUUCCCACCUUUUAUUUU 351 13.49
23_UR CUCUCCUAGACCAUUUCCCACCAUUUUAUUUU 352 3.54
24-25-bp_UR CUCUCCUAGACCAUUUCCCACCAGUUUUAUUUU 353 9.92
19-bp_U6 CUCUCCUAGACCAUUUCCCUUUU 354 18.90
20-bp_U6 CUCUCCUAGACCAUUUCCCAUUUU 355 20.51
21-bp_U6 CUCUCCUAGACCAUUUCCCACUUUU 356 23.38
22bp_U6 CUCUCCUAGACCAUUUCCCACCUUUU 357 13.44
23-bp_U6 CUCUCCUAGACCAUUUCCCACCAUUUU 358 6.03
24-25-bp_U6 CUCUCCUAGACCAUUUCCCACCAGUUUU 359 16.15
그 결과, F142 스페이서 서열에서는 20-bp_UR의 인델 효율이 가장 높았으며, R52 스페이서 서열에서는 21-bp_U6의 인델 효율이 가장 높았다. 다음, 최적화된 스페이서(F142의 20-bp_UR 및 R52의 21-bp_U6) 및 엔지니어링된 gRNA(ge4.0 및 ge4.1) 또는 canonical gRNA를 이용하여 실시예 1.4과 동일한 방법으로 HEK293 및 AC16 세포에서 인델 효율을 분석하고, 그 결과를 표 12에 나타내었다.
HEK293 AC16
이름 gRNA 버전 평균 인델(%) 평균 인델(%)
F142
(3 days)
ge4.0 40.6 21.1
ge4.1 41.5 7.0
wt 0 0
F142
(5 days)
ge4.0 45.6 22.6
ge4.1 44.5 9.0
wt 0 0
R52
(3 days)
ge4.0 38.9 23.0
ge4.1 34.4 5.5
wt 0 0
R52
(5 days)
ge4.0 43.3 26.3
ge4.1 38.0 6.3
wt 0 0
실시예 2. 디스트로핀 엑손 51의 결실(skipping)
CRISPR/Cas12f1(Cas14) 시스템에 의해 엑손 51의 스키핑이 일어났는지 확인하였다. 한 쌍의 gRNA(g.e4.0-F142 및 g.e4.0-R52, 각각 3 ug씩) 및 Cas12f1 벡터(5 ug)을 AC16 세포 및 HEK293 세포에 실시예 1.4과 동일한 방법으로 트랜스펙션하였다. 트랜스펙션 4일 후에 세포를 수득하여 gDNA를 추출하고 PCR로 단편을 확인하였다. 다음, 엑손 51을 타겟하는 프라이머(LD1 및 LD5)를 이용하여 결실(deletion)되지 않고 남아 있는 엑손 51의 상대적인 양을 qPCR로 정량화하였다. 비교 대조군으로는 SaCas9을 사용하였다. 그 결과를 아래 표 13(AC16 세포) 및 표 14(HEK293 세포)에 나타내었다.
LD1 Primer
Cas12f1 SaCas9 No treatment
Exon 51 Deletion 효율(%) 30.9 41.5 0
LD5 Primer
Cas12f1 SaCas9 No treatment
Exon 51 Deletion 효율(%) 17.3 43.4 0
LD1 Primer
Cas12f1 SaCas9 No treatment
Exon 51 Deletion 효율(%) 37.8 52.4 0
LD5 Primer
Cas12f1 SaCas9 No treatment
Exon 51 Deletion 효율(%) 49 53.9 0
상기 표 13 및 표 14를 참조하면, 본 발명의 일 실시예에 따른 시스템에 의해 엑손 51의 결실이 일어났고, 그 비율이 SaCas9에 비해 Cas12f1에서 약간 낮음을 확인할 수 있었다. 추가로, 상기 CRISPR/Cas12f1 시스템을 세포에 트랜스펙션시킨 후 시간의 경과에 따른 결실 효율을 확인하기 위하여, SaCas9 시스템 및 Cas12f1 시스템을 AC16 세포에 트랜스펙션시킨 후 3일째, 5일째 및 7일째에 결실 효율을 확인하였다. 프라이머는 LD1 프라이머를 사용하였고, 그 결과는 표 15에 나타내었다.
Day 3 Day 5 Day 7
Cas12f1 SaCas9 No treatment Cas12f1 SaCas9 No treatment Cas12f1 SaCas9 No treatment
Exon 51 Deletion 효율(%) 28.0 55.0 0 37.1 55.6 0 56.2 60.8 0
CRISPR/Cas12f1(Cas14) 시스템은 트랜스펙션 후 시간이 지날수록 엑손 51의 Large deletion의 효율이 증가하였다(3일차: 28%, 5일차: 37.1% 및 7일차: 56.2%). 또한, 결실 효율의 증가폭은 SaCas9보다 Cas12f1에서 더 컸다. Cas12f1은 표적 서열의 바깥을 자르는 특징을 갖기 때문에, 표적 서열의 바깥 절단 시 표적서열의 변화는 일어나지 않아 추가 절단이 가능해지고, 이로 인하여 시간의 경과에 따라 결실의 효율이 크게 증가할 수 있는 것으로 생각된다. 즉, 표적 서열을 자르는 다른 CRISPR 시스템 대비하여 Cas12f1 시스템에서는 더 높은 효율로 엑손 51의 결실을 일으킬 수 있음을 의미한다. 이는 표적서열 바깥을 자르는 것으로 또한 알려져 있는 TnpB(CWCas12f1)의 경우도 마찬가지이다(결과 미제시). CRISPR/Cas12f1 시스템 또는 TnpB(CWCas12f1)를 이용하는 TaRGET 시스템의 전달을 위해 사용될 수 있는 AAV는 그 효과가 1달 정도 지속됨을 고려할 때, 결실 효율의 증가 폭은 더 증가할 수 있을 것으로 예상된다.
실시예 3. 표적 서열의 조합에 따른 디스트로핀 엑손 51의 결실
실시예 1.3(표 8 및 표 9 참조)에서 인델 효율이 높았던 스페이서 서열들을 조합하여 상술한 실시예 1.4과 동일한 방법으로 엑손 51의 결실을 확인하였다. 본 실험 결과는 도 4(HEK293 세포) 및 도 5(AC16 세포)에 나타내었다.
도 4 및 도 5를 참조하면, 스페이서 서열의 조합 중에서 F142/R52, F142/R6, F2/R52의 조합에서 엑손 51의 결실 효율이 높았다.
실시예 4. 프로모터 종류에 따른 디스트로핀 엑손 51의 결실
프로모터 종류에 따른 CRISPR/Cas12f1 시스템 또는 TaRGET 시스템의 엑손 51의 결실 효율을 분석하기 위하여, 하나의 벡터에 두 개의 gRNA(업스트림 타겟 ge4.0-F142 및 다운스트림 타겟 ge4.0-R52) 및 두 종류의 시스템(Cas12f1 및 TaRGET 시스템)을 포함시키고(one vector system), 프로모터 종류에 따른 엑손 51의 Large deletion을 확인하였다.
프로모터는 EFS(212 nt), EF-1-α(1182 nt), CMV(584 nt), 및 CBA(793 nt)를 이용하였고, HEK293 세포와 LD1 프라이머를 이용하여 상기 실시예 1.4과 동일한 방법으로 엑손 51의 결실 효율을 측정하였다(도 6).
도 6을 참조하면, Cas12f1의 경우 CBA 프로모터를 이용한 엑손 51의 결실이 가장 높게 나타났으며(도 6의 왼쪽에서 4번째 순서), 가장 길이가 짧아 하나의 벡터 시스템에 적합한 EFS 프로모터의 경우도 TaRGET 시스템에서는 엑손 51의 높은 결실 효율을 보였다(도 6의 오른쪽에서 4번째 순서).
본 발명의 일 실시예에 따른 Cas12f1 시스템 또는 TaRGET 시스템은 TnpB(CWCas12f1) 또는 Cas12f1(UnCas12f1)의 크기 및 프로모터의 길이를 고려했을 때 하나의 벡터(예를 들면, AAV) 시스템에 포함되어도 다른 요소가 더 추가될 수 있을 만큼 충분히 작은 크기를 가짐이 확인되었다. 이에 따라, 이하에서는 엑손 51의 결실 효율을 증가시킬 있는 추가 요소로 고려되는 shRNA를 시스템에 도입하여 엑손 51의 결실을 확인하였다.
실시예 5. 비상동말단연결(non-homologous end joining, NHEJ) 복구 경로 관련 유전자의 발현 억제를 통한 엑손 51의 결실
실시예 5.1. shRNA의 선별
유전자 편집 효율을 증가시키기 위하여 NHEJ 복구 경로에 관여하는 것으로 알려진 유전자들의 발현을 shRNA(짧은 헤어핀 RNA)을 이용하여 억제하였다.
구체적으로, NHEJ에 관여하는 것으로 알려진 유전자 6종(ATM1, XRCC4, XLF-1, XRCC6, LIG4, 및 DCLRE1C)을 각각 타겟으로 하는 shRNA(서열번호 360 내지 389 및 403) 및 대조군인 Scrambled shRNA(서열번호 400)를 제작하였다. 상기 shRNA 분자는 각각 5종을 제작하였으며(ATM1 유전자에 대한 shRNA 분자는 6종 제작), 구체적인 서열 정보는 하기의 표 16에 나타내었다.
유전자 연번 shRNA 서열번호
ATM1
1 GGAGCCAGAUAGUUUGUAUUUCAAGAGAAUACAAACUAUCUGGCUCC 360
2 GCAAGCAGCUGAAACAAAUUUCAAGAGAAUUUGUUUCAGCUGCUUGC 361
3 GGAGCUGAUUGUAGCAACAUUCAAGAGAUGUUGCUACAAUCAGCUCC 362
4 GCACAGAAGUGCCUCCAAUUUCAAGAGAAUUGGAGGCACUUCUGUGC 363
5 GGACAUAGUUUCUGGGAGAUUCAAGAGAUCUCCCAGAAACUAUGUCC 364
6 GAACUUCAGUGGACCUUCAUUCAAGAGAUGAAGGUCCACUGAAGUUC 403
XRCC4 1 GGAUGACACUGGCACAUUAUUCAAGAGAUAAUGUGCCAGUGUCAUCC 365
2 GGAGAGUACUGAUGAGGAAUUCAAGAGAUUCCUCAUCAGUACUCUCC 366
3 GAAUCCACCUUGUUUCUGAUUCAAGAGAUCAGAAACAAGGUGGAUUC 367
4 GUACAAGUAUCUUGGGAGAUUCAAGAGAUCUCCCAAGAUACUUGUAC 368
5 GAAUGCAGCUCAAGAACGAUUCAAGAGAUCGUUCUUGAGCUGCAUUC 369
XLF-1 1 GCAUGAGUCUGGCAUUACAUUCAAGAGAUGUAAUGCCAGACUCAUGC 370
2 GAAAGCCCUUUGUCAUGAAUUCAAGAGAUUCAUGACAAAGGGCUUUC 371
3 GAACAGUGCUUCCCUGCAAUUCAAGAGAUUGCAGGGAAGCACUGUUC 372
4 GGAAAGACCUAGAGAUCCAUUCAAGAGAUGGAUCUCUAGGUCUUUCC 373
5 GUAUGGCAGUCACCACACAUUCAAGAGAUGUGUGGUGACUGCCAUAC 374
XRCC6 1 GCAGCAUUGUGCAGAUACAUUCAAGAGAUGUAUCUGCACAAUGCUGC 375
2 GCAGGAACAUCCCUCCUUAUUCAAGAGAUAAGGAGGGAUGUUCCUGC 376
3 GCAGUGCUCUGCUCAUCAAUUCAAGAGAUUGAUGAGCAGAGCACUGC 377
4 GGAUCAUGCUGUUCACCAAUUCAAGAGAUUGGUGAACAGCAUGAUCC 378
5 GGAUCUGACUACUCACUCAUUCAAGAGAUGAGUGAGUAGUCAGAUCC 379
LIG4 1 GCACAAAGAUGGAGAUGUAUUCAAGAGAUACAUCUCCAUCUUUGUGC 380
2 GCAGACACGUACUGUGUAAUUCAAGAGAUUACACAGUACGUGUCUGC 381
3 GGAGCAGACUCCUGAAGAAUUCAAGAGAUUCUUCAGGAGUCUGCUCC 382
4 GGAGGAUUCUGAUCUGCAAUUCAAGAGAUUGCAGAUCAGAAUCCUCC 383
5 GCAUGAUCCUUCUGUAGGAUUCAAGAGAUCCUACAGAAGGAUCAUGC 384
DCLRE1C 1 GGAGACUCCUACCCAGAUAUUCAAGAGAUAUCUGGGUAGGAGUCUCC 385
2 GGACAAAGCUGACUACAGAUUCAAGAGAUCUGUAGUCAGCUUUGUCC 386
3 GCAGAGCUCUCGUUUCACAUUCAAGAGAUGUGAAACGAGAGCUCUGC 387
4 GGACUCUGAUGGAGAAUCAUUCAAGAGAUGAUUCUCCAUCAGAGUCC 388
5 GCAGAAUUCUUCCCAGUCAUUCAAGAGAUGACUGGGAAGAAUUCUGC 389
scrambled 3 CAGAGCUAACUCAGAUAGUACU 400
미리 준비된 AC16 세포에 shRNA를 5 ug의 용량으로 트랜스펙션시켰다. 3일 동안 배양 후, 세포를 수득하여 상기 유전자의 mRNA 발현 수준을 qRT-PCR을 이용하여 측정하였고, 그 결과를 도 7(ATM1 및 XRCC4), 도 8(XLF-1 및 XRCC6) 및 도 9(LIG4 및 DCLRE1C)에 나타내었다.
실시예 5.2. shRNA를 포함한 시스템에 의한 엑손 51의 결실
하나의 shRNA를 이용한 엑손 51의 결실 효율 측정
상기 qRT-PCR 결과를 통해 각 유전자별로 mRNA 발현 억제 효율이 가장 좋았던 shRNA를 선정하여, 상기 shRNA, 두 개의 가이드 RNA 및 TnpB(CWCas12f1) 또는 Cas12f1를 인코딩하는 핵산을 하나의 벡터에 삽입하고, 실시예 1.4과 동일한 방법으로 HEK293 세포와 AC16 세포에 트랜스펙션시켜 엑손 51의 상대적인 결실 효율을 측정하였다. 여기서 상대적이라 함은 트랜스펙션 시간, 벡터의 형태, 농도에 따라 인델 효율은 달라지므로 동일한 조건에서의 상대적인 값을 의미한다. 그 결과를 도 10(HEK293 세포) 및 도 11(AC16 세포)에 나타내었다.
도 10 및 11을 참조하면, TnpB 또는 Cas12f1 시스템 모두에서 NHEJ 관련 유전자의 발현 억제를 통해 엑손 51이 효과적으로 결실되었음을 확인하였고, 특히, shXRCC6 및 shDCLRE1C를 이용한 경우에 엑손 51의 결실 수준이 더 높았다.
둘 이상의 shRNA를 이용한 엑손 51의 결실 효율 측정
동일하거나 서로 다른 둘 이상의 shRNA를 사용하여 엑손 51의 결실을 유도하였다. 두 개의 가이드 RNA, TnpB 또는 Cas12f1 및 shDCLRE1C(shDCLRE1C2, shDCLRE1C3 및 shDCLRE1C5에서 선택된 하나, 둘 또는 셋)을 인코딩하는 핵산 서열을 하나의 벡터에 삽입하여 실시예 1.4과 동일한 방법으로 HEK293 세포와 AC16 세포에 트랜스펙션시켜 엑손 51의 상대적인 결실 효율을 측정하였다. 여기서, 사용된 shDCLRE1C은 5개의 shRNA 중에서 mRNA 발현 억제 효율이 가장 좋았던 3종을 선택하였다(도 8 오른쪽 그림). 그 결과를 도 12(HEK293 세포) 및 도 13(AC16 세포)에 나타내었다.
도 12 및 도 13을 참조하면, 모든 실험군에서 엑손 51의 결실이 잘 일어났으며, 둘 이상의 shDCLRE1C를 도입한 경우 엑손 51의 결실 효율이 특히 우수하였다.
실시예 5.3. shRNA를 포함한 시스템으로 트랜스펙션 후 시간 경과에 따른 엑손 51의 결실
하나 이상의 shRNA를 사용하여 트랜스펙션 기간별(3일후, 5일후, 및 7일 후) 엑손 51의 결실 효율을 확인하기 위하여, 하나의 벡터에 두 개의 가이드 RNA, TnpB 또는 Cas12f1 및 하나 이상의 shRNA을 인코딩하는 핵산을 삽입한 뒤 트랜스펙션 시작일을 기점으로 날짜별로 엑손 51의 결실 효율을 확인하였다. 실험은 모두 AC16세포를 이용하였으며, 대조군으로 Empty vector 및 SaCas9 시스템을 준비하여 비교하였으며, 그 결과를 도 14에 나타내었다.
도 14를 참조하면, 모든 실험군에서 트랜스펙션 시작일로부터 시간이 경과할수록 엑손 51의 결실 효율이 증가하였고, 특히 트랜스펙션 7일 후 두 개의 shDCLRE1C 조합을 이용한 Cas12f1 및 TaRGET 시스템에서 엑손 51의 결실 효율이 SaCas9의 결실 효율과 유사하였다.
실시예 5.4. shRNA를 포함한 시스템에서 프로모터의 종류에 따른 엑손 51의 결실 확인
두 개의 가이드 RNA, TnpB 또는 Cas12f1 및 하나 이상의 shRNA을 인코딩하는 핵산을 포함하는 벡터의 프로모터의 종류에 따른 엑손 51의 결실 효율을 qRT-PCR을 통해 확인하였다.
도 15를 참조하면, 프로모터(EFS 및 EF1α)의 종류와 관계없이 두 개의 shDCLRE1C를 이용하는 경우, 엑손 51의 결실 효율이 TaRGET, Cas12f1 시스템 모두에서 높았으며 그 효율은 SaCas9 시스템과 유사하였다.
결론
이처럼, 스페이서 서열이 최적화된 두 개의 가이드 RNA 및 표적 서열을 인식하는 TnpB 또는 Cas12f1를 포함하는 본원 발명의 CRISPR/Cas12f1 및 TaRGET 시스템은 디스트로핀 유전자의 엑손 51의 업스트립 및 다운스트림 내의 표적 영역을 절단하여 상기 엑손의 결실로 인한 정상 디스트로핀 단백질의 생성을 유도할 수 있다(엑손 스키핑(exon skipping) 전략). 또한, NHEJ 경로에 관여하는 단백질의 발현을 억제하는 shRNA를 함께 사용함으로써 디스트로핀 유전자의 엑손 51의 결실 효율을 더 높일 수 있다.
실험 방법
1. gDNA 추출
Genomic DNA Prep Kit(Maxwell® RSC Tissue DNA Kit, Promega)를 사용하여 gDNA 추출을 실시하였다. 24 웰에서 트랜스펙션된 세포의 배지를 제거하고, 웰에 트립신을 200 ㎕ 넣어 바닥에서 뗀 뒤 1.5 ml 튜브로 옮겼다. 튜브는 300 X g로 5분간 원심분리를 실시하고, 상층액을 제거하였다. PBS 200 ㎕를 세포가 들어있는 튜브에 넣고 풀어준 다음, 각 세포를 Maxwell 카트리지 웰 #1으로 옮겼다. 카트리지 웰 #8에는 플런저를 삽입하였다. 빈 용출 튜브를 데크 트레이의 각 위치에 놓았다. 용출 튜브에는 100 ㎕의 용출(elution) 완충액을 넣었다. 준비된 데크 트레이를 Maxwell 기계에 장착하여 셋업시킨 후 기계를 작동시켰다. 추출 과정이 끝나고 용출된 gDNA를 정량하고, 4℃에서 보관하였다.
2. PCR 및 겔 정제
해당 실험은 GEL & PCR Purification System(GP104-200, Biofact) 제품을 이용하여 수행하였다. PCR 산물(Product) 부피의 3배에 해당하는 UB 완충액을 PCR 산물에 넣어준 뒤 잘 섞어주고, PCR 산물 부피의 2배에 해당하는 이소프로판올을 넣고 잘 섞어주었다. 겔의 경우, 해당 밴드의 겔을 잘라서 무게를 잰 후, 겔 무게의 3배에 해당하는 UB 완충액을 넣고 65℃에서 10분간 반응시켜 겔을 녹인 뒤, 이소프로판올을 겔 부피의 1배에 해당하는 양으로 넣어 잘 섞어주었다. 컬럼을 준비하고 HelpB 완충액 200 ㎕를 컬럼에 넣고, 13,000 rpm, 30초간 원심분리를 한 뒤 걸러진 용액을 버렸다. 반응액을 컬럼에 넣고, 7,000 rpm, 1분간 원심분리를 한 뒤 걸러진 용액을 버렸다. 80% EtOH 750 ㎕를 넣고, 13,000 rpm, 30초간 원심분리를 실시한 뒤 걸러진 용액을 버렸다. 2회 반복 후, 13,000 rpm, 3분간 원심분리를 실시하였다. 원심분리가 끝난 컬럼을 1.5 ml 튜브에 넣고, 30 ㎕의 EB 완충액을 중앙에 떨어뜨린 뒤 1분간 상온에서 반응시켰다. 13,000 rpm, 1분간 원심분리를 실시하였다. 1.5 ml 튜브에 모인 DNA를 정량한 후 4℃에서 보관하였다.
3. 플라스미드 벡터 수집
트랜스펙션 또는 Sanger 시퀀싱을 위하여 DH5a에 형질전환(Transformation)된 벡터들을 사용하였다. Plasmid Mini prep kit(PM105-200, Biofact)를 사용하여 제조사의 매뉴얼대로 진행하였다. 벡터로 형질전환된 DH5a의 배양액을 1.5 ml 튜브에 넣은 다음, 13,000 rpm에서 5분간 원심분리를 실시하였다. 원심분리 후 상층액을 버리고, 펠릿(pellet)을 볼텍싱하여 충분히 풀어주었다. B1 완충액 350 ㎕를 넣은 다음, 튜브를 흔들어 충분히 반응시켰다. 다음, RNase A가 포함된 A1 완충액 350 ㎕을 넣고, 파란색이 사라질 때까지 튜브를 인버팅(inverting)하였다. 그리고 13,000 rpm에서 5분간 원심분리를 실시하였다. 컬럼을 준비하고 HelpB 완충액을 200 ㎕를 넣은 다음, 13,000 rpm에서 30초간 원심분리 후 걸러진 용액을 제거하였다. 원심분리한 상층액 750 ㎕를 준비한 컬럼에 넣고 7,000 rpm에서 1분간 원심분리하고, 걸러진 용액을 버렸다. 80% EtOH 750 ㎕를 넣고 13,000 rpm에서 30초간 원심분리를 실시한 뒤 걸러진 용액을 버리는 과정을 2회 반복하였다. 2회 반복 후, 13,000 rpm에서 3분간 원심분리를 실시하였다. 원심분리가 끝난 컬럼을 1.5 ml 튜브에 넣고, 30 ㎕의 EB 완충액을 중앙에 떨어뜨린 뒤 1분간 상온에서 반응시켰다. 13,000 rpm에서 1분간 원심분리를 실시하고, 1.5 ml 튜브에 모인 플라스미드 벡터들을 정량한 후 -20℃에서 보관하였다.
4. 카세트 DNA 제작
Cas12f1의 스페이서 서열들의 인델 효율을 확인하기 위하여, U6 프로모터, 스캐폴드 서열, 가이드 서열 및 U-rich tail 서열(T4AT6)이 포함된 카세트(Cassette)를 PCR로 증폭하여 사용하였다. 해당 과정은 다음과 같은 방법으로 진행하였다.
1) 스페이서 선정 및 올리고 주문
스페이서는 PAM인 TTTA 또는 TTTG 뒤쪽의 20mer 서열을 선택하였고 T로 끝나는 스페이서들은 제외하였다. 그리고 오프-타겟(Off-target)을 줄이기 위하여 미스매치 2개 미만으로 분류하여 스페이서를 CRISPR RGEN TOOL에서 디자인하였다. 또한, DR(Direct Repeat)과 U-rich 서열이 포함된 역상보체(Reverse complement) 서열을 R 프라이머로 사용하기 위하여 주문하였다.
2) PCR
PCR은 하기의 표 17의 조성 및 조건으로 실시하였다.
시약(Reagent) 조성 PCR 조건
2x pfu PCR Master mix 200 ㎕ 사전-변성(Pre-denaturation) 95℃, 5분
hU6 F 프라이머(10 P) 2 ㎕ 변성(Denaturation, D) 95℃, 30초
표적 올리고(10 P) 2 ㎕ 어닐링(Annealing) 58℃, 40초
주형 1 ㎕(200 ng) 신장(Extension, E) 72℃, 40초
DW 195 ㎕ D-E 사이클 35 cycles
합계 400 ㎕ 최종 신장(Final extension) 72℃, 3분
100 ㎕씩 PCR 튜브 4개에 준비 보관 4℃, ∞
혼합물 400 ㎕를 PCR 튜브 4개에 100 ul씩 넣고, 각각의 샘플을 증폭하였다.
3) 겔 분석
2% 아가로스 젤을 제작하여 사이즈 마커(size marker) 및 PCR 산물을 넣고, 전기영동하여 증폭 사이즈를 확인하였다.
4) 정제 및 정량
사이즈를 확인한 후, 실험방법 2에 따라 겔을 정제하여 PCR 산물을 정량하였다.
5. 세포 배양
실험에 사용된 HEK293 세포 및 AC16 세포는 DMEM(10% FBS, 1% Penicillin-Streptomycin 포함) 배지를 이용하여 배양하였다. 동결된 세포를 37℃에서 빠르게 녹인 뒤, 미리 데워진 세포 배지 5 ml에 넣어 잘 풀어주었다. 그리고 1,500 rpm, 3분간 원심분리를 하였다. 원심분리 후 동결액이 남아있는 상층액을 빠르게 제거하고, 세포 배지로 펠릿을 잘 풀어준 뒤, 10 ml의 배지가 포함된 90 mm 디쉬 2개에 나눠서 배양하였다. 다음날, 새로운 배지로 교체해주고, 세포의 컨플루언시(confluency)가 80%가 되면 계대배양을 하였다. 이때, HEK293의 계대배양 비율은 1/5로 진행하고, AC16의 계대배양 비율은 1/4로 진행하였다.
6. 트랜스펙션
트랜스펙션 하루 전날에 100 mm 디쉬에서 배양 중인 HEK293 및 AC16 세포(80% 컨플루언시)에 트립신을 처리하여 디쉬 바닥에서 분리하였다. 분리된 세포는 미리 가온된 각각의 배지 50 ml에 넣어 파이펫으로 천천히 풀어주었다. 샘플과 반복 수에 맞춰서 24 웰 플레이트를 준비하고, 웰 1개당 세포 현탁 배지를 500 ㎕씩 넣어주었다(1/100 희석). 이후 트랜스펙션 전까지 37℃의 CO2 배양기에서 밤새도록 배양시켰다.
세포의 컨플루언시가 약 70% 내지 80%가 되면 웰당 500 ㎕의 배지 중에서 200 ㎕를 제거하고, 배양기에 넣어두었다. 1.5 ml 튜브를 샘플 수에 맞게 준비하고 각각의 튜브에 Opti-MEM을 200 ㎕씩 넣었다. Opti-MEM이 포함된 튜브에 Cas12f1 1.5 ㎍ 및 gRNA 0.5 ㎍을 넣고, 5초간 볼텍싱 하였다(핵산 혼합물). 이후 핵산 혼합물과 FuGENE HD를 1:3의 비율로 넣고, 상온에서 20분간 반응시켰다(즉, 핵산 혼합물 2 ㎍일 때 FuGENE HD는 6 ㎕을 투여). 배양기에서 24 웰 플레이트를 꺼내고, 핵산 혼합물과 FuGENE HD가 포함된 용액 200 ㎕를 웰 벽면을 통해 흘려 넣었다. S모양으로 플레이트를 충분히 흔들어준 뒤 37℃ CO2 배양기에서 72시간 동안 배양하였다. 72시간이 지나면 세포를 수거하여 실험 방법 1에 따라 gDNA를 추출하였다.
7. 벡터 제작
Cas12f1 ge4.0 듀얼 gRNA 벡터(한국특허출원 제10-2021-0051552호 및 한국특허출원 제10-2022-0043768호 참조)를 이용하여 다음과 같이 진행하였다. 클로닝할 벡터의 제한 효소(Restriction enzyme) 말단을 확인하고, 듀얼 gRNA 올리고를 디자인하여 주문하였다. 주문 생산된 올리고를 100 pmol이 되게 희석하였다. 희석된 정방향 및 역방향 프라이머를 각 4.5 ㎕씩 따서 PCR 튜브에 넣은 뒤 10X 어닐링 완충액을 1 ㎕ 추가하여 총 10 ㎕가 되도록 부피를 맞추었다. 이후, 95℃에서 5분의 조건 및 95℃로부터 4℃까지 -1℃/분의 조건으로 어닐링을 실시하였다. Cas12f1 ge4.0 듀얼 gRNA 벡터를 준비하고, 표 18의 분해(digestion)를 위한 조성으로 500 rpm, 37℃ 조건에서 2시간 동안 분해하였다.
시약 부피
NEB 10X rCutsmart 완충액 5 ㎕
벡터 10 ㎍
BbsⅠ-HF 1 ㎕
DW 50 ㎕가 되도록 하는 양
합계 50 ㎕
분해가 끝난 뒤 전기영동 및 겔 용리(Gel elution)를 통해 분해된 벡터를 획득하였다. 분해된 벡터 및 어닐링된 올리고를 사용하여 라이게이션을 진행하였다(표 19 참조).
시약 부피
2X 신속 라이게이션 완충액 2.5 ㎕
T4 DNA 라이게이즈 (Promega) 0.5 ㎕
어닐링된 올리고 1.5 ㎍
BbsⅠ 절단된 벡터 0.5 ㎕
합계 5 ㎕
라이게이션이 끝난 뒤, DH5a 형질전환을 실시하였다. LB 플레이트에서의 배양이 끝난 뒤, 콜로니 PCR을 통하여 양성 콜로니를 확인하고 3 ml LB 배지에 배양하고, Miniprep 후 시퀀싱을 통하여 최종적으로 서열이 일치하는 지 확인하였다.
8. DH5α 형질전환
앞서 생산한 벡터를 E.coli에 형질전환하여 벡터를 생산하였다. DH5a Competent 세포를 꺼내 얼음에서 녹였다. 라이게이션된 벡터를 DH5a 양의 최대 1/10 만큼 넣어준 다음 얼음에서 30분간 반응시켰다. 42℃에서 30초간 열 충격을 준 뒤, Ice에서 2분간 식혀주었다. LB 배지 또는 S.O.C 배지 100 ㎕를 사용하여 37℃에서 1시간 동안 인큐베이션하였다. 상온의 온도로 가온된 LB 플레이트(벡터에 따라 암피실린 또는 카나마이신이 포함됨)에 도말하고, 37℃에서 14 내지 16시간 동안 인큐베이션하였다.
9. NGS 샘플 PCR
인델 효율을 확인하기 위한 총 3번의 PCR을 걸쳐 진행되었다. 1차 PCR은 450 내지 500 bp 정도의 밴드가 나타나게 되며, 이 PCR 산물을 주형으로 사용하여 2차 PCR을 진행하였다. 2차 PCR 후 2% 아가로스 겔에 로딩하여 밴드가 250 bp 이내에 제대로 나타났는지 확인하였다. 이때, 밴드가 제대로 나타나지 않았으면 원인을 파악한 후 1차 PCR부터 재진행하고, 제대로 된 밴드를 확인했으면, 2차 PCR 산물을 주형으로 사용하여 3차 PCR을 진행하였다. 이때 2차 PCR 산물의 농도가 높으면 DW를 추가하여 농도를 조절해주었다. 3차 PCR을 마치고 나면 2% 아가로스 겔에 로딩하여 밴드를 확인하였다. 완성된 PCR 산물을 각 동일한 양 (각 5 ㎕씩)으로 모아준 후 PCR 정제를 진행하였다.
PCR 정제는 GEL & PCR Purification System(GP104-200, Biofact) 제품을 이용하여 수행하였다. PCR 산물 부피의 5배에 해당하는 UB 완충액을 PCR 산물에 넣어준 뒤 잘 섞어주었다. 컬럼을 준비하고 HelpB 완충액 200 ㎕를 컬럼에 넣은 뒤 13,000 rpm, 30초 간 원심분리를 한 뒤 걸러진 용액을 버렸다. 반응액을 컬럼에 넣고 7,000 rpm, 1분간 원심분리를 한 뒤 걸러진 용액을 버렸다. 80% EtOH 750 ㎕를 넣고 13,000 rpm, 30초간 원심분리를 실시한 뒤 걸러진 용액을 버렸다. 2회 반복 후 13,000 rpm, 3분 간 원심분리를 실시하였다. 원심분리가 끝난 컬럼을 1.5 ml 튜브에 넣은 후 100 ㎕의 EB 완충액를 가운데 떨어뜨린 뒤 1분간 상온에서 반응시켰다. 13,000 rpm 1분간 원심분리를 실시하였다. 1.5 ml 튜브에 모인 DNA의 정량을 통해 15 ng/㎕의 농도를 맞추고 NGS 분석 전까지 4℃에서 보관하였다.
시약 조성 PCR 조건
SUN PCR blend mix 5 ㎕ 사전-변성 95℃, 3분
정방향 프라이머(10 pmol/ul) 0.5 ㎕ 변성(D) 98℃, 20초
역방향 프라이머(10 pmol/ul) 0.5 ㎕ 어닐링 (A) 60℃, 30초
주형(gDNA) 1 ㎕ 신장(E) 72℃, 30초
DW 3 ㎕ D-E 사이클 30 사이클
합계 10 ㎕ 최종 신장 72℃, 3분
보관 4℃, ∞

Claims (130)

  1. Cas12f1 또는 이의 변이체 단백질을 포함하는 엔도뉴클레아제 또는 상기 엔도뉴클레아제를 암호화하는 핵산;
    디스트로핀 유전자 내의 표적 서열과 혼성화하는 제1 가이드 서열을 포함하는 엔지니어링된 가이드 RNA 또는 상기 가이드 RNA를 암호화하는 핵산; 및
    디스트로핀 유전자 내의 표적 서열과 혼성화하는 제2 가이드 서열을 포함하는 엔지니어링된 가이드 RNA 또는 상기 가이드 RNA를 암호화하는 핵산을 포함하고,
    상기 제1 가이드 서열은 디스트로핀 엑손 51의 5000bp 업스트림(upstream) 영역에 존재하는 PAM(protospacer-adjacent Motif) 서열의 5' 말단 또는 3' 말단에 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화가능한 것이고,
    상기 제2 가이드 서열은 5000bp 다운스트림(downstream) 영역에 존재하는 PAM 서열의 5' 말단 또는 3' 말단에 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화가능한 것인
    디스트로핀 유전자의 편집 시스템.
  2. Cas12f1 또는 이의 변이체 단백질을 포함하는 엔도뉴클레아제 또는 상기 엔도뉴클레아제를 암호화하는 핵산;
    디스트로핀 유전자 내의 표적 서열과 혼성화하는 제1 가이드 서열을 포함하는 엔지니어링된 가이드 RNA 또는 상기 가이드 RNA를 암호화하는 핵산; 및
    디스트로핀 유전자 내의 표적 서열과 혼성화하는 제2 가이드 서열을 포함하는 엔지니어링된 가이드 RNA 또는 상기 가이드 RNA를 암호화하는 핵산을 포함하고,
    상기 제1 가이드 서열은 디스트로핀 엑손 51의 5000bp 업스트림(upstream) 영역에 존재하는 PAM(protospacer-adjacent Motif) 서열의 5' 말단 또는 3' 말단에 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화가능한 것이고,
    상기 제2 가이드 서열은 5000bp 다운스트림(downstream) 영역에 존재하는 PAM 서열의 5' 말단 또는 3' 말단에 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화가능한 것인
    조성물.
  3. 제1항 또는 제2항에 있어서,
    상기 시스템 또는 조성물은 세포에 적용되어 디스트로핀 엑손 51의 결실을 일으키는 것인
    시스템 또는 조성물.
  4. 제1항 또는 제2항에 있어서,
    상기 시스템 또는 조성물은 근이영양증의 치료를 위한 것인
    시스템 또는 조성물.
  5. 제1항 또는 제2항에 있어서,
    상기 제1 가이드 서열은 디스트로핀 엑손 51의 5000bp 업스트림 영역의 비-표적 가닥에 존재하는 서열번호 190 내지 217 및 서열번호 255 내지 280으로 구성된 군에서 선택된 핵산 서열에 상보적인 표적 서열에 혼성화가능한 서열이고,
    상기 제2 가이드 서열은 디스트로핀 엑손 51의 5000bp 다운스트림 영역의 비-표적 가닥에 존재하는 서열번호 218 내지 254 및 서열번호 281 내지 311로 이루어진 군에서 선택된 핵산 서열에 상보적인 표적 서열에 혼성화가능한 서열인
    시스템 또는 조성물.
  6. 제5항에 있어서,
    상기 제1 가이드 서열은 서열번호 190 내지 217 및 서열번호 255 내지 280으로 이루어진 군으로부터 선택된 핵산 서열에서 연속된 15개 내지 20개 뉴클레오티드 서열을 포함하고 상기 연속된 뉴클레오티드 서열에서 티민(T)이 유라실(U)로 치환된 핵산 서열이고/거나,
    상기 제2 가이드 서열은 서열번호 218 내지 254 및 서열번호 281 내지 311로 이루어진 군으로부터 선택된 핵산 서열에서 연속된 15개 내지 20개 뉴클레오티드을 포함하고 상기 연속된 뉴클레오티드 서열에서 티민(T)이 유라실(U)로 치환된 핵산 서열인
    시스템 또는 조성물.
  7. 제6항에 있어서,
    상기 제1 가이드 서열은 서열번호 312 내지 서열번호 323로 이루어진 군에서 선택된 핵산 서열을 포함하고/거나,
    상기 제2 가이드 서열은 서열번호 324 내지 서열번호 335로 이루어진 군에서 선택된 핵산 서열을 포함하는
    시스템 또는 조성물.
  8. 제1항 또는 제2항에 있어서,
    상기 엔지니어링된 가이드 RNA는 상기 제1 또는 제2 가이드 서열의 3' 말단에 연결된 U-rich tail 서열을 포함하고, 상기 U-rich tail은 5'-(UmV)nUo-3'로 표시되고, 여기서 V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수인
    시스템 또는 조성물.
  9. 제1항 또는 제2항에 있어서,
    상기 엔지니어링된 가이드 RNA는 5'-말단부터 순차적으로 제1 스템-루프 영역, 제2 스템-루프 영역, 제3 스템-루프 영역, 제4 스템-루프 영역 및 tracrRNA-crRNA 상보성 영역을 포함하는 야생형 Cas12f1 가이드 RNA 서열의 스캐폴드 영역과 50% 이상 서열 동일성을 갖는 뉴클레오티드 서열을 포함하고,
    상기 야생형 Cas12f1 가이드 RNA 서열에 대해 하기 (1) 내지 (5)로 이루어진 군에서 선택되는 하나 이상의 변형을 포함하는
    시스템 또는 조성물:
    (1) 제1 스템-루프 영역의 일부 또는 전부의 결실;
    (2) 제2 스템-루프 영역의 일부 또는 전부의 결실;
    (3) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실;
    (4) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환; 및
    (5) crRNA 서열의 3'-말단에 U-rich tail의 부가(상기 U-rich tail의 서열은 5'-(UmV)nUo-3'로 표시되고 여기서 V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수임).
  10. 제9항에 있어서,
    상기 야생형 Cas12f1 가이드 RNA는 서열번호 11의 핵산 서열을 포함하는 tracrRNA 및 서열번호 12의 핵산 서열을 포함하는 crRNA를 포함하는
    시스템 또는 조성물.
  11. 제9항에 있어서,
    상기 엔지니어링된 가이드 RNA는 (5) crRNA 서열의 3'-말단에 U-rich tail 및 (4) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환으로부터 선택된 하나 이상의 변형을 포함하는
    시스템 또는 조성물.
  12. 제9항에 있어서,
    상기 엔지니어링된 가이드 RNA는 (1) 제1 스템-루프 영역의 일부 또는 전부의 결실; (2) 제2 스템-루프 영역의 일부 또는 전부의 결실; 및 (3) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실로 이루어진 군에서 선택된 하나 이상의 변형을 포함하는
    시스템 또는 조성물.
  13. 제9항에 있어서,
    상기 엔지니어링된 가이드 RNA는 (3) tracrRNA-crRNA 상보성 영역의 일부의 결실을 포함하고, 상기 상보성 영역의 일부는 1개 내지 54개의 뉴클레오티드인
    시스템 또는 조성물.
  14. 제9항에 있어서,
    상기 엔지니어링된 가이드 RNA는 (3) tracrRNA-crRNA 상보성 영역의 전부의 결실을 포함하고, 상기 상보성 영역의 전부는 55개의 뉴클레오티드인
    시스템 또는 조성물.
  15. 제9항에 있어서,
    상기 엔지니어링된 가이드 RNA는 (1) 제1 스템-루프 영역의 일부 또는 전부의 결실을 포함하고, 상기 스템-루프 영역의 일부 또는 전부는 1개 내지 20개의 뉴클레오티드인
    시스템 또는 조성물.
  16. 제9항에 있어서,
    상기 엔지니어링된 가이드 RNA는 (2) 제2 스템-루프 영역의 일부 또는 전부의 결실을 포함하고, 상기 스템-루프 영역의 일부 또는 전부는 1 내지 27개의 뉴클레오티드인
    시스템 또는 조성물.
  17. 제9항에 있어서,
    상기 엔지니어링된 가이드 RNA는 (1) 제1 스템-루프 영역의 일부 또는 전부의 결실; 및 (5) crRNA 서열의 3'-말단에 U-rich tail의 부가로부터 선택된 하나 이상의 변형을 포함하는
    시스템 또는 조성물.
  18. 제1항 또는 제2항에 있어서,
    상기 엔지니어링된 가이드 RNA는 하기 식 (I)로 표시되는 서열로 이루어지거나 상기 서열과 80% 이상 서열 동일성을 갖는 시스템 또는 조성물:

    식 (I)에서,
    Xa, Xb1, Xb2, Xc1 및 Xc2는 각각 독립적으로 0 내지 35개의 (폴리)뉴클레오티드로 이루어지고,
    Xg는 제1 또는 제2 가이드 서열이고,
    Lk는 길이 2 내지 20의 폴리뉴클레오티드 링커이거나 부존재하고,
    (UmV)nUo는 U-rich tail로서 존재하거나 부존재하고, 존재하는 경우 U는 유리딘이고, V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 각각 독립적으로 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수이다.
  19. 제18항에 있어서,
    상기 Xa는 서열번호 14의 핵산 서열을 포함하거나 상기 서열번호 14의 서열에서 1 내지 20개의 뉴클레오티드가 결실된 핵산 서열을 포함하는
    시스템 또는 조성물.
  20. 제18항에 있어서,
    상기 Xb1은 서열번호 25의 핵산 서열을 포함하거나 상기 서열번호 25의 서열에서 1 내지 13개의 뉴클레오티드가 결실된 핵산 서열을 포함하는
    시스템 또는 조성물.
  21. 제18항에 있어서,
    상기 Xb2은 서열번호 29의 핵산 서열을 포함하거나 상기 서열번호 29의 서열에서 1 내지 14개의 뉴클레오티드가 결실된 핵산 서열을 포함하는
    시스템 또는 조성물.
  22. 제18항에 있어서,
    상기 식 (I) 내의 서열 5'-Xb1UUAGXb2-3'은 서열번호 34 내지 서열번호 38로 이루어진 군에서 선택된 핵산 서열인
    시스템 또는 조성물.
  23. 제18항에 있어서,
    상기 Xc1은 서열번호 39의 핵산 서열을 포함하거나 상기 서열번호 39의 서열에서 1 내지 28개의 뉴클레오티드가 결실된 핵산 서열을 포함하는
    시스템 또는 조성물.
  24. 제23항에 있어서,
    상기 Xc1 서열 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 이들 중 하나 이상의 U가 A, G 또는 C로 치환되는 변형을 포함하는
    시스템 또는 조성물.
  25. 제18항에 있어서,
    상기 Xc2는 서열번호 58의 핵산 서열을 포함하거나 상기 서열번호 58의 서열에서 1 내지 27개의 뉴클레오티드가 결실된 핵산 서열을 포함하는
    시스템 또는 조성물.
  26. 제25항에 있어서,
    상기 Xc2 서열 내에 서열 5'-ACGAA-3'가 존재하는 경우 해당 서열이 5'-NGNNN-3'로 치환되고, 상기 N은 각각 독립적으로 A, C, G 또는 U인
    시스템 또는 조성물.
  27. 제18항에 있어서,
    상기 식 (I) 내의 서열 5'-Xc1-Lk-Xc2-3'은 서열번호 80 내지 서열번호 86으로 이루어진 군에서 선택된 핵산 서열인
    시스템 또는 조성물.
  28. 제18항에 있어서,
    상기 Lk는 5'-GAAA-3', 5'-UUAG-3', 5'-UGAAAA-3', 5'-UUGAAAAA-3', 5'-UUCGAAAGAA-3'(서열번호 76), 5'-UUCAGAAAUGAA-3'(서열번호 77), 5'-UUCAUGAAAAUGAA-3'(서열번호 78) 및 5'-UUCAUUGAAAAAUGAA-3'(서열번호 79)로 이루어진 군에서 선택된 핵산 서열을 포함하는
    시스템 또는 조성물.
  29. 제18항에 있어서,
    상기 (UmV)nUo는 (ⅰ) n이 0이고, o가 1 내지 6 사이의 정수이거나 (ⅱ) V가 A 또는 G이고, m 및 o는 각각 독립적으로 3 내지 6 사이의 정수이고, n은 1 내지 3 사이의 정수인
    시스템 또는 조성물.
  30. 제1항 또는 제2항에 있어서,
    상기 엔지니어링된 가이드 RNA는 서열번호 87 내지 서열번호 132로 이루어진 군에서 선택된 핵산 서열로 이루어진 엔지니어링된 tracrRNA를 포함하는
    시스템 또는 조성물.
  31. 제1항 또는 제2항에 있어서,
    상기 엔지니어링된 가이드 RNA는 엔지니어링된 crRNA를 포함하고, 상기 엔지니어링된 crRNA는 서열번호 133 내지 서열번호 148로 이루어진 군에서 선택된 핵산 서열을 포함하는
    시스템 또는 조성물.
  32. 제1항 또는 제2항에 있어서,
    상기 엔지니어링된 가이드 RNA는 듀얼 가이드 RNA 또는 싱글 가이드 RNA인
    시스템 또는 조성물.
  33. 제32항에 있어서,
    상기 엔지니어링된 싱글 가이드 RNA는 서열번호 149 내지 서열번호 186으로 이루어진 군에서 선택된 핵산 서열로 이루어진
    시스템 또는 조성물.
  34. 제1항 또는 제2항에 있어서,
    상기 Cas12f1 또는 이의 변이체 단백질은 표적 서열에서 또는 표적 서열의 바깥에서 이중가닥 절단을 유도하는 것인
    시스템 또는 조성물.
  35. 제1항 또는 제2항에 있어서,
    상기 Cas12f1 또는 이의 변이체 단백질은 서열번호 1 내지 서열번호 5로 이루어진 군에서 선택된 아미노산 서열과 70% 이상의 서열 동일성을 갖는 아미노산 서열을 포함하는
    시스템 또는 조성물.
  36. 제1항 또는 제2항에 있어서,
    상기 Cas12f1 또는 이의 변이체 단백질은 서열번호 1 또는 5의 아미노산 서열과 70% 이상의 서열 동일성을 갖는
    시스템 또는 조성물.
  37. 제1항 또는 제2항에 있어서,
    상기 Cas12f1 또는 이의 변이체 단백질을 포함하는 엔도뉴클레아제, 및 상기 제1 가이드 서열을 포함하는 엔지니어링된 가이드 RNA 또는 제2 가이드 서열을 포함하는 엔지니어링된 가이드 RNA는 리보뉴클레오단백질(ribonucleoprotein, RNP) 형태인
    시스템 또는 조성물.
  38. 제1항 또는 제2항에 있어서,
    상기 시스템 또는 조성물은 비상동말단연결(non-homologous end joining, NHEJ)에 관여하는 유전자의 발현을 억제하는 분자 또는 이를 암호화하는 핵산을 추가로 포함하는
    시스템 또는 조성물.
  39. 제38항에 있어서,
    상기 비상동말단연결에 관여하는 유전자는 ATM1, XRCC4, XLF, XRCC6, LIG4, 및 DCLRE1C로 이루어진 군으로부터 선택된 하나 이상인
    시스템 또는 조성물.
  40. 제38항에 있어서,
    상기 비상동말단연결에 관여하는 유전자는 XRCC6 및 DCLRE1C로 이루어진 군으로부터 선택된 하나 이상인
    시스템 또는 조성물.
  41. 제38항에 있어서,
    상기 분자는 shRNA, siRNA, miRNA, 또는 안티센스 올리고뉴클레오티드인
    시스템 또는 조성물.
  42. 제41항에 있어서,
    상기 shRNA 분자는 shXRCC6 및 shDCLRE1C로 이루어진 군으로부터 선택된 하나 이상인
    시스템 또는 조성물.
  43. 제39항에 있어서,
    상기 shRNA 분자는 서열번호 360 내지 389 및 403으로 이루어진 군으로부터 선택된 하나 이상인
    시스템 또는 조성물.
  44. Cas12f1 또는 이의 변이체 단백질을 포함하는 엔도뉴클레아제를 암호화하는 뉴클레오티드 서열이 작동 가능하게 연결된 제1 핵산 구조물;
    디스트로핀 유전자 내의 표적 서열과 혼성화하는 제1 가이드 서열을 포함하는 엔지니어링된 가이드 RNA 또는 이를 암호화하는 뉴클레오티드 서열이 작동 가능하게 연결된 제2 핵산 구조물; 및
    디스트로핀 유전자 내의 표적 서열과 혼성화하는 제2 가이드 서열을 포함하는 엔지니어링된 가이드 RNA 또는 이를 암호화하는 뉴클레오티드 서열이 작동 가능하게 연결된 제3 핵산 구조물을
    포함하는 하나 이상의 벡터를 포함하고,
    상기 제1 가이드 서열은 디스트로핀 엑손 51의 5000bp 업스트림(upstream) 영역에 존재하는 PAM(protospacer-adjacent Motif) 서열의 5' 말단 또는 3' 말단에 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화가능한 것이고,
    상기 제2 가이드 서열은 디스트로핀 엑손 51의 5000bp 다운스트림(downstream) 영역에 존재하는 PAM 서열의 5' 말단 또는 3' 말단에 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화가능한 것인
    벡터 시스템.
  45. 제44항에 있어서,
    상기 벡터 시스템은 듀센 근이영양증의 치료를 위한 것인
    벡터 시스템.
  46. 제44항에 있어서,
    상기 제1 가이드 서열은 디스트로핀 엑손 51의 5000bp 업스트림 영역의 비-표적 가닥에 존재하는 서열번호 190 내지 217 및 서열번호 255 내지 280으로 구성된 군에서 선택된 핵산 서열에 대응하는 표적 서열에 혼성화가능한 서열이고,
    상기 제2 가이드 서열은 디스트로핀 엑손 51의 5000bp 다운스트림 영역의 비-표적 가닥에 존재하는 서열번호 218 내지 254 및 서열번호 281 내지 311로 이루어진 군에서 선택된 핵산 서열에 대응하는 표적 서열에 혼성화가능한 서열인
    벡터 시스템.
  47. 제46항에 있어서,
    상기 제1 가이드 서열은 서열번호 190 내지 217 및 서열번호 255 내지 280으로 이루어진 군으로부터 선택된 핵산 서열에서 연속된 15개 내지 20개 뉴클레오티드로 이루어지고 티민(T)이 유라실(U)로 치환된 핵산 서열이고/거나,
    상기 제2 가이드 서열은 서열번호 218 내지 254 및 서열번호 281 내지 311로 이루어진 군으로부터 선택된 핵산 서열에서 연속된 15개 내지 20개 뉴클레오티드로 이루어지고 티민(T)이 유라실(U)로 치환된 핵산 서열인
    벡터 시스템.
  48. 제46항에 있어서,
    상기 제1 가이드 서열은 서열번호 312 내지 서열번호 323로 이루어진 군에서 선택된 핵산 서열이고/거나,
    상기 제2 가이드 서열은 서열번호 324 내지 서열번호 335로 이루어진 군에서 선택된 핵산 서열인
    벡터 시스템.
  49. 제44항에 있어서,
    상기 엔지니어링된 가이드 RNA는 상기 제1 또는 제2 가이드 서열의 3' 말단에 연결된 U-rich tail 서열을 포함하고, 상기 U-rich tail은 5'-(UmV)nUo-3'로 표시되고, 여기서 V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수인
    벡터 시스템.
  50. 제44항에 있어서,
    상기 엔지니어링된 가이드 RNA는 5'-말단부터 순차적으로 제1 스템-루프 영역, 제2 스템-루프 영역, 제3 스템-루프 영역, 제4 스템-루프 영역, tracrRNA-crRNA 상보성 영역 및 가이드 서열을 포함하는 야생형 Cas12f1 가이드 RNA 서열과 50% 이상 동일성을 갖는 뉴클레오티드 서열을 포함하고,
    상기 야생형 Cas12f1 가이드 RNA 서열에 대해 하기 (1) 내지 (5)로 이루어진 군에서 선택되는 하나 이상의 변형을 포함하는
    벡터 시스템:
    (1) 제1 스템-루프 영역의 일부 또는 전부의 결실;
    (2) 제2 스템-루프 영역의 일부 또는 전부의 결실;
    (3) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실;
    (4) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환; 및
    (5) crRNA 서열의 3'-말단에 U-rich tail의 부가(상기 U-rich tail의 서열은 5'-(UmV)nUo-3'로 표시되고 여기서 상기 V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수임).
  51. 제50항에 있어서,
    상기 야생형 Cas12f1 가이드 RNA는 서열번호 11의 핵산 서열로 이루어진 tracrRNA 및 서열번호 12의 핵산 서열을 포함하는 crRNA를 포함하는
    벡터 시스템.
  52. 제50항에 있어서,
    상기 엔지니어링된 가이드 RNA는 (5) crRNA 서열의 3'-말단에 U-rich tail 및 (4) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환으로부터 선택된 하나 이상의 변형을 포함하는
    벡터 시스템.
  53. 제50항에 있어서,
    상기 엔지니어링된 가이드 RNA는 (1) 제1 스템-루프 영역의 일부 또는 전부의 결실; (2) 제2 스템-루프 영역의 일부 또는 전부의 결실; 및 (3) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실로 이루어진 군에서 선택된 하나 이상의 변형을 포함하는
    벡터 시스템.
  54. 제50항에 있어서,
    상기 엔지니어링된 가이드 RNA는 (2) tracrRNA-crRNA 상보성 영역의 일부의 결실을 포함하고, 상기 상보성 영역의 일부는 1개 내지 54개의 뉴클레오티드인
    벡터 시스템.
  55. 제50항에 있어서,
    상기 엔지니어링된 가이드 RNA는 (3) tracrRNA-crRNA 상보성 영역의 전부의 결실을 포함하고, 상기 상보성 영역의 전부는 55개의 뉴클레오티드인
    벡터 시스템.
  56. 제50항에 있어서,
    상기 엔지니어링된 가이드 RNA는 (1) 제1 스템-루프 영역의 일부 또는 전부의 결실을 포함하고, 상기 스템-루프 영역의 일부 또는 전부는 1개 내지 20개의 뉴클레오티드인
    벡터 시스템.
  57. 제50항에 있어서,
    상기 엔지니어링된 가이드 RNA는 (2) 제2 스템-루프 영역의 일부 또는 전부의 결실을 포함하고, 상기 스템-루프 영역의 일부 또는 전부는 1 내지 27개의 뉴클레오티드인
    벡터 시스템.
  58. 제50항에 있어서,
    상기 엔지니어링된 가이드 RNA는 (1) 제1 스템-루프 영역의 일부 또는 전부의 결실; 및 (5) crRNA 서열의 3'-말단에 U-rich tail의 부가로부터 선택된 하나 이상의 변형을 포함하는
    벡터 시스템.
  59. 제44항에 있어서,
    상기 엔지니어링된 가이드 RNA는 하기 식 (I)로 표시되는 서열로 이루어지거나 상기 서열과 80% 이상 서열 동일성을 갖는 벡터 시스템:

    식 (I)에서,
    Xa, Xb1, Xb2, Xc1 및 Xc2는 각각 독립적으로 0 내지 35개의 (폴리)뉴클레오티드로 이루어지고,
    Xg는 제1 또는 제2 가이드 서열이고,
    Lk는 길이 2 내지 20의 폴리뉴클레오티드 링커이거나 부존재하고,
    (UmV)nUo는 U-rich tail로서 존재하거나 부존재하고, 존재하는 경우 U는 유리딘이고, V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 각각 독립적으로 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수이다.
  60. 제59항에 있어서,
    상기 Xa는 서열번호 14의 핵산 서열을 포함하거나 상기 서열번호 14의 서열에서 1 내지 20개의 뉴클레오티드가 결실된 핵산 서열을 포함하는
    벡터 시스템.
  61. 제59항에 있어서,
    상기 Xb1은 서열번호 25의 핵산 서열을 포함하거나 상기 서열번호 25의 서열에서 1 내지 13개의 뉴클레오티드가 결실된 핵산 서열을 포함하는
    벡터 시스템.
  62. 제59항에 있어서,
    상기 Xb2은 서열번호 29의 핵산 서열을 포함하거나 상기 서열번호 29의 서열에서 1 내지 14개의 뉴클레오티드가 결실된 핵산 서열을 포함하는
    벡터 시스템.
  63. 제59항에 있어서,
    상기 식 (I) 내의 서열 5'-Xb1UUAGXb2-3'은 서열번호 34 내지 서열번호 38로 이루어진 군에서 선택된 핵산 서열인
    벡터 시스템.
  64. 제59항에 있어서,
    상기 Xc1은 서열번호 39의 핵산 서열을 포함하거나 상기 서열번호 39의 서열에서 1 내지 28개의 뉴클레오티드가 결실된 핵산 서열을 포함하는
    벡터 시스템.
  65. 제64항에 있어서,
    상기 Xc1 서열 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 이들 중 하나 이상의 U가 A, G 또는 C로 치환되는 변형을 포함하는
    벡터 시스템.
  66. 제59항에 있어서,
    상기 Xc2는 서열번호 58의 핵산 서열을 포함하거나 상기 서열번호 58의 서열에서 1 내지 27개의 뉴클레오티드가 결실된 핵산 서열을 포함하는
    벡터 시스템.
  67. 제66항에 있어서,
    상기 Xc2 서열 내에 서열 5'-ACGAA-3'가 존재하는 경우 해당 서열이 5'-NGNNN-3'로 치환되고, 상기 N은 각각 독립적으로 A, C, G 또는 U인
    벡터 시스템.
  68. 제59항에 있어서,
    상기 식 (I) 내의 서열 5'-Xc1-Lk-Xc2-3'은 서열번호 80 내지 서열번호 86으로 이루어진 군에서 선택된 핵산 서열인
    벡터 시스템.
  69. 제59항에 있어서,
    상기 Lk는 5'-GAAA-3', 5'-UUAG-3', 5'-UGAAAA-3', 5'-UUGAAAAA-3', 5'-UUCGAAAGAA-3'(서열번호 76), 5'-UUCAGAAAUGAA-3'(서열번호 77), 5'-UUCAUGAAAAUGAA-3'(서열번호 78) 및 5'-UUCAUUGAAAAAUGAA-3'(서열번호 79)로 이루어진 군에서 선택된 핵산 서열을 포함하는
    벡터 시스템.
  70. 제59항에 있어서,
    상기 (UmV)nUo는 (ⅰ) n이 0이고, o가 1 내지 6 사이의 정수이거나 (ⅱ) V가 A 또는 G이고, m 및 o는 각각 독립적으로 3 내지 6 사이의 정수이고, n은 1 내지 3 사이의 정수인
    벡터 시스템.
  71. 제44항에 있어서,
    상기 엔지니어링된 가이드 RNA는 서열번호 87 내지 서열번호 132로 이루어진 군에서 선택된 핵산 서열로 이루어진 엔지니어링된 tracrRNA를 포함하는
    벡터 시스템.
  72. 제44항에 있어서,
    상기 엔지니어링된 가이드 RNA는 엔지니어링된 crRNA를 포함하고, 상기 엔지니어링된 crRNA는 서열번호 133 내지 서열번호 148로 이루어진 군에서 선택된 핵산 서열을 포함하는
    벡터 시스템.
  73. 제44항에 있어서,
    상기 엔지니어링된 가이드 RNA는 듀얼 가이드 RNA 또는 싱글 가이드 RNA인
    벡터 시스템.
  74. 제73항에 있어서,
    상기 엔지니어링된 싱글 가이드 RNA는 서열번호 149 내지 서열번호 186으로 이루어진 군에서 선택된 핵산 서열로 이루어진
    벡터 시스템.
  75. 제44항에 있어서,
    상기 Cas12f1 또는 이의 변이체 단백질은 서열번호 1 내지 서열번호 5로 이루어진 군에서 선택된 아미노산 서열과 70% 이상의 서열 동일성을 갖는 아미노산 서열을 포함하는
    벡터 시스템.
  76. 제44항에 있어서,
    상기 Cas12f1 또는 이의 변이체 단백질은 서열번호 1 또는 5의 아미노산 서열과 70% 이상의 서열 동일성을 갖는
    벡터 시스템.
  77. 제44항에 있어서,
    상기 Cas12f1 또는 이의 변이체 단백질을 포함하는 엔도뉴클레아제, 및 상기 제1 가이드 서열을 포함하는 엔지니어링된 가이드 RNA 또는 제2 가이드 서열을 포함하는 엔지니어링된 가이드 RNA는 리보뉴클레오단백질(ribonucleoprotein, RNP) 형태인
    벡터 시스템.
  78. 제44항에 있어서,
    상기 시스템 또는 조성물은 비상동말단연결(non-homologous end joining, NHEJ)에 관여하는 유전자의 발현을 억제하는 분자 또는 이를 암호화하는 핵산을 추가로 포함하는
    벡터 시스템.
  79. 제78항에 있어서,
    상기 비상동말단연결에 관여하는 유전자는 ATM1, XRCC4, XLF, XRCC6, LIG4, 및 DCLRE1C로 이루어진 군으로부터 선택된 하나 이상인
    벡터 시스템.
  80. 제78항에 있어서,
    상기 비상동말단연결에 관여하는 유전자는 XRCC6 및 DCLRE1C로 이루어진 군으로부터 선택된 하나 이상인
    벡터 시스템.
  81. 제78항에 있어서,
    상기 분자는 shRNA, siRNA, miRNA, 또는 안티센스 올리고뉴클레오티드인
    벡터 시스템.
  82. 제44항에 있어서,
    상기 벡터 시스템에 포함되는 핵산 구조물은 동일하거나 상이한 벡터에 위치하는
    벡터 시스템.
  83. 제44항에 있어서,
    벡터 내의 각 구성요소가 하나의 벡터에 포함되는 것인
    벡터 시스템.
  84. 제44항에 있어서,
    상기 벡터가 프로모터 또는 인핸서를 더 포함하는
    벡터 시스템.
  85. 제84항에 있어서,
    상기 프로모터는 U6 프로모터, EFS 프로모터, EF1-α 프로모터, H1 프로모터, 7SK 프로모터, CMV 프로모터, LTR 프로모터, Ad MLP 프로모터, HSV 프로모터, SV40 프로모터, CBA 프로모터 또는 RSV 프로모터인
    벡터 시스템.
  86. 제44항에 있어서,
    상기 벡터는 레트로바이러스 벡터(retroviral(retrovirus) vector), 렌티바이러스 벡터(lentiviral(lentivirus) vector), 아데노바이러스 벡터(adenoviral(adenovirus vector), 아데노-연관 바이러스 벡터(adeno-associatedviral(adeno-associated virus; AAV) vector), 백시니아바이러스 벡터(vaccinia viral(vaccinia virus) vector), 폭스바이러스 벡터(poxviral(poxvirus) vector), 단순포진 바이러스 벡터(herpes simplex viral(herpes simplex virus) vector) 및 파지미드 벡터(phagemid vector)로 구성된 군에서 선택되는 하나 이상의 바이러스 벡터인
    벡터 시스템.
  87. 제86항에 있어서,
    상기 벡터는 아데노-연관 바이러스 벡터이고, 상기 아데노-연관 바이러스 벡터는 상기 벡터 내의 구성요소 모두를 하나의 벡터에 포함할 수 있는
    벡터 시스템.
  88. 제44항에 있어서,
    상기 벡터는 플라스미드, 네이키드 DNA, DNA 복합체, mRNA(전사물) 및 앰플리콘(amplicon)으로 이루어진 군에서 선택된 하나 이상의 비-바이러스 벡터인
    벡터 시스템.
  89. 제88항에 있어서,
    상기 플라스미드는 pcDNA 시리즈, pSC101, pGV1106, pACYC177, ColE1, pKT230, pME290, pBR322, pUC8/9, pUC6, pBD9, pHC79, pIJ61, pLAFR1, pHV14, pGEX 시리즈, pET 시리즈, 및 pUC19으로 이루어진 군에서 선택된 하나 이상인
    벡터 시스템.
  90. 디스트로핀 유전자 내의 표적 서열과 혼성화하는 가이드 서열을 포함하는 스페이서 영역 및 스캐폴드 영역을 포함하는 엔지니어링된 가이드 RNA로서,
    상기 가이드 서열은 디스트로핀 엑손 51의 5000bp 업스트림(upstream) 영역 또는 5000bp 다운스트림(downstream) 영역에 존재하고 Cas12f1 또는 이의 변이체 단백질이 인식하는 PAM(protospacer-adjacent Motif) 서열의 5' 말단 또는 3' 말단에 인접하여 위치하는 연속하는 15bp 내지 30bp 길이의 표적 서열에 혼성화가능한 것인
    엔지니어링된 가이드 RNA.
  91. 제90항에 있어서,
    상기 PAM 서열은 5'-TTTA-3' 또는 5'-TTTG-3'인
    엔지니어링된 가이드 RNA.
  92. 제90항에 있어서,
    상기 가이드 서열은 디스트로핀 엑손 51의 5000bp 업스트림 또는 다운스트림 영역의 비-표적 가닥에 존재하는 서열번호 190 내지 311로 구성된 군에서 선택된 핵산 서열에 상보적인 표적 서열에 혼성화가능한 서열을 포함하는
    엔지니어링된 가이드 RNA.
  93. 제90항에 있어서,
    상기 가이드 서열은 서열번호 190 내지 311로 이루어진 군으로부터 선택된 핵산 서열에서 연속된 15개 내지 20개 뉴클레오티드 서열을 포함하고 상기 연속된 뉴클레오티드 서열에서 티민(T)이 유라실(U)로 치환된 핵산 서열인
    엔지니어링된 가이드 RNA.
  94. 제93항에 있어서,
    상기 가이드 서열은 서열번호 311 내지 서열번호 335로 이루어진 군에서 선택된 핵산 서열을 포함하는
    엔지니어링된 가이드 RNA.
  95. 제90항에 있어서,
    상기 엔지니어링된 가이드 RNA는 상기 가이드 서열의 3' 말단에 연결된 U-rich tail 서열을 포함하고, 상기 U-rich tail은 5'-(UmV)nUo-3'로 표시되고, 여기서 V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수인
    엔지니어링된 가이드 RNA.
  96. 제90항에 있어서,
    상기 스캐폴드 영역은 5'-말단부터 순차적으로 제1 스템-루프 영역, 제2 스템-루프 영역, 제3 스템-루프 영역, 제4 스템-루프 영역 및 tracrRNA-crRNA 상보성 영역을 포함하는 야생형 Cas12f1 가이드 RNA의 스캐폴드 영역과 50% 이상 서열 동일성을 갖는 뉴클레오티드 서열을 포함하고,
    상기 야생형 Cas12f1 가이드 RNA 서열에 대해 하기 (1) 내지 (5)로 이루어진 군에서 선택되는 하나 이상의 변형을 포함하는
    엔지니어링된 가이드 RNA:
    (1) 제1 스템-루프 영역의 일부 또는 전부의 결실;
    (2) 제2 스템-루프 영역의 일부 또는 전부의 결실;
    (3) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실;
    (4) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환; 및
    (5) crRNA 서열의 3'-말단에 U-rich tail의 부가(상기 U-rich tail의 서열은 5'-(UmV)nUo-3'로 표시되고 여기서 상기 V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수임).
  97. 제96항에 있어서,
    상기 야생형 Cas12f1 가이드 RNA는 서열번호 11의 핵산 서열로 이루어진 tracrRNA 및 서열번호 12의 핵산 서열을 포함하는 crRNA를 포함하는
    엔지니어링된 가이드 RNA.
  98. 제96항에 있어서,
    상기 엔지니어링된 가이드 RNA는 (5) crRNA 서열의 3'-말단에 U-rich tail 및 (4) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환으로부터 선택된 하나 이상의 변형을 포함하는
    엔지니어링된 가이드 RNA.
  99. 제96항에 있어서,
    상기 엔지니어링된 가이드 RNA는 (1) 제1 스템-루프 영역의 일부 또는 전부의 결실; (2) 제2 스템-루프 영역의 일부 또는 전부의 결실; 및 (3) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실로 이루어진 군에서 선택된 하나 이상의 변형을 포함하는
    엔지니어링된 가이드 RNA.
  100. 제96항에 있어서,
    상기 엔지니어링된 가이드 RNA는 (3) tracrRNA-crRNA 상보성 영역의 일부의 결실을 포함하고, 상기 상보성 영역의 일부는 1개 내지 54개의 뉴클레오티드인
    엔지니어링된 가이드 RNA.
  101. 제96항에 있어서,
    상기 엔지니어링된 가이드 RNA는 (3) tracrRNA-crRNA 상보성 영역의 전부의 결실을 포함하고, 상기 상보성 영역의 전부는 55개의 뉴클레오티드인
    엔지니어링된 가이드 RNA.
  102. 제96항에 있어서,
    상기 엔지니어링된 가이드 RNA는 (1) 제1 스템-루프 영역의 일부 또는 전부의 결실을 포함하고, 상기 스템-루프 영역의 일부 또는 전부는 1개 내지 20개의 뉴클레오티드인
    엔지니어링된 가이드 RNA.
  103. 제96항에 있어서,
    상기 엔지니어링된 가이드 RNA는 (2) 제2 스템-루프 영역의 일부 또는 전부의 결실을 포함하고, 상기 스템-루프 영역의 일부 또는 전부는 1 내지 27개의 뉴클레오티드인
    엔지니어링된 가이드 RNA.
  104. 제96항에 있어서,
    상기 엔지니어링된 가이드 RNA는 (1) 제1 스템 영역의 일부 또는 전부의 결실; 및 (5) crRNA 서열의 3'-말단에 U-rich tail의 부가로부터 선택된 하나 이상의 변형을 포함하는
    엔지니어링된 가이드 RNA.
  105. 제90항에 있어서,
    상기 엔지니어링된 가이드 RNA는 하기 식 (I)로 표시되는 것인
    엔지니어링된 가이드 RNA:

    식 (I)에서,
    Xa, Xb1, Xb2, Xc1 및 Xc2는 각각 독립적으로 0 내지 35개의 (폴리)뉴클레오티드로 이루어지고,
    Xg는 가이드 서열이고,
    Lk는 길이 2 내지 20의 폴리뉴클레오티드 링커이거나 부존재하고,
    (UmV)nUo는 U-rich tail로서 존재하거나 부존재하고, 존재하는 경우 U는 유리딘이고, V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 각각 독립적으로 1 내지 20의 정수이며, n은 0 내지 5의 정수이다.
  106. 제105항에 있어서,
    상기 Xa는 서열번호 14의 핵산 서열을 포함하거나 상기 서열번호 14의 서열에서 1 내지 20개의 뉴클레오티드가 결실된 핵산 서열을 포함하는
    엔지니어링된 가이드 RNA.
  107. 제105항에 있어서,
    상기 Xb1은 서열번호 25의 핵산 서열을 포함하거나 상기 서열번호 25의 서열에서 1 내지 13개의 뉴클레오티드가 결실된 핵산 서열을 포함하는
    엔지니어링된 가이드 RNA.
  108. 제105항에 있어서,
    상기 Xb2은 서열번호 29의 핵산 서열을 포함하거나 상기 서열번호 29의 서열에서 1 내지 14개의 뉴클레오티드가 결실된 핵산 서열을 포함하는
    엔지니어링된 가이드 RNA.
  109. 제105항에 있어서,
    상기 식 (I) 내의 서열 5'-Xb1UUAGXb2-3'은 서열번호 34 내지 서열번호 38로 이루어진 군에서 선택된 핵산 서열인
    엔지니어링된 가이드 RNA.
  110. 제105항에 있어서,
    상기 Xc1은 서열번호 39의 핵산 서열을 포함하거나 상기 서열번호 39의 서열에서 1 내지 28개의 뉴클레오티드가 결실된 핵산 서열을 포함하는
    엔지니어링된 가이드 RNA.
  111. 제110항에 있어서,
    상기 Xc1 서열 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 이들 중 하나 이상의 U가 A, G 또는 C로 치환되는 변형을 포함하는
    엔지니어링된 가이드 RNA.
  112. 제105항에 있어서,
    상기 Xc2는 서열번호 58의 핵산 서열을 포함하거나 상기 서열번호 58의 서열에서 1 내지 27개의 뉴클레오티드가 결실된 핵산 서열을 포함하는
    엔지니어링된 가이드 RNA.
  113. 제112항에 있어서,
    상기 Xc2 서열 내에 서열 5'-ACGAA-3'가 존재하는 경우 해당 서열이 5'-NGNNN-3'로 치환되고, 상기 N은 각각 독립적으로 A, C, G 또는 U인
    엔지니어링된 가이드 RNA.
  114. 제105항에 있어서,
    상기 식 (I) 내의 서열 5'-Xc1-Lk-Xc2-3'은 서열번호 80 내지 서열번호 86으로 이루어진 군에서 선택된 핵산 서열인
    엔지니어링된 가이드 RNA.
  115. 제105항에 있어서,
    상기 Lk는 5'-GAAA-3', 5'-UUAG-3', 5'-UGAAAA-3', 5'-UUGAAAAA-3', 5'-UUCGAAAGAA-3'(서열번호 76), 5'-UUCAGAAAUGAA-3'(서열번호 77), 5'-UUCAUGAAAAUGAA-3'(서열번호 78) 및 5'-UUCAUUGAAAAAUGAA-3'(서열번호 79)로 이루어진 군에서 선택된 핵산 서열을 포함하는
    엔지니어링된 가이드 RNA.
  116. 제105항에 있어서,
    상기 (UmV)nUo는 (ⅰ) n이 0이고, o가 1 내지 6의 정수이거나 (ⅱ) V가 A 또는 G이고, m 및 o는 각각 독립적으로 3 내지 6의 정수이고, n은 1 내지 3의 정수인
    엔지니어링된 가이드 RNA.
  117. 제90항에 있어서,
    상기 엔지니어링된 sgRNA는 서열번호 87 내지 서열번호 132로 이루어진 군에서 선택된 핵산 서열로 이루어진 엔지니어링된 tracrRNA를 포함하는
    엔지니어링된 가이드 RNA.
  118. 제90항에 있어서,
    상기 엔지니어링된 가이드 RNA는 엔지니어링된 crRNA를 포함하고, 상기 엔지니어링된 crRNA는 서열번호 133 내지 서열번호 148로 이루어진 군에서 선택된 핵산 서열을 포함하는
    엔지니어링된 가이드 RNA.
  119. 제90항에 있어서,
    상기 엔지니어링된 가이드 RNA는 서열번호 149 내지 서열번호 186으로 이루어진 군에서 선택된 핵산 서열로 이루어진
    엔지니어링된 가이드 RNA.
  120. 제90항에 있어서,
    상기 엔지니어링된 가이드 RNA는 sgRNA인
    엔지니어링된 가이드 RNA.
  121. 제90항 내지 제120항 중 어느 한 항에 따른 엔지니어링된 가이드 RNA를 암호화하는 핵산.
  122. 제44항 내지 제89항 중 어느 한 항에 따른 벡터 시스템에 의해 제조된 바이러스.
  123. 제122항에 있어서,
    상기 바이러스는 레트로바이러스, 렌티바이러스, 아데노바이러스, 아데노-연관 바이러스, 백시니아바이러스, 폭스바이러스, 단순포진 바이러스 및 파지(phage)로 구성된 군에서 선택되는 것인
    바이러스.
  124. 제122항에 따른 바이러스를 포함하는 조성물.
  125. 제1항에 따른 시스템, 제2항에 따른 조성물, 제3항 내지 제43항에 따른 시스템 또는 조성물 또는 제44항 내지 제89항의 벡터 시스템을 세포와 접촉시키는 단계를 포함하는
    세포 내 디스트로핀 유전자에서 엑손 51을 포함하는 세그먼트를 제거하는 방법.
  126. 제125항에 있어서,
    상기 세포는 원핵 세포 또는 진핵 세포인
    방법.
  127. 제126항에 있어서,
    상기 진핵 세포는 효모(yeast), 곤충 세포, 식물 세포, 비인간-동물 세포 또는 인간 세포인
    방법.
  128. 제125항에 있어서,
    상기 벡터 시스템은 전기천공법, 유전자총, 초음파천공법, 자기주입법(magnetofection), 일시적인 세포 압축 또는 스퀴징 방법, 양이온성 리포좀법, 초산 리튬-DMSO, 지질-매개 트랜스펙션, 인산칼슘 침전법, 리포펙타민, PEI(Polyethyleneimine)-매개 트랜스펙션, DEAE-dextran 매개 트랜스펙션 또는 나노파티클-매개 핵산 전달에 의해 원핵 세포 또는 진핵 세포 내로 전달되는
    방법.
  129. 제125항에 있어서,
    상기 벡터 시스템은 하나 이상의 지질 나노입자(LNP)를 통해 원핵 세포 또는 진핵 세포 내로 직접 전달되는
    방법.
  130. 제125항에 있어서,
    상기 접촉은 생체 내 또는 생체 외에서 일어나는
    방법.
KR1020230032152A 2022-03-10 2023-03-10 듀센 근이영양증 치료를 위한 유전자 편집 시스템 및 이를 이용한 질병 치료 방법 KR20230134098A (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR1020220030000 2022-03-10
KR20220030000 2022-03-10
KR1020220065600 2022-05-27
KR20220065600 2022-05-27

Publications (1)

Publication Number Publication Date
KR20230134098A true KR20230134098A (ko) 2023-09-20

Family

ID=87935569

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020230032152A KR20230134098A (ko) 2022-03-10 2023-03-10 듀센 근이영양증 치료를 위한 유전자 편집 시스템 및 이를 이용한 질병 치료 방법
KR1020230032150A KR20230134097A (ko) 2022-03-10 2023-03-10 Nhej 복구 경로 조절을 통해 핵산 세그먼트의 결실 효율을 증가시키기 위한 조성물 및 방법

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020230032150A KR20230134097A (ko) 2022-03-10 2023-03-10 Nhej 복구 경로 조절을 통해 핵산 세그먼트의 결실 효율을 증가시키기 위한 조성물 및 방법

Country Status (2)

Country Link
KR (2) KR20230134098A (ko)
WO (2) WO2023172116A1 (ko)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104962523B (zh) * 2015-08-07 2018-05-25 苏州大学 一种测定非同源末端连接修复活性的方法
JOP20190166A1 (ar) * 2017-01-05 2019-07-02 Univ Texas استراتيجية مثلى من أجل تعديلات تخطي إكسون باستخدام crispr/cas9 مع متواليات توجيه ثلاثي
EP3715461A4 (en) * 2017-11-21 2021-09-08 Genkore Co. Ltd. GENOMIC EDITION COMPOSITION USING A CRISPR / CPF1 SYSTEM AND ITS USE
US20200370042A1 (en) * 2018-01-31 2020-11-26 The Board Of Regents Of The University Of Texas System Compositions and methods for correcting dystrophin mutations in human cardiomyocytes
KR102452590B1 (ko) * 2019-08-01 2022-10-12 기초과학연구원 CRISPR/Cas9 매개 체세포 핵 이식에 의한 개 디스트로핀병증 모델 생성 및 이의 용도
EP4053285A4 (en) * 2019-10-29 2024-06-19 Genkore Inc GUIDE RNA MODIFIED TO INCREASE THE EFFICIENCY OF CRISPR/CAS12F1 SYSTEM, AND ITS USE

Also Published As

Publication number Publication date
WO2023172115A1 (ko) 2023-09-14
WO2023172116A1 (ko) 2023-09-14
KR20230134097A (ko) 2023-09-20

Similar Documents

Publication Publication Date Title
US12018257B2 (en) Single-stranded RNA-editing oligonucleotides
US11851656B2 (en) Chemically modified single-stranded RNA-editing oligonucleotides
CN109312338B (zh) 治疗单纯疱疹病毒的crispr/cas相关方法及组合物
US20220112495A1 (en) Rna-editing oligonucleotides for the treatment of usher syndrome
CA2968336C (en) Construct for site directed editing of an adenosine nucleotide in target rna
US20210079393A1 (en) Antisense oligonucleotides for rna editing
ES2745769T3 (es) Procedimientos y composiciones relacionados con CRISPR/CAS para tratar la amaurosis congénita de Leber 10 (LCA10)
KR20180081600A (ko) 티틴-기반 근증 및 다른 티틴성병증의 치료를 위한 물질 및 방법
US11866702B2 (en) Nucleic acid molecules for pseudouridylation
JP2019514972A (ja) 組換え核酸のミトコンドリア送達
KR20230121569A (ko) 상동지정복구를 위한 TaRGET 시스템 및 이를 이용한 유전자 편집 방법
KR20230134098A (ko) 듀센 근이영양증 치료를 위한 유전자 편집 시스템 및 이를 이용한 질병 치료 방법
KR20230142365A (ko) 어셔 증후군 치료를 위한 유전자 편집 시스템
EP4342986A1 (en) Composition and method for treatment of lca10 using rna-guided nuclease
US20230220361A1 (en) Crispr-cas9 mediated disruption of alcam gene inhibits adhesion and trans-endothelial migration of myeloid cells
WO2023196772A1 (en) Novel rna base editing compositions, systems, methods and uses thereof
WO2024137767A1 (en) Compositions and methods for modifying dux4