WO2023153811A1 - 프라임 에디팅 시스템을 이용한 게놈 편집의 과정에서 발생 가능한 오프 타겟을 예측하는 방법 - Google Patents

프라임 에디팅 시스템을 이용한 게놈 편집의 과정에서 발생 가능한 오프 타겟을 예측하는 방법 Download PDF

Info

Publication number
WO2023153811A1
WO2023153811A1 PCT/KR2023/001867 KR2023001867W WO2023153811A1 WO 2023153811 A1 WO2023153811 A1 WO 2023153811A1 KR 2023001867 W KR2023001867 W KR 2023001867W WO 2023153811 A1 WO2023153811 A1 WO 2023153811A1
Authority
WO
WIPO (PCT)
Prior art keywords
target
sequence
editing
template
tpegrna
Prior art date
Application number
PCT/KR2023/001867
Other languages
English (en)
French (fr)
Inventor
이정준
권정훈
김민영
조안나
김영호
Original Assignee
주식회사 툴젠
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 툴젠 filed Critical 주식회사 툴젠
Priority to AU2023218196A priority Critical patent/AU2023218196A1/en
Publication of WO2023153811A1 publication Critical patent/WO2023153811A1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/62DNA sequences coding for fusion proteins
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/10Transferases (2.)
    • C12N9/12Transferases (2.) transferring phosphorus containing groups, e.g. kinases (2.7)
    • C12N9/1241Nucleotidyltransferases (2.7.7)
    • C12N9/1276RNA-directed DNA polymerase (2.7.7.49), i.e. reverse transcriptase or telomerase
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6811Selection methods for production or design of target specific oligonucleotides or binding molecules
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6853Nucleic acid amplification reactions using modified primers or templates
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2565/00Nucleic acid analysis characterised by mode or means of detection
    • C12Q2565/50Detection characterised by immobilisation to a surface
    • C12Q2565/514Detection characterised by immobilisation to a surface characterised by the use of the arrayed oligonucleotides as identifier tags, e.g. universal addressable array, anti-tag or tag complement array

Definitions

  • the present application relates to a method for predicting an off target of a prime editing system, which is one of gene editing systems.
  • Genome editing using the CRISPR/Cas system is an area of active research.
  • Various studies have been conducted, including the development of various Cas proteins for genetic manipulation, modified guide RNA, etc., but the method of editing genes using the CRISPR/Cas system still has problems.
  • Various problems caused by the method of manipulating genes using the CRISPR/Cas system motivated the development of more sophisticated genome editing technologies. Based on the above motivation, a more sophisticated genome editing technology, base editing, was developed. However, bass editing is still limited in scope.
  • Prime editing A new platform for genome editing, referred to as "prime editing", has been developed by David R. Liu et al., but a method or system for predicting off-targets that may occur in genome editing through prime editing has not yet been developed. did not Due to the development of prime editing, a new platform for genome editing, the development of a new off-target predictive method more suitable for the prime editing system is required.
  • Off-targets generated during the gene editing process cause strong side effects. Accordingly, methods for predicting various off-targets have been developed. However, the methods known to date have been developed targeting the traditional CRISPR/Cas system, and it is difficult to apply the new gene editing system to the prime editing system. Accordingly, the present application discloses a method or system for predicting off-targets of the prime editing system, developed for the prime editing system.
  • the engineered cell includes engineered genomic DNA, wherein the engineered genomic DNA includes a tag sequence, and wherein the engineered genomic DNA is generated through a process involving prime editor protein and tpegRNA, including the following :
  • tpegRNA prime editor protein and tagmentation pegRNA
  • Cas protein and reverse transcriptase wherein the tpegRNA includes an extended region including a spacer and a tag template
  • a tag sequence is inserted into genomic DNA through a reverse transcription process performed by the reverse transcriptase using the tag template of the tpegRNA as a reverse transcription template;
  • the information on the tagmentation includes information on the region of genomic DNA into which the tag sequence is inserted.
  • the method for predicting an off target may further include:
  • off-target information based on the tagment information, wherein the off-target information includes information on whether an off-target candidate exists and, if the off-target candidate exists, a region of the off-target candidate. contains information about
  • the method for predicting an off target may further include:
  • the method for predicting an off target may further include:
  • the tag sequence may be inserted into a region within the genomic DNA designated by the spacer of the tpegRNA.
  • the site where the tag sequence is inserted may be associated with an off-target candidate site or an on-target site.
  • the information on the site where the tag sequence is inserted may include information on the chromosome where the tag sequence is located and the site where the tag sequence is present on the chromosome.
  • the information on the site of the off-target candidate may include information on the chromosome on which each off-target candidate is located and the site on which the off-target candidate is located on the chromosome.
  • the information on the tagmentation may further include: information on the insertion rate of the tag sequence for each insertion site of the tag sequence.
  • the off-target information may further include: an off-target prediction score for an off-target candidate.
  • the off-target information may further include: the number of predicted off-target candidates.
  • the engineered cell may be obtained by a method comprising: contacting a cell with a prime editor protein or a nucleic acid encoding the same and a tpegRNA or a nucleic acid encoding the same.
  • the engineered cell may be obtained by a method comprising: introducing a prime editor protein or a nucleic acid encoding the same and a tpegRNA or a nucleic acid encoding the same into the cell.
  • the method of predicting the off target may further comprise: obtaining DNA from the engineered cell, wherein obtaining the DNA from the one or more engineered cells was previously performed in (b).
  • tpegRNAs can include:
  • gRNA core spacer
  • gRNA core gRNA core
  • extension region comprising a primer binding portion, a tag template, and a reverse transcription template.
  • the reverse transcription template of the tpegRNA may include an editing template and a region of homology.
  • the engineered genomic DNA may include editing.
  • the spacer, the gRNA core, and the extension region may be positioned in the order of the spacer, the gRNA core, and the extension region in a 5' to 3' direction.
  • the tag template may be located between the primer binding site and the reverse transcription template on the extension region.
  • the tpegRNA may further include a 3' engineering region comprising an RNA protection motif.
  • the method for predicting an off target may further include:
  • Identifying a predetermined prime editing system includes one or more of the following:
  • Information on predetermined cells information on predetermined pegRNAs, and information on predetermined prime editor proteins.
  • the predetermined cell may be a cell different from the cell used in the method of predicting the off target.
  • sequence of the spacer of the tpegRNA is identical to the sequence of the predetermined spacer of the predetermined pegRNA, and the sequence of the primer binding portion of the tpegRNA may be identical to the sequence of the predetermined primer binding portion of the predetermined pegRNA.
  • the sequence of the spacer of the tpegRNA is identical to the sequence of the predetermined spacer of the predetermined pegRNA
  • the sequence of the primer binding portion of the tpegRNA is identical to the sequence of the predetermined primer binding portion of the predetermined pegRNA
  • the sequence of the predetermined primer binding portion of the tpegRNA The sequence of the reverse transcription template of may be the same as the sequence of the predetermined reverse transcription template of the pegRNA.
  • the prime editor protein used in the method of predicting the off target may be the same as or different from the predetermined prime editor protein.
  • the tag template may be 5 to 60 nt in length.
  • the tag template may be 10 to 50 nt in length.
  • the prime editor protein may be a PE-nuclease including a Cas protein having double-strand break (DSB) activity.
  • DSB double-strand break
  • the prime editor protein may be a PEmax-nuclease.
  • the Cas protein included in the prime editor protein may be a nick case.
  • the prime editor protein may be a PE2 prime editor protein.
  • manipulation of genomic DNA may further involve any one or more of dnMLH1, gRNA, and additional Cas proteins, and additional prime editor proteins.
  • (b) may include: tag-specific analysis of the engineered genomic DNA.
  • (b) may include: sequencing the engineered genomic DNA.
  • (b) may include:
  • the engineered cell comprises engineered genomic DNA, wherein the engineered genomic DNA comprises one or more tag sequences, wherein the engineered genomic DNA is subjected to a process involving prime editor protein and tpegRNA, including Created via:
  • tpegRNA prime editor protein and tagmentation pegRNA
  • Cas protein and reverse transcriptase wherein the tpegRNA includes an extended region including a spacer and a tag template
  • a tag sequence is inserted into genomic DNA, wherein the insertion of the tag sequence is achieved through a reverse transcription process performed by the reverse transcriptase using the tag template of the tpegRNA as a reverse transcription template;
  • the tagmantation information includes information on each site where one or more tag sequences are inserted.
  • the off-target information includes information on whether an off-target candidate exists and information on one or more sites of the off-target candidate.
  • tpegRNA comprising:
  • the extension region including the spacer, the gRNA core, and the tag template is arranged in the order of the extension region including the spacer, the gRNA core, and the tag template in a 5' to 3' direction. It can be located on tpegRNA.
  • the extension region may include the tag template, the primer binding portion, and the reverse transcription template.
  • the tag template may be located between the primer binding site and the reverse transcription template.
  • the reverse transcription template may be located between the tag template and the primer binding site.
  • the primer binding portion, the tag template, and the reverse transcription template may be located on the extension region in the order of the reverse transcription template, the tag template, and the primer binding portion in a 5' to 3' direction. there is.
  • the reverse transcription template may include an editing template and a region of homology.
  • the tag template may have a length of 5 to 60 nt.
  • the tag template may have a length of 10 to 50 nt.
  • the tpegRNA may further include a 3' engineering region comprising an RNA protection motif.
  • the RNA protective motif may have a length of 10 to 60 nt.
  • the tpegRNA may have a length of 100 to 350 nt.
  • the off-target prediction method of the prime editing system uses the molecular mechanism of the prime editing system, it has a number of advantages over other known off-target prediction methods in predicting the off-target of the prime editing system. .
  • 01 shows examples of structures of classical gRNAs, pegRNAs, and tpegRNAs.
  • the tpegRNA shown in FIG. 02 includes a DNA synthesis template, a tag template, and an extended region including a primer binding site.
  • the tpegRNA shown in FIG. 03 includes a primer binding site, a tag template, an editing template, and an extension region including a homology region.
  • FIG. 04 relates to a tag insertion mechanism using tpegRNA of the off-target prediction system of the present application.
  • FIG. 04 shows an example of a DNA molecule nicked at an on-target or off-target candidate position and a prime editor protein/tpegRNA complex that induced a nick.
  • FIG. 05 relates to a tag insertion mechanism using tpegRNA of the off-target prediction system of the present application.
  • FIG. 05 shows a scene in which a primer binding portion of tpegRNA is annealed with a region functioning as a primer of genomic DNA. Thereafter, reverse transcription is performed by reverse transcriptase using a tag template or the like as a template.
  • Tag 06 relates to a tag insertion mechanism using tpegRNA of the off-target prediction system of the present application. It is shown that reverse transcription was performed to add tag sequences and the like to the endogenous DNA strand (3' DNA flap). Then, through a process including removal of the 5' DNA flap and DNA repair, the tag sequence and a sequence complementary to the tag sequence are installed as on-target or off-target candidate positions in genomic DNA.
  • 07 shows an exemplary process of TAPE-seq, an off-target prediction system of the present application.
  • FIGS. 10 to 15 show the results of enrichment of GFP-positive cells. Specifically, FIGS. 10 and 11 show results for HEK293T. 12 to 13 are results for HeLa. 14 to 15 are results for K562.
  • Figure 16 shows the number of candidate off-target sites found by TAPE-seq according to incubation time after transfection of HEK294T cells with HEK4 (+2G to T) pegRNA.
  • FIG. 17 is a graph showing the copy numbers of piggyBac constructs found in cells through quantitative PCR for each amount of PB plasmid (PiggyBac plasmid).
  • 18 is a graph showing the tagmentation rate at the on-target site for each amount (ng) of piggyBac plasmid used to transfect HEK293T.
  • 19 is a graph showing the tagmentation rate at off-target site 1 1 for each amount (ng) of piggyBac plasmid used to transfect HEK293T.
  • FIG. 20 shows the analysis results of the tagmentation rate for each length of the probe sequence.
  • the tag insertion rate at the on-target site was analyzed.
  • 21 shows the analysis results of the tagmentation rate for each length of the probe sequence. The rate of tag insertion at off-target sites was analyzed.
  • FIG. 25 shows results of research on tagmantations with and without prime editing in 10 different on-target and off-target sites.
  • FIG. 26 to 28 show comparison results of HEK4 pegRNA off-target sites predicted by TAPE-seq and verified sites.
  • Figure 26 shows the comparison results for the off-target site of HEK4 (+2 G to T) pegRNA predicted by TAPE-seq and the verified site.
  • Figure 27 HEK4 (+3 TAA ins) validated sites; Off-target site of HEK4 (+2 G to T) predicted by TAPE-seq using Mi-seq and off-target site of HEK4 (+2 G to T) predicted by TAPE-seq using Hi-seq binding of sites; and HEK4 (+3 TAA ins) (Mi-seq) predicted by TAPE-seq.
  • Figure 28 HEK4 (+2 G to T) verified sites; Off-target site of HEK4 (+2 G to T) predicted by TAPE-seq using Mi-seq and off-target site of HEK4 (+2 G to T) predicted by TAPE-seq using Hi-seq binding of sites; and HEK4 (+3 TAA ins) (Mi-seq) predicted by TAPE-seq.
  • 29 to 38 relate to comparison of results predicted by TAPE-seq and results predicted through other off-target prediction methods.
  • 29 shows the results for HEK4 (+2 G to T) pegRNA.
  • 30 shows the results for HEK4 (+3 TAA ins) pegRNA.
  • 31 shows the results for EMX1 (+5 G to T) pegRNA.
  • 32 shows the results for FANCF (+6 G to C) pegRNA.
  • 33 shows the results for HEK3 (+1 CTT ins) pegRNA.
  • 34 shows the results for RNF2 (+6 G to A) pegRNA.
  • 35 shows the results for DNMT1 (+6 G to C) pegRNA.
  • 36 shows the results for HBB (+4 A to T) pegRNA.
  • 37 shows the results for RUNX1 (+6 G to C) pegRNA.
  • 38 shows the results for VEGFA (+5 G to T) pegRNA.
  • FIG. 39 shows analysis results for verified off-targets missed in each prediction method, related to the results of FIGS. 29 to 38 .
  • 40 shows analysis results for tagmentation rates of PE2 TAPE-seq and PE4 TAPE-seq.
  • 41 to 43 show comparison results for off-targets predicted by PE2 TAPE-seq, off-targets predicted by PE4 TAPE-seq, and true off-targets. True off-targets were verified through targeted deep sequencing. 41 is a result related to HEK293T. 42 is a result related to HeLa. 43 is a result related to K562.
  • 44 presents the analysis results for a summary of the number of missed target sites associated with FIGS. 41-43. 44 (a) shows the analysis results for each prediction method. 44 (b) shows the analysis results for each cell.
  • 45 to 47 compare TAPE-seq off-target prediction results and verification results for each cell.
  • 45 compares verification results in HEK293T with TAPE-seq prediction results in each cell.
  • 46 compares the verification results in HeLa cells and the TAPE-seq prediction results in each cell.
  • 47 compares the verification results in K562 cells and the TAPE-seq prediction results in each cell.
  • 49 is an analysis result of TAPE-seq tagmentation rate using PE2, PE2-nuclease, and PEmax-nuclease used together with epegRNA.
  • 50 to 54 show off-targets predicted by each TAPE-seq (PE2 TAPE-seq, PE2-nuclease TAPE-seq, and TAPE-seq using PEmax-nuclease and epegRNA) and verified off-targets. Shows the result of comparing the target site. 50 shows the results for HEK4 (+2 G to T) pegRNA (or epegRNA) and HEK4 (+3 TAA ins) pegRNA. 51 shows the results for HBB (+4 A to T) pegRNA and the results for DNMT1 (+6 G to C) pegRNA.
  • 52 shows the results for VEGFA (+5 G to T) pegRNA and EMX1 (+5 G to T) pegRNA.
  • 53 shows the results for FANCF (+6 G to C) pegRNA and the results for HEK3 (+1 CTT ins) pegRNA.
  • 54 shows the results for RNF2 (+6 G to A) pegRNA and RUNX1 (+6 G to C) pegRNA.
  • 55 to 59 show off-target prediction results of nDigenome-seq, GUIDE-seq, and TAPE-seq (TAPE-seq using PEmax-nuclease and epegRNA), and comparison results of verified off-targets.
  • . 55 shows the results for HEK4 (+2 G to T) pegRNA and HEK4 (+3 TAA ins) pegRNA.
  • 56 shows the results for HBB (+4 A to T) pegRNA and the results for DNMT1 (+6 G to C) pegRNA.
  • 57 shows the results for VEGFA (+5 G to T) pegRNA and EMX1 (+5 G to T) pegRNA.
  • 58 shows the results for FANCF (+6 G to C) pegRNA and HEK3 (+1 CTT ins) pegRNA.
  • 59 shows the results for RNF2 (+6 G to A) pegRNA and the results for RUNX1 (+6 G to C) pegRNA.
  • 60 shows analysis results for miss rates of GUIDE-seq, nDigenome-seq, TAPE-seq (PE2), TAPE-seq (PE2-nuclease), and TAPE-seq (using PEmax-nuclease and epegRNA).
  • 61 to 66 show the comparison results of GUIDE-seq, nDigenome-seq, TAPE-seq (PE2), TAPE-seq (PE2-nuclease), and TAPE-seq (PEmax-nuclease and epegRNA) through ROC curves.
  • 61 shows the results for HEK4 (+2 G to T) pegRNA and HEK4 (+3 TAA ins) pegRNA.
  • 62 shows the results for HBB (+4 A to T) pegRNA and the results for DNMT1 (+6 G to C) pegRNA.
  • 63 shows the results for HEK3 (+1 CTT ins) pegRNA.
  • 64 shows the results for EMX1 (+5 G to T) pegRNA and FANCF (+6 G to C) pegRNA.
  • 65 shows the results for RNF2 (+6 G to A) pegRNA and RUNX1 (+6 G to C) pegRNA.
  • Figure 66 shows the results for VEGFA (+5 G to T) pegRNA.
  • FIGS. 61 to 66 shows analysis results for an area under an ROC curve calculated based on the analysis results of FIGS. 61 to 66 .
  • 68 to 87 are analysis results of editing patterns of off-target sites analyzed through targeted deep sequencing.
  • 68 shows results related to editing patterns induced through HEK4 (+3 TAA ins) pegRNA.
  • 69 to 71 are results related to editing patterns induced through HEK4 (+2 G to T) pegRNA.
  • 72 to 75 show the results of editing patterns at verified off-target sites related to HEK4 (+2 G to T) pegRNA.
  • Figure 76 shows the results of the editing pattern at the validated off-target site related to HBB (+4 A to T) pegRNA.
  • 77 to 80 show the results of editing patterns at verified off-target sites related to HEK4 (+3 TAA ins) pegRNA.
  • 81-82 show the results in HeLa cells.
  • results for HEK4 (+3 TAA ins) pegRNA and HEK4 (+2 G to T) pegRNA are shown.
  • 83-84 show the results in K562 cells.
  • results for HEK4 (+3 TAA ins) pegRNA and HEK4 (+2 G to T) pegRNA are shown.
  • 85 to 87 show the results of the editing pattern at the validated off-target site of TAPE-seq performed using PEmax-nuclease.
  • results for HEK4 (+2 G to T) pegRNA, DNMT1 (+6 G to C) pegRNA, HBB (+4 A to T) pegRNA, and VEGFA (+5 to T) pegRNA are shown.
  • 88 to 90 show analysis results of ROC curves constructed using the number of mismatches in each region (target region, PBS, RT template) of tpegRNA.
  • 88 shows the results for HEK4 (+2 G to T) pegRNA, HEK4 (+3 TAA ins) pegRNA, and HBB (+4 A to T) pegRNA.
  • 89 shows the results for HEK3 (+1 CTT ins) pegRNA, FANCF (+6 G to C) pegRNA, and EMX1 (+5 G to T) pegRNA.
  • 90 shows the results for DNMT1 (+6 G to C) pegRNA, RUNX1 (+6 G to C) pegRNA, and VEGFA (+5 G to T) pegRNA.
  • FIG. 91 shows analysis results for an area under the ROC curve calculated based on the analysis results of FIGS. 88 to 90 .
  • the term "linked” or “linked” means that two or more elements present in one conceptualizable structure are connected directly or indirectly (eg, through another element such as a linker), and , It is not intended that other additional elements cannot exist between the two or more elements.
  • a statement such as “Element B connected to Element A” may be used when one or more other elements are included between Elements A and B (i.e., Element A is connected to Element B through one or more other elements) and It is intended to include all cases where one or more other elements do not exist between element A and element B (ie, when element A and element B are directly connected), and should not be construed as limiting.
  • sequence identity is a term used in relation to the degree of similarity between two or more sequences.
  • sequence identity is used with terms referring to a referenced sequence and terms indicating a ratio (eg, percentage).
  • sequence identity can be used to describe a sequence that is similar or substantially identical to a referenced nucleotide sequence. When described as "a sequence having at least 90% sequence identity with sequence A", the referenced sequence here is sequence A.
  • the percentage of sequence identity can be calculated by aligning a reference sequence with a sequence that is the subject of the percentage determination of sequence identity, and the percentage of sequence identity is a mismatch for one or more nucleotides, a deletion ( deletion), and insertion.
  • the method for calculating and/or determining the percentage of sequence identity is not otherwise limited and can be calculated and/or determined through a reasonable method or algorithm that can be used by a person skilled in the art.
  • amino acid sequence when describing an amino acid sequence in this specification, it is written in the direction from the N-terminal to the C-terminal using the one-letter notation of amino acids or the three-letter notation.
  • RNVP when expressed as RNVP, it means a peptide in which arginine, asparagine, valine, and proline are sequentially connected from the N-terminal to the C-terminal.
  • Thr-Leu-Lys it means a peptide in which threonine, leucine, and lysine are sequentially connected from the N-terminal to the C-terminal.
  • amino acids that cannot be expressed by the one-letter notation other letters are used to indicate them, and additionally supplemented descriptions are provided.
  • Each amino acid notation method is as follows: Alanine (Ala, A); Arginine (Arg, R); Asparagine (Asn, N); Aspartic acid (Asp, D); Cysteine (Cys, C); Glutamic acid (Glu, E); Glutamine (Gln, Q); Glycine (Gly, G); Histidine (His, H); Isoleucine (Ile, I); Leucine (Leu, L); Lysine (Lys K); Methionine (Met, M); Phenylalanine (Phe, F); Proline (Pro, P); Serine (Ser, S); Threonine (Thr, T); Tryptophan (Trp, W); Tyrosine (Tyrosine; Tyr, Y); and Valine (Val, V).
  • each nucleoside when meaning a base, each can be interpreted as adenine (A), thymine (T), cytosine (C), guanine (G), or uracil (U) itself, and when meaning a nucleoside, Each can be interpreted as adenosine (A), thymidine (T), cytidine (C), guanosine (G) or uridine (U), and when a nucleotide is meant in a sequence, each nucleoside It should be construed as meaning a nucleotide containing
  • Nucleotide sequences e.g., DNA sequences, RNA sequences, DNA/RNA hybrid sequences
  • Nucleotide sequences e.g., DNA sequences, RNA sequences, DNA/RNA hybrid sequences
  • Amino acid sequences disclosed herein are to be understood as being disclosed in the N-terminal to C-terminal direction, unless otherwise specified or stated otherwise.
  • target sequence refers to a specific sequence recognized by a guide RNA or gene editing tool (e.g., Cas/traditional gRNA complexes and Prime Editor enzyme/pegRNA complexes, etc.) to cleave a target gene or target nucleic acid. it means.
  • the target sequence may be appropriately selected depending on the purpose.
  • target sequence is a sequence included in a target gene or target nucleic acid sequence, and may refer to a sequence complementary to a spacer sequence included in a guide RNA (eg, pegRNA) (in this case, the target sequence may complementarily bind with the spacer sequence of the guide RNA).
  • target sequence is a sequence included in a target gene or target nucleic acid sequence, and may refer to a sequence complementary to a sequence having complementarity with a spacer sequence included in a guide RNA (in this case, the target sequence may refer to a sequence included in the guide RNA may have a sequence substantially identical to the spacer sequence of).
  • the target sequence is used to refer to a sequence having complementarity to the spacer sequence included in the guide RNA and/or a sequence substantially identical to the spacer sequence of the guide RNA, and should not be construed as limiting.
  • a target sequence may be initiated by a sequence comprising a PAM sequence.
  • a target sequence may be initiated by a sequence that does not include a PAM sequence.
  • a target sequence will be interpreted appropriately according to the context in which it is described.
  • the spacer sequence is determined considering the sequence of the target gene or target nucleic acid and the PAM sequence recognized by the editing protein of the CRISPR/Cas system.
  • the target sequence may refer to only a sequence of a specific strand that complementarily binds to the guide RNA of the CRISPR/Cas complex, may refer to only a sequence of a specific strand that does not complementarily bind to the guide RNA, or the specific strand. It may also refer to the entire target duplex including a portion, which is appropriately interpreted depending on the context.
  • target sequence may be used in reference to an on-target sequence, and the term “target sequence” may be used in reference to an off-target sequence. That is, in some embodiments, an intended target sequence may be referred to as an on-target sequence, and an unintended target sequence may be referred to as an off-target sequence.
  • an on-target sequence may be referred to as a target sequence (in which case, for example, the spacer sequence of the guide RNA and the target sequence may be substantially identical).
  • an off-target sequence may be referred to as a target sequence (in which case, for example, there may be zero or one or more mismatches between the spacer sequence of the guide RNA and the target sequence).
  • target sequence may be appropriately interpreted according to the context of the relevant paragraph.
  • spacer binding strand refers to a guide nucleic acid (eg, guide RNA) in a gene editing system (eg, a CRISPR / Cas gene editing system and a prime editing system) involving a spacer of a guide nucleic acid. It is used to refer to a strand comprising a sequence that forms a complementary bond with a sequence of part or all of a region. DNA molecules, such as genomes, usually have a double-stranded structure.
  • a strand that has a sequence complementary to a sequence of part or all of the spacer region of the guide nucleic acid, thereby forming a complementary bond with the sequence of part or all of the spacer region may be referred to as a spacer binding strand.
  • spacer non-binding strand refers to a guide nucleic acid (eg, guide RNA) in gene editing systems (eg, CRISPR/Cas gene editing systems and prime editing systems, etc.) involving guide nucleic acids. It is used to refer to a strand other than the 'spacer binding strand', which is a strand containing a sequence that forms a complementary bond with a sequence of part or all of the spacer region of .
  • DNA molecules, such as genomes usually have a double-stranded structure, and the term “spacer non-binding strand” can be used to refer to the other strand in the double-strand that is not the spacer-binding strand.
  • a strand comprising a sequence forming a complementary bond with a part or all of a sequence of a spacer region of pegRNA is referred to as a 'spacer binding strand'
  • a primer of pegRNA A strand comprising a sequence that forms a complementary bond with a primer binding site (PBS) may be referred to as a 'spacer non-binding strand'.
  • the spacer non-binding strand is nicked by Cas9(H840A), and a 3' DNA flap is formed on the spacer non-binding strand.
  • DNA molecules such as genomes usually have a double helix structure consisting of two strands.
  • a DNA molecule composed of these two strands may be referred to as double-stranded DNA.
  • the two strands of a DNA molecule need to be referred to separately.
  • One strand of a DNA molecule may be referred to as the first strand.
  • the strand other than the first strand may be referred to as the second strand.
  • the first strand and the second strand may be set arbitrarily.
  • the other strand of a DNA molecule when either strand of a DNA molecule is referred to as a first strand, the other strand of a DNA molecule may be referred to as a second strand.
  • the spacer binding strand may be referred to as the first strand.
  • the spacer non-binding strand may be referred to as the first strand.
  • either strand of the DNA molecule may be referred to as a first strand, if necessary, and the other strand may be referred to as a second strand.
  • upstream and downstream are relative terms that define the linear position of at least two elements located on a nucleic acid molecule (whether single-stranded or double-stranded) in a 5' to 3' direction. For example, when a first element is described as being upstream of a second element in a nucleic acid molecule, where the first element is located somewhere 5' to the second element. For example, if a single-nucleotide polymorphism (SNP) is on the 5' side of the nick site, the SNP can be described as being located upstream of the Cas9-induced nick site.
  • SNP single-nucleotide polymorphism
  • a first element is described as being downstream of a second element in a nucleic acid molecule, wherein the first element is located somewhere in the 3' direction with respect to the second element.
  • the SNP can be described as being located downstream of the nick site induced by Cas9.
  • a nucleic acid molecule can be DNA (double or single stranded), RNA (double or single stranded), or a hybrid of DNA and RNA.
  • nuclear localization signal or sequence refers to an amino acid sequence that promotes import of a protein into the cell nucleus. For example, import of the protein can be facilitated by nuclear transport.
  • NLSs are known in the art and will be apparent to those skilled in the art. For example, exemplary sequences of NLSs are described in PCT Application Application No. PCT/EP2000/011690 (Publication No. WO2021/038547), the contents of which are incorporated herein by reference for exemplary NLSs.
  • the NLS comprises the amino acid sequence PKKKRKV (SEQ ID NO: 01), KRPAATKKAGQAKKKK (SEQ ID NO: 02), PAAKRVKLD (SEQ ID NO: 03), RQRRNELKRSP (SEQ ID NO: 04), NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY (SEQ ID NO: 05), RMRIZFKNKGKDTAELRRRRVEV SVELRKAKKDEQILKRRNV (SEQ ID NO: 06) , VSRKRPRP (SEQ ID NO: 07), PPKKARED (SEQ ID NO: 08), PQPKKKPL (SEQ ID NO: 09), SALIKKKKKMAP (SEQ ID NO: 10), DRLRR (SEQ ID NO: 11), PKQKKRK (SEQ ID NO: 12), RKLKKKIKKL (SEQ ID NO: 13), REKKKFLKRR (SEQ ID NO: 14), KKRKGDEVDG
  • One or more NLSs may optionally be fused to a protein for gene editing, such as a Cas protein or a prime editor protein.
  • a protein for gene editing such as a Cas protein or a prime editor protein.
  • An NLS fused to a protein can be used to facilitate the movement of the linked protein into the desired location, the nucleus.
  • protein As used herein, the terms “protein”, “peptide” and “polypeptide” are used interchangeably and refer to a polymer of amino acid residues linked by peptide (amide) bonds.
  • the term refers to a protein, peptide or polypeptide of any size, structure, or function. Typically, a protein, peptide or polypeptide will be at least 3 or more amino acids in length. In some embodiments, a protein, peptide or polypeptide may refer to an individual protein or a combination of proteins.
  • a protein, peptide, or polypeptide may include an individual protein, a fusion protein in which two or more elements are fused, wherein at least one of the two elements is a protein, and two or more elements (where at least one of the two elements is a protein). is a protein) can be used as a term encompassing all complex proteins in which complexes are formed.
  • one or more of the amino acids in a protein, peptide or polypeptide may be modified.
  • modifications included in the protein, peptide, or polypeptide at this time may be, for example, chemical substances such as carbohydrate groups, hydroxyl groups, phosphate groups, farnesyl groups, isofarnesyl groups, fatty acid groups, conjugation, functionalization or other modifications. It may be modified by adding a linker or the like for
  • a protein, peptide or polypeptide may be a single molecule or may be a multi-molecular complex.
  • a protein, peptide or polypeptide may be a naturally occurring protein.
  • a protein, peptide or polypeptide may be a fragment of a protein.
  • a protein, peptide or polypeptide may be naturally occurring, recombinant or synthetic, or any combination thereof.
  • Any of the proteins provided herein can be produced by any method known in the art.
  • any protein provided herein can be produced via recombinant protein expression and purification, which is particularly suited for fusion proteins comprising peptide linkers.
  • Inventions for recombinant protein expression and purification are well known and are described in Green, Michael R., and Joseph Sambrook. "Molecular cloning.” A Laboratory Manual 4th (2012).], the entire contents of which are incorporated herein by reference.
  • the term "functional equivalent” or “equivalent” refers to a second molecule or conceptualizable element that is functionally equivalent to a first molecule or conceptualizable element, but is not necessarily structurally equivalent.
  • “Cas9 equivalent” refers to a protein that has the same or substantially the same or similar function as Cas9, but does not necessarily have the same amino acid sequence.
  • X protein when described as "X protein”, the term X protein can be interpreted to encompass functional equivalents of the X protein.
  • a "functional equivalent” or “equivalent” of protein X is any homologue, paralog, ortholog, fragment, naturally occurring, engineered, or modified protein X that retains an equivalent function. , mutated, and synthesized versions.
  • Cas protein when used, the term Cas protein may be interpreted to encompass equivalents of the Cas protein (eg, Cas nickase, etc.).
  • reverse transcriptase the term reverse transcriptase may be interpreted to encompass equivalents of reverse transcriptase.
  • circular permutant refers to a protein or polypeptide comprising a circular permutation, which is a change in the structural organization of a protein accompanied by a change in the order of amino acids appearing in the amino acid sequence of the protein. refers to A circular permutation is a protein that has its N- and/or C-terminus altered compared to its wild-type counterpart, eg, the wild-type C-terminal half of the protein becomes the new N-terminal half.
  • a circular permutation (or CP) is, for example, the primary of a protein, which splits its sequence at different positions to create new adjacent N- and C-termini, while simultaneously connecting its N- and C-termini with peptide linkers.
  • proteins can be produced that have different connectivity but often the same or similar three-dimensional (3D) shape.
  • Protein structures can be created that can include personalized or altered characteristics including, for example, reduced proteolytic susceptibility, improved catalytic activity, altered substrate or ligand binding, and/or improved thermostability.
  • Circular permutation proteins can occur in nature (eg, concanavalin A and lectins). Additionally, circular permutations can occur as a result of post-translational modifications or can be manipulated using recombination techniques. Circular permutations of a particular protein may be included in equivalents of a particular protein.
  • circular permutation Cas9 refers to any Cas9 protein or variant thereof arising from a circular permutation, wherein its N- and C-termini are locally rearranged.
  • This prototypical permutation Cas9 protein (“CP-Cas9”) or variant thereof retains the ability to bind DNA when complexed with a guide RNA (gRNA).
  • gRNA guide RNA
  • CRISPR-Cas9 circular permutants as programmable scaffolds for genome modification. Cell 176.1-2 (2019): 254-267.], each of which is incorporated herein by reference.
  • the disclosure herein does not concern the new CP-Cas9, as long as any previously known CP-Cas9 is considered or the resulting prototypical permutation protein retains the ability to bind DNA when complexed with gRNA. Includes Cas9.
  • the sequence of an exemplary CP-Cas9 protein is disclosed in document WO2020191233A1 (application number PCT/US2020/023712), the entire contents of which are incorporated herein by reference.
  • fusion protein refers to a hybrid polypeptide comprising proteins or domains derived from at least two different elements, wherein at least one element is a protein.
  • a fusion protein can be a hybrid polypeptide comprising proteins derived from two different proteins. One protein is located either at the amino-terminal (N-terminal) portion of the fusion protein or at the carboxy-terminal (C-terminal) portion of the fusion protein, hence an "amino-terminal fusion protein” or “carboxy-terminal fusion protein” proteins” can be formed.
  • a fusion protein may be used to refer to a single molecular form of elements in which two or more elements are covalently linked.
  • a fusion protein may be used to refer to a multimolecular complex of elements in which two or more elements are non-covalently linked.
  • linker refers to a molecule that connects two other molecules or moieties.
  • the linker may be an amino acid sequence.
  • Cas9 can be linked to a reverse transcriptase by an amino acid linker sequence to form a fusion protein.
  • the linker may be a nucleotide sequence.
  • crRNA and tracrRNA are linked via a linker, and a single-stranded guide RNA can be formed.
  • a linker can be an organic molecule, group, polymer or chemical moiety.
  • a linker can be, but is not limited to, 1 to 200 amino acids in length. In some embodiments, a linker can be, but is not limited to, 1 to 500 nucleotides in length. Longer linkers are also contemplated.
  • the term “dual specific ligand” or “dual specific moiety” refers to a ligand that binds to two different ligand-binding domains.
  • a ligand is a small molecule compound, peptide, or polypeptide.
  • the ligand-binding domain is a dimerization domain that can be installed on a protein as a peptide tag.
  • two proteins, each comprising identical or different dimerization domains can be induced to dimerize through binding of each dimerization domain to a dual specific ligand.
  • “dual specific ligand” can equally refer to a "chemical inducer of dimerization” or a "CID”.
  • dimerization domain refers to a ligand-binding domain that binds to the binding moiety of a dual specific ligand.
  • a first dimerization domain binds a first binding moiety of a dual-specific ligand and a second dimerization domain binds a second binding moiety of the same dual-specific ligand.
  • the first and second proteins can dimerize in the presence of the dual specific ligand. wherein the dual specific ligand has at least one moiety that binds to the first dimerization domain and at least another moiety that binds to the second dimerization domain.
  • a dimerization domain (eg, a first dimerization dobain) may be linked to the Cas protein.
  • a dimerization domain eg, a second dimerization domain
  • nickase refers to a Cas protein in which one of the two nuclease domains has been inactivated. Nickase can cleave only one strand of a target DNA molecule.
  • the term “flap endonuclease” refers to an enzyme that catalyzes the removal of a 5' single-stranded DNA flap. These are enzymes that process the removal of 5' flaps formed during cellular processes including DNA replication.
  • the prime editing method may use an endogenous flap endonuclease or an exogenously provided one to remove the 5' flaps of endogenous DNA formed at the target site during prime editing. Flap endonucleases are known in the art and are described in Patel, Nikesh, et al.
  • FEN1 flap endonucleases pass 5′-flaps through a flexible arch using a disorder-thread-order mechanism to confer specificity for free 5′-ends.
  • An exemplary flap endonuclease may be FEN1.
  • the sequence of FEN1 is disclosed in document WO2020191233A1 (Application No. PCT/US2020/023712).
  • an effective amount refers to an amount of a biologically active agent sufficient to elicit a desired biological response.
  • an effective amount of a prime editor protein can refer to an amount of protein sufficient to edit a target site nucleotide sequence, eg, a genome.
  • an effective amount of a fusion protein comprising a prime editor protein provided herein, e.g., a nickase Cas9 domain and a reverse transcriptase, is specifically bound by the fusion protein and It can refer to the amount of fusion protein sufficient to induce editing of the intended target site being edited.
  • an agent such as a fusion protein, a nuclease, a hybrid protein, a protein dimer, a complex of a protein (or protein dimer) and a polynucleotide, or a polynucleotide may vary. factors such as the biological response desired, the particular gene to be edited, the genome to be edited, the target site to be edited, the cell or tissue to be targeted, and the agent to be used.
  • the term "about” means a degree close to a quantity, 30, 25, 20, 30, 25, 20, 30, 25, 20, 30, 25, 20, means an amount, level, value, number, frequency, percentage, dimension, size, amount, weight or length that varies by 25, 10, 9, 8, 7, 6, 5, 4, 3, 2 or 1%.
  • CRISPR is a family of DNA sequences (ie CRISPR clusters) in bacteria and archaea that represent snippets of prior infections by viruses that have invaded prokaryotes. Fragments of DNA are used by prokaryotic cells to detect and destroy DNA from subsequent attack by similar viruses, and together with CRISPR-associated protein (Cas protein) and arrays of CRISPR-associated RNAs form the prokaryotic immune defense system. organize effectively. CRISPR clusters are transcribed and processed into CRISPR RNA (crRNA). Subsequently, Cas9/crRNA/tracrRNA intranucleolytically cleaves the linear or circular dsDNA target complementary to the RNA.
  • CRISPR clusters are transcribed and processed into CRISPR RNA (crRNA). Subsequently, Cas9/crRNA/tracrRNA intranucleolytically cleaves the linear or circular dsDNA target complementary to the RNA.
  • the target strand that is not complementary to the crRNA is first endolytically cleaved and then exotolytically trimmed 3'-5'.
  • DNA-binding and cleavage typically requires a protein and two RNAs.
  • single guide RNAs sgRNAs, single guide RNAs, or simply gRNAs
  • single-stranded RNAs are engineered to mix aspects of both crRNAs and tracrRNAs into a single RNA species. See, eg, Jinek, Martin, et al. "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity.” science 337.6096 (2012): 816-821.], the entire contents of which are incorporated herein by reference.
  • Cas9 recognizes short motifs (PAMs or protospacer adjacent motifs) within CRISPR repeat sequences to aid in self versus non-self discrimination.
  • CRISPR biology as well as the Cas9 nuclease sequence and structure, are well known to those skilled in the art (see, e.g., Ferretti, Joseph J., et al. "Complete genome sequence of an M1 strain of Streptococcus pyogenes.” Proceedings of the National Academy of Sciences 98.8 (2001): 4658-4663.; Deltcheva, Elitza, et al.
  • Cas9 orthologs have been described in a variety of species, including but not limited to S. pyogenes ( Streptococcus pyogenes ) and S. thermophilus (Streptococcus thermophilus) .
  • Cas9 nucleases and sequences will be apparent to those skilled in the art based on this disclosure, and such Cas9 nucleases and sequences are described in Chylinski, Krzysztof, Anais Le Rhun, and Emmanuelle Charpentier. "The tracrRNA and Cas9 families of type II CRISPR-Cas immunity systems.” RNA biology 10.5 (2013): 726-737.].
  • the CRISPR/Cas system developed from the above-described CRISPR uses a Cas protein derived from the CRISPR system of a cell and a guide nucleic acid that guides the Cas protein to a target region to direct a desired DNA molecule (eg, cell genome) to a desired location. It is a technique of editing in For example, a Cas protein together with a guide RNA (gRNA) forms a Cas/gRNA complex. The Cas/gRNA complex is guided to the desired location through the guide RNA included therein. The Cas protein included in the Cas/gRNA complex induces a double strand break (DSB) or a nick (in the case of a nickase) at a desired location.
  • DSB double strand break
  • nick in the case of a nickase
  • a Cas protein may be referred to as a CRISPR enzyme.
  • CRISPR/Cas system For an understanding of the CRISPR/Cas system, reference may be made to the document WO2018/231018 (International Publication No.), which is incorporated herein by reference in its entirety. Cas proteins (or CRISPR enzymes) that can be used in the CRISPR/Cas system are additionally described below to help engineers understand.
  • Cas protein in the context of the CRISPR/Cas system, can be used to refer to a protein that helps to induce editing or to generate a DSB or nick in a region of interest to achieve editing.
  • the term Cas protein may be used to encompass equivalents thereof.
  • Cas proteins have nuclease activity that cleave nucleic acids.
  • some Cas proteins can induce double-strand-breaks (DSBs), which can be referred to as Cas nucleases.
  • DSBs double-strand-breaks
  • Cas proteins can induce nicks, which may be referred to as Cas nickases.
  • Some Cas proteins are modified to have no nuclease activity, which can be referred to as dead Cas.
  • Cas proteins can be used interchangeably with CRISPR enzymes.
  • a typical example of a Cas protein is Cas9.
  • Cas protein is used to collectively refer to an editing protein capable of generating a DSB or nick in a target region, or an inactive Cas protein used in the CRISPR/Cas system.
  • Cas proteins include Cas9, Cas9 variants, Cas9 nickase (nCas9), dead Cas9, Cpf1 (Cas12a) (Type-V CRISPR-Cas system), C2c1 (Cas12b) (Type V CRISPR-Cas system) , C2c2 (Cas13a) (Type VI CRISPR-Cas system) and C2c3 (Type V CRISPR-Cas system), but are not limited thereto.
  • C2c2 is a single-component programmable RNA-guided RNA-targeting CRISPR effector.” Science 353.6299 (2016): aaf5573.], the entire contents of which are incorporated herein by reference.
  • the Cas protein is Streptococcus pyogenes, Streptococcus thermophilus, Streptococcus sp., Staphylococcus aureus, Campylobacter Campylobacter jejuni, Nocardiopsis rougevillei, Streptomyces pristinaespiralis, Streptomyces viridochromogenes, Streptomyces viridochromogenes Streptomyces viridochromogenes, Streptosporangium roseum, Streptosporangium roseum, AlicyclobacHlus acidocaldarius, Bacillus pseudomycoides ), Bacillus selenitireducens, Exiguobacterium sibiricum, Lactobacillus delbrueckii, Lactobacillus salivarius, Microscilla marina , Burkholderiales bacterium, Polaromonas naphthalenivorans, Polaromonas sp., Cro
  • Cas9 protein which is a representative example of Cas protein, is exemplified.
  • Cas9 protein a protein having a nuclease activity for cleaving nucleic acids or a protein in which the nuclease activity is inactivated is referred to as a Cas9 protein.
  • the term Cas9 protein is used to encompass equivalents thereof.
  • the Cas9 protein is also sometimes referred to as Cas9 nuclease, casn1 nuclease or CRISPR (Clustered Regularly Interspaced Short Palindromic Repeat)-associated nuclease.
  • the Cas9 protein corresponds to Class 2, Type II in the CRISPR/Cas system classification, and Streptococcus pyogenes, Streptococcus thermophilus, Streptococcus sp., Streptomyces Streptomyces pristinaespiralis, Streptomyces viridochromogenes, Streptomyces viridochromogenes, Streptosporangium roseum, or Streptomyces viridochromogenes and the Cas9 protein derived from Streptosporangium roseum.
  • the sequence and structure of the Cas9 protein is well known to those skilled in the art (see, eg, Ferretti, Joseph J., et al.
  • the DNA cleavage domain of Cas9 is known to contain two subdomains: an NHN nuclease subdomain and a RucC1 subdomain.
  • the NHN subdomain cleaves the strand complementary to the gRNA
  • the RuvC1 subdomain cleaves the non-complementary strand.
  • Inactivation of any one of these subdomains can silence the nuclease activity of the inactivated subdomain, and inactivation of both of these subdomains can silence the entire nuclease activity of Cas9.
  • mutation H840A provides a Cas9 nickase.
  • both mutations D10A and H840A completely inactivate the nuclease activity of S.
  • proteins comprising fragments of Cas9 may be provided.
  • the protein may include any one or more selected from the following two Cas9 domains: the gRNA binding domain of Cas9; and the DNA cleavage domain of Cas9.
  • Cas9 variants may be provided.
  • a Cas9 variant has homology to Cas9 or a fragment thereof.
  • a Cas9 variant is at least about 70% identical, at least about 80% identical, at least about 90% identical, at least about 95% identical, or at least about 96% identical to wild-type Cas9 (eg, SpCas9). identical, at least about 97% identical, at least about 98% identical, at least about 99% identical, at least about 99.5% identical, at least about 99.6% identical, at least about 99.7% identical, or at least about 99.8% identical or may be at least about 99.9% identical.
  • wild-type Cas9 eg, SpCas9
  • the Cas9 variant is 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50 or more amino acid changes.
  • a Cas9 variant may comprise a fragment of Cas9 (eg, a gRNA binding domain and/or a DNA cleavage domain).
  • a fragment of a Cas9 variant is at least about 70% identical, at least about 80% identical, at least about 90% identical, at least about 95% identical, or at least about 96% identical to a corresponding fragment of wild-type Cas9.
  • a fragment of wild-type Cas9 or a fragment of a Cas9 variant is at least 10%, at least 15%, at least 20%, at least 25%, at least 30%, at least 35%, at least 40% of the amino acid length of the corresponding wild-type Cas9 , at least 45%, at least 50%, at least 55%, at least 60%, at least 65%, at least 70%, at least 75%, at least 80%, at least 85%, at least 90%, at least 95%, at least 96%, at least 97%, at least 98%, at least 99%, at least 99.5%, or at least 99.9% or more.
  • a Cas protein associates with a guide nucleic acid to form a Cas/guide nucleic acid complex.
  • a guide RNA gRNA
  • a Cas protein associates with the guide RNA to form a Cas/gRNA complex.
  • the Cas/gRNA complex may be referred to as RNP (Ribonucleoprotein).
  • the Cas/gRNA complex generates a double-strand break (DSB) or nick within the target region containing a sequence corresponding to (e.g., complementary to) the spacer sequence of the guide RNA (gRNA) DSBs or nicks are induced by Cas proteins.
  • the location where the DSB or nick occurs may be near the PAM sequence on the genome.
  • Cas/gRNA targeting involves a protospacer adjacent motif (PAM) on the genome and a spacer sequence of guide RNA.
  • a Cas protein eg, Cas9 directed to the target region by the PAM and the spacer sequence of the guide RNA generates a DSB within the target region.
  • an RNA having a function of guiding a Cas protein to a target region to recognize a specific sequence included in a target DNA molecule is referred to as a guide RNA.
  • the structure of the guide RNA is functionally divided, it can be largely divided into 1) a scaffold sequence portion and 2) a guide domain including a guide sequence.
  • the scaffold sequence portion is a portion that interacts with a Cas protein (eg, Cas9 protein), and is a portion that binds to the Cas protein to form a complex.
  • the scaffold sequence portion includes tracrRNA and crRNA repeat sequence portions, and the scaffold sequence is determined depending on which Cas protein is used.
  • the guide sequence is a portion capable of complementary binding with a portion of a nucleotide sequence of a certain length in a target nucleic acid (eg, a target DNA molecule or a genome of a cell).
  • the guide sequence can be artificially modified and is determined by the target nucleotide sequence of interest associated with the desired gene editing.
  • guide RNA can be described as including crRNA and tracrRNA.
  • crRNAs can include spacers and repeat sequences. A portion of a repetitive sequence of a crRNA is capable of interacting with (eg, complementary binding to) a portion of a tracrRNA.
  • single guide RNA sgRNA in which crRNA and tracrRNA are linked (Jinek, Martin, et al. "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity.” science 337.6096 ( 2012): 816-821.], the entire contents of which are incorporated herein by reference) may be provided. That is, the guide RNA may be provided in two strands, or the guide RNA may be provided in one strand.
  • an sgRNA can be described as comprising a guide domain, a first complementary domain, a linker domain, and a second complementary domain.
  • the sgRNA may include an additional domain including at least one of a proximal domain and a tail domain, but is not limited thereto.
  • the linker domain connects the first complementary domain and the second complementary domain, and part or all of the first complementary domain forms a complementary bond with part or all of the second complementary domain, and eventually, the first complementary domain
  • One complementary domain, a linking domain (including, for example, a polynucleotide linker), and a second complementary domain form a secondary structure such as a loop structure (see PCT Application Application No. PCT/KR2018/006803, See Publication No. WO2018/231018).
  • guide RNA is also associated with a Cas9 equivalent, homologue, ortholog or paralog, whether naturally occurring or non-naturally occurring (eg, engineered or recombinant, etc.) It encompasses equivalent guide nucleic acid molecules that allow for localization to the nucleotide sequence.
  • Cas9 equivalents include Cpf1 (Type-V CRISPR-Cas system), C2c1 (Type V CRISPR-Cas system), C2c2 (Type VI CRISPR-Cas system) and C2c3 (Type V CRISPR-Cas system). and other Cas proteins derived from any type of CRISPR system (e.g., type II, V, VI).
  • C2c2 is a single-component programmable RNA-guided RNA-targeting CRISPR effector.” Science 353.6299 (2016): aaf5573.], the entire contents of which are incorporated herein by reference.
  • the guide RNA used in the traditional CRISPR/Cas system is a 'traditional' guide RNA, as opposed to a modified form of guide RNA called prime editing guide RNA (pegRNA) invented for the prime editing methods and compositions described herein.
  • pegRNA prime editing guide RNA
  • a guide RNA or pegRNA may include any one or more of a spacer, a gRNA core, an extension arm (particularly in a pegRNA), and a transcription terminator. Furthermore, it is not limited thereto and may additionally include various structural elements.
  • a spacer comprises a spacer sequence, and a spacer sequence refers to a sequence within a guide RNA or pegRNA that binds to a sequence within a region comprising a protospacer sequence within a target region.
  • a gRNA core may be referred to as a gRNA scaffold or backbone sequence, and refers to the sequence within a gRNA or pegRNA responsible for binding cas9 or its equivalent.
  • the gRNA core does not contain a spacer or targeting sequence used to guide Cas9 to the target region (target DNA).
  • the extension arm (particularly in pegRNA) installs a single-stranded DNA flap containing the genetic change of interest via a primer binding site (PBS), and a polymerase (e.g., reverse transcriptase) It is an element included in pegRNA containing a DNA synthesis template sequence for An extension arm can be placed at either the 3' or 5' end of the pegRNA and is designed to install the desired genetic change.
  • An extension arm in a pegRNA may be referred to as an extension region.
  • the guide RNA or pegRNA may further include a transcription termination sequence 3' to the molecule.
  • the guide RNA may include a guide domain comprising a guide sequence.
  • Guide sequences may be used interchangeably with spacer sequences.
  • Guide domain may be used interchangeably with spacer.
  • a guide sequence is a part that can be artificially designed and is determined by the target nucleotide sequence of interest.
  • guide sequences can be designed to target sequences adjacent to PAM sequences located on the DNA molecule desired for editing. As described above, localization of the Cas/gRNA complex to the on-target site (e.g., on-target site) is induced.
  • the structure of the guide nucleic acid may vary depending on the type of CRISPR.
  • guide RNA used in the CRISPR/Cas9 gene editing system may have a structure of 5'-[guide domain]-[scaffold]-3'.
  • the guide sequence may have a length of 5 nt to 40 nt. In one embodiment, the guide sequence included in the guide domain of the guide RNA may have a length of 10 nt to 30 nt. In one embodiment, the guide sequence may have a length of 15 nt to 25 nt. In one embodiment, the guide sequence may have a length of 18 nt to 22 nt. In one embodiment, the guide sequence may have a length of 20 nt. In one embodiment, the target sequence, which is a sequence in the genome that forms complementary bonds with the guide sequence (including both the target sequence present on the spacer binding strand and the target sequence present on the spacer non-binding strand), is between 5 nt and 40 nt.
  • the target sequence which is a sequence in the genome that forms a complementary bond with the guide sequence, may have a length of 10 nt to 30 nt or 10 bp to 30 bp. In one embodiment, the target sequence may have a length of 15 nt to 25 nt or 15 bp to 25 bp. In one embodiment, the target sequence may have a length of 18 nt to 22 nt or 18 bp to 22 bp. In one embodiment, the target sequence may have a length of 20 nt or 20 bp.
  • Two conditions may be required for a traditional CRISPR/Cas system to cleave a target DNA molecule.
  • a nucleotide sequence (nucleotide sequence) of a certain length that can be recognized by a Cas protein (eg, Cas9 protein) in a target gene or target nucleic acid.
  • a base sequence (nucleotide sequence) of a certain length recognized by the Cas9 protein is referred to as a Protospacer Adjacent Motif (PAM) sequence.
  • the PAM sequence is a unique sequence determined according to the Cas9 protein.
  • the PAM sequence may be used to cover both the sequence present on the spacer non-binding strand and the sequence present on the spacer binding strand.
  • the Cas/gRNA complex is guided to the target region by a protospacer adjacent motif (PAM) sequence on a target DNA molecule (eg, the genome of a cell) and a guide sequence of the gRNA.
  • PAM protospacer adjacent motif
  • the PAM sequence may be located on the guide sequence non-binding strand of the guide RNA, rather than the guide sequence binding strand.
  • the PAM sequence may be independently determined depending on the type of Cas protein used.
  • the PAM sequence can be any one of the following (starting in the 5' to 3' direction): NGG (SEQ ID NO: 19); NNNNRYAC (SEQ ID NO: 20); NNAGAAW (SEQ ID NO: 21); NNNNGATT (SEQ ID NO: 22); NNGRR(T) (SEQ ID NO: 23); TTN (SEQ ID NO: 24); and NNNVRYAC (SEQ ID NO: 25).
  • N can independently be A, T, C or G.
  • Each R may independently be A or G.
  • Each Y may independently be C or T.
  • Each W may independently be A or T.
  • the PAM sequence may be NGG (SEQ ID NO: 19).
  • the PAM sequence may be NNAGAAW (SEQ ID NO: 21).
  • the PAM sequence may be NNNNGATT (SEQ ID NO: 22).
  • the PAM may be NNNVRYAC (SEQ ID NO: 25).
  • the PAM sequence may be linked to the 3' end of a target sequence present on the spacer non-binding strand, wherein the target sequence present on the spacer non-binding strand refers to a sequence that does not bind the guide RNA.
  • the PAM sequence may be located at the 3' end of the target sequence present on the spacer non-binding strand.
  • a target sequence present on the spacer non-binding strand refers to a sequence that does not bind with the guide sequence of the guide RNA.
  • the target sequence present on the spacer non-binding strand is complementary to the target sequence present on the spacer binding strand.
  • the location where the DSB or nick occurs may be near the PAM sequence on the genome.
  • the location at which a DSB or nick occurs can be -0 to -20 or +0 to +20 relative to the 5' or 3' end of the PAM sequence present in the spacer non-binding strand.
  • the location where the DSB or nick occurs may be -1 to -5 or +1 to +5 of the PAM sequence on the spacer non-binding strand.
  • spCas9 is known to cut between the third and fourth nucleotides upstream of the PAM sequence.
  • the traditional CRISPR/Cas system refers to a system capable of editing DNA molecules using Cas proteins and traditional gRNAs.
  • an environment in which a DNA molecule to be edited and a Cas/gRNA complex can contact may be provided.
  • Cas protein or a nucleic acid encoding the same and guide RNA or a nucleic acid encoding the same are introduced into the cell, through which the Cas protein and guide RNA can contact the genomic DNA of the cell. environment can be achieved.
  • the Cas protein and guide RNA can come into contact with the genomic DNA of a cell, the Cas protein and guide RNA can form a Cas/gRNA complex.
  • the Cas/gRNA complex can be formed when both the Cas protein and the gRNA are present in an appropriate environment, even if the cell's genomic DNA is not present.
  • the guide sequence of the gRNA included in the Cas/gRNA complex and the PAM sequence on the genome are involved to guide the Cas/gRNA complex to a target region where a predesigned target sequence is present.
  • Cas/gRNA complexes directed to the target region generate a DSB (eg, in the case of Cas9) within the target region.
  • DSB eg, in the case of Cas9
  • gene editing at the target region or target site is achieved while the DSB-generated (cut) DNA is repaired by the DNA repair process.
  • Two major pathways for repair of DSBs in DNA are homology-directed repair (HDR) and nonhomologous end joining (NHEJ).
  • HDR a dual naturally occurring DNA repair system, can be used to repair genomes in a variety of organisms, including humans.
  • HDR-mediated repair may be mainly used to insert a desired sequence into a target region or target position or induce a specific point mutation, but is not limited thereto.
  • HDR mediated repair can be performed through the DNA repair system HDR and HDR templates (eg, donor templates that can be supplied from outside the cell).
  • HDR templates eg, donor templates that can be supplied from outside the cell.
  • NHEJ refers to the process of repairing DSBs in DNA and, in contrast to HDR, joins the severed ends without an HDR template. In other words, HDR templates are not required during the repair process.
  • NHEJ may be a DNA repair mechanism that can be selected primarily to induce indels.
  • An indel may refer to a mutation in which some nucleotides are deleted in the middle, an arbitrary nucleotide is inserted, and/or the insertions and deletions are incorporated in the nucleotide sequence of the nucleic acid prior to gene editing.
  • the occurrence of some of the indels generated in the target gene can inactivate the corresponding gene.
  • the DNA repair mechanisms HDR and NHEJ are described by Sander, Jeffry D., and J. Keith Joung. "CRISPR-Cas systems for editing, regulating and targeting genomes.” Nature biotechnology 32.4 (2014): 347-355.], the entire contents of which are incorporated herein by reference.
  • Prime editing developed by David R. Liu et al., is a Cas protein; polymerases (eg, reverse transcriptases); and techniques for editing DNA molecules (eg, genomes) using specialized guide RNAs containing DNA synthesis templates to integrate or insert the desired edits into target regions of the DNA molecule.
  • a description of prime editing and various embodiments can be found in Anzalone, Andrew V., et al. "Search-and-replace genome editing without double-strand breaks or donor DNA.” Nature 576.7785 (2019): 149-157.; Chen, Peter J., et al. "Enhanced prime editing systems by manipulating cellular determinants of editing outcomes.” Cell 184.22 (2021): 5635-5652.; and PCT Application Application No. PCT/US2020/023712, Publication No. WO2020191233A1, the entire contents of each of which are incorporated herein by reference.
  • Prime editing involves (1) a prime editor protein (prime editor protein) including a Cas protein and a polymerase (e.g., reverse transcriptase) to introduce the desired edit into a target region within the target DNA molecule. protein); and (2) Prime editing guide RNA (pegRNA) to edit the genome.
  • Prime editor protein including a Cas protein and a polymerase (e.g., reverse transcriptase) to introduce the desired edit into a target region within the target DNA molecule. protein); and (2) Prime editing guide RNA (pegRNA) to edit the genome.
  • pegRNA Prime editing guide RNA
  • Prime editing is a versatile and accurate genome editing method that directly writes new genetic information into a target region in a DNA molecule (e.g., genome) using prime editor proteins, including Cas proteins, developed by David R. Liu et al. It is a new platform genome editing method.
  • Prime editing largely uses Cas protein, polymerase, and pegRNA, where the pegRNA has an extension arm linked to a traditional guide RNA. At this time, the extension arm includes an extension area.
  • the extension region includes an editing template serving as a template of the desired editing for inserting the desired editing into the target region. In this case, insertion into the target region of the desired editing is performed by a number of processes including polymerization through a polymerase (eg, reverse transcriptase) linked to the Cas protein.
  • polymerase eg, reverse transcriptase
  • a nick (induced and/or generated by the Cas protein included in the PE2 prime editor protein) occurs on the spacer non-binding strand, and the nick based on the spacer non-binding strand Polymerization (reverse transcription) by reverse transcriptase is performed based on the DNA synthesis template in the 5' to 3' direction from the site of origin.
  • the reverse transcription is performed using a DNA synthesis template included in the extension region as a template for reverse transcription.
  • a sequence complementary to all or part of the DNA synthesis template is encoded at the nick generation site of the non-binding strand of the spacer. These encoded sequences form a 3' DNA flap.
  • the 3' DNA flap contains an edit, and the edit has a DNA sequence complementary to the edit template included in the DNA synthesis template. Then, the 5' DNA flap is removed through a 5' DNA flap cleavage process (eg, FEN1, a 5' DNA flap endonuclease, may be involved), ligation of the 3' DNA flap, and cellular DNA repair and/or a desired edit is integrated into a desired location through a duplication process.
  • PE2 Prime Editing Version 2
  • editing is used to refer to editing integrated into a DNA molecule as a result of a prime editing system.
  • editing can be used to refer to editing integrated into the spacer non-binding strand, editing integrated into the spacer binding strand, and/or editing integrated into the duplex.
  • edits installed on the 3' flap are eventually installed into the spacer non-binding strand and the spacer binding strand through a process involving ligation of the 3' flap, and cellular DNA repair and/or replication.
  • Editing can include any one or a combination of insertion of one or more nucleotides, deletion of one or more nucleotides, and substitution of one or more nucleotides with other nucleotides.
  • edit 1 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, It may include substitutions of 48, 49, or 50 or more nucleotides, wherein the nucleotides to be replaced may be located contiguously or discontinuously within the nucleic acid.
  • editing may include insertions and substitutions described above.
  • editing may include deletions and substitutions described above.
  • editing may include insertions, deletions, and substitutions described above. Reported by David R. Liu et al.
  • Prime editing describes prime editing as a versatile precision genome editing method that "writes" new genetic information directly to specific DNA sites.
  • the description in this specification of genetic information that can be inserted or installed into DNA through prime editing should not be construed as being limited.
  • prime editing can be thought of as a "search-and-replace" genome editing technique.
  • This allows the Prime Editor (or Prime Editor complex) performing the prime editing to not only search and locate the target site of interest to be edited, but at the same time generate an alternative strand containing the desired edit in place of the corresponding target site endogenous DNA strand. because you can install .
  • the document PCT Application Application No. PCT/US2020/023712 Publication No. WO2020191233A1
  • the prime editor described in the document is not limited to reverse transcriptases, and reverse trans A cryptase is disclosed as being only one type of DNA polymerase that can be used for prime editing.
  • a guide RNA (ie, pegRNA) specialized for prime editing is complexed with a Cas protein (eg, complexed with a fusion protein containing a Cas protein), and the desired editing is performed through the prime editing process.
  • a Cas protein eg, complexed with a fusion protein containing a Cas protein
  • a pegRNA contains an editing template to transfer the desired information to the target DNA.
  • a replacement strand containing the sequence corresponding to the editing template is generated and used to replace the corresponding endogenous DNA strand.
  • the mechanism of prime editing may involve nicking the target site within one strand of the DNA to expose a 3'-hydroxyl group.
  • the mechanism of prime editing involves transferring the desired information into the target site through a DNA polymerization process based on a sequence capable of transferring the desired information on the pegRNA using the exposed 3'-hydroxyl group.
  • the extension region that provides a template for polymerization of the alternate strand containing the edit may be formed from RNA or DNA.
  • the polymerase used for prime editing can be an RNA-dependent DNA polymerase (eg, a reverse transcriptase).
  • the polymerase used for prime editing may be a DNA-dependent DNA polymerase.
  • the strand newly synthesized by prime editing i.e., the replacement DNA strand containing the desired edit
  • the newly synthesized strand of DNA may also be referred to as a single-stranded DNA flap (eg, a 3' single-stranded DNA flap), which will replace the corresponding endogenous strand.
  • prime editing works by contacting a target DNA molecule with a Cas protein complexed with a prime editing guide RNA (pegRNA), wherein the Cas protein is comprised by a prime editor protein.
  • a DNA molecule eg, genome
  • prime editing guide RNA pegRNA
  • nCas9 eg, which can be included in a prime editor protein
  • pegRNA guides nCas9 to bind to its target region.
  • a nick is introduced into one of the DNA strands within the target region (nick introduced by nCas9) to create an available 3' end for one of the DNA strands.
  • the available 3' end is located within the target region.
  • nicks can be created on the strand that does not hybridize to some sequence of the pegRNA, i.e., the spacer non-binding strand.
  • a nick may be created on the strand that hybridizes to some sequence of the pegRNA, i.e., the spacer binding strand.
  • a region located at the 3' end of the DNA strand formed by nicking of Cas9 nickase (the region located upstream of the nick site) interacts with part of the extended region of pegRNA to prime reverse transcription.
  • the 3' terminal DNA strand is hybridized to a reverse transcriptase priming sequence or Primer binding site (PBS) contained in the extended region of the pegRNA.
  • PBS Primer binding site
  • a single strand of DNA is synthesized by a reverse transcriptase (eg, which can be included in a prime editing fusion protein) in a direction from the 3' end of the primed site towards the 5' end of the pegRNA. That is, a single strand of DNA is synthesized in the 5' to 3' direction based on the spacer non-binding strand (PAM-containing sequence) hybridized with the primer binding site.
  • the synthesized DNA single strand contains the desired nucleotide change (eg, one or more base changes, one or more insertions, one or more deletions, or combinations thereof).
  • the synthesized DNA single strand may be referred to as a 3' single stranded DNA flap.
  • the (unedited) 5' endogenous DNA flap formed when the 3' single strand invades into the endogenous DNA is removed. Removal of the 5' endogenous DNA flap may be performed through a 5' flap cleavage process. A 3' single-stranded DNA flap that has invaded into the endogenous DNA is ligated. DNA repair works, resulting in complete integration of the desired edit into the target region.
  • prime editing system can be achieved by elements including, for example, a prime editor protein and pegRNA.
  • prime editor proteins and pegRNAs used for prime editing will be described.
  • Prime editor protein refers to a construct in the form of a fusion protein or complex comprising a Cas protein and a polymerase.
  • Prime editor proteins may be referred to by terms such as prime editing proteins, prime editing constructs, prime editing enzymes, prime editor enzymes, and prime editing fusion proteins.
  • a Prime Editor protein may contain a structure expressed as [Cas]-[P] or [P]-[Cas], where "P" is any polymerase (e.g.
  • Cas refers to a Cas protein (eg, wild-type spCas9, or a variant of spCas9 such as Cas9 nickase, etc.) or an element derived therefrom.
  • Cas protein eg, wild-type spCas9, or a variant of spCas9 such as Cas9 nickase, etc.
  • []-[" or "-” indicates that the Cas protein and the polymerase are linked, and refers to an element such as an optional linker that has the function of covalently or non-covalently linking the Cas protein and the polymerase or binds (bond).
  • prime editor proteins include Cas proteins (eg, Cas9 nickase) and reverse transcriptases (or DNA polymerases).
  • the prime editor protein may be in the form of a fusion protein composed of one molecule, or may be in the form of a complex formed by two or more molecules, and is not otherwise limited.
  • a prime editor protein can perform prime editing on a target region in the presence of pegRNA.
  • the prime editor protein forms a complex with pegRNA, and the complex may be referred to as a prime editor protein/pegRNA complex.
  • a prime editor protein may be referred to as a prime editing protein.
  • the term “prime editing system” may refer to prime editor proteins and pegRNAs, or editing of DNA molecules performed using prime editor proteins and pegRNAs. As such, the term “prime editing system” may be used as a comprehensive concept to describe content related to prime editing.
  • the prime editing system may further include other elements or uses thereof, in addition to prime editor proteins and pegRNAs.
  • the prime editing system may further include traditional guide RNA or use thereof capable of directing second site nicking to the non-edited strand.
  • the prime editor protein comprises:
  • Prime editor proteins include Cas proteins and polymerases. Prime editor proteins may include the Cas proteins detailed in the section “CRISPR/Cas system”. The Cas protein is used to encompass its equivalents.
  • the Cas protein may be referred to as a CRISPR enzyme, a nucleic acid programmable DNA binding protein (napDNAbp), or a CRISPR protein.
  • a Cas protein is Cas12a, Cas12b1 (C2c1), Cas12c (C2c3), Cas12e (CasX), Cas12d (CasY), Cas12g, Cas12h, Cas12i, Cas1, Cas1B, Cas2, Cas3, Cas4, Cas5, Cas6, Cas7, Cas8, Cas9 (also known as Csn1 and Csx12), Cas10, Csy1, Csy2, Csy3, Cse1, Cse2, Csc1, Csc2, Csa5, Csn2, Csm2, Csm3, Csm4, Csm5, Csm6, Cmr1, Cmr3, Cmr4 x Cas9; Circular permutation Cas9, or Argonot (Ago) domain, or a fragment thereof, or a homologue thereof, or a variant thereof, but is not otherwise limited.
  • the Cas protein can be a Cas protein with nickase activity.
  • the Cas protein having nickase activity may be Cas9 nickase, or Cas12 nickase (eg, Cas12a nickase, or Cas12b1 nickase, etc.), but is not limited thereto.
  • the Cas protein can be a Cas protein with nuclease activity.
  • the Cas protein may include one or more amino acid substitutions or amino acid mutations in the NHN domain and/or the RuvC domain.
  • the variant can be reduced by about 60%, 61%, 62%, 63%, 64%, 65%, 66%, 67%, 68% relative to the amino acid sequence of the wild-type Cas protein or the parental Cas protein. , 69%, 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85 %, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, 99.5% or 99.9% of It may include amino acid sequences having sequence identity.
  • the variant may contain one or more insertions, one or more deletions, one or more substitutions, or combinations thereof, as compared to the amino acid sequence of the wild-type Cas protein or the parent Cas protein.
  • the Cas protein may be SpCas9 (Cas9 derived from Streptococcus pyogenes), CjCas9 (Cas9 derived from Campylobacter jejuni), SaCas9 (Cas9 derived from Staphylococcus aureus), or a variant thereof.
  • the Cas protein can be SpyMac, iSpymac, GeoCas9, xCas9, circular permutation Cas9, or a variant thereof.
  • an SpCas9 variant may contain a variation of amino acid residues in one or more insertions, one or more deletions, one or more substitutions, or combinations thereof, when compared to the amino acid sequence of wild-type SpCas9.
  • a SpCas9 variant comprising the H840A substitution provides a Cas protein with nickase activity.
  • a SpCas9 variant comprising the D10A substitution provides a Cas protein with nickase activity.
  • a SpCas9 variant may contain the R221K and N394K substitutions.
  • the SpCas9 mutant may be one in which one or more amino acid residues selected from D10, R221, L244, N394, H840, K1211, and L1245 of wild-type SpCas9 are substituted with other amino acid residues.
  • the SpCas9 variant may include one or more of D10A, R221K, L244Q, N394K, H840A, K1211Q, and L1245V.
  • the Cas protein is a SpCas9 variant with nickase activity including H840A; SpCas9 variants with nickase activity including R221K, N394K, and H840A (Chen, Peter J., et al.
  • Enhanced prime editing systems by manipulating cellular determinants of editing outcomes Cell 184.22 (2021): 5635- 5652.]); Wild-type SpCas9 variants with nuclease activity (i.e., inducing DSBs) (Adikusuma, Fatwa, et al. "Optimized nickase-and nuclease-based prime editing in human and mouse cells.” Nucleic acids research 49.18 (2021) : 10785-10795.]); Alternatively, it may be a SpCas9 mutant having nuclease activity including R221K and N394K, but is not limited thereto.
  • the Cas protein may be codon optimized.
  • a prime editor protein may include a PAMless Cas protein.
  • wild-type SpCas9 may comprise the amino acid sequence of SEQ ID NO: 28:
  • a variant of wild-type SpCas9 comprising the H840A mutation may comprise the amino acid sequence of SEQ ID NO: 29:
  • a variant of wild-type SpCas9 comprising the R221K and N394K mutations may comprise the amino acid sequence of SEQ ID NO: 30:
  • a variant of wild-type SpCas9 comprising the R221K, N394K, and H840A mutations may comprise the amino acid sequence of SEQ ID NO: 31:
  • Prime editor proteins include Cas proteins and polymerases.
  • Polymerase refers to an enzyme or protein that synthesizes nucleotide strands and can be used in conjunction with a prime editing system or a prime editing based system described herein.
  • the polymerase may be a "template-dependent polymerase (i.e., a polymerase that synthesizes a strand of nucleotides based on the order of the nucleotide bases of the template strand).
  • a polymerase may also be a "template-independent” polymerase. May be 1.
  • Polymerases may also be further categorized as "DNA polymerases” or "RNA polymerases.”
  • the prime editing system or prime editor protein comprises a DNA polymerase that synthesizes DNA strands.
  • the DNA polymerase can be a DNA-dependent DNA polymerase, in which case the pegRNA can include a DNA template that is a template for polymerization by the DNA-dependent DNA polymerase.
  • the pegRNA may be referred to as a chimeric or hybrid pegRNA comprising an RNA portion (a guide RNA component including a spacer and a gRNA core) and a DNA portion (a DNA template).
  • the DNA polymerase may be an "RNA-dependent DNA polymerase.”
  • the pegRNA may contain an RNA template that is a template for polymerization by RNA-dependent DNA polymerase. That is, pegRNA may be composed of an RNA component and includes an RNA extension region.
  • Polymerase can also refer to an enzyme that catalyzes the polymerization of nucleotides.
  • polymerization by the polymerase will initiate at the 3'-end of a primer annealed to a polynucleotide template sequence (e.g., in prime editing, a primer sequence annealed to the primer binding site of pegRNA), and the template strand will proceed towards the 5' end of DNA polymerase can catalyze the polymerization of deoxynucleotides.
  • the term polymerase is used to encompass enzymes, proteins, variants thereof, and fragments thereof that catalyze and/or carry out the polymerization of nucleotides.
  • the fragment of the polymerase is a wild type or mutant that contains an amino acid sequence of less than the full length of the wild type polymerase and retains the ability to catalyze and/or carry out polymerization of deoxynucleotides under at least one condition ( variant) refers to any part of a DNA polymerase.
  • Such fragments may exist as separate entities or may be components of a larger polypeptide, such as a fusion protein.
  • a polymerase which is one component used for prime editing, may be a reverse transcriptase (RT).
  • RT reverse transcriptase
  • Reverse transcriptases refer to a class of polymerases characterized as RNA-dependent DNA polymerases. All known reverse transcriptases require primers to synthesize DNA transcripts from RNA templates.
  • the term reverse transcriptase may be used as a term encompassing variants thereof and fragments thereof.
  • the variant may have about 60%, 61%, 62%, 63%, 64%, 65%, 66% of the amino acid sequence of the wild-type reverse transcriptase or the parental reverse transcriptase.
  • a variant may contain one or more insertions, one or more deletions, one or more substitutions, or a combination thereof, as compared to the amino acid sequence of the wild-type reverse transcriptase or the parental reverse transcriptase. .
  • Reverse transcriptases can be derived from a number of different sources.
  • sources of reverse transcriptases include Moloney murine leukemia virus (M-MLV or MLVRT); human T-cell leukemia virus type 1 (HTLV-1); bovine leukemia virus (BLV); Rous sarcoma virus (RSV); human immunodeficiency virus (HIV); Yeasts such as Saccharomyces, Neurospora, Drosophila; primates; and rodents, but are not limited thereto.
  • Reverse transcriptases include, for example, avian myeloblastosis virus (AMV) reverse transcriptase, a reverse transcriptase derived from Moloney murine leukemia virus (M-MLV) (literature [GERARD, GARY F., et al. "Influence on stability in Escherichia coli of the carboxy-terminal structure of cloned Moloney murine leukemia virus reverse transcriptase.” Dna 5.4 (1986): 271-279.; and Kotewicz, Michael L. , et al.
  • AMV avian myeloblastosis virus
  • M-MLV Moloney murine leukemia virus
  • HAV human immunodeficiency virus
  • ASLV avian sarcoma-leukemia virus
  • RSV Rous sarcoma virus
  • AEV Avian erythrocytosis virus
  • helper virus MCAV reverse transcriptase avian myelocytosis virus MC29 helper virus MCAV reverse transcriptase
  • avian sarcoma virus UR2 helper virus UR2AV reverse transcriptase avian sarcoma virus Y73 helper virus YAV reverse transcriptase
  • Rous associated virus (RAV) reverse transcriptase avian sarcoma virus Y73 helper virus YAV reverse transcriptase
  • Rous associated virus (RAV) reverse transcriptase avian sarcoma virus Y73 helper virus YAV reverse transcriptase
  • the reverse transcriptase can be a retroviral reverse transcriptase. In some embodiments, the reverse transcriptase can be an error-prone reverse transcriptase.
  • An "Error-Prone" reverse transcriptase (or more broadly, any polymerase) is a naturally occurring or wild-type M-MLV reverse transcriptase that has an error rate that is less than that of a reverse transcriptase. Refers to a reverse transcriptase derived from other reverse transcriptases. Error-prone reverse transcriptases may have higher error rates than comparable wild-type reverse transcriptases.
  • it may have an error rate of 6.7x10 -5 , 7.14x10 -5 , 7.7x10 -5 , 9.1x10 -5 , or 1x10 -4 .
  • error-prone reverse transcriptases see Bebenek, K., et al. "Error-prone polymerization by HIV-1 reverse transcriptase. Contribution of template-primer misalignment, miscoding, and termination probability to mutational hot spots.” Journal of Biological Chemistry 268.14 (1993): 10324-10334.; and Sebastian-Martin, Alba, Veronica Barrioluengo, and Luis Menendez-Arias.
  • the reverse transcriptase may be M-MLV reverse transcriptase.
  • M-MLV reverse transcriptase may be used to encompass variants thereof, and fragments thereof.
  • M-MLV reverse transcriptase includes, for example, a wild-type M-MLV reverse transcriptase, a M-MLV reverse transcriptase variant, a fragment of wild-type M-MLV reverse transcriptase or a wild-type M-MLV reverse transcriptase. It may be a fragment of a variant of a transcriptase.
  • an M-MLV reverse transcriptase variant may be a wild-type M-MLV reverse transcriptase or a P51, S67, E69, L139, T197, D200, H204, F209, E302 of another wild-type reverse transcriptase.
  • E302, T306, F309, W313, T330, L345, L435, N454, D524, E562, D583, H594, L603, E607, and one or more amino acid residues selected from D653 may be substituted with another amino acid residue.
  • the amino acid sequence of wild-type M-MLV reverse transcriptase is set forth in SEQ ID NO: 26.
  • M-MLV reverse transcriptase variants include P51L, S67K, E69K, L139P, T197A, D200N, H204R, F209N, E302K, E302R, T306K, F309N, W313F, T330P, L345G, L435G, N454K, D524 G, It may include any one or more amino acid mutations selected from E562Q, D583N, H594Q, L603W, E607K, and D653N (here, the reference sequence of the amino acid mutation is the wild-type M-MLV reverse transcriptase of SEQ ID NO: 26). amino acid sequence).
  • the reverse transcriptase is an M-MLV reverse transcriptase variant comprising the D200N, T306K, W313F, T330P, and L603W amino acid mutations (e.g., M-MLV reverse transcriptase pentamutant ) can be.
  • the reverse transcriptase may be a truncated M-MLV reverse transcriptase.
  • the truncated M-MLV reverse transcriptase may include four mutations (D200N, T306K, W313F, and T330P).
  • the L603W mutation present in the aforementioned M-MLV reverse transcriptase pentamutant no longer exists due to end truncation.
  • the polymerase or reverse transcriptase may be codon optimized.
  • Reverse transcriptase (RT) genes can be obtained from a number of different sources.
  • a gene can be obtained from eukaryotic cells infected with a retrovirus, or from a number of plasmids containing part or all of the retroviral genome.
  • messenger RNA-like RNAs containing RT genes can be obtained from retroviruses.
  • reverse transcriptases that can be included in Prime Editor proteins are described in detail in US Patent Application Serial No. 17/219,672.
  • a wild-type M-MLV reverse transcriptase may comprise the amino acid sequence of SEQ ID NO: 26:
  • a variant of wild-type M-MLV reverse transcriptase comprising the D200N, T306K, W313F, T330P, and L603W mutations may comprise the amino acid sequence of SEQ ID NO: 27:
  • Prime editor proteins include Cas proteins and polymerases (eg, reverse transcriptases).
  • the prime editor protein in addition to the above two elements, includes additional elements such as one or more linkers (eg, linkers for linking elements included in the prime editor protein) and one or more nuclear localization sequences (NLSs). can include more.
  • linkers eg, linkers for linking elements included in the prime editor protein
  • NLSs nuclear localization sequences
  • Prime Editor proteins may include one or more linkers.
  • linkers can be used to connect the Cas protein to other structures included in the prime editor protein.
  • the linker may be any known linker in the art.
  • linkers can be used to connect the polymerase to other structures contained in the prime editor protein.
  • linkers can be used to connect the NLS to other structures contained in the prime editor protein.
  • a linker can be used to link the Cas protein and polymerase.
  • a linker can be used to link another linker selected independently of the linker.
  • a linker can be a covalent bond, organic molecule, group, polymer, or chemical moiety.
  • each linker can be independently selected.
  • Linkers can be from 3 to 100 or more amino acids in length.
  • a linker of about 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24 , 25, 26, 27, 28, 29, 30, 32, 34, 36, 38, 40, 42, 44, 46, 48, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95 , 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, or 200 amino acids in length, or an amino acid length in a range set by two values selected from the above values.
  • a linker may comprise the following amino acid sequence: one or more Gs, one or more XPs, wherein X is any amino acid, one or more EAAAKs (SEQ ID NO: 35), one or more GGSs (SEQ ID NOs: 36), one or more SGGS (SEQ ID NO: 37), or one or more GGGGS (SEQ ID NO: 38).
  • the linker may include, but is not limited to, the amino acid sequence SGSETPGTSESATPES (SEQ ID NO: 39), or SGGSSGGSSGSETPGTSESATPESSGGSSGGS (SEQ ID NO: 40).
  • a linker can be an XTEN linker (eg, an XTEN16 linker).
  • a prime editor protein may include one or more linkers, and each linker may be independently selected or determined.
  • linkers are described in detail in US Patent Application Serial No. 17/219,672.
  • a prime editor protein may contain one or more NLSs.
  • a prime editor protein may include two or more NLSs.
  • each NLS may be independently selected or determined.
  • the NLS may be any known NLS in the art.
  • the NLS may be any later discovered NLS for nuclear localization.
  • the NLS can be any naturally occurring NLS, or any non-naturally occurring (eg, having one or more mutations) NLS.
  • the NLS is the NLS of the SV40 virus large T-antigen having the amino acid sequence PKKKRKV (SEQ ID NO: 01); a bipartite SV40 NLS comprising the amino acid sequence KRTADGSEFESPKKKRKVE (SEQ ID NO: 18) (or a bipartite SV40 NLS comprising a deletion of one amino acid elsewhere than PKKKRKV); NLS from nucleoplasmin (eg, nucleoplasmin bipartite NLS having the sequence KRPAATKKAGQAKKKK (SEQ ID NO: 02)); c-myc NLS having the amino acid sequence PAAKRVKLD (SEQ ID NO: 03) or RQRRNELKRSP (SEQ ID NO: 04); hRNPA1 M9 NLS having the sequence NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY (SEQ ID NO: 05); sequence RMRIZFKNKGKDTAELRRRRVE
  • pegRNA primary editing guide RNA
  • the term "prime editing guide RNA”, “pegRNA” or “extended guide RNA” refers to one or more additional sequences for implementing the prime editing methods and compositions disclosed herein. Refers to a specialized form of guide RNA modified to include.
  • pegRNA is used in conjunction with the prime editor protein.
  • a pegRNA includes an extension arm or extension region. Extension arms may include, but are not limited to, single-stranded RNA sequences and/or DNA sequences.
  • guide RNAs used in traditional CRISPR/Cas systems ie, guide RNAs that do not include an extension arm of pegRNA are referred to as traditional guide RNAs and can be distinguished from pegRNAs.
  • an extension arm can occur at the 3' end of a traditional guide RNA.
  • an extension arm may occur at the 5' end of a traditional guide RNA.
  • a pegRNA may include a spacer region, a gRNA core, and an extension arm arising from the 3' or 5' end of a traditional guide RNA.
  • extension arm includes a Primer binding site (PBS) for a polymerase (eg, reverse transcriptase), and a DNA synthesis template (including, for example, an editing template). , refers to a portion of a pegRNA nucleotide sequence that serves various functions. In pegRNA, an extension arm can be described as an extension region. In some embodiments, an extension arm may be located at the 3' end of the guide RNA. In some embodiments, an extension arm located at the 3' end of a guide RNA may be referred to as a 3' extension arm. In other embodiments, the extension arm may be located at the 5' end of the guide RNA.
  • PBS Primer binding site
  • a polymerase eg, reverse transcriptase
  • DNA synthesis template including, for example, an editing template.
  • an extension arm located at the 5' end of a guide RNA may be referred to as a 5' extension arm.
  • an extension arm may comprise a homologous arm.
  • an extension arm may include an editing template.
  • an extension arm may include a primer binding site.
  • an extension arm (eg, a 3' extension arm) comprises the following elements in the 5' to 3' direction: a DNA synthesis template, and a primer binding site. That is, when describing the entire pegRNA, the pegRNA may include the following elements in the 5' to 3' direction: a spacer, a gRNA core, a DNA synthesis template, and a primer binding site.
  • DNA synthesis templates can include regions of homology and editing templates.
  • an extension arm may include the following elements in the 5' to 3' direction: a homology region, an editing template, and a primer binding site. That is, when describing the entire pegRNA, the pegRNA may include the following elements in the 5' to 3' direction: a spacer, a gRNA core, a homology region, an editing template, and a primer binding portion.
  • the 5' extension arm may include the following elements in the 5' to 3' direction: a DNA synthesis template, and a primer binding site.
  • reverse transcriptase which is an example of a polymerase
  • the polymerization activity of a reverse transcriptase is in the 5' to 3' direction with respect to the template strand and the resulting bound strand.
  • reverse transcriptase polymerizes a single strand of DNA using the complementary template strand (DNA synthesis template) as a template for reverse transcription.
  • Various embodiments of an extension arm used for prime editing are described in detail in U.S. Patent Application Serial No. 17/219,672.
  • the extension arm of a pegRNA can be described as comprising generally two regions: a primer binding site (PBS) and a DNA synthesis template (eg, a reverse transcription template).
  • PBS primer binding site
  • a DNA synthesis template eg, a reverse transcription template
  • the primer binding site binds to a primer sequence formed from the endogenous DNA strand of the nicked target site generated by the prime editor protein, exposing the 3' end on the nicked strand.
  • binding of a primer sequence to a primer binding site on an extension arm of a pegRNA creates a duplex region with an exposed 3' end (i.e., the 3' end of the primer sequence), which is then reverse transfected.
  • a cryptase provides a substrate for polymerizing a single strand of DNA from the exposed 3' end along the length of the DNA synthesis template.
  • the sequence of the single-stranded DNA product is the complement of the DNA synthesis template. Polymerization continues toward the 5' of the DNA synthesis template (or extension arm) until polymerization is terminated.
  • the DNA synthesis template is encoded into a single-stranded DNA product (ie, a 3' single-stranded DNA flap containing the desired gene editing information) by the polymerase of the prime editor protein.
  • a 3' single-stranded DNA flap (e.g., complementary to the DNA synthesis template) is formed that replaces the endogenous DNA strand corresponding to the target site located immediately downstream of the PE-induced nick site.
  • Polymerization of the DNA synthesis template may continue towards the 5' end of the extension arm until termination, but is not limited thereto.
  • Polymerization can occur by (a) reaching the 5' end of the pegRNA, (b) reaching an impassable RNA secondary structure (e.g., a hairpin or stem/loop), or (c) a replication termination signal; can be terminated in a variety of ways, including, but not limited to, reaching a specific nucleotide sequence that blocks or inhibits, for example, a polymerase, or a nucleic acid phase signal, such as supercoiled DNA or RNA. It doesn't work. Considering that some literatures related to prime editing report that a sequence homologous to a part of the gRNA core of pegRNA is found in the 3' DNA flap or editing position, the above-described aspect is only an example and termination of polymerization is as described above. It will be appreciated by those skilled in the art that the embodiments are not limited.
  • PBS Primer binding site
  • the information present in the DNA synthesis template contained in pegRNA is transferred to the endogenous DNA strand through polymerization by polymerase.
  • a primer In order to carry out polymerization by polymerase, a primer must be bound to the template strand, and binding or annealing of the primer enables DNA polymerization.
  • a DSB induced by the Cas protein or a part of a region where a nick is generated is used as a primer.
  • a partial region located upstream of the nick of the spacer non-binding strand induced by the Cas protein of the prime editor protein is used as a primer.
  • the region designed to complementarily bind to the sequence of the region located upstream of the nick is referred to as a primer-binding portion, and the primer-binding portion is located on the extended region of pegRNA.
  • the prime editing process of PE2 will be additionally described.
  • reverse transcription is performed by reverse transcriptase using the primer as a template for reverse transcription.
  • reverse transcription is performed in the 3' to 5' direction based on the template strand (ie, pegRNA) of reverse transcription.
  • sequences with complementarity to the sequences of the DNA template are included in the 3' flap of the genomic DNA. That is, the information of the DNA template is transferred to the 3' flap by reverse transcription. Then, through a process involving removal of the 5' flap and cellular DNA repair and/or replication, the information of the DNA template is eventually transferred to the other strand of the DNA to be edited.
  • the result of the desired prime editing is DNA on the first strand (wherein the first strand is the spacer non-binding strand) and/or the second strand (wherein the second strand is the spacer-binding strand) at the location desired for editing. It is to deliver or install the information of the template.
  • a DNA sequence complementary to the sequence of the DNA template strand exists at the desired position of the first strand, and a DNA sequence identical to the sequence of the DNA template strand exists at the desired position of the second strand.
  • DNA sequences exist.
  • the primer-binding portion of the pegRNA may be designed with a sequence complementary to a sequence of a region located upstream of a DSB occurrence site or a nick occurrence site of a DNA molecule (eg, genomic DNA).
  • the primer binding site may be designed with a sequence complementary to a sequence of a region located upstream of a DSB occurrence site or a nick occurrence site of a spacer non-binding strand of a DNA molecule. That is, the sequence of the region located upstream of the DSB occurrence site or the nick occurrence site of the spacer non-binding strand of the DNA molecule functions as a primer in the prime editing process.
  • the sequence located in the 5' direction of the nick functions as a primer, and the nick end of the DNA molecule is exposed to reverse transcriptase through binding of the primer and the primer-binding portion.
  • a primer is 3 nt, 4 nt, 5 nt, 6 nt, 7 nt, 8 nt, 9 nt, 10 nt, 11 nt, 12 nt, 13 nt, 14 nt, 15 nt, 16 nt, 17 nt, 18 nt, 19 nt, 20 nt, 21 nt, 22 nt, 23 nt, 24 nt, 25 nt, 26 nt, 27 nt, 28 nt, 29 nt, 30 nt, 31 nt, 32 nt, 33 nt, 34 nt, 35 nt, 36 nt, 37 nt, 38 nt, 39 nt, 40 nt, 41 nt, 42 nt, 43 nt, 44 nt, 45 nt, 46 nt, 47 nt, 48 nt, 49 nt, 50 nt , or longer, or may
  • a primer is 5 nt, 6 nt, 7 nt, 8 nt, 9 nt, 10 nt, 11 nt, 12 nt, 13 nt, 14 nt, 15 nt, 16 nt, 17 nt, 18 nt, 19 It may have a length of nt, 20 nt, 21 nt, 22 nt, 23 nt, 24 nt, or 25 nt, or may have a length in a range formed by two values selected from the above values.
  • the primer binding site is 3 nt, 4 nt, 5 nt, 6 nt, 7 nt, 8 nt, 9 nt, 10 nt, 11 nt, 12 nt, 13 nt, 14 nt, 15 nt, 16 nt, 17 nt, 18 nt, 19 nt, 20 nt, 21 nt, 22 nt, 23 nt, 24 nt, 25 nt, 26 nt, 27 nt, 28 nt, 29 nt, 30 nt, 31 nt, 32 nt, 33 nt , 34 nt, 35 nt, 36 nt, 37 nt, 38 nt, 39 nt, 40 nt, 41 nt, 42 nt, 43 nt, 44 nt, 45 nt, 46 nt, 47 nt, 48 nt, 49 nt, 50 It may have a length of
  • the primer binding site is 5 nt, 6 nt, 7 nt, 8 nt, 9 nt, 10 nt, 11 nt, 12 nt, 13 nt, 14 nt, 15 nt, 16 nt, 17 nt, 18 nt, It may have a length of 19 nt, 20 nt, 21 nt, 22 nt, 23 nt, 24 nt, or 25 nt, or may have a length ranging from two values selected from the above values.
  • the length of the primer-binding portion may be appropriately selected depending on the purpose and is not otherwise limited.
  • DNA synthesis template means, in prime editing, to encode a 3' single-stranded DNA flap containing the desired edit, by the polymerase of the prime editor protein. Refers to the region or portion used as the template strand. Furthermore, it refers to the region or part included in the extension region of pegRNA that replaces the corresponding endogenous DNA strand at the target site through a prime editing mechanism.
  • Various embodiments of PEgRNA extension regions and DNA synthesis templates are described in detail in U.S. Patent Application Serial No. 17/219,672, which is incorporated herein by reference in its entirety.
  • the extension region containing the DNA synthesis template may be composed of DNA, RNA, or a DNA/RNA hybrid.
  • the polymerase of the prime editor protein may be an RNA-dependent DNA polymerase (eg, reverse transcriptase).
  • a DNA synthesis template may be referred to as a DNA polymerization template or a reverse transcription template (RT template), where the RT template is intended for the use of a reverse transcriptase in a prime editing system.
  • the prime editor's polymerase may be a DNA-dependent DNA polymerase.
  • a DNA synthesis template (eg, RT template) may include an “edit template” and a “homology region”.
  • the DNA synthesis template may include all or part of the optional 5' end modifier region e2 in addition to the editing template and the homology region.
  • the polymerase may encode none, some or all of the e2 region. there is.
  • the DNA synthesis template in the case of a 3' extension arm, may include a portion of the extension arm extending from the 5' end of the primer binding site (PBS) to the 3' end of the gRNA core. .
  • the DNA synthesis template in the case of a 5' extension arm, may include a portion of the extension arm extending from the 5' end of the pegRNA molecule to the 3' end of the primer binding site.
  • the DNA synthesis template excludes the primer binding site (PBS) of pegRNA with a 3' extension arm or a 5' extension arm.
  • DNA synthesis templates may be referred to as “reverse transcription templates” (RT templates), which include editing templates and homology arms.
  • RT templates may refer to a portion of a sequence of a pegRNA extension arm used as a template in DNA synthesis.
  • the term "RT template” can be used equivalently to DNA synthesis template.
  • the primer binding site (PBS) and DNA synthesis template can be engineered into a separate molecule called a trans prime editing RNA template (tPERT) (see US Patent Application Serial No. 17/219,672) .
  • editing template refers to a single strand 3 synthesized by a polymerase, eg, DNA-dependent DNA polymerase, RNA-dependent DNA polymerase (eg, reverse transcriptase). ' refers to the part of the extension arm that encodes the desired edit of the DNA flap. That is, the editing template may have desired editing and complementarity.
  • a DNA synthesis template may include an editing template and a homology arm.
  • a RT template may include an editing template and a homology arm.
  • RT template is equivalent to a DNA synthesis template, wherein the RT template reflects the use of a prime editor protein with a polymerase that is a reverse transcriptase, and a DNA synthesis template is a prime editor protein with any polymerase. reflect more broadly the use of
  • Editing of interest which is established within a target region of a DNA molecule to be edited (e.g., genome), is any one or combination of insertion of one or more nucleotides, deletion of one or more nucleotides, and substitution of one or more nucleotides with other nucleotides.
  • nucleic acid can include For example, edit 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, It may contain an insertion of 48, 49, or 50 or more nucleotides, wherein the inserted nucleotides may be located contiguously or non-contiguous within the nucleic acid.
  • edit 1 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, It may include substitutions of 48, 49, or 50 or more nucleotides, wherein the nucleotides to be replaced may be located contiguously or discontinuously within the nucleic acid.
  • editing may include insertions and substitutions described above.
  • editing may include deletions and substitutions described above.
  • editing may include insertions and deletions as described above.
  • editing may include insertions, deletions, and substitutions described above.
  • the term "homology arm” refers to the portion of an extension arm that will integrate into a target DNA site by replacing the endogenous strand.
  • it may refer to a portion of an extension arm that encodes a portion of a single-stranded DNA flap encoded by a reverse transcriptase.
  • the portion of the single-stranded DNA flap encoded by the homology arm is complementary to the non-edited strand (eg, the spacer binding strand) of the target DNA.
  • the sequence of the homology arm has a sequence complementary to the corresponding sequence located on the non-spacer binding strand of the target DNA and has a sequence substantially identical to the corresponding DNA sequence located on the spacer binding strand.
  • the homology arms displace the endogenous strand and facilitate the annealing of the single-stranded DNA flaps, helping to install the edits on the target DNA molecule.
  • a homology arm is, by definition, part of a DNA synthesis template as it is encoded by the polymerase of the prime editing agent disclosed herein.
  • pegRNA and engineered pegRNA (engineered pegRNA; epegRNA)
  • EpegRNA is one of the types of pegRNA and can be used to refer to improved pegRNA.
  • epegRNA refers to a type of pegRNA in which an RNA motif is added to the 3' or 5' end of pegRNA.
  • epegRNA may be a form of pegRNA with an RNA motif (or engineered RNA motif) added to the 3' end.
  • An epegRNA may include, for example, the following elements in the 5' to 3' direction: a spacer, a gRNA core, a DNA synthesis template, a primer binding site, and an RNA motif.
  • David R. Liu et al. developed engineered pegRNA (epegRNA) in which an RNA motif was added to the 3' end of pegRNA to improve the stability of pegRNA and prevent degradation of the 3' extended region of pegRNA.
  • epegRNA engineered pegRNA
  • David R. Liu et al. discloses an epegRNA in which a stability pseudoknot is additionally integrated at the 3' end of the existing pegRNA in the above literature. Examples of similar knots are found in Nelson, James W., et al.
  • epegRNA can be used regardless of the type of prime editor protein.
  • epegRNA can be used with a prime editor protein that includes the spCas9 nickase of prime editing version 2 (PE2).
  • PE2 prime editor protein
  • epegRNA can be used for editing of DNA molecules (eg genome) in conjunction with PE-nuclease including Cas9 having nuclease activity (ie DSB activity).
  • pegRNA is used as a concept including aspects of epegRNA, and unless otherwise specified, descriptions of pegRNA will be construed as including content related to epegRNA.
  • the pegRNA may further include a 3' engineered region at the 3' end.
  • a pegRNA containing a 3' engineering region may be referred to as an epegRNA. That is, the epegRNA may further include a 3' engineered region in the elements of the pegRNA.
  • the 3' engineered region may include an RNA protection motif.
  • an RNA protective motif may include an RNA sequence.
  • RNA protective motifs may include DNA sequences.
  • RNA protective motifs may include DNA/RNA hybrid sequences.
  • the RNA protective motif may include, but is not limited to, evopreQ1 or mpknot, and may include any other structure to prevent degradation and increase stability of RNA.
  • the 3' engineered region may include an RNA protective motif and a linker to connect the RNA protective motifs.
  • the linker serves to connect the RNA protection motif and the primer binding site in epegRNA.
  • a linker for linking RNA protective motifs may comprise an RNA sequence.
  • a linker for linking RNA protective motifs may include a DNA sequence.
  • the linker for linking the RNA protective motifs is 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40 nt, or more in length; , may be the length of a range set to two values selected from the above values.
  • a linker for linking an RNA protective motif may be designed to avoid base pairing interaction between the linker and PBS or the linker and a spacer of pegRNA.
  • the sequence of a linker for linking RNA protective motifs can be designed taking into account sequences within a target region of a target DNA molecule.
  • Prime editing is not limited to the version illustrated below.
  • Prime editing Based on the above-mentioned core mechanism of prime editing, various versions of prime editing have been developed. An example of a prime editing version will be described to help technicians in the related field understand.
  • the method for finding off-targets of prime editing provided by the present application may use additional elements such as prime editor proteins of various prime editing versions, various types of pegRNAs including epegRNAs, and/or dnMLH1 as exemplified below, , not otherwise limited.
  • the method for finding an off-target of prime editing provided by the present application can also be applied to the prime editing versions exemplified below and a new prime editing version to be developed later, The scope of application of the method provided through this application should not be limited.
  • Prime Editing Version 1 represents a version of the prime editing system that includes the use of the following elements:
  • Prime editor proteins including spCas9 (H840A) and wild type MMLV RT (Moloney murine leukemia virus reverse transcriptase); and
  • the prime editor protein of PE1 includes the Cas protein having nickase activity and the wild-type MMLV RT.
  • the PE1 prime editor protein is in the form of a fusion protein in which a Cas protein and a reverse transcriptase are linked via a linker.
  • PE1 prime editor protein and pegRNA form a complex, thereby inducing or performing editing of DNA molecules (eg, genome editing) in the target region.
  • PE1 is described in Anzalone, Andrew V., et al. "Search-and-replace genome editing without double-strand breaks or donor DNA.” Nature 576.7785 (2019): 149-157.].
  • Prime Editing Version 2 represents a version of the prime editing system that includes the use of the following elements:
  • Prime Editor proteins including spCas9 (H840A) and MMLV RT (D200N+L603W+T330P+T306K+W313F); and
  • the prime editor protein of PE2 includes the Cas protein having nickase activity and the MMLV RT pentamutant.
  • the prime editor protein of PE2 is in the form of a fusion protein in which Cas protein and reverse transcriptase are linked via a linker.
  • the prime editor protein of PE2 has the following structure:
  • bpNLS refers to bipartite SV40 NLS.
  • MMLV RT pentamutant refers to a MMLV RT variant comprising amino acid mutations D200N, L603W, T330P, T306K, and W313F when compared to wild-type MMLV RT.
  • the PE2 prime editor protein may comprise the amino acid sequence of SEQ ID NO:32.
  • amino acid sequence of SEQ ID NO: 32 is:
  • the PE3 prime editing system is a prime editing system developed for the purpose of increasing the efficiency of prime editing by generating nicks in the non-editing strand (i.e., the strand that binds to the spacer of pegRNA) using the second-strand nicking guide RNA.
  • the second-strand guide RNA can be designed in the form of a conventional gRNA (eg, sgRNA) to generate a nick in the vicinity of the non-edited strand at the editing site or at the target site.
  • PE3 can include the use of a separate Cas9 nickase in addition to the prime editing protein.
  • PE3b refers to PE3, but here the second strand nicking guide RNA is designed for temporal control such that the second strand nick is not introduced until the desired editing is installed. This is achieved by designing a gRNA with a spacer sequence that matches only the edited strand and not the original allele.
  • PE3 and PE3b are described in Anzalone, Andrew V., et al. "Search-and-replace genome editing without double-strand breaks or donor DNA.” Nature 576.7785 (2019): 149-157.].
  • PE4 Prime Editing Version 4 includes the use of the same machinery as PE2, but additionally includes the use of a plasmid encoding dominant negative MLH1 or dnMLH1.
  • PE4 can be recognized as including the use of the following elements:
  • PE2 prime editing protein
  • Prime Editing Version 5 includes the use of the same machineries as PE3, but additionally includes the use of dnMLH1 or a plasmid encoding the dominant negative MLH1.
  • PE5 is described in Chen, Peter J., et al. "Enhanced prime editing systems by manipulating cellular determinants of editing outcomes.” Cell 184.22 (2021): 5635-5652.].
  • PEmax is an improved version of prime editing developed to increase editing efficiency.
  • PEmax prime editor proteins include SpCas9 variants and MMLV RT variants.
  • the PEmax prime editor protein has the following structure:
  • bpNLS refers to bipartite SV40 NLS.
  • MMLV RT pentamutant refers to a human codon-optimized MMLV RT variant comprising amino acid mutations D200N, L603W, T330P, T306K, and W313F when compared to wild-type MMLV RT.
  • 'SpCas9 R221K N394K H840A' refers to a SpCas9 variant comprising the amino acid mutations R221K, N394K, and H840A when compared to wild-type SpCas9.
  • NLS c-Myc refers to c-Myc NLS.
  • PEmax is described in Chen, Peter J., et al. "Enhanced prime editing systems by manipulating cellular determinants of editing outcomes.” Cell 184.22 (2021): 5635-5652.]. Furthermore, the above document discloses various versions of prime editor proteins, such as PE2* prime editor protein, CMP-PE-V1 prime editor protein, and CMP-PEmax prime editor protein, etc., all of which are prime editing provided by the present application. can be used for off-target prediction systems of
  • Nuclease-based prime editing one of the versions of prime editing, is a Cas protein with nuclease activity (i.e., DSB activity) instead of the Cas9 (H840A) nickase (e.g., wild-type SpCas9, or a non-nickase SpCas9 variant) would have used
  • Prime editor proteins for nuclease-based prime editing may be referred to as PE nucleases. Unlike PE3, which is designed to nick the strand bound to the spacer of pegRNA, the use of two types of gRNA is not essential.
  • a DSB is created at a desired location through a prime editing protein containing one kind of pegRNA and Cas nuclease (not nickase) to induce editing.
  • Nuclease-based prime editing is described by Adikusuma, Fatwa, et al. "Optimized nickase-and nuclease-based prime editing in human and mouse cells.” Nucleic acids research 49.18 (2021): 10785-10795.], the entire contents of which are incorporated herein by reference.
  • An example of a PE nuclease is PE2-nuclease.
  • PE2-nuclease has the following structure: [bpNLS(SV40)]-[SpCas9 (WT)]-[SGGSx2-XTEN16-SGGSx2]-[MMLV RT]-[bpNLS(SV40)].
  • the PE2-nuclease may comprise the amino acid sequence of SEQ ID NO:33.
  • amino acid sequence of SEQ ID NO: 33 is:
  • PEmax-nuclease is a nuclease-based prime editor protein developed on the basis of PEmax prime editor protein (i.e., a type of PE-nuclease), and has nuclease activity (i.e., DSB activity) rather than nickase activity. It is a prime editor protein containing a Cas protein with. PEmax-nuclease has the following structure:
  • the PEmax-nuclease may comprise the amino acid sequence of SEQ ID NO:34.
  • amino acid sequence of SEQ ID NO: 34 is:
  • epegRNA is an improved version of pegRNA
  • the pegRNA used in the above-described prime editing system may be epegRNA or pegRNA other than epegRNA, and is not limited thereto.
  • PE2 prime editor protein and pegRNA form a complex.
  • the complex contacts the cell's genome.
  • the spacer of pegRNA binds to the sequence of the corresponding target site.
  • a nick occurs in a strand of genomic DNA that is not bound by a spacer.
  • the nick occurs between the 3rd and 4th nucleotides upstream of the 5' end of the PAM sequence.
  • a sequence located upstream of the nick site functions as a primer and forms a complementary bond with the primer binding site of pegRNA.
  • the reverse transcriptase forms a 3' DNA flap by performing a reverse transcription process based on the primer that forms a complementary bond with the primer binding site.
  • the reverse transcription template is the RT template of pegRNA.
  • 3' flap information is installed into genomic DNA through cell-specific mechanisms such as removal of the 5' flap, ligation of the 3' flap, and DNA mismatch repair process.
  • prime editing the information of the RT template of pegRNA is transferred to the desired location on both strands of genomic DNA.
  • the RT template contains the template for the desired editing (ie, the editing template), and the information contained in the editing template is, in turn, transferred to the target location of the genomic DNA.
  • off-targets of prime editing provided by the present application, developed and targeted for prime editing, which can be widely used or applied when identifying off-targets that can occur in the above-mentioned or future prime editing, are predicted or identified How to do it will be explained in detail.
  • Prime editor proteins used in various prime editing versions described above may be used in the method of predicting or confirming off-targets of prime editing below, but are not limited thereto.
  • the additional elements used in the above-described prime editing version may also be used in the method of predicting or confirming an off-target of prime editing of the present application.
  • prime editor protein pegRNA
  • prime editing system developed based on the technical characteristics of prime editing characterized by the use of Cas protein and polymerase can be used in the method of predicting off-targets of the present application. It will be clear to those skilled in the art.
  • off target refers to a genetic modification that occurs at an unintended location. Genetic alterations induced by off-targets may be non-specific.
  • Developed genome editing tools include traditional CRISPR/Cas systems, base editing systems, prime editing systems, transcription activator-like effector nucleases (TALENs), meganucleases, and zinc finger nucleases. These genome editing tools or genome editing systems are designed to enable editing within a target region, each with a specific mechanism that allows binding to a predetermined sequence (eg, a sequence within the target region).
  • a guide RNA directs the movement of the Cas/gRNA complex to its intended, on-target location. Movement to the target site may also involve PAM sequences in the genome.
  • the Cas/gRNA complex still has the potential to bind sequences at unintended locations other than sequences within the target region.
  • unintended genetic modification occurs. Off-target effects lead to unintended genetic alterations such as unintended point mutations, deletions, insertions, inversions, and translocations.
  • the off-target region may include, but is not limited to, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, or 10, or more, mismatches with the guide RNA sequence.
  • an off-target site has 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, or 10 or more misses in the sequence of the on-target site corresponding to the sequence of each region of the pegRNA.
  • Matches may include, but are not limited to.
  • a mismatch of the off-target site may be present in one or more of the region corresponding to the spacer region of pegRNA, the PBS of pegRNA, the DNA synthesis template (eg, homology arm) of pegRNA, and the PAM sequence. there is.
  • Off-target problems imply the possibility of causing disruption of important coding regions leading to serious problems such as cancer. Furthermore, the problem of off-targets may cause confusion of variables in biological research, further implying the possibility of causing non-reproducible results. (See Eid, Ayman, and Magdy M. Mahfouz. "Genome editing: the road of CRISPR/Cas9 from bench to clinic.” Experimental & Molecular Medicine 48.10 (2016): e265-e265.), the entire text of which is incorporated in this application).
  • off-target may be used as a concept corresponding to on-target, and may be used to refer to genetic modification at an unintended location.
  • off-targets cause potent side effects in various aspects (eg, hard-to-detect side effects and/or irreversible side effects). Accordingly, identifying off-targets that may occur in the use of a DNA molecular editing system (eg, a genome editing system) is very important in research and development of therapeutic agents. It is costly and time-consuming to verify the true off-target occurring in the designed editing system (eg CRISPR/Cas system or prime editing system). For this reason, various methods capable of identifying off-target candidates, that is, predicting off-targets, have been researched and developed.
  • a DNA molecular editing system eg, a genome editing system
  • Off-target prediction system used to predict off-targets in genome editing using traditional CRISPR/Cas systems
  • GUIDE-seq GUIDE-tag
  • BLISS BLISS
  • BLESS DISCOVER-seq
  • integrase-defective lentiviral vector-mediated DNA break capture HTGTS
  • CReVIS-seq ITR-seq
  • TAG TAG -seq
  • INDUCE-seq INDUCE-seq
  • Each of the off-target prediction systems described above has different strengths and weaknesses, and generally two or three systems are combined to predict whole-genome off-target activity during CRISPR-based genome editing.
  • the above-described systems are also used for predicting off-targets activity of Base Editor systems developed using Cas proteins, for example, cytidine base editor and adenine base editor. expected to be usable.
  • Base Editor systems developed using Cas proteins, for example, cytidine base editor and adenine base editor. expected to be usable.
  • the above-mentioned systems were developed with the purpose of predicting off-targets that may occur in genome editing using the CRISPR/Cas system, and were not suitable for application to base editing, which has a different operating mechanism.
  • An off-target prediction system more suitable for base editing was required, and accordingly, one-seq (cell-based), CBE Digenome-seq (in vitro), and ABE Digenome-seq (in vitro) are more suitable for base editing and Sophisticated off-target activity prediction systems or methods have been developed.
  • the off-target activity of PE2 is Cas9 or Cas9 nickase (Cas9 nickase, nCas9). Accordingly, attempts to predict the off-target activity of prime editing using systems that predict and / or confirm off-targets of CRISPR / Cas genome editing, such as GUIDE-seq, nDignome-seq and CAS-OFFinder ( in silico ), etc. there was However, according to the experiments disclosed herein, it is confirmed that it is not suitable to use existing methods for predicting and/or confirming off-targets of CRISPR/Cas genome editing to predict off-targets of prime editing.
  • Prime editing using prime editor proteins and pegRNA is performed based on a mechanism different from genome editing using the traditional CRISPR/Cas system.
  • prime editing involves multiple factors (e.g., primer binding site, reverse transcription template, reverse transcriptase, etc.) in addition to the guide sequence and multiple enzymes (flap endonuclease) AIDS, exonuclease, lygase, etc.)
  • Prime Editing was developed based on the traditional CRISPR/Cas system, but the genome editing mechanism of Prime Editing has many different aspects from the mechanism of the traditional CRISPR/Cas genome editing system.
  • the inventors of the present application confirmed through experiments that not only the mismatch of the spacer region of pegRNA, but also the primer binding site, homology arm, and / or editing template affect the off-target of prime editing (this See sections "Editing Patterns at Verified Off-Target Sites” and "Analysis of Mismatches by Region” in Experimental Examples of the Application).
  • a method for predicting off-target activity developed by targeting prime editing in consideration of the prime editing mechanism has not yet been reported. That is, there is no reliable off-target prediction method for identifying off-target candidates for prime editing.
  • This application provides a novel off-target prediction method suitable for prime editing.
  • the inventors of the present application confirm that an off-target prediction system developed targeting an existing CRISPR/Cas system causes inaccurate prediction (many false positives and/or false negatives) when applied to identify off-targets of prime editing. did Accordingly, the inventors of the present application have developed a novel method or system for predicting an off-target of prime editing.
  • the inventors of the present application focused on the ability or effect of prime editing to insert (install or create) a desired sequence at a desired location, and developed a novel pegRNA (prime editing) including a tag template for tag insertion.
  • a novel system or method for predicting off-target suitable for prime editing using guide RNA was developed.
  • the inventors of the present application found that the prediction reliability and / or accuracy of the newly developed system for predicting the off-target of prime editing is improved by using the existing off-target prediction system developed to target the existing CRISPR / Cas genome editing system. higher was confirmed.
  • TAPE-seq Tgmentation of Prime Editor sequencing
  • tpegRNA tagmentation pegRNA
  • the present application provides a method or system for predicting off-targets that may occur in the process of editing DNA molecules using a prime editing system.
  • the present application provides a method for predicting off-targets that may occur in a genome editing process using a prime editing system.
  • the method for predicting an off-target may be referred to as, for example, a method for identifying an off-target candidate, a method for verifying information on an off-target, and a method for verifying a candidate off-target location, etc.
  • a description of a method or system for predicting off-targets that may occur in the editing process of a genome) or checking information on off-targets may be used without limitation.
  • off-target encompasses the concept of an off-target site.
  • an off-target site or location may be described as off-target.
  • off-target prediction may mean identifying an off-target candidate.
  • prediction of an off-target may mean checking the position of an off-target candidate.
  • descriptions of 'off-target', 'off-target prediction', and 'off-target candidate' shall not be construed as limiting. .
  • the method of predicting an off-target of prime editing may be described as follows, but is not limited thereto, and any description related to prediction or confirmation of an off-target that may occur in prime editing may be used interchangeably: Prime Editing prediction of off-targets that may occur in ; Identification (or screening) of off-target candidates for prime editing (or possibly occurring in prime editing); Identification (or screening) of off-targets of prime editing (or possible occurrence of prime editing); Confirmation of off-target information of prime editing (or possible occurrence of prime editing); Identification of locations where off-targets may occur; and identification of off-target locations, and the like.
  • a bona-fide off target is a validated off-target, which is used to refer to an off-target that actually occurs, rather than simply an off-target candidate found by a prediction system.
  • an off target that occurs when a cell's genome is edited using a prime editing system may be referred to as a true off target.
  • off-target candidates sites associated with off-targets found using the off-target prediction system may be distinguished from true off-targets by being referred to as “off-target candidates” or “predicted off-targets.”
  • An off-target candidate found through the off-target prediction system may or may not be a true off-target.
  • the true off-target can be found by verifying each off-target candidate. It is important that off-target prediction systems have low false positive rates. This is because it is difficult to find true off-target candidates when too many off-target candidates are derived from the off-target prediction system.
  • the population of off-target candidates discovered through the off-target prediction system may not include all true off-targets. This case is related to the miss rate. For example, the result of not detecting a true off-target site as an off-target candidate increases the miss rate.
  • the system for predicting off-targets generated in the DNA molecule editing process of prime editing of the present application is characterized by tagmentation based on a prime editing mechanism using tpegRNA.
  • tools for off-target prediction eg, prime editor protein and tpegRNA
  • the method of predicting the off-target of prime editing of the present application requires at least two elements:
  • tpegRNA tagmentation pegRNA
  • the tool for off-target prediction of prime editing of the present application may include at least a prime editor protein and tpegRNA.
  • the method of predicting off-targets of the present application may be referred to as TAPE-seq, and TAPE-seq relates to a method of predicting off-targets designed based on a prime editing mechanism and developed by targeting prime editing. Use the editing mechanism. Accordingly, the method for predicting off-targets provided by the present application includes the use of prime editor proteins used in prime editing. That is, the various prime editor proteins described above can be used in the off-target prediction system of the present application. Prime editor proteins used in the system for predicting prime editing off-targets of the present application include Cas proteins and polymerases (eg, reverse transcriptases).
  • prime editor protein as the prime editor protein of a specific prime editing system (eg, a specific prime system that is the target of off-target prediction through TAPE-seq) where this description is the target of off-target prediction is not asking for
  • a specific prime editing system e.g, a specific prime system that is the target of off-target prediction through TAPE-seq
  • the same type of prime editor protein as the prime editing system target of off-target prediction or a different type of prime editor protein may be used.
  • the off-target prediction system of the present application it is not required to use the same type of pegRNA as a specific prime editing system subject to off-target prediction.
  • the same type of pegRNA-based tpegRNA as the pegRNA used in a specific prime editing system targeted for off-target prediction is used, or a different type of pegRNA (e.g., epegRNA)-based tpegRNA can be used.
  • a specific first prime editing system to check off-target information through the off-target prediction system is a PE2 prime editing system
  • the first prime editing system is performed to check off-target information
  • prime editor proteins having nuclease activity eg, PE2-nuclease, PEmax-nuclease
  • the PE2 prime editor protein may be used in TAPE-seq.
  • engineered tpegRNA etpegRNA
  • tagmentation pegRNA may be used instead of engineered tpegRNA (etpegRNA) in TAPE-seq.
  • Prime editor proteins include Cas proteins and polymerases (eg, reverse transcriptases). Prime Editor proteins are described in detail in the section "Prime Editing Systems" herein. Examples of prime editor proteins that can be used in the off-target prediction system of the present application include the aforementioned prime editor proteins, but are not limited thereto, and are developed for the purpose of prime editing after the filing date of the present application (or the invention of prime editing It will be appreciated by those skilled in the art that a fusion protein or complex for prime editing can also be used in the off-target prediction system of the present application.
  • examples of tpegRNAs that can be used in the off-target prediction system of the present application include, but are not limited to, various aspects of tpegRNAs developed based on the pegRNAs described above, developed for the purpose of prime editing after the filing date of the present application It will be appreciated by those skilled in the art that tpegRNA based on pegRNA for prime editing (or an invention succeeding the inventive idea of prime editing) can also be used in the off-target prediction system of the present application.
  • the prime editor protein used in the prime editing off-target prediction system of the present application may include a Cas protein and a polymerase.
  • the Cas protein is Cas12a, Cas12b1 (C2c1), Cas12c (C2c3), Cas12e (CasX), Cas12d (CasY), Cas12g, Cas12h, Cas12i, Cas1, Cas1B, Cas2, Cas3, Cas4, Cas5, Cas6, Cas7, Cas8, Cas9 (also known as Csn1 and Csx12), Cas10, Csy1, Csy2, Csy3, Cse1, Cse2, Csc1, Csc2, Csa5, Csn2, Csm2, Csm3, Csm4, Csm5, Csm6, Cmr1, Cmr3, Cmr4 x Cas9; Circular permutation Cas9, or Argonot (Ago) domain, or a fragment thereof
  • the Cas protein may have nickase activity. In certain embodiments, the Cas protein can be nCas9. In certain embodiments, the Cas protein can be the SpCas9 nickase. In certain embodiments, the Cas protein may have nuclease activity. In certain embodiments, the Cas protein can be Cas9 with nuclease activity. In certain embodiments, the Cas protein may be a variant of Cas9 that has nuclease activity. In certain embodiments, the Cas protein can be SpCas9 or a variant thereof.
  • the SpCas9 mutant may be one in which one or more amino acid residues selected from D10, R221, L244, N394, H840, K1211, and L1245 of wild-type SpCas9 are substituted with other amino acid residues.
  • the Cas protein may comprise an amino acid sequence comprising the H840A mutation in the amino acid sequence of wild-type SpCas9 (SEQ ID NO: 28).
  • the Cas protein may comprise an amino acid sequence comprising the amino acid sequence of R221K and N394K in the amino acid sequence of wild-type SpCas9 (SEQ ID NO: 28).
  • the Cas protein may comprise an amino acid sequence comprising the amino acid sequence of R221K and N394K in the amino acid sequence of wild-type SpCas9 (SEQ ID NO: 28). In certain embodiments, the Cas protein may comprise the amino acid sequence of SEQ ID NO: 29, SEQ ID NO: 30, or SEQ ID NO: 31.
  • the polymerase may be a reverse transcriptase.
  • the reverse transcriptase may be a wild type M-MLV reverse transcriptase.
  • the reverse transcriptase may be a variant of the wild type M-MLV reverse transcriptase.
  • the variant of wild-type M-MLV reverse transcriptase is any one selected from D200N, T306K, W313F, T330P, and L603W in the amino acid sequence of wild-type M-MLV reverse transcriptase (SEQ ID NO: 26). It may include an amino acid sequence comprising one or more amino acid variances.
  • a variant of wild-type M-MLV reverse transcriptase is, based on the amino acid sequence of wild-type M-MLV reverse transcriptase of SEQ ID NO: 26, the amino acids of D200N, T306K, W313F, T330P, and L603W may contain mutations.
  • the variant of the wild-type M-MLV reverse transcriptase based on the amino acid sequence of the wild-type M-MLV reverse transcriptase of SEQ ID NO: 26, amino acid mutations of D200N, T306K, W313F, and T330P can include
  • the reverse transcriptase may comprise the amino acid sequence of SEQ ID NO: 26, or SEQ ID NO: 27.
  • the prime editor protein may further include additional elements such as one or more linkers and/or one or more NLSs.
  • Prime editor protein that can be used in the off-target prediction system of the present application is a prime editor protein of the above-described prime editing version (eg, PE1 to PE5, PEmax, nuclease-based prime editing, PEmax-nuclease, etc.) cover
  • the prime editor protein can be PE2 prime editor protein, PE2-nuclease, PEmax prime editor protein, PEmax-nuclease.
  • the prime editor protein may be a PEmax-nuclease.
  • tpegRNA tagmentation pegRNA
  • tpegRNA (tagmentation pegRNA) is a guide nucleic acid developed from pegRNA and designed to insert a tag sequence into a DNA molecule, used in the off-target prediction method provided by the present application (ie, the prime editing off-target prediction method) .
  • tpegRNA was developed from pegRNA and can be referred to as a type of pegRNA.
  • the tpegRNA provided by the present application includes a tag template, and the purpose of transferring information (eg, tag sequence) contained in the tag template into a DNA molecule (eg, genome) based on a mechanism of prime editing can be used as
  • a tpegRNA can be a single-stranded nucleic acid molecule (eg, single-stranded RNA).
  • a tpegRNA may be a nucleic acid complex consisting of two or more strands (eg, a complex of first strand RNA and second strand RNA). When the tpegRNA is composed of two strands, some sequences of the two strands may form complementary bonds at the gRNA core to form the two strands of tpegRNA.
  • tpegRNA may be a single-stranded RNA molecule.
  • Some embodiments of the present application provide tpegRNA. Hereinafter, elements included in tpegRNA are described.
  • a tpegRNA includes a spacer, a gRNA core, and an extension region.
  • the pegRNA used for prime editing has an extension arm added to the 3' or 5' end of the traditional gRNA.
  • pegRNA has an extension arm added to the 3' end of a traditional gRNA.
  • tpegRNA has a form in which an extension arm is added to the 3' end or 5' end of a conventional gRNA, and the extension arm may include an extension region.
  • the tpegRNA has an extension arm added to the 3' end of a traditional gRNA.
  • the spacer, gRNA core, and extension region may be located on the tpegRNA in the 5' to 3' direction of the tpegRNA.
  • the tpegRNA is an additional functional site independently selected at any one or more positions selected from between the 5' end and the spacer, between the spacer and the gRNA core, between the gRNA core and the extension region, and between the extension region and the 3' end. It may further include one or more elements (eg, linkers, transcription termination elements, RNA protective motifs, etc.), but is not limited thereto. That is, tpegRNA may have additional functional elements selected independently between each of the above elements, or may not have additional functional elements, and is not limited thereto.
  • the extended region of the tpegRNA includes a tag template.
  • tag templates can be described separately from DNA synthesis templates (eg, RT templates).
  • the extended region of tpegRNA can be described as including a primer binding site (PBS), a tag template, and a DNA synthesis template.
  • PBS primer binding site
  • the tag template and the DNA synthesis template are separately described, which is to distinguish the tag template from the existing DNA synthesis template of pegRNA.
  • the tag template is coded into the editing DNA molecule by the reverse transcriptase of the prime editor protein and therefore can be described as one of the elements of a DNA synthesis template.
  • the extended region of tpegRNA can be described as including a primer binding site and a DNA synthesis template (here, the DNA synthesis template includes a tag template).
  • the tag template will be described separately from the DNA synthesis template. Unless otherwise stated, it will be appreciated that tpegRNAs contain tag templates.
  • the extended region of tpegRNA may further include one or more additional functional regions independently selected in addition to the PBS, the tag template, and the DNA synthesis template.
  • the extended region of tpegRNA may further include a 3' engineering region including an RNA protective motif, and when the extended region of tpegRNA further includes a 3' engineering region including an RNA protective motif, the tpegRNA is etpegRNA (engineered tpegRNA).
  • an RNA protective motif can include the sequence CGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAA (SEQ ID NO: 41).
  • the 3' engineered region may further comprise a linker to connect the RNA protective motif in addition to the RNA protective motif. At this time, the linker for connecting the RNA protection motif may serve to connect the RNA protection motif and PBS.
  • tpegRNA is used as a concept including aspects of etpegRNA, and unless otherwise specified, descriptions of tpegRNA will be interpreted as including content related to etpegRNA. Certain embodiments specific to the use of etpegRNA will be described in conjunction with etpegRNA.
  • the 3' engineering region is 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt, 23nt, 24nt, 25nt, 26nt, 27nt, 28nt, 29nt, 30nt, 31nt, 32nt, 33nt, 34nt, 35nt, 36nt, 37nt, 38nt, 39nt, 40nt, 41nt, 42nt, 43nt, 44nt, 45nt, 46nt, 47nt, 48nt, 4 9nt, 50nt, 51nt, 52nt, 53nt, 54nt, 55nt, 56nt, 57nt, 58nt, 59nt, 60nt, 61nt, 62nt, 63nt, 64
  • a tpegRNA is about 30 nt, 40 nt, 50 nt, 60 nt, 70 nt, 80 nt, 90 nt, 100 nt, 110 nt, 120 nt, 130 nt, 140 nt, 150 nt, 160 nt, 170 nt, 180 nt, 190 nt, 200 nt, 210 nt, 220 nt, 230 nt, 240 nt, 250 nt, 260 nt, 270 nt, 280 nt, 290 nt, 300 nt, 310 nt, 320 nt, 330 nt , 340 nt, 350 nt, 360 nt, 370 nt, 380 nt, 390 nt, 400 nt, 410 nt, 420 nt, 430 nt, 440 nt, 450 nt, 460
  • the tpegRNA of the present application includes a tag template for inserting a tag sequence into a DNA molecule.
  • examples of traditional gRNAs, pegRNAs, and tpegRNAs are shown in FIG. 01 .
  • the examples of gRNA, pegRNA, and tpegRNA disclosed in FIG. 01 are shown based on essential elements included in each guide RNA, and it will be clear to those skilled in the art that additional elements may be further included between each element or at the end. will be.
  • a tpegRNA may include a spacer, a gRNA core, and an extension region.
  • spacers and gRNA cores are elements derived from traditional gRNAs. Spacers and gRNA cores are fully described in the sections "CRISPR/Cas System” and "Prime Editing System” herein.
  • a spacer includes a spacer sequence.
  • a spacer sequence can be freely designed according to the target sequence. At this time, the location of the PAM sequence may be considered.
  • a spacer sequence can be designed as a sequence complementary to a target sequence on the spacer binding strand of genomic DNA. The spacer sequence can be designed to be the same (or substantially identical, or corresponding) sequence as the target sequence on the spacer unbound strand of genomic DNA.
  • Spacer sequences can be RNA sequences, DNA sequences or RNA/DNA hybrid sequences.
  • the spacer sequence is an RNA sequence. Similar to traditional gRNAs, the spacer sequence is involved in inducing the Cas protein (Cas protein included in the prime editor) to the target site. That is, the spacer sequence and the target sequence form a complementary bond, the prime editor protein/tpegRNA complex is located in the target region, and the prime editor protein generates a nick or DSB in the target region.
  • Cas protein Cas protein included in the prime editor
  • the spacer sequence is about 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt, 23nt ,24nt,25nt,26nt,27nt,28nt,29nt,30nt,31nt,32nt,33nt,34nt,35nt,36nt,37nt,38nt,39nt,40nt,41nt,42nt,43nt,44nt,45nt,46nt,47nt, 48nt , 49 nt, 50 nt or more, or may have a length within a range of two values selected from the above values, but is not limited otherwise.
  • the spacer sequence may have a length of 10 to 35 nt. In certain embodiments, the spacer sequence may have a length of 13 to 30 nt. In certain embodiments, the spacer sequence may have a length of 15 to 25 nt.
  • a tpegRNA may include a spacer, a gRNA core, and an extension region.
  • spacers and gRNA cores are elements derived from traditional gRNAs.
  • the gRNA core is a part that interacts with the Cas protein, and is a part that binds to the Cas protein to form a complex.
  • the gRNA core may be referred to as the scaffold region.
  • the gRNA core or scaffold may be designed differently depending on the type of Cas protein used. For example, it may vary depending on the type of microorganism from which the Cas protein is derived and the type of CRISPR system.
  • a gRNA core may include a scaffold sequence.
  • a scaffold sequence can be, for example, an RNA sequence, a DNA sequence, or a DNA/RNA hybrid sequence. Some sequences of the gRNA core can interact with other sequences of the gRNA core to form structures such as stems/loops or hairpins.
  • the length of the scaffold sequence is about 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt, 23nt, 24nt, 25nt, 26nt, 27nt, 28nt, 29nt, 30nt, 31nt, 32nt, 33nt, 34nt, 35nt, 36nt, 37nt, 38nt, 39nt, 40nt, 41nt, 42nt, 43nt, 44nt, 45nt, 46nt, 47nt, 4 8nt, 49nt, 50nt, 55nt, 60nt, 65nt, 70nt, 75nt, 80nt, 85nt, 90nt, 95nt, 100nt, 110nt, 120nt, 130nt, 140nt, 150
  • scaffold sequences may be between 30 and 200 nt in length, but are not otherwise limited. In certain embodiments, scaffold sequences may be between 50 and 150 nt in length. In certain embodiments, scaffold sequences may be between 60 and 100 nt in length.
  • tpegRNAs may include extended regions (or extended arms).
  • the extended region of tpegRNA is characterized in that it contains a tag template.
  • the extended region of the tpegRNA may be located at the 3' end of the traditional gRNA, or it may be located at the 5' end.
  • tpegRNA may have a structure of "[conventional gRNA part]-[extension region]” or "[extension region]-[conventional gRNA part]” in the 5' to 3' direction.
  • the [traditional gRNA part] may include the aforementioned spacer and scaffold (gRNA core).
  • the extension region may be located at the 3' end of the traditional gRNA region.
  • a tpegRNA can include a spacer, a gRNA core, and an extension region.
  • a spacer, gRNA core, and extension region may be located on the tpegRNA in the 5' to 3' direction.
  • the extension region, spacer, gRNA core may be located on the tpegRNA in the 5' to 3' direction.
  • the extended region of a tpegRNA may include an RNA sequence, a DNA sequence, or a DNA/RNA hybrid sequence.
  • the extension region may include RNA sequences, but is not limited thereto.
  • the extended region of tpegRNA is characterized in that it contains a tag template. That is, the extended region includes a primer binding site (PBS), a tag template, and a DNA synthesis template (eg, RT template).
  • the extension region may further include one or more independently selected additional elements (eg, linkers or RNA protective motifs, etc.) between or at the terminus of the aforementioned elements.
  • a tpegRNA may include one or more independently selected additional elements in addition to the extension region, gRNA core, and spacer. Additional elements can be any of, for example, but not limited to linkers, poly U tails, poly A tails, and RNA protection motifs.
  • the tpegRNA may include a U rich, A rich, or AU rich sequence at the 3' end.
  • a tpegRNA may include a sequence of (U)n at its 3' end, where n may be an integer from 3 to 20.
  • the tpegRNA may include a sequence of (U) 7 at the 3' end.
  • tpegRNAs contain extended regions.
  • the extension region may include a tag template and a primer binding site described in detail in pegRNA.
  • the extended region of tpegRNA can be described as comprising a first region comprising a DNA synthesis template, a second region comprising a tag template, and a third region comprising a primer binding site.
  • all or part of the first region may be a DNA synthesis template.
  • all or part of the second region may be a tag template.
  • all or part of the third region may be a primer binding portion.
  • the extended region of tpegRNA may contain a tag template.
  • the tag template is complementary to a single-stranded DNA flap (eg, a 3' DNA flap) synthesized by a polymerase, such as a reverse transcriptase, or a tag sequence to be installed on the spacer non-binding strand of a DNA molecule. refers to a portion of an extended region having
  • the tag template may have complementarity with a tag sequence to be installed on a DNA flap (eg, a 3' DNA flap) or a spacer non-binding strand of a DNA molecule.
  • the off-target prediction method of the present application provides information on a tag including a tag sequence installed on a DNA molecule and/or a sequence complementary to the tag sequence (eg, presence of a tag sequence or a sequence complementary to the tag sequence, tag sequence information on the inserted chromosome and/or the position where the tag sequence was inserted) may be identified to achieve the purpose of off-target prediction of prime editing.
  • tag sequences corresponding to tag templates of tpegRNA are described in Tsai, Shengdar Q., et al., the entire contents of which are incorporated herein by reference.
  • “GUIDE-seq enables genome-wide profiling of off-target cleavage by CRISPR-Cas nucleases.” Nature biotechnology 33.2 (2015): 187-197.].
  • the tag template of tpegRNA and the tag sequence to be inserted into DNA are not particularly limited and may be appropriately selected depending on the purpose of use of tpegRNA.
  • the sequence of the tag template may be AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (SEQ ID NO: 42), GUUAUUAACAUAUGACAACUCAAUUAAAC (SEQ ID NO: 43), UAUGACAACUCAAUUAAAC (SEQ ID NO: 44), AUUAACAUAUGAC (SEQ ID NO: 45), GACAACUCA (SEQ ID NO: 46), or CUCAAUUA ( SEQ ID NO: 47 ).
  • the tag sequence can include the sequence of GTTTAATTGAGTTGTCATATGTTAATAACGGTAT (SEQ ID NO: 48), GTTTAATTGAGTTGTCATATGTTAATAAC (SEQ ID NO: 49), or GTTTAATTGAGTTGTCATA (SEQ ID NO: 50).
  • a tag template can be an RNA sequence, a DNA sequence, or an RNA/DNA hybrid sequence.
  • the tag template may be an RNA sequence.
  • the tag template may have a length of 1 nt to 500 nt.
  • the tag template is 1nt, 2nt, 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt, 23nt, 24nt, 25nt, 26nt, 27nt, 28nt, 29nt, 30nt, 31nt, 32nt, 33nt, 34nt, 35nt, 36nt, 37nt, 38nt, 39nt, 40nt, 41nt, 42nt, 43nt, 44nt, 45nt, 4 6nt, 47nt, 48nt, 49nt, 50nt, 51nt, 52nt, 53nt, 54nt, 55nt, 56
  • the tag template is 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt, 23nt, 24nt, 25nt, 26nt, 27nt, 28nt, 29nt, 30nt, 31nt, 32nt, 33nt, 34nt, 35nt, 36nt, 37nt, 38nt, 39nt, 40nt, 41nt, 42nt, 43nt, 44nt, 45nt, 46nt, 47nt, 48nt, 49nt, 5 0nt, Or it may have a length greater than that, or a length within a range set by two values selected from the above values.
  • the tag template may have a length of 10 to 70 nt. In certain embodiments, the tag template may have a length of 10 to 50 nt. In certain embodiments, the tag template may have a length of 15 to 40 nt. In certain embodiments, the tag template may have a length of 25 to 40 nt. In certain embodiments, the tag template may have a length of 30 to 40 nt. In certain embodiments, the tag template may have a length of about 19, 24, 29, or 34 nt.
  • the length of the tag template may be appropriately designed according to the purpose of the invention disclosed in this application to analyze the prime editing off-target through the tag sequence to be installed. If the length of the tag template is too short, it may be difficult to obtain information about the tag sequence inserted into the DNA molecule. If the length of the tag template is too long, the probability of installation of the tag sequence into the DNA molecule may decrease, and accordingly, there may be a possibility that the purpose of off-target prediction cannot be achieved.
  • tag templates can be freely designed according to the purpose of use of tpegRNA.
  • the tag template is the basis for the tag sequence to be inserted into genomic DNA. That is, a tag sequence is installed into genomic DNA using the tag template as a template for reverse transcription. Through the tag sequence installed into the genomic DNA or the sequence complementary to the tag sequence, the position of the tag within the genomic DNA can be specified, and through the position of the tag, an off-target site (e.g., a candidate off-target site) can be identified. target sites or off-target candidates) can be found. Whether or not the same sequence exists in genomic DNA may be considered in designing a tag template or tag sequence of tpegRNA used for the purpose of predicting an off-target.
  • the off-target prediction result may be affected.
  • the sequence of the tag template or the tag sequence can be freely designed according to the plan or purpose of use of tpegRNA.
  • PBS Primer binding site
  • the extended region of tpegRNA may include a primer binding site (PBS).
  • PBS of tpegRNA plays the same or similar role as the primer binding site of prime editing pegRNA.
  • the polymerization activity of the polymerase (eg, reverse transcriptase) of the prime editing protein is in the 5' to 3' direction relative to the strand bound to the template strand.
  • a polymerase e.g., reverse transcriptase
  • the primer binding site (PBS) of tpegRNA binds to the primer sequence formed from the endogenous DNA strand of the nicking target site generated by the prime editing protein, resulting in nicking The 3' end on the strand is exposed.
  • the binding of the primer sequence to the primer binding site on the extended region of tpegRNA provides a substrate for reverse transcriptase to polymerize the DNA single strand.
  • the primer-binding portion may have a sequence complementary to a sequence of a primer located upstream (towards the 5' direction) of a cleavage (caused by a nick or DSB) on the spacer non-binding strand.
  • the primer sequence may be a portion of the sequence in the region of -0 to -200 relative to the cleavage site. In certain embodiments, the primer sequence may be a portion of the sequence present in the region of -0 to -50 based on the cleavage site. In certain embodiments, the primer sequence may be a portion of the sequence present in the region of -0 to -30 based on the cleavage site. In certain embodiments, the primer sequence may be a portion of the sequence present in the region of -0 to -20 based on the cleavage site.
  • - indicates the 5' direction
  • a number such as 30 indicates the number of nucleotides. For example, -30 represents the 30th nucleotide from the cleavage site. However, 0 represents the cutting position.
  • a primer binding site can be an RNA sequence, a DNA sequence, or a DNA/RNA hybrid sequence.
  • the primer binding site may be an RNA sequence.
  • a primer binding site or primer may have a length of 1 nt to 500 nt.
  • a primer binding site or primer is 1nt, 2nt, 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt ,21nt,22nt,23nt,24nt,25nt,26nt,27nt,28nt,29nt,30nt,31nt,32nt,33nt,34nt,35nt,36nt,37nt,38nt,39nt,40nt,41nt,42nt,43nt,44nt, 45nt 46nt, 47nt, 48nt, 49nt, 50nt, 51nt, 52nt, 53nt, 54n
  • the primer binding site or primer is 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt ,23nt,24nt,25nt,26nt,27nt,28nt,29nt,30nt,31nt,32nt,33nt,34nt,35nt,36nt,37nt,38nt,39nt,40nt,41nt,42nt,43nt,44nt,45nt,46nt, 47nt , 48 nt, 49 nt, or 50 nt, or may have a length within a range set by two values selected from the above values.
  • the primer binding site or primer may have a length of 3 to 30 nt. In certain embodiments, the primer binding site or primer may have a length of 5 to 20 nt. In certain embodiments, the primer binding site or primer may have a length of 5 to 15 nt.
  • the extended region of tpegRNA may contain a DNA synthesis template.
  • the DNA synthesis template may be a reverse transcription template (RT template).
  • RT template reverse transcription template
  • the tpegRNA DNA synthesis template plays the same or similar role as the prime editing pegRNA DNA synthesis template.
  • An edit template may optionally be included in the DNA synthesis template of tpegRNA.
  • a typical pegRNA used for prime editing necessarily includes an editing template because the purpose of prime editing is to perform editing.
  • an editing template may be optionally included. That is, in some embodiments, a DNA synthesis template may or may not include an editing template.
  • DNA synthesis templates include, but are not limited to, editing templates.
  • a DNA synthesis template can be an RNA sequence, a DNA sequence, or a DNA/RNA hybrid sequence.
  • the DNA synthesis template eg RT template
  • the DNA synthesis template may be an RNA sequence.
  • the sequence of the DNA synthesis template may correspond to a portion of the sequence present in the +0 to +500 region of the cleavage site (caused by a nick or DSB) of the spacer unbound strand.
  • '+' indicates the 3' direction
  • numbers such as 500 indicate the order of nucleotides from the cleavage site.
  • 1 refers to the nucleotide located first from the cleavage site.
  • 500 refers to the nucleotide located 500th from the cleavage position.
  • 0 represents the cutting position.
  • the sequence of the DNA synthesis template is ⁇ +100, ⁇ +90, ⁇ +80, ⁇ +70, ⁇ +60, ⁇ +50, ⁇ +40, ⁇ +30, ⁇ +20, or ⁇ +10 region may correspond to part of the sequence.
  • sequences other than editing templates of DNA synthesis templates are ⁇ +100, ⁇ +90, ⁇ +80, ⁇ +70, ⁇ +60, ⁇ +50, ⁇ + based on the cleavage position of the non-spacer strand.
  • 40, ⁇ +30, ⁇ +20, or ⁇ +10 may be a sequence complementary to a portion of the sequence of the region, and/or a sequence substantially identical to a portion of the sequence of the spacer binding strand of the foregoing region.
  • a DNA synthesis template may have a length of 1 nt to 500 nt.
  • the DNA synthesis template is 1nt, 2nt, 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt ,22nt,23nt,24nt,25nt,26nt,27nt,28nt,29nt,30nt,31nt,32nt,33nt,34nt,35nt,36nt,37nt,38nt,39nt,40nt,41nt,42nt,43nt,44nt,45nt, 46nt ,47nt,48nt,49nt,50nt,51nt,52nt,53nt,54nt
  • the DNA synthesis template is 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt, 23nt , 24nt, 25nt, 26nt, 27nt, 28nt, 29nt, 30nt, 31nt, 32nt, 33nt, 34nt, 35nt, 36nt, 37nt, 38nt, 39nt, or may have a length of 40nt.
  • the DNA synthesis template may have a length of 3 to 40 nt. In certain embodiments, DNA synthesis templates may have a length of 5 to 30 nt. In certain embodiments, the DNA synthesis template may have a length of 7 to 30 nt.
  • a DNA synthesis template may include an editing template and a homology region (or homology arm).
  • a DNA synthesis template may include regions of homology.
  • homology regions included in DNA synthesis templates will be described.
  • the homology region is a region corresponding to the homology arm or homology region of the above-described pegRNA used in prime editing.
  • the region of homology is complementary to some sequence of the spacer non-binding strand of the target DNA. In some embodiments, the region of homology has a sequence homologous to a portion of the sequence of the spacer binding strand of the target DNA.
  • the sequence of the homology region has complementarity with a portion of the sequence of the region located downstream (towards the 3' direction) of the cleavage site (caused by a DSB or nick) generated on the spacer non-binding strand of the DNA molecule.
  • the region of homology may have a sequence complementary to a sequence located downstream of the nick generating site of the spacer non-binding strand.
  • the homology region, in prime editing version 2 may have a sequence homologous to a part of the sequence located upstream of a region corresponding to the nick generation region of the spacer binding strand.
  • the region of homology replaces the sequence of the endogenous strand of the DNA molecule and facilitates the annealing of single-stranded DNA flaps (e.g., 3' DNA flaps), helping to install editing and/or tag sequences into the DNA molecule.
  • the region of homology can be described as part of a DNA synthesis template because it is encoded by the polymerase (eg, reverse transcriptase) of the prime editing protein.
  • regions of homology may include RNA sequences, DNA sequences, or DNA/RNA hybrid sequences.
  • the region of homology may include an RNA sequence.
  • regions of homology may have a length of 1 nt to 500 nt.
  • the region of homology is 1nt, 2nt, 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt ,22nt,23nt,24nt,25nt,26nt,27nt,28nt,29nt,30nt,31nt,32nt,33nt,34nt,35nt,36nt,37nt,38nt,39nt,40nt,41nt,42nt,43nt,44nt,45nt, 46nt ,47nt,48nt,49nt,50nt,51nt,52nt,53nt,54nt,55
  • the region of homology is 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt, 23nt , 24nt, 25nt, 26nt, 27nt, 28nt, 29nt, 30nt, 31nt, 32nt, 33nt, 34nt, 35nt, 36nt, 37nt, 38nt, 39nt, or may have a length of 40nt. In certain embodiments, regions of homology may be between 3 and 40 nt in length. In certain embodiments, regions of homology may be between 5 and 30 nt in length. In certain embodiments, regions of homology may be between 7 and 30 nt in length.
  • a DNA synthesis template may include an editing template.
  • An editing template encodes an edit to be installed on a single-stranded DNA flap (eg, a 3' DNA flap) or spacer non-binding strand synthesized by a polymerase (eg, a reverse transcriptase). refers to the portion of the extended region that
  • the editing template may have complementarity with the editing to be installed on a DNA flap (e.g., a 3' DNA flap) or a spacer non-binding strand of a DNA molecule.
  • a DNA flap e.g., a 3' DNA flap
  • spacer non-binding strand of a DNA molecule e.g., a DNA flap
  • edits installed on the spacer non-binding strand are located downstream of the location where the cleavage occurred.
  • RT templates may include editing templates and regions of homology, and the like.
  • the RT template is equivalent to a DNA synthesis template, but here the RT template reflects the use of a prime editing protein with a polymerase, which is a reverse transcriptase, and the DNA synthesis template is a prime editing protein with any polymerase. It reflects more broadly its use.
  • the editing template of tpegRNA may have the same sequence as the editing template corresponding to the desired editing to encode the 'desired edit' into the DNA molecule.
  • the target editing may be a pre-designed target editing of prime editing, which is a target of off-target analysis through the off-target prediction system of the present application).
  • the editing template of tpegRNA may have a sequence complementary to the sequence of the desired editing installed in a DNA molecule (eg, genome) or DNA flap (eg, 3' DNA flap).
  • the editing template of tpegRNA may have a different sequence from the editing template corresponding to the desired editing for encoding the desired editing into the DNA molecule.
  • the editing template of the tpegRNA is a sequence that differs in part or in whole from a sequence having complementarity with the sequence of the desired editing installed on a DNA molecule (eg, genome) or DNA flap (eg, 3' DNA flap).
  • two types of tpegRNAs may be used for off-target prediction of prime editing, wherein the sequence of the editing template included in each tpegRNA may differ in part or in whole from the sequence of the editing template of the desired editing. there is.
  • one type of tpegRNA may be used for off-target prediction of prime editing, and in this case, the sequence of the editing template included in the tpegRNA may have the same sequence as the editing template corresponding to the desired editing. In some embodiments, one type of tpegRNA may be used for TAPE-seq, wherein the sequence of the editing template included in the tpegRNA may have a sequence that is partially or entirely different from the editing template corresponding to the desired editing.
  • the technique of prime editing is a system designed to insert a desired sequence at a desired location (i.e., a system designed to 'write' a desired sequence), and editing is not otherwise limited.
  • edits are about 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22 , 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47 , 48, 49, 50, 52, 54, 56, 58, 60 nt (or bp), or longer.
  • an edit installed in a DNA molecule to be edited is an insertion of one or more nucleotides, a deletion of one or more nucleotides, when compared to the original sequence located in the region corresponding to the editing of the DNA molecule to be edited (i.e., the sequence prior to editing) , and substitution of one or more nucleotides with other nucleotides, or any combination thereof.
  • the editing installed in the DNA molecule to be edited may have a region designed to insert the same sequence as some sequence of the endogenous DNA strand being replaced.
  • edit 1 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, It may include substitutions of 48, 49, or 50 or more nucleotides, wherein the nucleotides to be replaced may be located contiguously or discontinuously within the nucleic acid.
  • editing may include insertions and substitutions described above.
  • editing may include deletions and substitutions described above.
  • editing may include insertions, deletions, and substitutions described above. Any one or more of the aforementioned insertions, deletions, and substitutions may occur in a region corresponding to a location where editing is installed in the 'editing-target DNA' molecule.
  • the editing installed in the DNA molecule to be edited may have a region designed to insert the same sequence as a partial sequence of the endogenous DNA strand to be replaced, and the region present in the editing template encoding it is a 'homologous region of the editing template' can be referred to as There may be one or more regions of homology in the editing template. That is, the editing template may include homology regions of one or more editing templates.
  • an editing template can have the following structure: [first homology region of editing template]-[nucleotides for G to T substitution]-[second homology region of editing template]-[A to T nucleotide for substitution]-[third homology region of editing template].
  • the editing template may have the following structure: [first homology region of the editing template]-[nucleotides for A to C substitution]-[second homology region of the editing template].
  • an editing template may have the following structure: [first homology region of editing template]-[nucleotides for TAA insertion].
  • the editing template may have the following structure: [first homology region of editing template]-[nucleotides for TGG insertion]-[second homology region of editing template]-[A to G substitution nucleotides for].
  • an editing template can have the following structure: [nucleotides for AGG insertion]-[first homology region of editing template].
  • the position at which editing occurs may be within a region of +0 to +100 relative to the cleavage position of the spacer unbound strand. In certain embodiments, the location at which editing occurs may be within the range of +0 to +60. In certain embodiments, the location at which editing occurs may be within the region of +1 to +30. In certain embodiments, the location at which editing occurs may be within the region of +0 to +20. In certain embodiments, the location at which editing occurs may be within the region of +0 to +10. In some embodiments, the location at which editing occurs when a tag is inserted may be located downstream of the installed tag sequence. For example, editing may occur within a range of +10 to +50 based on the cut position.
  • an editing template may consist of RNA. In some embodiments, an editing template may consist of DNA. In some embodiments, an editing template may consist of an RNA/DNA hybrid. In certain embodiments, the editing template may consist of RNA.
  • the editing template may have a length of 1 nt to 200 nt.
  • the editing template is 1nt, 2nt, 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt, 23nt, 24nt, 25nt, 26nt, 27nt, 28nt, 29nt, 30nt, 31nt, 32nt, 33nt, 34nt, 35nt, 36nt, 37nt, 38nt, 39nt, 40nt, 41nt, 42nt, 43nt, 44nt, 45nt, 4 6nt, It may have a length of 47 nt, 48 nt, 49 nt, or 50 nt or more.
  • the editing template is at least 1nt, 2nt, 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, or 20nt in length. can have
  • Each of the tag template, PBS, and DNA synthesis template may be linked directly (eg, through a covalent bond) to other elements, or may be linked through additional elements such as linkers.
  • the positional relationship may be as follows.
  • the elements in the 5' to 3' direction of the tpegRNA, may be located on the extension region in the order of DNA synthesis template, tag template, and primer binding site.
  • the tag sequence delivered by the tag template in a DNA molecule (e.g., genomic DNA), is the first to be described in the 5' to 3' direction relative to the position at which the cleavage occurred on the spacer unbound strand. is located, and the sequence delivered by the DNA synthesis template is located second.
  • the positional relationship between the tag sequence installed on the DNA molecule and the sequence having complementarity to the DNA synthesis template on the spacer non-binding strand can be structured as follows: v-[tag sequence]-[complementarity to the DNA synthesis template] sequence with].
  • v represents the position where the cut occurred.
  • the elements in the 5' to 3' direction of the tpegRNA, may be located on the extension region in the following order: tag template, DNA synthesis template, and primer binding site.
  • tag template in the DNA molecule, when describing in the 5' to 3' direction based on the position where the cleavage occurred on the spacer unbound strand, the sequence transferred by the DNA synthesis template is located first, and the sequence transferred by the tag template is located first.
  • the tag sequence is placed second. That is, the positional relationship on the spacer non-binding strand of the tag sequence installed on the DNA molecule and the sequence having complementarity to the DNA synthesis template can be structured as follows: v-[sequence having complementarity to the DNA synthesis template]-[ tag sequence].
  • v represents the position where the cut occurred.
  • the DNA synthesis template, the tag template, and the primer binding site may be located in the order from 5' to 3' of tpegRNA, but is not limited thereto.
  • the positional relationship may be as follows.
  • the tag template, DNA synthesis template, and primer binding site may be located in the order described.
  • the DNA synthesis template, tag template, and primer binding site may be located in the order described.
  • a tag template may be positioned between the DNA synthesis template and the primer binding site. In some embodiments, a tag template may be positioned between the gRNA core and the DNA synthesis template. In some embodiments, a tag template may be positioned between the spacer and the DNA synthesis template. In some embodiments, a DNA synthesis template may be positioned between the tag template and the primer binding site. In some embodiments, a DNA synthesis template may be positioned between the tag template and the gRNA core. In some embodiments, a DNA synthesis template may be positioned between the tag template and the spacer.
  • An exemplary embodiment of a tpegRNA described as comprising a DNA synthesis template, a tag template, and an extension region comprising a primer binding site is disclosed in FIG. 02 .
  • a tpegRNA can be described as comprising a region of homology, an editing template, a tag template, and a primer binding site. This description method makes it possible to explain the case where the tag template is located between the editing template and the homology region.
  • a tpegRNA may comprise a first region comprising a region of homology, a second region comprising an editing template, a third region comprising a tag template, and a fourth region comprising a primer binding site.
  • part or all of the first region may be a homology region.
  • part or all of the second region may be an editing template.
  • part or all of the third region may be a tag template.
  • part or all of the fourth region may be a primer binding portion.
  • tag templates are installed into genomic DNA by polymerases and therefore can be described as part of DNA synthesis templates.
  • extension region of tpegRNA (2) the tag template may be described as being included in the DNA synthesis template, which will not cause misunderstanding to those skilled in the art.
  • tpegRNAs containing 3' extended regions are exemplified.
  • the tag template may be located downstream of the editing template, ie, between the primer binding site and the editing template. In some embodiments, the tag template may be located downstream of the region of homology, ie, between the region of homology and the binding site of the primer. In some embodiments, a tag template may be located between an editing template and a region of homology. In some embodiments, the tag template may be located upstream of the region of homology, ie, between the region of homology and the core of the gRNA. In some embodiments, the tag template may be located upstream of the editing template, ie, between the editing template and the gRNA core.
  • An exemplary embodiment of a tpegRNA described as comprising a region of homology, an editing template, a tag template, and an extension region comprising a primer binding site is disclosed in FIG. 03 .
  • etpegRNA engineered tpegRNA
  • etpegRNA is developed from pegRNA, epegRNA, and tpegRNA, and may be referred to as tpegRNA. That is, it will be appreciated that the term “tpegRNA” in this application encompasses aspects of etpegRNA.
  • etpegRNA refers to pegRNA when the extended region of tpegRNA further includes a 3' engineering region that is an element of epegRNA. That is, etpegRNA includes a tag template, a DNA synthesis template, a primer binding portion, and an extension region including a 3' engineering region.
  • the 3' engineered region may include an RNA protection motif.
  • the 3' engineered region may further comprise a linker to connect the RNA protective motif in addition to the RNA protective motif.
  • a linker to connect the RNA protective motif in addition to the RNA protective motif.
  • each of the aforementioned elements of etpegRNA may be located on the extension region in the order of DNA synthesis template, tag template, primer binding site, and 3' engineering region in the 5' to 3' direction.
  • tpegRNA contains a tag template for inserting a tag sequence into a DNA molecule.
  • the tool for off-target prediction of prime editing of the present application includes at least two elements:
  • tools for off-target prediction of prime editing may further include additional elements.
  • additional elements for example, dnMLH1 (dominant negative MLH1), Cas protein, guide RNA (e.g., traditional sgRNA), additional prime editing proteins, pegRNAs, and additional tpegRNAs (e.g., editing of a sequence different from the tpegRNA used) Any one or more of the tpegRNAs containing the template) may be further included in the tool for off-target prediction of prime editing, but is not limited thereto. Those skilled in the art will be able to improve or optimize the prime editing off-target prediction system of the present application using appropriate additional elements.
  • the off-target prediction method of the present application is a method of confirming or analyzing information on an off-target of prime editing designed based on a prime editing mechanism.
  • a feature of the prime editing mechanism is a DNA synthesis template (eg, RT template) used as a template in the polymerization process (eg, reverse transcription) to install the desired editing into the DNA molecule to be edited. This is to use the included pegRNA.
  • the off-target prediction method of the present application inserts a tag sequence into a DNA molecule to be analyzed based on a characteristic mechanism of prime editing, and confirms or analyzes the off-target of prime editing by checking information on the inserted tag sequence.
  • the off-target prediction method of the present application uses the above-described characteristic mechanism of prime editing in the tag sequence insertion process.
  • the prime editing protein (including nCas9 and reverse transcriptase MMLV_RT(D200N)(T330P)(L603W)(T306K)(W313F)) and tpegRNA form a complex.
  • the gRNA core of a tpegRNA may be referred to as a gRNA scaffold or backbone sequence, and refers to a sequence within a gRNA, pegRNA, or tpegRNA responsible for binding Cas9 or its equivalent.
  • tpegRNA can bind to the Cas protein included in the prime editing protein through the gRNA core.
  • the prime editor protein/tpegRNA complex is localized to a location where off-targets can occur based on the spacer sequence and the PAM sequence.
  • the spacer sequence of tpegRNA forms a complementary bond with a target (on-target or off-target) sequence in the DNA molecule complementary thereto.
  • the complementary bond may not include a mismatch or may include one or more mismatches.
  • the mismatch may be any one or more selected from base mismatch and bulge mismatch known to cause off-target, but is not limited thereto.
  • off-target may occur due to a mismatch between a part of the sequence included in the extension region and the sequence of genomic DNA.
  • the localization location of the prime editing protein/tpegRNA complex may not be restricted to the PAM sequence.
  • the sequence of the predicted off-target (e.g., off-target candidate) contains one or more PAM mismatches and one or more spacer mismatches (i.e., the protospacer sequence corresponding to the spacer sequence).
  • mismatches one or more PBS mismatches (i.e., mismatches present in the primer sequence corresponding to the PBS sequence), and mismatches of one or more DNA synthesis templates (i.e., mismatches present in the sequence corresponding to the DNA synthesis template) mismatch) may include one or more mismatches selected from among.
  • the tag sequence can be inserted in a window of 1 to 100 nucleotides downstream of the nick site.
  • the tag sequence may be inserted in the region from about -4 to +100 of the PAM sequence.
  • 04 shows an example of a DNA molecule nicked at an off-target occurrence site and a prime editor protein/tpegRNA complex that induced a nick.
  • PBS Upstream of the nicking site, PBS is annealed with a region functioning as a primer (some region present on the spacer non-binding strand in a DNA molecule, which may be referred to as a primer). Annealing of PBS and primers is shown in FIG. 05 .
  • reverse transcription is performed by reverse transcriptase using the tag template and the DNA synthesis template as templates for reverse transcription.
  • Reverse transcription is performed in the 5' to 3' direction relative to the strand on which the nucleotides are polymerized. ie, in the 5' to 3' direction relative to the spacer non-binding strand.
  • a sequence having a sequence complementary to the tag template (tag sequence) is added to the endogenous DNA strand, and then a sequence having a sequence complementary to the DNA synthesis template is added to the endogenous DNA strand.
  • Tag sequences and edits added to the endogenous DNA strand (3' DNA flap) by reverse transcription are shown in FIG. 06 .
  • Tag sequences added to the endogenous DNA strand and sequences corresponding to the DNA synthesis template constitute the 3' DNA flap.
  • the 5' flap is removed, the tag sequence and editing are finally incorporated into the DNA molecule via a repair system.
  • a tag sequence is inserted into a position where editing can be inserted by prime editing.
  • the tag sequence can be inserted not only into the on-target but also into a site where off-targets can occur. Accordingly, it is possible to confirm the occurrence possibility and/or location of off-target through the presence and/or location of the tag sequence.
  • analysis of the tag sequence is performed using a method capable of specifically analyzing the tag sequence, such as tag-specific amplification and sequencing.
  • the type of DNA molecule into which the tag sequence has been inserted for example, the type of chromosome
  • the location where the tag sequence has been inserted for example, the location within the DNA molecule into which the tag sequence has been inserted
  • information on the tag sequence such as the insertion rate of the tag sequence for each position
  • Tag insertion may not disrupt the remaining pattern of prime editing.
  • the prime editing result from which the tag sequence is removed will be the same as the pattern of prime editing induced by pegRNA without a tag template.
  • tag sequences can be installed with editing at one or more off-target candidate sites and/or on-target sites.
  • tag insertion can disrupt the rest of the pattern of prime editing.
  • tag sequences can be installed without editing at one or more off-target candidate sites and/or on-target sites.
  • an edit can be established without a tag sequence at one or more off-target candidate sites and/or on-target sites.
  • tag sequences may be installed with editing at one or more off-target candidate sites and/or on-target sites.
  • the off-target prediction system of the present application includes contacting the prime editor protein and tpegRNA with genomic DNA of a cell, and then analyzing the genomic DNA.
  • the process of the off-target prediction system of the present application will be described in detail.
  • the off-target prediction method of prime editing of the present application checks information on an off-target that may occur in a DNA editing process using prime editing. That is, as a result of the prime editing off-target prediction method of the present application, information on off-target candidates that may occur in a DNA editing process using prime editing can be derived. For example, the presence or absence of off-target candidates, locations of off-target candidates, and/or scores of off-target candidates related to genuine off-targets may be derived through the off-target prediction method of the present application. In order to obtain information on off-targets generated in the DNA editing process, first, the target DNA must be contacted with the prime editor protein and tpegRNA.
  • the DNA of interest can be, for example, the genomic DNA of a cell.
  • the off-target prediction method of the present application can be classified as one of the cell-based off-target prediction methods, and contact between genomic DNA of a cell, prime editor protein, and tpegRNA can be performed in a cell.
  • a cell may be an animal cell or a plant cell.
  • a cell may be a human cell or a non-human animal (eg, mouse, rat, monkey, chimpanzee, dog, cat, cow, pig, horse, and sheep, etc.) cell, but is not otherwise limited.
  • cells used in the off-target prediction methods of the present application may be cells derived from a patient.
  • cells used in the off-target prediction methods of the present application may be cells of a cell line (eg, a human, mouse, monkey, or rat cell line).
  • a cell can be a human cell or human cell line.
  • the cells of the cell line may be, for example, 3T3 cells, A549 cells, HeLa cells, HEK 293 cells, K562 cells, Huh7 cells, Jurkat cells, OK cells, Ptk2 cells, or Vero cells, but are not limited thereto.
  • One embodiment of the off-target prediction system of the present application may include contacting the cell's genomic DNA with a prime editor protein and tpegRNA (or a prime editor protein/tpegRNA complex).
  • the contact of the prime editor protein and tpegRNA with genomic DNA can be performed intracellularly or within the nucleus of a cell, and is not otherwise limited.
  • cells containing the prime editor protein and tpegRNA must be prepared.
  • a cell containing the prime editor protein and tpegRNA and a method for producing the same will be described in detail.
  • the off-target prediction method of the present application may include producing a cell comprising Tools for predicting off-targets of prime editing.
  • Some embodiments of the present application provide cells comprising tools for off-target prediction of prime editing.
  • Tools for off-target prediction of prime editing include prime editor proteins and tpegRNAs.
  • tools for off-target prediction of prime editing may further include additional elements.
  • dnMLH1 dominant negative MLH1
  • Cas protein guide RNA (e.g., traditional sgRNA), additional prime editing proteins, pegRNAs, and additional tpegRNAs (e.g., editing of a sequence different from the tpegRNA used)
  • guide RNA e.g., traditional sgRNA
  • additional prime editing proteins e.g., pegRNAs, and additional tpegRNAs (e.g., editing of a sequence different from the tpegRNA used)
  • Any one or more of the tpegRNAs containing the template may be further included in the tool for off-target prediction of prime editing, but is not limited thereto.
  • Producing cells containing tools for off-target prediction of prime editing involves either introducing each element of the prime editing tool into the cell (e.g., by electroporation, etc.), or nucleic acid encoding each element of the prime editing tool. can be achieved by introducing into cells.
  • each element of the prime editing tool into the cell (e.g., by electroporation, etc.), or nucleic acid encoding each element of the prime editing tool. can be achieved by introducing into cells.
  • the process of producing cells containing tools for off-target prediction of prime editing is described in detail.
  • producing a cell comprising a tool for off-target prediction of Prime Editing may include: contacting the cell with a Prime Editor protein or nucleic acid encoding same, and a tpegRNA or nucleic acid encoding same .
  • producing a cell comprising a tool for off-target prediction of prime editing may include: introducing a prime editor protein or nucleic acid encoding same, and a tpegRNA or nucleic acid encoding same into the cell .
  • Cells in contact with the prime editor protein or the nucleic acid encoding the same, and the tpegRNA or the nucleic acid encoding the same, or cells into which they are introduced may be referred to as cells to be analyzed.
  • Contacting the cells of each element of the tool for off-target prediction of prime editing can be performed simultaneously (e.g. in one composition, or using an all-in-one vector) or can be performed over time, e.g.
  • introduction into a cell can be achieved by contacting the cell with a composition comprising a prime editor protein or a nucleic acid encoding the same, and a tpegRNA or a nucleic acid encoding the same.
  • introduction into a cell can be achieved by contacting the cell with a composition comprising a prime editor protein or a nucleic acid encoding the same, and then (or before) contacting the cell with a second composition comprising the tpegRNA or a nucleic acid encoding the same.
  • the process of introducing a tool for off-target prediction of prime editing into a cell is not otherwise limited.
  • a prime editor protein or a nucleic acid encoding the same and/or a tpegRNA or a nucleic acid encoding the same may be introduced into a cell in the form of a vector or non-vector.
  • the prime editor protein may be a fusion protein composed of one molecule or may be in the form of a complex comprising two or more molecules.
  • the prime editor protein or a nucleic acid encoding the same can be introduced into a cell.
  • each element of the prime editor protein or each nucleic acid encoding each element is simultaneously (e.g., in the form of an assembled complex, or encoded in one vector) or separately (eg, in the form of separate elements, encoded in separate vectors, or at suitable time intervals) introduced or delivered into cells.
  • the Prime Editor protein or nucleic acid encoding the same and the tpegRNA or the nucleic acid encoding the same are simultaneously (e.g., in the form of an assembled complex, or encoded in one vector) or separately (e.g., separated It can be introduced into the cell in the form of a modified element, encoded in a separate vector, or at appropriate time intervals).
  • a prime editor protein may be delivered or introduced into a cell in the form of a protein.
  • a prime editor protein may be delivered or introduced into a cell in the form of a nucleic acid encoding it.
  • tpegRNA may be delivered or introduced into cells in the form of RNA.
  • a tpegRNA may be delivered or introduced into a cell in the form of a nucleic acid encoding it.
  • the prime editor protein or nucleic acid encoding the same eg, DNA encoding the prime editor protein
  • tpegRNA or nucleic acid encoding the same is a liposome, plasmid
  • the prime editor protein or nucleic acid encoding the same and/or tpegRNA or the nucleic acid encoding the same is prepared by electroporation, lipofection, microinjection, gene gun method, virosomes, liposomes, immune liposomes, and lipid-mediated transfection.
  • a nucleic acid encoding a Prime Editor protein e.g., in the form of DNA, RNA, or a mixture of DNA or RNA encoding a Prime Editor protein
  • a nucleic acid encoding a tpegRNA e.g., a tpegRNA
  • the nucleic acid encoding the prime editor protein and/or the nucleic acid encoding the tpegRNA may be delivered into the subject by a vector, non-vector or a combination thereof.
  • the vector may be a viral vector or a non-viral vector (eg, a plasmid).
  • the non-vector may be naked DNA, DNA complex or mRNA.
  • a prime editor protein or a nucleic acid encoding the same and/or a tpegRNA or a nucleic acid encoding the same may be introduced or delivered into a cell in the form of a vector. That is, it can be delivered or introduced into a subject by means of a vector.
  • a vector may include a nucleic acid encoding a prime editor protein and/or a nucleic acid encoding a tpegRNA.
  • a nucleic acid encoding a prime editor protein can be included in one vector or split and included in multiple vectors.
  • nucleic acids encoding prime editor proteins can be introduced or delivered into cells via one, two, three, four, five, or more vectors.
  • a nucleic acid encoding a tpegRNA can be included in one vector or can be split and included in multiple vectors.
  • nucleic acids encoding tpegRNAs can be introduced or delivered into cells via one, two, three, four, five, or more vectors.
  • the nucleic acid encoding the prime editor protein and the nucleic acid encoding the tpegRNA may be included in one vector, or may be split and included in multiple vectors.
  • nucleic acids encoding prime editor proteins and nucleic acids encoding tpegRNAs can be introduced or delivered into cells via one, two, three, four, five, or more vectors.
  • a vector may include one or more regulatory/controlling elements.
  • the regulatory / control elements are promoters, enhancers, introns, polyadenylation signals, Kozak consensus sequences, internal ribosome entry sites (IRES), NLS (Nuclear localization signals) or encoding them It may be any one or more selected from a nucleic acid, Poly A, splice acceptor, and 2A sequence.
  • the promoter may be a promoter recognized by RNA polymerase II.
  • the promoter may be a promoter recognized by RNA polymerase III.
  • the promoter may be an inducible promoter.
  • the promoter may be a target specific promoter.
  • the promoter may be a viral or non-viral promoter.
  • the promoter can be selected as a suitable promoter according to the control region.
  • a vector can be a viral vector or a recombinant viral vector.
  • the virus may be a DNA virus or an RNA virus.
  • the DNA virus may be a double-stranded DNA (dsDNA) virus or a single-stranded DNA (ssDNA) virus.
  • the RNA virus may be a single-stranded RNA (ssRNA) virus.
  • the virus may be retrovirus, lentivirus, adenovirus, adeno-associated virus (AAV), vaccinia virus, pox virus, or herpes simplex virus, but is not limited thereto.
  • the AAV vector may be any one selected from, for example, AAV1, AAV2, AAV5, AAV6, AAV8, AAV9, AAVrh.10, AAVrh.74, and AAVhu.37, but is not limited thereto.
  • AAV vectors used in research or clinical practice are described in Wang, Dan, Phillip WL Tai, and Guangping Gao. "Adeno-associated virus vector as a platform for gene therapy delivery.” Nature reviews Drug discovery 18.5 (2019): 358-378.], the entire contents of which are incorporated herein by reference.
  • a virus may infect a host (eg, a cell) to introduce nucleic acid encoding viral genetic information into the host or insert nucleic acid encoding genetic information into the genome of the host.
  • a nucleic acid encoding a target sequence or target protein can be introduced into a target (eg, cell) using a virus having these characteristics.
  • a target sequence and a target protein can be expressed in a host.
  • a prime editor protein or a nucleic acid encoding the same and/or a tpegRNA or a nucleic acid encoding the same can be introduced into a cell via non-vector based introduction.
  • one or more of a prime editor protein or a nucleic acid encoding the same and a tpegRNA or a nucleic acid encoding the same may be introduced into a cell via non-vector based introduction.
  • one or more of a prime editor protein or a nucleic acid encoding the same and a tpegRNA or a nucleic acid encoding the same may be introduced or delivered into a cell via one or more non-vectors.
  • one or more of a prime editor protein or a nucleic acid encoding the same and a tpegRNA or a nucleic acid encoding the same can be introduced or delivered into a cell via one, two, three, four, five, or more non-vectors.
  • the non-vector may include a prime editor protein or a nucleic acid encoding the same and/or a tpegRNA or a nucleic acid encoding the same.
  • the non-vector may be naked DNA, DNA complex, mRNA, or a mixture thereof.
  • the non-vector can be used by electroporation, gene gun, sonoporation, magnetofcection, transient cell compression or squeezing (disclosed in Lee, et al, (2012) Nano Lett., 12, 6322-6327), It can be delivered or introduced into a subject by lipid-mediated transfection, dendrimers, nanoparticles, calcium phosphate, silica, silicates (ormosil), or combinations thereof.
  • delivery via electroporation can be accomplished by mixing cells and nucleic acids encoding the desired elements in a cartridge, chamber or cuvette, and applying electrical stimulation of a defined duration and amplitude.
  • the non-vector may be delivered using nanoparticles.
  • the nanoparticles may be inorganic nanoparticles (eg, magnetic nanoparticles, silica, etc.) or organic nanoparticles (eg, polyethylene glycol (PEG)-coated lipids, etc.).
  • the outer surface of the nanoparticle can be conjugated with a positively charged polymer (eg, polyethyleneimine, polylysine, polyserine, etc.) to enable attachment.
  • the prime editor protein and/or tpegRNA can be delivered or introduced into a subject by methods known in the art. Formation of peptides, polypeptides, proteins, or RNAs can be achieved by electroporation, microinjection, transient cell compression or squeezing (disclosed in Lee, et al, (2012) Nano Lett., 12, 6322-6327), lipid- It can be delivered or introduced into cells by mediated transfection, nanoparticle, liposome, peptide-mediated delivery or a combination thereof.
  • Prime editor proteins and tpegRNAs in cells are capable of contacting the cell's genomic DNA.
  • the results that can be achieved by contacting the genomic DNA of a cell with a prime editor protein and tpegRNA are described in detail.
  • a tag sequence and a sequence complementary to the tag sequence can be installed into the genomic DNA. That is, tags can be installed into genomic DNA. This process of installing a tag on genomic DNA may be referred to as tagmentation. As a result of the contact, a tag may be installed at the off-target candidate site and/or the on-target site.
  • Genomic DNA after contact between the prime editor protein and tpegRNA and genomic DNA may be referred to as analyzing-subject genomic DNA.
  • genomic DNA to be analyzed may not include a tag. This is a case where there is no off-target candidate or installation of a tag sequence or the like into genomic DNA fails.
  • genomic DNA to be analyzed may include a tag.
  • DNA to be analyzed including a tag may be referred to as tagged DNA (tagged DNA or tagmented DNA).
  • the tag is present at the position of the off-target candidate (ie, the candidate off-target site) and/or at the position of the on-target site.
  • tags inserted into genomic DNA candidate off-target sites that are likely to be true off-target sites can be found.
  • genomic DNA to be analyzed may include one or more tags.
  • One or more off-target candidates may be found by analyzing the presence or absence of each tag and the position of each tag.
  • the off-target prediction method of the present application may be performed on a cell population.
  • the genomic DNA of some cells of the cell population to be analyzed may contain one or more tags.
  • the genomic DNA of some cells of the cell population to be analyzed may not contain the tag.
  • By analyzing each genomic DNA of multiple cells present in the cell population one or multiple off-target candidates can be identified.
  • a tagment rate can be obtained for each candidate off-target site.
  • a tag may be inserted into an on-target site, and a tagment rate may be obtained for an on-target site.
  • the tagmentation rate is, for example, about 0.001, 0.01, 0.1, 0.5, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 35, 40, 45, 50, 60, 70, 80, 90, or 100%, or may be within a range of two values selected from the above values.
  • an engineered cell comprising an engineered genome may be provided.
  • a genomic DNA of interest may be referred to as an engineered genome if the genomic DNA of interest comprises a tag, i.e., if the tag is successfully installed within the genomic DNA of interest.
  • the genomic DNA of interest may be referred to as engineered genomic DNA.
  • engineered genomic DNA may include any one or more of tags and edits.
  • a cell population comprising engineered cells may be provided.
  • the off-target prediction system of prime editing of the present application includes analyzing DNA to be analyzed.
  • the DNA to be analyzed may be the genomic DNA to be analyzed.
  • the analysis of the DNA to be analyzed is explained by taking the analysis of the genomic DNA to be analyzed as an example.
  • the genomic DNA to be analyzed may be one genomic DNA or a plurality of genomic DNAs.
  • Analysis of the genomic DNA to be analyzed may be analysis of one or a plurality of genomic DNA to be analyzed, and is not otherwise limited. By analyzing the genomic DNA to be analyzed, information on the tagmentation of the genomic DNA can be obtained.
  • information on tagmantation may include whether a tag sequence is included in genomic DNA to be analyzed; the location on genomic DNA of each tag sequence relative to one or more tag sequences (eg, a tagging location); and a tagmentation rate at one or more tagging locations, but is not otherwise limited.
  • Information on off-target candidates can be obtained based on information on tagmentation.
  • information on off-target candidates may include one or more off-target information and scores on one or more off-target candidates, but is not limited thereto.
  • genomic DNA to be analyzed may be analyzed.
  • the genomic DNA to be analyzed may be engineered genomic DNA.
  • the off-target prediction system of the present application is characterized in that information on a location where an off-target can occur is identified based on a tag sequence integrated into an engineered genome.
  • Information on one or more tag sequences included in the engineered genome can be identified through methods known in the art or methods to be developed, and is not otherwise limited.
  • Information on the tag sequence includes whether each tag sequence is inserted, the chromosome into which each tag sequence is inserted, the position where each tag sequence is inserted (for example, the position in the chromosome), the insertion rate of the tag sequence, and It may include any one or more of the insertion rates for each position where the tag sequence is inserted, but is not limited thereto.
  • information on the tag sequence may be confirmed by a tag sequence analysis method including, but not limited to, tag-specific amplification and/or sequencing. For analysis methods of information on tag sequences, see Tsai, Shengdar Q., et al.
  • GUI-seq enables genome-wide profiling of off-target cleavage by CRISPR-Cas nucleases. Nature biotechnology 33.2 (2015): 187-197.; Kim, Daesik, et al. "Digenome-seq: genome-wide profiling of CRISPR-Cas9 off-target effects in human cells.” Nature methods 12.3 (2015): 237-243.; and Kim, Do Yon, et al. "Unbiased investigation of specificities of prime editing systems in human cells.” Nucleic acids research 48.18 (2020): 10576-10589.] and the like may be referenced, and the entire contents of each document are incorporated herein by reference.
  • analysis of genomic DNA of interest can be a tag-specific analysis (eg, an analysis to find where a tag is present).
  • a method of analyzing genomic DNA of interest may include tag-specific amplification.
  • a method of analyzing genomic DNA of interest may include sequencing.
  • analysis of genomic DNA of interest may include tag-specific amplification and sequencing.
  • analysis of genomic DNA to be analyzed may be performed using DNA analysis methods well known to those skilled in the art.
  • analysis of the DNA to be analyzed is a PCR-based analysis (see Cameron, Peter, et al. "Mapping the genomic landscape of CRISPR-Cas9 cleavage.” Nature methods 14.6 (2017): 600-606.) and sequencing (Metzker, Michael L. "Sequencing technologies-the next generation.” Nature reviews genetics 11.1 (2010): 31-46.; and Kumar, Kishore R., Mark J. Cowley, and Ryan L Davis. “Next-generation sequencing and emerging technologies.” Seminars in thrombosis and hemostasis. Vol. 45. No. 07. Thieme Medical Publishers, 2019.) (e.g., DNA sequencing). It can be performed by a process that includes.
  • sequencing includes whole-genome sequencing (WGS), deep sequencing, high-throughput sequencing (HTS), de-novo sequencing, second-generation Second-generation sequencing, next-generation sequencing, third generation sequencing, large-scale sequencing, shotgun sequencing, long-read sequencing ), and a sequencing method referred to as any one or more of short-read sequencing may be used, but is not limited otherwise.
  • a Hi-seq sequencing method may be used.
  • a sequencing method of Mi-seq may be used.
  • two or more sequencing methods may be used to analyze the DNA to be analyzed.
  • a process including Hi-seq and Mi-seq may be included in analyzing the DNA to be analyzed.
  • the sequencing depth of the sequencing method used to analyze the genomic DNA of interest is about 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13 , 14, 15, 16, 17, 18, 19, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42, 44, 46, 48, 50, 55, 60, 65 , 70, 75, 80, 85, 90, 95, 100, 200, 300, 400, 500, 600, 700, 800, 900, or 1000x.
  • the sequencing depth may be a range of two values selected from the foregoing.
  • the sequencing depth may be equal to or greater than the value set forth above.
  • the sequencing depth of the sequencing used for analysis may be about 10-40x.
  • the sequencing depth is not otherwise limited, and a sequencing depth sufficient to confirm the presence and/or location of a tag sequence in genomic DNA to be analyzed is sufficient.
  • analysis of genomic DNA of interest may include a tag specific amplification process.
  • Tag-specific amplification can generate amplified tag-specific libraries.
  • analysis of the genomic DNA to be analyzed may include sequencing the amplified tag-specific library.
  • Information on tagmentation may be obtained through analysis of genomic DNA to be analyzed.
  • analysis of the genomic DNA of interest generates a tag-specific library from the genomic DNA of interest; and sequencing the tag-specific library.
  • analysis of the genomic DNA of interest generates a tag-specific library amplified from the genomic DNA of interest; and sequencing the amplified tag-specific library.
  • analysis of the genomic DNA of interest generates a tag-specific library from the genomic DNA of interest; amplify tag-specific libraries; and sequencing the amplified tag-specific library.
  • tag-specific primers and/or adapter-specific primers can be used for tag specific amplification.
  • tag specific amplification can be performed via PCR.
  • generating a tag-specific library from genomic DNA of interest comprises shearing the genomic DNA of interest and ligating the sheared genomic DNA through an adapter to generate a tag-specific library. It may include one or more processes to be selected.
  • the tag-specific library amplification process is described in Tsai, Shengdar Q., et al. "GUIDE-seq enables genome-wide profiling of off-target cleavage by CRISPR-Cas nucleases.” Nature biotechnology 33.2 (2015): 187-197.; and Liang, Shun-Qing, et al. "Genome-wide detection of CRISPR editing in vivo using GUIDE-tag.” Nature communications 13.1 (2022): 1-14.] may be referenced.
  • At least one of cell destruction, incubation, RNA removal, and DNA purification may be further performed.
  • the foregoing process may be performed, for example, after contacting the prime editor protein and tpegRNA with genomic DNA.
  • Information on tagmentation may be obtained by analyzing the DNA to be analyzed as described above.
  • the information on the tagmentation is information obtained based on the tag sequence present in the genomic DNA to be analyzed and/or the information on the tag sequence.
  • the tagmantation information may be information obtained based on information on a tag sequence present in one analysis target genomic DNA.
  • the tagmantation information may be information obtained based on information on tag sequences present in a plurality of genomic DNAs to be analyzed. It will be appreciated that analysis of genomic DNA of interest encompasses all aspects of analysis of one or more genomic DNA of interest.
  • information on tagmantation may include whether or not each tag sequence is inserted, a chromosome into which each tag sequence is inserted, a location where each tag sequence is inserted (for example, a location within a chromosome), and a tag sequence. It may include, but is not limited to, any one or more of an insertion rate of and an insertion rate for each position where the tag sequence is inserted.
  • information about the tagmentation may include any one or more of the following:
  • the tagmentation rate for one or more tag sequences is the tagmentation rate for one or more tag sequences.
  • the presence of the tag sequence may correlate with the presence of an on-target or candidate off-target site.
  • one or more tag sequences may be included in one genomic DNA, or one or more tag sequences may be included in a plurality of genomic DNAs to be analyzed and analyzed. After all, whether a tag sequence is included in the DNA to be analyzed is information on whether one or more tag sequences are present in one or a plurality of genomic DNAs to be analyzed.
  • the tag sequence is included in the genomic DNA to be analyzed. can be judged to exist.
  • the position on genomic DNA of each tag sequence relative to one or more tag sequences can be derived through analysis of the position at which the tag sequence resides and can be referred to as a tagged position.
  • one genomic DNA to be analyzed (first genomic DNA to be analyzed) among a plurality of genomic DNA to be analyzed includes a first tag sequence
  • another genomic DNA to be analyzed (second genomic DNA to be analyzed) is a second genomic DNA to be analyzed.
  • a position of a first tag sequence may be referred to as a first position and a position of a second tag sequence may be referred to as a second position.
  • a plurality of tag sequences exist in one genomic DNA to be analyzed, and in this case, one tag sequence may be referred to as a first tag sequence and another tag sequence may be referred to as a second tag sequence.
  • the position on the genomic DNA of each tag sequence for one or more tag sequences may include the first position, the second position, or both the first and second positions.
  • the first location and the second location are related to a target location (an on-target location and/or a candidate off-target location), and if the location is not an on-target location, the first and second locations may both be candidate off-target locations. there is.
  • the first location and the second location may refer to the same location or may refer to different locations.
  • the location information such as the first location and the second location, includes information about the number of a chromosome and information about a location in a specific chromosome.
  • the tagmentation rate for one or more tagged sequences may be derived through the frequency of discovery for each tagged position. For example, when the tag sequence is found 10 times at the first position and the tag sequence is found 5 times at the second position in the analysis of genomic DNA to be analyzed, the tagmentation rate at the first position is the tag mantation rate at the second position. It is twice as much as the mantation rate.
  • the tagmentation rate may be related to, but is not otherwise limited to, the likelihood that the corresponding off-target candidate is a true off-target.
  • the process of obtaining tagmantation information by analyzing genomic DNA to be analyzed may further include an additional process of obtaining tagmantation information.
  • processing of information (or data) and/or normalization of obtained information (or data) may be further included.
  • a process of comparing the obtained cutting information with predetermined on-target information may be further included.
  • the process of obtaining the cutting information may further include additional processes and is not otherwise limited.
  • information about tagmentation may further include, but is not limited to, other information that may be obtained through analysis of the genomic DNA of interest (eg, DNA sequencing).
  • information about the off target can be obtained.
  • a person skilled in the art related to the present application will be able to obtain information on the off-target without much difficulty based on the information on the truncation, and therefore the present disclosure does not limit the process of the off-target prediction system of the present application.
  • a person skilled in the art related to the present application will be able to obtain off-target information with or without an appropriate process using information about tagmentation obtained by analyzing genomic DNA to be analyzed.
  • the off-target prediction method of the present application may include a process of identifying information on an off-target candidate from information on tagmentation.
  • information about off-target candidates can include information about the location of one or more off-target candidates on genomic DNA (e.g., at a candidate off-target site). information).
  • the information on positions of off-target candidates may include information on each position (position on genomic DNA) of all off-target candidates.
  • information on locations of off-target candidates may include information on locations of one or more off-target candidates. That is, location information may be obtained for all candidate off-target sites, or location information may be obtained for one or more but not all candidate off-target sites.
  • off-target candidates there may be true off-targets (eg, actual off-targets resulting from the use of the prime editing system).
  • Information about the location of off-target candidates may be obtained based on the above-described tagment information.
  • information about off-target candidates may include off-target scores (eg, off-target prediction scores) for one or more off-target candidates.
  • information on off-target candidates may include off-target scores of each off-target candidate for all off-target candidates.
  • information on off-target candidates may include off-target scores of each off-target candidate with respect to one or more off-target candidates. That is, off-target scores can be obtained for all candidate off-target sites, or off-target scores can be obtained for one or more but not all candidate off-target sites.
  • Information on the off-target score of the off-target candidate may be obtained based on the above-described tagment information (eg, tagment rate information).
  • a rank of an off-target candidate may be calculated based on the obtained off-target score. For example, off-target candidates (eg, candidate off-target sites) exhibiting high off-target scores may be ranked higher. For example, the off-target candidate with the highest off-target score may be ranked first. For example, a high off-target score for an off-target candidate can be associated with a true off-target, but is not otherwise limited.
  • information on off-target candidates may include information on the number of off-target candidates.
  • the total number of off-target candidates may be calculated.
  • overlapping positions may be counted as one.
  • overlapping positions may be counted in plurality. For example, if 5 candidate off-target sites x are found, this may be counted as 1 or counted as 5.
  • information about off-targets or off-target candidates may include, but is not limited to, any one or more of the following:
  • the process of obtaining information about the off-target candidate may further include an additional process of obtaining information about the off-target candidate.
  • processing of information (or data) and/or normalization of obtained information (or data) may be further included.
  • a process of comparing the obtained off-target candidate information with predetermined on-target information may be further included.
  • the process of obtaining information on the off-target candidate may further include an additional process and is not otherwise limited.
  • information about off-target candidates may further include, but is not limited to, additional information that is helpful in predicting possible off-targets in use of the prime editing system.
  • a tag may be inserted into an off-target candidate position (ie, a candidate off-target site). It is known that in traditional CRISPR/Cas systems, off-targets can result from partial but sufficient matches of guide and target sequences. Similarly, in the prime editing system, it is expected that the sequence of each element of tpegRNA and the target sequence may be partially but sufficiently matched, but the reason for the off-target occurrence is not limited in the present specification. In some embodiments, an off target may result from one or more mismatches between the sequence of the tpegRNA and the off target sequence.
  • mismatches include base mismatches (eg, a difference of one or more nucleotides), and bulge mismatches (eg, addition of one or more nucleotides or deletion of one or more nucleotides).
  • the sequence of the off target (or off target candidate) is 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 or more mismatches.
  • a sequence of an off target (off target candidate) is 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 98%, 98%, It may have a sequence identity of 99%, or 100%, or a sequence identity within a range set by two values selected from the above values.
  • the spacer sequence of tpegRNA and the sequence corresponding to the off-target (or off-target candidate) spacer have 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, or more mismatches.
  • the sequence corresponding to the PAM sequence of the off-target (or off-target candidate) may include 1, 2, 3, 4, 5, or more mismatches with the PAM sequence.
  • sequence corresponding to the DNA synthesis template of the tpegRNA and the DNA synthesis template of the off-target (or off-target candidate) is 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, or more may include a mismatch of
  • sequence corresponding to the homology region of the tpegRNA and the homology region of the off-target (or off-target candidate) is 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, or more may include a mismatch of
  • sequences corresponding to the primer-binding portion of tpegRNA and the off-target (or off-target candidate) primer-binding portion are 1, 2, 3, 4, 5, 6, It may contain 7, 8, 9, 10, or more mismatches.
  • one or more mismatches may include a sequence corresponding to a spacer of an off-target (or an off-target candidate), a sequence corresponding to a PAM sequence of an off-target, a sequence corresponding to a DNA synthesis template of an off-target, and primer binding of an off-target. It may be present in one or more of the sequences corresponding to the part, but is not limited thereto.
  • a tag may be inserted into an off-target candidate position (ie, a candidate off-target site).
  • An off-target candidate refers to an off-target predicted through a prediction system, and may be a true off-target or may not be a true off-target.
  • an off-target candidate site may refer to a specific location.
  • an on-target location or an on-target site, or a location of an off-target candidate or a site of an off-target candidate can be understood as a specific region, wherein the specific region is about 1, 2, 3, 4, 5 , 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 220 , 240, 260, 280, 300, 320, 340, 360, 380, 400, 450, may refer to a region consisting of 500 consecutive nucleotides. Or it may refer to a region consisting of consecutive nucleotides exceeding the above-mentioned number. In some aspects, a greater number of consecutive nucleotides may accurately indicate an off-target or on-target site, since the greater the number of nucleotides, the less likely it is that identical sequences (duplicated sequences) exist on genomic DNA.
  • an off-target candidate or off-target may be compared to the sequence of the on-target.
  • an off-target candidate or true off-target when compared to an on-target sequence, is 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, or more mismatches (on-target mismatches).
  • a sequence of an off-target (off-target candidate) is 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 98% when compared to the corresponding sequence of the on-target. , 99%, or 100% sequence identity, or may have sequence identity within a range set by two values selected from the above values.
  • mismatch used in the comparison between off-target and on-target is used to explain the difference between off-target and on-target sequences. Further, mismatches are used to include both nucleotide mismatches (eg, differing nucleotides) and bulge mismatches (eg, addition of one or more nucleotides or deletion of one or more nucleotides).
  • the sequence corresponding to the off-target candidate spacer is GGCACTGaGGgTGGAGGTGG (SEQ ID NO: 51) and the sequence corresponding to the on-target spacer is GGCACTGCGGCTGGAGGTGG (SEQ ID NO: 52), the sequence corresponding to the off-target candidate spacer is It can be described as having two nucleotide mismatches (indicated by lower case letters) when compared to the sequence of the on-target.
  • the sequence corresponding to the off-target candidate spacer is GGCACTGC--CTGGAGGTGG (SEQ ID NO: 53) and the sequence corresponding to the on-target spacer is GGCACTGCGGCTGGAGGTGG (SEQ ID NO: 54), the sequence corresponding to the off-target candidate spacer can be described as having two bulge mismatches (eg, two bulge on-target mismatches) when compared to the sequence of the on-target.
  • the sequence corresponding to the off-target candidate spacer is GGCACTGCGGCTGGAGgTGG (SEQ ID NO: 55) and the sequence corresponding to the on-target spacer is GGCACT--GGCTGGAGGTGG (SEQ ID NO: 56), the sequence corresponding to the off-target candidate spacer A sequence can be described as having 1 nucleotide mismatch and 2 bulge mismatches (total of 3 mismatches) when compared to the on-target sequence.
  • an off-target (or off-target candidate) sequence will be compared with an on-target sequence.
  • a sequence corresponding to a spacer of an off target contains 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, or more mismatches ( For example, on-target mismatch).
  • a sequence corresponding to a PAM sequence of an off-target may contain 0, 1, 2, 3, 4, 5, or more mismatches.
  • a sequence corresponding to a DNA synthesis template of an off target (or off target candidate) has 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, or more misses Matches may be included.
  • a sequence corresponding to a region of homology of an off target (or off target candidate) has 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, or more misses Matches may be included.
  • the sequence corresponding to the primer binding portion of an off target (or off target candidate) has 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 or more mismatches can include
  • the one or more mismatches are a sequence corresponding to a spacer of an off target (or off target candidate), a sequence corresponding to a PAM sequence of an off target (or off target candidate), and an off target (or off target candidate). It may be present in any one or more of a sequence corresponding to a DNA synthesis template of and a primer binding site of an off target (or an off target candidate).
  • the off-target candidate (or off-target) site is 0, 1, 2 in any one or more of a region corresponding to a spacer, a region corresponding to a PAM, a region corresponding to PBS, and a region corresponding to a DNA synthesis template. , 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, or more It may include an on-target mismatch of , or an on-target mismatch within a range set by two values selected from the above values.
  • the off-target candidate (or off-target) site is 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 in the region corresponding to the spacer and the region corresponding to the DNA synthesis template.
  • an off-target candidate (or off-target) site may contain 0 to 20 on-target mismatches in a region corresponding to a spacer and a region corresponding to a DNA synthesis template.
  • an off-target candidate (or off-target) site may contain 1 to 15 on-target mismatches in a region corresponding to a spacer and a region corresponding to a DNA synthesis template.
  • an off-target candidate (or off-target) site may contain 1 to 10 on-target mismatches in a region corresponding to a spacer and a region corresponding to a DNA synthesis template.
  • the on-target mismatch refers to a mismatch determined through comparison with a sequence of a region corresponding to the on-target site.
  • the on-target mismatches can be counted on one strand or can be counted on both strands.
  • the site of the off-target candidate (or off-target) may be located 5 to 20 nucleotides downstream of (i) the region corresponding to the protospacer and (ii) the region corresponding to the protospacer of the spacer non-binding strand.
  • 0 to 10 on-target mismatches may be included in the region consisting of .
  • the off-target candidate (or off-target) site may include 0 to 10 on-target mismatches in the region of -30 to +10 or -20 to +10 based on the cleavage site (nick or DSB). there is.
  • the off-target prediction system of the present application may be associated with a prime editing system that is a target of prediction.
  • the prime editing system to be predicted may refer to a prime editing system determined to be used for research or for treatment, but is not limited thereto. That is, the prime editing system to be predicted may refer to a prime editing system (or a genome editing process using the prime editing system) in which off-targets should be predicted.
  • the specific cell when a specific cell is used in a prime editing system that is a target of prediction, the specific cell may also be used in the method of predicting an off target of the present application.
  • a cell other than the specific cell when a specific cell is used in a prime editing system that is a target of prediction, a cell other than the specific cell may be used in the method of predicting an off target of the present application.
  • a cell derived from a patient used in a prime editing system targeted for prediction may be used, and a cell used in the off-target prediction system of the present application may be a human cell line.
  • a tpegRNA having a specific sequence when used in a prime editing system to be predicted, a tpegRNA having the same sequence or a tpegRNA having some different sequence may be used in the method of predicting an off-target of the present application.
  • a specific prime editor protein when used in the prime editing system to be predicted, the same type of prime editor protein or a different type of prime editor protein can be used in the method of predicting an off target of the present application.
  • additional elements eg, dnMLH1, sgRNA, and / or additional tpegRNA, etc.
  • additional elements may be used in addition to elements in the prime editing system that are subject to prediction , not otherwise limited.
  • the method for predicting an off-target may further include a process of identifying a prime editing system that is a target of prediction.
  • a prime editing system to be predicted may be referred to as a predetermined prime editing system.
  • the predetermined prime editing system may include any one or more of, or use of, a predetermined cell (e.g., a cell subject to genome editing using the prime editing system), a predetermined prime editor protein, and a predetermined pegRNA. there is.
  • the method of predicting an off target of the present application may further include identifying or designing a predetermined prime editing system.
  • a pre-determined prime editing system can be checked, and through this, elements to be used in the off-target prediction system can be properly designed.
  • the process of identifying the predetermined gene editing system may be performed before contacting the prime editor protein and tpegRNA with the genomic DNA of the cell.
  • a predetermined (ie, prediction target) prime editing system will be described.
  • the method of predicting an off target of the present application may include identifying a pre-determined prime editing system.
  • checking the predetermined prime editing system may include checking any one or more of information on the predetermined cell, the predetermined prime editor protein, and the predetermined pegRNA.
  • a pre-determined prime editing system, a pre-determined cell, a pre-determined prime editor protein, a pre-determined pegRNA, etc. can be used with an ordinal definition, such as a first prime editing system, a first cell, a first prime editor protein, a first pegRNA. .
  • identifying a pre-determined prime editing system may include identifying a pre-determined cell.
  • the same cells as the pre-determined cells may be used in the off-target prediction system of the present application.
  • cells other than the pre-determined cells may be used in the off-target prediction system of the present application.
  • the predetermined cell may be a human cell rather than a cell line, and a human cell line may be used in the off-target prediction system of the present application.
  • a predetermined cell may be an animal cell or a plant cell.
  • a predetermined cell can be a human cell or a non-human animal (eg, mouse, rat, monkey, chimpanzee, dog, cat, cow, pig, horse, and sheep, etc.) cell, but is not limited to otherwise. .
  • the predetermined cell may be a cell derived from a patient.
  • a predetermined cell may be a cell of a cell line (eg, a human, mouse, monkey, or rat cell line).
  • the cells of the cell line may be, for example, 3T3 cells, A549 cells, HeLa cells, HEK 293 cells, K562 cells, Huh7 cells, Jurkat cells, OK cells, Ptk2 cells, or Vero cells, but are not limited thereto.
  • identifying a predetermined prime editing system may include identifying a predetermined prime editor protein.
  • the same prime editor protein as the pre-determined prime editor protein may be used in the off-target prediction system of the present application.
  • a different type of prime editor protein than the predetermined prime editor protein may be used in the off-target prediction system of the present application.
  • the predetermined prime editor protein may be a PE2 prime editor protein, but the prime editor protein used in the off-target prediction system of the present application may be a PE2-nuclease prime editor protein or a PEmax-nuclease prime editor protein.
  • Other types of prime editor proteins may be used to increase the tagmentation rate.
  • identifying a predetermined prime editing system may include identifying a predetermined pegRNA.
  • a tpegRNA identical to a predetermined pegRNA (where the tpegRNA identical to the predetermined pegRNA indicates that all sequences are identical except for the tag template) may be used in the off-target prediction system of the present application.
  • a tpegRNA different from the predetermined pegRNA may be used in the off-target prediction system of the present application.
  • the predetermined pegRNA is referred to as a first pegRNA, and the first pegRNA includes a first spacer, a first DNA synthesis template, and a first primer binding site.
  • the tpegRNA used in the off-target prediction system of the present application is referred to as a second tpegRNA for convenience.
  • the second tpegRNA includes a second spacer, a second DNA synthesis template, a second tag template, and a second primer binding site.
  • the second tpegRNA may further include a 3' engineering region, and in this case, unlike the type of the first pegRNA, etpegRNA developed based on epegRNA may be used in the off-target prediction method of the present application.
  • the second spacer is identical to the first spacer sequence, or is about 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 99.9% sequence identity.
  • the second primer binding portion is identical to the sequence of the first primer binding portion, or about 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64 , 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89 , 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 99.9% sequence identity.
  • the second DNA synthesis template is identical to the sequence of the first DNA synthesis template, or about 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63 , 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88 , 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 99.9% sequence identity.
  • the second extension region is identical to the sequence of the first extension region, except for the tag template, or about 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 99.9% sequence identity.
  • the first pegRNA is a pegRNA other than an epegRNA, but the tpegRNA used in the off-target prediction method of the present application may further include a 3' engineering region (eg, etpegRNA is used).
  • the first DNA synthesis template may include a first editing template, but the second DNA synthesis template may not include an editing template.
  • the first synthesis template may include a first editing template and the second DNA synthesis template may include a second editing template.
  • the second editing template is the same as the sequence of the first editing template, or about 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66 , 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91 , 92, 93, 94, 95, 96, 97, 98, 99, 99.9% sequence identity.
  • the second editing template may have a different sequence than the sequence of the first editing template.
  • a first DNA synthesis template may include a first region of homology and a second DNA synthesis template may include a second region of homology.
  • the second region of homology is identical to the sequence of the first region of homology, or about 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63 , 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88 , 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 99.9% sequence identity.
  • the off-target system of the present application may be used with one or more additional off-target prediction systems.
  • An additional off-target system may be, for example, a prime-editing off-target prediction system using a different type of prime editor protein and/or a different type of tpegRNA. That is, an additional off-target system may be TAPE-seq using a different type of prime editor protein and/or a different type of tpegRNA.
  • a first off-target prediction system using a first prime editor protein and a first tpegRNA and a second off-target prediction system using a second prime editor protein and a second tpegRNA may be used together.
  • the first prime editor protein may be of the same or different type as the second prime editor protein.
  • the first tpegRNA may have the same sequence as the second tpegRNA, or may have some different sequence.
  • the first editing template of the first tpegRNA and the second editing template of the second tpegRNA may be different.
  • first TAPE-seq is performed using a tool for off-target prediction of first prime editing
  • second TAPE-seq is performed using a tool for off-target prediction of second prime editing
  • the first TAPE-seq result and the second TAPE-seq result may be combined and used as a result for predicting an off-target.
  • At least one of elements included in the tool for off-target prediction of second prime editing may be different from a corresponding element included in the tool for off-target prediction of first prime editing.
  • the sequence of the tpegRNA editing template of the first prime editing off-target prediction tool may be different from the tpegRNA editing template of the second prime editing off-target prediction tool.
  • tools for off-target prediction of first prime editing include PEmax-nuclease and tepegRNA
  • tools for off-target prediction of second prime editing include PE2 and tpegRNA other than tepegRNA (i.e., 3' engineering tpegRNA that does not contain the region).
  • first TAPE-seq and the second TAPE-seq use the same tool for off-target prediction of prime editing, but the sequencing platform used for tagmentation analysis in each TAPE-seq may be different.
  • first TAPE-seq, second TAPE-seq, and third TAPE-seq are performed, and the three TAPE-seq results are combined and used to predict an off-target.
  • the number of prime editing off-target prediction systems that can be additionally used and the configuration of each off-target prediction system are not otherwise limited.
  • the additional off target prediction system may be another off target prediction system.
  • the off-target prediction system of the present application includes Cas-OFFinder, CHOPCHOP, CRISPOR, Digenome-seq, nDigenome-seq, DIG-seq, SITE-seq, CIRCLE-seq, CHANGE-seq, GUIDE-seq, GUIDE- It can be used with any one or more selected from tag, DISCOVER-seq, BLISS, BLESS, integrase-defective lentiviral vector-mediated DNA break capture, HTGTS, ONE-seq, CReVIS-Seq, ITR-seq, and TAG-seq .
  • the off-target prediction system of the present application and another off-target prediction system may be used together, and the other off-target prediction system is an off-target prediction system developed before the filing date of the present application. or an off-target prediction system developed after the filing date of the present application, and is not otherwise limited.
  • the inventors of this application have tested in detail the off-target prediction method provided by this application. By comparing the off-target prediction method of the present application with other off-target prediction methods, it was confirmed that the off-target prediction method of the present application showed better performance than other off-target prediction methods (see experimental examples of the present application). Since the off-target prediction method of the present application uses the molecular mechanism of the prime editing system, it shows many advantages over other off-target prediction methods in predicting the off-target of the prime editing system.
  • the off-target prediction method of the present application may have a lower false positive rate than the known off-target prediction method.
  • the off-target prediction method of the present application may have a lower miss rate than the known off-target prediction method.
  • a miss rate can mean missing true off-targets. For example, false negative results, such as failure to detect true off-target sites as off-target candidates, increase the miss rate.
  • the miss rate may be a value obtained by dividing the number of verified off-target sites identified by the off-target prediction system by the total number of verified off-target sites.
  • the off-target prediction method of the present application may be performed using surrogate cells.
  • genome editing using a prime editing system involves various cell-specific processes, so it is difficult to predict off-targets through in vitro-based off-target prediction. Therefore, cell-based off-target prediction methods should be used.
  • Known cell-based prediction methods give inaccurate results when using surrogate cells.
  • the off-target prediction method of the present application may produce more accurate results even when a surrogate cell (eg, a human cell line) is used.
  • the inventors of the present application confirmed whether the off-target prediction method of the present application can actually work in relation to off-target prediction of prime editing through a large number and many types of experiments. Furthermore, the performance of the off-target prediction method of the present application was tested through various experiments. The verification result of the performance of the off-target prediction method of the present application is confirmed through the experimental example of the present application.
  • the validation rate of the off target prediction method of the present application is 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65% %, 70%, 75%, 80%, 85%, 90%, 95% or 100% or more, but is not limited otherwise.
  • the validation rate may indicate a true off-target ratio among off-target candidates predicted through the off-target prediction method.
  • the verification rate calculated based on the off-target candidates identified through the off-target prediction method of the present application may be within a range formed by two of the above values, but is not limited otherwise.
  • the verification rate may be affected by the type of prime editing system used in the off-target prediction system (eg, the type of prime editor protein and/or tpegRNA) and the type of cell.
  • the miss rate of the off-target prediction method of the present application is 0, or 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, or 40% less days
  • the miss rate of the off-target prediction method of the present application may be within a range formed by two values selected from the above values, but is not otherwise limited.
  • the miss rate may be affected by the type of prime editing system used in the off-target prediction system, the type of cell, and the like.
  • the number of true off-targets missed by the off-target prediction method of the present application may be, but is not limited to, 0, or 1, 2, 3, 4, 5, 6, 7, 8, 9, or 11 or less. .
  • an ROC curve (receiver operating characteristic curve) can be drawn for the off-target prediction method of the present application.
  • the area under receiver operating characteristic curve (AUC) can be calculated for the off target prediction method of the present application.
  • the ROC curve and the area under the ROC curve are powerful tools to indicate the diagnostic capability of a binary classifier system.
  • an ROC curve may be prepared by corresponding a true positive rate (TPR) and a false positive rate (FPR), or by corresponding a sensitivity and specificity. For example, a true positive rate (TPR) is plotted on the y-axis and a false positive rate (FPR) is plotted on the x-axis to create an ROC curve.
  • a ROC curve may be created by plotting sensitivity on the y-axis and plotting specificity on the x-axis. The closer the area under the ROC curve is to 1 (ie, the wider the AUC area), the better the performance of the model.
  • the area under the ROC curve for the off-target prediction method of the present application can be calculated, wherein the area under the ROC curve is about 0.4, 0.42, 0.44, 0.46, 0.48, 0.5, 0.52, 0.54, 0.56 , 0.58, 0.6, 0.62, 0.64, 0.66, 0.68, 0.7, 0.72, 0.74, 0.75, 0.76, 0.77, 0.78, 0.79, 0.8, 0.81, 0.82, 0.83, 0.84, 0.85, 0. 86, 0.87, 0.88, 0.89, 0.9 , 0.91, 0.92, 0.93, 0.94, 0.95, 0.96, 0.97, 0.98, 0.99 or more or 1, but is not limited thereto.
  • the area under the ROC curve calculated for the off-target prediction method of the present application may be within a range of two values selected from the foregoing, but is not otherwise limited.
  • the area under the ROC curve may be affected by the type of prime editing system used in the off-target prediction system, the type of cell, and the like.
  • Some embodiments of the present application provide a composition comprising a tpegRNA or a nucleic acid encoding the same. Some embodiments of the present application provide a composition comprising a tpegRNA or a nucleic acid encoding the same and a Prime Editor protein or a nucleic acid encoding the same. In some embodiments, a composition comprising a tpegRNA of the present application or a nucleic acid encoding the same and/or a Prime Editor protein or a nucleic acid encoding the same may be used for off-target prediction. That is, some embodiments of the present application provide compositions for off-target prediction.
  • a composition for predicting off-targets can be used to confirm information about off-targets generated during the editing process of DNA molecules (eg, genomic DNA) using prime editing or to predict off-targets.
  • the composition for off-target prediction of the present application may be used in the off-target prediction method of the prime editing system of the present application.
  • the off-target prediction method of the present application may be referred to as a prime editing off-target prediction system.
  • the off-target prediction method of the present application may be a method of confirming information on an off-target that may occur during the editing process of a DNA molecule (eg, genomic DNA) using prime editing.
  • the off-target prediction method of the present application may be referred to as a method or system for predicting off-targets that may occur in the process of editing genomic DNA using prime editing.
  • Off-target prediction can be achieved by obtaining information about an off-target candidate or information about a candidate off-target site.
  • the present application provides a method for predicting off-targets that occur during genomic DNA editing of a cell using a prime editing system comprising:
  • genomic DNA to be analyzed (analyzing-subject genomic DNA) by contacting genomic DNA of cells with prime editor protein and tpegRNA:
  • the prime editor protein includes a Cas protein and a reverse transcriptase
  • the tpegRNA includes a spacer, a gRNA core, and an extension region, wherein the extension region includes an RT template (revers transcription template), a tag template, and a primer binding site (PBS); and
  • contacting the cell's genomic DNA with the prime editor protein and tpegRNA can be performed intracellularly.
  • contacting the prime editor protein and tpegRNA with the cell's genomic DNA can be performed within the cell's nucleus.
  • the prime editor protein and tpegRNA may contact genomic DNA in the form of a prime editor protein/tpegRNA complex.
  • genomic DNA after contacting the prime editor protein and tpegRNA with genomic DNA, it is possible to determine whether genomic DNA is modified in the cell.
  • a tag sequence may be inserted into the genomic DNA, and an analyzing-subject genomic DNA containing the tag sequence is obtained. It can be.
  • the tag sequence may be inserted into genomic DNA to be analyzed by a reverse transcription process performed by reverse transcriptase using the tag template of tpegRNA as a template.
  • the RT template may include an editing template and a region of homology.
  • the genomic DNA to be analyzed may include one or more tag sequences.
  • the one or more tag sequences may be independently inserted into positions corresponding to each on-target and/or off-target candidate in genomic DNA by reverse transcription using a reverse transcriptase.
  • the genomic DNA to be analyzed includes one or more tag sequences.
  • a tag sequence may be inserted into an on-target location.
  • tag sequences may be inserted into candidate off-target positions.
  • the analysis of the genomic DNA of interest may include: analyzing the genomic DNA of interest by sequencing.
  • the analysis of the genomic DNA of interest may include: tag-specific amplification of the genomic DNA of interest to generate an amplified tag-specific library; and analyzing the tag-specific library by sequencing.
  • the analysis of the genomic DNA of interest may include: generating a tag-specific library from the genomic DNA of interest; and sequencing the tag-specific library.
  • the analysis of the genomic DNA of interest may include: generating a tag-specific library from the genomic DNA of interest; amplifying the tag-specific library to generate an amplified tag-specific library; and sequencing the tag-specific library.
  • information about tagmentation can include: information about whether the genomic DNA to be analyzed contains a tag sequence.
  • the information for the tagmentation may include: the location on genomic DNA of each tag sequence relative to one or more tag sequences.
  • information about tagmentation may include: The tagmentation rate for each tagged site.
  • information about tagmentation may include one or more of the following: information about whether the genomic DNA to be analyzed includes a tag sequence; the location on the genomic DNA of each tag sequence relative to the one or more tag sequences; and tagmentation rates for each tagged site.
  • the method for predicting off-targets of the present application may further include: verifying information about off-targets based on information about tagmentation.
  • the method of predicting an off-target of the present application may further include: verifying information about an on-target.
  • information about off-targets may include: Whether an off-target candidate exists. In this case, the presence or absence of the off-target candidate can be obtained from information on whether the tag sequence is included in the genomic DNA to be analyzed.
  • information about off-targets may include: the location on the genomic DNA of each off-target candidate for one or more off-target candidates (candidate off-target sites).
  • the location on genomic DNA of each off-target candidate for one or more off-target candidates may be obtained from the location on genomic DNA of each tag sequence with respect to one or more tag sequences.
  • information about off-targets may include: the off-target prediction score of each off-target candidate relative to one or more off-target candidates.
  • an off-target prediction score of each off-target candidate for one or more off-target candidates may be obtained from a tagment rate for each tagged region.
  • information about off-targets may include: number of predicted off-target candidates.
  • information about off-targets may include one or more of the following: whether an off-target candidate exists; the location on the genomic DNA of each off-target candidate relative to the one or more off-target candidates; an off-target prediction score of each off-target candidate relative to one or more off-target candidates; and the number of predicted off-target candidates.
  • the method of predicting an off target of the present application may further include: verifying information about a predetermined prime editing system.
  • the predetermined prime editing system includes the use of a first pegRNA, wherein the first pegRNA may include a first primer binding site, a first DNA synthesis template, and a first spacer.
  • the sequence of the DNA synthesis template of the tpegRNA may be the same as that of the first DNA synthesis template.
  • the sequence of the primer-binding portion of the tpegRNA may be the same as that of the first primer-binding portion.
  • the spacer sequence of the tpegRNA may be the same as the first spacer sequence.
  • the first pegRNA does not include a 3' engineering region, and the tpegRNA may include a 3' engineering region.
  • the predetermined prime editing system includes the use of a first prime editor protein, wherein the prime editor protein used in the off-target prediction method of the present application may be a prime editor protein different from the first prime editor protein.
  • the spacer sequence of the tpegRNA may have at least 80% sequence identity with a predetermined spacer sequence of the pegRNA.
  • the sequence of the primer-binding portion of the tpegRNA may have 80% or more sequence identity with the sequence of the predetermined primer-binding portion of the pegRNA.
  • the sequence of the homology region of the tpegRNA may have 80% or more sequence identity with the sequence of the pre-determined homology region of the pegRNA.
  • the Cas protein may have nuclease activity. In certain embodiments, the Cas protein can be Cas9. In certain embodiments, the Cas protein can be wild-type SpCas9. In certain embodiments, the Cas protein may be a SpCas9 variant. In certain embodiments, the Cas protein may be a SpCas9 variant comprising the R221K and N394K mutations.
  • the Cas protein may have nickase activity.
  • the Cas protein can be a Cas9 nickase.
  • the Cas protein may be a SpCas9 variant comprising the H840A mutation.
  • the Cas protein may be a SpCas9 variant comprising the R221K, N394K, and H840A mutations.
  • the Cas protein can be a SpCas9 variant comprising the D10A mutation.
  • the Cas protein may be a SpCas9 variant comprising the R221K, N394K, and D10A mutations.
  • the reverse transcriptase may be a wild type MMLV reverse transcriptase (Moloney Murine Leukemia Virus reverse transcriptase). In certain embodiments, the reverse transcriptase may be an MMLV reverse transcriptase variant. In certain embodiments, the reverse transcriptase may be an MMLV reverse transcriptase variant comprising the D200N, T306K, W313F, T330P, and L603W mutations.
  • the Cas protein and/or reverse transcriptase may be codon optimized.
  • the prime editor protein may be a PE2 prime editor protein. In certain embodiments, the prime editor protein may be a PE2-nuclease prime editor protein. In certain embodiments, the prime editor protein may be a PEmax prime editor protein. In certain embodiments, the prime editor protein may be a PEmax-nuclease prime editor protein.
  • a tpegRNA may include a 3' engineering region.
  • tpegRNA may be etpegRNA.
  • dnMLH1 may be involved in obtaining the DNA to be analyzed.
  • a tag template may be located between the primer binding site and the RT template.
  • the RT template, tag template and primer binding site of the tpegRNA may be located on an extended region of the tpegRNA in the 5' to 3' direction of the tpegRNA.
  • the tpegRNA may be a pegRNA designed to allow insertion of a tag sequence into the genomic DNA via the reverse transcriptase of the prime editor protein.
  • the tag template may be 5 to 60 nt in length. In certain embodiments, the tag template may be 15 to 40 nt in length. In certain embodiments, the tag template may be about 19nt, 24nt, 29nt, or 34nt in length.
  • the method of predicting an off target may further include: contacting a cell with a prime editor protein or a nucleic acid encoding the same and a tpegRNA or a nucleic acid encoding the same.
  • the present application provides a method of obtaining information about one or more off-targets that may occur during a prime editing process, including:
  • producing the engineered cell includes: manipulating the genome of the cell using tpegRNA and prime editing proteins including Cas protein and reverse transcriptase;
  • the tpegRNA includes a spacer region, a gRNA core and an extension region,
  • the extension region includes a reverse transcription template, a tag template, and a primer binding site (PBS),
  • the engineered cell comprises an engineered genome
  • the engineered genome includes one or more tag sequences, and each tag sequence is subjected to reverse transcription by the reverse transcriptase, which is performed using the tag template of the tpegRNA as a template for reverse transcription. inserted into the genome of;
  • a reverse transcription template may include an editing template and a region of homology.
  • a tag sequence may be inserted into an on-target site.
  • tag sequences may be inserted into one or more candidate off-target sites.
  • the information about the tagmentation obtained in (c) may include any one or more of the following: information about whether the tag sequence has been inserted into the genome of the cell, whether one or more tag sequences have been inserted. Information on the inserted chromosome, information on the position where one or more tag sequences are inserted, information on the chromosome and position on the chromosome where the one or more tag sequences are inserted, and information on the insertion rate for each position where the one or more tag sequences are inserted .
  • the off-target that may occur in the process of genome editing using prime editing is an off-target candidate
  • information on one or more off-targets that may occur in the process of genome editing using the prime editing identified in (d) may include any one or more of the following: information on whether an off-target candidate exists, information on a chromosome where one or more off-target candidates occur, information on a location where one or more off-target candidates occur, and one or more off-targets.
  • information about tagmentation can include: information about whether or not the engineered genomic DNA includes a tag sequence.
  • the information for the tagmentation may include: the location on genomic DNA of each tag sequence relative to one or more tag sequences.
  • information about tagmentation may include: The tagmentation rate for each tagged site.
  • information about tagmentation may include one or more of: information about whether the engineered genomic DNA includes a tag sequence; the location on the genomic DNA of each tag sequence relative to the one or more tag sequences; and tagmentation rates for each tagged site.
  • the method of predicting an off-target of the present application may further include: verifying information about an on-target.
  • information about off-targets may include: Whether an off-target candidate exists. In this case, the presence or absence of the off-target candidate can be obtained from information on whether the tag sequence is included in the genomic DNA to be analyzed.
  • information about off-targets may include: the location on the genomic DNA of each off-target candidate for one or more off-target candidates (candidate off-target sites).
  • the location on genomic DNA of each off-target candidate for one or more off-target candidates may be obtained from the location on genomic DNA of each tag sequence with respect to one or more tag sequences.
  • information about off-targets may include: the off-target prediction score of each off-target candidate relative to one or more off-target candidates.
  • an off-target prediction score of each off-target candidate for one or more off-target candidates may be obtained from a tagment rate for each tagged region.
  • information about off-targets may include: number of predicted off-target candidates.
  • information about off-targets may include one or more of the following: whether an off-target candidate exists; the location on the genomic DNA of each off-target candidate relative to the one or more off-target candidates; an off-target prediction score of each off-target candidate relative to one or more off-target candidates; and the number of predicted off-target candidates.
  • the tag template may be 5 to 60 nt in length.
  • the tag template may be 15 to 40 nt in length.
  • the tag template may be about 19 nt in length.
  • the tag template may be about 24 nt in length.
  • the tag template may be about 29 nt in length.
  • the tag template may be about 34 nt in length.
  • the prime editing protein can induce the generation of nicks in the DNA molecule to be edited.
  • the prime editing protein is capable of inducing a DSB in a DNA molecule to be edited.
  • the prime editing protein may be a PE2 prime editing protein.
  • the prime editing protein may be a PE2-nuclease.
  • the prime editing protein may be a PEmax prime editing protein.
  • the prime editing protein may be a PEmax-nuclease.
  • the prime editing protein may be the same as or different from a preselected prime editing protein.
  • the tpegRNA may be an etpegRNA.
  • the tag template may be located between the editing template and the primer binding site.
  • the sequence included in the spacer region of the tpegRNA may have 90% or more sequence identity with the sequence of the spacer region of the predetermined pegRNA.
  • the sequence included in the primer binding site of the tpegRNA may have 90% or more sequence identity with the sequence of the predetermined primer binding site of the pegRNA.
  • a sequence included in the homology region of the tpegRNA may have 90% or more sequence identity with a sequence of a predetermined homology region of the pegRNA.
  • (a) may further comprise: producing a prime editing protein and tpegRNA within the cell.
  • (a) may further comprise: introducing the prime editing protein or fragment thereof or nucleic acid encoding same, and tpegRNA or nucleic acid encoding same into the cell.
  • the prime editing protein or fragment thereof or nucleic acid encoding same, and tpegRNA or nucleic acid encoding same may be introduced into a cell via one or more vectors.
  • the method of obtaining information about off-targets may further include: destroying the engineered cells. Disrupting the engineered cells can then be performed prior to (b).
  • the method of obtaining information about off-targets may further include: extracting DNA from engineered cells.
  • DNA extraction from the engineered cells may be performed prior to (b).
  • (b) may further comprise: amplifying the region comprising the tag sequence via tag-specific amplification.
  • (b) may further comprise sequencing the engineered cells for analysis.
  • (b) may include: analyzing the engineered genome via sequencing.
  • (b) can include: tag-specific amplification of the engineered genome to generate an amplified tag-specific library; and analyzing the tag-specific library by sequencing.
  • (b) may include: generating a tag-specific library from the engineered genome; and sequencing the tag-specific library.
  • (b) may include: generating a tag-specific library from the engineered genome; amplifying the tag-specific library to generate an amplified tag-specific library; and sequencing the tag-specific library.
  • Some embodiments of the present application provide a method for obtaining information about one or more off-targets that may occur during a prime editing process, including:
  • producing a cell population comprising the one or more engineered cells includes: a prime editing protein comprising a Cas protein and a reverse transcriptase in the cell population or a nucleic acid encoding the same and a tpegRNA or a nucleic acid encoding the same to manipulate the genome of one or more cells by processing;
  • the tpegRNA includes a spacer, a gRNA core, and an extension region,
  • the extension region includes a reverse transcription template (RT template), a tag template, and a primer binding site (PBS),
  • RT template reverse transcription template
  • tag template a tag template
  • PBS primer binding site
  • each said engineered cell comprises an engineered genome
  • the engineered genome includes one or more tag sequences, and each of the tag sequences is subjected to reverse transcription by the reverse transcriptase performed using the tag template of the tpegRNA as a reverse transcription template to obtain a cell genome. inserted into;
  • a tag sequence may be inserted into an on-target site.
  • tag sequences may be inserted into one or more candidate off-target sites.
  • the tagmentation information may include any one or more of the following: information on whether a tag sequence has been inserted into the cell's genome, information on whether one or more tag sequences have been inserted into the cell's genome. Information on chromosomes, information on positions where one or more tag sequences are inserted, information on chromosomes and positions on chromosomes into which one or more tag sequences are inserted, and information on insertion rates for each position where one or more tag sequences are inserted.
  • the off-target that may occur in the genome editing process using prime editing is an off-target candidate
  • the information on one or more off-targets that may occur in the genome editing process using prime editing includes any one or more of the following It can: information about the presence or absence of off-target candidates, information about the occurrence chromosomes of one or more off-target candidates, information about the location of occurrence of one or more off-target candidates, occurrence chromosomes of one or more off-target candidates and on chromosomes Information about the location, and information about the probability of occurrence of one or more off-target candidates by location.
  • information about tagmentation may include: information about whether one or more engineered genomic DNA contains a tag sequence.
  • the information for the tagmentation may include: the location on genomic DNA of each tag sequence relative to one or more tag sequences.
  • information about tagmentation may include: The tagmentation rate for each tagged site.
  • information about tagmentation may include one or more of the following: information about whether one or more engineered genomic DNA includes a tag sequence; the location on the genomic DNA of each tag sequence relative to the one or more tag sequences; and tagmentation rates for each tagged site.
  • the method of predicting an off-target of the present application may further include: verifying information about an on-target.
  • information about off-targets may include: Whether an off-target candidate exists. In this case, the presence or absence of the off-target candidate can be obtained from information on whether the tag sequence is included in the genomic DNA to be analyzed.
  • information about off-targets may include: the location on the genomic DNA of each off-target candidate for one or more off-target candidates (candidate off-target sites).
  • the location on genomic DNA of each off-target candidate for one or more off-target candidates may be obtained from the location on genomic DNA of each tag sequence with respect to one or more tag sequences.
  • information about off-targets may include: the off-target prediction score of each off-target candidate relative to one or more off-target candidates.
  • an off-target prediction score of each off-target candidate for one or more off-target candidates may be obtained from a tagment rate for each tagged region.
  • information about off-targets may include: number of predicted off-target candidates.
  • information about off-targets may include one or more of the following: whether an off-target candidate exists; the location on the genomic DNA of each off-target candidate relative to the one or more off-target candidates; an off-target prediction score of each off-target candidate relative to one or more off-target candidates; and the number of predicted off-target candidates.
  • the reverse transcription template may include an editing template and a region of homology.
  • the tag template may be 5 to 60 nt in length.
  • the tag template may be 15 to 40 nt in length.
  • the tag template may be about 19 nt in length.
  • the tag template may be about 24 nt in length.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Plant Pathology (AREA)
  • Immunology (AREA)
  • Medicinal Chemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 출원은 프라임 에디팅 시스템을 사용하여 게놈을 편집하는 과정에서 발생할 가능성이 있는 오프 타겟을 예측하는 방법에 관한 것이다.

Description

프라임 에디팅 시스템을 이용한 게놈 편집의 과정에서 발생 가능한 오프 타겟을 예측하는 방법
본 출원은 유전자 편집 시스템 중 하나인 프라임 에디팅 시스템의 오프 타겟을 예측하는 방법에 관한 것이다.
CRISPR/Cas 시스템을 이용한 게놈 편집은 활발히 연구되고 있는 분야이다. 유전자 조작을 위해 다양한 Cas 단백질 개발 변형된 가이드 RNA의 등을 포함하는 다양한 연구가 이뤄졌으나, CRISPR/Cas 시스템을 이용하여 유전자를 편집하는 방법은 여전히 문제를 갖고 있다. CRISPR/Cas 시스템을 이용하여 유전자를 조작하는 방법에 의해 발생되는 다양한 문제들은 보다 정교한 게놈 편집 기술을 개발의 동기를 부여하였다. 상기 동기로부터 보다 정교한 게놈 에디팅 기술인 베이스 에디팅(Base editing)이 개발되었다. 그러나 베이스 에디팅은 사용 가능한 범위가 여전히 제한적이다.
David R. Liu 등은 베이스 에디팅의 개발 이후에, 삽입, 결실, 12개의 모든 base-to-base 전환, 및 이들의 조합들을 게놈에 유도하는데 사용될 수 있는 '검색-및-교체(search-and-replace)' 게놈 에디팅 기술인 프라임 에디팅 기술을 개발하였다.
David R. Liu 등에 의해 "프라임 에디팅(Prime editing)"으로 지칭되는 게놈 편집을 위한 새로운 플랫폼이 개발되었으나, 프라임 에디팅을 통한 게놈 편집에서 발생할 수 있는 오프 타겟을 예측하는 방법 또는 시스템은 아직까지 개발되지 않았다. 게놈 편집을 위한 새로운 플랫폼인 프라임 에디팅의 개발로 인해, 프라임 에디팅 시스템에 보다 적합한 새로운 오프 타겟을 예측하는 방법의 개발이 요구된다.
유전자 편집 과정에서 발생하는 오프 타겟은 강력한 부작용을 야기한다. 이에 따라, 다양한 오프 타겟을 예측하기 위한 방법들이 개발되었다. 그러나, 현재까지 알려진 방법들은 전통적인 CRISPR/Cas 시스템을 표적으로 하여 개발된 것으로, 새로운 유전자 편집 시스템은 프라임 에디팅 시스템에 적용하기는 어렵다. 이에, 본 출원은 프라임 에디팅 시스템을 표적으로 개발된, 프라임 에디팅 시스템의 오프 타겟을 예측하는 방법 또는 시스템을 개시한다.
본 출원의 일부 실시양태는 다음을 포함하는 프라임 에디팅 시스템을 이용한 게놈 편집 과정에서 발생하는 오프 타겟을 예측하는 방법을 제공한다:
(a) 조작된 세포를 얻음,
이때 상기 조작된 세포는 조작된 게놈 DNA를 포함하고, 이때 상기 조작된 게놈 DNA는 태그 서열을 포함하고, 이때 상기 조작된 게놈 DNA는 프라임 에디터 단백질 및 tpegRNA가 관여되는 다음을 포함하는 과정을 통해 생성됨:
(i) Cas 단백질 및 역전사 효소를 포함하는 프라임 에디터 단백질 및 tpegRNA(tagmentation pegRNA)를 게놈 DNA와 접촉함, 이때 상기 tpegRNA는 스페이서 및 태그 주형을 포함하는 연장 영역을 포함함,
(ii) 상기 tpegRNA의 상기 태그 주형을 역전사의 주형으로 하는 상기 역전사 효소에 의해 수행되는 역전사 과정을 통해 게놈 DNA 내에 태그 서열이 삽입됨;
(b) 상기 조작된 게놈 DNA를 분석하여 태그맨테이션에 대한 정보를 얻음,
이때 상기 태그멘테이션에 대한 정보는 태그 서열이 삽입된 게놈 DNA의 부위에 대한 정보를 포함함.
특정한 실시양태에서, 상기 오프 타겟을 예측하는 방법은 다음을 더 포함할 수 있다:
상기 태그맨테이션에 대한 정보에 기초하여 오프 타겟에 대한 정보를 얻음, 이때 상기 오프 타겟에 대한 정보는 오프 타겟 후보의 존재 여부에 대한 정보 및 상기 오프 타겟 후보가 존재하는 경우 상기 오프 타겟 후보의 부위에 대한 정보를 포함함.
특정한 실시양태에서, 상기 오프 타겟을 예측하는 방법은 다음을 더 포함할 수 있다:
온타겟에 대한 정보를 확인함 및 상기 온타겟에 대한 정보를 상기 태그맨테이션에 대한 정보와 비교함.
특정한 실시양태에서, 상기 오프 타겟을 예측하는 방법은 다음을 더 포함할 수 있다:
온타겟에 대한 정보를 확인하고 및 상기 온타겟에 대한 정보를 상기 태그맨테이션에 대한 정보와 비교함을 통해, 오프 타겟 후보의 존재 여부에 대한 정보를 확인함.
특정한 실시양태에서, 상기 태그 서열은 상기 tpegRNA의 상기 스페이서에 의해 지정되는 게놈 DNA 내의 영역에 삽입될 수 있다.
특정한 실시양태에서, 상기 태그 서열이 삽입된 부위는 오프 타겟 후보의 부위 또는 온타겟 부위와 연관될 수 있다.
특정한 실시양태에서, 상기 태그 서열이 삽입된 부위에 대한 정보는 상기 태그 서열이 위치하는 염색체 및 상기 염색체 상에서의 상기 태그 서열이 존재하는 부위에 대한 정보를 포함할 수 있다.
특정한 실시양태에서, 상기 오프 타겟 후보의 부위에 대한 정보는 각각의 오프 타겟 후보가 위치하는 염색체 및 상기 염색체 상에서의 오프 타겟 후보가 위치하는 부위에 대한 정보를 포함할 수 있다.
특정한 실시양태에서, 상기 태그맨테이션에 대한 정보는 다음을 더 포함할 수 있다: 태그 서열의 삽입 부위 별 태그 서열의 삽입율에 대한 정보.
특정한 실시양태에서, 상기 오프 타겟에 대한 정보는 다음을 더 포함할 수 있다: 오프 타겟 후보에 대한 오프 타겟 예측 점수.
특정한 실시양태에서, 상기 오프 타겟에 대한 정보는 다음을 더 포함할 수 있다: 예측된 오프 타겟 후보의 개수.
특정한 실시양태에서, 상기 조작된 세포는 다음을 포함하는 방법에 의해 수득될 수 있다: 프라임 에디터 단백질 또는 이를 암호화하는 핵산 및 tpegRNA 또는 이를 암호화하는 핵산을 세포와 접촉함.
특정한 실시양태에서, 상기 조작된 세포는 다음을 포함하는 방법에 의해 수득될 수 있다: 프라임 에디터 단백질 또는 이를 암호화하는 핵산 및 tpegRNA 또는 이를 암호화하는 핵산을 세포 내로 도입함.
특정한 실시양태에서, 상기 오프 타겟을 예측하는 방법은 다음을 더 포함할 수 있다: 상기 조작된 세포로부터 DNA를 얻음, 이때 상기 하나 이상의 조작된 세포로부터 DNA를 얻음은 (b) 이전에 수행됨.
특정한 실시양태에서, tpegRNA는 다음을 포함할 수 있다:
스페이서; gRNA 코어; 및 프라이머 결합 부, 태그 주형, 및 역전사 주형을 포함하는 연장 영역.
특정한 실시양태에서, 상기 tpegRNA의 역전사 주형은 편집 주형 및 상동성 영역을 포함할 수 있다.
특정한 실시양태에서, 상기 조작된 게놈 DNA는 편집을 포함할 수 있다.
특정한 실시양태에서, 상기 스페이서, 상기 gRNA 코어, 및 상기 연장 영역은, 5'에서 3' 방향으로, 상기 스페이서, 상기 gRNA 코어, 및 상기 연장 영역의 순서로 위치할 수 있다.
특정한 실시양태에서, 상기 태그 주형은 상기 연장 영역 상에서 프라이머 결합 부 및 역전사 주형의 사이에 위치할 수 있다.
특정한 실시양태에서, 상기 tpegRNA는 RNA 보호 모티프를 포함하는 3' 엔지니어링 영역을 더 포함할 수 있다.
특정한 실시양태에서, 상기 오프 타겟을 예측하는 방법은 다음을 더 포함할 수 있다:
미리 결정된 프라임 에디팅 시스템을 확인함, 이때 상기 미리 결정된 프라임 에디팅 시스템을 확인함은 다음 중 하나 이상을 포함함:
미리 결정된 세포에 대한 정보, 미리 결정된 pegRNA에 대한 정보, 및 미리 결정된 프라임 에디터 단백질에 대한 정보.
특정한 실시양태에서, 상기 미리 결정된 세포는 상기 오프 타겟을 예측하는 방법에 사용되는 세포와 다른 세포일 수 있다.
특정한 실시양태에서, 상기 tpegRNA의 스페이서의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 스페이서 서열과 동일하고, 상기 tpegRNA의 프라이머 결합 부의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 프라이머 결합 부의 서열과 동일할 수 있다.
특정한 실시양태에서, 상기 tpegRNA의 스페이서의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 스페이서 서열과 동일하고, 상기 tpegRNA의 프라이머 결합 부의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 프라이머 결합 부의 서열과 동일하고, 상기 tpegRNA의 역전사 주형의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 역전사 주형의 서열과 동일할 수 있다.
특정한 실시양태에서, 상기 오프 타겟을 예측하는 방법에 사용되는 상기 프라임 에디터 단백질은 상기 미리 결정된 프라임 에디터 단백질과 동일하거나 또는 다른 것일 수 있다.
특정한 실시양태에서, 상기 태그 주형의 길이는 5 내지 60nt일 수 있다.
특정한 실시양태에서, 상기 태그 주형의 길이는 10 내지 50nt일 수 있다.
특정한 실시양태에서, 상기 프라임 에디터 단백질은 DSB(double-strand break) 활성을 갖는 Cas 단백질을 포함하는 PE-뉴클레아제일 수 있다.
특정한 실시양태에서, 상기 프라임 에디터 단백질은 PEmax-뉴클레아제일 수 있다.
특정한 실시양태에서, 상기 프라임 에디터 단백질에 포함된 Cas 단백질은 닉카제일 수 있다.
특정한 실시양태에서, 상기 프라임 에디터 단백질은 PE2 프라임 에디터 단백질일 수 있다.
특정한 실시양태에서, 게놈 DNA의 조작에는 dnMLH1, gRNA, 및 추가의 Cas 단백질, 및 추가의 프라임 에디터 단백질 중 어느 하나 이상이 추가로 관여될 수 있다.
특정한 실시양태에서, (b)는 다음을 포함할 수 있다: 상기 조작된 게놈 DNA를 태그-특이적 분석함.
특정한 실시양태에서, (b)는 다음을 포함할 수 있다: 상기 조작된 게놈 DNA를 시퀀싱함.
특정한 실시양태에서, (b)는 다음을 포함할 수 있다:
상기 조작된 게놈 DNA로부터 태그-특이적 라이브러리를 생성함; 태그-특이적 라이브러리를 증폭하여 증폭된 태그-특이적 라이브러리를 생성함; 및 상기 증폭된 태그-특이적 라이브러리를 시퀀싱함.
본 출원의 일부 실시양태는 다음을 포함하는 프라임 에디팅 시스템을 이용한 게놈 편집 과정에서 발생하는 오프 타겟을 예측하는 방법을 제공한다:
(a) 하나 이상의 조작된 세포를 포함하는 세포 집단을 생성함,
이때 상기 조작된 세포는 조작된 게놈 DNA를 포함하고, 이때 상기 조작된 게놈 DNA는 하나 이상의 태그 서열을 포함하고, 이때 상기 조작된 게놈 DNA는 프라임 에디터 단백질 및 tpegRNA가 관여되는 다음을 포함하는 과정을 통해 생성됨:
(i) Cas 단백질 및 역전사 효소를 포함하는 프라임 에디터 단백질 및 tpegRNA (tagmentation pegRNA)를 세포의 게놈 DNA와 접촉함, 이때 상기 tpegRNA는 스페이서 및 태그 주형을 포함하는 연장 영역을 포함함,
(ii) 게놈 DNA 내에 태그 서열이 삽입됨, 이때 상기 태그 서열의 삽입은 상기 tpegRNA의 상기 태그 주형을 역전사 주형으로 하는 상기 역전사 효소에 의해 수행되는 역전사 과정을 통해 달성됨;
(b) 상기 하나 이상의 조작된 세포의 상기 조작된 게놈 DNA를 시퀀싱을 포함하는 과정을 통해 분석하여, 태그맨테이션에 대한 정보를 얻음,
이때 상기 태그맨테이션에 대한 정보는 하나 이상의 태그 서열이 삽입된 각 부위에 대한 정보를 포함함; 및
(c) 상기 태그맨테이션에 대한 정보에 기초하여 오프 타겟에 대한 정보를 얻음,
이때 상기 오프 타겟에 대한 정보는 오프 타겟 후보의 존재 여부에 대한 정보 및 하나 이상의 오프 타겟 후보의 부위에 대한 정보를 포함함.
본 출원의 일부 실시양태는 다음을 포함하는 tpegRNA (tagmentation pegRNA)를 제공한다:
스페이서; gRNA 코어; 및 태그 주형을 포함하는 연장 영역.
특정한 실시양태에서, 상기 스페이서, 상기 gRNA 코어, 및 상기 태그 주형을 포함하는 연장 영역은 5'에서 3' 방향으로, 상기 스페이서, 상기 gRNA 코어, 및 상기 태그 주형을 포함하는 연장 영역의 순서로 상기 tpegRNA 상에 위치할 수 있다.
특정한 실시양태에서, 상기 연장 영역은 상기 태그 주형, 프라이머 결합 부, 및 역전사 주형을 포함할 수 있다.
특정한 실시양태에서, 상기 태그 주형은 상기 프라이머 결합 부 및 상기 역전사 주형 사이에 위치할 수 있다.
특정한 실시양태에서, 상기 역전사 주형은 상기 태그 주형 및 상기 프라이머 결합 부 사이에 위치할 수 있다.
특정한 실시양태에서, 상기 프라이머 결합 부, 상기 태그 주형, 상기 역전사 주형은, 5'에서 3' 방향으로, 상기 역전사 주형, 상기 태그 주형, 및 상기 프라이머 결합 부의 순서로 상기 연장 영역 상에 위치할 수 있다.
특정한 실시양태에서, 상기 역전사 주형은 편집 주형 및 상동성 영역을 포함할 수 있다.
특정한 실시양태에서, 상기 태그 주형은 5 내지 60nt의 길이를 가질 수 있다.
특정한 실시양태에서, 상기 태그 주형은 10 내지 50nt의 길이를 가질 수 있다.
특정한 실시양태에서, 상기 tpegRNA는 RNA 보호 모티프를 포함하는 3' 엔지니어링 영역을 더 포함할 수 있다.
특정한 실시양태에서, 상기 RNA 보호 모티프는 10 내지 60nt의 길이를 가질 수 있다.
특정한 실시양태에서, 상기 tpegRNA는 100 내지 350nt의 길이를 가질 수 있다.
본 출원의 일부 실시양태는, 다음을 포함하는 프라임 에디팅 시스템을 이용한 게놈 편집 과정에서 발생하는 오프 타겟을 예측하기 위한 조성물을 제공한다:
tpegRNA; 및
Cas 단백질 및 역전사 효소를 포함하는 프라임 에디터.
본 출원의 일부 실시양태에 따른 프라임 에디팅 시스템의 오프 타겟 예측 방법은 프라임 에디팅 시스템의 분자적 매커니즘을 이용하기 때문에, 알려진 다른 오프 타겟 예측 방법보다 프라임 에디팅 시스템의 오프 타겟을 예측하는데 다수의 장점을 갖는다.
도 01은 전통적인 gRNA, pegRNA, 및 tpegRNA의 구조의 예시를 나타낸다.
도 02는 tpegRNA의 예시적 실시양태에 관한 것이다. 도 02에 도시된 tpegRNA는 DNA 합성 주형, 태그 주형, 및 프라이머 결합 부를 포함하는 연장 영역을 포함한다.
도 03은 tpegRNA의 예시적 실시양태에 관한 것이다. 도 03에 도시된 tpegRNA는 프라이머 결합 부, 태그 주형, 편집 주형, 및 상동성 영역을 포함하는 연장 영역을 포함한다.
도 04는 본 출원의 오프 타겟 예측 시스템의 tpegRNA를 이용한 태그 삽입 매커니즘에 관한 것이다. 구체적으로, 도 04는 온타겟 또는 오프 타겟 후보 위치에 닉이 발생한 DNA 분자, 및 닉을 유도한 프라임 에디터 단백질/tpegRNA 복합체의 예시를 나타낸다.
도 05는 본 출원의 오프 타겟 예측 시스템의 tpegRNA를 이용한 태그 삽입 매커니즘에 관한 것이다. 구체적으로, 도 05는 tpegRNA의 프라이머 결합 부가 게놈 DNA의 프라이머로 기능하는 영역과 어닐링된 장면을 도시한다. 이후, 태그 주형 등을 주형으로 하여, 리버스트랜스크립타아제에 의해 역전사가 수행된다.
도 06은 본 출원의 오프 타겟 예측 시스템의 tpegRNA를 이용한 태그 삽입 매커니즘에 관한 것이다. 역전사가 수행되어 태그 서열 등이 내인성 DNA 가닥(3' DNA 플랩)에 추가되었음이 도시된다. 이후, 5' DNA 플랩의 제거 및 DNA 수선을 포함하는 과정을 통해 태그 서열 및 태그 서열에 상보적인 서열이 게놈 DNA의 온타겟 위치 또는 오프 타겟 후보의 위치로 설치된다.
도 07은 본 출원의 오프 타겟 예측 시스템인 TAPE-seq의 예시적 과정을 나타낸 것이다.
도 08은 인큐베이션 기간에 따른 태그 서열의 삽입율에 대한 결과를 나타낸다.
도 09는 GFP-piggyBac 벡터의 맵을 나타낸다.
도 10 내지 도 15는 GFP 양성 세포의 농축 결과를 나타낸다. 구체적으로 도 10 내지 도 11은 HEK293T에 관한 결과이다. 도 12 내지 도 13은 HeLa에 관한 결과이다. 도 14 내지 도 15는 K562에 관한 결과이다.
도 16은 HEK4 (+2G to T) pegRNA로 HEK294T 세포를 형질감염시킨 후의 인큐베이션 시간 별 TAPE-seq에 의해 발견된 후보 오프타겟 부위의 수를 나타낸다.
도 17 내지 도 19는 트랜스포사제 플라스미드로 공동 형질감염시키기 위한 최적의 piggyBac 벡터의 양을 찾기 위한 실험의 결과이다. 구체적으로, 도 17은 PB 플라스미드 (PiggyBac plasmid) 양 별, 정량적 PCR을 통해 세포에서 발견됭 piggyBac 구축물의 복제수를 도시한 그래프이다. 도 18은 HEK293T를 형질감염시키기 위해 사용된 piggyBac 플라스미드의 양(ng) 별, 온타겟 위치에서의 태그맨테이션율을 도시한 그래프이다. 도 19는 HEK293T를 형질감염시키기 위해 사용된 piggyBac 플라스미드의 양(ng) 별, 오프 타겟 위치 (off-target site 1) 1에서의 태그맨테이션율을 도시한 그래프이다.
도 20은 프로브 서열의 길이 별 태그맨테이션율에 대한 분석 결과를 나타낸다. 온타겟 사이트에서 태그 삽입율이 분석되었다.
도 21은 프로브 서열의 길이 별 태그맨테이션율에 대한 분석 결과를 나타낸다. 오프 타겟 사이트에서 태그 삽입율이 분석되었다.
도 22는 9개의 다른 pegRNA의 온타겟 사이트에서의 태그맨테이션율 및 프라임 에디팅율에 대한 분석 결과를 나타낸다.
도 23은 HEK4 (+2 G to T) 및 HBB (+4 A to T) pegRNAs의 6개의 타겟 사이트 에 대한 태그맨테이션율에 대한 분석 결과를 나타낸다.
도 24는 표적화된 딥시퀀싱(targeted deep sequencing) 및 PE-analyzer를 이용하여 결정된 Case 1 및 Case 2 에디팅의 비율을 나타낸다. 9개의 서로 다른 pegRNA에 대해 분석되었다.
도 25는 10개의 상이한 온타겟 및 오프 타겟 사이트에서, 프라임 에디팅 편집이 있는 태그맨테이션과 프라임 에디팅 편집이 없는 태그맨테이션에 대한 조사 결과를 나타낸다.
도 26 내지 도 28은 검증된 부위 및 TAPE-seq에 의해 예측된 HEK4 pegRNA의 오프 타겟 사이트의 비교 결과를 나타낸다. 도 26은 검증된 부위 및 TAPE-seq에 의해 예측된 HEK4 (+2 G to T) pegRNA의 오프 타겟 사이트에 대한 비교 결과를 나타낸다. 도 27은 HEK4 (+3 TAA ins)의 검증된 사이트; Mi-seq을 사용하여 TAPE-seq에 의해 예측된 HEK4 (+2 G to T)의 오프 타겟 사이트와 Hi-seq을 사용하여 TAPE-seq에 의해 예측된 HEK4 (+2 G to T)의 오프 타겟 사이트의 결합; 및 TAPE-seq에 의해 예측된 HEK4 (+3 TAA ins) (Mi-seq)의 오프 타겟 사이트에 대한 비교 결과를 나타낸다. 도 28은 HEK4 (+2 G to T)의 검증된 사이트; Mi-seq을 사용하여 TAPE-seq에 의해 예측된 HEK4 (+2 G to T)의 오프 타겟 사이트와 Hi-seq을 사용하여 TAPE-seq에 의해 예측된 HEK4 (+2 G to T)의 오프 타겟 사이트의 결합; 및 TAPE-seq에 의해 예측된 HEK4 (+3 TAA ins) (Mi-seq)의 오프 타겟 사이트에 대한 비교 결과를 나타낸다.
도 29 내지 도 38은 TAPE-seq에 의해 예측된 결과와 다른 오프 타겟 예측 방법을 통해 예측된 결과의 비교와 관련된 것이다. 도 29는 HEK4 (+2 G to T) pegRNA에 대한 결과를 나타낸다. 도 30은 HEK4 (+3 TAA ins) pegRNA에 대한 결과를 나타낸다. 도 31은 EMX1 (+5 G to T) pegRNA에 대한 결과를 나타낸다. 도 32는 FANCF (+6 G to C) pegRNA에 대한 결과를 나타낸다. 도 33은 HEK3 (+1 CTT ins) pegRNA에 대한 결과를 나타낸다. 도 34는 RNF2 (+6 G to A) pegRNA에 대한 결과를 나타낸다. 도 35는 DNMT1 (+6 G to C) pegRNA에 대한 결과를 나타낸다. 도 36은 HBB (+4 A to T) pegRNA에 대한 결과를 나타낸다. 도 37은 RUNX1 (+6 G to C) pegRNA에 대한 결과를 나타낸다. 도 38은 VEGFA (+5 G to T) pegRNA에 대한 결과를 나타낸다.
도 39는 도 29 내지 도 38의 결과와 관련된, 각 예측 방법에서 놓친 검증된 오프 타겟에 대한 분석 결과를 나타낸다.
도 40은 PE2 TAPE-seq 및 PE4 TAPE-seq의 태그맨테이션율에 대한 분석 결과를 나타낸다.
도 41 내지 도 43은 PE2 TAPE-seq에 의해 예측된 오프 타겟, PE4 TAPE-seq에 의해 예측된 오프 타겟, 및 진정한 오프 타겟에 대한 비교 결과를 나타낸다. 진정한 오프 타겟은 표적화된 딥 시퀀싱을 통해 검증되었다. 도 41은 HEK293T와 관련된 결과이다. 도 42는 HeLa와 관련된 결과이다. 도 43은 K562와 관련된 결과이다.
도 44는 도 41 내지 도 43과 관련된 놓친 표적 사이트 수의 요약에 대한 분석 결과를 나타낸다. 도 44 (a)는 각 예측 방법 별 분석 결과를 나타낸다. 도 44 (b)는 각 세포 별 분석 결과를 나타낸다.
도 45 내지 도 47은 세포 별 TAPE-seq 오프 타겟 예측 결과 및 검증 결과를 비교한 것이다. 도 45는 HEK293T에서의 검증 결과와 각 세포에서의 TAPE-seq 예측 결과를 비교한 것이다. 도 46은 HeLa 세포에서의 검증 결과와 각 세포에서의 TAPE-seq 예측 결과를 비교한 것이다. 도 47은 K562 세포에서의 검증 결과와 각 세포에서의 TAPE-seq 예측 결과를 비교한 것이다.
도 48은 각 세포에서의 TAPE-seq 예측 결과가 놓친 검증된 오프 타겟에 대한 수에 대한 분석 결과이다.
도 49는 PE2, PE2-뉴클레아제, 및 epegRNA와 함께 사용된 PEmax-nuclease를 사용한 TAPE-seq의 태그맨테이션율에 대한 분석 결과이다.
도 50 내지 도 54는 각 TAPE-seq (PE2 TAPE-seq, PE2-뉴클레아제 TAPE-seq, 및 PEmax-뉴클레아제 및 epegRNA를 사용하는 TAPE-seq)에 의해 예측된 오프 타겟과 검증된 오프 타겟 부위를 비교한 결과를 나타낸다. 도 50은 HEK4 (+2 G to T) pegRNA (또는 epegRNA)에 대한 결과, 및 HEK4 (+3 TAA ins) pegRNA에 대한 결과를 나타낸다. 도 51은 HBB (+4 A to T) pegRNA에 대한 결과, 및 DNMT1 (+6 G to C) pegRNA에 대한 결과를 나타낸다. 도 52는 VEGFA (+5 G to T) pegRNA에 대한 결과, 및 EMX1 (+5 G to T) pegRNA에 대한 결과를 나타낸다. 도 53은 FANCF (+6 G to C) pegRNA에 대한 결과, 및 HEK3 (+1 CTT ins) pegRNA에 대한 결과를 나타낸다. 도 54는 RNF2 (+6 G to A) pegRNA, 및 RUNX1 (+6 G to C) pegRNA에 대한 결과를 나타낸다.
도 55 내지 도 59는 nDigenome-seq, GUIDE-seq, 및 TAPE-seq (PEmax-뉴클레아제 및 epegRNA를 사용하는 TAPE-seq)의 오프 타겟 예측 결과, 및 검증된 오프 타겟을 비교한 결과를 나타낸다. 도 55는 HEK4 (+2 G to T) pegRNA에 대한 결과, 및 HEK4 (+3 TAA ins) pegRNA에 대한 결과를 나타낸다. 도 56은 HBB (+4 A to T) pegRNA에 대한 결과, 및 DNMT1 (+6 G to C) pegRNA에 대한 결과를 나타낸다. 도 57은 VEGFA (+5 G to T) pegRNA에 대한 결과, 및 EMX1 (+5 G to T) pegRNA에 대한 결과를 나타낸다. 도 58은 FANCF (+6 G to C) pegRNA에 대한 결과, 및 HEK3 (+1 CTT ins) pegRNA에 대한 결과를 나타낸다. 도 59는 RNF2 (+6 G to A) pegRNA에 대한 결과, 및 RUNX1 (+6 G to C) pegRNA에 대한 결과를 나타낸다.
도 60은 GUIDE-seq, nDigenome-seq, TAPE-seq (PE2), TAPE-seq (PE2-nuclease), 및 TAPE-seq (PEmax-nuclease 및 epegRNA 사용)의 미스율에 대한 분석 결과를 나타낸다.
도 61 내지 도 66은 ROC 커브를 통한 GUIDE-seq, nDigenome-seq, TAPE-seq (PE2), TAPE-seq (PE2-nuclease), 및 TAPE-seq (PEmax-nuclease 및 epegRNA)에 대한 비교 결과를 나타낸다. 도 61은 HEK4 (+2 G to T) pegRNA에 대한 결과 및 HEK4 (+3 TAA ins) pegRNA에 대한 결과를 나타낸다. 도 62는 HBB (+4 A to T) pegRNA에 대한 결과 및 DNMT1 (+6 G to C) pegRNA에 대한 결과를 나타낸다. 도 63은 HEK3 (+1 CTT ins) pegRNA에 대한 결과를 나타낸다. 도 64는 EMX1 (+5 G to T) pegRNA에 대한 결과 및 FANCF (+6 G to C) pegRNA에 대한 결과를 나타낸다. 도 65는 RNF2 (+6 G to A) pegRNA에 대한 결과 및 RUNX1 (+6 G to C) pegRNA에 대한 결과를 나타낸다. 도 66은 VEGFA (+5 G to T) pegRNA에 대한 결과를 나타낸다.
도 67은 도 61 내지 도 66의 분석 결과를 바탕으로 계산된 ROC 커브의 아래 면적에 대한 분석 결과를 나타낸다.
도 68 내지 도 87은 표적화된 딥시퀀싱을 통해 분석된 오프 타겟 사이트들의 에디팅 패턴에 대한 분석 결과이다. 도 68은 HEK4 (+3 TAA ins) pegRNA를 통해 유도된 편집 패턴과 관련된 결과이다. 도 69 내지 도 71은 HEK4 (+2 G to T) pegRNA를 통해 유도된 편집 패턴과 관련된 결과이다. 도 72 내지 도 75는 HEK4 (+2 G to T) pegRNA와 관련된 검증된 오프 타겟 사이트에서의 편집 패턴에 대한 결과를 나타낸다. 도 76은 HBB (+4 A to T) pegRNA과 관련된 검증된 오프 타겟 사이트에서의 편집 패턴에 대한 결과를 나타낸다. 도 77 내지 도 80은 HEK4 (+3 TAA ins) pegRNA와 관련된 검증된 오프 타겟 사이트에서의 편집 패턴에 대한 결과를 나타낸다. 도 81 내지 도 82는 HeLa 세포에서의 결과를 나타낸다. 구체적으로, HEK4 (+3 TAA ins) pegRNA, 및 HEK4 (+2 G to T) pegRNA에 대한 결과를 나타낸다. 도 83 내지 도 84는 K562 세포에서의 결과를 나타낸다. 구체적으로, HEK4 (+3 TAA ins) pegRNA, 및 HEK4 (+2 G to T) pegRNA에 대한 결과를 나타낸다. 도 85 내지 도 87은 PEmax-뉴클레아제를 사용하여 수행된 TAPE-seq의 검증된 오프 타겟 사이트에서의 편집 패턴에 대한 결과를 나타낸다. 구체적으로, HEK4 (+2 G to T) pegRNA, DNMT1 (+6 G to C) pegRNA, HBB (+4 A to T) pegRNA, 및 VEGFA (+5 to T) pegRNA에 대한 결과를 나타낸다.
도 88 내지 도 90은 tpegRNA의 각 영역 (타겟 영역, PBS, RT 주형)의 미스매치 수를 사용하여 구성된 ROC 커브에 대한 분석 결과를 나타낸다. 도 88은 HEK4 (+2 G to T) pegRNA에 대한 결과, HEK4 (+3 TAA ins) pegRNA에 대한 결과, 및 HBB (+4 A to T) pegRNA에 대한 결과를 나타낸다. 도 89는 HEK3 (+1 CTT ins) pegRNA에 대한 결과, FANCF (+6 G to C) pegRNA에 대한 결과, 및 EMX1 (+5 G to T) pegRNA에 대한 결과이다. 도 90은 DNMT1 (+6 G to C) pegRNA에 대한 결과, RUNX1 (+6 G to C) pegRNA에 대한 결과, 및 VEGFA (+5 G to T) pegRNA에 대한 결과를 나타낸다.
도 91은 도 88 내지 도 90의 분석 결과를 바탕으로 계산된 ROC 커브의 아래 면적에 대한 분석 결과를 나타낸다.
도 92는 TAPE-seq에 의해 예측된 위양성 사이트, 및 검증된 사이트들에 대한 미스매치율의 분석 결과를 나타낸다.
도 93은 PiggyBac PE2 올인원 플라스미드 (pAllin1-PE2)의 벡터 맵을 나타낸다.
용어의 정의
달리 정의되지 않는 한, 본 명세서에 사용된 모든 기술 과학 용어는 본 발명이 속하는 기술분야의 통상의 기술자에 의해 통상적으로 이해되는 의미를 갖는다. 하기 참고문헌은 통상의 기술자에게 본 명세서에 사용된 많은 용어의 일반적 정의를 제공한다: [Singleton et al., Dictionary of Microbiology and Molecular Biology (2nd ed. 1994); The Cambridge Dictionary of Science and Technology (Walker ed., 1988); The Glossary of Genetics, 5th Ed., R. Rieger et al. (eds.), Springer Verlag (1991); 및 Hale & Marham, The Harper Collins Dictionary of Biology (1991)]. 본 명세서에 사용된 하기의 용어는 달리 명시되지 않는 한 이들에게 부여된 의미를 갖는다.
"연결된" 또는 "연결"
본 명세서에서 사용되는 용어 "연결된" 또는 "연결"은 하나의 개념화 가능한 구조 내에 존재하는 2 이상의 요소가 직접적으로 또는 간접적으로 (예를 들어, 링커와 같은 다른 요소를 통해) 연결되어 있는 것을 의미하며, 상기 2 이상의 요소 사이에 다른 추가적 요소가 존재할 수 없음을 의도하는 것은 아니다. 예를 들어, "요소 A에 연결된 요소 B"와 같은 기재는 요소 A와 요소 B 사이에 하나 이상의 다른 요소가 포함된 경우(즉, 하나 이상의 다른 요소를 통해 요소 A가 요소 B에 연결된 경우) 및 요소 A와 요소 B 사이에 하나 이상의 다른 요소가 존재하지 않는 경우 (즉, 요소 A와 요소 B가 직접적으로 연결된 경우)를 모두 포함하는 것으로 의도되며, 제한되어 해석될 것은 아니다.
서열 동일성
본 명세서에서 사용되는 용어 "서열 동일성 (sequence identity)"은 2개 이상의 서열 사이의 유사성 정도와 관련하여 사용되는 용어이다. 예를 들어, 용어 "서열 동일성"은 기준이 되는 서열을 지칭하는 용어 및 비율(예를 들어, 백분율)을 나타내는 용어와 함께 사용된다. 예를 들어, 용어 "서열 동일성"은 기준이 되는 뉴클레오타이드 서열과 유사하거나 실질적으로 동일한 서열을 설명하기 위해서 사용될 수 있다. "서열 A와 90% 이상의 서열 동일성을 갖는 서열"과 같이 기술되는 경우, 여기서 기준이 되는 서열은 서열 A이다. 예를 들어, 서열 동일성의 백분율은 기준 서열과 서열 동일성의 백분율 측정의 대상이 되는 서열을 정렬함을 통해 계산될 수 있으며, 서열 동일성의 백분율은 하나 이상의 뉴클레오타이드에 대한 미스매치(mismatch), 결실(deletion), 및 삽입(insertion)을 모두 포함하여 계산될 수 있다. 서열 동일성의 백분율의 계산 및/또는 결정 방법은 달리 제한되지 않으며, 당해 기술분야의 통상의 기술자에 의해 이용될 수 있는 합리적인 방법 또는 알고리즘을 통해 계산 및/또는 결정될 수 있다.
아미노산 서열의 표기
달리 서술하지 않는 한, 본 명세서에서 아미노산 서열을 기재할 때는 아미노산 일문자 표기법, 또는 세문자 표기법을 사용하여, N-터미널에서 C-터미널 방향으로 기재한다. 예를 들어, RNVP로 표기하는 경우, N-터미널에서 C-터미널 방향으로 아르기닌(arginine), 아스파라긴(asparagine), 발린(valine), 및 프롤린(proline)이 차례로 연결된 펩타이드를 의미한다. 또 다른 예를 들어, Thr-Leu-Lys로 표기하는 경우, N-터미널에서 C-터미널 방향으로 트레오닌(Threonine), 류신(Leucine), 및 리신(Lysine)이 차례로 연결된 펩타이드를 의미한다. 상기 일문자 표기법으로 나타낼 수 없는 아미노산의 경우, 다른 문자를 사용하여 표기하며, 추가적으로 보충하여 설명한다.
각각의 아미노산 표기 방법은 다음과 같다: 알라닌(Alanine; Ala, A); 아르기닌(Arginine; Arg, R); 아스파라긴(Asparagine; Asn, N); 아스파르트산(Aspartic acid; Asp, D); 시스테인(Cysteine; Cys, C); 글루탐산(Glutamic acid; Glu, E); 글루타민(Glutamine; Gln, Q); 글리신(Glycine; Gly, G); 히스티딘(Histidine; His, H); 이소류신(Isoleucine; Ile, I); 류신(Leucine; Leu, L); 리신(Lysine; Lys K); 메티오닌(Methionine; Met, M); 페닐알라닌(Phenylalanine; Phe, F); 프롤린(Proline; Pro, P); 세린(Serine; Ser, S); 트레오닌(Threonine; Thr, T); 트립토판(Tryptophan; Trp, W); 티로신(Tyrosine; Tyr, Y); 및 발린(Valine; Val, V).
핵산 서열의 표기
본 명세서에서 사용되는 A, T, C, G 및 U 기호는 당업계 통상의 기술자가 이해하는 의미로 해석된다. 문맥 및 기술에 따라 DNA 또는 RNA 상에서 염기, 뉴클레오사이드 또는 뉴클레오타이드로 적절히 해석될 수 있다. 예를 들어, 염기를 의미하는 경우는 각각 아데닌(A), 티민(T), 시토신(C), 구아닌(G) 또는 우라실(U) 자체로 해석될 수 있고, 뉴클레오사이드를 의미하는 경우는 각각 아데노신(A), 티미딘(T), 시티딘(C), 구아노신(G) 또는 유리딘(U)으로 해석될 수 있으며, 서열에서 뉴클레오타이드를 의미하는 경우는 상기 각각의 뉴클레오사이드를 포함하는 뉴클레오타이드를 의미하는 것으로 해석되어야 한다.
개시되는 서열의 방향성
본 명세서에서 개시되는 뉴클레오타이드 서열(예를 들어, DNA 서열, RNA 서열, DNA/RNA 하이브리드 서열)은, 달리 명시되지 않는 한 또는 달리 서술되지 않는 한, 5' 에서 3' 방향으로 개시된 것으로 이해되어야 한다. 본 명세서에서 개시되는 아미노산 서열은, 달리 명시되지 않는 한 또는 달리 서술되지 않는 한, N 말단에서 C 말단의 방향으로 개시된 것으로 이해되어야 한다.
표적 서열
본 명세서에서 사용되는 “표적 서열”은 가이드 RNA 또는 유전자 편집 도구 (예를 들어, Cas/전통적인 gRNA 복합체 및 프라임 에디터 효소/pegRNA 복합체 등)가 표적 유전자 또는 표적 핵산을 절단하기 위해 인식하는 특정 서열을 의미한다. 상기 표적 서열은 그 목적에 따라 적절히 선택될 수 있다. 예를 들어, “표적 서열”은 표적 유전자 또는 표적 핵산 서열 내에 포함된 서열이며, 가이드 RNA(예를 들어, pegRNA)에 포함된 스페이서 서열과 상보성을 가지는 서열을 의미할 수 있다 (이 경우, 표적 서열은 가이드 RNA의 스페이서 서열과 상보적으로 결합 가능함). 다른 예로, "표적 서열"은 표적 유전자 또는 표적 핵산 서열 내에 포함된 서열이며, 가이드 RNA에 포함된 스페이서 서열과 상보성을 갖는 서열에 상보적인 서열을 의미할 수 있다 (이 경우, 표적 서열은 가이드 RNA의 스페이서 서열과 실질적으로 동일한 서열을 가질 수 있음). 이와 같이, 표적 서열은 가이드 RNA에 포함된 스페이서 서열에 상보성을 갖는 서열 및/또는 가이드 RNA의 스페이서 서열과 실질적으로 동일한 서열을 지칭하는 것으로 사용되며, 제한되어 해석되어서는 아니된다. 일부 실시양태서, 표적 서열은 PAM 서열을 포함하는 서열로 개시될 수 있다. 일부 실시양태에서, 표적 서열은 PAM 서열을 포함하지 않는 서열로 개시될 수 있다. 표적 서열은 이를 서술하는 문맥의 내용에 따라 적절히 해석될 것이다. 일반적으로, 상기 스페이서 서열은 표적 유전자 또는 표적 핵산의 서열 및 CRISPR/Cas 시스템의 편집 단백질이 인식하는 PAM 서열을 고려하여 결정된다. 상기 표적 서열은 CRISPR/Cas 복합체의 가이드 RNA와 상보적으로 결합하는 특정 가닥의 서열만을 지칭할 수 있으며, 가이드 RNA와 상보적으로 결합하지 않는 특정 가닥의 서열만을 지칭할 수 있으며, 또는 상기 특정 가닥 부분을 포함하는 표적 이중 가닥 전체를 지칭할 수도 있으며, 이는 문맥에 따라 적절히 해석된다. 본 표적 서열에 대한 용어의 정의는, 표적 서열이 존재할 수 있는 가닥을 설명하기 위해서 개시되며, 표적 서열이라는 용어를 통해 온 타겟 서열과 오프 타겟 서열을 구분하기 위한 의도로 작성된 것은 아니다. 용어 "표적 서열"은 온 타겟 서열과 관련되어 사용될 수 있으며, 또한 용어 "표적 서열"은 오프 타겟 서열과 관련되어 사용될 수 있다. 즉, 일부 실시양태에서, 의도된 표적 서열은 온 타겟 서열로 지칭될 수 있고, 의도되지 않은 표적 서열은 오프 타겟 서열로 지칭될 수 있다. 예를 들어, 일부 실시양태에서, 온 타겟 서열은 표적 서열로 지칭될 수 있다 (이 경우, 예를 들어, 가이드 RNA의 스페이서 서열과 표적 서열은 실질적으로 동일할 수 있다). 다른 예로, 일부 실시양태에서, 오프 타겟 서열은 표적 서열로 지칭될 수 있다 (이 경우, 예를 들어, 가이드 RNA의 스페이서 서열과 표적 서열 간에는 0 또는 하나 이상의 미스매치가 존재할 수 있다). 온 타겟 및 오프 타겟과 관련하여, 용어 표적 서열은 관련 단락의 내용에 따라 적절히 해석될 수 있다.
스페이서 결합 가닥
본 명세서에서 용어 "스페이서 결합 가닥"은, 가이드 핵산 (예를 들어, 가이드 RNA)이 관여되는 유전자 편집 시스템 (예를 들어, CRISPR/Cas 유전자 편집 시스템 및 프라임 에디팅 시스템 등)에서, 가이드 핵산의 스페이서 영역의 일부 또는 전부의 서열과 상보적인 결합을 형성하는 서열을 포함하는 가닥을 지칭하는 것으로 사용된다. 게놈과 같은 DNA 분자는 대체로 이중 가닥으로 형성된 구조를 가진다. 이중 가닥에서, 가이드 핵산의 스페이서 영역 일부 또는 전부의 서열과 상보성을 갖는 서열을 가지고, 이를 통해 스페이서 영역의 일부 또는 전부의 서열과 상보적인 결합을 형성하게 되는 가닥이 스페이서 결합 가닥으로 지칭될 수 있다.
스페이서 비-결합 가닥
본 명세서에서 용어 "스페이서 비-결합 가닥"은, 가이드 핵산 (예를 들어, 가이드 RNA)이 관여되는 유전자 편집 시스템 (예를 들어, CRISPR/Cas 유전자 편집 시스템 및 프라임 에디팅 시스템 등)에서, 가이드 핵산의 스페이서 영역의 일부 또는 전부의 서열과 상보적인 결합을 형성하는 서열을 포함하는 가닥인 '스페이서 결합 가닥'이 아닌 다른 가닥을 지칭하는 것으로 사용된다. 게놈과 같은 DNA 분자는 대체로 이중 가닥으로 형성된 구조를 가지며, 용어 "스페이서 비-결합 가닥"은 이중 가닥에서 스페이서 결합 가닥이 아닌 다른 가닥을 지칭하는 것으로 사용될 수 있다. 예를 들어, 프라임 에디팅 시스템을 이용한 DNA 분자의 편집에서, pegRNA의 스페이서 영역의 일부 또는 전부의 서열과 상보적인 결합을 형성하는 서열을 포함하는 가닥은 '스페이서 결합 가닥'으로 지칭되고, pegRNA의 프라이머 결합 부(primer binding site; PBS)와 상보적인 결합을 형성하는 서열을 포함하는 가닥은 '스페이서 비-결합 가닥'으로 지칭될 수 있다. 예를 들어, 프라임 에디팅 버전 2에서, 스페이서 비-결합 가닥에 Cas9(H840A)에 의해 닉이 유도되며, 스페이서 비-결합 가닥에 3' DNA 플랩이 형성된다.
DNA 분자의 제1 가닥 및 제2 가닥
게놈과 같은 DNA 분자는 대체로 두개의 가닥으로 구성된 이중나선 구조를 갖는다. 이러한 두개의 가닥으로 구성된 DNA 분자는 이중 가닥 DNA로 지칭될 수 있다. CRISPR/Cas 기반 유전자 편집 시스템의 설명을 위해서, 때때로 DNA 분자의 두개의 가닥은 구분되어 지칭될 필요가 있다. DNA 분자의 하나의 가닥은 제1 가닥 (first strand)로 지칭될 수 있다. 이때 이중 가닥 DNA에서, 제1 가닥이 아닌 가닥은 제2 가닥 (second strand)으로 지칭될 수 있다. 각각의 실시양태에서, 제1 가닥 및 제2 가닥은 임의적으로 설정될 수 있다. 예를 들어, 일부 실시양태에서, DNA 분자의 어느 하나의 가닥을 제1 가닥으로 지칭하는 경우, DNA 분자의 다른 하나의 가닥은 제2 가닥으로 지칭될 수 있다. 예를 들어, 일부 실시양태에서는 스페이서 결합 가닥이 제1 가닥으로 지칭될 수 있다. 다른 예로, 일부 실시양태에서는 스페이서 비-결합 가닥이 제1 가닥으로 지칭될 수 있다. 이처럼 DNA 분자의 어느 한 가닥은, 필요에 따라, 제1 가닥으로 지칭될 수 있고, 다른 하나의 가닥은 제2 가닥으로 지칭될 수 있다.
상류 (upstream) 및 하류 (downstream)
본 명세서에서 사용되는 용어 "상류" 및 "하류"는 5'에서 3' 방향으로 배향되는 핵산 분자 (단일 가닥이든 이중 가닥이든)에 위치한 적어도 2개의 요소의 선형 위치를 정의하는 상대성 용어이다. 예를 들어, 제1 요소는 핵산 분자에서 제2 요소의 상류에 있음과 같이 기술되는 경우, 여기서 제1 요소는 제2 요소에 대해 5'인 어딘가에 위치한다. 예를 들어, SNP(single-nucleotide polymorphism)가 닉 부위의 5' 측면 상에 있는 경우에, SNP는 Cas9에 의해 유도된 닉 부위의 상류에 위치하는 것으로 기술될 수 있다. 다른 예로, 제1 요소는 핵산 분자에서 제2 요소의 하류에 있음과 같이 기술되는 경우, 여기서 제1 요소는 제2 요소에 대해 3' 방향의 어딘가에 위치한다. 예를 들어, SNP가 닉 부위의 3' 측면 상에 있는 경우에, SNP는 Cas9에 의해 유도된 닉 부위의 하류에 위치하는 것으로 기술될 수 있다. 핵산 분자는 DNA(이중 또는 단일 가닥), RNA (이중 또는 단일 가닥), 또는 DNA와 RNA의 하이브리드일 수 있다.
NLS(nuclear localization signal or sequence)
용어 "NLS (nuclear localization signal or sequence)"은, 세포 핵 내로의 단백질의 유입을 촉진하는 아미노산 서열을 지칭한다. 예를 들어, 상기 단백질의 유입은 핵 수송에 의해 촉진될 수 있다. NLS는 관련 기술분야에 공지되어 있고, 통상의 기술자에게 명백할 것이다. 예를 들어, NLS의 예시적인 서열은 PCT 출원 출원번호 PCT/EP2000/011690 (공개번호 WO2021/038547)에 기재되어 있으며, 이의 내용은 예시적인 NLS에 대해 본 명세서에 참조로 포함된다. 일부 실시양태에서, NLS는 아미노산 서열 PKKKRKV (서열번호 01), KRPAATKKAGQAKKKK (서열번호 02), PAAKRVKLD (서열번호 03), RQRRNELKRSP (서열번호 04), NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY (서열번호 05), RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV (서열번호 06), VSRKRPRP (서열번호 07), PPKKARED (서열번호 08), PQPKKKPL (서열번호 09), SALIKKKKKMAP (서열번호 10), DRLRR (서열번호 11), PKQKKRK (서열번호 12), RKLKKKIKKL (서열번호 13), REKKKFLKRR (서열번호 14), KRKGDEVDGVDEVAKKKSKK (서열번호 15), RKCLQAGMNLEARKTKK (서열번호 16) 또는 MDSLLMNRRKFLYQFKNVRWAKGRRETYLC (서열번호 17)을 포함할 수 있으나, 이에 제한되지 않는다. 하나 이상의 NLS는 Cas 단백질 또는 프라임 에디터 단백질 등과 같은 유전자 편집을 위한 단백질에 선택적으로 융합될 수 있다. 단백질에 융합된 NLS는, 연결된 단백질을 목적하는 위치인 핵 내로의 이동을 촉진하는데 사용될 수 있다.
단백질, 펩티드 및 폴리펩티드
본 명세서에서 사용되는 용어 "단백질", "펩티드" 및 "폴리펩티드"는 상호교환가능하게 사용되고, 펩티드 (아미드) 결합에 의해 연결된 아미노산 잔기의 중합체를 지칭한다. 상기 용어는 임의의 크기, 구조, 또는 기능의 단백질, 펩티드 또는 폴리펩티드를 지칭한다. 전형적으로, 단백질, 펩티드 또는 폴리펩티드는 적어도 3 이상의 아미노산 길이일 것이다. 일부 실시양태에서, 단백질, 펩티드 또는 폴리펩티드는 개별 단백질 또는 단백질들의 결합을 지칭할 수 있다. 예를 들어, 단백질, 펩티드, 또는 폴리펩티드는 개별 단백질, 두개 이상의 요소 (이때, 두개의 요소 중 적어도 하나는 단백질임)가 융합되어 있는 융합 단백질, 및 두개 이상의 요소(이때, 두개의 요소 중 적어도 하나는 단백질임)가 복합체화 되어있는 복합체 단백질을 모두 포괄하는 용어로 사용될 수 있다. 일부 실시양태에서, 단백질, 펩티드 또는 폴리펩티드 내의 아미노산 중 1개 이상은 변형될 수 있다. 이때 단백질, 펩티드, 또는 폴리펩티드에 포함된 변형은, 예를 들어, 화학 물질, 예컨대 탄수화물 기, 히드록실 기, 포스페이트 기, 파르네실 기, 이소파르네실 기, 지방산 기, 접합, 관능화 또는 다른 변형을 위한 링커 등의 부가에 의한 변형일 수 있다. 일부 실시양태에서, 단백질, 펩티드 또는 폴리펩티드는 단일 분자일 수 있거나 또는 다분자 복합체일 수 있다. 일부 실시양태에서, 단백질, 펩티드 또는 폴리펩티드는 자연 발생 단백질일 수 있다. 일부 실시양태에서, 단백질, 펩티드 또는 폴리펩티드는 단백질의 단편일 수 있다. 일부 실시양태에서, 단백질, 펩티드 또는 폴리펩티드는 자연 발생, 재조합 또는 합성, 또는 이의 임의의 조합일 수 있다. 본 명세서에 제공된 임의의 단백질은 관련 기술분야에 공지된 임의의 방법에 의해 생산될 수 있다. 예를 들어, 본 명세서에 제공된 임의의 단백질은 재조합 단백질 발현 및 정제를 통해 생산될 수 있으며, 이는 펩티드 링커를 포함하는 융합 단백질에 특히 적합하다. 재조합 단백질 발현 및 정제를 위한 발명은 널리 공지되어 있고, 문헌 [Green, Michael R., and Joseph Sambrook. "Molecular cloning." A Laboratory Manual 4th (2012).]을 참조할 수 있고, 이의 전체 내용은 본 명세서에 참조로 포함된다.
기능적 등가물
용어 "기능적 등가물" 또는 "등가물"은 제1 분자 또는 개념화가능한 요소와 기능상 등가이지만 구조상 반드시 등가인 것은 아닌 제2 분자 또는 개념화가능한 요소를 지칭한다. 예를 들어, "Cas9 등가물"은 Cas9와 동일하거나 실질적으로 동일하거나 유사한 기능을 갖지만 반드시 동일한 아미노산 서열을 갖는 것은 아닌 단백질을 지칭한다. 본 출원의 전반에 걸쳐, 특정 단백질을 언급하는 경우 언급된 특정 단백질은 그의 기능적 등가물을 모두 포괄하는 것으로 의도된다. 예를 들어, "X 단백질"과 같이 기재되는 경우, X 단백질의 용어는 X 단백질의 기능적 등가물을 포괄하는 의미로 해석될 수 있다. 이러한 차원에서, X 단백질의 "기능적 등가물" 또는 "등가물"은 등가의 기능을 보유하는 단백질 X의 임의의 상동체, 파라로그(paralog), 오쏘로그(ortholog), 단편, 자연발생된, 조작된, 돌연변이된, 및 합성된 버전을 포괄한다. 예를 들어, 용어 Cas 단백질이 사용되는 경우, 용어 Cas 단백질은 Cas 단백질의 등가물(예를 들어, Cas 닉카제 등)을 포괄하는 것으로 해석될 수 있다. 다른 예로, 용어 리버스 트랜스크립타아제가 사용되는 경우, 용어 리버스 트랜스크립타아제는 리버스 트랜스크립타아제의 등가물을 포괄하는 것으로 해석될 수 있다.
원형 순열체 (Circular permutant)
본 명세서에서 사용되는 용어 "원형 순열체 (circular permutant)"는 단백질의 아미노산 서열에 나타나는 아미노산의 순서의 변화를 수반하는 단백질의 구조적 구성의 변화인, 원형 순열(circular permutation)을 포함하는 단백질 또는 폴리펩티드를 지칭한다. 원형 순열체는 야생형 대응물과 비교하여 N- 및/또는 C- 말단이 변경된 단백질이며, 예를 들어 단백질의 야생형 C-말단 절반이 새로운 N-말단 절반이 된다. 원형 순열 (또는 CP)은 예를 들어, 그의 서열을 상이한 위치에서 분할하여 새로운 인접한 N- 및 C- 말단을 생성하면서, 동시에 그의 N- 및 C- 말단을 펩티드 링커와 연결하는, 단백질의 1차 서열의 위상 재배열이다. 그 결과로, 상이한 연결성을 갖지만 종종 동일한 또는 유사한 3차원 (3D) 형상을 갖는 단백질이 생성될 수 있다. 예를 들어, 감소된 단백질분해 감수성, 개선된 촉매 활성, 변경된 기질 또는 리간드 결합, 및/또는 개선된 열안정성을 포함한 개성된 또는 변경된 특징을 포함할 수 있는 단백질 구조가 생성될 수 있다. 원형 순열체 단백질은 자연에서 발생할 수 있다 (예를 들어, 콘카나발린 A 및 렉틴). 추가로, 원형 순열은 번역 후 변형의 결과로서 발생할 수 있거나 또는 재조합 기술을 사용하여 조작될 수 있다. 특정 단백질의 원형 순열체는 특정 단백질의 등가물에 포함될 수 있다.
원형 순열체의 예로, "원형 순열 Cas9"은 그의 N- 및 C-말단이 국소적으로 재배열된, 원형 순열체로부터 발생한 임의의 Cas9 단백질 또는 그의 변이체를 지칭한다. 이러한 원형 순열 Cas9 단백질 ("CP-Cas9") 또는 그의 변이체는 가이드 RNA (gRNA)와 복합체화되는 경우 DNA에 결합하는 능력을 보유한다. 문헌 [Oakes, Benjamin L., Dana C. Nadler, and David F. Savage. "Protein engineering of Cas9 for enhanced function." Methods in enzymology. Vol. 546. Academic Press, 2014. 491-511.; 및 Oakes, Benjamin L., et al. "CRISPR-Cas9 circular permutants as programmable scaffolds for genome modification." Cell 176.1-2 (2019): 254-267.]을 참조하며, 이들 각각은 본 명세서에 참조로 포함된다. 본 명세서의 개시내용은 새로운 CP-Cas9이, 임의의 이전에 공지된 CP-Cas9을 고려하거나 또는 생성된 원형 순열 단백질이 gRNA와 복합체화되는 경우 DNA에 결합하는 능력을 보유하는 한, 새로운 CP-Cas9을 포함한다. 예시적인 CP-Cas9 단백질의 서열은 문헌 WO2020191233A1 (출원번호 PCT/US2020/023712)에 개시되며, 상기 문헌 WO2020191233A1의 전체 내용은 본 명세서에 참조로 포함된다.
융합 단백질 (fusion protein)
본 명세서에서 사용되는 용어 "융합 단백질"은 적어도 2종의 상이한 요소(이때 적어도 하나의 요소는 단백질임)로부터 유래된 단백질 또는 도메인을 포함하는 하이브리드 폴리펩티드를 지칭한다. 예를 들어, 융합 단백질은 2종의 상이한 단백질로부터 유래된 단백질을 포함하는 하이브리드 폴리펩티드일 수 있다. 1종의 단백질은 융합 단백질의 아미노-말단 (N-말단) 부분에 또는 융합단백질의 카르복시-말단 (C-말단) 부분에 위치하며, 따라서 각각 "아미노-말단 융합 단백질" 또는 "카르복시-말단 융합 단백질"을 형성할 수 있다. 일부 실시양태에서, 융합 단백질은 2개 이상의 요소가 공유결합을 통해 연결된 단일 분자 형태의 요소를 지칭하는 것으로 사용될 수 있다. 다른 실시양태에서, 융합 단백질은 2개 이상의 요소가 비공유결합을 통해 결합된 다분자 복합체 형태의 요소를 지칭하는 것으로 사용될 수 있다.
링커
본 명세서에서 사용되는 용어 "링커"는 2개의 다른 분자 또는 모이어티를 연결하는 분자를 지칭한다. 융합단백질에서, 2개의 단백질을 연결하는 링커의 경우, 링커는 아미노산 서열일 수 있다. 예를 들어, Cas9은 아미노산 링커 서열에 의해 리버스 트랜스크립타아제와 연결되어 융합 단백질을 형성할 수 있다. 또한 2개의 뉴클레오티드 서열을 함께 연결하는 링커의 경우, 링커는 뉴클레오티드 서열일 수 있다. 예를 들어, 전통적인 가이드 RNA에서, crRNA는 tracrRNA와 링커를 통해 연결되고, 단일가닥 가이드 RNA가 형성될 수 있다. 다른 실시양태에서, 링커는 유기 분자, 그룹, 중합체 또는 화학적 모이어티일 수 있다. 일부 실시양태에서, 링커는 1 내지 200개의 아미노산 길이를 가질 수 있으나 이에 제한되지 않는다. 일부 실시양태에서, 링커는 1 내지 500개의 뉴클레오타이드 길이를 가질 수 있으나 이에 제한되지 않는다. 보다 긴 링커 또한 고려될 수 있다.
이중특이적 리간드 (Bi-specific ligand)
본 명세서에서 사용되는 용어 "이중특이적 리간드" 또는 "이중특이적 모이어티"는 2종의 상이한 리간드-결합 도메인(ligand binding domain)에 결합하는 리간드를 지칭한다. 특정한 실시양태에서, 리간드는 소분자 화합물, 펩티드, 또는 폴리펩티드이다. 다른 실시양태에서 리간드-결합 도메인은 펩티드 태그로서 단백질 상에 설치될 수 있는 이량체화 도메인(dimerization domain)이다. 다양한 실시양태에서, 각각 동일하거나 상이한 이량체화 도메인을 포함하는 2종의 단백질은 이중 특이적 리간드에 대한 각각의 이량체화 도메인의 결합을 통해 이량체화되도록 유도될 수 있다. 본 명세서에 사용된 "이중특이적 리간드"는 동등하게 "이량체화의 화학적 유도제" 또는 "CID"를 지칭할 수 있다.
이량체화 도메인 (dimerization domain)
용어 "이량체화 도메인 (dimerization domain)"은 이중특이적 리간드의 결합 모이어티에 결합하는 리간드-결합 도메인을 지칭한다. 제1 이량체화 도메인은 이중특이적 리간드의 제1 결합 모이어티에 결합하고, 제2 이량체화 도메인은 동일한 이중특이적 리간드의 제2 결합 모이어티에 결합한다. 제1 이량체화 도메인이 제1 단백질에 융합되고, 제2 이량체화 도메인이 제2 단백질에 융합되는 경우에, 제1 및 제2 단백질은 이중특이적 리간드의 존재 하에 이량체화될 수 있다. 여기서, 이중특이적 리간드는 제1 이량체화 도메인에 결합하는 적어도 하나의 모이어티 및 제2 이량체화 도메인에 결합하는 적어도 또 다른 모이어티를 갖는다. 일부 실시양태에서, Cas 단백질에는 이량체화 도메인 (예를 들어, 제1 이량체화 도베인)이 연결될 수 있다. 일부 실시양태에서, 리버스 트랜스크립타아제에는 이량체화 도메인(예를 들어, 제2 이량체화 도메인)이 연결될 수 있다.
닉카제 (nickase)
용어 "닉카제"는 2개의 뉴클레아제 도메인 중 하나가 불활성화된 Cas 단백질을 지칭한다. 닉카제는 표적 DNA 분자의 한 가닥만을 절단할 수 있다.
플랩 엔도뉴클레아제 (flap endonuclease)
본 명세서에서 사용되는 용어 "플랩 엔도뉴클레아제"는 5' 단일 가닥 DNA 플랩의 제거를 촉매하는 효소를 지칭한다. 이들은 DNA 복제를 비롯한 세포 과정 동안 형성된 5' 플랩의 제거를 프로세싱하는 효소이다. 일부 실시양태에서, 프라임 에디팅 방법은 프라임 에디팅 동안 표적 부위에 형성된 내인성 DNA의 5' 플랩을 제거하기 위해 내인성의 플랩 엔도뉴클레아제 또는 외부로부터 제공된 것을 이용할 수 있다. 플랩 엔도뉴클레아제는 관련 기술분야에 공지되어 있고, 문헌 [Patel, Nikesh, et al. "Flap endonucleases pass 5′-flaps through a flexible arch using a disorder-thread-order mechanism to confer specificity for free 5′-ends." Nucleic acids research 40.10 (2012): 4507-4519.; 및 Tsutakawa, Susan E., et al. "Human flap endonuclease structures, DNA double-base flipping, and a unified understanding of the FEN1 superfamily." Cell 145.2 (2011): 198-211.]에 상세히 개시되며, 이들 각각은 본 명세서에 참조로 포함된다. 예시적인 플랩 엔도뉴클레아제는 FEN1일 수 있다. FEN1의 서열은 문헌 WO2020191233A1 (출원번호 PCT/US2020/023712)에 개시된다.
유효량
본 명세서에서 사용되는 용어 "유효량"은 목적하는 생물학적 반응을 도출하기에 충분한 생물학적 활성제의 양을 지칭한다. 예를 들어, 일부 실시양태에서, 프라임 에디터 단백질의 유효량은 표적 부위 뉴클레오티드 서열, 예를 들어 게놈을 편집하기에 충분한 단백질의 양을 지칭할 수 있다. 일부 실시양태에서, 본 출원에서 제공되는 프라임 에디터 단백질, 예를 들어 닉카제 Cas9 도메인 (nickase Cas9 domain) 및 리버스 트랜스크립타아제를 포함하는 융합 단백질의 유효량은, 융합 단백질에 의해 특이적으로 결합되고 편집되는 의도된 표적 부위의 편집을 유도하기에 충분한 융합 단백질의 양을 지칭할 수 있다. 통상의 기술자에게 의해 인지될 바와 같이, 작용제, 예를 들어, 융합 단백질, 뉴클레아제, 하이브리드 단백질, 단백질 이량체, 단백질 (또는 단백질 이량체) 및 폴리뉴클레오티드의 복합체, 또는 폴리뉴클레오티드의 유효량은 다양한 인자, 예를 들어 목적하는 생물학적 반응, 편집될 특정 유전자, 편집될 게놈, 편집될 표적 부위, 표적화될 세포 또는 조직, 및 사용될 작용제에 따라 달라질 수 있다.
약 (about)
본 명세서에서 사용되는 용어 “약”은 어떤 수량에 거의 가까운 정도를 의미하며, 참조 양, 수준, 값, 수, 빈도, 퍼센트, 치수, 크기, 양, 중량 또는 길이에 대해 30, 25, 20, 25, 10, 9, 8, 7, 6, 5, 4, 3, 2 또는 1% 정도로 변하는 양, 수준, 값, 수, 빈도, 퍼센트, 치수, 크기, 양, 중량 또는 길이를 의미한다.
CRISPR/Cas 시스템
CRISPR/Cas 시스템 개괄
CRISPR
본 "CRISPR" 섹션은 기술자의 이해를 돕기 위한 섹션이며, 본 섹션에 사용된 용어는 본 명세서에 개시된 용어를 제한하는 것이 아니다.
CRISPR는 원핵생물을 침입한 바이러스에 의한 이전 감염(prior infections)의 조각 (snippets)을 나타내는, 박테리아 및 고세균에서의 DNA 서열의 패밀리 (즉, CRISPR 클러스터)이다. DNA의 조각은 유사한 바이러스에 의한 후속 공격으로부터 DNA를 검출하고 파괴하기 위해 원핵세포에 의해 사용되고, CRISPR-연관 단백질 (CRISPR associated protein; Cas protein) 및 CRISPR-연관 RNA의 어레이와 함께 원핵 면역 방어 시스템을 효과적으로 구성한다. CRISPR 클러스터는 CRISPR RNA (crRNA)로 전사 및 프로세싱된다. 후속적으로, Cas9/crRNA/tracrRNA는 RNA에 상보적인 선형 또는 원형 dsDNA 표적을 핵산내부분해적으로 절단한다. 구체적으로, crRNA에 상보적이지 않은 표적 가닥은 먼저 핵산내부분해적으로 절단된 다음, 핵산외부분해적으로 3'-5' 트리밍된다. DNA-결합 및 절단은 전형적으로 단백질 및 두개의 RNA를 요구한다. 그러나, 단일 가이드 RNA (sgRNA, single guide RNA, 또는 간단히 gRNA)가 개발되었으며 단일 가닥 RNA는 crRNA 및 tracrRNA 둘 다의 측면을 단일 RNA 종 내로 혼합되도록 조작된 것이다. 예를 들어, 문헌 [Jinek, Martin, et al. "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity." science 337.6096 (2012): 816-821.]을 참조하며, 이의 전체 내용은 본 명세서에 참조로 포함된다. Cas9은 CRISPR 반복 서열 내의 짧은 모티프 (PAM 또는 프로토스페이서 인접 모티프)를 인식하여 자기 대 비-자기 구별을 돕는다. CRISPR 생물학, 뿐만 아니라 Cas9 뉴클레아제 서열 및 구조는 관련 기술분야의 통상의 기술자에게 널리 공지되어 있다 (예를 들어, 문헌 [Ferretti, Joseph J., et al. "Complete genome sequence of an M1 strain of Streptococcus pyogenes." Proceedings of the National Academy of Sciences 98.8 (2001): 4658-4663.; Deltcheva, Elitza, et al. "CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III." Nature 471.7340 (2011): 602-607.; 및 Jinek, Martin, et al. "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity." science 337.6096 (2012): 816-821.] 참조, 이들 각각의 전체 내용은 본 명세서에 참조로 포함됨). Cas9 오쏘로그 (ortholog)는 S. pyogenes (Streptococcus pyogenes)및 S. thermophilus (Streptococcus thermophilus)를 포함하나 이에 제한되지 않고, 다양한 종에서 기재되어 있다. 추가의 적합한 Cas9 뉴클레아제 및 서열은 본 개시내용에 기초하여 관련 기술분야의 통상의 기술자에게 명백할 것이고, 이러한 Cas9 뉴클레아제 및 서열은 그의 전체 내용이 본원에 참조로 포함되는 문헌 [Chylinski, Krzysztof, Anais Le Rhun, and Emmanuelle Charpentier. "The tracrRNA and Cas9 families of type II CRISPR-Cas immunity systems." RNA biology 10.5 (2013): 726-737.]에 개시된 유기체 및 유전자좌로부터의 Cas9 서열을 포함한다.
CRISPR/Cas 시스템 및 이를 이용한 DNA 분자의 편집
전술한 CRISPR로부터 개발된 CRISPR/Cas 시스템은 세포의 CRISPR 시스템으로부터 유래된 Cas 단백질과, Cas 단백질을 표적 영역으로 유도하는 가이드 핵산을 이용하여 원하는 DNA 분자(예를 들어, 세포의 게놈)를 원하는 위치에서 편집하는 기술이다. 예를 들어, Cas 단백질은 가이드 RNA (guide RNA; gRNA)와 함께, Cas/gRNA 복합체를 형성한다. Cas/gRNA 복합체는 여기에 포함된 가이드 RNA를 통해 목적하는 위치로 유도된다. Cas/gRNA 복합체에 포함된 Cas 단백질은 목적하는 위치에 DSB(double strand break) 또는 nick (nickase의 경우)을 유도한다. CRISPR/Cas 시스템을 사용하는 경우, 세포의 게놈 뿐만 아니라, 게놈 상에 위치하지 않은 DNA 분자 또한 편집 가능하다. CRISPR의 발견 이래로, CRISPR/Cas 시스템과 관련하여, 전술한 바와 같이 tracrRNA 및 crRNA이 연결된 단일가닥 가이드 RNA (single guide RNA; sgRNA)의 개발 (문헌 [Jinek, Martin, et al. "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity." science 337.6096 (2012): 816-821.], 이의 전체 내용이 본 명세서에 참조로 포함됨), cas9, cas12a(cpf1), cas12b(c2c1), cas12e(casX), cas12k(c2c5), cas14, cas14a, cas13a(c2c2), cas13b(c2c6) cas nicakse (예를 들어, cas9 nickase), dead cas 등과 같은 다양한 종류 및/또는 유형의 Cas 단백질이 개발되었다. 일부 실시양태에서, Cas 단백질은 CRISPR 효소로 지칭될 수 있다. CRISPR/Cas 시스템의 이해를 위해 문헌 WO2018/231018(국제공개번호)가 참조될 수 있으며, 이의 전체가 본원에 참조로 포함된다. 기술자의 이해를 돕기 위해 CRISPR/Cas 시스템에 사용될 수 있는 Cas 단백질(또는, CRISPR 효소)에 대하여 추가적으로 아래에서 더 설명한다.
Cas 단백질
Cas 단백질 개괄
Cas 단백질은, CRISPR/Cas 시스템과 관련하여, 편집을 달성할 수 있도록 목적하는 영역에 DSB 또는 닉을 발생시키거나, 편집을 유도할 수 있도록 도움을 주는 단백질을 지칭하는 것으로 사용될 수 있다. 용어 Cas 단백질은 이의 등가물을 포괄하는 것으로 사용될 수 있다. 일반적으로, Cas 단백질은 핵산을 절단하는 뉴클레이즈(nuclease)활성을 갖는다. 예를 들어, 일부의 Cas 단백질은 이중 가닥 절단 (double-strand-break; DSB)를 유도할 수 있고, 이는 Cas 뉴클레아제로 지칭될 수 있다. 다른 예로, 일부의 Cas 단백질은 닉(nick)을 유도할 수 있고, 이는 Cas 닉카제(nickase)로 지칭될 수 있다. 몇몇의 Cas 단백질은 뉴클라아제 활성을 갖지 않도록 변형된 것으로, 이는 데드 Cas (dead cas)로 지칭될 수 있다. CRISPR/Cas 시스템에서 Cas 단백질은 CRISPR 효소와 상호 교환적으로 사용될 수 있다. Cas 단백질의 대표적인 예로는 Cas9 이 있다.
본 명세서에서 사용되는 용어 Cas 단백질은 CRISPR/Cas 시스템에서 사용되는, 표적 영역 내에 DSB 또는 nick을 발생시킬 수 있는 편집 단백질, 또는 불활성 Cas 단백질을 총칭하는 것으로 사용된다. Cas 단백질의 예로는, Cas9, Cas9 변이체, Cas9 닉카제 (Cas9 nickase, nCas9), dead Cas9, Cpf1 (Cas12a) (유형-V CRISPR-Cas 시스템), C2c1 (Cas12b) (유형 V CRISPR-Cas 시스템), C2c2 (Cas13a) (유형 VI CRISPR-Cas 시스템) 및 C2c3 (유형 V CRISPR-Cas 시스템) 등이 있으나 이에 제한되지 않는다. 추가의 Cas 단백질의 예시는 문헌 [Abudayyeh, Omar O., et al. "C2c2 is a single-component programmable RNA-guided RNA-targeting CRISPR effector." Science 353.6299 (2016): aaf5573.]에 기재되어 있으며, 이의 전체 내용은 본 명세서에 참조로 포함된다.
일 실시양태에서, Cas 단백질은 스트렙토코커스 피오게네스(Streptococcus pyogenes), 스트렙토코커스 써모필러스(Streptococcus thermophilus), 스트렙토코커스 속(Streptococcus sp.), 스타필로코커스 아우레스(Staphylococcus aureus), 캄필로박터 제주니 (Campylobacter jejuni), 노카르디옵시스 다손빌레이(Nocardiopsis dassonvillei), 스트렙토마이세스 프리스티네스피랄리스(Streptomyces pristinaespiralis), 스트렙토마이세스 비리도크로모게네스(Streptomyces viridochromogenes), 스트렙토마이세스 비리도크로모게네스(Streptomyces viridochromogenes), 스트렙토스포랑기움 로세움(Streptosporangium roseum), 스트렙토스포랑기움 로세움(Streptosporangium roseum), 알리사이클로바클루스 아시도칼다리우스(AlicyclobacHlus acidocaldarius), 바실러스 슈도마이코이데스(Bacillus pseudomycoides), 바실러스 셀레니티레두센스(Bacillus selenitireducens), 엑시구오박테리움 시비리쿰(Exiguobacterium sibiricum), 락토바실러스 델브루에키이(Lactobacillus delbrueckii), 락토바실러스 살리바리우스(Lactobacillus salivarius), 미크로스 킬라 마리나(Microscilla marina), 부르크홀데리아레스 박테리움(Burkholderiales bacterium), 폴라로모나스 나프탈레니보란스(Polaromonas naphthalenivorans), 폴라로모나스 속(Polaromonas sp.), 크로코스파에라 와트소니이(Crocosphaera watsonii), 시아노테세 속(Cyanothece sp.), 마이크로시스티스 아에루기노사(Microcystis aeruginosa), 시네코코커스 속(Synechococcus sp.), 아세토할로비움 아라바티쿰(Acetohalobium arabaticum), 암모니펙스 데겐시이(Ammonifex degensii), 칼디셀룰로시럽토 베시이(Caldicelulosiruptor bescii), 칸디다투스 데술포루디스(Candidatus Desulforudis), 클로스트리듐 보툴리눔(Clostridium botulinum), 클로스트리듐 디피실레(Clostridium difficile), 피네골디아 마그나(Finegoldia magna), 나트라나에로비우스 써모필러스 (Natranaerobius thermophilus), 펠로토마쿨럼 써모프로피오니쿰(Pelotomaculum thermopropionicum), 아시디티오바실러스 칼두스(Acidithiobacillus caldus), 아시디티오바실러스 페로옥시단스(Acidithiobacillus ferrooxidans), 알로크로마티움 비노숨(Allochromatium vinosum), 마리노박터 속(Marinobacter sp.), 니트로소코커스 할로필러스(Nitrosococcus halophilus), 니트로소코커스 와트소니(Nitrosococcus watsoni), 슈도알테로 모나스 할로플란크티스(Pseudoalteromonas haloplanktis), 크테도노박테르 라세미페르(Ktedonobacter racemifer), 메타노할로비움 에베스티가툼(Methanohalobium evestigatum), 아나베나 바리아빌리스(Anabaena variabilis), 노둘라리아 스푸미게나(Nodularia spumigena), 노스톡 속(Nostoc sp.), 아르트로스피라 맥시마(Arthrospira maxima), 아르트로스피라 플라텐시스(Arthrospira platensis), 아르트로스피라 속(Arthrospira sp.), 링비아속(Lyngbya sp.), 마이크로콜레우스 크토노플라스테스(Microcoleus chthonoplastes), 오실라토리아 속(Oscillatoria sp.), 페트로토가 모빌리스(Petrotoga mobilis), 써모시포 아프리카누스(Thermosipho africanus) 또는 아카리오클로리스 마리나(Acaryochloris marina) 등 다양한 미생물 유래의 Cas 단백질 (예를 들어, Cas9 또는 Cpf1) 일 수 있다.
이하에서는 Cas 단백질의 대표적인 예인 Cas9 단백질에 대하여 예시한다.
Cas9 단백질
CRISPR/Cas9 시스템에서, 핵산을 절단하는 뉴클라아제(nuclase) 활성을 가지는 단백질 또는 뉴클레아제 활성이 불활성화된 단백질을 Cas9 단백질이라 한다. 용어 Cas9 단백질은 이의 등가물을 포괄하는 것으로 사용된다. Cas9 단백질은 또한 때때로 Cas9 뉴클레아제, casn1 뉴클레아제 또는 CRISPR(Clustered Regularly Interspaced Short Palindromic Repeat)-연관 뉴클레아제로 지칭된다. 상기 Cas9 단백질은 CRISPR/Cas 시스템 분류 상 Class 2, Type II에 해당하며, 스트렙토코커스 피오게네스(Streptococcus pyogenes), 스트렙토코커스 써모필러스(Streptococcus thermophilus), 스트렙토코커스 속 (Streptococcus sp.), 스트렙토마이세스 프리스티네스피랄리스(Streptomyces pristinaespiralis), 스트렙토마이세스 비리도크로모게네스(Streptomyces viridochromogenes), 스트렙토마이세스 비리도크로모게네스(Streptomyces viridochromogenes), 스트렙토스포랑기움 로세움(Streptosporangium roseum), 또는 스트렙토스포랑기움 로세움(Streptosporangium roseum) 유래 Cas9 단백질 등이 있다. Cas9 단백질의 서열 및 구조는 관련 기술분야의 기술자에게 널리 공지되어 있다 (예를 들어, 문헌 [Ferretti, Joseph J., et al. "Complete genome sequence of an M1 strain of Streptococcus pyogenes." Proceedings of the National Academy of Sciences 98.8 (2001): 4658-4663.; Deltcheva, Elitza, et al. "CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III." Nature 471.7340 (2011): 602-607.; 및 Jinek, Martin, et al. "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity." science 337.6096 (2012): 816-821.] 참조, 이들 각각의 전체 내용은 본 명세서에 참조로 포함됨). 추가의 Cas9 단백질 및 서열은 본 명세서에 전체 내용이 참조로 포함되는 문헌 [Chylinski, Krzysztof, Anais Le Rhun, and Emmanuelle Charpentier. "The tracrRNA and Cas9 families of type II CRISPR-Cas immunity systems." RNA biology 10.5 (2013): 726-737.]에 개시된다.
예를 들어, Cas9의 DNA 절단 도메인은 2개의 서브 도메인, 즉 NHN 뉴클레아제 서브도메인 및 RucC1 서브도메인을 포함하는 것으로 알려져 있다. NHN 서브도메인은 gRNA에 상보적인 가닥을 절단하고, RuvC1 서브도메인은 비-상보적 가닥을 절단한다. 이들 서브도메인 중 어느 하나의 불활성화는 불활성화된 서브도메인의 뉴클레아제 활성을 침묵시킬 수 있으며, 이들 서브도메인 모두의 불활성화는 Cas9의 전체 뉴클레아제 활성을 침묵시킬 수 있다. 예를 들어, 돌연변이 H840A는 Cas9 nickase를 제공한다. 예를 들어, 돌연변이 D10A 및 H840A 모두는 S. pyogenes Cas9의 뉴클레아제 활성을 완전히 불활성화시킨다 (문헌 [Jinek, Martin, et al. "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity." science 337.6096 (2012): 816-821.] 참조). 일부 실시양태에서, Cas9의 단편을 포함하는 단백질이 제공될 수 있다. 예를 들어, 단백질은 다음의 2개의 Cas9 도메인 중 선택되는 어느 하나 이상을 포함할 수 있다: Cas9의 gRNA 결합 도메인; 및 Cas9의 DNA 절단 도메인. 일부 실시양태에서, Cas9 변이체가 제공될 수 있다. Cas9 변이체는 Cas9 또는 이의 단편에 대해 상동성을 갖는다. 예를 들어, Cas9 변이체는 야생형 Cas9 (예를 들어, SpCas9)에 대해 적어도 약 70% 동일하거나, 적어도 약 80% 동일하거나, 적어도 약 90% 동일하거나, 적어도 약 95% 동일하거나, 적어도 약 96% 동일하거나, 적어도 약 97% 동일하거나, 적어도 약 98% 동일하거나, 적어도 약 99% 동일하거나, 적어도 약 99.5% 동일하거나, 적어도 약 99.6% 동일하거나, 적어도 약 99.7% 동일하거나, 적어도 약 99.8% 동일하거나, 또는 적어도 약 99.9% 동일할 수 있다. 일부 실시양태에서, Cas9 변이체는 야생형 Cas9 (예를 들어, SpCas9)과 비교하여 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50개 또는 그 초과의 아미노산 변화를 가질 수 있다. 일부 실시양태에서, Cas9 변이체는 Cas9의 단편 (예를 들어, gRNA 결합 도메인 및/또는 DNA 절단 도메인)을 포함할 수 있다. 일부 실시양태에서, Cas9 변이체의 단편은 야생형 Cas9의 상응하는 단편에 대해 적어도 약 70% 동일하거나, 적어도 약 80% 동일하거나, 적어도 약 90% 동일하거나, 적어도 약 95% 동일하거나, 적어도 약 96% 동일하거나, 적어도 약 97% 동일하거나, 적어도 약 98% 동일하거나, 적어도 약 99% 동일하거나, 적어도 약 99.5% 동일하거나, 적어도 약 99.6% 동일하거나, 적어도 약 99.7% 동일하거나, 적어도 약 99.8% 동일하거나, 또는 적어도 약 99.9% 동일할 수 있다. 일부 실시양태에서, 야생형 Cas9의 단편 또는 Cas9 변이체의 단편은 상응하는 야생형 Cas9의 아미노산 길이의 적어도 10%, 적어도 15%, 적어도 20%, 적어도 25%, 적어도 30%, 적어도 35%, 적어도 40%, 적어도 45%, 적어도 50%, 적어도 55%, 적어도 60%, 적어도 65%, 적어도 70%, 적어도 75%, 적어도 80%, 적어도 85%, 적어도 90%, 적어도 95%, 적어도 96%, 적어도 97%, 적어도 98%, 적어도 99%, 적어도 99.5%, 또는 적어도 99.9% 이상일 수 있다.
가이드 RNA
가이드 RNA 개괄
CRISPR/Cas 시스템에서, Cas 단백질은 가이드 핵산과 회합(association)하여 Cas/가이드 핵산 복합체를 형성한다. 일반적으로, CRISPR/Cas 시스템에서 가이드 핵산으로는 가이드 RNA (guide RNA; gRNA)가 사용되며, Cas 단백질은 가이드 RNA와 회합하여 Cas/gRNA 복합체를 형성한다. Cas/gRNA 복합체는 RNP(Ribonucleoprotein)으로 지칭될 수 있다. Cas/gRNA 복합체는 가이드 RNA (guide RNA; gRNA)의 스페이서 서열과 대응되는 (예를 들어, 상보성을 갖는) 서열을 포함하는 표적 영역 내에서 DSB (double-strand break) 또는 닉 (nick)을 발생시키며, DSB 또는 닉은 Cas 단백질에 의해 유도된다. DSB 또는 닉이 발생되는 위치는 게놈 상의 PAM 서열 근처일 수 있다.
Cas/gRNA의 표적화에는 게놈상의 프로토스페이서 인접 모티프(Protospacer adjacent motif; PAM) 및 가이드 RNA의 스페이서 서열이 관여된다. PAM 및 가이드 RNA의 스페이서 서열에 의해 표적 영역으로 유도된 Cas 단백질 (예를 들어, Cas9)은 표적 영역 내에 DSB를 발생시킨다.
CRISPR/Cas 유전자 편집 시스템에서, 표적 DNA 분자에 포함된 특정 서열을 인식하도록 Cas 단백질을 표적 영역으로 유도하는 기능을 갖는 RNA를 가이드 RNA라고 지칭한다.
상기 가이드 RNA의 구성을 기능적으로 나눈다면, 크게, 1) 스캐폴드 서열 부분, 및 2) 가이드 서열을 포함하는 가이드 도메인으로 나눌 수 있다. 상기 스캐폴드 서열 부분은 Cas 단백질 (예를 들어, Cas9 단백질)과 상호작용하는 부분으로, Cas 단백질과 결합하여 복합체를 이룰 수 있도록 하는 부분이다. 일반적으로 상기 스캐폴드 서열 부분은 tracrRNA, crRNA 반복 서열 부분을 포함하며, 상기 스캐폴드 서열은 어떤 Cas 단백질을 사용하느냐에 따라서 결정된다. 상기 가이드 서열은, 표적 핵산 (예를 들어, 표적 DNA 분자 또는 세포의 게놈) 내 일정 길이의 뉴클레오타이드 서열 부분과 상보적으로 결합할 수 있는 부분이다. 상기 가이드 서열은 인위적으로 변형할 수 있으며, 목적하는 유전자 편집과 관련된 관심 있는 표적 뉴클레오타이드 서열에 의해 결정된다.
일부 실시양태에서, 가이드 RNA는 crRNA 및 tracrRNA를 포함하는 것으로 설명될 수 있다. crRNA는 스페이서 및 반복 서열을 포함할 수 있다. crRNA의 반복 서열의 부분은 tracrRNA의 부분과 상호작용(예를 들어, 상보적 결합)을 할 수 있다. 전술한 바와 같이, crRNA와 tracrRNA가 연결된 단일 가닥 가이드 RNA(single guide RNA; sgRNA) (문헌 [Jinek, Martin, et al. "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity." science 337.6096 (2012): 816-821.] 참조, 이의 전체 내용이 본 출원에 참조로 포함됨)가 제공될 수 있다. 즉, 가이드 RNA는 두개의 가닥으로 제공될 수 있거나, 또는 가이드 RNA는 하나의 가닥으로 제공될 수 있다.
일부 실시양태에서, sgRNA는 가이드 도메인, 제1 상보적 도메인, 링커 도메인, 및 제2 상보적 도메인을 포함하는 것으로 설명될 수 있다. 이때 sgRNA는 근위 도메인 및 꼬리 도메인 중 어느 하나 이상을 포함하는 추가적인 도메인을 포함할 수 있으며, 달리 제한되지 않는다. 이때 링커 도메인은 제1 상보적 도메인과 제2 상보적 도메인을 연결하며, 제1 상보적 도메인의 일부 또는 전부는 제2 상보적 도메인의 일부 또는 전부와 상보적 결합을 형성하고, 결국, 상기 제1 상보적 도메인, 연결 도메인 (예를 들어, 폴리뉴클레오타이드 링커를 포함함), 및 제2 상보적 도메인은 루프 구조와 같은 2차 구조를 형성한다 (문헌 [PCT 출원 출원번호 PCT/KR2018/006803, 공개번호 WO2018/231018] 참조).
용어 가이드 RNA는 또한 자연 발생이든 비-자연 발생(예를 들어, 조작된 것 또는 재조합 등)이든 Cas9 등가물, 상동체, 오쏘로그 또는 파라로그와 회합(association)하고, Cas9 등가물 등을 특이적 표적 뉴클레오티드 서열에 국재화(localization)하도록 하는 등가의 가이드 핵산 분자를 포괄한다. 전술한 바와 같이, Cas9 등가물은 Cpf1 (유형-V CRISPR-Cas 시스템), C2c1 (유형 V CRISPR-Cas 시스템), C2c2(유형 VI CRISPR-Cas 시스템) 및 C2c3 (유형 V CRISPR-Cas 시스템)을 포함하는 임의의 유형의 CRISPR 시스템 (예를 들어, 유형 II, V, VI)으로부터 유래된 다른 Cas 단백질을 포함할 수 있다. 추가의 Cas 등가물은 문헌 [Abudayyeh, Omar O., et al. "C2c2 is a single-component programmable RNA-guided RNA-targeting CRISPR effector." Science 353.6299 (2016): aaf5573.]에 기재되어 있으며, 이의 전체 내용은 본 명세서에 참조로 포함된다. 전통적인 CRISPR/Cas 시스템에 사용되는 가이드 RNA는 본 명세서에서 설명되는 프라임 에디팅 방법 및 조성물에 대해 발명된 프라임 에디팅 가이드 RNA (pegRNA)로 지칭되는 변형된 형태의 가이드 RNA와 대조되도록, '전통적인' 가이드 RNA로 지칭될 수 있다. 프라임 에디팅 가이드 RNA (pegRNA)는 전통적인 가이드 RNA의 3' 단부 또는 5' 단부에 연장 암이 연결된 형태를 가질 수 있다.
가이드 RNA 또는 pegRNA는 스페이서, gRNA 코어, 연장 암(특히, pegRNA에서), 및 전사 종결인자 중 어느 하나 이상을 포함할 수 있다. 나아가, 이에 제한되지 않고 다양한 구조적 요소를 추가적으로 포함할 수 있다. 스페이서는 스페이서 서열을 포함하고, 스페이서 서열은 표적 영역 내의 프로토스페이서 서열을 포함하는 영역의 서열에 결합하는 가이드 RNA 또는 pegRNA 내의 서열을 지칭한다. gRNA 코어는 gRNA 스캐폴드 또는 백본 서열로 지칭될 수 있으며, cas9 또는 이의 등가물과 결합을 담당하는 gRNA 또는 pegRNA 내의 서열을 지칭한다. gRNA 코어는 Cas9을 표적 영역 (표적 DNA)로 가이드하는데 사용되는 스페이서 또는 표적화 서열을 포함하지 않는다. 연장 암(특히, pegRNA에서)은 프라이머 결합 부위(primer binding site; PBS), 및 폴리머라아제(예를 들어, 리버스 트랜스크립타아제)를 통해 관심 유전적 변화를 함유하는 단일 가닥 DNA 플랩을 설치하기 위한 DNA 합성 주형 서열을 포함하는 pegRNA에 포함된 요소이다. 연장 암은 pegRNA의 3' 또는 5' 단부에 위치할 수 있으며, 목적하는 유전적 변화를 설치하기 위해 디자인된다. pegRNA에서 연장 암은 연장 영역으로 지칭될 수 있다. 일부 실시양태에서, 가이드 RNA 또는 pegRNA는 분자의 3'에 전사 종결 서열을 더 포함할 수 있다.
가이드 RNA의 가이드 서열
가이드 RNA는 가이드 서열을 포함하는 가이드 도메인을 포함할 수 있다. 가이드 서열은 스페이서 서열과 상호 교환적으로 사용될 수 있다. 가이드 도메인은 스페이서와 상호 교환적으로 사용될 수 있다. 가이드 서열은 인위적으로 디자인될 수 있는 부분으로 관심 있는 표적 뉴클레오타이드 서열에 의해 결정된다. 일부 실시양태에서, 가이드 서열은 편집을 목적하는 DNA 분자 상에 위치한 PAM 서열에 인접하는 서열을 표적하도록 디자인될 수 있다. 전술한 바와 같이, Cas/gRNA 복합체의 표적 위치(예를 들어, 온 타겟 위치)로의 국재화를 유도한다. 가이드 핵산의 구조는 CRISPR 유형에 따라 달라질 수 있다. 예를 들어, CRISPR/Cas9 유전자 편집 시스템에 사용되는 가이드 RNA는 5'-[가이드 도메인]-[스캐폴드]-3'의 구조를 가질 수 있다.
일 실시양태에서, 가이드 서열은 5nt 내지 40nt의 길이를 가질 수 있다. 일 실시양태에서, 가이드 RNA의 가이드 도메인에 포함된 가이드 서열은 10nt 내지 30nt의 길이를 가질 수 있다. 일 실시양태에서, 가이드 서열은 15nt 내지 25nt의 길이를 가질 수 있다. 일 실시양태에서, 가이드 서열은 18nt 내지 22nt의 길이를 가질 수 있다. 일 실시양태에서, 가이드 서열은 20nt의 길이를 가질 수 있다. 일 실시양태에서, 가이드 서열과 상보적인 결합을 형성하는 게놈 내의 서열인 타겟 서열(스페이서 결합 가닥에 존재하는 타겟 서열 및 스페이서 비-결합 가닥에 존재하는 타겟 서열을 모두 포괄함)은 5nt 내지 40nt의 길이 또는 5bp 내지 40bp를 가질 수 있다. 일 실시양태에서, 가이드 서열과 상보적인 결합을 형성하는 게놈 내의 서열인 타겟 서열은 10nt 내지 30nt의 길이 또는 10bp 내지 30bp를 가질 수 있다. 일 실시양태에서, 타겟 서열은 15nt 내지 25nt의 길이 또는 15bp 내지 25bp의 길이를 가질 수 있다. 일 실시양태에서, 타겟 서열은 18nt 내지 22nt의 길이 또는 18bp 내지 22bp의 길이를 가질 수 있다. 일 실시양태에서, 타겟 서열은 20nt 또는 20bp의 길이를 가질 수 있다.
PAM
전통적인 CRISPR/Cas 시스템이 표적 DNA 분자를 절단하기 위해서는 두가지 조건이 필요할 수 있다. 첫째, 표적 유전자, 또는 표적 핵산 내에 Cas 단백질 (예를 들어, Cas9 단백질)이 인식할 수 있는 일정 길이의 염기 서열(뉴클레오타이드 서열)이 있어야 한다. 이때, 상기 Cas9 단백질에 의해 인식되는 일정 길이의 염기 서열(뉴클레오타이드 서열)을 Protospacer Adjacent Motif(PAM) 서열이라 한다. 상기 PAM 서열은 상기 Cas9 단백질에 따라 정해지는 고유한 서열이다. 둘째, 상기 일정 길이의 PAM 서열 주변에 가이드 RNA에 포함된 스페이서 서열과 상보적으로 결합할 수 있는 서열이 있어야 한다. 여기서, PAM 서열은 스페이서 비-결합 가닥 상에 존재하는 서열과 스페이서 결합 가닥 상에 존재하는 서열을 모두 포괄하는 것으로 사용될 수 있다.
전술한 바와 같이, CRISPR/Cas 시스템에서 Cas/gRNA 복합체는 표적 DNA 분자 (예를 들어, 세포의 게놈) 상의 프로토스페이서 인접 모티프(PAM) 서열 및 gRNA의 가이드 서열에 의해 표적 영역으로 유도된다. 표적 DNA 분자에서, PAM 서열은 가이드 RNA의 가이드 서열이 결합하는 가닥이 아닌 가이드 서열 비-결합 가닥에 위치할 수 있다. PAM 서열은 사용되는 Cas 단백질의 종류에 따라 독립적으로 결정될 수 있다. 일 실시양태에서, PAM 서열의 다음 중 선택되는 어느 하나일 수 있다 (5' 에서 3' 방향으로 개시됨): NGG (서열번호 19); NNNNRYAC (서열번호 20); NNAGAAW (서열번호 21); NNNNGATT (서열번호 22); NNGRR(T) (서열번호 23); TTN (서열번호 24); 및 NNNVRYAC (서열번호 25). 각각의 N은, 독립적으로 A, T, C 또는 G일 수 있다. 각각의 R은 독립적으로 A 또는 G일 수 있다. 각각의 Y는 독립적으로 C 또는 T일 수 있다. 각각의 W는 독립적으로 A 또는 T일 수 있다. 예를 들어, Cas 단백질로 spCas9이 사용되는 경우, PAM 서열은 NGG (서열번호 19)일 수 있다. 예를 들어, Cas 단백질로 스트렙토코커스 써모필러스 Cas9 (StCas9)이 사용되는 경우, PAM 서열은 NNAGAAW (서열번호 21)일 수 있다. 예를 들어, NmCas9(Neisseria meningitides Cas9)이 사용되는 경우, PAM 서열은 NNNNGATT (서열번호 22)일 수 있다. 예를 들어, CjCas9(Campylobacter jejuni Cas9)이 사용되는 경우, PAM 은 NNNVRYAC (서열번호 25)일 수 있다. 일 실시양태에서, PAM 서열은 스페이서 비-결합 가닥에 존재하는 타겟 서열 (여기서, 스페이서 비-결합 가닥에 존재하는 타겟 서열은 가이드 RNA와 결합하지 않는 서열을 지칭함)의 3' 말단에 연결되어 있을 수 있다. 일 실시양태에서, PAM 서열은 스페이서 비-결합 가닥에 존재하는 표적 서열의 3' 말단에 위치할 수 있다. 스페이서 비-결합 가닥에 존재하는 표적 서열은 가이드 RNA의 가이드 서열과 결합하지 않는 서열을 지칭한다. 스페이서 비-결합 가닥에 존재하는 표적 서열은 스페이서 결합 가닥에 존재하는 표적 서열에 상보적이다.
DSB 또는 닉이 발생되는 위치는 게놈 상의 PAM 서열 근처일 수 있다. 일 실시양태에서, DSB 또는 닉이 발생되는 위치는 스페이서 비-결합 가닥에 존재하는 PAM 서열의 5' 또는 3' 말단을 기준으로 -0 내지 -20 또는 +0 내지 +20일 수 있다. 일 실시양태에서, DSB 또는 닉이 발생되는 위치는 스페이서 비-결합 가닥 상의 PAM 서열의 -1 내지 -5 또는 +1 내지 +5일 수 있다. 예를 들어, spCas9을 사용하는 CRISPR/Cas 시스템에서, spCas9은 PAM 서열의 상류에 위치한 세번째 뉴클레오타이드와 네번째 뉴클레오타이드 사이를 절단하는 것으로 알려져 있다.
전통적인 CRISPR/Cas 시스템을 이용한 게놈 편집의 과정
기술자의 이해를 돕기 위해, 전통적인 CRISPR/Cas 시스템을 이용한 게놈 편집 과정에 대하여 하기의 예시를 들어 간략하게 개시한다. 여기서, 전통적인 CRISPR/Cas 시스템은 Cas 단백질과 전통적인 gRNA를 사용하여 DNA 분자를 편집할 수 있는 시스템을 지칭한다.
예를 들어, 편집을 목적하는 DNA 분자와 Cas/gRNA 복합체가 접촉할 수 있는 환경이 제공될 수 있다. 세포 내에서 게놈 편집을 목적으로 하는 경우, Cas 단백질 또는 이를 암호화하는 핵산 및 가이드 RNA 또는 이를 암호화하는 핵산이 세포 내부로 도입되고, 이를 통해 Cas 단백질 및 가이드 RNA가 세포의 게놈 DNA와 접촉할 수 있는 환경이 달성될 수 있다. Cas 단백질 및 가이드 RNA가 세포의 게놈 DNA와 접촉할 수 있는 환경 하에서, Cas 단백질과 가이드 RNA는 Cas/gRNA 복합체를 형성할 수 있다. 물론, Cas/gRNA 복합체는, 세포의 게놈 DNA가 존재하지 않더라도, 적절한 환경에서 Cas 단백질 및 gRNA가 모두 존재하는 경우 형성될 수 있다. Cas/gRNA 복합체에 포함된 gRNA의 가이드 서열 및 게놈 상의 PAM 서열이 관여되어 Cas/gRNA 복합체를 미리 디자인된 표적 서열이 존재하는 표적 영역으로 유도한다. 표적 영역으로 유도된 Cas/gRNA 복합체는 표적 영역 내에 DSB(예를 들어, Cas9의 경우)를 발생시킨다. 이후, DNA 수선 과정에 의해 DSB가 발생된 (절단된) DNA가 수선되면서 표적 영역 또는 표적 위치에서의 유전자 편집이 달성된다. DNA에 발생된 DSB의 복구를 위한 두가지 주요 경로로는 상동 재조합(Homology-directed repair; HDR) 및 NHEJ(nonhomologous end joining)가 있다. 이중 자연적으로 발생하는 DNA 복구 시스템인 HDR은 인간을 포함한 다양한 유기체에서 게놈을 수정하는데 사용될 수 있다. HDR 매개 수선은 주로, 표적 영역 또는 표적 위치에 목적하는 서열을 삽입하거나 특정한 점 돌연변이 등을 유도하는데 사용될 수 있으나, 이에 제한되지 않는다. HDR 매개 수선(HDR mediate reparing)은 DNA 복구 시스템인 HDR 및 HDR 템플릿 (예를 들어, 세포 외부로부터 공급될 수 있는 도너 템플릿)을 통해 수행될 수 있다. NHEJ는 DNA의 DSB를 수선하는 과정을 지칭하며, HDR과는 대조적으로, HDR 템플릿 없이 절단된 말단을 연결한다. 즉, 수선 과정에서 HDR 템플릿을 필요로 하지 않는다. NHEJ는 주로 인델을 유도하기 위해 선택될 수 있는 DNA 수선 매커니즘일 수 있다. 인델(insertion/deletion)은, 유전자 편집 전 핵산의 뉴클레오타이드 배열에서 일부 뉴클레오타이드가 중간에 결실되거나, 임의의 뉴클레오타이드가 삽입되거나, 및/또는 상기 삽입과 결실이 혼입된 변이를 지칭할 수 있다. 표적 유전자에 발생된 인델의 일부는 발생은 해당 유전자를 불활성화시킬 수 있다. DNA 수선 매커니즘인 HDR 및 NHEJ는 문헌 [Sander, Jeffry D., and J. Keith Joung. "CRISPR-Cas systems for editing, regulating and targeting genomes." Nature biotechnology 32.4 (2014): 347-355.]에 상세히 개시되며, 이의 전체 내용은 본 출원에 참조로 포함된다.
지금까지, 기술자의 이해를 돕기 위해, 프라임 에디팅 시스템의 기초가 되는 전통적인 CRISPR/Cas 시스템에 대하여 상세히 설명하였다. 본 출원은 프라임 에디팅 시스템을 이용한 DNA의 편집 과정에서 발생 가능한 오프 타겟을 예측하는 새로운 시스템에 관한 것이다. 이하에서는, 본 출원에 의해 제공되는 프라임 에디팅 시스템의 오프 타겟 예측 시스템을 설명하기에 앞서, 오프 타겟 예측 시스템의 기반이 되는 프라임 에디팅 시스템 및 이를 이용한 DNA 분자의 편집 과정이 상세히 설명된다.
프라임 에디팅 시스템
프라임 에디팅 시스템 개괄
David R. Liu 등에 의해 개발된 프라임 에디팅은 Cas 단백질; 폴리머라아제 (예를 들어, 리버스 트랜스크립타제); 및 DNA 분자의 표적 영역 내로 목적하는 편집을 통합 또는 삽입시키기 위한 DNA 합성 주형을 포함하는 특수화된 가이드 RNA를 사용하는 DNA 분자(예를 들어, 게놈)의 편집을 위한 기술이다. 프라임 에디팅에 대한 설명 및 다양한 실시양태는 문헌 [Anzalone, Andrew V., et al. "Search-and-replace genome editing without double-strand breaks or donor DNA." Nature 576.7785 (2019): 149-157.; Chen, Peter J., et al. "Enhanced prime editing systems by manipulating cellular determinants of editing outcomes." Cell 184.22 (2021): 5635-5652.; 및 PCT 출원 출원번호 PCT/US2020/023712, 공개번호 WO2020191233A1]에 상세히 개시되며, 이들 각각의 전체 내용은 본 명세서에 참조로 포함된다.
프라임 에디팅은 목적하는 편집(desired edit)을 표적 DNA 분자 내의 표적 영역으로 도입하기 위해 (1) Cas 단백질 및 폴리머라아제 (예를 들어, 리버스 트랜스크립타아제)를 포함하는 프라임 에디터 단백질(prime editor protein); 및 (2) 프라임 에디팅 가이드 RNA (Prime editing guide RNA; pegRNA)을 사용하여 게놈을 편집한다. 프라임 에디팅의 다양한 실시양태는 본 명세서에 그 전체가 참조로 포함되는 문헌인 PCT 출원 출원번호 PCT/US2020/023712 (공개번호 WO2020191233A1)에 상세히 개시된다.
프라임 에디팅은 Cas 단백질을 포함하는 프라임 에디터 단백질을 사용하여 DNA 분자 (예를 들어, 게놈) 내의 표적 영역 내로 새로운 유전자 정보를 직접 기록하는, 다목적의 정확한 게놈 편집 방법으로, David R. Liu 등에 의해 개발된 새로운 플렛폼의 게놈 편집 방법이다. 프라임 에디팅에는 크게 Cas 단백질, 폴리머라아제 및 pegRNA가 사용되며, 여기서 pegRNA는 전통적인 가이드 RNA 상에 연장 암이 연결된 형태를 갖는다. 이때 연장 암은 연장 영역을 포함한다. 연장 영역은 목적하는 편집을 표적 영역 내로 삽입하기 위한, 목적하는 편집의 주형이 되는 편집 주형을 포함한다. 이때 목적하는 편집의 표적 영역 내로의 삽입은, Cas 단백질과 연결된 폴리머라아제(예를 들어, 리버스 트랜스크립타아제)를 통한 중합을 포함하는 다수의 과정에 의해 수행된다. pegRNA의 연장 영역에 포함된 DNA 합성 주형을 폴리머라이제이션의 주형으로 하여, 폴리머라아제가 중합을 수행하고, 스페이서 비-결합 가닥에 중합을 수행한다.
예를 들어, 프라임 에디팅 버전 2인 PE2 에서는, 스페이서 비-결합 가닥에 닉(PE2 프라임 에디터 단백질에 포함된 Cas 단백질에 의해 유도 및/또는 발생됨)이 발생하고, 스페이서 비-결합 가닥을 기준으로 nick 발생 부위에서부터 5'에서 3' 방향으로 DNA 합성 주형을 바탕으로 리버스 트랜스크립타아제에 의한 중합(역전사)이 수행된다. 상기 역전사는 연장 영역에 포함된 DNA 합성 주형을 역전사의 주형으로 하여 수행된다. 상기 중합 과정에서 DNA 합성 주형의 전부 또는 일부와 상보적인 서열이 스페이서 비-결합 가닥의 nick 발생 부위에 코딩된다. 이렇게 코딩된 서열은 3' DNA 플랩(flap)을 형성한다. 3' DNA 플랩(flap)은 편집을 포함하고, 상기 편집은 DNA 합성 주형에 포함된 편집 주형(edit template)에 상보적인 DNA 서열을 갖는다. 이후, 5' DNA 플랩 클리비지 과정(예를 들어, 5' DNA 플랩 엔도뉴클레아제인 FEN1이 관여될 수 있음)을 통해 5' DNA 플랩이 제거되며, 3' DNA 플랩의 라이게이션, 및 세포 DNA 복구 및/또는 복제 과정을 통해 목적하는 편집(desired edit)이 목적하는 위치에 통합된다. 프라임 에디팅 버전 2 (PE2)를 이용한 DNA 분자의 편집 과정은 본 명세서에 그 전체가 참조로 포함되는 문헌 [Anzalone, Andrew V., et al. "Search-and-replace genome editing without double-strand breaks or donor DNA." Nature 576.7785 (2019): 149-157.]에서 상세히 설명된다.
프라임 에디팅과 관련되어 사용되는 용어 편집은 프라임 에디팅 시스템의 결과로 DNA 분자 내에 통합된 편집을 지칭하는 것으로 사용된다. 예를 들어, 편집은 스페이서 비-결합 가닥에 통합된 편집, 스페이서 결합 가닥에 통합되는 편집, 및/또는 이중가닥에 통합되는 편집을 지칭하는 것으로 사용될 수 있다. 전술한 바와 같이, 3' 플랩에 설치된 편집은 3' 플랩의 라이게이션, 및 세포 DNA 복구 및/또는 복제를 포함하는 과정을 통해, 결국, 스페이서 비-결합 가닥 및 스페이서 결합 가닥으로 설치되기 때문이다. 편집은 하나 이상의 뉴클레오타이드의 삽입, 하나 이상의 뉴클레오타이드의 결실, 및 하나 이상의 뉴클레오타이드의 다른 뉴클레오타이드로의 치환 중 어느 하나 또는 이들의 조합을 포함할 수 있다.
예를 들어, 편집은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 50 이상의 뉴클레오타이드의 삽입을 포함할 수 있고, 이때 상기 삽입되는 뉴클레오타이드는 핵산 내에서 연속되어 위치할 수 있거나 연속되지 않을 수 있다. 예를 들어, 편집은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 50 이상의 뉴클레오타이드의 결실을 포함할 수 있고, 이때 상기 결실되는 뉴클레오타이드는 핵산 내에서 연속되어 위치할 수 있거나 연속되지 않을 수 있다. 예를 들어, 편집은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 50 이상의 뉴클레오타이드의 치환을 포함할 수 있고, 이때 상기 치환되는 뉴클레오타이드는 핵산 내에서 연속되어 위치할 수 있거나 연속되지 않을 수 있다. 다른 예로, 편집은 전술한 삽입 및 치환을 포함할 수 있다. 다른 예로, 편집은 전술한 결실 및 치환을 포함할 수 있다. 다른 예로, 편집은 전술한 삽입, 결실, 및 치환을 포함할 수 있다. 프라임 에디팅에 대하여 최초로 개시하는 David R. Liu 등에 의해 보고된 문헌 [Anzalone, Andrew V., et al. "Search-and-replace genome editing without double-strand breaks or donor DNA." Nature 576.7785 (2019): 149-157.]은 프라임 에디팅의 스코프(scope)를 "All 4 transition point mutations; All 8 transversion point mutations; Insertions(1 bp to ≥ 44bp); Deletions (1 bp to ≥ 80 bp); combinations of the above"와 같이 설명하는 것처럼, 프라임 에디팅에 의해 DNA 분자에 설치될 수 있는 편집의 태양은 다양하다. 나아가, 프라임 에디팅 기술은 여전히 발전 및 개량되고 있으므로, 프라임 에디팅의 스코프(scope)가 상기 문헌에 개시된 범위 내로 한정되는 것은 아니다. 본 명세서에 그 전체의 내용이 참조로 포함되는 문헌 [Anzalone, Andrew V., et al. "Search-and-replace genome editing without double-strand breaks or donor DNA." Nature 576.7785 (2019): 149-157.]은 프라임 에디팅이 새로운 유전 정보를 특정 DNA 부위에 직접 "작성(write)"하는 다용도 정밀 게놈 편집 방법으로 설명한다. 이에 비추어 볼 때, 프라임 에디팅을 통해 DNA에 삽입 또는 설치할 수 있는 유전적 정보에 대한 본 명세서 내의 기재는 한정적으로 해석되어서는 아니될 것이다.
일부의 경우에, 프라임 에디팅은 "검색-및-대체(search-and-replace)" 게놈 편집 기술로서 생각될 수 있다. 이는 프라임 에디팅을 수행하는 프라임 에디터 (또는 프라임 에디터 복합체)가 편집될 목적하는 표적 부위를 검색하고 위치를 찾아낼 뿐만 아니라, 동시에, 상응하는 표적 부위 내인성 DNA 가닥 대신에 목적하는 편집을 함유하는 대체 가닥을 설치할 수 있기 때문이다. 본 명세서에 그 전체의 내용이 참조로 포함되는 문헌 PCT 출원 출원번호 PCT/US2020/023712 (공개번호 WO2020191233A1)에서는, 상기 문헌에 기재된 프라임 에디터가 리버스 트랜스크립타아제로 제한되는 것이 아니라고 개시하며, 리버스 트랜스크립타아제는 프라임 에디팅에 사용될 수 있는 DNA 폴리머라아제의 단지 한 유형인 것으로 개시한다. 따라서, 리버스 트랜스크립타아제가 언급될 때마다, 관련 기술분야의 통상의 기술자는 리버스 트랜스크립타아제 대신에 임의의 적합한 DNA 폴리머라아제가 사용될 수 있다는 것을 인지하여야 한다. 마찬가지로 프라임 에디팅에는 Cas9 또는 nCas9 등 뿐만 아니라 Cas9에 기능적 등가인 단백질 또는 도메인이 사용될 수 있다는 것 또한 관련 기술분야의 통상의 기술자에게 충분히 인지될것이다.
프라임 에디팅에 특수화된 가이드 RNA (즉, pegRNA)는 Cas 단백질과 복합체화되고 (예를 들어, Cas 단백질을 포함하는 융합단백질과 복합체화 됨), 프라임 에디팅 과정을 통해 목적하는 편집을, 결과적으로, DNA 분자(예를 들어, 게놈)의 표적 영역 내의 표적 위치에 설치한다. pegRNA는 목적하는 정보를 표적 DNA로 전달하기 위한 편집 주형을 포함한다. 편집 주형으로부터 편집 주형에 상응하는 서열을 포함하는 대체 가닥이 생성되고, 이 대체 가닥은 상응하는 내인성 DNA 가닥을 대체하는데 사용된다. pegRNA로부터 표적 DNA로 정보를 전달하기 위해, 프라임 에디팅의 메커니즘은 DNA의 한 가닥 내의 표적 부위를 닉킹하여 3'-히드록실 기를 노출시키는 것을 수반할 수 있다. 이어서, 프라임 에디팅의 매커니즘은 노출된 3'-히드록실 기를 사용하여, pegRNA 상의 목적하는 정보를 전달 가능한 서열을 바탕으로 DNA 중합 과정을 통해, 표적 부위 내로 목적하는 정보를 전달함을 포함한다. 다양한 실시양태에서, 편집을 함유하는 대체 가닥의 중합을 위한 주형을 제공하는 연장 영역은 RNA 또는 DNA로부터 형성될 수 있다. RNA 연장 영역의 경우에, 프라임 에디팅에 사용되는 폴리머라아제는 RNA-의존성 DNA 폴리머라아제(예를 들어, 리버스 트랜스크립타아제)일 수 있다. DNA 연장 영역의 경우에, 프라임 에디팅에 사용되는 폴리머라아제는 DNA-의존성 DNA 폴리머라아제일 수 있다. 프라임 에디팅에 의해 새로 합성된 가닥 (즉, 목적하는 편집을 함유하는 대체 DNA 가닥)은 목적하는 뉴클레오티드 변화의 포함을 제외하고는 게놈 표적 서열에 상동일 것이다. DNA의 새로 합성된 가닥은 또한 단일 가닥 DNA 플랩 (예를 들어, 3' 단일 가닥 DNA 플랩)으로 지칭될 수 있으며, 이는 상응하는 내인성 가닥을 대체할 것이다.
다양한 실시양태에서, 프라임 에디팅은 표적 DNA 분자를 프라임 에디팅 가이드 RNA(pegRNA)와 복합체화된 Cas 단백질 (여기서, Cas 단백질은 프라임 에디터 단백질에 포함됨)과 접촉시킴으로써 작동한다. 프라임 에디팅을 이용한 DNA 분자 (예를 들어, 게놈) 편집의 하나의 예시는 다음과 같이 설명될 수 있다: nCas9(예를 들어, 프라임 에디터 단백질에 포함될 수 있음)/pegRNA 복합체는 DNA 분자와 접촉하고, pegRNA는 nCas9이 표적 영역에 결합하도록 가이드한다. 표적 영역 내의 DNA 가닥 중 하나의 가닥에 닉을 도입(nCas9에 의해 닉이 도입됨)하여, DNA 가닥 중 하나의 가닥에 이용가능한 3' 말단을 생성한다. 이용가능한 3' 말단은 표적 영역 내에 위치한다. 특정 실시양태에서, 닉은 pegRNA의 일부 서열에 혼성화되지 않는 가닥, 즉 스페이서 비-결합 가닥에서 생성될 수 있다. 다른 특정 실시양태에서, 닉은 pegRNA의 일부 서열에 혼성화되는 가닥, 즉, 스페이서 결합 가닥에 생성될 수 있다. Cas9 닉카제의 닉킹에 의해 형성된 DNA 가닥의 3' 말단에 위치한 영역(닉 부위의 상류에 위치한 영역)은 역전사를 프라이밍 하기 위해 pegRNA의 연장 영역의 일부와 상호작용한다. 특정 실시양태에서, 3' 말단 DNA 가닥은 pegRNA의 연장 영역에 포함된 리버스 트랜스크립타아제 프라이밍 서열 또는 프라이머 결합 부위 (Primer binding site; PBS)에 혼성화된다. 프라이밍된 부위의 3' 단부로부터 pegRNA의 5' 단부를 향한 방향으로 리버스 트랜스크립타아제(예를 들어, 프라임 에디팅 융합 단백질에 포함될 수 있음)에 의해 DNA의 단일 가닥이 합성된다. 즉, 프라이머 바인딩 사이트와 혼성화된 스페이서 비-결합 가닥(PAM 함유 서열)을 기준으로 5'에서 3' 방향으로 DNA의 단일 가닥이 합성된다. 상기 합성된 DNA 단일 가닥은 목적하는 뉴클레오티드 변화(예를 들어, 하나 이상의 염기 변화, 하나 이상의 삽입, 하나 이상의 결실, 또는 이들의 조합)을 포함한다. 상기 합성된 DNA 단일 가닥은 3' 단일 가닥 DNA 플랩으로 지칭될 수 있다. 3' 단일 가닥이 내인성 DNA 내로 침입하였을 때 형성되는 (편집되지 않은) 5' 내인성 DNA 플랩이 제거된다. 상기 5' 내인성 DNA 플랩의 제거는 5' 플랩 절단 과정을 통해 수행될 수 있다. 내인성 DNA 내로 침입한 3' 단일 가닥 DNA 플랩이 라이게이션 된다. DNA 수선이 작동하고 그 결과 목적하는 편집이 표적 영역 내로 완전히 통합된다.
프라임 에디팅 시스템의 목적은 예를 들어 프라임 에디터 단백질 및 pegRNA 등을 포함하는 요소들에 의해 달성될 수 있다. 이하에서, 프라임 에디팅에 사용되는 프라임 에디터 단백질 및 pegRNA에 대하여 설명한다.
프라임 에디터 단백질
프라임 에디터 단백질 개괄
일부 실시양태에서, 프라임 에디터 단백질(또는 프라임 에디팅 구축물)은 Cas 단백질 및 폴리머라아제를 포함하는 융합 단백질 또는 복합체 형태의 구축물을 의미한다. 프라임 에디터 단백질은 프라임 에디팅 단백질, 프라임 에디팅 구축물, 프라임 에디팅 효소, 프라임 에디터 효소, 및 프라임 에디팅 융합단백질 등과 같은 용어로 지칭될 수 있다. 프라임 에디터 단백질은 [Cas]-[P] 또는 [P]-[Cas]과 같이 표현되는 구조를 포함할 수 있으며, 여기서, "P"는 임의의 폴리머라아제 (예를 들어 리버스 트랜스크립타아제) 또는 이로부터 유래된 요소를 지칭하고, "Cas"는 Cas 단백질(예를 들어, 야생형 spCas9, 또는 Cas9 닉카제와 같은 spCas9의 변이체 등) 또는 이로부터 유래된 요소를 지칭한다. "]-[" 또는 "-"은 Cas 단백질과 폴리머라아제가 연결된 것을 나타내며, Cas 단백질과 폴리머라아제를 공유적으로 또는 비공유적으로 연결하는 기능을 갖는 임의적인 링커와 같은 요소를 지칭하거나 결합(bond)을 지칭할 수 있다.
전술한 바와 같이, 프라임 에디터 단백질은 Cas 단백질(예를 들어, Cas9 닉카제) 및 리버스 트랜스크립타아제 (또는 DNA 폴리머라아제)를 포함한다. 프라임 에디터 단백질은 하나의 분자로 구성된 융합단백질의 형태일 수 있으며, 두개 이상의 분자가 형성하는 복합체의 형태일 수 있고, 달리 제한되지 않는다. 프라임 에디터 단백질은 pegRNA의 존재 하에 표적 영역 상에서 프라임 에디팅을 수행할 수 있다. 프라임 에디터 단백질은 pegRNA와 복합체를 형성하며, 이때 상기 복합체는 프라임 에디터 단백질/pegRNA 복합체로 지칭될 수 있다. 일부 실시양태에서, 프라임 에디터 단백질은 프라임 에디팅 단백질로 지칭될 수 있다.
일부 실시양태에서, 용어 "프라임 에디팅 시스템"은 프라임 에디터 단백질 및 pegRNA, 또는 프라임 에디터 단백질 및 pegRNA를 사용하여 수행되는 DNA 분자의 편집을 지칭할 수 있다. 이처럼, 용어 "프라임 에디팅 시스템"은 프라임 에디팅과 관련된 내용을 기술하기 위해 포괄적인 개념으로 사용될 수 있다. 일부 실시양태에서, 프라임 에디팅 시스템은 프라임 에디터 단백질 및 pegRNA에 더하여, 다른 요소 또는 이의 사용을 더 포함할 수 있다. 예를 들어, 프라임 에디팅 시스템은 비-편집된 가닥에 제2 부위 닉킹을 지시할 수 있는 전통적인 가이드 RNA 또는 이의 사용을 더 포함할 수 있다.
일부 실시양태에서, 프라임 에디터 단백질은 다음을 포함한다:
(i) Cas 단백질; 및
(ii) 폴리머라아제.
이하에서, 프라임 에디터 단백질에 포함되는 Cas 단백질 및 폴리머라아제가 설명된다.
프라임 에디터 단백질의 요소 1 - Cas 단백질
프라임 에디터 단백질은 Cas 단백질 및 폴리머라아제를 포함한다. 프라임 에디터 단백질은 섹션 "CRISPR/Cas 시스템"에서 상세히 설명된 Cas 단백질을 포함할 수 있다. Cas 단백질은 이의 등가물을 포괄하는 것으로 사용된다. Cas 단백질은 CRISPR 효소, 핵산 프로그램가능한 DNA 결합 단백질 (nucleic acid programmable DNA binding protein; napDNAbp), 또는 CRISPR 단백질 등으로 지칭될 수 있다.
일부 실시양태에서, Cas 단백질은 Cas12a, Cas12b1(C2c1), Cas12c(C2c3), Cas12e (CasX), Cas12d (CasY), Cas12g, Cas12h, Cas12i, Cas1, Cas1B, Cas2, Cas3, Cas4, Cas5, Cas6, Cas7, Cas8, Cas9 (또한 Csn1 및 Csx12로도 공지됨), Cas10, Csy1, Csy2, Csy3, Cse1, Cse2, Csc1, Csc2, Csa5, Csn2, Csm2, Csm3, Csm4, Csm5, Csm6, Cmr1, Cmr3, Cmr4, Cmr5, Cmr6, Csb1, Csb2, Csb3, Csx17, Csx14, Csx10, Csx16, CsaX, Csx3, Csx1, Csx15, Csf1, Csf2, Csf3, Csf4, Cas13a(C2c2), Cas13b, Cas13c, Cas13d, Cas14, xCas9, 원형 순열 Cas9, 또는 아르고노트 (Ago) 도메인, 또는 이의 단편, 또는 이의 상동체, 또는 이의 변이체일 수 있으나, 달리 제한되지 않는다. 일부 실시양태에서, Cas 단백질은 닉카제 활성을 갖는 Cas 단백질일 수 있다. 닉카제 활성을 갖는 Cas 단백질은 Cas9 닉카제, 또는 Cas12 닉카제 (예를 들어, Cas12a 닉카제, 또는 Cas12b1 닉카제 등)일 수 있으나 이에 제한되지 않는다. 일부 실시양태에서, Cas 단백질은 뉴클레아제 활성을 갖는 Cas 단백질일 수 있다. 일부 실시양태에서, Cas 단백질은 NHN 도메인 및/또는 RuvC 도메인에 하나 이상의 아미노산 치환 또는 아미노산 변이를 포함할 수 있다. 예를 들어, 변이체는 야생형의 Cas 단백질 또는 모체가 되는 Cas 단백질의 아미노산 서열과 비교하여, 약 60%, 61%, 62%, 63%, 64%, 65%, 66%, 67%, 68%, 69%, 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, 99.5% 또는 99.9%의 서열 동일성을 갖는 아미노산 서열을 포함할 수 있다. 예를 들어, 변이체는 야생형의 Cas 단백질 또는 모체가 되는 Cas 단백질의 아미노산 서열과 비교할 때, 하나 이상의 삽입, 하나 이상의 결실, 하나 이상의 치환, 또는 이들의 조합을 포함할 수 있다.
예를 들어, Cas 단백질은 SpCas9(Streptococcus pyogenes 유래 Cas9), CjCas9(Campylobacter jejuni 유래 Cas9), SaCas9 (Staphylococcus aureus 유래 Cas9), 또는 이의 변이체일 수 있다. 예를 들어, Cas 단백질은 SpyMac, iSpymac, GeoCas9, xCas9, 원형 순열 Cas9, 또는 이의 변이체일 수 있다. 예를 들어, SpCas9 변이체는 야생형의 SpCas9의 아미노산 서열과 비교할 때, 하나 이상의 삽입, 하나 이상의 결실, 하나 이상의 치환, 또는 이들의 조합의 아미노산 잔기의 변이를 포함할 수 있다. 예를 들어, H840A 치환을 포함하는 SpCas9 변이체는 닉카제 활성을 갖는 Cas 단백질을 제공한다. 예를 들어, D10A 치환을 포함하는 SpCas9 변이체는 닉카제 활성을 갖는 Cas 단백질을 제공한다. 예를 들어, SpCas9 변이체는 R221K 및 N394K 치환을 포함할 수 있다. 예를 들어, SpCas9 변이체는 야생형 SpCas9의 D10, R221, L244, N394, H840, K1211, 및 L1245 중 선택되는 어느 하나 이상의 아미노산 잔기가 다른 아미노산 잔기로 치환된 것일 수 있다. 예를 들어, SpCas9 변이체는, D10A, R221K, L244Q, N394K, H840A, K1211Q, 및 L1245V 중 하나 이상을 포함할 수 있다. 일부 실시양태에서, Cas 단백질은 H840A를 포함하는 닉카제 활성을 갖는 SpCas9 변이체; R221K, N394K, 및 H840A를 포함하는 닉카제 활성을 갖는 SpCas9 변이체 (문헌 [Chen, Peter J., et al. "Enhanced prime editing systems by manipulating cellular determinants of editing outcomes." Cell 184.22 (2021): 5635-5652.] 참조); 뉴클레아제 활성(즉, DSB를 유도하는)을 갖는 야생형 SpCas9 변이체 (문헌 Adikusuma, Fatwa, et al. "Optimized nickase-and nuclease-based prime editing in human and mouse cells." Nucleic acids research 49.18 (2021): 10785-10795.] 참조); 또는 R221K 및 N394K을 포함하는 뉴클레아제 활성을 갖는 SpCas9 변이체일 수 있으나, 이에 제한되지 않는다. 일부 실시양태에서, Cas 단백질은 코돈 최적화된 것일 수 있다. 일부 실시양태에서, 프라임 에디터 단백질은 PAMless Cas 단백질을 포함할 수 있다.
프라임 에디터 단백질에 포함될 수 있는 Cas 단백질에 대한 다양한 예시는 문헌 [미국 특허출원 출원번호 17/219,672]에 상세히 설명된다.
일부 실시양태에서, 야생형 SpCas9은 다음의 서열번호 28의 아미노산 서열을 포함할 수 있다:
Figure PCTKR2023001867-appb-img-000001
일부 실시양태에서, H840A 변이를 포함하는 야생형 SpCas9의 변이체는 다음의 서열번호 29의 아미노산 서열을 포함할 수 있다:
Figure PCTKR2023001867-appb-img-000002
일부 실시양태에서, R221K 및 N394K 변이를 포함하는 야생형 SpCas9의 변이체는 다음의 서열번호 30의 아미노산 서열을 포함할 수 있다:
Figure PCTKR2023001867-appb-img-000003
일부 실시양태에서, R221K, N394K, 및 H840A 변이를 포함하는 야생형 SpCas9의 변이체는 다음의 서열번호 31의 아미노산 서열을 포함할 수 있다:
Figure PCTKR2023001867-appb-img-000004
프라임 에디터 단백질의 요소 2 - 폴리머라아제
프라임 에디팅에 사용되는 폴리머라아제 개괄
프라임 에디터 단백질는 Cas 단백질에 및 폴리머라아제(polymerase)를 포함한다. 폴리머라아제는 뉴클레오티드 가닥을 합성하고 본 명세서에 기재된 프라임 에디팅 시스템 또는 프라임 에디팅 기반 시스템과 관련하여 사용될 수 있는 효소 또는 단백질을 지칭한다. 폴리머라아제는 "주형-의존성 폴리머라아제 (즉, 주형 가닥의 뉴클레오티드 염기의 순서에 기초하여 뉴클레오티드 가닥을 합성하는 폴리머라아제)일 수 있다. 폴리머라아제는 또한 "주형-비의존성" 폴리머라아제일 수 있다. 폴리머라아제는 또한 "DNA 폴리머라아제" 또는 "RNA 폴리머라아제"로 추가로 카테고리될 수 있다.
다양한 실시양태에서, 프라임 에디팅 시스템 또는 프라임 에디터 단백질은 DNA 가닥을 합성하는 DNA 폴리머라아제를 포함한다.
일부 실시양태에서, DNA 폴리머라아제는 DNA-의존성 DNA 폴리머라아제일 수 있으며, 이러한 경우에, pegRNA는 DNA-의존성 DNA 폴리머라아제에 의한 중합의 주형이 되는 DNA 주형을 포함할 수 있다. 이러한 경우에, pegRNA는 RNA 부분(스페이서 및 gRNA 코어를 포함한 가이드 RNA 성분) 및 DNA 부분(DNA 주형)을 포함하는 키메라 또는 하이브리드 pegRNA로 지칭될 수 있다.
다양한 실시양태에서, DNA 폴리머라아제는 "RNA-의존성 DNA 폴리머라아제"일 수 있다. 이러한 경우에, pegRNA는 RNA-의존성 DNA 폴리머라아제에 의한 중합의 주형이 되는 RNA 주형을 포함할 수 있다. 즉, pegRNA는 RNA 성분으로 구성될 수 있으며, RNA 연장 영역을 포함한다.
폴리머라아제는 또한 뉴클레오티드의 중합을 촉매하는 효소를 지칭할 수 있다. 일반적으로, 폴리머라아제에 의한 중합은 폴리뉴클레오티드 주형 서열에 어닐링된 프라이머 (예를 들어, 프라임 에디팅에서, pegRNA의 프라이머 결합 부위에 어닐링된 프라이머 서열)의 3'-단부에서 개시될 것이고, 주형 가닥의 5' 단부를 향하여 진행될 것이다. DNA 폴리머라아제는 데옥시뉴클레오티드의 중합을 촉매할 수 있다. 본 명세서에서 사용되는 용어 폴리머라아제는 뉴클레오티드의 중합을 촉매 및/또는 수행하는 효소, 단백질, 이의 변이체, 및 이의 단편을 포괄하는 용어로 사용된다. 여기서, 폴리머라아제의 단편은 야생형 폴리머라아제의 전체 미만의 길이의 아미노산 서열을 포함하고, 적어도 하나의 조건 하에 데옥시뉴클레오티드의 중합을 촉매 및/또는 수행하는 능력을 보유하는 야생형 또는 돌연변이체(변이체) DNA 폴리머라아제의 임의의 부분을 지칭한다. 이러한 단편은 별개의 개체로서 존재할 수 있거나 또는 보다 큰 폴리펩티드, 예를 들어 융합 단백질의 구성성분일 수 있다.
폴리머라아제의 예시: 리버스 트랜스크립타아제
예를 들어, 프라임 에디팅에 사용되는 하나의 요소인 폴리머라아제는 리버스 트랜스크립타아제(Reverse transcriptase; RT)일 수 있다. 리버스 트랜스크립타아제는 RNA-의존성 DNA 폴리머라아제로서 특징화되는 폴리머라아제의 부류를 지칭한다. 모든 공지된 리버스 트랜스크립타아제는 RNA 주형으로부터 DNA 전사체를 합성하기 위한 프라이머를 필요로한다. 본 명세서에서 사용되는 용어인 리버스 트랜스크립타아제는 이의 변이체, 및 이의 단편을 포괄하는 용어로 사용될 수 있다. 예를 들어, 변이체는 야생형의 리버스 트랜스크립타아제 또는 모체가 되는 리버스 트랜스크립타아제의 아미노산 서열과 비교하여, 약 60%, 61%, 62%, 63%, 64%, 65%, 66%, 67%, 68%, 69%, 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, 99.5% 또는 99.9%의 서열 동일성을 갖는 아미노산 서열을 포함할 수 있다. 예를 들어, 변이체는 야생형의 리버스 트랜스크립타아제 또는 모체가 되는 리버스 트랜스크립타아제의 아미노산 서열과 비교할 때, 하나 이상의 삽입, 하나 이상의 결실, 하나 이상의 치환, 또는 이들의 조합을 포함할 수 있다.
리버스 트랜스크립타아제는 다수의 상이한 공급원으로부터 유래될 수 있다. 리버스 트랜스크립타아제의 공급원의 예는 몰로니 뮤린 백혈병 바이러스 (Moloney murine leukemia virus; M-MLV 또는 MLVRT); 인간 T-세포 백혈병 바이러스 유형 1 (HTLV-1); 소 백혈병 바이러스 (BLV); 라우스 육종 바이러스 (RSV); 인간 면역결핍 바이러스 (HIV); 효모, 예를 들어, 사카로미세스(Saccharomyces), 뉴로스포라(Neurospora), 드로소필라(Drosophila); 영장류; 및 설치류를 포함하나 이에 제한되지는 않는다.
리버스 트랜스크립타아제는, 예를 들어, 조류 골수모구증 바이러스 (AMV) 리버스 트랜스크립타아제, 몰로니 뮤린 백혈병 바이러스 (Moloney murine leukemia virus; M-MLV)로부터 기원하는 리버스 트랜스크립타아제 (문헌 [GERARD, GARY F., et al. "Influence on stability in Escherichia coli of the carboxy-terminal structure of cloned Moloney murine leukemia virus reverse transcriptase." Dna 5.4 (1986): 271-279.; 및 Kotewicz, Michael L., et al. "Cloning and overexpression of Moloney murine leukemia virus reverse transcriptase in Escherichia coli." Gene 35.3 (1985): 249-258.] 참조), RNase H 활성이 실직적으로 결여된 M-MLV 리버스 트랜스크립타아제(출원번호 US 07/671,156, 공개번호 US5244797A 참조), 인간 면역결핍 바이러스 (HIV) 리버스 트랜스크립타제, 조류 육종-백혈증 바이러스 (ASLV) 리버스 트랜스크립타제, 라우스 육종 바이러스 (RSV) 리버스 트랜스크립타제, 조류 적모구증 바이러스 (AEV) 헬퍼 바이러스 MCAV 리버스 트랜스크립타제, 조류 골수구종증 바이러스 MC29 헬퍼 바이러스 MCAV 리버스 트랜스크립타제, 조류 세망내피증 바이러스 (REV-T) 헬퍼 바이러스 REV-A 리버스 트랜스크립타제, 조류 육종 바이러스 UR2 헬퍼 바이러스 UR2AV 리버스 트랜스크립타제, 조류 육종 바이러스 Y73 헬퍼 바이러스 YAV 리버스 트랜스크립타제, 라우스 연관 바이러스 (RAV) 리버스 트랜스크립타제, 및 골수모구증 연관 바이러스 (MAV) 리버스 트랜스크립타제, 이의 변이체, 또는 이의 단편일 수 있으나, 이에 제한되지 않는다. 일부 실시양태에서, 리버스 트랜스크립타아제는 레트로바이러스 리버스 트랜스크립타아제일 수 있다. 일부 실시양태에서, 리버스 트랜스크립타아제는 오류-유발 리버스 트랜스크립타아제일 수 있다. "오류-유발 (Error-Prone)" 리버스 트랜스크립타아제 (또는 보다 넓게는, 임의의 폴리머라아제)는 자연 발생하거나 또는 야생형 M-MLV 리버스 트랜스크립타아제의 오류율보다 더 적은 오류율을 갖는 또 다른 리버스 트랜스크립타아제로부터 유래된 리버스 트랜스크립타아제를 지칭한다. 오류-유발 리버스 트랜스크립타아제는 비교되는 야생형 리버스 트랜스크립타아제보다 더 높은 오류율을 가질 수 있다. 예를 들어, 6.7x10-5, 7.14x10-5, 7.7x10-5, 9.1x10-5, 또는 1x10-4의 오류율을 가질 수 있다. 오류-유발 리버스 트랜스크립타아제에 대해서는 문헌 [Bebenek, K., et al. "Error-prone polymerization by HIV-1 reverse transcriptase. Contribution of template-primer misalignment, miscoding, and termination probability to mutational hot spots." Journal of Biological Chemistry 268.14 (1993): 10324-10334.; 및 Sebastian-Martin, Alba, Veronica Barrioluengo, and Luis Menendez-Arias. "Transcriptional inaccuracy threshold attenuates differences in RNA-dependent DNA synthesis fidelity between retroviral reverse transcriptases." Scientific Reports 8.1 (2018): 1-13.]이 참고될 수 있으며, 이들 각각의 전체 내용은 본 명세서에 참조로 포함된다.
일부 실시양태에서, 리버스 트랜스크립타아제는 M-MLV 리버스 트랜스크립타아제일 수 있다. 용어 M-MLV 리버스 트랜스크립타아제는 이의 변이체, 및 이의 단편을 포괄하는 것으로 사용될 수 있다. M-MLV 리버스 트랜스크립타아제는 예를 들어, 야생형 M-MLV 리버스 트랜스크립타아제, M-MLV 리버스 트랜스크립타아제 변이체, 야생형 M-MLV 리버스 트랜스크립타아제의 단편 또는 야생형 M-MLV 리버스 트랜스크립타아제의 변이체의 단편일 수 있다. 예를 들어, M-MLV 리버스 트랜스크립타아제 변이체는, 야생형 M-MLV 리버스 트랜스크립타아제 또는 다른 야생형 리버스 트랜스크립타아제의 P51, S67, E69, L139, T197, D200, H204, F209, E302, E302, T306, F309, W313, T330, L345, L435, N454, D524, E562, D583, H594, L603, E607, 및 D653 중 선택되는 하나 이상의 아미노산 잔기가 다른 아미노산 잔기로 치환된 것일 수 있다. 야생형 M-MLV 리버스 트랜스크립타아제의 아미노산 서열은 서열번호 26에 개시된다. 예를 들어, M-MLV 리버스 트랜스크립타아제 변이체는 P51L, S67K, E69K, L139P, T197A, D200N, H204R, F209N, E302K, E302R, T306K, F309N, W313F, T330P, L345G, L435G, N454K, D524G, E562Q, D583N, H594Q, L603W, E607K, 및 D653N 중 선택되는 어느 하나 이상의 아미노산 변이를 포함할 수 있다 (여기서, 아미노산 변이의 기준이 되는 서열은 서열번호 26의 야생형 M-MLV 리버스 트랜스크립타아제의 아미노산 서열임). 특정한 실시양태에서, 리버스 트랜스크립타아제는 D200N, T306K, W313F, T330P, 및 L603W 아미노산 변이를 포함하는 M-MLV 리버스 트랜스크립타아제 변이체 (예를 들어, M-MLV 리버스 트랜스크립타아제 펜타뮤턴트)일 수 있다. 특정한 실시양태에서, 리버스 트랜스크립타아제는 말단 절단된 M-MLV 리버스 트랜스크립타아제일 수 있다. 이때, 말단 절단된 M-MLV 리버스 트랜스크립타아제는 4개의 돌연변이(D200N, T306K, W313F, 및 T330P)를 포함할 수 있다. 여기서, 전술한 M-MLV 리버스 트랜스크립타아제 펜타뮤턴트에 존재하는 L603W 돌연변이는 말단 절단으로 인해 더 이상 존재하지 않는다. 일부 실시양태에서, 폴리머라아제 또는 리버스 트랜스크립타제는 코돈 최적화된 것일 수 있다.
리버스 트랜스크립타제 (RT) 유전자 (또는 그 안에 함유된 유전자 정보)는 다수의 상이한 공급원으로부터 수득될 수 있다. 예를 들어, 유전자는 레트로바이러스로 감염된 진핵 세포로부터, 또는 레트로바이러스 게놈의 부분 또는 전체를 함유하는 다수의 플라스미드로부터 수득될 수 있다. 또한, RT 유전자를 함유하는 메신저 RNA-유사 RNA는 레트로바이러스로부터 수득될 수 있다. 프라임 에디터 단백질에 포함될 수 있는 리버스 트랜스크립타아제에 대한 다양한 예시는 문헌 [미국 특허출원 출원번호 17/219,672]에 상세히 설명된다.
일부 실시양태에서, 야생형 M-MLV 리버스 트랜스크립타아제는 다음의 서열번호 26의 아미노산 서열을 포함할 수 있다:
Figure PCTKR2023001867-appb-img-000005
일부 실시양태에서, D200N, T306K, W313F, T330P, 및 L603W 변이를 포함하는 야생형 M-MLV 리버스 트랜스크립타아제의 변이체는 다음의 서열번호 27의 아미노산 서열을 포함할 수 있다:
Figure PCTKR2023001867-appb-img-000006
프라임 에디터 단백질에 추가적으로 포함될 수 있는 요소
프라임 에디터 단백질은 Cas 단백질 및 폴리머라아제 (예를 들어, 리버스 트랜스크립타아제)를 포함한다. 일부 실시양태에서, 프라임 에디터 단백질은 위 두 요소에 더하여, 하나 이상의 링커 (예를 들어, 프라임 에디터 단백질에 포함된 요소를 연결하기 위한 링커) 및 하나 이상의 NLS (nuclear localization sequence) 등과 같은 추가적인 요소를 더 포함할 수 있다.
프라임 에디터 단백질은 하나 이상의 링커를 포함할 수 있다. 예를 들어, 링커는 Cas 단백질을 프라임 에디터 단백질에 포함된 다른 구조와 연결시키기 위해 사용될 수 있다. 링커는 관련 기술분야의 임의의 공지된 링커일 수 있다. 예를 들어, 링커는 폴리머라아제를 프라임 에디터 단백질에 포함된 다른 구조와 연결하기 위해 사용될 수 있다. 예를 들어, 링커는 NLS를 프라임 에디터 단백질에 포함된 다른 구조와 연결하기 위해 사용될 수 있다. 예를 들어, 링커는 Cas 단백질 및 폴리머라아제를 연결하기 위해 사용될 수 있다. 예를 들어, 링커는 링커와 독립적으로 선택된 다른 링커를 연결하기 위해 사용될 수 있다. 일부 실시양태에서, 링커는, 공유 결합, 유기 분자, 그룹, 중합체, 또는 화학적 모이어티일 수 있다. 일부 실시양태에서, 각각의 링커는 독립적으로 선택될 수 있다. 링커는 3 내지 100개의 또는 그 이상의 아미노산 길이를 가질 수 있다. 예를 들어, 링커는 약 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 32, 34, 36, 38, 40, 42, 44, 46, 48, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 또는 200개 아미노산 길이이거나 전술한 값 중 선택되는 두 값에 의해 설정되는 범위의 아미노산 길이일 수 있다. 일부 실시양태에서, 링커는 다음의 아미노산 서열을 포함할 수 있다: 하나 이상의 G, 하나 이상의 XP (여기서, X는 임의의 아미노산임), 하나 이상의 EAAAK (서열번호 35), 하나 이상의 GGS (서열번호 36), 하나 이상의 SGGS (서열번호 37), 또는 하나 이상의 GGGGS (서열번호 38)을 포함할 수 있다. 일부 실시양태에서, 링커는 아미노산 서열 SGSETPGTSESATPES (서열번호 39), 또는 SGGSSGGSSGSETPGTSESATPESSGGSSGGS (서열번호 40)을 포함할 수 있으나, 달리 제한되지 않는다. 일부 실시양태에서, 링커는 XTEN 링커 (예를 들어, XTEN16 링커)일 수 있다. 전술한 바와 같이, 프라임 에디터 단백질은 하나 이상의 링커를 포함할 수 있으며, 각각의 링커는 독립적으로 선택 또는 결정될 수 있다. 링커의 다양한 예시는 문헌 [미국 특허출원 출원번호 17/219,672]에 상세히 설명된다.
프라임 에디터 단백질은 하나 이상의 NLS를 포함할 수 있다. 일부 실시양태에서, 프라임 에디터 단백질은 2개 이상의 NLS를 포함할 수 있다. 프라임 에디터 단백질이 복수의 NLS를 포함하는 경우, 각각의 NLS는 독립적으로 선택 또는 결정될 수 있다. NLS는 관련 기술분야의 임의의 공지된 NLS일 수 있다. NLS는 핵 국재화를 위한 임의의 추후 발견될 NLS일 수 있다. NLS는 임의의 자연 발생 NLS, 또는 임의의 비-자연 발생 (예를 들어, 1개 이상의 돌연변이를 갖는) NLS일 수 있다. 일부 실시양태에서, NLS는 아미노산 서열 PKKKRKV (서열번호 01)를 갖는 SV40 바이러스 대형 T-항원의 NLS; 아미노산 서열 KRTADGSEFESPKKKRKVE (서열번호 18)을 포함하는 이분(bipartite) SV40 NLS (또는 PKKKRKV 이외의 부분에서 하나의 아미노산의 결실을 포함하는 이분 SV40 NLS); 뉴클레오플라스민(nucleoplasmin)으로부터의 NLS(예를 들어, 서열 KRPAATKKAGQAKKKK (서열번호 02)를 갖는 뉴클레오플라스민 이분(bipartite) NLS); 아미노산 서열 PAAKRVKLD (서열번호 03)또는 RQRRNELKRSP (서열번호 04)를 갖는 c-myc NLS; 서열 NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY (서열번호 05)를 갖는 hRNPA1 M9 NLS; 임포틴-알파로부터의 IBB 도메인의 서열 RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV (서열번호 06); 마이오마(myoma) T 단백질의 서열 VSRKRPRP (서열번호 07)및 PPKKARED (서열번호 08); 인간 p53의 서열 PQPKKKPL (서열번호 09); 마우스 c-abl IV의 서열 SALIKKKKKMAP (서열번호 10); 인플루엔자 바이러스 NS1의 서열 DRLRR (서열번호 11)및 PKQKKRK (서열번호 12); 간염 바이러스 델타 항원의 서열 RKLKKKIKKL (서열번호 13); 마우스 Mx1 단백질의 서열 REKKKFLKRR (서열번호 14); 인간 폴리(ADP-리보스) 중합효소의 서열 KRKGDEVDGVDEVAKKKSKK (서열번호 15); 또는 스테로이드 호르몬 수용체(인간) 글루코코르티코이드의 서열 RKCLQAGMNLEARKTKK (서열번호 16)로부터 유래된 NLS 서열일 수 있으나, 이에 제한되지 않는다. 일부 실시양태에서, NLS는 코돈 최적화된 것일 수 있다.
NLS의 다양한 예시는 문헌 [미국 특허출원 출원번호 17/219,672]에 상세히 설명된다.
pegRNA (prime editing guide RNA)
pegRNA 개괄
본 명세서에서 사용되는 용어 "프라임 에디팅 가이드 RNA (prime editing guide RNA)", "pegRNA" 또는 "연장된 가이드 RNA"는 본 명세서에 개시된 프라임 에디팅 방법 및 조성물을 구현하기 위한, 하나 이상의 추가의 서열을 포함하도록 변형된 특수화된 형태의 가이드 RNA를 지칭한다. 프라임 에디팅 시스템에서 pegRNA는 프라임 에디터 단백질과 함께 사용된다. 본 명세서에 기재된 바와 같이, pegRNA는 연장 암 (extension arm) 또는 연장 영역 (extension region)을 포함한다. 연장 암은 단일 가닥 RNA 서열 및/또는 DNA 서열을 포함할 수 있으나, 이에 제한되지 않는다. 전술한 바와 같이, 전통적인 CRISPR/Cas 시스템에 사용되는 가이드 RNA (즉, pegRNA의 연장 암을 포함하지 않는 가이드 RNA)는 전통적인 가이드 RNA로 지칭되어, pegRNA와 구분될 수 있다. 예를 들어, 연장 암은 전통적인 가이드 RNA의 3' 단부에서 발생할 수 있다. 다른 예로, 연장 암은 전통적인 가이드 RNA의 5' 단부에서 발생할 수 있다. 일부 실시양태에서, pegRNA는 스페이서 영역, gRNA 코어, 및 전통적인 가이드 RNA의 3' 단부 또는 5' 단부에서 발생한 연장 암을 포함할 수 있다.
연장 암 (extension arm)
용어 "연장 암"은 폴리머라아제(예를 들어, 리버스 트랜스크립타아제) 대한 프라이머 결합 부위 (Primer binding site; PBS), 및 DNA 합성 주형(예를 들어, 편집 주형을 포함함)을 포함하는, 다양한 기능을 제공하는 pegRNA 뉴클레오티드 서열 부분을 지칭한다. pegRNA에서, 연장 암은 연장 영역으로 설명될 수 있다. 일부 실시양태에서, 연장 암은 가이드 RNA의 3' 단부에 위치할 수 있다. 일부 실시양태에서, 가이드 RNA의 3' 단부에 위치하는 연장 암은 3' 연장 암으로 지칭될 수 있다. 다른 실시양태에서, 연장 암은 가이드 RNA의 5' 단부에 위치할 수 있다. 일부 실시양태에서, 가이드 RNA의 5' 단부에 위치하는 연장 암은 5' 연장 암으로 지칭될 수 있다. 일부 실시양태에서, 연장 암은 상동성 암을 포함할 수 있다. 일부 실시양태에서, 연장 암은 편집 주형을 포함할 수 있다. 일부 실시양태에서, 연장 암은 프라이머 결합 부위를 포함할 수 있다. 다양한 실시양태에서, 연장 암(예를 들어, 3' 연장 암)은 하기 요소를 5'에서 3' 방향으로 포함한다: DNA 합성 주형, 및 프라이머 결합 부위. 즉, pegRNA 전체를 기준으로 설명하면, pegRNA는 하기 요소를 5'에서 3' 방향으로 포함할 수 있다: 스페이서, gRNA 코어, DNA 합성 주형, 및 프라이머 결합 부. DNA 합성 주형은 상동성 영역 및 편집 주형을 포함할 수 있다. 다양한 실시양태에서, 연장 암은 하기 요소를 5'에서 3' 방향으로 포함할 수 있다: 상동성 영역, 편집 주형, 및 프라이머 결합 부위. 즉, pegRNA 전체를 기준으로 설명하면, pegRNA는 하기 요소를 5'에서 3' 방향으로 포함할 수 있다: 스페이서, gRNA 코어, 상동성 영역, 편집 주형, 및 프라이머 결합 부. 일부 실시양태에서, 5' 연장 암은 하기 요소를 5' 에서 3' 방향으로 포함할 수 있다: DNA 합성 주형, 및 프라이머 결합 부.
폴리머라아제의 예시인 리버스 트랜스크립타아제의 중합 활성은, 주형 가닥과 결과적으로 결합되는 가닥을 기준으로, 5'에서 3' 방향으로 존재한다. 프라이머와 프라이머 결합 부위(PBS)가 어닐링되면, 리버스 트랜스크립타아제가 상보적 주형 가닥 (DNA 합성 주형)을 역전사의 주형으로 사용하여 DNA의 단일 가닥을 중합한다. 프라임 에디팅에 사용되는 연장 암의 다양한 실시양태는 문헌 [미국 특허출원 출원번호 17/219,672]에 상세히 설명된다.
pegRNA의 연장 암은, 예를 들어, 일반적으로 2개의 영역: 프라이머 결합 부위 (PBS) 및 DNA 합성 주형(예를 들어, 역전사 주형)을 포함하는 것으로 설명될 수 있다. 예를 들어, PE2에서, 프라이머 결합 부위는 프라임 에디터 단백질에 의해 생성된 닉킹 표적 부위의 내인성 DNA 가닥으로부터 형성된 프라이머 서열에 결합하여, 닉킹된 가닥 상의 3' 단부를 노출시킨다. 본 명세서에 설명된 바와 같이, pegRNA의 연장 암 상의 프라이머 결합 부위에 대한 프라이머 서열의 결합은 노출된 3' 단부 (즉, 프라이머 서열의 3' 단부)를 갖는 듀플렉스 영역을 생성하고, 이는 이어서 리버스 트랜스크립타아제가 DNA 합성 주형의 길이를 따라 노출된 3' 단부로부터 DNA의 단일 가닥을 중합시키기 위한 기질을 제공한다. 단일 가닥 DNA 생성물의 서열은 DNA 합성 주형의 상보체이다. 중합은 중합이 종결될 때까지 DNA 합성 주형 (또는 연장 암)의 5'을 향해 계속된다. 따라서, DNA 합성 주형은 프라임 에디터 단백질의 폴리머라아제에 의해 단일 가닥 DNA 생성물 (즉, 목적하는 유전자 편집 정보를 함유하는 3' 단일 가닥 DNA 플랩)로 코딩된다. 결과적으로, PE-유도된 닉(nick) 부위의 바로 하류에 위치하는 표적 부위에 상응하는 내인성 DNA 가닥을 대체하는 3' 단일 가닥 DNA 플랩(예를 들어, DNA 합성 주형에 상보적임)이 형성된다. DNA 합성 주형의 중합은 종결까지 연장 암의 5' 단부를 향해 계속될 수 있으나, 이에 제한되지 않는다. 중합은 (a) pegRNA의 5' 말단에 도달하는 것, (b) 통과할 수 없는 RNA 2차 구조 (예를 들어, 헤어핀 또는 스템/루프)에 도달하는 것, 또는 (c) 복제 종결 신호, 예를 들어 폴리머라아제를 차단 또는 억제하는 특이적 뉴클레오티드 서열, 또는 핵산 위상 신호, 예를 들어 슈퍼코일드 DNA 또는 RNA에 도달하는 것을 포함하나 이에 제한되지 않는 다양한 방식으로 종결될 수 있으나, 이에 제한되지 않는다. 몇몇 프라임 에디팅과 관련된 문헌에서는 pegRNA의 gRNA 코어의 일부와 상동성을 갖는 서열이 3' DNA 플랩 또는 에디팅 위치에서 발견되는 것으로 보고하고 있는 것으로 보아, 전술한 양태는 예시일 뿐이며 중합의 종결은 전술한 양태에 제한되지 않는 것으로 관련 분야의 기술자에게 이해될 것이다.
프라이머 결합 부 (Primer binding site; PBS)
프라임 에디팅 시스템에서, 폴리머라아제에 의한 중합을 통해 pegRNA에 포함된 DNA 합성 주형에 존재하는 정보가 내인성 DNA 가닥으로 전달된다. 폴리머라아제에 의한 폴리머라이제이션이 수행되기 위해서는 프라이머가 주형 가닥에 결합되어야 하며, 프라이머의 결합 또는 어닐링은 DNA 중합을 가능하도록 한다. 프라임 에디팅 시스템에서는 Cas 단백질에의해 유도된 DSB 또는 nick이 발생된 부위의 일부 영역을 프라이머로 이용한다. 예를 들어, PE2를 기초로 설명하면, 프라임 에디터 단백질의 Cas 단백질에 의해 유도된, 스페이서 비-결합 가닥의 nick의 상류에 위치한 일부 영역을 프라이머로 이용한다. 이때, nick의 상류에 위치한 영역의 서열과 상보적으로 결합하도록 디자인된 영역을 프라이머 결합 부로 지칭하며, 프라이머 결합 부는 pegRNA의 연장 영역 상에 위치한다. 이하에서 PE2의 프라임 에디팅 과정에 대해 추가적으로 설명한다. 프라이머 결합 부와 내인성 DNA (예를 들어 게놈)의 프라이머로 사용되는 영역이 결합되면, 프라이머를 역전사의 주형으로 하여 리버스 트랜스크립타아제에의해 역전사가 수행된다. 이때, 역전사의 주형 가닥 (즉, pegRNA)을 기준으로 3' 에서 5' 방향으로 역전사가 수행됨은 관련 분야의 기술자에게 명백할 것이다. 역전사가 수행되면, DNA 주형의 서열과 상보성을 갖는 서열이 게놈 DNA의 3' 플랩에 포함된다. 즉, DNA 주형의 정보가 역전사에 의해 3' 플랩으로 전달된다. 이후, 5' 플랩의 제거와 세포 DNA 복구 및/또는 복제를 포함하는 과정을 통해 DNA 주형의 정보는, 결국, 편집을 목적하는 DNA의 다른 가닥까지 전달된다. 목적하는 프라임 에디팅의 결과는 편집을 목적하는 위치의 제1 가닥 (여기서, 제1 가닥은 스페이서 비-결합 가닥임) 및/또는 제2 가닥 (여기서, 제2 가닥은 스페이서 결합 가닥임)에 DNA 주형의 정보를 전달 또는 설치하는 것이다. 즉, 예시적인 PE2 프라임 에디팅의 결과로, 제1 가닥의 목적하는 위치에는 DNA 주형 가닥의 서열과 상보성을 갖는 DNA 서열이 존재하게 되고, 제2 가닥의 목적하는 위치에는 DNA 주형 가닥의 서열과 동일한 DNA 서열이 존재하게 된다.
일부 실시양태에서, pegRNA의 프라이머 결합 부는 DNA 분자(예를 들어, 게놈 DNA)의 DSB 발생 위치 또는 nick 발생 위치의 상류에 위치하는 영역의 서열에 상보성을 갖는 서열로 디자인될 수 있다. 일부 실시양태에서, 프라이머 결합 부는 DNA 분자의 스페이서 비-결합 가닥의 DSB 발생 위치 또는 nick 발생 위치의 상류에 위치하는 영역의 서열에 상보성을 갖는 서열로 디자인될 수 있다. 즉, DNA 분자의 스페이서 비-결합 가닥의 DSB 발생 위치 또는 nick 발생 위치의 상류에 위치하는 영역의 서열은 프라임 에디팅 과정에서 프라이머로 기능한다. 전술한 바와 같이, PE2의 예시에서, 닉의 5' 방향에 위치한 서열이 프라이머로 기능하고, 프라이머와 프라이머 결합 부의 결합을 통해 DNA 분자의 nick 단부가 역전사 효소에 노출된다.
일부 실시양태에서, 프라이머는 3 nt, 4 nt, 5 nt, 6 nt, 7 nt, 8 nt, 9 nt, 10 nt, 11 nt, 12 nt, 13 nt, 14 nt, 15 nt, 16 nt, 17 nt, 18 nt, 19 nt, 20 nt, 21 nt, 22 nt, 23 nt, 24 nt, 25 nt, 26 nt, 27 nt, 28 nt, 29 nt, 30 nt, 31 nt, 32 nt, 33 nt, 34 nt, 35 nt, 36 nt, 37 nt, 38 nt, 39 nt, 40 nt, 41 nt, 42 nt, 43 nt, 44 nt, 45 nt, 46 nt, 47 nt, 48 nt, 49 nt, 50 nt, 또는 그 초과의 길이를 갖거나, 전술한 값 중 선택되는 두개의 값으로 형성되는 범위의 길이를 가질 수 있다. 특정한 실시양태에서, 프라이머는 5 nt, 6 nt, 7 nt, 8 nt, 9 nt, 10 nt, 11 nt, 12 nt, 13 nt, 14 nt, 15 nt, 16 nt, 17 nt, 18 nt, 19 nt, 20 nt, 21 nt, 22 nt, 23 nt, 24 nt, 또는 25 nt의 길이를 갖거나, 전술한 값 중 선택되는 두개의 값으로 형성되는 범위의 길이를 가질 수 있다.
일부 실시양태에서, 프라이머 결합 부는 3 nt, 4 nt, 5 nt, 6 nt, 7 nt, 8 nt, 9 nt, 10 nt, 11 nt, 12 nt, 13 nt, 14 nt, 15 nt, 16 nt, 17 nt, 18 nt, 19 nt, 20 nt, 21 nt, 22 nt, 23 nt, 24 nt, 25 nt, 26 nt, 27 nt, 28 nt, 29 nt, 30 nt, 31 nt, 32 nt, 33 nt, 34 nt, 35 nt, 36 nt, 37 nt, 38 nt, 39 nt, 40 nt, 41 nt, 42 nt, 43 nt, 44 nt, 45 nt, 46 nt, 47 nt, 48 nt, 49 nt, 50 nt, 또는 그 초과의 길이를 갖거나, 전술한 값 중 선택되는 두개의 값으로 형성되는 범위의 길이를 가질 수 있다. 특정한 실시양태에서, 프라이머 결합 부는 5 nt, 6 nt, 7 nt, 8 nt, 9 nt, 10 nt, 11 nt, 12 nt, 13 nt, 14 nt, 15 nt, 16 nt, 17 nt, 18 nt, 19 nt, 20 nt, 21 nt, 22 nt, 23 nt, 24 nt, 또는 25 nt의 길이를 갖거나, 전술한 값 중 선택되는 두개의 값으로 형성되는 범위의 길이를 가질 수 있다. 프라이머 결합 부의 길이는 목적에 따라 적절히 선택될 수 있고, 달리 제한되지 않는다.
DNA 합성 주형 (DNA synthesis template)
본 명세서에서 사용되는 용어 "DNA 합성 주형"은, 프라임 에디팅에서, 목적하는 편집(desired edit)을 포함하는 3' 단일 가닥 DNA 플랩(flap)을 코딩하기 위해, 프라임 에디터 단백질의 폴리머라아제에 의해 주형 가닥으로서 이용되는 영역 또는 부분을 지칭한다. 나아가, 프라임 에디팅 매커니즘을 통해, 표적 위치에서 상응하는 내인성 DNA 가닥을 대체하는, pegRNA의 연장 영역(extension region)에 포함된 영역 또는 부분을 지칭한다. PEgRNA의 연장 영역(extension region) 및 DNA 합성 주형의 다양한 실시양태는 본 명세서에 그 전체가 참조로 포함되는 문헌 [미국 특허출원 출원번호 17/219,672]에 상세히 설명된다.
DNA 합성 주형을 포함하는 연장 영역(extension region)은 DNA, RNA, 또는 DNA/RNA 하이브리드로 구성될 수 있다. RNA의 경우에, 프라임 에디터(prime editor) 단백질의 폴리머라아제는 RNA-의존성 DNA 폴리머라아제 (예를 들어, 리버스 트랜스크립타아제, reverse transcriptase)일 수 있다. DNA 합성 주형은 DNA 중합 주형 또는 역전사 주형 (reverse transcription template; RT templat)으로 지칭될 수 있으며, 여기서, RT 주형은 프라임 에디팅 시스템에서 리버스 트랜스크립타아제의 사용을 의도한다. DNA의 경우에, 프라임 에디터의 폴리머라아제는 DNA-의존성 DNA 폴리머라아제일 수 있다. 다양한 실시양태에서, DNA 합성 주형(예를 들어, RT 주형)은 "편집 주형(edit template)" 및 "상동성 영역(homology region)"을 포함할 수 있다.
일부 실시양태에서, DNA 합성 주형은 편집 주형 및 상동성 영역에 더하여 임의적 5' 단부 변형제 영역(optional 5' end modifier region) e2의 모두 또는 부분을 포함할 수 있다. e2 영역의 성질 (예를 들어, 헤어핀, 토루프 또는 스템/루프 2차 구조의 포함 여부 등)에 따라, 폴리머라아제는 e2 영역 중 어느 것도 코딩하지 않을 수 있거나, 일부 또는 모두를 코딩할 수 있다. 일부 실시양태에서, 3' 연장 암의 경우에, DNA 합성 주형은 프라이머 결합 부위 (primer binding site; PBS)의 5' 단부로부터 gRNA 코어의 3' 단부까지 걸쳐 있는 연장 암의 부분을 포함할 수 있다. 다른 실시양태에서, 5' 연장 암의 경우에, DNA 합성 주형은 pegRNA 분자의 5' 단부로부터 프라이머 결합 부위의 3' 단부까지 걸쳐 있는 연장 암의 부분을 포함할 수 있다. 바람직하게는, DNA 합성 주형은 3' 연장 암 또는 5' 연장 암을 갖는 pegRNA의 프라이머 결합 부위(PBS)를 배제한다.
본 명세서에 기재된 특정 실시양태에서는, DNA 합성 주형은 편집 주형 및 상동성 암을 포함하는 "RT 주형(reverse transcription template; RT template)"으로 지칭될 수 있다. RT 주형은 DNA 합성에서 주형으로 사용되는 pegRNA 연장 암의 일부 서열을 지칭할 수 있다. 용어 "RT template"은 DNA 합성 주형과 동등하게 사용될 수 있다.
트랜스 프라임 에디팅의 경우에, 프라이머 결합 부위 (PBS) 및 DNA 합성 주형은 트랜스 프라임 에디팅 RNA 주형 (tPERT)으로 지칭되는 개별 분자로 엔지니어될 수 있다 (문헌 [미국 특허출원 출원번호 17/219,672] 참조).
DNA 합성 주형의 요소 1 - 편집 주형
용어 "편집 주형(edit template)"은 폴리머라아제, 예를 들어 DNA-의존성 DNA 폴리머라아제, RNA-의존성 DNA 폴리머라아제 (예를 들어, 리버스 트랜스크립타아제)에 의해 합성된 단일 가닥 3' DNA 플랩의 목적하는 편집(desired edit)을 코딩하는 연장 암의 부분을 지칭한다. 즉, 편집 주형은 목적하는 편집과 상보성을 가질 수 있다. 일부 실시양태에서, DNA 합성 주형은 편집 주형 및 상동성 암을 포함할 수 있다. 일부 실시양태에서, RT 주형은 편집 주형 및 상동성 암을 포함할 수 있다. 용어 "RT 주형"은 DNA 합성 주형과 동등하지만, 여기서 RT 주형은 리버스 트랜스크립타아제인 폴리머라아제를 갖는 프라임 에디터 단백질의 사용을 반영하고, DNA 합성 주형은 임의의 폴리머라아제를 갖는 프라임 에디터 단백질의 사용을 보다 광범위하게 반영한다.
편집 대상 DNA 분자(예를 들어, 게놈)의 타겟 영역 내에 설치되는 목적하는 편집은 하나 이상의 뉴클레오타이드의 삽입, 하나 이상의 뉴클레오타이드의 결실, 및 하나 이상의 뉴클레오타이드의 다른 뉴클레오타이드로의 치환 중 어느 하나 또는 이들의 조합을 포함할 수 있다. 예를 들어, 편집은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 50 이상의 뉴클레오타이드의 삽입을 포함할 수 있고, 이때 상기 삽입되는 뉴클레오타이드는 핵산 내에서 연속되어 위치할 수 있거나 연속되지 않을 수 있다. 예를 들어, 편집은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 50 이상의 뉴클레오타이드의 결실을 포함할 수 있고, 이때 상기 결실되는 뉴클레오타이드는 핵산 내에서 연속되어 위치할 수 있거나 연속되지 않을 수 있다. 예를 들어, 편집은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 50 이상의 뉴클레오타이드의 치환을 포함할 수 있고, 이때 상기 치환되는 뉴클레오타이드는 핵산 내에서 연속되어 위치할 수 있거나 연속되지 않을 수 있다. 다른 예로, 편집은 전술한 삽입 및 치환을 포함할 수 있다. 다른 예로, 편집은 전술한 결실 및 치환을 포함할 수 있다. 다른 예로, 편집은 전술한 삽입 및 결실을 포함할 수 있다. 다른 예로, 편집은 전술한 삽입, 결실, 및 치환을 포함할 수 있다.
DNA 합성 주형의 요소 2 - 상동성 암 (homology arm) (또는 상동성 영역)
용어 "상동성 암"은 내인성 가닥을 대체함을 통해 표적 DNA 부위 내로 통합될 연장 암의 부분을 지칭한다. 예로, PE2의 프라임 에디팅에서, 리버스 트랜스크립타아제에 의해 코딩되는 단일 가닥 DNA 플랩의 일부를 코딩하는 연장 암의 부분을 지칭할 수 있다. 예를 들어, PE2 시스템에서, 상동성 암에 의해 코딩되는 단일 가닥 DNA 플랩의 부분은 표적 DNA의 비-편집 가닥 (예를 들어, 스페이서 결합 가닥)에 상보적이다. 즉, PE2에서는 상동성 암의 서열은 표적 DNA의 스페이서 비결합 가닥에 위치하는 상응하는 서열에 상보성을 갖는 서열을 갖고, 스페이서 결합 가닥에 위치하는 상응하는 DNA 서열과 실질적으로 동일한 서열을 갖는다. 상동성 암은 내인성 가닥을 대체하고 단일 가닥 DNA 플랩의 어닐링을 용이하게 하여, 표적 DNA 분자에 편집을 설치하는데 도움을 준다. 상동성 암은 정의에 의해 본 명세서에 개시된 프라임 편집제의 폴리머라아제에 의해 코딩되기 때문에 DNA 합성 주형의 일부이다.
pegRNA에 추가적으로 포함될 수 있는 요소와 엔지니어된 pegRNA (engineered pegRNA; epegRNA)
엔지니어된 pegRNA(engineered pegRNA; epegRNA)은 문헌 [Nelson, James W., et al. "Engineered pegRNAs improve prime editing efficiency." Nature biotechnology 40.3 (2022): 402-410.]을 참조하여 설명되며, 상기 문헌의 전체 내용은 본 명세서에 참조로 포함된다. epegRNA는 pegRNA의 타입 중 하나로, 개량된 pegRNA를 지칭하는 것으로 사용될 수 있다. 구체적으로, epegRNA는 pegRNA의 3' 또는 5' 단부에 RNA 모티프가 추가된 형태의 pegRNA를 지칭한다. 일부 실시양태에서, epegRNA는 3' 단부에 RNA 모티프 (또는 엔지니어된 RNA 모티프)가 추가된 형태의 pegRNA일 수 있다. epegRNA는 예를 들어, 5' 에서 3' 방향으로 하기의 요소를 포함할 수 있다: 스페이서, gRNA 코어, DNA 합성 주형, 프라이머 결합 부, 및 RNA 모티프.
David R. Liu et al. 은 pegRNA의 안정성을 향상시키고 pegRNA의 3' 연장 영역의 분해를 방지하기 위해 pegRNA의 3' 단부에 RNA 모티프가 추가된 engineered pegRNA (epegRNA)를 개발하였다. 구체적으로 David R. Liu et al. 은 상기 문헌에서 기존의 pegRNA의 3' 단부에 안정성 유사매듭 (pseudoknot)이 추가적으로 통합된 epegRNA를 개시한다. 유사매듭의 예시는 문헌 [Nelson, James W., et al. "Engineered pegRNAs improve prime editing efficiency." Nature biotechnology 40.3 (2022): 402-410.]에 설명된 evopreQ1 (modified prequeosine1-1 riboswitch aptamer) 및 mpknot(frameshifting pseudoknot from Moloney murine leukemia virus)을 포함하며, 이에 제한되지 않는다.
epegRNA는 프라임 에디터 단백질의 종류에 구애받지 않고 사용될 수 있다. 예를 들어, epegRNA는 프라임 에디팅 버전 2 (PE2)의 spCas9 닉카제를 포함하는 프라임 에디터 단백질과 함께 사용될 수 있다. 다른 예로, epegRNA는 nuclease 활성(즉, DSB 활성)을 갖는 Cas9를 포함하는 PE-nuclease와 함께 DNA 분자 (예를 들어, 게놈)의 편집을 위해 사용될 수 있다. 본 명세서에서 용어 pegRNA는 epegRNA의 양태를 포함하는 개념으로 사용되며, 달리 명시되지 않는 한, pegRNA에 대한 기재는 epegRNA와 관련된 내용을 포함하는 것으로 해석될 것이다.
일부 실시양태에서, pegRNA는 3' 단부에 3' 엔지니어링 영역 (3' engineered region)을 더 포함할 수 있다. 3' 엔지니어링 영역이 포함된 pegRNA는 epegRNA로 지칭될 수 있다. 즉, epegRNA는 pegRNA의 요소에 3' 엔지니어링 영역(3' engineered region)을 더 포함할 수 있다. 일부 실시양태에서, 3' 엔지니어링 영역은 RNA 보호 모티프를 포함할 수 있다. 특정한 실시양태에서, RNA 보호 모티프는 RNA 서열을 포함할 수 있다. 특정한 실시양태에서, RNA 보호 모티프는 DNA 서열을 포함할 수 있다. 특정한 실시양태에서, RNA 보호 모티프는 DNA/RNA 하이브리드 서열을 포함할 수 있다. 특정한 실시양태에서, RNA 보호 모티프는 evopreQ1 또는 mpknot를 포함할 수 있으나, 이에 제한되지 않고, RNA의 분해를 방지하고 안정성을 높이기 위한 다른 임의의 구조를 포함할 수 있다.
일부 실시양태에서, 3' 엔지니어링 영역은 RNA 보호 모티프, 및 RNA 보호 모티프를 연결하기 위한 링커를 포함할 수 있다. 상기 링커는 epegRNA에서 RNA 보호 모티프와 프라이머 결합 부위(primer binding site)를 연결하는 역할을 한다. 일부 실시양태에서, RNA 보호 모티프를 연결하기 위한 링커는 RNA 서열을 포함할 수 있다. 일부 실시양태에서, RNA 보호 모티프를 연결하기 위한 링커는 DNA 서열을 포함할 수 있다. 일부 실시양태에서, RNA 보호 모티프를 연결하기 위한 링커는 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40nt, 또는 그 초과의 길이이거나, 전술한 값 중 선택되는 두개의 값으로 설정되는 범위의 길이일 수 있다. 일부 실시양태에서, RNA 보호 모티프를 연결하기 위한 링커는 상기 링커와 PBS 또는 상기 링커와 pegRNA의 스페이서의 base 페어링 상호작용을 피하기 위해 디자인될 수 있다. 일부 실시양태에서, RNA 보호 모티프를 연결하기 위한 링커의 서열은 표적 DNA 분자의 표적 영역 내의 서열이 고려되어 설계될 수 있다.
이하에서, 프라임 에디팅의 기본 요소인 프라임 에디터 단백질 및 pegRNA를 바탕으로 개발된 다양한 버전의 프라임 에디팅을 예시한다. 프라임 에디팅은 하기에 예시된 버전에 의해 제한되는 것은 아니다.
프라임 에디팅 버전의 예시
프라임 에디팅 버전의 예시 개괄
전술한 프라임 에디팅의 코어 매커니즘을 기반으로 다양한 버전의 프라임 에디팅이 개발되었다. 관련 분야의 기술자의 이해를 돕기 위해 프라임 에디팅 버전의 예시를 설명한다. 본 출원에 의해 제공되는 프라임 에디팅의 오프 타겟을 찾기 위한 방법은 하기의 예시된 다양한 프라임 에디팅 버전의 프라임 에디터 단백질, epegRNA를 포함하는 다양한 종류의 pegRNA, 및/또는 dnMLH1과 같은 추가적 요소를 이용할 수 있고, 달리 제한되지 않는다. 나아가, 본 출원에 의해 제공되는 프라임 에디팅의 오프 타겟을 찾기 위한 방법은 하기의 예시된 프라임 에디팅의 버전들과 이후에 개발될 새로운 프라임 에디팅 버전에 또한 적용될 수 있는 바, 하기의 예시된 프라임 에디팅 버전에 본 출원을 통해 제공되는 방법의 적용 범위가 제한되어서는 아니될 것이다.
프라임 에디팅 버전 1 (PE1)
프라임 에디팅 버전 1(PE1)은 다음의 요소의 사용을 포함하는 프라임 에디팅 시스템의 버전을 나타낸다:
spCas9(H840A) 및 야생형 MMLV RT (Moloney murine leukaemia virus reverse transcriptase)를 포함하는 프라임 에디터 단백질; 및
pegRNA.
즉, PE1의 프라임 에디터 단백질은 닉카제 활성을 갖는 Cas 단백질 및 야생형의 MMLV RT를 포함한다. PE1 프라임 에디터 단백질은 Cas 단백질 및 리버스 트랜스크립타아제가 링커를 통해 연결되어 있는 융합 단백질의 형태이다.
PE1 프라임 에디터 단백질과 pegRNA는 복합체를 이루고, 이를 통해 표적 영역에서 DNA 분자의 편집 (예를 들어, 게놈 편집)을 유도 또는 수행한다. PE1은 문헌 [Anzalone, Andrew V., et al. "Search-and-replace genome editing without double-strand breaks or donor DNA." Nature 576.7785 (2019): 149-157.]에서 상세히 설명된다.
프라임 에디팅 버전 2 (PE2)
프라임 에디팅 버전 2(PE2)는 다음의 요소의 사용을 포함하는 프라임 에디팅 시스템의 버전을 나타낸다:
spCas9(H840A) 및 MMLV RT (D200N+L603W+T330P+T306K+W313F)을 포함하는 프라임 에디터 단백질; 및
pegRNA.
즉, PE2의 프라임 에디터 단백질은 닉카제 활성을 갖는 Cas 단백질 및 MMLV RT 펜타뮤턴트를 포함한다. PE2의 프라임 에디터 단백질은 Cas 단백질 및 리버스 트랜스크립타아제가 링커를 통해 연결되어 있는 융합 단백질의 형태이다. 구체적으로, PE2의 프라임 에디터 단백질은 하기의 구조를 갖는다:
[bpNLS(SV40)]-[SpCas9 H840A]-[SGGSX2-XTEN16-SGGSX2]-[MMLV RT pentamutant]-[bpNLS(SV40)].
여기서, bpNLS(SV40) 이분 (bipartite) SV40 NLS를 지칭한다. MMLV RT pentamutant는 야생형 MMLV RT와 비교할 때 아미노산 변이 D200N, L603W, T330P, T306K, 및 W313F을 포함하는 MMLV RT 변이체를 지칭한다.
PE2 프라임 에디팅 시스템은 문헌 [Anzalone, Andrew V., et al. "Search-and-replace genome editing without double-strand breaks or donor DNA." Nature 576.7785 (2019): 149-157.; 및 Chen, Peter J., et al. "Enhanced prime editing systems by manipulating cellular determinants of editing outcomes." Cell 184.22 (2021): 5635-5652.] 에서 상세히 설명된다. 일부 실시양태에서, PE2 프라임 에디터 단백질은 서열번호 32의 아미노산 서열을 포함할 수 있다.
서열번호 32의 아미노산 서열은 다음과 같다:
Figure PCTKR2023001867-appb-img-000007
프라임 에디팅 버전 3 (PE3)
PE3 프라임 에디팅 시스템은 제2 가닥 닉킹 가이드 RNA를 사용하여 비-편집 가닥(즉, pegRNA의 스페이서와 결합하는 가닥)에 닉을 발생시킴을 통해, 프라임 에디팅의 효율을 높이는 것을 목적으로 개발된 프라임 에디팅의 버전을 지칭한다. 제2 가닥 가이드 RNA는 편집 위치 또는 타겟 위치에 비-편집 가닥의 근접한 위치에 nick을 발생시킬 수 있도록, 전통적인 gRNA (예를 들어, sgRNA)의 형태로 디자인될 수 있다. 일부 실시양태에서, PE3는 프라임 에디팅 단백질에 더해, 별도의 Cas9 닉카제의 사용을 포함할 수 있다.
PE3b는 PE3를 지칭하지만, 여기서 제2 가닥 닉킹 가이드 RNA는 제2 가닥 닉이 목적하는 편집이 설치될 때까지 도입되지 않도록 시간적 제어를 위해 설계된다. 이는 단지 편집된 가닥에만 매칭되고 원래 대립유전자에는 매칭되지 않는 스페이서 서열을 갖는 gRNA를 설계함으로써 달성된다. PE3 및 PE3b는 문헌 [Anzalone, Andrew V., et al. "Search-and-replace genome editing without double-strand breaks or donor DNA." Nature 576.7785 (2019): 149-157.]에서 상세히 설명된다.
프라임 에디팅 버전 4 (PE4)
프라임 에디팅 버전 4(PE4)는 PE2와 동일한 머시너리(machinery)의 사용을 포함하지만, 추가로 우성 음성 MLH1 (dominant negative MLH1)을 암호화하는 플라스미드 또는 dnMLH1의 사용을 더 포함한다. 예를 들어, PE4는 다음의 요소의 사용을 포함하는 것으로 인식될 수 있다:
PE2 프라임 에디팅 단백질;
pegRNA; 및
dnMLH1 (dominant negative MLH1).
문헌 [Chen, Peter J., et al. "Enhanced prime editing systems by manipulating cellular determinants of editing outcomes." Cell 184.22 (2021): 5635-5652.]은, dominant negative MLH1은 억제에 의해 내인성 MLH1을 녹아웃할 수 있으므로, 세포 MMR 반응을 감소시키고 프라임 에디팅 효율을 증가시킨다고 설명한다.
프라임 에디팅 버전 5 (PE5)
프라임 에디팅 버전 5(PE5)는 PE3와 동일한 머시너리의 사용을 포함하지만, 추가로 우성 음성 MLH1을 암호화하는 플라스미드 또는 dnMLH1의 사용을 더 포함한다. PE5는 문헌 [Chen, Peter J., et al. "Enhanced prime editing systems by manipulating cellular determinants of editing outcomes." Cell 184.22 (2021): 5635-5652.]에 상세히 개시된다.
PEmax
PEmax는 편집 효율을 증가시키기 위해 개발된 프라임 에디팅의 개량된 버전이다. PEmax 프라임 에디터 단백질은 SpCas9 변이체 및 MMLV RT 변이체를 포함한다. 구체적으로, PEmax 프라임 에디터 단백질은 다음의 구조를 갖는다:
[bpNLS(SV40)]-[SpCas9 R221K N394K H840A]-[SGGSX2-bpNLS(SV40)-SGGSX2]-[MMLV RT pentamutant (codon opt.)]-[bpNLS(SV40)]-[NLS(c-Myc)]
여기서, bpNLS(SV40) 이분 (bipartite) SV40 NLS를 지칭한다. MMLV RT pentamutant (codon opt.)는 야생형 MMLV RT와 비교할 때 아미노산 변이 D200N, L603W, T330P, T306K, 및 W313F을 포함하는 인간 코돈 최적화된 MMLV RT 변이체를 지칭한다. 'SpCas9 R221K N394K H840A'은 야생형 SpCas9과 비교할 때 아미노산 변이 R221K, N394K, 및 H840A를 포함하는 SpCas9 변이체를 지칭한다. NLS(c-Myc)는 c-Myc NLS를 지칭한다. PEmax는 문헌 [Chen, Peter J., et al. "Enhanced prime editing systems by manipulating cellular determinants of editing outcomes." Cell 184.22 (2021): 5635-5652.]에 상세히 설명된다. 나아가, 상기 문헌은 PE2* 프라임 에디터 단백질, CMP-PE-V1 프라임 에디터 단백질, 및 CMP-PEmax 프라임 에디터 단백질 등과 같은 다양한 버전의 프라임 에디터 단백질을 개시하며, 이들 모두는 본 출원에 의해 제공되는 프라임 에디팅의 오프 타겟 예측 시스템에 사용될 수 있다.
뉴클라아제 기반 프라임 에디팅
뉴클리에이즈 기반 프라임 에디팅은, 프라임 에디팅의 버전 중 하나로, Cas9(H840A) 닉카제 대신 뉴클리에이즈 활성 (즉, DSB 활성)을 갖는 Cas 단백질 (예를 들어 야생형 SpCas9, 또는 닉카제가 아닌 SpCas9 변이체)을 사용한 것이다. 뉴클레이즈 기반 프라임 에디팅을 위한 프라임 에디터 단백질은 PE 뉴클레아제로 지칭될 수 있다. pegRNA의 스페이서와 결합하는 가닥에 닉을 유발하기 위해 디자인된 PE3와 다르게, 두 종류의 gRNA의 사용이 필수적인 것은 아니다. 한 종류의 pegRNA 및 Cas 뉴클리에이즈(닉카제가 아님)를 포함하는 프라임 에디팅 단백질을 통해 목적하는 위치에 DSB를 생성하여, 편집을 유도한다. 뉴클레이즈 기반 프라임 에디팅은 문헌 [Adikusuma, Fatwa, et al. "Optimized nickase-and nuclease-based prime editing in human and mouse cells." Nucleic acids research 49.18 (2021): 10785-10795.]에서 상세히 설명되고, 이의 그 전체 내용은 본 명세서에 참조로 포함된다. PE 뉴클레아제의 예시로, PE2-뉴클레아제가 있다. PE2-뉴클레아제는 다음의 구조를 갖는다: [bpNLS(SV40)]-[SpCas9 (WT)]-[SGGSx2-XTEN16-SGGSx2]-[MMLV RT]-[bpNLS(SV40)].
일부 실시양태에서, PE2-뉴클레아제는 서열번호 33의 아미노산 서열을 포함할 수 있다.
서열번호 33의 아미노산 서열은 다음과 같다:
Figure PCTKR2023001867-appb-img-000008
PEmax-뉴클라아제
PEmax-뉴클레아제는 PEmax 프라임 에디터 단백질을 기초로 개발된 뉴클레아제 기반 프라임 에디터 단백질로 (즉, PE-뉴클레아제의 일종), 닉카제 활성이 아닌 뉴클레아제 활성(즉, DSB 활성)을 갖는 Cas 단백질을 포함하는 프라임 에디터 단백질이다. PEmax-뉴클레아제는 다음의 구조를 갖는다:
[bpNLS(SV40)]-[SpCas9 R221K N394K]-[SGGSX2-bpNLS(SV40)-SGGSX2]-[MMLV RT pentamutant (codon opt.)]-[bpNLS(SV40)]-[NLS(c-Myc)].
일부 실시양태에서, PEmax-뉴클레아제는 서열번호 34의 아미노산 서열을 포함할 수 있다.
서열번호 34의 아미노산 서열은 다음과 같다:
Figure PCTKR2023001867-appb-img-000009
epegRNA의 사용
전술한 바와 같이, epegRNA는 pegRNA의 개량된 버전으로, 전술한 프라임 에디팅 시스템에서 사용되는 pegRNA는 epegRNA 이거나, 또는 epegRNA가 아닌 pegRNA일 수 있으며, 달리 제한되지 않는다.
프라임 에디팅 시스템을 이용한 게놈 편집 과정
관련 분야의 기술자의 이해를 돕기 위해, 프라임 에디팅 시스템을 이용한 세포의 게놈 편집 과정을, PE2의 예시를 통해 설명한다. 세포 내에서 프라임 에디팅 시스템을 통해 세포의 게놈을 편집하는 과정의 예시는 다음과 같다: PE2 프라임 에디터 단백질과 pegRNA는 복합체를 형성한다. 상기 복합체가 세포의 게놈과 접촉한다. pegRNA의 스페이서가 상응하는 표적 부위의 서열에 결합한다. 게놈 DNA의 스페이서가 결합하지 않은 가닥에서 닉이 발생한다. 닉은 PAM 서열의 5' 말단을 기준으로 상류에 위치한 3번째 뉴클레오타이드와 4번째 뉴클레오타이드 사이에 발생한다. 닉 부위의 상류에 위치한 서열이 프라이머로 기능하여 pegRNA의 프라이머 결합 부와 상보적 결합을 형성한다. 이를 통해 절단된 가닥의 3' 말단을 역전사 과정에 노출시킨다. 역전사 효소는 프라이머 결합 부와 상보적 결합을 형성한 프라이머를 기초로 역전사 과정을 수행하여 3' DNA 플랩을 형성한다. 상기 역전사 과정에서 역전사의 주형은 pegRNA의 RT 주형이다. 세포 고유의 매커니즘인 5' 플랩의 제거, 3' 플랩의 라이게이션 및 DNA 미스매치 리페어 과정을 통해 3' 플랩의 정보가 게놈 DNA로 설치된다. 프라임 에디팅의 결과로, 게놈 DNA의 두 가닥 모두에 pegRNA의 RT 주형의 정보가 목적하는 위치로 전달된다. RT 주형은 목적하는 편집에 대한 주형 (즉, 편집 주형)을 포함하고, 편집 주형에 포함된 정보는, 결국, 게놈 DNA의 표적 위치로 전달된다.
이하에서는, 전술한 또는 앞으로 개발될 프라임 에디팅에서 발생 가능한 오프 타겟을 확인할 때 광범위하게 사용 또는 적용될 수 있는, 프라임 에디팅에 표적화되어 개발된, 본 출원에 의해 제공되는 프라임 에디팅의 오프 타겟을 예측 또는 확인하는 방법에 대하여 상세히 설명한다. 이하의 프라임 에디팅의 오프 타겟을 예측 또는 확인하는 방법에는 전술한 다양한 프라임 에디팅 버전의 사용되는 프라임 에디터 단백질이 사용될 수 있으며, 달리 제한되지 않는다. 나아가, 전술한 프라임 에디팅 버전에 사용된 추가적 요소 또한 본 출원의 프라임 에디팅의 오프 타겟을 예측 또는 확인하는 방법에 사용될 수 있다. Cas 단백질 및 폴리머라아제의 사용을 특징으로 하는 프라임 에디팅의 기술적 특징을 기초로 개발된 프라임 에디터 단백질, pegRNA, 및/또는 프라임 에디팅 시스템은 본 출원의 오프 타겟을 예측하는 방법에 사용될 수 있음은 관련 분야의 기술자에게 명백할 것이다.
본 출원에 의해 제공되는 오프 타겟 예측 시스템
오프 타겟 (off-target)
DNA의 편집(예를 들어, 유전자 편집 또는 게놈 편집)의 분야에서, 오프 타겟은 의도되지 않은 위치에서 발생하는 유전적 변형(genetic modification)을 지칭한다. 오프 타겟에 의해 유도되는 유전자 변형은 비특이적일 수 있다. 개발된 게놈 편집의 도구로는 전통적인 CRISPR/Cas 시스템, 베이스 에디팅 시스템, 프라임 에디팅 시스템, transcription activator-like effector nucleases (TALEN), 메가뉴클리에이즈(meganuclease), 및 zinc finger nuclease 등이 있다. 이들 게놈 편집 도구 또는 게놈 편집 시스템은 미리 결정된 서열(예를 들어, 표적 영역 내의 서열)에 결합할 수 있도록 하는 각각의 특수한 매커니즘을 통해 표적 영역 내의 편집을 수행 가능하도록 디자인된다. 예를 들어, CRISPR/Cas 유전자 편집 시스템에서는 가이드 RNA(guide RNA; gRNA)는 Cas/gRNA 복합체의, 의도된, 표적 위치로의 이동을 유도한다. 표적 위치로의 이동에는 게놈 내의 PAM 서열 또한 관여될 수 있다. 그러나, Cas/gRNA 복합체는 여전히 표적 영역 내의 서열이 아닌 의도되지 않은 위치의 서열에 결합할 가능성을 갖는다. 이와 같이, Cas/gRNA 복합체가 의도되지 않은 위치의 서열에 결합하고, 의도되지 않은 위치에서 DSB 또는 닉을 발생시키면, 의도되지 않은 유전적 변형이 발생한다. 오프 타겟 효과는 의도하지 않은 점 돌연변이, 결실, 삽입, 역전, 및 전좌 등의 의도되지 않은 유전적 변형을 유도한다. 이와 유사하게, 프라임 에디팅을 이용한 DNA 분자(예를 들어, 게놈 DNA)의 편집 과정에서도, 적어도 pegRNA의 스페이서 서열과 PAM 서열이 표적화에 관여됨에도 불구하고, 오프 타겟의 문제가 존재한다. 원하지 않는 영역에서의 게놈 편집 도구의 결합은 원하지 않는 영역 내의 타겟 서열에 대한 부분적이지만 충분한 일치(partially sufficient matching)에서 비롯된다고 알려져 있다. 오프 타겟 결합의 매커니즘은 일 공지 문헌 [Lin, Yanni, et al. "CRISPR/Cas9 systems have off-target activity with insertions or deletions between target DNA and guide RNA sequences." Nucleic acids research 42.11 (2014): 7473-7485.]을 참고할 수 있다.
오프 타겟 결합의 매커니즘은 base mismatch tolerance 및 bulge mismatch로 그룹화될 수 있다고 설명된다. 예를 들어, 오프 타겟 부위는 가이드 RNA 서열과 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10, 혹은 그 이상의 미스매치를 포함할 수 있으나, 이에 제한되지 않는다. 예를 들어, 오프 타겟 부위는 pegRNA의 각 영역의 서열에 상응하는 표적 부위의 서열에서의 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10, 혹은 그 이상의 미스매치를 포함할 수 있으나, 이에 제한되지 않는다. 즉, 프라임 에디팅에서는, 오프 타겟 부위의 미스매치가 pegRNA의 스페이서 영역과 대응되는 영역, pegRNA의 PBS, pegRNA의 DNA 합성 주형 (예를 들어, 상동성 암), 및 PAM 서열 중 하나 이상에 존재할 수 있다.
오프 타겟의 문제는 암과 같은 심각한 문제를 초래하는 중요한 코딩 영역의 붕괴를 야기할 가능성을 내포한다. 나아가, 오프 타겟의 문제는 생물학적 연구의 변수의 혼동을 유발할 수 있고, 나아가 재현할 수 없는 결과를 초래할 가능성을 내포한다. (문헌 [Eid, Ayman, and Magdy M. Mahfouz. "Genome editing: the road of CRISPR/Cas9 from bench to clinic." Experimental & Molecular Medicine 48.10 (2016): e265-e265.] 참조, 상기 문헌의 전체 내용이 본 출원에 포함됨).
전술한 바와 같이, 오프 타겟에 대한 문제는 CRISPR/Cas 유전자 편집 시스템에서 뿐만 아니라, 이를 바탕으로 개발된 베이스 에디팅 및 프라임 에디팅에도 여전히 존재한다. 본 명세서에서 오프 타겟은 온 타겟과 대응되는 개념으로 사용될 수 있으며, 의도되지 않은 위치에서의 유전적 변형을 지칭하는 것으로 사용될 수 있다.
프라임 에디팅에 적합한 오프 타겟 예측 방법의 필요성
프라임 에디팅에 적합한 오프 타겟 예측 방법의 필요성 개괄
전술한 바와 같이, 오프 타겟은 다양한 측면에서 강력한 부작용(예를 들면, 발견하기 어려운 부작용, 및/또는 비가역적인 부작용)을 야기한다. 이에 따라, DNA 분자 편집 시스템(예를 들어, 게놈 편집 시스템)의 사용에서 발생할 수 있는 오프 타겟을 확인하는 것은 치료제의 개발에 있어서, 또한 연구에 있어서 매우 중요한 사항이다. 디자인된 편집 시스템 (예를 들어, CRISPR/Cas 시스템 또는 프라임 에디팅 시스템)에서 일어나는 진정한 오프 타겟을 확인하는 것은 많은 비용과 시간을 필요로 한다. 이러한 이유로, 오프 타겟 후보를 확인할 수 있는, 즉, 오프 타겟을 예측할 수 있는 다양한 방법들이 연구 및 개발되어 왔다. 그러나, 본 출원의 출원일 이전까지 개발된, 유전자 편집 과정(예를 들어, 게놈 편집 시스템을 통한 게놈 편집 과정)에서 발생 가능한 오프 타겟을 예측하는 방법들은 전통적인 CRISPR/Cas 시스템을 대상으로 하여 개발되었거나 베이스 에디팅을 대상으로 하여 개발되었다. 프라임 에디팅을 대상으로 하여, 즉, 프라임 에디팅을 이용한 게놈 편집을 표적화하여 개발된 오프 타겟 예측 방법은 아직까지 개발되지 않은 실정이다. 프라임 에디팅은 전통적인 CRISPR/Cas 시스템과는 다른 고유의 편집 매커니즘을 보유하나, 여전히 전통적인 CRISPR/Cas 시스템을 표적으로 개발된 오프 타겟 예측 시스템을 사용하여 프라임 에디팅을 통한 DNA 편집 과정에서 발생 가능한 오프 타겟을 예측하는 실정이다 (문헌 [Anzalone, Andrew V., et al. "Search-and-replace genome editing without double-strand breaks or donor DNA." Nature 576.7785 (2019): 149-157.; Kim, Do Yon, et al. "Unbiased investigation of specificities of prime editing systems in human cells." Nucleic acids research 48.18 (2020): 10576-10589.; Bae, Sangsu, Jeongbin Park, and Jin-Soo Kim. "Cas-OFFinder: a fast and versatile algorithm that searches for potential off-target sites of Cas9 RNA-guided endonucleases." Bioinformatics 30.10 (2014): 1473-1475.; 및 Jin, Shuai, et al. "Genome-wide specificity of prime editors in plants." Nature Biotechnology 39.10 (2021): 1292-1299.] 참조, 각각의 전체 내용이 본 명세서에 참조로 포함됨). 이러한 종래 오프 타겟 예측 시스템의 프라임 에디팅에의 적용은 많은 단점을 보인다. 이하에서, 프라임 에디팅에 적합한 오프 타겟 예측 방법의 필요성에 대하여 보다 구체적으로 설명한다.
전통적인 CRISPR/Cas 시스템을 이용한 게놈 편집에서 오프 타겟을 예측하기 위해 사용되고 있는 오프 타겟 예측 시스템
전술한 바와 같이, CRISPR/Cas 시스템을 이용한 게놈 편집에서 off-target을 예측하기 위한 다양한 방법들이 개발되었다. 기존의 off-target 예측 및/또는 확인 방법(예를 들어, 시스템, 플랫폼 등)은 상기 방법의 MOA(mechanism of action)에 따라 세포 기반(cell based) 오프 타겟 예측 시스템, in vitro 오프 타겟 예측 시스템, 및 in silico 오프 타겟 예측 시스템의 3개의 카테고리로 분류될 수 있으며, 각각의 카테고리에 포함된 예측 시스템의 예시는 다음과 같다:
- 세포 기반 (Cell based) 오프 타겟 예측 시스템: GUIDE-seq, GUIDE-tag, BLISS, BLESS, DISCOVER-seq, integrase-defective lentiviral vector-mediated DNA break capture, HTGTS, CReVIS-seq, ITR-seq, TAG-seq, 및 INDUCE-seq 등.
- in vitro 오프 타겟 예측 시스템: Digenome-seq, DIG-seq, CHANGE-seq, CIRCLE-seq, 및 SITE-seq 등.
- in silico 오프 타겟 예측 시스템: Cas-OFFinder, CRISPOR, 및 CHOPCHOP 등.
전술한 각각의 오프 타겟 예측 시스템들은 각각 상이한 장단점을 가지며, 일반적으로 2개 내지 3개의 시스템이 조합되어 CRISPR에 기초한 게놈 편집 시의 전 게놈 오프 타겟 활성을 예측하기 위해 사용되고 있다.
CRISPR/Cas 기반 오프 타겟 예측 시스템의 베이스 에디팅에의 적용
전술한 시스템들은 Cas 단백질을 이용하여 개발된 Base Editor 시스템, 예를 들어, 시티딘 베이스 에디터 (cytidine base editor) 및 아데닌 베이스 에디터 (adenine base editor)의 오프 타겟 활성(off-targets activity)의 예측에도 사용될 수 있을 것으로 예상되었다. 그러나 전술한 시스템들은 CRISPR/Cas 시스템을 이용한 게놈 편집에서 발생할 수 있는 오프 타겟을 예측하기 위한 목적을 갖고 개발된 것으로, 시스템의 작동 매커니즘이 상이한 베이스 에디팅(base editing)에의 적용은 적합하지 않았다. 베이스 에디팅에 보다 적합한 오프 타겟 예측 시스템이 요구되었고, 이에 따라 One-seq (cell-based), CBE Digenome-seq (in vitro), 및 ABE Digenome-seq (in vitro) 등의 베이스 에디팅에 보다 적합하고 정교한 오프 타겟 활성 예측 시스템 또는 방법 들이 개발되었다.
프라임 에디팅에 사용되었던 종래의 오프 타겟 예측 방법
프라임 에디팅, 예를 들어 PE2(프라임 에디팅 버전 2)를 이용한 게놈 편집 매커니즘의 첫 단계는 스페이서 비-결합 가닥에 발생되는 Cas9 유도 닉킹(nicking)이기 때문에, PE2의 오프 타겟 활성은 Cas9 또는 Cas9 닉카제 (Cas9 nickase, nCas9)와 유사할 것으로 예측되었다. 이에 따라, GUIDE-seq, nDignome-seq 및 CAS-OFFinder(in silico) 등과 같은 CRISPR/Cas 게놈 편집의 오프 타겟을 예측 및/또는 확인하는 시스템을 사용하여 프라임 에디팅의 off-target 활성을 예측하려는 시도가 있었다. 그러나, 본 명세서에 개시된 실험에 따르면 프라임 에디팅의 오프 타겟의 예측을 위해 기존의 CRISPR/Cas 게놈 편집의 오프 타겟을 예측 및/또는 확인하기 위한 방법을 이용하는 것은 적합하지 않은 것으로 확인된다.
프라임 에디팅에 적합한 오프 타겟 예측 시스템의 요구
프라임 에디터 단백질 및 pegRNA를 이용한 게놈 편집은 전통적인 CRISPR/Cas 시스템을 이용한 게놈 편집과는 다른 매커니즘을 바탕으로 수행된다. 또한, 전통적인 CRISPR/Cas 시스템과는 달리, 프라임 에디팅은 가이드 서열 외에도 다수의 요소 (예를 들어, 프라이머 결합 부, 역전사 주형, 리버스 트랜스크립테이즈 등)가 관여되며 다수의 효소(플랩 엔도뉴클리에이즈, 엑소뉴클리에이즈, 라이게이즈 등)에 의한 과정을 통해 진행된다. 프라임 에디팅은 전통적인 CRISPR/Cas 시스템을 바탕으로 개발되었으나, 프라임 에디팅의 게놈 편집 매커니즘은 전통적인 CRISPR/Cas 게놈 편집 시스템의 매커니즘과 상이한 측면이 다수 존재한다. 따라서, 전통적인 CRISPR/Cas 시스템을 이용한 게놈 편집을 표적하여 개발된 기존의 오프 타겟 예측 방법은 프라임 에디팅의 오프 타겟을 예측하기에는 적합하지 않다. 나아가, 전술한 바와 같이 다수의 요소가 관여되어 다수의 과정을 통해 수행되기 때문에, 이러한 복잡한 세포 내 과정을 밀접하게 모방할 수 있는 in vitro 기반 오프 타겟 분석 방법을 개발하기 어렵다. 이러한 이유로, 기존의 오프 타겟 예측 방법은 프라임 에디팅에 적용 불가능하거나, 부정확한 결과를 야기할 것으로 추측된다.
실제로, 본 출원의 발명자들은, 실험을 통해, 프라임 에디팅의 오프 타겟에 pegRNA의 스페이서 영역의 미스매치 뿐만 아니라, 프라이머 결합 부, 상동성 암, 및/또는 편집 주형 또한 영향을 미치는 것을 확인하였다 (본 출원의 실험예의 섹션 "검증된 오프 타겟 사이트에서의 에디팅 패턴" 및 "영역 별 미스매치 분석" 참고).
아직까지 프라임 에디팅의 매커니즘을 고려하여 프라임 에디팅을 표적하여 개발된 오프 타겟 활성을 예측하는 방법은 보고된 바 없다. 즉, 아직까지 프라임 에디팅의 오프 타겟 후보를 확인하기 위한 신뢰할 만한 오프 타겟 예측 방법이 존재하지 않는 실정이다.
본 출원에 의해 제공되는 오프 타겟 예측 시스템 개괄
본 출원은 신규한, 프라임 에디팅에 적합한, 오프 타겟 예측 방법을 제공한다. 본 출원의 발명자들은 기존의 CRISPR/Cas 시스템을 표적으로 개발된 오프 타겟 예측 시스템이 프라임 에디팅의 오프 타겟을 확인하기 위해 적용되는 경우, 부정확한 예측 (많은 위양성 및/또는 위음성)을 유발함을 확인하였다. 이에, 본 출원의 발명자들은 신규한 프라임 에디팅의 오프 타겟을 예측하는 방법 또는 시스템을 개발하였다. 본 출원의 발명자들은, 원하는 서열을 원하는 위치에 삽입(설치 또는 작성)할 수 있는 프라임 에디팅의 능력 혹은 효과에 착안하여, 태그 삽입을 위한 태그 주형(tag template)을 포함하는 신규한 pegRNA(prime editing guide RNA)를 이용하여 프라임 에디팅에 적합한 오프 타겟을 예측하는 신규한 시스템 또는 방법을 개발하였다. 나아가, 본 출원의 발명자들은 새로이 개발된 프라임 에디팅의 오프 타겟을 예측하는 시스템의 예측 신뢰도 및/또는 정확도가 기존의 CRISPR/Cas 게놈 편집 시스템을 표적으로 개발된 기존의 오프 타겟 예측 시스템을 사용하는 경우보다 높은 것을 확인하였다.
본 출원에 의해 제공되는, 프라임 에디팅을 표적으로 개발된 (즉, 프라임 에디팅에 적합하게 개발된) 오프 타겟 예측 시스템은 TAPE-seq (TAgmentation of Prime Editor sequencing)으로 지칭될 수 있다. 나아가, TAPE-seq에 사용되는, 태그를 게놈 내로 설치하기 위한 태그 주형을 포함하는 신규한 pegRNA는 태그맨테이션 pegRNA (tagmentation pegRNA; tpegRNA)로 지칭될 수 있다.
본 출원은 프라임 에디팅 시스템을 이용한 DNA 분자의 편집 과정에서 발생 가능한 오프 타겟을 예측하는 방법 또는 시스템을 제공한다. 본 출원은 프라임 에디팅 시스템을 이용한 게놈 편집 과정에서 발생 가능한 오프 타겟을 예측하는 방법을 제공한다. 오프 타겟을 예측하는 방법은, 예를 들어, 오프 타겟 후보를 확인하는 방법, 오프 타겟에 대한 정보를 확인하는 방법, 및 후보 오프 타겟 위치를 확인하는 방법 등과 같이 지칭될 수 있으며, DNA 분자(예를 들어, 게놈)의 편집 과정에서 발생할 수 있는 오프 타겟을 예측하거나 오프 타겟에 대한 정보를 확인하는 방법 또는 시스템에 대한 서술이라면 제한 없이 사용될 수 있다. 본 명세서에서 사용되는 용어 "오프 타겟"은 오프 타겟 부위(site)에 대한 개념을 포괄한다. 예를 들어, 오프 타겟 부위 또는 위치는 오프 타겟으로 서술될 수 있다. 본 명세서에서, 오프 타겟의 예측은 오프 타겟 후보를 확인함을 의미할 수 있다. 본 명세서에서, 오프 타겟의 예측은 오프 타겟 후보의 위치를 확인함을 의미할 수 있다. 본 명세서에서, '오프 타겟(off-target)', '오프 타겟 예측(off-target prediction)', 및 '오프 타겟 후보(off-target candidate)'에 대한 서술은 제한되어 해석되어서는 아니될 것이다. 즉, 프라임 에디팅의 오프 타겟을 예측하는 방법은 다음과 같이 서술될 수 있으나, 이에 제한되지 않으며, 프라임 에디팅에서 발생할 수 있는 오프 타겟의 예측 또는 확인과 관련된 기재라면 교환적으로 사용 가능하다: 프라임 에디팅에서 발생할 수 있는 오프 타겟의 예측; 프라임 에디팅의 (또는 프라임 에디팅에서 발생 가능한) 오프 타겟 후보의 확인(또는 스크리닝); 프라임 에디팅의 (또는 프라임 에디팅에서 발생 가능한) 오프 타겟의 확인 (또는 스크리닝); 프라임 에디팅의 (또는 프라임 에디팅에서 발생 가능한) 오프 타겟에 대한 정보의 확인; 오프 타겟이 발생 가능한 위치의 확인; 및 오프 타겟 위치의 확인 등.
오프 타겟 예측과 관련하여, 위양성(false positive) 및/또는 위음성(false negative)의 용어가 사용될 수 있다. 진정한 오프 타겟이 아닌 부위를 오프 타겟 후보로 탐지하는 것은 위양성 결과로 표현될 수 있다. 높은 위양성율은 낮은 검증율 (validation rate)와 연관될 수 있다. 여기서, 진정한 오프 타겟(bona-fide off target)이란, 검증된 오프 타겟(validated off-target)으로, 단순히 예측 시스템에 의해 찾아진 오프 타겟 후보가 아닌, 실제로 발생하는 오프 타겟을 지칭하는 것으로 사용된다. 예를 들어, 프라임 에디팅 시스템을 이용하여 세포의 게놈을 편집하는 경우 발생하는 오프 타겟은 진정한 오프 타겟으로 지칭될 수 있다. 이와 달리, 오프 타겟 예측 시스템을 사용하여 찾아진 오프 타겟과 관련된 부위는 "오프 타겟 후보" 또는 "예측된 오프 타겟" 등과 같이 지칭됨을 통해 진정한 오프 타겟과 구분될 수 있다. 오프 타겟 예측 시스템을 통해 발견된 오프 타겟 후보는 진정한 오프 타겟 일 수도 있고, 아닐 수도 있다. 예를 들어, 각 오프 타겟 후보를 검증함을 통해 진정한 오프 타겟을 찾을 수 있다. 오프 타겟 예측 시스템이 적은 위양성율을 보이는 것은 중요하다. 오프 타겟 예측 시스템으로부터 너무 많은 오프 타겟 후보가 도출되는 경우 진정한 오프 타겟을 찾기 힘들기 때문이다.
다른 측면에서, 오프 타겟 예측 시스템을 통해 발견된 오프 타겟 후보의 집단은 모든 진정한 오프 타겟을 포함하지 않을 수 있다. 이러한 경우는 미스율(miss rate)와 연관된다. 예를 들어, 진정한 오프 타겟 부위를 오프 타겟 후보로 탐지하지 못하는 경우와 같은 결과는 미스율을 높인다.
전술한 바와 같이, 본 출원의 프라임 에디팅의 DNA 분자 편집 과정에서 발생하는 오프 타겟을 예측하기 위한 시스템은, tpegRNA를 이용한 프라임 에디팅 매커니즘 기반 태그맨테이션을 특징으로 한다. 이하에서, 본 출원의 오프 타겟 예측을 위한 도구 (예를 들어, 프라임 에디터 단백질 및 tpegRNA)에 대하여 상세히 설명한다.
프라임 에디팅의 오프 타겟 예측을 위한 도구
프라임 에디팅의 오프 타겟 예측을 위한 도구 개괄 (TAPE-seq에 사용되는 요소)
본 출원의 프라임 에디팅의 오프 타겟을 예측하는 방법은 적어도 다음의 2개의 요소를 요구한다:
프라임 에디터 단백질; 및
태그 주형을 포함하는 tpegRNA (tagmentation pegRNA).
본 출원의 프라임 에디팅의 오프 타겟 예측을 위한 도구는 적어도 프라임 에디터 단백질 및 tpegRNA를 포함할 수 있다.
본 출원의 오프 타겟을 예측하는 방법은 TAPE-seq으로 지칭될 수 있으며, TAPE-seq은 프라임 에디팅의 매커니즘을 기반으로 디자인되고 프라임 에디팅을 표적하여 개발된 오프 타겟을 예측하는 방법에 관한 것으로, 프라임 에디팅의 매커니즘을 이용한다. 이에 따라, 본 출원에 의해 제공되는 오프 타겟을 예측하는 방법은 프라임 에디팅에서 사용되는 프라임 에디터 단백질의 사용을 포함한다. 즉, 전술한 다양한 프라임 에디터 단백질은 본 출원의 오프 타겟 예측 시스템에 사용될 수 있다. 본 출원의 프라임 에디팅의 오프 타겟을 예측하는 시스템에 사용되는 프라임 에디터 단백질은 Cas 단백질 및 폴리머라아제 (예를 들어, 리버스 트랜스크립타아제)를 포함한다. 다만, 이러한 기재가 오프 타겟 예측의 대상이 되는 특정한 프라임 에디팅 시스템 (예를 들어, TAPE-seq을 통한 오프 타겟 예측의 대상이 되는 특정한 프라임 시스템)의 프라임 에디터 단백질과 동일한 종류의 프라임 에디터 단백질의 사용을 요구하는 것은 아니다. 본 출원의 오프 타겟 예측 시스템에서는 오프 타겟 예측의 대상이 되는 프라임 에디팅 시스템의 프라임 에디터 단백질과 같은 종류의 프라임 에디터 단백질이 사용되거나 또는 다른 종류의 프라임 에디터 단백질이 사용될 수 있다.
이와 유사하게, 본 출원의 오프 타겟 예측 시스템에서, 오프 타겟 예측의 대상이 되는 특정한 프라임 에디팅 시스템과 동일한 종류의 pegRNA 사용이 요구되는 것은 아니다. 본 출원의 오프 타겟 예측 시스템에서는 오프 타겟 예측의 대상이 되는 특정한 프라임 에디팅 시스템에서 사용되는 pegRNA와 동일한 종류의 pegRNA 기반 tpegRNA가 사용되거나 또는 일반적인 pegRNA와는 다른 종류의 pegRNA(예를 들어, epegRNA) 기반 tpegRNA가 사용될 수 있다.
예를 들어, 오프 타겟 예측 시스템을 통해 오프 타겟에 대한 정보를 확인하고자 하는 특정한 제1 프라임 에디팅 시스템이 PE2 프라임 에디팅 시스템이더라도, 상기 제1 프라임 에디팅 시스템의 오프 타겟에 대한 정보를 확인하기 위해 수행되는 TAPE-seq에서는 뉴클레이즈 활성을 갖는 프라임 에디터 단백질(예를 들어, PE2-뉴클레아제, PEmax-뉴클레아제)이 사용될 수 있다. 다른 예로, 오프 타겟에 대한 정보를 확인하고자 하는 특정한 제1 프라임 에디팅 시스템이 PE2 프라임 에디팅 시스템인 경우에, TAPE-seq에서는 PE2 프라임 에디터 단백질이 사용될 수 있다. 이와 유사하게, 오프 타겟 예측의 대상이 되는 제1 프라임 에디팅 시스템이 PE2 프라임 에디팅 시스템이더라도, TAPE-seq에서는 etpegRNA (engineered tpegRNA)가 사용될 수 있다. 다른 예로, 오프 타겟 예측의 대상이 되는 제1 프라임 에디팅 시스템이 PE2 프라임 에디팅 시스템인 경우에, TAPE-seq에서는 etpegRNA (engineered tpegRNA)가 아닌 tpegRNA (tagmentation pegRNA)가 사용될 수 있다.
프라임 에디터 단백질
본 출원의 프라임 에디팅의 오프 타겟 예측 시스템은 프라임 에디터 단백질의 사용을 포함한다. 프라임 에디터 단백질은 Cas 단백질 및 폴리머라아제 (예를 들어, 리버스 트랜스크립타아제)를 포함한다. 프라임 에디터 단백질은 본 명세서의 섹션 "프라임 에디팅 시스템"에서 상세히 설명되었다. 본 출원의 오프 타겟 예측 시스템에서 사용될 수 있는 프라임 에디터 단백질의 예시는 전술한 프라임 에디터 단백질을 포괄하며, 이에 제한되지 않고, 본 출원의 출원일 이후에 프라임 에디팅의 목적으로 개발되는 (또는 프라임 에디팅의 발명적 사상을 계승하는 발명) 프라임 에디팅을 위한 융합단백질 또는 복합체 또한 본 출원의 오프 타겟 예측 시스템에 사용될 수 있는 것으로 통상의 기술자에게 인식될 것이다.
마찬가지로, 본 출원의 오프 타겟 예측 시스템에서 사용될 수 있는 tpegRNA의 예시는 전술한 pegRNA를 바탕으로 개발된 다양한 tpegRNA의 양태들을 포괄하며, 이에 제한되지 않고, 본 출원의 출원일 이후에 프라임 에디팅의 목적으로 개발되는 (또는 프라임 에디팅의 발명적 사상을 계승하는 발명) 프라임 에디팅을 위한 pegRNA를 기초로 하는 tpegRNA 또한 본 출원의 오프 타겟 예측 시스템에 사용될 수 있는 것으로 통상의 기술자에게 인식될 것이다.
일 실시양태에서, 본 출원의 프라임 에디팅의 오프 타겟 예측 시스템에 사용되는 프라임 에디터 단백질은 Cas 단백질 및 폴리머라아제를 포함할 수 있다. 일 실시양태에서, Cas 단백질은 Cas12a, Cas12b1(C2c1), Cas12c(C2c3), Cas12e (CasX), Cas12d (CasY), Cas12g, Cas12h, Cas12i, Cas1, Cas1B, Cas2, Cas3, Cas4, Cas5, Cas6, Cas7, Cas8, Cas9 (또한 Csn1 및 Csx12로도 공지됨), Cas10, Csy1, Csy2, Csy3, Cse1, Cse2, Csc1, Csc2, Csa5, Csn2, Csm2, Csm3, Csm4, Csm5, Csm6, Cmr1, Cmr3, Cmr4, Cmr5, Cmr6, Csb1, Csb2, Csb3, Csx17, Csx14, Csx10, Csx16, CsaX, Csx3, Csx1, Csx15, Csf1, Csf2, Csf3, Csf4, Cas13a(C2c2), Cas13b, Cas13c, Cas13d, Cas14, xCas9, 원형 순열 Cas9, 또는 아르고노트 (Ago) 도메인, 또는 이의 단편, 또는 이의 상동체, 또는 이의 변이체일 수 있으나, 달리 제한되지 않는다. 특정한 실시양태에서 Cas 단백질은 닉카제 활성을 가질 수 있다. 특정한 실시양태에서, Cas 단백질은 nCas9일 수 있다. 특정한 실시양태에서, Cas 단백질은 SpCas9 닉카제 (nickase)일 수 있다. 특정한 실시양태에서, Cas 단백질은 뉴클레아제 활성을 가질 수 있다. 특정한 실시양태에서, Cas 단백질은 뉴클레아제 활성을 갖는 Cas9일 수 있다. 특정한 실시양태에서, Cas 단백질은 뉴클레아제 활성을 갖는 Cas9의 변이체일 수 있다. 특정한 실시양태에서, Cas 단백질은 SpCas9 또는 이의 변이체일 수 있다. 예를 들어, SpCas9 변이체는 야생형 SpCas9의 D10, R221, L244, N394, H840, K1211, 및 L1245 중 선택되는 어느 하나 이상의 아미노산 잔기가 다른 아미노산 잔기로 치환된 것일 수 있다. 특정한 실시양태에서, Cas 단백질은 야생형 SpCas9의 아미노산 서열 (서열번호 28)에서 H840A 변이를 포함하는 아미노산 서열을 포함할 수 있다. 특정한 실시양태에서, Cas 단백질은 야생형 SpCas9의 아미노산 서열 (서열번호 28)에서 R221K 및 N394K의 아미노산 변이를 포함하는 아미노산 서열을 포함할 수 있다. 특정한 실시양태에서, Cas 단백질은 야생형 SpCas9의 아미노산 서열 (서열번호 28)에서 R221K 및 N394K의 아미노산 변이를 포함하는 아미노산 서열을 포함할 수 있다. 특정한 실시양태에서, Cas 단백질은 서열번호 29, 서열번호 30, 또는 서열번호 31의 아미노산 서열을 포함할 수 있다.
특정한 실시양태에서, 폴리머라아제는 리버스 트랜스크립타아제(reverse transcriptase)일 수 있다. 특정한 실시양태에서, 리버스 트랜스크립타아제는 야생형 M-MLV 리버스 트랜스크립타아제일 수 있다. 특정한 실시양태에서, 리버스 트랜스크립타아제는 야생형 M-MLV 리버스 트랜스크립타아제의 변이체일 수 있다. 특정한 실시양태에서, 야생형 M-MLV 리버스 트랜스크립타아제의 변이체는, 야생형 M-MLV 리버스 트랜스크립타아제의 아미노산 서열(서열번호 26)에서 D200N, T306K, W313F, T330P, 및 L603W 중 선택되는 어느 하나 이상의 아미노산 변이를 포함하는 아미노산 서열을 포함할 수 있다. 특정한 실시양태에서, 야생형 M-MLV 리버스 트랜스크립타아제의 변이체는, 서열번호 26의 야생형 M-MLV 리버스 트랜스크립타아제의 아미노산 서열을 기준으로, D200N, T306K, W313F, T330P, 및 L603W의 아미노산 변이를 포함할 수 있다. 특정한 실시양태에서, 야생형 M-MLV 리버스 트랜스크립타아제의 변이체는, 서열번호 26의 야생형 M-MLV 리버스 트랜스크립타아제의 아미노산 서열을 기준으로, D200N, T306K, W313F, 및 T330P 의 아미노산 변이를 포함할 수 있다. 특정한 실시양태에서, 리버스 트랜스크립타아제는 서열번호 26, 또는 서열번호 27의 아미노산 서열을 포함할 수 있다.
전술한 바와 같이, 프라임 에디터 단백질은 하나 이상의 링커 및/또는 하나 이상의 NLS와 같은 추가적인 요소를 더 포함할 수 있다.
본 출원의 오프 타겟 예측 시스템에서 사용될 수 있는 프라임 에디터 단백질의 예시는 전술한 프라임 에디팅 버전(예를 들어, PE1 내지 PE5, PEmax, 뉴클레이즈 기반 프라임 에디팅, PEmax-nuclease 등)의 프라임 에디터 단백질을 포괄한다. 일부 실시양태에서, 프라임 에디터 단백질은 PE2 프라임 에디터 단백질, PE2-뉴클레아제, PEmax 프라임 에디터 단백질, PEmax-뉴클레아제일 수 있다. 특정한 실시양태에서, 프라임 에디터 단백질은 PEmax-뉴클레아제일 수 있다.
tpegRNA (tagmentation pegRNA)
tpegRNA 개괄
tpegRNA (tagmentation pegRNA)는 pegRNA로부터 개발된, DNA 분자에 태그 서열을 삽입하기 위해 디자인된, 본 출원에 의해 제공되는 오프 타겟 예측 방법 (즉, 프라임 에디팅의 오프 타겟 예측 방법)에 사용되는 가이드 핵산이다. tpegRNA는 pegRNA로부터 개발된 것으로, pegRNA의 일종으로 지칭될 수 있다. 본 출원에 의해 제공되는 tpegRNA는 태그 주형을 포함하고, 태그 주형에 포함된 정보(예를 들어, 태그 서열)를 프라임 에디팅의 매커니즘에 기초하여 DNA 분자 (예를 들어, 게놈) 내로 전달하기 위한 목적으로 사용될 수 있다.
일부 실시양태에서, tpegRNA는 단일 가닥 핵산 분자 (예를 들어, 단일 가닥 RNA)일 수 있다. 일부 실시양태에서, tpegRNA는 두개 이상의 가닥으로 이루어진 핵산 복합체 (예를 들어, 제1 가닥 RNA 및 제2 가닥 RNA의 복합체)일 수 있다. tpegRNA가 두개의 가닥을 포함하는 형태로 구성된 경우, 상기 두개의 가닥의 일부 서열은 gRNA 코어 부에서 상보적인 결합을 형성하여 두개의 가닥으로 이루어진 tpegRNA를 형성할 수 있다. 특정한 실시양태에서, tpegRNA는 단일 가닥 RNA 분자일 수 있다.
본 출원의 일부 실시양태는 tpegRNA를 제공한다. 이하에서, tpegRNA에 포함되는 요소들에 대하여 개시한다.
tpegRNA는 스페이서, gRNA 코어, 및 연장 영역을 포함한다. 전술한 바와 같이, 프라임 에디팅에 사용되는 pegRNA는 전통적인 gRNA의 3' 또는 5' 말단에 연장 암이 추가된 형태를 갖는다. 일반적으로, pegRNA는 전통적인 gRNA의 3' 말단에 연장 암이 추가된 형태를 갖는다. 이와 유사하게, tpegRNA는 전통적인 gRNA의 3' 말단 또는 5' 말단에 연장 암이 추가된 형태를 가지며, 상기 연장 암은 연장 영역을 포함할 수 있다.
일부 실시양태에서, tpegRNA는 전통적인 gRNA의 3' 말단에 연장 암이 추가된 형태를 갖는다. 일부 실시양태에서, 스페이서, gRNA 코어, 및 연장 영역은, tpegRNA의 5'에서 3' 방향으로, tpegRNA 상에 위치할 수 있다. 일부 실시양태에서, tpegRNA는 5' 말단과 스페이서 사이, 스페이서와 gRNA 코어의 사이, gRNA 코어와 연장 영역 사이, 및 연장 영역과 3' 말단 사이 중에 선택되는 어느 하나 이상의 위치에 독립적으로 선택된 추가의 기능적 요소(예를 들어, 링커, 전사 종결 요소, RNA 보호 모티프 등)를 하나 이상 더 포함할 수 있으나, 이에 제한되지 않는다. 즉, tpegRNA에는 전술한 각 요소 사이에 각각 독립적으로 선택된 추가의 기능적 요소가 존재할 수 있거나, 추가의 기능적 요소가 존재하지 않을 수 있으며, 달리 제한되지 않는다.
일부 실시양태에서, tpegRNA의 연장 영역은 태그 주형을 포함한다. 일부 실시양태에서, 태그 주형은 DNA 합성 주형(예를 들어, RT 주형)과 구분되어 설명될 수 있다. 예를 들어, tpegRNA의 연장 영역은 프라이머 결합 부 (primer binding site; PBS), 태그 주형, 및 DNA 합성 주형을 포함하는 것으로 설명될 수 있다. 여기서, 태그 주형과 DNA 합성 주형은 분리되어 설명되며, 이는 태그 주형을 기존의 pegRNA의 DNA 합성 주형과 구분하여 설명하기 위함이다. 다른 측면에서, 태그 주형은 프라임 에디터 단백질의 리버스 트랜스크립타아제에 의해 편집 DNA 분자 내로 코딩되므로, DNA 합성 주형의 요소 중 하나로 설명될 수 있다. 예를 들어, tpegRNA의 연장 영역은 프라이머 결합 부 및 DNA 합성 주형(여기서, DNA 합성 주형은 태그 주형을 포함함)을 포함하는 것으로 설명될 수 있다. 이후의 기재 에서는, 태그 주형을 DNA 합성 주형과 구분하여 설명한다. 달리 설명되지 않더라도, tpegRNA는 태그 주형을 포함하는 것으로 인식될 것이다.
나아가, tpegRNA의 연장 영역은 PBS, 태그 주형, 및 DNA 합성 주형에 더하여 독립적으로 선택된 하나 이상의 추가의 기능적 영역을 더 포함할 수 있다.
예를 들어, tpegRNA의 연장 영역은 RNA 보호 모티프를 포함하는 3' 엔지니어링 영역을 더 포함할 수 있고, tpegRNA의 연장 영역이 RNA 보호 모티프를 포함하는 3' 엔지니어링 영역을 더 포함하는 경우 tpegRNA는 etpegRNA(engineered tpegRNA)로 지칭될 수 있다. 예를 들어, RNA 보호 모티프는 서열 CGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAA (서열번호 41)를 포함할 수 있다. 일부 실시양태에서, 3' 엔지니어링 영역은 RNA 보호 모티프에 더하여 RNA 보호 모티프를 연결하기 위한 링커를 더 포함할 수 있다. 이때, 상기 RNA 보호 모티프를 연결하기 위한 링커는 RNA 보호 모티프와 PBS를 연결하는 역할을 할 수 있다. 본 명세서에서 용어 tpegRNA는 etpegRNA의 양태를 포함하는 개념으로 사용되며, 달리 명시되지 않는 한, tpegRNA에 대한 기재는 etpegRNA와 관련된 내용을 포함하는 것으로 해석될 것이다. etpegRNA의 사용에 한정되는 특정 실시양태는 etpegRNA에 관한 내용과 함께 기술될 것이다.
일부 실시양태에서, 3' 엔지니어링 영역은 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt, 23nt, 24nt, 25nt, 26nt, 27nt, 28nt, 29nt, 30nt, 31nt, 32nt, 33nt, 34nt, 35nt, 36nt, 37nt, 38nt, 39nt, 40nt, 41nt, 42nt, 43nt, 44nt, 45nt, 46nt, 47nt, 48nt, 49nt, 50nt, 51nt, 52nt, 53nt, 54nt, 55nt, 56nt, 57nt, 58nt, 59nt, 60nt, 61nt, 62nt, 63nt, 64nt, 65nt, 66nt, 67nt, 68nt, 69nt, 70nt, 71nt, 72nt, 73nt, 74nt, 75nt, 76nt, 77nt, 78nt, 79nt, 80nt, 81nt, 82nt, 83nt, 84nt, 85nt, 86nt, 87nt, 88nt, 89nt, 90nt, 91nt, 92nt, 93nt, 94nt, 95nt, 96nt, 97nt, 98nt, 99nt, 100nt, 또는 그 초과의 길이를 갖거나, 전술한 값 중 선택되는 두 값에 의해 설정된 범위 내의 길이를 가질 수 있으나 달리 제한되지 않는다. 특정한 실시양태에서, 3' 엔지니어링 영역은 10 내지 70nt의 길이를 가질 수 있다. 특정한 실시양태에서, 3' 엔지니어링 영역은 20 내지 60nt의 길이를 가질 수 있다.
일부 실시양태에서, tpegRNA는 약 30 nt, 40 nt, 50 nt, 60 nt, 70 nt, 80 nt, 90 nt, 100 nt, 110 nt, 120 nt, 130 nt, 140 nt, 150 nt, 160 nt, 170 nt, 180 nt, 190 nt, 200 nt, 210 nt, 220 nt, 230 nt, 240 nt, 250 nt, 260 nt, 270 nt, 280 nt, 290 nt, 300 nt, 310 nt, 320 nt, 330 nt, 340 nt, 350 nt, 360 nt, 370 nt, 380 nt, 390 nt, 400 nt, 410 nt, 420 nt, 430 nt, 440 nt, 450 nt, 460 nt, 470 nt, 480 nt, 490 nt, 500 nt, 520nt, 540nt, 560nt, 580nt, 600nt 또는 그 초과의 길이를 갖거나, 전술한 값 중 선택되는 두 값에 의해 설정된 범위 내의 길이를 가질 수 있으나, 달리 제한되지 않는다. 특정한 실시양태에서, tpegRNA는 100 내지 300nt 또는 100 내지 400nt의 길이를 가질 수 있다.
일반적인 pegRNA (태그 주형을 포함하지 않는 pegRNA)와는 달리, 본 출원의 tpegRNA는 태그 서열을 DNA 분자에 삽입하기 위한 태그 주형을 포함하는 것에 주목한다. 관련 분야의 기술자의 이해를 돕기 위해 전통적인 gRNA, pegRNA, 및 tpegRNA에 대한 예시를 도 01에 개시한다. 도 01에 개시된 gRNA, pegRNA, 및 tpegRNA의 예시는 각 가이드 RNA에 포함되는 필수적 요소를 기초로 나타내어진 것이며, 추가의 요소가 각 요소 사이 또는 말단에 더 포함될 수 있음은 관련 분야의 기술자에게 명백할 것이다.
이하에서, tpegRNA의 각 요소에 대하여 상세히 설명한다.
전통적인 gRNA 부분 - 스페이서
전술한 바와 같이, tpegRNA는 스페이서, gRNA 코어, 및 연장 영역을 포함할 수 있다. 여기서, 스페이서 및 gRNA 코어는 전통적인 gRNA로부터 유래된 요소이다. 스페이서 및 gRNA 코어는 본 명세서의 섹션 "CRISPR/Cas 시스템" 및 "프라임 에디팅 시스템"에서 충분히 설명된다. 스페이서는 스페이서 서열을 포함한다. 스페이서 서열은 표적 서열에 따라 자유롭게 디자인될 수 있다. 이때, PAM 서열의 위치가 고려될 수 있다. 스페이서 서열은 게놈 DNA의 스페이서 결합 가닥 상의 표적 서열에 상보적인 서열로 디자인될 수 있다. 스페이서 서열은 게놈 DNA의 스페이서 비결합 가닥 상의 표적 서열과 동일한 (또는 실질적으로 동일한, 또는 상응하는) 서열로 디자인될 수 있다. 스페이서 서열은 RNA 서열, DNA 서열 또는 RNA/DNA 하이브리드 서열일 수 있다. 일반적으로, 스페이서 서열은 RNA 서열이다. 스페이서 서열은 전통적인 gRNA에서와 유사하게, Cas 단백질 (프라임 에디터에 포함된 Cas 단백질)을 표적 부위로 유도하는데 관여한다. 즉, 스페이서 서열과 표적 서열이 상보적 결합을 형성하고, 프라임 에티더 단백질/tpegRNA 복합체는 표적 영역에 위치하게 되며, 프라임 에디터 단백질은 표적 부위에 닉 또는 DSB를 발생시킨다.
일부 실시양태에서, 스페이서 서열은 약 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt, 23nt, 24nt, 25nt, 26nt, 27nt, 28nt, 29nt, 30nt, 31nt, 32nt, 33nt, 34nt, 35nt, 36nt, 37nt, 38nt, 39nt, 40nt, 41nt, 42nt, 43nt, 44nt, 45nt, 46nt, 47nt, 48nt, 49nt, 50nt 또는 그 초과의 길이를 갖거나, 전술한 값 중 선택되는 두 값의 범위 내의 길이를 가질 수 있으나, 달리 제한되지 않는다. 특정한 실시양태에서, 스페이서 서열은 10 내지 35nt의 길이를 가질 수 있다. 특정한 실시양태에서, 스페이서 서열은 13 내지 30nt의 길이를 가질 수 있다. 특정한 실시양태에서, 스페이서 서열은 15 내지 25nt의 길이를 가질 수 있다.
전통적인 gRNA 부분 - gRNA 코어
전술한 바와 같이, tpegRNA는 스페이서, gRNA 코어, 및 연장 영역을 포함할 수 있다. 여기서, 스페이서 및 gRNA 코어는 전통적인 gRNA로부터 유래된 요소이다. gRNA 코어는 Cas 단백질과 상호작용하는 부분으로, Cas 단백질과 결합하여 복합체를 이룰 수 있도록 하는 부분이다. gRNA 코어는 스캐폴드 영역으로 지칭될 수 있다. gRNA 코어 또는 스캐폴드는 사용되는 Cas 단백질의 종류에 따라 달리 디자인될 수 있다. 예를 들어, Cas 단백질의 유래 미생물의 종류 및 CRISPR 시스템의 종류에 따라 다를 수 있다.
일 실시양태에서, gRNA 코어는 스캐폴드 서열을 포함할 수 있다. 스캐폴드 서열은 예를 들어, RNA 서열, DNA 서열, 또는 DNA/RNA 하이브리드 서열일 수 있다. gRNA 코어의 일부 서열은 gRNA 코어의 다른 일부 서열과 상호작용하여 스템/루프 또는 헤어핀 등의 구조를 형성할 수 있다.
일부 실시양태에서, 스캐폴드 서열의 길이는 약 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt, 23nt, 24nt, 25nt, 26nt, 27nt, 28nt, 29nt, 30nt, 31nt, 32nt, 33nt, 34nt, 35nt, 36nt, 37nt, 38nt, 39nt, 40nt, 41nt, 42nt, 43nt, 44nt, 45nt, 46nt, 47nt, 48nt, 49nt, 50nt, 55nt, 60nt, 65nt, 70nt, 75nt, 80nt, 85nt, 90nt, 95nt, 100nt, 110nt, 120nt, 130nt, 140nt, 150nt, 160nt, 170nt, 180nt, 190nt, 200nt, 210nt, 220nt, 230nt, 240nt, 250nt, 260nt, 270nt, 280nt, 290nt, 300nt, 또는 그 초과이거나, 또는 전술한 값 중 선택되는 두 값에 의해 설정되는 범위 내일 수 있다. 특정한 실시양태에서, 스캐폴드 서열은 30 내지 200nt의 길이일 수 있으나, 달리 제한되지 않는다. 특정한 실시양태에서, 스캐폴드 서열은 50 내지 150nt의 길이일 수 있다. 특정한 실시양태에서, 스캐폴드 서열은 60 내지 100nt의 길이일 수 있다.
tpegRNA의 연장 영역 개괄
전술한 바와 같이, tpegRNA는 연장 영역(또는 연장 암)을 포함할 수 있다. tpegRNA의 연장 영역은 태그 주형을 포함하는 것을 특징으로 한다. tpegRNA의 연장 영역은 전통적인 gRNA의 3' 말단에 위치할 수 있거나, 5' 말단에 위치할 수 있다. 예를 들어, tpegRNA는 5'에서 3' 방향으로 "[전통적인 gRNA 부]-[연장 영역]" 또는 "[연장 영역]-[전통적인 gRNA 부]"의 구조를 가질 수 있다. 상기 [전통적인 gRNA 부]는 전술한 스페이서 및 스캐폴드(gRNA 코어)를 포함할 수 있다. 바람직하게는, 연장 영역은 전통적인 gRNA 부의 3' 말단에 위치할 수 있다. 예를 들어, tpegRNA는 스페이서, gRNA 코어, 및 연장 영역을 포함할 수 있다. 일부 실시양태에서, 스페이서, gRNA 코어, 및 연장 영역은 5'에서 3' 방향으로 tpegRNA 상에 위치할 수 있다. 일부 실시양태에서, 연장 영역, 스페이서, gRNA 코어는 5'에서 3' 방향으로 tpegRNA 상에 위치할 수 있다.
일부 실시양태에서, tpegRNA의 연장 영역은 RNA 서열, DNA 서열, 또는 DNA/RNA 하이브리드 서열을 포함할 수 있다. 바람직하게는 연장 영역은 RNA 서열을 포함할 수 있으나, 이에 제한되지 않는다.
tpegRNA의 연장 영역은 태그 주형을 포함하는 것을 특징으로 한다. 즉, 연장 영역은 프라이머 결합 부 (PBS), 태그 주형, 및 DNA 합성 주형 (예를 들어, RT 주형)을 포함한다. 연장 영역은 전술한 요소들 사이에 또는 말단에 하나 이상의 독립적으로 선택된 추가의 요소 (예를 들어, 링커 또는 RNA 보호 모티프 등)을 더 포함할 수 있다.
추가적으로 포함될 수 있는 요소
일부 실시양태에서, tpegRNA는 연장 영역, gRNA 코어, 및 스페이서에 더하여 하나 이상의, 독립적으로 선택된 추가의 요소를 포함할 수 있다. 추가의 요소는 예를 들어, 링커, 폴리 U 테일, 폴리 A 테일, 및 RNA 보호 모티프 중 어느 하나일 수 있으나 달리 제한되지 않는다. 예를 들어, tpegRNA는 3' 말단에 U 풍부 (U rich), A 풍부 (A rich), 또는 AU 풍부 (rich) 서열을 포함할 수 있다. 특정한 실시양태에서, tpegRNA는 3' 말단에 (U)n 의 서열을 포함할 수 있고, 이때 n은 3 내지 20의 정수일 수 있다. 특정한 실시양태에서, tpegRNA는 3' 말단에 (U)7 의 서열을 포함할 수 있다.
tpegRNA의 연장 영역 (1)
tpegRNA의 연장 영역 (1) 개괄
전술한 바와 같이, tpegRNA는 연장 영역을 포함한다. 연장 영역은 태그 주형, 그리고 pegRNA에서 상세히 설명된 프라이머 결합 부를 포함할 수 있다.
일부 실시양태에서, tpegRNA의 연장 영역은 DNA 합성 주형을 포함하는 제1 영역, 태그 주형을 포함하는 제2 영역, 프라이머 결합 부를 포함하는 제3 영역을 포함하는 것으로 설명될 수 있다. 이때 제1 영역의 전부 또는 일부는 DNA 합성 주형일 수 있다. 이때 제2 영역의 전부 또는 일부는 태그 주형일 수 있다. 이때 제3 영역의 전부 또는 일부는 프라이머 결합 부일 수 있다. 이하에서, 연장 영역에 포함된 요소들에 대하여 상세히 설명한다.
태그 주형
tpegRNA의 연장 영역은 태그 주형을 포함할 수 있다. 태그 주형은 폴리머라아제, 예를 들어 리버스 트랜스크립타아제에 의해 합성된 단일 가닥 DNA 플랩(예를 들어, 3' DNA 플랩) 또는 DNA 분자의 스페이서 비-결합 가닥에 설치될 태그 서열과 상보성을 갖는 연장 영역의 부분을 지칭한다. 태그 주형은 DNA 플랩 (예를 들어, 3' DNA 플랩) 또는 DNA 분자의 스페이서 비-결합 가닥에 설치될 태그 서열과 상보성을 가질 수 있다. 본 출원의 오프 타겟 예측 방법은 DNA 분자에 설치되는 태그 서열 및/또는 태그 서열에 상보적인 서열을 포함하는 태그에 대한 정보(예를 들어, 태그 서열 또는 태그 서열과 상보적인 서열의 존재, 태그 서열이 삽입된 염색체, 및/또는 태그 서열이 삽입된 위치 등에 대한 정보)를 확인하여, 프라임 에디팅의 오프 타겟 예측의 목적을 달성할 수 있다. tpegRNA의 태그 주형에 대응되는 태그 서열에 대한 예시는 본 명세서에 그 전체의 내용이 참조로 포함되는 문헌 [Tsai, Shengdar Q., et al. "GUIDE-seq enables genome-wide profiling of off-target cleavage by CRISPR-Cas nucleases." Nature biotechnology 33.2 (2015): 187-197.]에서 설명될 수 있다.
tpegRNA의 태그 주형 및 DNA에 삽입되는 태그 서열은 달리 제한되지 않고, tpegRNA의 사용 목적에 따라 적절히 선택될 수 있다. 예를 들어, 태그 주형의 서열은 AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 42), GUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 43), UAUGACAACUCAAUUAAAC (서열번호 44), AUUAACAUAUGAC (서열번호 45), GACAACUCA (서열번호 46), 또는 CUCAAUUA (서열번호 47)의 서열을 포함할 수 있다. 예를 들어, 태그 서열은 GTTTAATTGAGTTGTCATATGTTAATAACGGTAT (서열번호 48), GTTTAATTGAGTTGTCATATGTTAATAAC (서열번호 49), 또는 GTTTAATTGAGTTGTCATA (서열번호 50)의 서열을 포함할 수 있다.
일부 실시양태에서, 태그 주형은 RNA 서열, DNA 서열, 또는 RNA/DNA 하이브리드 서열일 수 있다. 바람직하게는, 태그 주형은 RNA 서열일 수 있다.
일부 실시양태에서, 태그 주형은 1nt 내지 500nt의 길이를 가질 수 있다. 일부 실시양태에서, 태그 주형은 1nt, 2nt, 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt, 23nt, 24nt, 25nt, 26nt, 27nt, 28nt, 29nt, 30nt, 31nt, 32nt, 33nt, 34nt, 35nt, 36nt, 37nt, 38nt, 39nt, 40nt, 41nt, 42nt, 43nt, 44nt, 45nt, 46nt, 47nt, 48nt, 49nt, 50nt, 51nt, 52nt, 53nt, 54nt, 55nt, 56nt, 57nt, 58nt, 59nt, 60nt, 61nt, 62nt, 63nt, 64nt, 65nt, 66nt, 67nt, 68nt, 69nt, 70nt, 71nt, 72nt, 73nt, 74nt, 75nt, 76nt, 77nt, 78nt, 79nt, 80nt, 81nt, 82nt, 83nt, 84nt, 85nt, 86nt, 87nt, 88nt, 89nt, 90nt, 91nt, 92nt, 93nt, 94nt, 95nt, 96nt, 97nt, 98nt, 99nt, 100nt, 또는 그 초과의 길이, 또는 전술한 값 중 선택되는 두 값에 의해 설정되는 범위 내의 길이를 가질 수 있다. 특정 실시양태에서, 태그 주형은 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt, 23nt, 24nt, 25nt, 26nt, 27nt, 28nt, 29nt, 30nt, 31nt, 32nt, 33nt, 34nt, 35nt, 36nt, 37nt, 38nt, 39nt, 40nt, 41nt, 42nt, 43nt, 44nt, 45nt, 46nt, 47nt, 48nt, 49nt, 50nt, 또는 그 초과의 길이, 또는 전술한 값 중 선택되는 두 값에 의해 설정되는 범위 내의 길이를 가질 수 있다. 특정한 실시양태에서, 태그 주형은 10 내지 70nt의 길이를 가질 수 있다. 특정한 실시양태에서, 태그 주형은 10 내지 50nt의 길이를 가질 수 있다. 특정한 실시양태에서, 태그 주형은 15 내지 40nt의 길이를 가질 수 있다. 특정한 실시양태에서, 태그 주형은 25 내지 40nt의 길이를 가질 수 있다. 특정한 실시양태에서, 태그 주형은 30 내지 40nt의 길이를 가질 수 있다. 특정한 실시양태에서, 태그 주형은 약 19, 24, 29, 또는 34nt의 길이를 가질 수 있다.
태그 주형의 길이는, 설치될 태그 서열을 통해 프라임 에디팅의 오프 타겟을 분석하고자 하는 본 출원에 개시된 발명의 목적에 따라 적절히 디자인될 수 있다. 태그 주형의 길이가 너무 짧은 경우, DNA 분자에 삽입된 태그 서열에 대한 정보를 얻기 어려울 수 있다. 태그 주형의 길이가 너무 긴 경우, DNA 분자로의 태그 서열이 설치될 확률이 적어지게 될 수 있고, 이에 따라 오프 타겟 예측의 목적을 달성하지 못할 가능성이 존재할 수 있다.
나아가, 태그 주형은 tpegRNA의 사용 목적에 따라 자유롭게 디자인될 수 있다. 본 출원의 오프 타겟 예측 방법에서 태그 주형은 게놈 DNA 내로 삽입될 태그 서열의 기초가 된다. 즉, 태그 주형을 리버스 역전사의 주형으로 하여 태그 서열이 게놈 DNA 내에 설치된다. 이렇게 게놈 DNA 내로 설치된 태그 서열 또는 태그 서열에 상보적인 서열을 통해, 게놈 DNA 내에서 태그의 위치가 특정될 수 있으며, 태그의 위치를 통해 오프 타겟의 발생 가능성이 있는 부위 (예를 들어, 후보 오프 타겟 부위 또는 오프 타겟 후보)가 찾아질 수 있다. 오프 타겟을 예측하기 위한 목적으로 사용되는 tpegRNA의 태그 주형 또는 태그 서열의 설계에는 동일한 서열이 게놈 DNA 내에 존재하는지 여부가 고려될 수 있다. 예를 들어, 태그 주형의 서열 또는 태그 서열과 동일한 서열이 게놈 DNA 내에 존재하는 경우, 오프 타겟 예측 결과에 영향을 미칠 수 있기 때문이다. 다른 예로, 동일한 서열이 존재하더라도 동일한 서열이 존재하는 위치를 미리 알고 있는 경우에는, 해당 위치를 오프 타겟 예측 결과에서 배제할 수 있을 것이다. 이와 같이, 태그 주형의 서열 또는 태그 서열은 tpegRNA의 사용 계획 또는 사용 목적에 따라 자유롭게 디자인될 수 있다.
프라이머 결합 부 (primer binding site; PBS)
tpegRNA의 연장 영역은 프라이머 결합 부 (primer binding site; PBS)를 포함할 수 있다. tpegRNA의 PBS는 프라임 에디팅의 pegRNA의 프라이머 결합 부와 동일 또는 유사한 역할을 수행한다. 프라임 에디팅 단백질의 폴리머라아제(예를 들어, 리버스 트랜스크립타아제)의 중합 활성은, 주형 가닥과 결합되는 가닥을 기준으로, 5'에서 3' 방향으로 존재한다. 프라이머 (예를 들어, 스페이서 비-결합 가닥에 존재하는 영역)와 프라이머 결합 부위가 어닐링되면, 폴리머라아제(예를 들어, 리버스 트랜스크립타아제)가 주형 가닥을 주형으로 사용하여 DNA 단일 가닥을 중합한다. 예를 들어, 프라임 에디팅 버전 2의 프라임 에디팅 단백질을 사용하는 경우에, tpegRNA의 프라이머 결합 부위(PBS)는 프라임 에디팅 단백질에 의해 생성된 닉킹 표적 부위의 내인성 DNA 가닥으로부터 형성된 프라이머 서열에 결합하여, 닉킹된 가닥 상의 3' 단부를 노출시킨다. tpegRNA의 연장 영역 상의 프라이머 결합 부위와 프라이머 서열의 결합은 리버스 트랜스크립타아제가 DNA 단일 가닥을 중합시키기 위한 기질을 제공한다. 프라이머 결합 부는 스페이서 비결합 가닥 상의 절단 (닉 또는 DSB에 의해 발생됨) 위치의 상류 (Upstream) (5' 방향쪽)에 위치한 프라이머의 서열과 상보성을 갖는 서열을 가질 수 있다. 일부 실시양태에서, 프라이머 서열은 절단 위치를 기준으로 -0에서 -200의 영역에 존재하는 일부의 서열일 수 있다. 특정한 실시양태에서, 프라이머 서열은 절단 위치를 기준으로 -0에서 -50의 영역에 존재하는 일부의 서열일 수 있다. 특정한 실시양태에서, 프라이머 서열은 절단 위치를 기준으로 -0에서 -30의 영역에 존재하는 일부의 서열일 수 있다. 특정한 실시양태에서, 프라이머 서열은 절단 위치를 기준으로 -0에서 -20의 영역에 존재하는 일부의 서열일 수 있다. 여기서, -는 5'의 방향을 나타내고, 30과 같은 숫자는 뉴클레오타이드의 번호를 나타낸다. 예를 들어, -30은 절단 위치로부터 30번째로 위치하는 뉴클레오타이드를 나타낸다. 단, 0은 절단 위치를 나타낸다.
일부 실시양태에서, 프라이머 결합 부는 RNA 서열, DNA 서열, 또는 DNA/RNA 하이브리드 서열일 수 있다. 바람직하게는, 프라이머 결합 부는 RNA 서열일 수 있다.
일부 실시양태에서, 프라이머 결합 부 또는 프라이머는 1nt 내지 500nt의 길이를 가질 수 있다. 일부 실시양태에서, 프라이머 결합 부 또는 프라이머는 1nt, 2nt, 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt, 23nt, 24nt, 25nt, 26nt, 27nt, 28nt, 29nt, 30nt, 31nt, 32nt, 33nt, 34nt, 35nt, 36nt, 37nt, 38nt, 39nt, 40nt, 41nt, 42nt, 43nt, 44nt, 45nt, 46nt, 47nt, 48nt, 49nt, 50nt, 51nt, 52nt, 53nt, 54nt, 55nt, 56nt, 57nt, 58nt, 59nt, 60nt, 61nt, 62nt, 63nt, 64nt, 65nt, 66nt, 67nt, 68nt, 69nt, 70nt, 71nt, 72nt, 73nt, 74nt, 75nt, 76nt, 77nt, 78nt, 79nt, 80nt, 81nt, 82nt, 83nt, 84nt, 85nt, 86nt, 87nt, 88nt, 89nt, 90nt, 91nt, 92nt, 93nt, 94nt, 95nt, 96nt, 97nt, 98nt, 99nt, 100nt 또는 그 초과의 길이를 갖거나, 또는 전술한 값 중 선택되는 두 값에 의해 설정되는 범위 내의 길이를 가질 수 있으나, 이에 제한되지 않는다. 특정 실시양태에서, 프라이머 결합 부 또는 프라이머는 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt, 23nt, 24nt, 25nt, 26nt, 27nt, 28nt, 29nt, 30nt, 31nt, 32nt, 33nt, 34nt, 35nt, 36nt, 37nt, 38nt, 39nt, 40nt, 41nt, 42nt, 43nt, 44nt, 45nt, 46nt, 47nt, 48nt, 49nt, 또는 50nt의 길이를 갖거나, 또는 전술한 값 중 선택되는 두 값에 의해 설정되는 범위 내의 길이를 가질 수 있다. 특정한 실시양태에서, 프라이머 결합 부 또는 프라이머는 3 내지 30nt의 길이를 가질 수 있다. 특정한 실시양태에서, 프라이머 결합 부 또는 프라이머는 5 내지 20nt의 길이를 가질 수 있다. 특정한 실시양태에서, 프라이머 결합 부 또는 프라이머는 5 내지 15nt의 길이를 가질 수 있다.
DNA 합성 주형
tpegRNA의 연장 영역은 DNA 합성 주형을 포함할 수 있다. DNA 합성 주형은 역전사 주형 (reverse transcription template; RT template)일 수 있다. tpegRNA의 DNA 합성 주형은 프라임 에디팅의 pegRNA의 DNA 합성 주형과 동일 또는 유사한 역할을 수행한다. tpegRNA의 DNA 합성 주형에는 편집 주형(edit template)이 선택적으로 포함될 수 있다. 프라임 에디팅에 사용되는 일반적인 pegRNA는, 프라임 에디팅의 목적이 편집을 수행하는 것이기 때문에 편집 주형을 필수적으로 포함한다. 반면, 본 출원의 오프 타겟 예측 시스템에 사용되는 tpegRNA는 편집의 설치보다 태그의 설치를 우선적인 목적으로 하기 때문에, 편집 주형은 선택적으로 포함될 수 있다. 즉, 일부 실시양태에서, DNA 합성 주형은 편집 주형을 포함하거나 또는 편집 주형을 포함하지 않을 수 있다. 바람직하게는, DNA 합성 주형은 편집 주형을 포함하나, 이에 제한되지 않는다.
일부 실시양태에서, DNA 합성 주형은 RNA 서열, DNA 서열, 또는 DNA/RNA 하이브리드 서열일 수 있다. 바람직하게는, DNA 합성 주형(예를 들어, RT 주형)은 RNA 서열일 수 있다.
일부 실시양태에서, DNA 합성 주형의 서열은 스페이서 비결합 가닥의 절단 위치 (nick 또는 DSB에 의해 발생됨)의 +0 에서 +500 영역에 존재하는 서열의 일부와 대응될 수 있다. 여기서, '+'는 3' 방향을 나타내고, 500과 같은 숫자는 뉴클레오타이드의 절단 위치로부터의 순서를 나타낸다. 예를 들어, 1은 절단 위치로부터 첫번째에 위치한 뉴클레오타이드를 지칭한다. 예를 들어, 500은 절다 위치로부터 500번째에 위치한 뉴클레오타이드를 지칭한다. 단, 0은 절단 위치를 나타낸다. 일부 실시양태에서, DNA 합성 주형의 서열은 스페이서 비결합 가닥의 절단 위치 (nick 또는 DSB에 의해 발생됨)를 기준으로 <+100, <+90, <+80, <+70, <+60, <+50, <+40, <+30, <+20, 또는 <+10 영역의 서열의 일부와 대응될 수 있다. 예를 들어, DNA 합성 주형의 편집 주형을 제외한 서열은 스페이서 비결합 가닥의 절단 위치를 기준으로 <+100, <+90, <+80, <+70, <+60, <+50, <+40, <+30, <+20, 또는 <+10의 영역의 서열의 일부와 상보성을 갖는 서열이거나, 및/또는 전술한 영역의 스페이서 결합 가닥의 서열의 일부와 실질적으로 동일한 서열일 수 있다.
일부 실시양태에서, DNA 합성 주형은 1nt 내지 500nt의 길이를 가질 수 있다. 일부 실시양태에서, DNA 합성 주형은 1nt, 2nt, 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt, 23nt, 24nt, 25nt, 26nt, 27nt, 28nt, 29nt, 30nt, 31nt, 32nt, 33nt, 34nt, 35nt, 36nt, 37nt, 38nt, 39nt, 40nt, 41nt, 42nt, 43nt, 44nt, 45nt, 46nt, 47nt, 48nt, 49nt, 50nt, 51nt, 52nt, 53nt, 54nt, 55nt, 56nt, 57nt, 58nt, 59nt, 60nt, 61nt, 62nt, 63nt, 64nt, 65nt, 66nt, 67nt, 68nt, 69nt, 70nt, 71nt, 72nt, 73nt, 74nt, 75nt, 76nt, 77nt, 78nt, 79nt, 80nt, 81nt, 82nt, 83nt, 84nt, 85nt, 86nt, 87nt, 88nt, 89nt, 90nt, 91nt, 92nt, 93nt, 94nt, 95nt, 96nt, 97nt, 98nt, 99nt, 100nt, 110nt, 120nt, 130nt, 140nt, 150nt, 160nt, 170nt, 180nt, 190nt, 200nt 또는 그 초과의 길이, 또는 전술한 값 중 선택되는 두개의 값에 의해 설정되는 범위 내의 길이를 가질 수 있으나, 이에 제한되지 않는다. 특정한 실시양태에서, DNA 합성 주형은 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt, 23nt, 24nt, 25nt, 26nt, 27nt, 28nt, 29nt, 30nt, 31nt, 32nt, 33nt, 34nt, 35nt, 36nt, 37nt, 38nt, 39nt, 또는 40nt의 길이를 가질 수 있다. 특정한 실시양태에서, DNA 합성 주형은 3 내지 40nt의 길이를 가질 수 있다. 특정한 실시양태에서, DNA 합성 주형은 5 내지 30nt의 길이를 가질 수 있다. 특정한 실시양태에서, DNA 합성 주형은 7 내지 30nt의 길이를 가질 수 있다.
일부 실시양태에서, DNA 합성 주형은 편집 주형 및 상동성 영역(또는 상동성 암)을 포함할 수 있다. 일부 실시양태에서, DNA 합성 주형은 상동성 영역을 포함할 수 있다. 이하에서, DNA 합성 주형에 포함되는 상동성 영역에 대하여 설명한다.
상기 상동성 영역은, 프라임 에디팅에서 사용되는 전술한 pegRNA의 상동성 암 또는 상동성 영역과 대응되는 영역이다.
일부 실시양태에서, 상동성 영역은 표적 DNA의 스페이서 비-결합 가닥의 일부 서열에 상보적이다. 일부 실시양태에서, 상동성 영역은 표적 DNA의 스페이서 결합 가닥의 일부 서열과 상동성인 서열을 갖는다.
상동성 영역의 서열은 DNA 분자의 스페이서 비-결합 가닥에 발생된 절단 부위 (DSB 또는 nick에 의해 발생됨)의 하류(downstream) (3' 방향쪽)에 위치한 영역의 일부 서열과 상보성을 갖는다. 예를 들어, 프라임 에디팅 버전 2에서, 상동성 영역은 스페이서 비-결합 가닥의 nick 발생 부위의 하류에 위치하는 서열과 상보성을 갖는 서열을 가질 수 있다. 다른 관점에서, 상기 상동성 영역은, 프라임 에디팅 버전 2에서, 스페이서 결합 가닥의 nick 발생 부위와 대응대는 부위의 상류에 위치하는 일부 서열과 상동성을 갖는 서열을 가질 수 있다.
한편 상동성 영역은 DNA 분자의 내인성 가닥의 서열을 대체하고 단일 가닥 DNA 플랩 (예를 들어, 3' DNA 플랩)의 어닐링을 용이하게 하여, 편집 및/또는 태그 서열을 DNA 분자 내에 설치하는데 도움을 준다. 상동성 영역은 프라임 에디팅 단백질의 폴리머라아제 (예를 들어, 리버스 트랜스크립타아제)에 의해 코딩되기 때문에 DNA 합성 주형의 일부로 설명될 수 있다.
일부 실시양태에서, 상동성 영역은 RNA 서열, DNA 서열, 또는 DNA/RNA 하이브리드 서열을 포함할 수 있다. 바람직하게는, 상동성 영역은 RNA 서열을 포함할 수 있다.
일부 실시양태에서, 상동성 영역은 1nt 내지 500nt의 길이를 가질 수 있다. 일부 실시양태에서, 상동성 영역은 1nt, 2nt, 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt, 23nt, 24nt, 25nt, 26nt, 27nt, 28nt, 29nt, 30nt, 31nt, 32nt, 33nt, 34nt, 35nt, 36nt, 37nt, 38nt, 39nt, 40nt, 41nt, 42nt, 43nt, 44nt, 45nt, 46nt, 47nt, 48nt, 49nt, 50nt, 51nt, 52nt, 53nt, 54nt, 55nt, 56nt, 57nt, 58nt, 59nt, 60nt, 61nt, 62nt, 63nt, 64nt, 65nt, 66nt, 67nt, 68nt, 69nt, 70nt, 71nt, 72nt, 73nt, 74nt, 75nt, 76nt, 77nt, 78nt, 79nt, 80nt, 81nt, 82nt, 83nt, 84nt, 85nt, 86nt, 87nt, 88nt, 89nt, 90nt, 91nt, 92nt, 93nt, 94nt, 95nt, 96nt, 97nt, 98nt, 99nt, 100nt, 또는 그 초과의 길이, 또는 전술한 값 중 선택되는 두개의 값에 의해 설정되는 범위 내의 길이를 가질 수 있다. 특정한 실시양태에서, 상동성 영역은 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt, 23nt, 24nt, 25nt, 26nt, 27nt, 28nt, 29nt, 30nt, 31nt, 32nt, 33nt, 34nt, 35nt, 36nt, 37nt, 38nt, 39nt, 또는 40nt의 길이를 가질 수 있다. 특정한 실시양태에서, 상동성 영역은 3 내지 40nt의 길이를 가질 수 있다. 특정한 실시양태에서, 상동성 영역은 5 내지 30nt의 길이를 가질 수 있다. 특정한 실시양태에서, 상동성 영역은 7 내지 30nt의 길이를 가질 수 있다.
일부 실시양태에서, DNA 합성 주형은 편집 주형을 포함할 수 있다. 편집 주형은 폴리머라아제 (예를 들어, 리버스 트랜스크립타아제)에 의해 합성된 단일 가닥 DNA 플랩(예를 들어, 3' DNA 플랩) 또는 스페이서 비-결합 가닥에 설치될 편집 (edit)을 코딩하는 연장 영역의 부분을 지칭한다.
편집 주형은 DNA 플랩 (예를 들어, 3' DNA 플랩) 또는 DNA 분자의 스페이서 비-결합 가닥에 설치될 편집과 상보성을 가질 수 있다. 예를 들어, 프라임 에디팅의 결과로, 스페이서 비-결합 가닥에 설치되는 편집은 절단이 발생된 위치의 하류에 위치하게 된다.
일부 실시양태에서, RT 주형은 편집 주형 및 상동성 영역 등을 포함할 수 있다. 여기서, RT 주형은 DNA 합성 주형과 동등하지만, 여기서 RT 주형은 리버스 트랜스크립타아제인 폴리머라아제를 갖는 프라임 에디팅 단백질의 사용을 반영하고, DNA 합성 주형은 임의의 폴리머라아제를 갖는 프라임 에디팅 단백질의 사용을 보다 광범위하게 반영한다.
예를 들어, tpegRNA의 편집 주형은 '목적하는 편집 (desired edit)'을 DNA 분자에 코딩하기 위한 목적하는 편집에 상응하는 편집 주형과 동일한 서열을 가질 수 있다. (여기서, 상기 목적하는 편집은 본 출원의 오프 타겟 예측 시스템을 통한 오프 타겟 분석의 대상이 되는 프라임 에디팅의 미리 설계된 목적하는 편집일 수 있다).
예를 들어, tpegRNA의 편집 주형은 DNA 분자(예를 들어, 게놈) 또는 DNA 플랩 (예를 들어, 3' DNA 플랩)에 설치되는 목적하는 편집의 서열에 상보적인 서열을 가질 수 있다. 다른 예로, tpegRNA의 편집 주형은 목적하는 편집을 DNA 분자에 코딩하기 위한 목적하는 편집과 상응하는 편집 주형과는 다른 서열을 가질 수 있다. 다른 예로, tpegRNA의 편집 주형은 DNA 분자(예를 들어, 게놈) 또는 DNA 플랩 (예를 들어, 3' DNA 플랩)에 설치되는 목적하는 편집의 서열과 상보성을 갖는 서열과 일부 또는 전부가 상이한 서열을 가질 수 있다. 일부 실시양태에서, 프라임 에디팅의 오프 타겟 예측을 위해 두 종류의 tpegRNA가 사용될 수 있으며, 이때 각각의 tpegRNA에 포함된 편집 주형의 서열은 목적하는 편집의 편집 주형의 서열과 일부 또는 전부가 상이할 수 있다.
일부 실시양태에서, 프라임 에디팅의 오프 타겟 예측을 위해 한 종류의 tpegRNA가 사용될 수 있으며, 이때 tpegRNA에 포함된 편집 주형의 서열은, 목적하는 편집에 상응하는 편집 주형과 동일한 서열을 가질 수 있다. 일부 실시양태에서, TAPE-seq을 위해 한 종류의 tpegRNA가 사용될 수 있으며, 이때 tpegRNA에 포함된 편집 주형의 서열은, 목적하는 편집에 상응하는 편집 주형과 일부 또는 전부가 다른 서열을 가질 수 있다.
전술한 바와 같이, 프라임 에디팅의 기술은 원하는 서열을 원하는 위치에 삽입하기 위해 디자인된 시스템으로 (즉, 원하는 서열을 '작성'할 수 있도록 디자인된 시스템), 편집은 달리 제한되지 않는다. 예를 들어, 편집은 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 52, 54, 56, 58, 60nt (또는 bp), 또는 그 초과의 길이를 가질 수 있다.
일부 실시양태에서, 편집대상 DNA 분자의 편집에 대응되는 영역에 위치한 오리지날 서열 (즉, 편집 전의 서열)과 비교할 때, 편집 대상 DNA 분자에 설치되는 편집은 하나 이상의 뉴클레오타이드의 삽입, 하나 이상의 뉴클레오타이드의 결실, 및 하나 이상의 뉴클레오타이드의 다른 뉴클레오타이드로의 치환 중 어느 하나 또는 이들의 조합을 포함할 수 있다. 나아가 편집 대상 DNA 분자에 설치되는 편집은 대체되는 내인성 DNA 가닥의 일부 서열과 동일 서열을 삽입하도록 디자인된 영역을 가질 수 있다. 예를 들어, 편집은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 50 이상의 뉴클레오타이드의 삽입을 포함할 수 있고, 이때 상기 삽입되는 뉴클레오타이드는 핵산 내에서 연속되어 위치할 수 있거나 연속되지 않을 수 있다. 예를 들어, 편집은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 50 이상의 뉴클레오타이드의 결실을 포함할 수 있고, 이때 상기 결실되는 뉴클레오타이드는 핵산 내에서 연속되어 위치할 수 있거나 연속되지 않을 수 있다. 예를 들어, 편집은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 50 이상의 뉴클레오타이드의 치환을 포함할 수 있고, 이때 상기 치환되는 뉴클레오타이드는 핵산 내에서 연속되어 위치할 수 있거나 연속되지 않을 수 있다. 다른 예로, 편집은 전술한 삽입 및 치환을 포함할 수 있다. 다른 예로, 편집은 전술한 결실 및 치환을 포함할 수 있다. 다른 예로, 편집은 전술한 삽입 및 결실을 포함할 수 있다. 다른 예로, 편집은 전술한 삽입, 결실, 및 치환을 포함할 수 있다. 전술한 삽입, 결실, 및 치환 중 어느 하나 이상은 '편집-대상 DNA' 분자의 편집(edit)이 설치되는 위치와 대응되는 영역에 발생될 수 있다.
나아가 편집 대상 DNA 분자에 설치되는 편집은 대체되는 내인성 DNA 가닥의 일부 서열과 동일 서열을 삽입하도록 디자인된 영역을 가질 수 있고, 이를 코딩하는 편집 주형 내에 존재하는 영역은 '편집 주형의 상동성 영역'으로 지칭될 수 있다. 편집 주형의 상동성 영역은 하나 또는 그 이상 존재할 수 있다. 즉, 편집 주형은 하나 이상의 편집 주형의 상동성 영역을 포함할 수 있다.
관련 분야의 기술자의 이해를 돕기 위해, 편집 주형이 가질 수 있는 구조에 대하여 예시한다. 편집 주형은 목적에 맞게 자유롭게 디자인될 수 있는 바, 편집 주형의 가능한 양태가 하기의 예시에 한정되어 해석되어서는 아니될 것이다. 예를 들어, 편집 주형은 다음의 구조를 가질 수 있다: [편집 주형의 제1 상동성 영역]-[G to T 치환을 위한 뉴클레오타이드]-[편집 주형의 제2 상동성 영역]-[A to T 치환을 위한 뉴클레오타이드]-[편집 주형의 제3 상동성 영역]. 다른 예로, 편집 주형은 다음의 구조를 가질 수 있다: [편집 주형의 제1 상동성 영역]-[A to C 치환을 위한 뉴클레오타이드]-[편집 주형의 제2 상동성 영역]. 또 다른 예로, 편집 주형은 다음의 구조를 가질 수 있다: [편집 주형의 제1 상동성 영역]-[TAA 삽입을 위한 뉴클레오타이드]. 또 다른 예로, 편집 주형은 다음의 구조를 가질 수 있다: [편집 주형의 제1 상동성 영역]-[TGG 삽입을 위한 뉴클레오타이드]-[편집 주형의 제2 상동성 영역]-[A to G 치환을 위한 뉴클레오타이드]. 또 다른 예로, 편집 주형은 다음의 구조를 가질 수 있다: [AGG 삽입을 위한 뉴클레오타이드]-[편집 주형의 제1 상동성 영역].
일부 실시양태에서, 편집이 발생하는 위치는 스페이서 비결합 가닥의 절단 위치를 기준으로 +0 내지 +100의 영역 내 일 수 있다. 특정한 실시양태에서, 편집이 발생하는 위치는 +0 내지 +60의 영역 내 일 수 있다. 특정한 실시양태에서, 편집이 발생하는 위치는 +1 내지 +30의 영역 내일 수 있다. 특정한 실시양태에서, 편집이 발생하는 위치는 +0 내지 +20의 영역 내 일 수 있다. 특정한 실시양태에서, 편집이 발생하는 위치는 +0 내지 +10의 영역 내 일 수 있다. 일부 실시양태에서, 태그가 삽입되는 경우 편집이 발생하는 위치는 설치된 태그 서열의 하류에 위치할 수 있다. 예를 들어, 편집은 절단 위치를 기준으로 +10 내지 +50의 영역 내에 발생할 수 있다.
일부 실시양태에서, 편집 주형은 RNA로 구성될 수 있다. 일부 실시양태에서, 편집 주형은 DNA로 구성될 수 있다. 일부 실시양태에서, 편집 주형은 RNA/DNA 하이브리드로 구성될 수 있다. 특정 실시양태에서, 편집 주형은 RNA로 구성될 수 있다.
일부 실시양태에서, 편집 주형은 1nt 내지 200nt의 길이를 가질 수 있다. 일부 실시양태에서, 편집 주형은 1nt, 2nt, 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt, 23nt, 24nt, 25nt, 26nt, 27nt, 28nt, 29nt, 30nt, 31nt, 32nt, 33nt, 34nt, 35nt, 36nt, 37nt, 38nt, 39nt, 40nt, 41nt, 42nt, 43nt, 44nt, 45nt, 46nt, 47nt, 48nt, 49nt, 또는 50nt 이상의 길이를 가질 수 있다. 특정 실시양태에서, 편집 주형은 1nt, 2nt, 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt 또는 20nt 이상의 길이를 가질 수 있다.
연장 영역 상에서의 상대적 위치 관계
이하에서는, 연장 영역 상에서의 전술한 요소들의 상대적 위치 관계를 설명한다. 태그 주형, PBS, DNA 합성 주형 각각은 다른 요소와 직접적으로 (예를 들어, 공유결합을 통해) 연결될 수 있거나, 또는 링커와 같은 추가적 요소를 통해 연결될 수 있다.
3' 연장 영역의 경우에 (즉, 전통적인 gRNA의 3' 말단에 연장 영역이 추가된 형태의 tpegRNA) 다음과 같은 위치 관계를 가질 수 있다.
일부 실시양태에서, tpegRNA의 5'에서 3' 방향으로, 상기 요소들은 DNA 합성 주형, 태그 주형, 및 프라이머 결합 부의 순서로 연장 영역 상에 위치할 수 있다. 이 경우, DNA 분자(예를 들어, 게놈 DNA)에서는, 스페이서 비결합 가닥 상의 절단이 발생된 위치를 기준으로 5'에서 3' 방향으로 설명할 때, 태그 주형에 의해 전달된 태그 서열이 첫번째로 위치하고, DNA 합성 주형에 의해 전달된 서열이 두번째로 위치한다. 즉, DNA 분자에 설치된 태그 서열과 DNA 합성 주형에 상보성을 갖는 서열의 스페이서 비-결합 가닥 상에서의 위치 관계는 다음과 같이 구조화될 수 있다: v-[태그 서열]-[DNA 합성 주형에 상보성을 갖는 서열]. 여기서, v는 절단이 발생되었던 위치를 나타낸다.
다른 실시양태에서, tpegRNA의 5'에서 3' 방향으로, 상기 요소들은 태그 주형, DNA 합성 주형, 및 프라이머 결합 부의 순서로 연장 영역 상에 위치할 수 있다. 이 경우, DNA 분자에서는, 스페이서 비결합 가닥 상의 절단이 발생된 위치를 기준으로 5'에서 3' 방향으로 설명할 때, DNA 합성 주형에 의해 전달된 서열이 첫번째로 위치하고, 태그 주형에 의해 전달된 태그 서열이 두번째로 위치한다. 즉, DNA 분자에 설치된 태그 서열과 DNA 합성 주형에 상보성을 갖는 서열의 스페이서 비-결합 가닥 상에서의 위치 관계는 다음과 같이 구조화될 수 있다: v-[DNA 합성 주형에 상보성을 갖는 서열]-[태그 서열]. 여기서, v는 절단이 발생되었던 위치를 나타낸다.
바람직하게는, tpegRNA의 5'에서 3' 방향으로 DNA 합성 주형, 태그 주형, 및 프라이머 결합 부의 순서로 위치할 수 있으나, 이에 제한되지 않는다.
5' 연장 영역의 경우에 (즉, 전통적인 gRNA의 5' 말단에 연장 영역이 추가된 형태의 tpegRNA) 다음과 같은 위치 관계를 가질 수 있다. 일부 실시양태에서, tpegRNA의 5'에서 3' 방향으로, 태그 주형, DNA 합성 주형, 및 프라이머 결합 부는 기재 순서대로 위치할 수 있다. 일부 실시양태에서, tpegRNA의 5'에서 3' 방향으로, DNA 합성 주형, 태그 주형, 및 프라이머 결합 부는 기재 순서대로 위치할 수 있다.
일부 실시양태에서, 태그 주형은 DNA 합성 주형 및 프라이머 결합 부 사이에 위치할 수 있다. 일부 실시양태에서, 태그 주형은 gRNA 코어 및 DNA 합성 주형 사이에 위치할 수 있다. 일부 실시양태에서, 태그 주형은 스페이서와 DNA 합성 주형 사이에 위치할 수 있다. 일부 실시양태에서, DNA 합성 주형은 태그 주형 및 프라이머 결합 부 사이에 위치할 수 있다. 일부 실시양태에서, DNA 합성 주형은 태그 주형과 gRNA 코어 사이에 위치할 수 있다. 일부 실시양태에서, DNA 합성 주형은 태그 주형과 스페이서 사이에 위치할 수 있다. DNA 합성 주형, 태그 주형, 및 프라이머 결합 부를 포함하는 연장 영역을 포함하는 것으로 설명되는 tpegRNA의 예시적 실시양태는 도 02에 개시된다.
tpegRNA의 연장 영역 (2)
일부 실시양태에서, tpegRNA는 상동성 영역, 편집 주형, 태그 주형, 및 프라이머 결합 부를 포함하는 것으로 설명될 수 있다. 이러한 서술 방식은, 태그 주형이 편집 주형과 상동성 영역 사이에 위치하는 경우를 설명 가능하도록 한다. 일부 실시양태에서, tpegRNA는 상동성 영역을 포함하는 제1 영역, 편집 주형을 포함하는 제2 영역, 태그 주형을 포함하는 제3 영역, 및 프라이머 결합 부를 포함하는 제4 영역을 포함할 수 있다. 이때 제1 영역의 일부 또는 전부는 상동성 영역일 수 있다. 이때 제2 영역의 일부 또는 전부는 편집 주형일 수 있다. 이때 제3 영역의 일부 또는 전부는 태그 주형일 수 있다. 이때 제4 영역의 일부 또는 전부는 프라이머 결합 부일 수 있다.
프라이머 결합 부, 태그 주형, 및 DNA 합성 주형을 기준으로 각 요소들의 연장 영역 상에서의 위치 관계는 이전의 섹션을 통해 상세히 설명된 바, 이하에서는 상동성 영역, 편집 주형, 및 태그 주형의 위치 관계에 대하여 기술한다. 전술한 바와 같이, 태그 주형은 폴리머라아제에 의해 게놈 DNA 내로 설치되므로, DNA 합성 주형의 일부로 설명될 수 있다. 본 섹션 "tpegRNA의 연장 영역 (2)"의 아래의 실시양태를 포함한 몇몇의 실시양태에서는 태그 주형은 DNA 합성 주형에 포함되는 것으로 서술될 수 있으며, 이는 통상의 기술자에게 오해를 유발하지 않을 것이다. 3' 연장 영역을 포함하는 tpegRNA에 대해서 예시된다. 일부 실시양태에서, 태그 주형은 편집 주형의 하류, 즉, 프라이머 결합 부와 편집 주형의 사이에 위치할 수 있다. 일부 실시양태에서, 태그 주형은 상동성 영역의 하류, 즉, 상동성 영역과 프라이머 결합 부의 사이에 위치할 수 있다. 일부 실시양태에서, 태그 주형은 편집 주형과 상동성 영역 사이에 위치할 수 있다. 일부 실시양태에서, 태그 주형은 상동성 영역의 상류, 즉, 상동성 영역과 gRNA 코어의 사이에 위치할 수 있다. 일부 실시양태에서, 태그 주형은 편집 주형의 상류, 즉, 편집 주형과 gRNA 코어 사이에 위치할 수 있다. 상동성 영역, 편집 주형, 태그 주형, 및 프라이머 결합 부를 포함하는 연장 영역을 포함하는 것으로 설명되는 tpegRNA의 예시적 실시양태는 도 03에 개시된다.
엔진니어된 tpegRNA
본 출원의 일부 실시양태는 엔지니어된 tpegRNA (engineered tpegRNA; etpegRNA)를 제공한다. etpegRNA는 pegRNA, epegRNA, 및 tpegRNA로부터 개발된 것으로, tpegRNA로 지칭될 수 있다. 즉, 본 출원의 용어 "tpegRNA"는 etpegRNA의 양태를 포괄하는 것으로 인식될 것이다. etpegRNA는 tpegRNA의 연장 영역이 epegRNA의 요소인 3' 엔지니어링 영역을 더 포함하는 경우의 pegRNA를 지칭한다. 즉, etpegRNA는 태그 주형, DNA 합성 주형, 프라이머 결합 부, 및 3' 엔지니어링 영역을 포함하는 연장 영역을 포함한다. 일부 실시양태에서, 3' 엔지니어링 영역은 RNA 보호 모티프를 포함할 수 있다. 일부 실시양태에서, 3' 엔지니어링 영역은 RNA 보호 모티프에 더하여 RNA 보호 모티프를 연결하기 위한 링커를 더 포함할 수 있다. 예를 들어, etpegRNA의 전술한 각 요소는 5'에서 3' 방향으로, DNA 합성 주형, 태그 주형, 프라이머 결합 부, 및 3' 엔지니어링 영역의 순서로 연장 영역 상에 위치할 수 있다.
일반적인 pegRNA (태그 주형을 포함하지 않는 pegRNA)와는 달리, tpegRNA는 태그 서열을 DNA 분자에 삽입하기 위한 태그 주형을 포함하는 것에 주목한다.
프라임 에디팅의 오프 타겟 예측을 위한 도구의 예시
전술한 바와 같이, 본 출원의 프라임 에디팅의 오프 타겟 예측을 위한 도구는 적어도 다음의 두 요소를 포함한다:
프라임 에디터 단백질; 및 tpegRNA.
일부 실시양태에서, 프라임 에디팅의 오프 타겟 예측을 위한 도구는 추가의 요소를 더 포함할 수 있다. 예를 들어, dnMLH1(dominant negative MLH1), Cas 단백질, 가이드 RNA (예를 들어, 전통적인 sgRNA), 추가의 프라임 에디팅 단백질, pegRNA, 및 추가의 tpegRNA (예를 들어, 사용되는 tpegRNA와 다른 서열의 편집 주형을 포함하는 tpegRNA) 중 어느 하나 이상이 프라임 에디팅의 오프 타겟 예측을 위한 도구에 더 포함될 수 있으나, 이에 제한되지 않는다. 관련 분야의 기술자는 적절한 추가적인 요소를 사용하여 본 출원의 프라임 에디팅의 오프 타겟 예측 시스템을 개량하거나 최적화할 수 있을 것이다.
프라임 에디팅의 오프 타겟 예측에서 tpegRNA를 이용한 태그 삽입 매커니즘
본 출원의 오프 타겟 예측 방법은 프라임 에디팅의 매커니즘을 바탕으로 설계된, 프라임 에디팅의 오프 타겟에 대한 정보를 확인 또는 분석하는 방법이다. 프라임 에디팅의 매커니즘의 특징은 편집 대상 DNA 분자 내로 목적하는 편집을 설치하기 위하여, 폴리머라이제이션 과정(예를 들어, 리버스 트랜스크립션)에서 주형으로 사용되는 DNA 합성 주형(예를 들어, RT 주형)이 포함된 pegRNA를 이용하는 것이다. 본 출원의 오프 타겟 예측 방법은 프라임 에디팅의 특징적인 매커니즘을 바탕으로 태그 서열을 분석 대상 DNA 분자로 삽입하고, 삽입된 태그 서열에 대한 정보를 확인하여 프라임 에디팅의 오프 타겟을 확인 또는 분석한다. 이에, 본 출원의 오프 타겟 예측 방법은 전술한 프라임 에디팅의 특징적인 매커니즘을 태그 서열의 삽입 과정에서 사용한다.
이하에서, 본 출원의 오프 타겟 예측 방법에서, 편집 대상 DNA 분자로의 태그 삽입의 매커니즘의 예시를 개시한다. 이는 본 명세서를 보는 관련 분야의 기술자의 이해를 돕기 위한 개시이며, 본 명세서의 범위가 하기의 기재에 의해 제한되어서는 아니될 것이다.
이하에서는, 프라임 에디팅 버전 2의 프라임 에디터 단백질 및 tpegRNA를 사용하여 태그가 DNA 분자 내로 삽입되는 매커니즘의 예시가 개시된다.
프라임 에디팅 단백질(nCas9 및 리버스트랜스크립타아제인 MMLV_RT(D200N)(T330P)(L603W)(T306K)(W313F)를 포함함)과 tpegRNA는 복합체를 형성한다. tpegRNA의 gRNA 코어는 gRNA 스캐폴드 또는 백본 서열로 지칭될 수 있으며, Cas9 또는 이의 등가물과 결합을 담당하는 gRNA, pegRNA, 또는 tpegRNA 내의 서열을 지칭한다. tpegRNA는 gRNA 코어를 통해 프라임 에디팅 단백질에 포함된 Cas 단백질과 결합할 수 있다.
프라임 에디터 단백질/tpegRNA 복합체는 스페이서 서열 및 PAM 서열에 기초하여 오프 타겟이 발생 가능한 위치로 국재화(localization)된다. tpegRNA의 스페이서 서열은 이와 상보적인 DNA 분자 내의 표적 (온타겟 또는 오프 타겟) 서열에 상보적 결합을 형성한다. 이때 상보적 결합은 미스매치를 포함하지 않거나, 또는 하나 이상의 미스매치를 포함할 수 있다. 미스매치는 오프 타겟의 원인이라고 알려진 염기 불일치 (base mismatch) 및 벌지 불일치 (bulge mismatch) 중에서 선택되는 어느 하나 이상일 수 있으나, 이에 제한되지 않는다. 나아가, 오프 타겟은 연장 영역에 포함된 일부 서열의 게놈 DNA의 서열과의 미스매치에 의해 발생할 수 있다. 나아가, 프라임 에디팅 단백질/tpegRNA 복합체의 국재화되는 위치는 PAM 서열에 제한되지 않을 수 있다. 예측되는 오프 타겟 (예를 들어, 오프 타겟 후보)의 서열은 온타겟의 서열과 비교할 때, 하나 이상의 PAM 미스매치, 하나 이상의 스페이서 미스매치 (즉, 스페이서 서열과 대응되는 서열인 프로토스페이서에 존재하는 미스매치), 하나 이상의 PBS 미스매치 (즉, PBS 서열과 대응되는 서열인 프라이머 서열에 존재하는 미스매치), 및 하나 이상의 DNA 합성 주형의 미스매치 (즉, DNA 합성 주형과 대응되는 서열에 존재하는 미스매치) 중 선택되는 어느 하나 이상의 미스매치를 포함할 수 있다.
프라임 에디터 단백질의 Cas 단백질(PE2에서는, nCas9)에 의해 스페이서 비-결합 가닥의 PAM 서열(5'-NGG-3')의 상류에 위치하는 PAM 서열의 5'을 기준으로 -3 과 -4 뉴클레오타이드 사이에 닉 (nick)이 발생한다. 결과적으로, 태그 서열은 닉 부위를 기준으로 하류에 위치하는 1 내지 100개 뉴클레오타이드의 윈도우에 삽입될 수 있다. 태그 서열은 PAM 서열의 약 -4 내지 +100 의 영역에 삽입될 수 있다. 도 04는 off-target 발생 위치에 닉이 발생한 DNA 분자, 및 닉을 유도한 프라임 에디터 단백질/tpegRNA 복합체의 예시를 나타낸다.
닉 발생 부위의 상류에 PBS가 프라이머로 기능하는 영역(DNA 분자 내의 스페이서 비-결합 가닥 상에 존재하는 일부 영역으로, 프라이머로 지칭될 수 있음)과 어닐링된다. PBS와 프라이머의 어닐링은 도 05에 도시된다.
어닐링 후, 태그 주형 및 DNA 합성 주형을 역전사의 주형으로 하여, 리버스 트랜스크립타아제에 의해 역전사가 수행된다. 역전사는 뉴클레오타이드가 중합되는 가닥을 기준으로 5'에서 3' 방향으로 수행된다. 즉, 스페이서 비-결합 가닥을 기준으로 5'에서 3' 방향으로 수행된다. 역전사에 의해 태그 주형에 상보적인 서열을 갖는 서열(태그 서열)이 내인성 DNA 가닥에 추가되며, 이어서 DNA 합성 주형에 상보적인 서열을 갖는 서열이 내인성 DNA 가닥에 추가된다. 역전사에 의해, 내인성 DNA 가닥(3' DNA 플랩)에 추가된 태그 서열 및 편집 등은 도 06에 도시된다.
내인성 DNA 가닥에 추가된 태그 서열 및 DNA 합성 주형과 대응되는 서열 (편집, 및 상동성 영역에 상보적인 서열 등)은 3' DNA 플랩을 구성한다. 5' 플랩이 제거되고, 수선 시스템을 거쳐 태그 서열 및 편집이 최종적으로 DNA 분자에 통합된다.
전술한 과정을 통해, 프라임 에디팅에 의해 편집(edit)이 삽입될 수 있는 위치에는 태그 서열이 삽입된다. 이에 의하여, 태그 서열은 온 타겟 뿐만 아니라 오프 타겟이 발생 가능한 부위에도 삽입될 수 있다. 이에 따라, 태그 서열의 존재 및/또는 위치 확인을 통해 오프 타겟의 발생 가능성 및/또는 위치 등에 대하여 확인할 수 있게 된다. 이후, 태그-특이적 증폭(tag-specific amplification) 및 시퀀싱 등의 태그 서열을 특이적으로 분석할 수 있는 방법을 이용하여 태그 서열에 대한 분석을 수행한다. 태그 서열에 대한 분석을 통해 태그 서열이 삽입된 DNA 분자의 종류(예를 들어, 염색체의 종류), 태그 서열이 삽입된 위치 (예를 들어, 태그 서열이 삽입된 DNA 분자 내에서의 위치), 및/또는 위치별 태그 서열의 삽입률 등에 관한 태그 서열에 대한 정보를 얻는다. 태그 서열에 대한 정보를 바탕으로, 프라임 에디팅에서 발생 가능한 오프 타겟에 대한 정보를 얻을 수 있다.
대상 DNA 분자 (예를 들어, 게놈 DNA)에 태그 서열 삽입의 시나리오는 달리 제한되지 않는다. 일부 실시양태에서, 태그 삽입은 프라임 에디팅의 나머지 패턴을 교란하지 않을 수 있다. 이 경우, 프라임 에디팅 결과로부터 태그 서열을 제거하는 경우, 태그 서열이 제거된 프라임 에디팅 결과는 태그 주형이 없는 pegRNA에 의해 유도된 프라임 에디팅의 패턴과 동일할 것이다. 예를 들어, 태그 서열은 하나 이상의 오프 타겟 후보 사이트 및/또는 온타겟 사이트에 편집과 함께 설치될 수 있다. 일부 실시양태에서, 태그 삽입은 프라임 에디팅의 나머지 패턴을 교란할 수 있다. 예를 들어, 태그 서열은 하나 이상의 오프 타겟 후보 사이트 및/또는 온타겟 사이트에 편집 없이 설치될 수 있다. 다른 예로, 편집은 하나 이상의 오프 타겟 후보 사이트 및/또는 온타겟 사이트에 태그 서열 없이 설치될 수 있다. 특정한 실시양태에서, 태그 서열은 하나 이상의 오프 타겟 후보 사이트 및/또는 온타겟 사이트에 편집과 함께 설치될 수 있다. 본 출원의 오프 타겟 예측 시스템은 프라임 에디터 단백질 및 tpegRNA를 세포의 게놈 DNA와 접촉하고, 이후 게놈 DNA를 분석하는 과정을 포함한다. 이하에서, 본 출원의 오프 타겟 예측 시스템의 과정에 대하여 상세히 설명한다.
프라임 에디터 단백질 및 tpegRNA를 세포의 게놈 DNA와 접촉
게놈 DNA와 접촉 개괄
본 출원의 프라임 에디팅의 오프 타겟 예측 방법은 프라임 에디팅을 이용한 DNA 편집 과정에서 발생할 가능성이 있는 오프 타겟에 대한 정보를 확인하는 것이다. 즉, 본 출원의 프라임 에디팅의 오프 타겟 예측 방법의 결과로, 프라임 에디팅을 이용한 DNA 편집 과정에서 발생 가능한 오프 타겟 후보들에 대한 정보들이 도출될 수 있다. 예를 들어, 오프 타겟 후보들의 존재 여부, 오프 타겟 후보들의 위치, 및/또는 진정한 오프 타겟과 관련되는 오프 타겟 후보들의 점수 등이 본 출원의 오프 타겟 예측 방법을 통해 도출될 수 있다. DNA 편집 과정에서 발생하는 오프 타겟에 대한 정보를 얻기 위해서는, 먼저, 대상 DNA와 프라임 에디터 단백질 및 tpegRNA가 접촉되어야 한다. 대상 DNA와의 접촉이 달성되면 DNA 절단 과정을 포함한 태그 삽입의 매커니즘이 수행될 수 있다. 대상 DNA는 예를 들어 세포의 게놈 DNA일 수 있다. 전술한 바와 같이, 본 출원의 오프 타겟 예측 방법은 세포 기반 오프 타겟 예측 방법의 하나로 분류될 수 있으며, 세포의 게놈 DNA와 프라임 에디터 단백질 및 tpegRNA의 접촉은 세포 내에서 수행될 수 있다.
프라임 에디팅의 오프 타겟 예측 방법에 사용되는 세포는 달리 제한되지 않는다. 일부 실시양태에서, 세포는 동물 세포 또는 식물 세포일 수 있다. 일부 실시양태에서, 세포는 인간 세포 또는 비인간 동물(예를 들어, 마우스, 래트, 원숭이, 침팬지, 개, 고양이, 소, 돼지, 말, 및 양 등) 세포일 수 있으나, 달리 제한되지 않는다. 일부 실시양태에서, 본 출원의 오프 타겟 예측 방법에 사용되는 세포는 환자로부터 유래된 세포일 수 있다. 일부 실시양태에서, 본 출원의 오프 타겟 예측 방법에 사용되는 세포는 세포주 (예를 들어, 인간, 마우스, 원숭이, 또는 래트 세포주)의 세포일 수 있다. 특정한 실시양태에서, 세포는 인간 세포 또는 인간 세포주일 수 있다. 세포주의 세포는 예를 들어, 3T3 세포, A549 세포, HeLa 세포, HEK 293 세포, K562 세포, Huh7 세포, Jurkat 세포, OK 세포, Ptk2 세포, 또는 Vero 세포일 수 있으나, 이에 제한되지 않는다.
본 출원의 오프 타겟 예측 시스템의 일 실시양태는 세포의 게놈 DNA와 프라임 에디터 단백질 및 tpegRNA (또는 프라임 에디터 단백질/tpegRNA 복합체)를 접촉함을 포함할 수 있다. 프라임 에디터 단백질 및 tpegRNA와 게놈 DNA의 접촉은 세포 내 또는 세포의 핵 내에서 수행될 수 있으며, 달리 제한되지 않는다. 프라임 에디터 단백질 및 tpegRNA와 게놈 DNA의 접촉을 위해서는 프라임 에디터 단백질 및 tpegRNA를 포함하는 세포가 준비되어야 한다. 이하에서, 프라임 에디터 단백질 및 tpegRNA를 포함하는 세포 및 이를 생산하는 방법에 대하여 상세히 설명한다.
프라임 에디팅의 오프 타겟 예측을 위한 도구를 포함하는 세포
일부 실시양태에서, 본 출원의 오프 타겟 예측 방법은 프라임 에디팅의 오프 타겟 예측을 위한 도구(Tools for predicting off-targets of prime editing)를 포함하는 세포를 생산함을 포함할 수 있다.
본 출원의 일부 실시양태는 프라임 에디팅의 오프 타겟 예측을 위한 도구를 포함하는 세포를 제공한다.
프라임 에디팅의 오프 타겟 예측을 위한 도구는 프라임 에디터 단백질 및 tpegRNA를 포함한다. 일부 실시양태에서, 프라임 에디팅의 오프 타겟 예측을 위한 도구는 추가의 요소를 더 포함할 수 있다. 예를 들어, dnMLH1(dominant negative MLH1), Cas 단백질, 가이드 RNA (예를 들어, 전통적인 sgRNA), 추가의 프라임 에디팅 단백질, pegRNA, 및 추가의 tpegRNA (예를 들어, 사용되는 tpegRNA와 다른 서열의 편집 주형을 포함하는 tpegRNA) 중 어느 하나 이상이 프라임 에디팅의 오프 타겟 예측을 위한 도구에 더 포함될 수 있으나, 이에 제한되지 않는다.
프라임 에디팅의 오프 타겟 예측을 위한 도구를 포함하는 세포의 생산 방법
프라임 에디팅의 오프 타겟 예측을 위한 도구를 포함하는 세포를 생산함은 프라임 에디팅 도구의 각 요소를 세포에 도입 (예를 들어, 전기천공법 등으로)하거나, 프라임 에디팅 도구의 각 요소를 암호화하는 핵산을 세포에 도입하여 달성될 수 있다. 이하에서, 프라임 에디팅의 오프 타겟 예측을 위한 도구를 포함하는 세포를 생산하는 과정에 대하여 상세히 서술한다.
일부 실시양태에서, 프라임 에디팅의 오프 타겟 예측을 위한 도구를 포함하는 세포를 생산함은 다음을 포함할 수 있다: 프라임 에디터 단백질 또는 이를 암호화하는 핵산, 및 tpegRNA 또는 이를 암호화하는 핵산을 세포에 접촉함.
일부 실시양태에서, 프라임 에디팅의 오프 타겟 예측을 위한 도구를 포함하는 세포를 생산함은 다음을 포함할 수 있다: 프라임 에디터 단백질 또는 이를 암호화하는 핵산, 및 tpegRNA 또는 이를 암호화하는 핵산을 세포에 도입함. 이렇게 프라임 에디터 단백질 또는 이를 암호화하는 핵산, 및 tpegRNA 또는 이를 암호화하는 핵산과 접촉한 세포, 또는 이들이 도입된 세포는 분석 대상 세포로 지칭될 수 있다.
프라임 에디팅의 오프 타겟 예측을 위한 도구의 각 요소의 세포에의 접촉은 동시에 (예를 들어 하나의 조성물 안에서, 또는 올인원 벡터를 이용하여) 수행될 수 있거나, 시간을 두고 수행될 수 있다, 예를 들어, 프라임 에디터 단백질 또는 이를 암호화하는 핵산, 및 tpegRNA 또는 이를 암호화하는 핵산을 포함하는 조성물과 세포를 접촉함을 통해 세포로의 도입이 달성될 수 있다. 다른 예로, 프라임 에디터 단백질 또는 이를 암호화하는 핵산을 포함하는 제1 조성물을 세포와 접촉하고, 이후 (또는 이전에) tpegRNA 또는 이를 암호화하는 핵산을 포함하는 제2 조성물을 세포와 접촉함을 통해 도구들의 세포로의 도입이 달성될 수 있다. 이처럼, 프라임 에디팅의 오프 타겟 예측을 위한 도구를 세포에 도입하는 과정은 달리 제한되지 않는다.
일부 실시양태에서, 프라임 에디터 단백질 또는 이를 암호화하는 핵산 및/또는 tpegRNA 또는 이를 암호화하는 핵산은 벡터 또는 비벡터의 형태로 세포 내로 도입될 수 있다.
일부 실시양태에서, 프라임 에디터 단백질은 하나의 분자로 구성된 융합단백질일 수 있거나, 2개 이상의 분자를 포함하는 복합체의 형태일 수 있다. 예를 들어, 프라임 에디터 단백질이 하나의 분자의 형태인 융합단백질인 경우, 프라임 에디터 단백질 또는 이를 암호화하는 핵산은 세포 내로 도입될 수 있다. 다른 예로, 프라임 에디터 단백질이 2개 이상의 분자를 포함하는 복합체의 형태인 경우, 프라임 에디터 단백질은 이루는 각 요소 또는 각 요소를 암호화하는 각각의 핵산은 동시에 (예를 들어, 조립된 복합체의 형태로, 또는 하나의 벡터에 암호화되어) 또는 별도로 (예를 들어, 분리된 요소의 형태로, 별개의 벡터에 암호화되어, 또는 적당한 시간 간격을 두고) 세포 내에 도입 또는 전달될 수 있다.
일부 실시양태에서, 프라임 에디터 단백질 또는 이를 암호화하는 핵산과 tpegRNA 또는 이를 암호화하는 핵산은 동시에 (예를 들어, 조립된 복합체의 형태로, 또는 하나의 벡터에 암호화되어) 또는 별도로 (예를 들어, 분리된 요소의 형태로, 별개의 벡터에 암호화되어, 또는 적당한 시간 간격을 두고) 세포 내로 도입될 수 있다. 일부 실시양태에서, 프라임 에디터 단백질은 단백질의 형태로 세포 내로 전달 또는 도입될 수 있다. 일부 실시양태에서, 프라임 에디터 단백질은 이를 암호화하는 핵산의 형태로 세포 내로 전달 또는 도입될 수 있다. 일부 실시양태에서, tpegRNA는 RNA의 형태로 세포 내로 전달 또는 도입될 수 있다. 일부 실시양태에서, tpegRNA는 이를 암호화하는 핵산의 형태로 세포 내로 전달 또는 도입될 수 있다.
일부 실시양태에서, 프라임 에디터 단백질 또는 이를 암호화하는 핵산 (예를 들어, 프라임 에디터 단백질을 암호화하는 DNA) 및/또는 tpegRNA 또는 이를 암호화하는 핵산 (예를 들어, tpegRNA를 암호화하는 DNA)은 리포좀, 플라스미드, 바이러스 벡터, 나노파티클, 또는 PTD (protein translocation domain) 형태로 세포 내로 도입될 수 있다.
일부 실시양태에서, 프라임 에디터 단백질 또는 이를 암호화하는 핵산 및/또는 tpegRNA 또는 이를 암호화하는 핵산은 전기천공법(electroporation), 리포펙션, 미세주입법, 유전자총법, 비로좀, 리포좀(liposome), 면역 리포좀, 및 지질-매개 형질감염 중 선택되는 어느 하나에 의해 세포 내로 전달 또는 도입될 수 있다.
일부 실시양태에서, 프라임 에디터 단백질을 암호화하는 핵산(예를 들어, 프라임 에디터 단백질을 암호화하는 DNA, RNA, 또는 DNA 또는 RNA 혼합의 형태) 및/또는 tpegRNA를 암호화하는 핵산 (예를 들어, tpegRNA를 암호화하는 DNA, RNA, 또는 DNA 또는 RNA 혼합의 형태)은 당업계에 공지된 방법에 의해 세포 내로 전달 또는 도입될 수 있다. 또는, 프라임 에디터 단백질을 암호화하는 핵산 및/또는 tpegRNA를 암호화하는 핵산은 벡터, 비벡터 또는 이들의 조합에 의해 대상 내로 전달될 수 있다. 상기 벡터는 바이러스 벡터 또는 비바이러스 벡터(예를 들어, 플라스미드)일 수 있다. 상기 비벡터는 네이키드 DNA, DNA 복합체 또는 mRNA일 수 있다.
벡터 기반 도입
일부 실시양태에서, 프라임 에디터 단백질 또는 이를 암호화하는 핵산 및/또는 tpegRNA 또는 이를 암호화하는 핵산은 벡터의 형태로 세포 내로 도입 또는 전달될 수 있다. 즉, 벡터에 의해 대상 내로 전달 또는 도입될 수 있다.
일부 실시양태에서, 벡터는 프라임 에디터 단백질를 암호화하는 핵산 및/또는 tpegRNA를 암호화하는 핵산을 포함할 수 있다. 일부 실시양태에서, 프라임 에디터 단백질을 암호화하는 핵산은 하나의 벡터에 포함되거나, 분할되어 여러 개의 벡터에 포함될 수 있다. 예를 들어, 프라임 에디터 단백질을 암호화하는 핵산은 하나, 둘, 셋, 넷, 다섯개, 또는 그 초과의 벡터를 통해 세포 내로 도입 또는 전달될 수 있다. 일부 실시양태에서, tpegRNA를 암호화하는 핵산은 하나의 벡터에 포함되거나, 분할되어 여러 개의 벡터에 포함될 수 있다. 예를 들어, tpegRNA를 암호화하는 핵산은 하나, 둘, 셋, 넷, 다섯개, 또는 그 초과의 벡터를 통해 세포 내로 도입 또는 전달될 수 있다. 일부 실시양태에서, 프라임 에디터 단백질을 암호화하는 핵산 및 tpegRNA를 암호화하는 핵산은 하나의 벡터에 포함되거나, 분할되어 여러 개의 벡터에 포함될 수 있다. 예를 들어, 프라임 에디터 단백질을 암호화하는 핵산 및 tpegRNA를 암호화하는 핵산은 하나, 둘, 셋, 넷, 다섯개, 또는 그 초과의 벡터를 통해 세포 내로 도입 또는 전달될 수 있다.
일부 실시양태에서, 벡터는 하나 이상의 조절/제어 구성요소를 포함할 수 있다. 이때, 상기 조절/제어 구성요소는 프로모터, 인핸서, 인트론, 폴리아데닐화신호, 코작 공통(Kozak consensus) 서열, 내부 리보솜 유입 부위(internal ribosome entry site, IRES), NLS (Nuclear localization signal) 또는 이를 암호화하는 핵산, Poly A, 스플라이스 억셉터 및 2A 서열 중 선택되는 어느 하나 이상일 수 있다. 상기 프로모터는 RNA 중합효소 II에 의해 인식되는 프로모터일 수 있다. 상기 프로모터는 RNA 중합효소 III에 의해 인식되는 프로모터일 수 있다. 상기 프로모터는 유도성 프로모터일 수 있다. 상기 프로모터는 대상 특이적 프로모터일 수 있다. 상기 프로모터는 바이러스 또는 비바이러스 프로모터일 수 있다. 상기 프로모터는 제어 영역에 따라 적합한 프로모터로 선택될 수 있다.
일부 실시양태에서, 벡터는 바이러스 벡터 또는 재조합 바이러스 벡터일 수 있다. 상기 바이러스는 DNA 바이러스 또는 RNA 바이러스일 수 있다. 이때, 상기 DNA 바이러스는 이중가닥 DNA(dsDNA)바이러스 또는 단일가닥 DNA(ssDNA) 바이러스 일 수 있다. 이때, 상기 RNA 바이러스는 단일가닥 RNA(ssRNA) 바이러스일 수 있다. 상기 바이러스는 레트로바이러스, 렌티바이러스, 아데노바이러스, 아데노-연관 바이러스(adeno-associated virus; AAV), 백시니아 바이러스, 폭스 바이러스 또는 단순포진 바이러스일 수 있으나, 이에 제한되지 않는다. AAV 벡터는 예를 들어, AAV1, AAV2, AAV5, AAV6, AAV8, AAV9, AAVrh.10, AAVrh.74, 및 AAVhu.37 중에서 선택되는 어느 하나일 수 있으나, 이에 제한되지 않는다. 연구 또는 임상에서 사용되는 AAV 벡터의 예시는 문헌 [Wang, Dan, Phillip WL Tai, and Guangping Gao. "Adeno-associated virus vector as a platform for gene therapy delivery." Nature reviews Drug discovery 18.5 (2019): 358-378.]에 상세히 개시되며, 이의 전체 내용은 본 출원에 참조로 포함된다. 일반적으로 바이러스는 숙주(예를 들면, 세포)를 감염시켜 숙주 내에 바이러스의 유전정보를 암호화하는 핵산을 도입시키거나 숙주의 게놈 내로 유전정보를 암호화하는 핵산을 삽입시킬 수 있다. 이러한 특징을 가지는 바이러스를 이용하여 대상(예를 들어, 세포) 내로 목적 서열 또는 목적 단백질을 암호화하는 핵산을 도입시킬 수 있다. 나아가, 목적 서열 목적 단백질을 숙주 내에서 발현시킬 수 있다.
비벡터 기반 도입
일 실시양태에서, 프라임 에디터 단백질 또는 이를 암호화하는 핵산 및/또는 tpegRNA 또는 이를 암호화하는 핵산은 비벡터 기반 도입을 통해 세포 내로 도입될 수 있다.
일부 실시양태에서, 프라임 에디터 단백질 또는 이를 암호화하는 핵산 및 tpegRNA 또는 이를 암호화하는 핵산 중 하나 이상은 비벡터 기반 도입을 통해 세포 내로 도입될 수 있다.
일부 실시양태에서, 일부 실시양태에서, 프라임 에디터 단백질 또는 이를 암호화하는 핵산 및 tpegRNA 또는 이를 암호화하는 핵산 중 하나 이상은 하나 이상의 비벡터를 통해 세포 내로 도입 또는 전달될 수 있다. 예를 들어, 프라임 에디터 단백질 또는 이를 암호화하는 핵산 및 tpegRNA 또는 이를 암호화하는 핵산 중 하나 이상은 하나, 둘, 셋, 넷, 다섯개, 또는 그 초과의 비벡터를 통해 세포 내로 도입 또는 전달될 수 있다.
비벡터는 프라임 에디터 단백질 또는 이를 암호화하는 핵산 및/또는 tpegRNA 또는 이를 암호화하는 핵산을 포함할 수 있다. 상기 비벡터는 네이키드 DNA, DNA 복합체, mRNA또는 이의 혼합일 수 있다. 상기 비벡터는 전기천공법, 유전자총, 초음파 천공법, 자기 주입법 (magnetofcection), 일시적인 세포 압축 또는 스퀴징 (Lee, et al, (2012) Nano Lett., 12, 6322-6327 에 개시됨), 지질-매개 형질감염, 덴드리머, 나노파티클, 인산칼슘, 실리카, 실리케이트(오르모실) 또는 이의 조합에 의해 대상 내로 전달 또는 도입될 수 있다. 예를 들어, 전기천공법을 통한 전달은 카트리지, 챔버 또는 큐벳 내에서 세포와 목적하는 요소를 암호화하는 핵산을 혼합하고, 정해진 지속시간 및 진폭의 전기적 자극의 적용에 의해 수행될 수 있다. 다른 예로, 상기 비벡터는 나노입자를 이용하여 전달될 수 있다. 상기 나노입자는 무기 나노입자(예를 들어, 자기 나노입자, 실리카 등) 또는 유기 나노입자(예를 들어, 폴리에틸렌 글리콜(PEG)로 코팅된 지질 등)일 수 있다. 상기 나노입자의 외면은 부착을 가능하게 하는 양 전하로 하전된 중합체(예를 들면, 폴리에틸렌이민, 폴리리신, 폴리세린 등)와 컨쥬게이트될 수 있다.
펩타이드, 폴리펩타이드, 단백질, 또는 RNA의 형태로 전달 또는 도입
일 실시양태에서, 프라임 에디터 단백질 및/또는 tpegRNA는 당업계에 공지된 방법에 의해 대상 내로 전달 또는 도입될 수 있다. 펩타이드, 폴리펩타이드, 단백질, 또는 RNA의 형태는 전기천공법, 미량 주사법, 일시적인 세포 압축 또는 스퀴징(Lee, et al, (2012) Nano Lett., 12, 6322-6327 에 개시됨), 지질-매개 형질감염, 나노파티클, 리포솜, 펩타이드-매개 전달 또는 이의 조합에 의해 세포 내로 전달 또는 도입될 수 있다.
전술한 바와 같이, 프라임 에디터 단백질 및 tpegRNA를 포함하는 세포가 얻어진다. 세포 내의 프라임 에디터 단백질 및 tpegRNA (또는 프라임 에디터 단백질/tpegRNA 복합체)는 세포의 게놈 DNA와 접촉 가능하다. 이하에서, 세포의 게놈 DNA와 프라임 에디터 단백질 및 tpegRNA의 접촉에 의해 달성될 수 있는 결과를 상세히 설명한다.
프라임 에디터 단백질 및 tpegRNA와 게놈 DNA의 접촉의 결과 (태그맨테이션)
프라임 에디터 단백질 및 tpegRNA와 게놈 DNA의 접촉의 결과로 게놈 DNA 내로 태그 서열 및 태그 서열에 상보성을 갖는 서열이 설치될 수 있다. 즉, 게놈 DNA 내로 태그가 설치될 수 있다. 이렇게 게놈 DNA에 태그가 설치되는 과정은 태그맨테이션(tagmentation)으로 지칭될 수 있다. 접촉의 결과로 오프 타겟 후보 부위 및/또는 온타겟 부위에 태그가 설치될 수 있다. 프라임 에디터 단백질 및 tpegRNA와 게놈 DNA가 접촉 한 후의 게놈 DNA는 분석 대상 게놈 DNA (analyzing-subject genomic DNA)로 지칭될 수 있다. 일부 실시양태에서, 분석 대상 게놈 DNA는 태그를 포함하지 않을 수 있다. 이는 오프 타겟 후보가 없거나, 게놈 DNA 내로의 태그 서열 등의 설치가 실패한 경우이다. 일부 실시양태에서, 분석 대상 게놈 DNA는 태그를 포함할 수 있다. 태그를 포함하는 분석 대상 DNA는 태그된 DNA(tagged DNA 또는 tagmented DNA)로 지칭될 수 있다. 태그는 오프 타겟 후보의 위치 (즉, 후보 오프 타겟 부위) 및/또는 온타겟 부위의 위치에 존재한다. 게놈 DNA 내로 삽입된 태그를 분석함을 통해 진정한 오프 타겟이 될 가능성이 있는 후보 오프 타겟 부위가 찾아질 수 있다. 예를 들어, 분석 대상 게놈 DNA는 하나 이상의 태그를 포함할 수 있다. 각 태그의 존부 및 각 태그의 위치 등을 분석함을 통해 하나 또는 다수의 오프 타겟 후보를 찾아낼 수 있다. 예를 들어, 본 출원의 오프 타겟 예측 방법은 세포 집단을 대상으로 수행될 수 있다. 세포 집단의 몇몇 세포의 분석 대상 게놈 DNA는 하나 이상의 태그를 포함할 수 있다. 세포 집단의 몇몇 세포의 분석 대상 게놈 DNA는 태그를 포함하지 않을 수 있다. 세포 집단에 존재하는 다수의 세포의 각 게놈 DNA를 분석하여, 하나 또는 다수의 오프 타겟 후보를 찾아낼 수 있다. 오프 타겟 후보의 부위로 태그가 삽입되면 각 후보 오프 타겟 부위에 대해 태그맨테이션율이 얻어질 수 있다. 나아가, 온타겟 부위에도 태그가 삽입될 수 있으며, 온타겟 부위에 대해서도 태그맨테이션 율이 얻어질 수 있다. 태그맨테이션율은 예를 들어, 약 0.001, 0.01, 0.1, 0.5, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 35, 40, 45, 50, 60, 70, 80, 90, 또는 100% 이거나, 전술한 값 중 선택되는 두 값의 범위 내일 수 있다.
조작된 게놈 DNA를 포함하는 조작된 세포
일부 실시양태에서, 조작된 게놈을 포함하는 조작된 세포가 제공될 수 있다. 예를 들어, 분석 대상 게놈 DNA가 태그를 포함하는 경우, 즉, 태그가 분석 대상 게놈 DNA 내에 성공적으로 설치된 경우의 분석 대상 게놈 DNA는 조작된 게놈으로 지칭될 수 있다. 예를 들어, 분석 대상 게놈 DNA가 편집을 포함하는 경우, 즉, 편집이 분석 대상 게놈 DNA 내에 성공적으로 설치된 경우의 분석 대상 게놈 DNA는 조작된 게놈 DNA로 지칭될 수 있다. 일부 실시양태에서, 조작된 게놈 DNA는 태그 및 편집 중 어느 하나 이상을 포함할 수 있다. 일부 실시양태에서, 조작된 세포를 포함하는 세포 집단이 제공될 수 있다.
분석 대상 DNA를 분석함
분석 대상 DNA의 분석 개괄
본 출원의 프라임 에디팅의 오프 타겟 예측 시스템은 분석 대상 DNA를 분석함을 포함한다. 본 출원의 프라임 에디팅의 오프 타겟 예측 시스템이 세포에 대해서 수행되는 경우, 분석 대상 DNA는 분석 대상 게놈 DNA일 수 있다. 분석 대상 DNA의 분석은 분석 대상 게놈 DNA의 분석을 예시로 하여 설명된다. 분석 대상 게놈 DNA는 하나의 게놈 DNA 또는 복수의 게놈 DNA일 수 있다. 분석 대상 게놈 DNA의 분석은 하나 또는 복수의 분석 대상 게놈 DNA에 대한 분석일 수 있으며 달리 제한되지 않는다. 분석 대상 게놈 DNA를 분석하여, 게놈 DNA의 태그맨테이션에 대한 정보를 얻을 수 있다. 예를 들어, 태그맨테이션에 대한 정보는 분석 대상 게놈 DNA에 태그 서열의 포함 여부; 하나 이상의 태그 서열에 대한 각 태그 서열의 게놈 DNA 상에서의 위치 (예를 들어, 태깅 위치); 및 하나 이상의 태깅 위치에서의 태그맨테이션율 등을 포함할 수 있으나, 달리 제한되지 않는다. 태그맨테이션에 대한 정보를 바탕으로 오프 타겟 후보에 대한 정보를 얻을 수 있다. 예를 들어, 오프 타겟 후보에 대한 정보는 하나 이상의 오프 타겟에 대한 정보 및 하나 이상의 오프 타겟 후보에 대한 점수 등을 포함할 수 있으나, 달리 제한되지 않는다.
분석 방법
태그맨테이션에 대한 정보를 얻기 위해, 분석 대상 게놈 DNA가 분석될 수 있다. 분석 대상 게놈 DNA는 조작된 게놈 DNA일 수 있다. 본 출원의 오프 타겟 예측 시스템은 조작된 게놈 내에 통합된 태그 서열을 바탕으로, 오프 타겟이 발생 가능한 위치에 대한 정보를 확인하는 것을 특징으로 한다. 조작된 게놈 내에 포함된 하나 이상의 태그 서열에 대한 정보는 당업계에 공지된 방법 또는 개발될 방법을 통해 확인될 수 있고, 달리 제한되지 않는다. 태그 서열에 대한 정보는 각각의 태그 서열이 삽입 여부, 각각의 태그 서열이 삽입된 염색체, 각각의 태그 서열이 삽입된 위치(예를 들어, 염색체 내에서의 위치), 태그 서열의 삽입률, 및 태그 서열이 삽입된 각각의 위치 별 삽입률 중에 어느 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다. 예를 들어, 태그 서열에 대한 정보는 태그-특이적 증폭 및/또는 시퀀싱 등을 포함하는 태그 서열 분석 방법에 의해 확인될 수 있으나, 달리 제한되지 않는다. 태그 서열에 대한 정보의 분석 방법을 위해 문헌 [Tsai, Shengdar Q., et al. "GUIDE-seq enables genome-wide profiling of off-target cleavage by CRISPR-Cas nucleases." Nature biotechnology 33.2 (2015): 187-197.; Kim, Daesik, et al. "Digenome-seq: genome-wide profiling of CRISPR-Cas9 off-target effects in human cells." Nature methods 12.3 (2015): 237-243.; 및 Kim, Do Yon, et al. "Unbiased investigation of specificities of prime editing systems in human cells." Nucleic acids research 48.18 (2020): 10576-10589.] 등이 참조될 수 있으며, 각각의 문헌의 전체 내용은 본 명세서에 참조로 포함된다.
일부 실시양태에서, 분석 대상 게놈 DNA의 분석은 태그-특이적 분석 (예를 들어, 태그가 존재하는 위치를 찾기 위한 분석)일 수 있다. 일부 실시양태에서, 분석 대상 게놈 DNA의 분석 방법은 태그-특이적 증폭을 포함할 수 있다. 일부 실시양태에서, 분석 대상 게놈 DNA의 분석 방법은 시퀀싱을 포함할 수 있다. 일부 실시양태에서, 분석 대상 게놈 DNA의 분석은 태그-특이적 증폭 및 시퀀싱을 포함할 수 있다.
일부 실시양태에서, 분석 대상 게놈 DNA의 분석은 당업계의 기술자에게 잘 알려진 DNA 분석 방법을 통해 분석될 수 있다. 일부 실시양태에서, 분석 대상 DNA의 분석은 PCR 기반 분석 (문헌 [Cameron, Peter, et al. "Mapping the genomic landscape of CRISPR-Cas9 cleavage." Nature methods 14.6 (2017): 600-606.] 참조) 및 시퀀싱 (sequencing) (문헌 [Metzker, Michael L. "Sequencing technologies-the next generation." Nature reviews genetics 11.1 (2010): 31-46.; 및 Kumar, Kishore R., Mark J. Cowley, and Ryan L. Davis. "Next-generation sequencing and emerging technologies." Seminars in thrombosis and hemostasis. Vol. 45. No. 07. Thieme Medical Publishers, 2019.] 참조) (예를 들어, DNA 시퀀싱) 중 선택되는 어느 하나 이상을 포함하는 과정에 의해 수행될 수 있다.
예를 들어, 시퀀싱은 전체 게놈 시퀀싱(whole-genome sequencing; WGS), 딥 시퀀싱(deep sequencing), 고처리 시퀀싱(High-throughput sequencing; HTS), de-novo 시퀀싱 (de-novo sequencing), 2세대 시퀀싱 (second-generation sequencing), 차세대 시퀀싱(next-generation sequencing), 3세대 시퀀싱 (third generation sequencing), 대용량 시퀀싱(Large-scale sequencing), 샷건 시퀀싱(shotgun sequencing), 롱리드 시퀀싱 (long-read sequencing), 및 숏리드 시퀀싱(short-read sequencing) 중 어느 하나 이상으로 지칭되는 시퀀싱 방법이 사용될 수 있으나, 달리 제한되지 않는다. 예를 들어, Hi-seq 의 시퀀싱 방법이 사용될 수 있다. 예를 들어, Mi-seq의 시퀀싱 방법이 사용될 수 있다. 예를 들어, 분석 대상 DNA를 분석함에 2개 이상의 시퀀싱 방법이 사용될 수 있다. 구체적인 예로, Hi-seq 및 Mi-seq을 포함하는 과정이 분석 대상 DNA를 분석함에 포함될 수 있다. 일 실시양태에서, 분석 대상 게놈 DNA의 분석에 사용되는 시퀀싱 방법의 시퀀싱 깊이 (sequencing depth)는 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42, 44, 46, 48, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 200, 300, 400, 500, 600, 700, 800, 900, 또는 1000x 일 수 있다. 일 실시양태에서, 시퀀싱 깊이는 전술한 값 중에 선택되는 두 값의 범위일 수 있다. 일 실시양태에서, 시퀀싱 깊이는 전술한 값 이하이거나, 또는 이상일 수 있다. 특정한 실시양태에서, 분석에 사용되는 시퀀싱의 시퀀싱 깊이는 약 10 내지 40x일 수 있다. 시퀀싱 깊이는 달리 제한되지 않고, 분석 대상 게놈 DNA에서 태그 서열의 존부 및/또는 위치를 확인할 수 있을 정도의 시퀀싱 깊이이면 충분하다.
일부 실시양태에서, 분석 대상 게놈 DNA의 분석은 태그 특이적 증폭 과정을 포함할 수 있다. 태그 특이적 증폭으로 증폭된 태그-특이적 라이브러리가 생성될 수 있다. 일부 실시양태에서, 분석 대상 게놈 DNA의 분석은 증폭된 태그-특이적 라이브러리를 시퀀싱함을 포함할 수 있다.
분석 대상 게놈 DNA의 분석을 통해 태그맨테이션에 대한 정보를 수득할 수 있다. 일부 실시양태에서, 분석 대상 게놈 DNA의 분석은 분석 대상 게놈 DNA로부터 태그-특이적 라이브러리를 생성함; 및 상기 태그-특이적 라이브러리를 시퀀싱함을 포함할 수 있다. 일부 실시양태에서, 분석 대상 게놈 DNA의 분석은 분석 대상 게놈 DNA로부터 증폭된 태그-특이적 라이브러리를 생성함; 및 증폭된 태그-특이적 라이브러리를 시퀀싱함을 포함할 수 있다. 일부 실시양태에서, 분석 대상 게놈 DNA의 분석은 분석 대상 게놈 DNA로부터 태그-특이적 라이브러리를 생성함; 태그-특이적 라이브러리를 증폭함; 및 증폭된 태그-특이적 라이브러리를 시퀀싱함을 포함할 수 있다. 예를 들어, 태그 특이적 증폭에는 태그-특이적 프라이머 및/또는 어댑터-특이적 프라이머가 사용될 수 있다. 예를 들어, 태그 특이적 증폭은 PCR을 통해 수행될 수 있다.
일부 실시양태에서, 분석 대상 게놈 DNA로부터 태그-특이적 라이브러리를 생성함은 분석 대상 게놈 DNA를 전단함(shearing), 및 태그-특이적 라이브러리 생성을 위해 전단된 게놈 DNA를 어댑터를 통해 결찰함 중 선택되는 하나 이상의 과정을 포함할 수 있다. 태그-특이적 라이브러리 증폭 과정에 대해서는 문헌 [Tsai, Shengdar Q., et al. "GUIDE-seq enables genome-wide profiling of off-target cleavage by CRISPR-Cas nucleases." Nature biotechnology 33.2 (2015): 187-197.; 및 Liang, Shun-Qing, et al. "Genome-wide detection of CRISPR editing in vivo using GUIDE-tag." Nature communications 13.1 (2022): 1-14.]이 참조될 수 있다.
일부 실시양태에서, 분석 대상 게놈 DNA를 분석하기 위해, 세포의 파괴, 인큐베이션, RNA 제거, 및 DNA 정제 중 어느 하나 이상의 과정이 추가로 더 수행될 수 있다. 전술한 과정은 예를 들어, 프라임 에디터 단백질 및 tpegRNA와 게놈 DNA의 접촉 이후에 수행될 수 있다.
태그맨테이션에 대한 정보의 수득
전술한 분석 대상 DNA를 분석함을 통해 태그맨테이션에 대한 정보가 수득될 수 있다. 태그맨테이션에 대한 정보는 분석 대상 게놈 DNA에 존재하는 태그 서열 및/또는 태그 서열에 대한 정보를 기초로 얻어진 정보이다. 예를 들어, 태그맨테이션에 대한 정보는 하나의 분석 대상 게놈 DNA에 존재하는 태그 서열에 대한 정보를 기초로 얻어진 정보일 수 있다. 다른 예로, 태그맨테이션에 대한 정보는 복수의 분석 대상 게놈 DNA에 존재하는 태그 서열에 대한 정보를 기초로 얻어진 정보일 수 있다. 분석 대상 게놈 DNA의 분석은 하나 또는 복수의 분석 대상 게놈 DNA의 분석의 양태를 모두 포괄하는 것으로 인식될 것이다.
예를 들어, 태그맨테이션에 대한 정보는 각각의 태그 서열의 삽입 여부, 각각의 태그 서열이 삽입된 염색체, 각각의 태그 서열이 삽입된 위치 (예를 들어, 염색체 내에서의 위치), 태그 서열의 삽입율, 및 태그 서열이 삽입된 각각의 위치 별 삽입율 중에 어느 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.
일부 실시양태에서, 태그맨테이션에 대한 정보는 다음 중 어느 하나 이상을 포함할 수 있다:
분석 대상 게놈 DNA에 태그 서열의 포함 여부;
하나 이상의 태그 서열에 대한 각 태그 서열의 게놈 DNA 상에서의 위치; 및
하나 이상의 태그 서열에 대한 태그맨테이션율 (tagmentation).
예를 들어, 분석 대상 게놈 DNA가 태그 서열을 포함하는 경우 태그 서열의 존재는 온타겟 또는 후보 오프 타겟 부위의 존재와 관련될 수 있다. 전술한 바와 같이, 하나 이상의 태그 서열이 하나의 게놈 DNA에 포함될 수 있거나, 또는 하나 이상의 태그 서열이 복수의 분석 대상 게놈 DNA에 포함되고 분석될 수 있다. 결국, 분석 대상 DNA에 태그 서열의 포함 여부는 분석의 대상이 된 하나 또는 복수의 게놈 DNA에 하나 이상의 태그 서열이 존재하는지 여부에 대한 정보이다. 예를 들어, 복수의 분석 대상 게놈 DNA의 경우, 제1 분석 대상 게놈 DNA는 태그 서열을 포함하지 않더라도, 제2 분석 대상 게놈 DNA가 태그 서열을 포함하는 경우에는, 태그 서열이 분석 대상 게놈 DNA에 존재하는 것으로 판단될 수 있다.
예를 들어, 하나 이상의 태그 서열에 대한 각 태그 서열의 게놈 DNA 상에서의 위치는, 태그 서열이 존재하는 위치의 분석을 통해 도출될 수 있고, 태그된 위치로 지칭될 수 있다. 예를 들어, 복수의 분석 대상 게놈 DNA 중 하나의 분석 대상 게놈 DNA (제1 분석 대상 게놈 DNA)가 제1 태그 서열을 포함하고, 다른 분석 대상 게놈 DNA (제2 분석 대상 게놈 DNA)가 제2 태그 서열을 포함하는 경우, 제1 태그 서열의 위치는 제1 위치로 지칭될 수 있고, 제2 태그 서열의 위치는 제2 위치로 지칭될 수 있다. 다른 예로, 하나의 분석 대상 게놈 DNA에 복수의 태그 서열이 존재하고, 이때 하나의 태그 서열은 제1 태그 서열로 지칭될 수 있고, 다른 태그 서열은 제2 태그 서열로 지칭될 수 있다. 여기서, 하나 이상의 태그 서열에 대한 각 태그 서열의 게놈 DNA 상에서의 위치는 상기 제1 위치 또는 제2 위치, 또는 제1 및 제2 위치 모두를 포함할 수 있다. 여기서, 제1 위치 및 제2 위치는 타겟 위치 (온타겟 위치 및/또는 후보 오프 타겟 위치)와 관련되며, 온타겟 위치가 아닌 경우 상기 제1 및 제2 위치는 둘 다 후보 오프 타겟 위치일 수 있다. 제1 위치와 제2 위치는 동일한 위치를 나타낼 수 있거나, 또는 다른 위치를 나타낼 수 있다. 여기서, 제1 위치 및 제2 위치와 같은 위치 정보는 염색체의 번호에 대한 정보 및 특정 염색체에서의 위치에 대한 정보를 포함한다.
예를 들어, 하나 이상의 태그 서열에 대한 태그맨테이션 율은 태그된 위치 별 발견되는 빈도를 통해 도출될 수 있다. 예를 들어, 분석 대상 게놈 DNA의 분석에서 제1 위치에서 태그 서열이 10번 발견되고, 제2 위치에서 태그 서열이 5번 발견된 경우, 제1 위치의 태그맨테이션율은 제2 위치의 태그맨테이션율보다 2배이다. 태그맨테이션율은 대응되는 오프 타겟 후보가 진정한 오프 타겟일 가능성과 연관될 수 있으나, 달리 제한되지 않는다.
일부 실시양태에서, 분석 대상 게놈 DNA를 분석하여 태그맨테이션에 대한 정보를 얻는 과정은 태그맨테이션에 대한 정보를 얻기 위한 추가적인 과정을 더 포함할 수 있다. 예를 들어, 정보(또는 데이터)의 가공, 및/또는 수득된 정보(또는 데이터)의 정규화 등의 과정을 더 포함할 수 있다. 예를 들어, 수득된 절단 정보를 미리 결정된 온타겟에 대한 정보와 비교함 등의 과정을 더 포함할 수 있다. 절단 정보를 얻는 과정은, 전술한 바와 같이, 추가적인 과정을 더 포함할 수 있으며 달리 제한되지 않는다.
일부 실시양태에서, 태그맨테이션에 대한 정보는 분석 대상 게놈 DNA의 분석(예를 들어, DNA 시퀀싱)을 통해 수득될 수 있는 다른 정보를 더 포함할 수 있으나, 달리 제한되지 않는다.
오프 타겟에 대한 정보의 수득
태그맨테이션에 대한 정보를 기초로, 오프 타겟에 대한 정보가 수득될 수 있다. 본 출원과 관련된 기술분야의 기술자는 절단에 대한 정보를 기초로 별다른 어려움 없이 오프 타겟에 대한 정보를 수득할 수 있을 것이고, 따라서 본 개시 내용은 본 출원의 오프 타겟 예측 시스템의 과정을 제한하는 것은 아니다. 본 출원과 관련된 기술분야의 기술자는 분석 대상 게놈 DNA를 분석하여 얻은 태그맨테이션에 대한 정보를 이용하여, 적절한 과정을 거치거나 또는 별다른 과정을 거치지 않고, 오프 타겟에 대한 정보를 얻을 수 있을 것이다.
일부 실시양태에서, 본 출원의 오프 타겟 예측 방법은 태그맨테이션에 대한 정보로부터 오프 타겟 후보에 대한 정보를 확인하는 과정을 포함할 수 있다.
일부 실시양태에서, 오프 타겟 후보에 대한 정보는 하나 이상의 오프 타겟 후보(off-target candidate)의 게놈 DNA 상에서의 위치(location)에 대한 정보를 포함할 수 있다 (예를 들어, 후보 오프 타겟 부위에 대한 정보). 예를 들어, 오프 타겟 후보의 위치에 대한 정보는 모든 오프 타겟 후보의 각 위치(게놈 DNA 상에서의 위치)에 대한 정보를 포함할 수 있다. 예를 들어, 오프 타겟 후보의 위치에 대한 정보는 하나 이상의 오프 타겟 후보(off-target candidates)의 각 위치에 대한 정보를 포함할 수 있다. 즉, 모든 후보 오프 타겟 부위(candidate off-target site)에 대한 위치 정보가 수득되거나, 또는 모든 후보 오프 타겟 부위(candidate off-target site)는 아니지만 하나 이상의 후보 오프 타겟 부위에 대한 위치 정보가 수득될 수 있다. 오프 타겟 후보 중 진정한 오프 타겟(예를 들어, 프라임 에디팅 시스템의 사용에서 발생하는 실제의 오프 타겟)이 존재할 수 있다. 오프 타겟 후보의 위치에 대한 정보는 전술한 태그맨테이션에 대한 정보에 기초하여 수득될 수 있다.
일 실시양태에서, 오프 타겟 후보에 대한 정보는 하나 이상의 오프 타겟 후보에 대한 오프 타겟 점수 (예를 들어, 오프 타겟 예측 점수)를 포함할 수 있다. 예를 들어, 오프 타겟 후보에 대한 정보는 모든 오프 타겟 후보에 대한 각 오프 타겟 후보의 오프 타겟 점수를 포함할 수 있다. 예를 들어, 오프 타겟 후보에 대한 정보는 하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 오프 타겟 점수를 포함할 수 있다. 즉, 모든 후보 오프 타겟 부위에 대한 오프 타겟 점수가 수득되거나, 또는 모든 후보 오프 타겟 부위는 아니지만 하나 이상의 후보 오프 타겟 부위에 대한 오프 타겟 점수가 수득될 수 있다. 오프 타겟 후보의 오프 타겟 점수에 대한 정보는, 전술한 태그맨테이션에 대한 정보 (예를 들어, 태그맨테이션율에 대한 정보)에 기초하여 수득될 수 있다. 일 실시양태에서, 수득된 오프 타겟 점수를 기초로 오프 타겟 후보의 랭크가 계산될 수 있다. 예를 들어, 높은 오프 타겟 점수를 나타내는 오프 타겟 후보(예를 들어, 후보 오프 타겟 부위)는 보다 상위에 랭크될 수 있다. 예를 들어, 가장 높은 오프 타겟 점수를 나타내는 오프 타겟 후보는 1위에 랭크될 수 있다. 예를 들어, 오프 타겟 후보의 높은 오프 타겟 점수는 진정한 오프 타겟과 관련될 수 있으나, 달리 제한되지 않는다.
일 실시양태에서, 오프 타겟 후보에 대한 정보는 오프 타겟 후보의 개수에 대한 정보를 포함할 수 있다. 예를 들어, 오프 타겟 후보의 총 개수가 계산될 수 있다. 예를 들어, 오프 타겟 후보의 개수의 계산에서, 중복되는 위치는 하나로 카운팅될 수 있다. 다른 예로, 오프 타겟 후보의 개수의 계산에서, 중복되는 위치는 복수로 카운팅될 수 있다. 예를 들어, 후보 오프 타겟 부위 x가 5개 발견된 경우, 이는 1로 카운팅되거나 5로 카운팅될 수 있다. 오프 타겟 후보의 개수에 대한 정보를 통해, 프라임 에디팅을 이용한 게놈 편집 과정에서 발생 가능한 오프 타겟 후보의 전체 개수를 확인할 수 있다. 즉, 예측된 오프 타겟의 전체 개수가 확인될 수 있다.
일 실시양태에서, 오프 타겟 또는 오프 타겟 후보에 대한 정보는 다음 중 어느 하나 이상을 포함할 수 있으나, 달리 제한되지 않는다:
하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 게놈 DNA 상에서의 위치;
하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 오프 타겟 점수; 및
예측된 오프 타겟 후보의 개수.
일부 실시양태에서, 오프 타겟 후보에 대한 정보를 얻는 과정은 오프 타겟 후보에 대한 정보를 얻기 위한 추가적인 과정을 더 포함할 수 있다. 예를 들어, 정보(또는 데이터)의 가공, 및/또는 수득된 정보(또는 데이터)의 정규화 과정을 더 포함할 수 있다. 예를 들어, 얻어진 오프 타겟 후보에 대한 정보를 미리 결정된 온타겟에 대한 정보와 비교함의 과정을 더 포함할 수 있다. 오프 타겟 후보에 대한 정보를 얻는 과정은, 전술한 바와 같이, 추가적인 과정을 더 포함할 수 있으며 달리 제한되지 않는다.
일부 실시양태에서, 오프 타겟 후보에 대한 정보는 프라임 에디팅 시스템의 사용에서 발생 가능한 오프 타겟을 예측하는데 도움이 되는 추가적인 정보를 더 포함할 수 있으나, 달리 제한되지 않는다.
오프 타겟 후보와 tpegRNA의 비교
전술한 바와 같이, 오프 타겟 후보의 위치 (즉, 후보 오프 타겟 부위)로 태그가 삽입될 수 있다. 전통적인 CRISPR/Cas 시스템에서, 오프 타겟은 가이드 서열과 타겟 서열의 부분적이지만 충분한 일치로부터 비롯될 수 있다고 알려져있다. 이와 유사하게 프라임 에디팅 시스템에서도 tpegRNA의 각 요소의 서열과 표적 서열의 부분적이지만 충분한 일치로부터 비롯될 수 있다고 예상되나, 본 명세서에서는 오프 타겟이 발생하는 이유에 대하여 한정하지 않는다. 일부 실시양태에서, 오프 타겟은 tpegRNA의 서열과 오프 타겟 서열의 하나 이상의 미스매치에 의해 발생할 수 있다. 여기서, 미스매치는 베이스 미스매치 (예를 들어, 하나 이상의 뉴클레오타이드의 다름), 및 벌지 미스매치 (예를 들어, 하나 이상의 뉴클레오타이드의 추가 또는 하나 이상의 뉴클레오타이드의 결실)을 포함한다. 일부 실시양태에서, 오프 타겟 (또는 오프 타겟 후보)의 서열은 tpegRNA의 대응되는 서열과 비교할 때 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20개 또는 그 초과의 미스매치를 포함할 수 있다. 일부 실시양태에서, 오프 타겟 (오프 타겟 후보)의 서열은 tpegRNA의 대응되는 서열과 비교할 때 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 98%, 99%, 또는 100%의 서열 동일성을 갖거나, 또는 전술한 값 중 선택되는 두 값에 의해 설정되는 범위 내의 서열 동일성을 가질 수 있다. 예를 들어, tpegRNA의 스페이서 서열과 오프 타겟(또는 오프 타겟 후보)의 스페이서에 대응되는 서열은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 또는 그 초과의 미스매치를 포함할 수 있다. 다른 예로, 오프 타겟(또는 오프 타겟 후보)의 PAM 서열에 대응되는 서열은 PAM 서열과 1, 2, 3, 4, 5, 또는 그 초과의 미스매치를 포함할 수 있다. 예를 들어, tpegRNA의 DNA 합성 주형과 오프 타겟(또는 오프 타겟 후보)의 DNA 합성 주형에 대응되는 서열은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 또는 그 초과의 미스매치를 포함할 수 있다. 예를 들어, tpegRNA의 상동성 영역과 오프 타겟(또는 오프 타겟 후보)의 상동성 영역에 대응되는 서열은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 또는 그 초과의 미스매치를 포함할 수 있다. 예를 들어, tpegRNA의 프라이머 결합 부와 오프 타겟(또는 오프 타겟 후보)의 프라이머 결합 부에 대응되는 서열 (예를 들어, 프라이머로 기능하는 서열)은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 또는 그 초과의 미스매치를 포함할 수 있다. 예를 들어, 하나 이상의 미스매치는 오프 타겟(또는 오프 타겟 후보)의 스페이서와 대응되는 서열, 오프 타겟의 PAM 서열과 대응되는 서열, 오프 타겟의 DNA 합성 주형에 대응되는 서열, 오프 타겟의 프라이머 결합 부에 대응되는 서열 중 하나 이상에 존재할 수 있으며, 이에 제한되지 않는다.
오프 타겟 후보와 온타겟의 비교
전술한 바와 같이, 오프 타겟 후보의 위치 (즉, 후보 오프 타겟 부위)로 태그가 삽입될 수 있다. 오프 타겟 후보는 예측 시스템을 통해 예측된 오프 타겟을 지칭하는 것으로, 진정한 오프 타겟일 수 있거나 진정한 오프 타겟이 아닐 수 있다. 일부의 실시양태에서, 오프 타겟 후보의 부위는 어떤 특정된 위치를 지칭하는 것일 수 있다. 일부의 실시양태에서, 온타겟 위치 또는 온타겟 부위, 또는 오프 타겟 후보의 위치 또는 오프 타겟 후보의 부위는 특정한 영역으로 이해될 수 있고, 이때 상기 특정한 영역은 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 220, 240, 260, 280, 300, 320, 340, 360, 380, 400, 450, 500 개의 연속된 뉴클레오타이드로 이루어진 영역을 지칭하는 것일 수 있다. 또는 전술한 값 초과의 개수의 연속된 뉴클레오타이드로 이루어진 영역을 지칭하는 것일 수 있다. 일부의 측면에서는 연속된 뉴클레오타이드의 개수가 많을수록 오프 타겟 또는 온타겟 부위를 정확하게 지칭할 수 있는데, 뉴클레오타이드의 개수가 많을수록 게놈 DNA 상에 동일한 서열 (중복된 서열)이 존재할 확률이 적어지기 때문이다.
오프 타겟 후보 또는 오프 타겟은 온타겟의 서열과 비교될 수 있다. 일부 실시양태에서, 오프 타겟 후보 또는 진정한 오프 타겟은 온타겟 서열과 비교할 때, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 또는 그 초과의 미스매치 (온타겟 미스매치)를 포함할 수 있다. 일부 실시양태에서, 오프 타겟 (오프 타겟 후보)의 서열은 온타겟의 대응되는 서열과 비교할 때 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 98%, 99%, 또는 100%의 서열 동일성을 갖거나, 또는 전술한 값 중 선택되는 두 값에 의해 설정되는 범위 내의 서열 동일성을 가질 수 있다. 오프 타겟과 온타겟의 비교에서 사용되는 미스매치는 오프 타겟과 온타겟의 서열의 다름을 설명하기 위해 사용된다. 나아가, 미스매치는 뉴클레오타이드 미스매치 (예를 들어, 뉴클레오타이드의 다름) 및 벌지 미스매치 (예를 들어, 하나 이상의 뉴클레오타이드의 추가 또는 하나 이상의 뉴클레오타이드의 결실)을 모두 포함하는 것으로 사용된다. 예를 들어, 오프 타겟 후보의 스페이서에 대응되는 서열은 GGCACTGaGGgTGGAGGTGG (서열번호 51)이고, 온타겟의 스페이서에 대응되는 서열은 GGCACTGCGGCTGGAGGTGG (서열번호 52)일 때, 오프 타겟 후보의 스페이서에 대응되는 서열은 온타겟의 서열과 비교할 때 2개의 뉴클레오타이드 미스매치 (소문자로 표시됨)를 갖는 것으로 설명될 수 있다. 다른 예로, 오프 타겟 후보의 스페이서에 대응되는 서열은 GGCACTGC--CTGGAGGTGG (서열번호 53)이고 온타겟의 스페이서에 대응되는 서열은 GGCACTGCGGCTGGAGGTGG (서열번호 54)일 때, 오프 타겟 후보의 스페이서에 대응되는 서열은 온타겟의 서열과 비교할 때 2개의 벌지 미스매치(예를 들어, 2개의 벌지 온타겟 미스매치)를 갖는 것으로 설명될 수 있다. 또 다른 예로, 오프 타겟 후보의 스페이서에 대응되는 서열은 GGCACTGCGGCTGGAGgTGG (서열번호 55) 이고 온타겟의 스페이서에 대응되는 서열은 GGCACT--GGCTGGAGGTGG (서열번호 56)일 때, 오프 타겟 후보의 스페이서에 대응되는 서열은 온타겟의 서열과 비교할 때 1개의 뉴클레오타이드 미스매치 및 2개의 벌지 미스매치 (총 3개의 미스매치)를 갖는 것으로 설명될 수 있다. 이하에서 오프 타겟 (또는 오프 타겟 후보)의 서열을 온타겟의 서열과 비교하여 설명한다.
일부 실시양태에서, 오프 타겟 (또는 오프 타겟 후보)의 스페이서에 대응되는 서열은 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10개, 또는 그 초과의 미스매치(예를 들어, 온타겟 미스매치)를 포함할 수 있다. 일부 실시양태에서, 오프 타겟 (또는 오프 타겟 후보)의 PAM 서열에 대응되는 서열은 0, 1, 2, 3, 4, 5, 또는 그 초과의 미스매치를 포함할 수 있다. 일부 실시양태에서, 오프 타겟 (또는 오프 타겟 후보)의 DNA 합성 주형에 대응되는 서열은 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10개, 또는 그 초과의 미스매치를 포함할 수 있다. 일부 실시양태에서, 오프 타겟 (또는 오프 타겟 후보)의 상동성 영역에 대응되는 서열은 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10개, 또는 그 초과의 미스매치를 포함할 수 있다. 일부 실시양태에서, 오프 타겟 (또는 오프 타겟 후보)의 프라이머 결합 부에 대응되는 서열은 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10개 또는 그 초과의 미스매치를 포함할 수 있다. 일부 실시양태에서, 하나 이상의 미스매치는 오프 타겟(또는 오프 타겟 후보)의 스페이서에 대응되는 서열, 오프 타겟(또는 오프 타겟 후보)의 PAM 서열에 대응되는 서열, 및 오프 타겟(또는 오프 타겟 후보)의 DNA 합성 주형에 대응되는 서열, 및 오프 타겟 (또는 오프 타겟 후보)의 프라이머 결합 부 중 어느 하나 이상에 존재할 수 있다.
일부 실시양태에서, 오프 타겟 후보 (또는 오프 타겟) 부위는 스페이서에 대응되는 영역, PAM에 대응되는 영역, PBS에 대응되는 영역 및 DNA 합성 주형에 대응되는 영역 중 어느 하나 이상에 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 또는 그 초과의 온타겟 미스매치를 포함할 수 있거나, 또는 전술한 값 중 선택되는 두 값에 의해 설정되는 범위 내의 온타겟 미스매치를 포함할 수 있다. 일부 실시양태에서, 오프 타겟 후보 (또는 오프 타겟) 부위는 스페이서에 대응되는 영역 및 DNA 합성 주형에 대응되는 영역에 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 또는 그 초과의 온타겟 미스매치를 포함할 수 있거나, 또는 전술한 값 중 선택되는 두 값에 의해 설정되는 범위 내의 온타겟 미스매치를 포함할 수 있다. 특정한 실시양태에서, 오프 타겟 후보 (또는 오프 타겟) 부위는 스페이서에 대응되는 영역 및 DNA 합성 주형에 대응되는 영역에 0 내지 20개의 온타겟 미스매치를 포함할 수 있다. 특정한 실시양태에서, 오프 타겟 후보 (또는 오프 타겟) 부위는 스페이서에 대응되는 영역 및 DNA 합성 주형에 대응되는 영역에 1 내지 15개의 온타겟 미스매치를 포함할 수 있다. 특정한 실시양태에서, 오프 타겟 후보 (또는 오프 타겟) 부위는 스페이서에 대응되는 영역 및 DNA 합성 주형에 대응되는 영역에 1 내지 10개의 온타겟 미스매치를 포함할 수 있다. 여기서 온타겟 미스매치는 온타겟 부위의 대응되는 영역의 서열과 비교를 통해 결정되는 미스매치를 나타낸다. 상기 온타겟 미스매치는 하나의 가닥에서 카운팅될 수 있거나, 두개의 가닥에서 카운팅될 수 있다. 예를 들어, 오프 타겟 후보 (또는 오프 타겟)의 부위는 스페이서 비-결합 가닥의 (i) 프로토스페이서에 대응되는 영역 및 (ii) 상기 프로토스페이서에 대응되는 영역의 하류에 위치한 5 내지 20개의 뉴클레오타이드로 이루어진 영역에 0 내지 10개의 온타겟 미스매치를 포함할 수 있다. 예를 들어, 오프 타겟 후보 (또는 오프 타겟) 부위는 절단 위치 (nick 또는 DSB)를 기준으로 -30에서 +10 또는 -20에서 +10의 영역에 0 내지 10개의 온타겟 미스매치를 포함할 수 있다.
예측의 대상이 되는 프라임 에디팅 시스템과의 관계
본 출원의 오프 타겟 예측 시스템은 예측의 대상이 되는 프라임 에디팅 시스템과 연관될 수 있다. 여기서, 예측의 대상이 되는 프라임 에디팅 시스템은 연구에 사용되거나 또는 치료제에 사용되는 것으로 결정된 프라임 에디팅 시스템을 지칭할 수 있으나, 달리 제한되지 않는다. 즉, 예측의 대상이 되는 프라임 에디팅 시스템은 오프 타겟이 예측되어야 하는 프라임 에디팅 시스템(또는 프라임 에디팅 시스템을 이용한 게놈 편집 과정)을 지칭하는 것일 수 있다.
예를 들어, 예측의 대상이 되는 프라임 에디팅 시스템에서 특정한 세포가 사용되는 경우, 본 출원의 오프 타겟을 예측하는 방법에서도 상기 특정한 세포가 사용될 수 있다. 다른 예로, 예측의 대상이 되는 프라임 에디팅 시스템에서 특정한 세포가 사용되는 경우, 본 출원의 오프 타겟을 예측하는 방법에서는 상기 특정한 세포가 아닌 다른 세포가 사용될 수 있다. 예를 들어, 예측이 대상이 되는 프라임 에디팅 시스템에서 사용되는 환자로부터 유래된 세포일 수 있고, 본 출원의 오프 타겟 예측 시스템에서 사용되는 세포는 인간 세포주일 수 있다.
예를 들어, 예측의 대상이 되는 프라임 에디팅 시스템에서 특정한 서열을 갖는 tpegRNA가 사용되는 경우, 본 출원의 오프 타겟을 예측하는 방법에서는 동일한 서열을 갖는 tpegRNA가 사용되거나 일부 다른 서열을 갖는 tpegRNA가 사용될 수 있다. 이와 유사하게, 예측의 대상이 되는 프라임 에디팅 시스템에서 특정한 프라임 에디터 단백질이 사용되는 경우, 본 출원의 오프 타겟을 예측하는 방법에서는 동일한 종류의 프라임 에디터 단백질 또는 다른 종류의 프라임 에디터 단백질이 사용될 수 있다. 또 다른 예로, 본 출원의 오프 타겟을 예측하는 방법에는 예측의 대상이 되는 프라임 에디팅 시스템에서의 요소에 더하여 추가적 요소 (예를 들어, dnMLH1, sgRNA, 및/또는 추가의 tpegRNA 등)이 사용될 수 있으며, 달리 제한되지 않는다.
이러한 측면에서, 본 출원의 일 실시양태에 따른 오프 타겟을 예측하는 방법은 예측의 대상이 되는 프라임 에디팅 시스템을 확인함의 과정을 더 포함할 수 있다. 예측의 대상이 되는 프라임 에디팅 시스템은 미리 결정된 프라임 에디팅 시스템으로 지칭될 수 있다. 미리 결정된 프라임 에디팅 시스템은 미리 결정된 세포 (예를 들어, 프라임 에디팅 시스템을 이용한 게놈 편집의 대상이 되는 세포), 미리 결정된 프라임 에디터 단백질, 및 미리 결정된 pegRNA 중 어느 하나 이상 또는 이들의 사용을 포함할 수 있다.
일 실시양태에서, 본 출원의 오프 타겟을 예측하는 방법은 미리 결정된 프라임 에디팅 시스템을 확인함 또는 설계함을 더 포함할 수 있다. 미리 결정된 프라임 에디팅 시스템을 확인하고, 이를 통해 적절히 오프 타겟 예측 시스템에 사용될 요소들을 디자인할 수 있다. 이때, 상기 미리 결정된 유전자 편집 시스템을 확인함의 과정은 프라임 에디터 단백질 및 tpegRNA를 세포의 게놈 DNA와 접촉함의 이전에 수행될 수 있다. 이하에서, 미리 결정된 (즉, 예측 대상이 되는) 프라임 에디팅 시스템을 확인함의 예시를 설명한다.
일 실시양태에서, 본 출원의 오프 타겟을 예측하는 방법은 미리 결정된 프라임 에디팅 시스템을 확인함을 포함할 수 있다. 이때, 미리 결정된 프라임 에디팅 시스템을 확인함은 미리 결정된 세포, 미리 결정된 프라임 에디터 단백질, 및 미리 결정된 pegRNA에 대한 정보 중 어느 하나 이상을 확인함을 포함할 수 있다. 미리 결정된 프라임 에디팅 시스템, 미리 결정된 세포, 미리 결정된 프라임 에디터 단백질, 미리 결정된 pegRNA 등은 제1 프라임 에디팅 시스템, 제1 세포, 제1 프라임 에디터 단백질, 제1 pegRNA와 같이 서수적 한정과 함께 사용될 수 있다.
특정한 실시양태에서, 미리 결정된 프라임 에디팅 시스템을 확인함은 미리 결정된 세포를 확인함을 포함할 수 있다. 특정한 실시양태에서, 본 출원의 오프 타겟 예측 시스템에는 미리 결정된 세포와 동일한 세포가 사용될 수 있다. 특정한 실시양태에서, 본 출원의 오프 타겟 예측 시스템에는 미리 결정된 세포와 다른 세포가 사용될 수 있다. 예를 들어, 미리 결정된 세포는 세포주가 아닌 인간 세포일 수 있고, 본 출원의 오프 타겟 예측 시스템에는 인간 세포주가 사용될 수 있다. 일부 실시양태에서, 미리 결정된 세포는 동물 세포 또는 식물 세포일 수 있다. 일부 실시양태에서, 미리 결정된 세포는 인간 세포 또는 비인간 동물(예를 들어, 마우스, 래트, 원숭이, 침팬지, 개, 고양이, 소, 돼지, 말, 및 양 등) 세포일 수 있으나, 달리 제한되지 않는다. 일부 실시양태에서, 미리 결정된 세포는 환자로부터 유래된 세포일 수 있다. 일부 실시양태에서, 미리 결정된 세포는 세포주 (예를 들어, 인간, 마우스, 원숭이, 또는 래트 세포주)의 세포일 수 있다. 세포주의 세포는 예를 들어, 3T3 세포, A549 세포, HeLa 세포, HEK 293 세포, K562 세포, Huh7 세포, Jurkat 세포, OK 세포, Ptk2 세포, 또는 Vero 세포일 수 있으나, 이에 제한되지 않는다.
특정한 실시양태에서, 미리 결정된 프라임 에디팅 시스템을 확인함은 미리 결정된 프라임 에디터 단백질을 확인함을 포함할 수 있다. 특정한 실시양태에서, 본 출원의 오프 타겟 예측 시스템에는 미리 결정된 프라임 에디터 단백질과 동일한 프라임 에디터 단백질이 사용될 수 있다. 특정한 실시양태에서, 본 출원의 오프 타겟 예측 시스템에는 미리 결정된 프라임 에디터 단백질과 다른 종류의 프라임 에디터 단백질이 사용될 수 있다. 예를 들어, 미리 결정된 프라임 에디터 단백질은 PE2 프라임 에디터 단백질일 수 있으나, 본 출원의 오프 타겟 예측 시스템에 사용되는 프라임 에디터 단백질은 PE2-뉴클레아제 프라임 에디터 단백질 또는 PEmax-뉴클레아제 프라임 에디터 단백질일 수 있다. 다른 종류의 프라임 에디터 단백질은 태그맨테이션 율을 높이기 위해서 사용되는 것일 수 있다.
특정한 실시양태에서, 미리 결정된 프라임 에디팅 시스템을 확인함은 미리 결정된 pegRNA를 확인함을 포함할 수 있다. 특정한 실시양태에서, 본 출원의 오프 타겟 예측 시스템에는 미리 결정된 pegRNA와 동일한 tpegRNA (여기서, 미리 결정된 pegRNA와 동일한 tpegRNA는 태그 주형을 제외한 모든 서열이 동일함을 나타냄)가 사용될 수 있다. 특정한 실시양태에서, 본 출원의 오프 타겟 예측 시스템에는 미리 결정된 pegRNA와 다른 tpegRNA가 사용될 수 있다. 이하에서, 미리 결정된 pegRNA와 본 출원의 오프 타겟 예측 시스템에 사용되는 tpegRNA의 관계가 설명된다.
미리 결정된 pegRNA는 제1 pegRNA로 지칭되고, 제1 pegRNA는 제1 스페이서, 제1 DNA 합성 주형, 제1 프라이머 결합 부를 포함한다. 본 출원의 오프 타겟 예측 시스템에 사용되는 tpegRNA는 편의상, 제2 tpegRNA로 지칭된다. 제2 tpegRNA는 제2 스페이서, 제2 DNA 합성 주형, 제2 태그 주형, 제2 프라이머 결합 부를 포함한다. 나아가, 제2 tpegRNA는 3' 엔지니어링 영역을 더 포함할 수 있고, 이 경우, 제1 pegRNA의 종류와 달리 본 출원의 오프 타겟 예측 방법에는 epegRNA를 기초로 개발된 etpegRNA가 사용될 수 있다.
일부 실시양태에서, 제2 스페이서는 제1 스페이서 서열과 동일하거나, 약 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 99.9%의 서열 동일성을 갖는 서열을 가질 수 있다.
일부 실시양태에서, 제2 프라이머 결합 부는 제1 프라이머 결합 부의 서열과 동일하거나, 약 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 99.9%의 서열 동일성을 갖는 서열을 가질 수 있다.
일부 실시양태에서, 제2 DNA 합성 주형은 제1 DNA 합성 주형의 서열과 동일하거나, 약 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 99.9%의 서열 동일성을 갖는 서열을 가질 수 있다.
일부 실시양태에서, 제2 연장 영역은 태그 주형을 제외하고 제1 연장 영역의 서열과 동일하거나, 약 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 99.9%의 서열 동일성을 갖는 서열을 가질 수 있다.
일부 실시양태에서, 제1 pegRNA는 epegRNA가 아닌 pegRNA이나, 본 출원의 오프 타겟 예측 방법에 사용되는 tpegRNA는 3' 엔지니어링 영역을 더 포함할 수 있다 (예를 들어, etpegRNA가 사용됨).
일부 실시양태에서, 제1 DNA 합성 주형은 제1 편집 주형을 포함하나, 제2 DNA 합성 주형은 편집 주형을 포함하지 않을 수 있다. 일부 실시양태에서, 제1 합성 주형은 제1 편집 주형을 포함하고, 제2 DNA 합성 주형은 제2 편집 주형을 포함할 수 있다. 이때 제2 편집 주형은 제1 편집 주형의 서열과 동일하거나, 약 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 99.9%의 서열 동일성을 갖는 서열을 가질 수 있다. 일부 실시양태에서, 제2 편집 주형은 제1 편집 주형의 서열과 다른 서열을 가질 수 있다.
일부 실시양태에서, 제1 DNA 합성 주형은 제1 상동성 영역을 포함하고, 제2 DNA 합성 주형은 제2 상동성 영역을 포함할 수 있다. 일부 실시양태에서, 제2 상동성 영역은 제1 상동성 영역의 서열과 동일하거나, 약 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 99.9%의 서열 동일성을 갖는 서열을 가질 수 있다.
추가의 오프 타겟 예측 시스템과 함께 사용될 수 있음
일부 실시양태에서, 본 출원의 오프 타겟 시스템은 하나 이상의 추가의 오프 타겟 예측 시스템과 함께 사용될 수 있다. 추가의 오프 타겟 시스템은 예를 들어, 다른 종류의 프라임 에디터 단백질 및/또는 다른 종류의 tpegRNA를 사용하는 프라임 에디팅의 오프 타겟 예측 시스템일 수 있다. 즉, 추가의 오프 타겟 시스템은 다른 종류의 프라임 에디터 단백질 및/또는 다른 종류의 tpegRNA를 사용하는 TAPE-seq일 수 있다. 예를 들어, 제1 프라임 에디터 단백질 및 제1 tpegRNA를 사용하는 제1 오프 타겟 예측 시스템과 제2 프라임 에디터 단백질 및 제2 tpegRNA를 사용하는 제2 오프 타겟 예측 시스템이 함께 사용될 수 있다. 특정한 실시양태에서, 제1 프라임 에디터 단백질은 제2 프라임 에디터 단백질과 동일하거나 다른 종류일 수 있다. 특정한 실시양태에서, 제1 tpegRNA는 제2 tpegRNA와 동일한 서열을 갖거나, 일부 다른 서열을 가질 수 있다. 예를 들어, 제1 tpegRNA의 제1 편집 주형과 제2 tpegRNA의 제2 편집 주형은 다를 수 있다. 예를 들어, 제1 프라임 에디팅의 오프 타겟 예측을 위한 도구를 사용하여 제1 TAPE-seq을 수행하고, 제2 프라임 에디팅의 오프 타겟 예측을 위한 도구를 사용하여 제2 TAPE-seq을 수행하고, 상기 제1 TAPE-seq 결과와 상기 제2 TAPE-seq 결과는 결합되어 오프 타겟을 예측하기 위한 결과로 사용될 수 있다. 여기서, 제2 프라임 에디팅의 오프 타겟 예측을 위한 도구에 포함된 요소 중 어느 하나 이상은 제1 프라임 에디팅의 오프 타겟 예측을 위한 도구에 포함된 대응되는 요소와 다를 수 있다. 예를 들어, 제1 프라임 에디팅의 오프 타겟 예측을 위한 도구의 tpegRNA의 편집 주형의 서열은 제2 프라임 에디팅의 오프 타겟 예측을 위한 도구의 tpegRNA의 편집 주형의 서열과 다를 수 있다. 다른 예로, 제1 프라임 에디팅의 오프 타겟 예측을 위한 도구는 PEmax-뉴클레아제 및 tepegRNA를 포함하나, 제2 프라임 에디팅의 오프 타겟 예측을 위한 도구는 PE2 및 tepegRNA가 아닌 tpegRNA (즉, 3' 엔지니어링 영역을 포함하지 않는 tpegRNA)를 포함할 수 있다. 다른 예로, 제1 TAPE-seq과 제2 TAPE-seq은 동일한 프라임 에디팅의 오프 타겟 예측을 위한 도구를 사용하나, 각 TAPE-seq에서 태그맨테이션 분석에 사용되는 시퀀싱 플랫폼이 다를 수 있다. 다른 예로, 제1 TAPE-seq, 제2 TAPE-seq, 및 제3 TAPE-seq이 수행되고, 상기 세개의 TAPE-seq 결과가 결합되어 오프 타겟을 예측하는데 사용될 수 있다. 이처럼, 추가로 사용될 수 있는 프라임 에디팅의 오프 타겟 예측 시스템의 개수와 각 오프 타겟 예측 시스템의 구성은 달리 제한되지 않는다.
일부 실시양태에서, 추가의 오프 타겟 예측 시스템은 다른 오프 타겟 예측 시스템일 수 있다. 예를 들어, 본 출원의 오프 타겟 예측 시스템은 Cas-OFFinder, CHOPCHOP, CRISPOR, Digenome-seq, nDigenome-seq, DIG-seq, SITE-seq, CIRCLE-seq, CHANGE-seq, GUIDE-seq, GUIDE-tag, DISCOVER-seq, BLISS, BLESS, integrase-defective lentiviral vector-mediated DNA break capture, HTGTS, ONE-seq, CReVIS-Seq, ITR-seq, 및 TAG-seq 중에 선택되는 어느 하나 이상과 함께 사용될 수 있다. 진정한 오프 타겟 부위를 보다 효율적으로 찾기 위한 목적으로, 본 출원의 오프 타겟 예측 시스템과 다른 오프 타겟 예측 시스템이 함께 사용될 수 있으며, 다른 오프 타겟 예측 시스템은 본 출원의 출원일 이전에 개발된 오프 타겟 예측 시스템이거나 본 출원의 출원일 이후에 개발된 오프 타겟 예측 시스템일 수 있고, 달리 제한되지 않는다.
본 출원의 오프 타겟 예측 시스템의 장점
본 출원의 발명자들은 본 출원에 의해 제공되는 오프 타겟 예측 방법에 대하여 상세히 테스트하였다. 본 출원의 오프 타겟 예측 방법을 다른 오프 타겟 예측 방법과 비교하여, 본 출원의 오프 타겟 예측 방법이 다른 오프 타겟 예측 방법보다 좋은 성능을 보임을 확인하였다 (본 출원의 실험예 참조). 본 출원의 오프 타겟 예측 방법은 프라임 에디팅 시스템의 분자적 매커니즘을 이용하기 때문에, 다른 오프 타겟 예측 방법보다 프라임 에디팅 시스템의 오프 타겟을 예측하는데 다수의 장점을 보인다.
본 출원의 오프 타겟 예측 방법은 위양성율이 알려진 오프 타겟 예측 방법보다 적을 수 있다. 본 출원의 오프 타겟 예측 방법은 미스율(miss rate)이 알려진 오프 타겟 예측 방법보다 적을 수 있다. 미스율은 진정한 오프 타겟을 놓치는 것을 의미할 수 있다. 예를 들어, 진정한 오프 타겟 부위를 오프 타겟 후보로 탐지하지 못하는 경우와 같은 거짓 음성(false negative) 결과는 미스율을 높인다. 예를 들어, 미스율은 오프 타겟 예측 시스템으로 확인된 검증된 오프 타겟 부위의 개수를 전체 검증된 오프 타겟 부위의 개수로 나눈 값일 수 있다. 본 출원의 오프 타겟 예측 방법은 대리 세포를 이용하여 수행될 수 있다. 예를 들어, 프라임 에디팅 시스템을 이용한 게놈 편집은 다양한 세포 고유의 과정이 관여되기 때문에 in vitro 기반 오프 타겟 예측을 통해 오프 타겟을 예측하기는 어렵다. 따라서, 세포 기반 오프 타겟 예측 방법이 이용되어야 한다. 알려진 세포 기반 예측 방법은 대리 세포를 사용하는 경우 부정확한 결과를 야기한다. 그러나, 본 출원의 오프 타겟 예측 방법은 대리 세포 (예를 들어, 인간 세포주)를 사용하더라도 보다 정확한 결과가 도출될 수 있다.
본 출원의 발명자들은 많은 수의 그리고 많은 종류의 실험을 통해 본 출원의 오프 타겟 예측 방법이 프라임 에디팅의 오프 타겟 예측과 관련하여 실제로 작동될 수 있는지 확인하였다. 나아가, 다양한 실험을 통해 본 출원의 오프 타겟 예측 방법의 성능을 테스트하였다. 본 출원의 오프 타겟 예측 방법의 성능의 검증 결과는 본 출원의 실험예를 통해 확인된다.
일 실시양태에서, 본 출원의 오프 타겟 예측 방법의 검증률은 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95% 또는 100% 이상일 수 있으나, 달리 제한되지 않는다. 검증률은 오프 타겟 예측 방법을 통해 예측된 오프 타겟 후보 중 진정한 오프 타겟의 비율을 나타낼 수 있다. 일 실시양태에서, 본 출원의 오프 타겟 예측 방법을 통해 확인된 오프 타겟 후보를 기초로 계산된 검증율은 전술한 값 중 두 값에 의해 형성되는 범위 내일 수 있으나, 달리 제한되지 않는다. 검증율은 오프 타겟 예측 시스템에 사용되는 프라임 에디팅 시스템의 종류 (예를 들어, 프라임 에디터 단백질 및/또는 tpegRNA의 종류) 및 세포의 종류 등에 영향을 받을 수 있다.
일 실시양태에서, 본 출원의 오프 타겟 예측 방법의 미스율은 0, 또는 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 또는 40% 이하일 수 있으나, 달리 제한되지 않는다. 일 실시양태에서, 본 출원의 오프 타겟 예측 방법의 미스율은 전술한 값 중 선택되는 두 값에 의해 형성되는 범위 내일 수 있으나, 달리 제한되지 않는다. 미스율은 오프 타겟 예측 시스템에 사용되는 프라임 에디팅 시스템의 종류, 및 세포의 종류 등에 영향을 받을 수 있다. 일 실시양태에서, 본 출원의 오프 타겟 예측 방법이 놓친 진정한 오프 타겟의 수는 0, 또는 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 11 이하일 수 있으나 달리 제한되지 않는다.
일 실시양태에서, 본 출원의 오프 타겟 예측 방법에 대해 ROC 커브가 (receiver operating characteristic curve) 그려질 수 있다. 일 실시양태에서, 본 출원의 오프 타겟 예측 방법에 대해 ROC 커브의 아래 면적 (area under receiver operating characteristic curve; AUC)이 계산될 수 있다. ROC 커브 및 ROC 커브의 아래 면적은 이진 분류기(binary classifier system)의 진단 능력을 나타낼 수 있는 강력한 도구이다. ROC 커브는, 일반적으로, TPR (True positive rate)와 FPR (false positive rate)를 대응하여 작성되거나, 또는 민감도 (sensitivity)와 특이도 (specificity)를 대응하여 작성될 수 있다. 예를 들어, TPR (true positive rate)는 y축에 도시되고, FPR(false positive rate)은 x 축에 도시되어 ROC 커브가 작성될 수 있다. 예를 들어, 민감도(sensitivity)는 y 축에 도시되고, 특이도(specificity)는 x 축에 도시되어 ROC 커브가 작성될 수 있다. ROC 커브의 아래 면적이 1에 가까울수록 (즉, AUC의 넓이가 넓을수록) 성능이 좋은 모델임을 나타낸다. 일 실시양태에서, 본 출원의 오프 타겟 예측 방법에 대한 ROC 커브의 아래 면적이 계산될 수 있고, 이때 ROC 커브의 아래 면적은 약 0.4, 0.42, 0.44, 0.46, 0.48, 0.5, 0.52, 0.54, 0.56, 0.58, 0.6, 0.62, 0.64, 0.66, 0.68, 0.7, 0.72, 0.74, 0.75, 0.76, 0.77, 0.78, 0.79, 0.8, 0.81, 0.82, 0.83, 0.84, 0.85, 0.86, 0.87, 0.88, 0.89, 0.9, 0.91, 0.92, 0.93, 0.94, 0.95, 0.96, 0.97, 0.98, 0.99 이상 또는 1 일 수 있으나, 이에 제한되지 않는다. 일 실시양태에서, 본 출원의 오프 타겟 예측 방법에 대해 계산된 ROC 커브의 아래 면적은 전술한 값 중 선택되는 두 값의 범위 내일 수 있으나, 달리 제한되지 않는다. ROC 커브의 아래 면적은 오프 타겟 예측 시스템에 사용되는 프라임 에디팅 시스템의 종류, 및 세포의 종류 등에 영향을 받을 수 있다.
오프 타겟 예측을 위한 조성물
본 출원의 일부 실시양태는 tpegRNA 또는 이를 암호화하는 핵산을 포함하는 조성물을 제공한다. 본 출원의 일부 실시양태는 tpegRNA 또는 이를 암호화하는 핵산 및 프라임 에디터 단백질 또는 이를 암호화하는 핵산을 포함하는 조성물을 제공한다. 일부 실시양태에서, 본 출원의 tpegRNA 또는 이를 암호화하는 핵산 및/또는 프라임 에디터 단백질 또는 이를 암호화하는 핵산을 포함하는 조성물은 오프 타겟 예측을 위해 사용될 수 있다. 즉, 본 출원의 일부 실시양태는 오프 타겟 예측을 위한 조성물을 제공한다. 오프 타겟 예측을 위한 조성물은 프라임 에디팅을 이용한 DNA 분자 (예를 들어, 게놈 DNA)의 편집 과정에서 발생하는 오프 타겟에 대한 정보를 확인하거나 오프 타겟을 예측하는데 사용될 수 있다. 예를 들어, 본 출원의 오프 타겟 예측을 위한 조성물은 본 출원의 프라임 에디팅 시스템의 오프 타겟 예측 방법에 사용될 수 있다.
본 출원의 오프 타겟 예측 방법의 예시적 실시양태 (1)
이하에서는, 본 출원의 오프 타겟 예측 방법의 예시적 실시양태가 제공된다. 일부 실시양태에서, 본 출원의 오프 타겟 예측 방법은 프라임 에디팅의 오프 타겟 예측 시스템으로 지칭될 수 있다. 일부 실시양태에서, 본 출원의 오프 타겟 예측 방법은 프라임 에디팅을 이용한 DNA 분자 (예를 들어, 게놈 DNA)의 편집 과정에서 발생 가능한 오프 타겟에 대한 정보를 확인하는 방법일 수 있다. 일부 실시양태에서, 본 출원의 오프 타겟 예측 방법은 프라임 에디팅을 이용한 게놈 DNA의 편집 과정에서 발생 가능한 오프 타겟을 예측하는 방법 또는 시스템으로 지칭될 수 있다. 프라임 에디팅을 통한 게놈 DNA의 편집 과정에서 발생하는 오프 타겟을 예측하기 위함의 의미의 서술은, 제한 없이 본 출원의 오프 타겟 예측 방법을 설명하는데 사용될 수 있다. 오프 타겟 예측은 오프 타겟의 후보에 대한 정보 또는 후보 오프 타겟 부위에 대한 정보를 얻음으로써 달성될 수 있다.
본 명세서의 전체에 걸쳐, 본 명세서에 사용된 용어는 단수의 형태로 기재되더라도 복수의 개념을 포함하는 것으로 해석될 수 있다. 즉, 단수의 형태로 기재된 용어들은 필요에 따라 복수의 개념을 포함하는 것으로 해석될 수 있는 것으로 인식될 것이다. 분석 대상 게놈 DNA를 분석함과 같이 설명되는 경우, 이는 하나의 분석 대상 게놈 DNA를 분석함 또는 복수의 분석 대상 게놈 DNA를 분석함을 의미하는 것으로 해석될 수 있다.
일부 실시양태에서, 본 출원은 다음을 포함하는 프라임 에디팅 시스템을 이용한 세포의 게놈 DNA 편집 과정에서 발생하는 오프 타겟을 예측하는 방법을 제공한다:
(a) 프라임 에디터 단백질 및 tpegRNA와 세포의 게놈 DNA를 접촉하여 분석 대상 게놈 DNA (analyzing-subject genomic DNA)를 얻음:
이때, 상기 프라임 에디터 단백질은 Cas 단백질 및 역전사 효소(reverse transcriptase)를 포함하고,
이때, 상기 tpegRNA는 스페이서, gRNA 코어, 및 연장 영역을 포함하고, 이때 상기 연장 영역은 RT 주형 (revers transcription template), 태그 주형, 및 프라이머 결합 부(primer binding site; PBS)를 포함함; 및
(b) 상기 분석 대상 게놈 DNA를 분석하여 상기 분석 대상 DNA의 태그맨테이션에 대한 정보를 얻음.
특정한 실시양태에서, 프라임 에디터 단백질 및 tpegRNA와 세포의 게놈 DNA를 접촉함은 세포 내에서 수행될 수 있다.
특정한 실시양태에서, 프라임 에디터 단백질 및 tpegRNA와 세포의 게놈 DNA를 접촉함은 세포의 핵 내에서 수행될 수 있다.
특정한 실시양태에서, 프라임 에디터 단백질 및 tpegRNA는 프라임 에디터 단백질/tpegRNA 복합체의 형태로 게놈 DNA와 접촉할 수 있다.
특정한 실시양태에서, 프라임 에디터 단백질 및 tpegRNA와 게놈 DNA의 접촉 후, 세포 내 게놈 DNA 변형 여부를 확인할 수 있다.
특정한 실시양태에서, 프라임 에디터 단백질 및 tpegRNA와 게놈 DNA의 접촉의 결과로, 상기 게놈 DNA 내로 태그 서열이 삽입될 수 있고, 상기 태그 서열이 포함된 분석 대상 게놈 DNA (analyzing-subject genomic DNA)가 수득될 수 있다.
특정한 실시양태에서, 상기 태그 서열은 tpegRNA의 태그 주형을 주형으로 하여 역전사 효소를 통해 수행된 역전사 과정에 의해 분석 대상 게놈 DNA 내로 삽입될 수 있다.
특정한 실시양태에서, RT 주형은 편집 주형 및 상동성 영역을 포함할 수 있다.
특정한 실시양태에서, 분석 대상 게놈 DNA는 하나 이상의 태그 서열을 포함할 수 있다.
특정한 실시양태에서, 상기 하나 이상의 태그 서열은 역전사 효소에 의한 역전사 과정에 의해, 게놈 DNA 내 각각의 온타겟 및/또는 오프 타겟 후보와 대응되는 위치에 독립적으로 삽입될 수 있다. 이때, 분석 대상 게놈 DNA는 이러한 하나 이상의 태그 서열을 포함하게 된다.
특정한 실시양태에서, 태그 서열은 온타겟 위치로 삽입될 수 있다.
특정한 실시양태에서, 태그 서열은 후보 오프 타겟 위치로 삽입될 수 있다.
특정한 실시양태에서, 상기 분석 대상 게놈 DNA의 분석은 다음을 포함할 수 있다: 분석 대상 게놈 DNA를 시퀀싱을 통해 분석함.
특정한 실시양태에서, 상기 분석 대상 게놈 DNA의 분석은 다음을 포함할 수 있다: 분석 대상 게놈 DNA를 태그-특이적 증폭함을 통해 증폭된 태그-특이적 라이브러리를 생성함; 및 태그-특이적 라이브러리를 시퀀싱을 통해 분석함.
특정한 실시양태에서, 상기 분석 대상 게놈 DNA의 분석은 다음을 포함할 수 있다: 분석 대상 게놈 DNA로부터 태그-특이적 라이브러리를 생성함; 및 상기 태그-특이적 라이브러리를 시퀀싱함.
특정한 실시양태에서, 상기 분석 대상 게놈 DNA의 분석은 다음을 포함할 수 있다: 분석 대상 게놈 DNA로부터 태그-특이적 라이브러리를 생성함; 태그-특이적 라이브러리를 증폭하여 증폭된 태그-특이적 라이브러리를 생성함; 및 상기 태그-특이적 라이브러리를 시퀀싱함.
특정한 실시양태에서, 태그맨테이션에 대한 정보는 다음을 포함할 수 있다: 분석 대상 게놈 DNA에 태그 서열의 포함 여부에 대한 정보
특정한 실시양태에서, 태그맨테이션에 대한 정보는 다음을 포함할 수 있다: 하나 이상의 태그 서열에 대한 각 태그 서열의 게놈 DNA 상에서의 위치.
특정한 실시양태에서, 태그맨테이션에 대한 정보는 다음을 포함할 수 있다: 각 태그된 부위에 대한 태그맨테이션율.
특정한 실시양태에서, 태그맨테이션에 대한 정보는 다음 중 하나 이상을 포함할 수 있다: 분석 대상 게놈 DNA에 태그 서열의 포함 여부에 대한 정보; 하나 이상의 태그 서열에 대한 각 태그 서열의 게놈 DNA 상에서의 위치; 및 각 태그된 부위에 대한 태그맨테이션율.
특정한 실시양태에서, 본 출원의 오프 타겟을 예측하는 방법은 다음을 더 포함할 수 있다: 태그맨테이션에 대한 정보를 기초로, 오프 타겟에 대한 정보를 확인함.
특정한 실시양태에서, 본 출원의 오프 타겟을 예측하는 방법은 다음을 더 포함할 수 있다: 온타겟에 대한 정보를 확인함.
특정한 실시양태에서, 오프 타겟에 대한 정보는 다음을 포함할 수 있다: 오프 타겟 후보의 존재 여부. 이때 오프 타겟 후보의 존재 여부는 분석 대상 게놈 DNA에 태그 서열의 포함 여부에 대한 정보로부터 얻어질 수 있다.
특정한 실시양태에서, 오프 타겟에 대한 정보는 다음을 포함할 수 있다: 하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 게놈 DNA 상에서의 위치 (후보 오프 타겟 부위). 이때 하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 게놈 DNA 상에서의 위치는 하나 이상의 태그 서열에 대한 각 태그 서열의 게놈 DNA 상에서의 위치로부터 얻어질 수 있다.
특정한 실시양태에서, 오프 타겟에 대한 정보는 다음을 포함할 수 있다: 하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 오프 타겟 예측 점수. 이때 하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 오프 타겟 예측 점수는 각 태그된 부위에 대한 태그맨테이션율로부터 얻어질 수 있다.
특정한 실시양태에서, 오프 타겟에 대한 정보는 다음을 포함할 수 있다: 예측된 오프 타겟 후보의 개수.
특정한 실시양태에서, 오프 타겟에 대한 정보는 다음 중 하나 이상을 포함할 수 있다: 오프 타겟 후보의 존재 여부; 하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 게놈 DNA 상에서의 위치; 하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 오프 타겟 예측 점수; 및 예측된 오프 타겟 후보의 개수.
특정한 실시양태에서, 본 출원의 오프 타겟을 예측하는 방법은 다음을 더 포함할 수 있다: 미리 결정된 프라임 에디팅 시스템에 대한 정보를 확인함. 특정한 실시양태에서, 미리 결정된 프라임 에디팅 시스템은 제1 pegRNA의 사용을 포함하고, 이때 상기 제1 pegRNA는 제1 프라이머 결합 부, 제1 DNA 합성 주형, 및 제1 스페이서를 포함할 수 있다. 이때 상기 tpegRNA의 DNA 합성 주형의 서열은 제1 DNA 합성 주형의 서열과 동일할 수 있다. 이때 상기 tpegRNA의 프라이머 결합 부의 서열은 제1 프라이머 결합 부의 서열과 동일할 수 있다. 이때 상기 tpegRNA의 스페이서 서열은 제1 스페이서 서열과 동일할 수 있다. 특정한 실시양태에서, 제1 pegRNA는 3' 엔지니어링 영역을 포함하지 않고, tpegRNA는 3' 엔지니어링 영역을 포함할 수 있다. 특정한 실시양태에서, 미리 결정된 프라임 에디팅 시스템은 제1 프라임 에디터 단백질의 사용을 포함하고, 이때 본 출원의 오프 타겟 예측 방법에 사용되는 프라임 에디터 단백질은 제1 프라임 에디터 단백질과 다른 프라임 에디터 단백질일 수 있다. 특정한 실시양태에서, 상기 tpegRNA의 상기 스페이서 서열은 미리 결정된 pegRNA의 스페이서 서열과 80% 이상의 서열 동일성을 가질 수 있다. 특정한 실시양태에서, 상기 tpegRNA의 상기 프라이머 결합 부의 서열은 미리 결정된 pegRNA의 프라이머 결합 부의 서열과 80% 이상의 서열 동일성을 가질 수 있다. 특정한 실시양태에서, 상기 tpegRNA의 상동성 영역의 서열은 미리 결정된 pegRNA의 상동성 영역의 서열과 80% 이상의 서열 동일성을 가질 수 있다.
특정한 실시양태에서, Cas 단백질은 뉴클레아제 활성을 가질 수 있다. 특정한 실시양태에서, Cas 단백질은 Cas9일 수 있다. 특정한 실시양태에서, Cas 단백질은 야생형 SpCas9일 수 있다. 특정한 실시양태에서, Cas 단백질은 SpCas9 변이체일 수 있다. 특정한 실시양태에서, Cas 단백질은 R221K 및 N394K 변이를 포함하는 SpCas9 변이체일 수 있다.
특정한 실시양태에서, Cas 단백질은 닉카제 활성을 가질 수 있다. 특정한 실시양태에서, Cas 단백질은 Cas9 닉카제일 수 있다. 특정한 실시양태에서, Cas 단백질은 H840A 변이를 포함하는 SpCas9 변이체일 수 있다. 특정한 실시양태에서, Cas 단백질은 Cas 단백질은 R221K, N394K, 및 H840A 변이를 포함하는 SpCas9 변이체일 수 있다. 특정한 실시양태에서, Cas 단백질은 D10A 변이를 포함하는 SpCas9 변이체일 수 있다. 특정한 실시양태에서, Cas 단백질은 Cas 단백질은 R221K, N394K, 및 D10A 변이를 포함하는 SpCas9 변이체일 수 있다.
특정한 실시양태에서, 리버스 트랜스크립타아제는 야생형 MMLV 리버스트랜스크립타아제 (Moloney Murine Leukemia Virus reverse transcriptase)일 수 있다. 특정한 실시양태에서, 리버스 트랜스크립타아제는 MMLV 리버스트랜스크립타아제 변이체일 수 있다. 특정한 실시양태에서, 리버스 트랜스크립타아제는 D200N, T306K, W313F, T330P, 및 L603W 변이를 포함하는 MMLV 리버스트랜스크립타아제 변이체일 수 있다.
특정한 실시양태에서, Cas 단백질 및/또는 리버스 트랜스크립타아제는 코돈 최적화된 것일 수 있다.
특정한 실시양태에서, 프라임 에디터 단백질은 PE2 프라임 에디터 단백질일 수 있다. 특정한 실시양태에서, 프라임 에디터 단백질은 PE2-뉴클레아제 프라임 에디터 단백질일 수 있다. 특정한 실시양태에서, 프라임 에디터 단백질은 PEmax 프라임 에디터 단백질일 수 있다. 특정한 실시양태에서, 프라임 에디터 단백질은 PEmax-뉴클레아제 프라임 에디터 단백질일 수 있다.
특정한 실시양태에서, tpegRNA는 3' 엔지니어링 영역을 포함할 수 있다. 특정한 실시양태에서, tpegRNA는 etpegRNA일 수 있다.
특정한 실시양태에서, 분석 대상 DNA를 얻는 과정에서 dnMLH1이 관여될 수 있다.
특정한 실시양태에서, 태그 주형은 프라이머 결합 부와 RT 주형 사이에 위치할 수 있다. 특정한 실시양태에서, tpegRNA의 RT 주형, 태그 주형 및 프라이머 결합 부는, tpegRNA의 5'에서 3' 방향으로 tpegRNA의 연장 영역 상에 위치할 수 있다.
특정한 실시양태에서, tpegRNA는 상기 프라임 에디터 단백질의 상기 역전사 효소를 통해 태그 서열을 상기 게놈 DNA에 삽입 가능하도록 디자인된 pegRNA일 수 있다.
특정한 실시양태에서, 태그 주형의 길이는 5 내지 60nt일 수 있다. 특정한 실시양태에서, 태그 주형의 길이는 15 내지 40nt일 수 있다. 특정한 실시양태에서, 태그 주형의 길이는 약 19nt, 24nt, 29nt, 또는 34nt일 수 있다.
특정한 실시양태에서, 오프 타겟을 예측하는 방법은 다음을 더 포함할 수 있다: 프라임 에디터 단백질 또는 이를 암호화하는 핵산 및 tpegRNA 또는 이를 암호화하는 핵산을 세포와 접촉함.
일부 실시양태에서, 본 출원은 다음을 포함하는 프라임 에디팅 과정에서 발생 가능한 하나 이상의 오프 타겟(off-target)에 대한 정보를 수득하는 방법을 제공한다:
(a) 조작된 세포를 생산함,
이때 상기 조작된 세포를 생산함은 다음을 포함함: Cas 단백질 및 리버스트랜스크립타아제를 포함하는 프라임 에디팅 단백질 및 tpegRNA를 사용하여 세포의 게놈을 조작함,
이때 상기 tpegRNA는 스페이서 영역, gRNA 코어 및 연장 영역을 포함하고,
이때 상기 연장 영역은 역전사 주형, 태그 주형, 및 프라이머 바인딩 부위(PBS)를 포함함,
이때 상기 조작된 세포는 조작된 게놈을 포함하고,
이때 상기 조작된 게놈은 하나 이상의 태그 서열을 포함하고, 이때 각각의 상기 태그 서열은 상기 tpegRNA의 상기 태그 주형을 역전사 과정의 주형으로 사용하여 수행되는 상기 리버스트랜스크립타아제에 의한 역전사 과정을 통해 세포의 게놈으로 삽입됨;
(b) 상기 조작된 세포에 대한 분석 데이터를 얻기 위해 (a)로부터 수득된 상기 조작된 세포를 분석함;
(c) (b)로부터 수득된 상기 분석 데이터에 기초하여, 태그맨테이션 (tagmentation)에 대한 정보를 얻음; 및
(d) (c)로부터 수득된 태그맨테이션(tagmentation)에 대한 정보에 기초하여, 프라임 에디팅을 이용한 게놈 편집의 과정에서 발생 가능한 하나 이상의 오프 타겟에 대한 정보를 확인함.
특정한 실시양태에서, 역전사 주형은 편집 주형 및 상동성 영역을 포함할 수 있다.
특정한 실시양태에서, 태그 서열은 온타겟 부위로 삽입될 수 있다.
특정한 실시양태에서, 태그 서열은 하나 이상의 후보 오프 타겟 부위로 삽입될 수 있다.
특정 실시양태에서, (c)에서 수득되는 태그맨테이션에 대한 정보는 다음 중 어느 하나 이상을 포함할 수 있다: 세포의 게놈 내부로의 태그 서열의 삽입 여부에 대한 정보, 하나 이상의 태그 서열이 삽입된 염색체에 대한 정보, 하나 이상의 태그 서열이 삽입된 위치에 대한 정보, 하나 이상의 태그 서열이 삽입된 염색체 및 염색체 상에서의 위치에 대한 정보, 및 하나 이상의 태그 서열이 삽입된 위치 별 삽입률에 대한 정보.
특정 실시양태에서, 상기 프라임 에디팅을 이용한 게놈 편집의 과정에서 발생 가능한 오프 타겟은 오프 타겟 후보이고, (d)에서 확인되는 상기 프라임 에디팅을 이용한 게놈 편집의 과정에서 발생 가능한 하나 이상의 오프 타겟에 대한 정보는 다음 중 어느 하나 이상을 포함할 수 있다: 오프 타겟 후보의 존재 여부에 대한 정보, 하나 이상의 오프 타겟 후보의 발생 염색체에 대한 정보, 하나 이상의 오프 타겟 후보의 발생 위치에 대한 정보, 하나 이상의 오프 타겟 후보의 발생 염색체 및 염색체 상에서의 위치에 대한 정보, 및 하나 이상의 오프 타겟 후보의 위치 별 발생 가능성에 대한 정보.
특정한 실시양태에서, 태그맨테이션에 대한 정보는 다음을 포함할 수 있다: 조작된 게놈 DNA에 태그 서열의 포함 여부에 대한 정보
특정한 실시양태에서, 태그맨테이션에 대한 정보는 다음을 포함할 수 있다: 하나 이상의 태그 서열에 대한 각 태그 서열의 게놈 DNA 상에서의 위치.
특정한 실시양태에서, 태그맨테이션에 대한 정보는 다음을 포함할 수 있다: 각 태그된 부위에 대한 태그맨테이션율.
특정한 실시양태에서, 태그맨테이션에 대한 정보는 다음 중 하나 이상을 포함할 수 있다: 조작된 게놈 DNA에 태그 서열의 포함 여부에 대한 정보; 하나 이상의 태그 서열에 대한 각 태그 서열의 게놈 DNA 상에서의 위치; 및 각 태그된 부위에 대한 태그맨테이션율.
특정한 실시양태에서, 본 출원의 오프 타겟을 예측하는 방법은 다음을 더 포함할 수 있다: 온타겟에 대한 정보를 확인함.
특정한 실시양태에서, 오프 타겟에 대한 정보는 다음을 포함할 수 있다: 오프 타겟 후보의 존재 여부. 이때 오프 타겟 후보의 존재 여부는 분석 대상 게놈 DNA에 태그 서열의 포함 여부에 대한 정보로부터 얻어질 수 있다.
특정한 실시양태에서, 오프 타겟에 대한 정보는 다음을 포함할 수 있다: 하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 게놈 DNA 상에서의 위치 (후보 오프 타겟 부위). 이때 하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 게놈 DNA 상에서의 위치는 하나 이상의 태그 서열에 대한 각 태그 서열의 게놈 DNA 상에서의 위치로부터 얻어질 수 있다.
특정한 실시양태에서, 오프 타겟에 대한 정보는 다음을 포함할 수 있다: 하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 오프 타겟 예측 점수. 이때 하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 오프 타겟 예측 점수는 각 태그된 부위에 대한 태그맨테이션율로부터 얻어질 수 있다.
특정한 실시양태에서, 오프 타겟에 대한 정보는 다음을 포함할 수 있다: 예측된 오프 타겟 후보의 개수.
특정한 실시양태에서, 오프 타겟에 대한 정보는 다음 중 하나 이상을 포함할 수 있다: 오프 타겟 후보의 존재 여부; 하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 게놈 DNA 상에서의 위치; 하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 오프 타겟 예측 점수; 및 예측된 오프 타겟 후보의 개수.
특정 실시양태에서, 이때 상기 태그 주형의 길이는 5 내지 60nt일 수 있다.
특정 실시양태에서, 이때 상기 태그 주형의 길이는 15 내지 40nt일 수 있다.
특정 실시양태에서, 이때 상기 태그 주형의 길이는 약 19nt일 수 있다.
특정 실시양태에서, 이때 상기 태그 주형의 길이는 약 24nt일 수 있다.
특정 실시양태에서, 이때 상기 태그 주형의 길이는 약 29nt일 수 있다.
특정 실시양태에서, 이때 상기 태그 주형의 길이는 약 34nt일 수 있다.
특정 실시양태에서, 상기 프라임 에디팅 단백질은 편집 대상 DNA 분자에 nick의 발생을 유도할 수 있다.
특정 실시양태에서, 상기 프라임 에디팅 단백질은 편집 대상 DNA 분자에 DSB를 유도할 수 있다.
특정 실시양태에서, 상기 프라임 에디팅 단백질은 PE2 프라임 에디팅 단백질일 수 있다.
특정 실시양태에서, 상기 프라임 에디팅 단백질은 PE2-뉴클레아제일 수 있다.
특정 실시양태에서, 상기 프라임 에디팅 단백질은 PEmax 프라임 에디팅 단백질일 수 있다.
특정 실시양태에서, 상기 프라임 에디팅 단백질은 PEmax-뉴클레아제일 수 있다.
특정 실시양태에서, 상기 프라임 에디팅 단백질은 미리 선정된 프라임 에디팅 단백질과 동일하거나 또는 다를 수 있다.
특정 실시양태에서, 상기 tpegRNA는 etpegRNA일 수 있다.
특정 실시양태에서, 상기 tpegRNA의 연장 영역 상에서, 상기 태그 주형은 상기 편집 주형 및 상기 프라이머 결합 부위의 사이에 위치할 수 있다.
특정 실시양태에서, 상기 tpegRNA의 상기 스페이서 영역에 포함된 서열은 미리 결정된 pegRNA의 스페이서 영역의 서열과 90% 이상의 서열 동일성을 가질 수 있다.
특정 실시양태에서, 상기 tpegRNA의 상기 프라이머 결합 부위에 포함된 서열은 미리 결정된 pegRNA의 프라이머 결합 부위의 서열과 90% 이상의 서열 동일성을 가질 수 있다.
특정 실시양태에서, 상기 tpegRNA의 상기 상동성 영역에 포함된 서열은 미리 결정된 pegRNA의 상동성 영역의 서열과 90% 이상의 서열 동일성을 가질 수 있다.
특정 실시양태에서, (a)는 다음을 더 포함할 수 있다: 세포 내에서 프라임 에디팅 단백질 및 tpegRNA를 생산함.
특정 실시양태에서, (a)는 다음을 더 포함할 수 있다: 프라임 에디팅 단백질 또는 이의 단편 또는 이를 암호화하는 핵산, 및 tpegRNA 또는 이를 암호화하는 핵산을 세포 내로 도입함. 특정 실시양태에서, 이때 프라임 에디팅 단백질 또는 이의 단편 또는 이를 암호화하는 핵산, 및 tpegRNA 또는 이를 암호화하는 핵산은 하나 또는 그 이상의 벡터를 통해 세포 내로 도입될 수 있다.
특정한 실시양태에서, 오프 타겟에 대한 정보를 수득하는 방법은 다음을 더 포함할 수 있다: 조작된 세포를 파괴함. 이때 상기 조작된 세포를 파괴함은 (b) 이전에 수행될 수 있다.
특정한 실시양태에서, 오프 타겟에 대한 정보를 수득하는 방법은 다음을 더 포함할 수 있다: 조작된 세포로부터 DNA를 추출함. 이때 상기 조작된 세포로부터 DNA를 추출함은 (b) 이전에 수행될 수 있다.
특정 실시양태에서, (b)는 다음을 더 포함할 수 있다: 태그-특이적 증폭을 통해 태그 서열을 포함하는 영역을 증폭함.
특정 실시양태에서, (b)는 다음을 더 포함할 수 있다: 상기 조작된 세포를 분석하기 위해 시퀀싱함.
특정한 실시양태에서, (b)는 다음을 포함할 수 있다: 상기 조작된 게놈을 시퀀싱을 통해 분석함.
특정한 실시양태에서, (b)는 다음을 포함할 수 있다: 상기 조작된 게놈을 태그-특이적 증폭함을 통해 증폭된 태그-특이적 라이브러리를 생성함; 및 태그-특이적 라이브러리를 시퀀싱을 통해 분석함.
특정한 실시양태에서, (b)는 다음을 포함할 수 있다: 상기 조작된 게놈으로부터 태그-특이적 라이브러리를 생성함; 및 상기 태그-특이적 라이브러리를 시퀀싱함.
특정한 실시양태에서, (b)는 다음을 포함할 수 있다: 상기 조작된 게놈으로부터 태그-특이적 라이브러리를 생성함; 태그-특이적 라이브러리를 증폭하여 증폭된 태그-특이적 라이브러리를 생성함; 및 상기 태그-특이적 라이브러리를 시퀀싱함.
본 출원의 일부 실시양태는, 다음을 포함하는 프라임 에디팅 과정에서 발생 가능한 하나 이상의 오프 타겟(off-target)에 대한 정보를 수득하는 방법을 제공한다:
(a) 하나 이상의 조작된 세포를 포함하는 세포 집단을 생산함,
이때 상기 하나 이상의 조작된 세포를 포함하는 세포 집단을 생산함은 다음을 포함함: 세포 집단에 Cas 단백질 및 리버스트랜스크립타아제를 포함하는 프라임 에디팅 단백질 또는 이를 암호화하는 핵산 및 tpegRNA 또는 이를 암호화하는 핵산을 처리하여 하나 이상의 세포의 게놈을 조작함,
이때 상기 tpegRNA는 스페이서, gRNA 코어 및 연장 영역을 포함하고,
이때 상기 연장 영역은 역전사 주형 (reverse transcription template; RT template), 태그 주형, 및 프라이머 결합 부 (primer binding site; PBS)를 포함하고,
이때 각각의 상기 조작된 세포는 조작된 게놈을 포함하고,
이때 상기 조작된 게놈은 하나 이상의 태그 서열을 포함하고, 이때 각각의 상기 태그 서열은 상기 tpegRNA의 상기 태그 주형을 역전사 주형으로 사용하여 수행되는 상기 리버스트랜스크립타아제에 의한 역전사 과정을 통해 세포의 게놈으로 삽입됨;
(b) 하나 이상의 상기 조작된 세포에 대한 분석 데이터를 얻기 위해 (a)로부터 수득된 상기 세포 집단을 분석함;
(c) (b)로부터 수득된 상기 분석 데이터에 기초하여, 하나 이상의 상기 조작된 세포에 대해 태그맨테이션(tagmentation)에 대한 정보를 얻음; 및
(d) (c)로부터 수득된 태그맨테이션(tagmentation)에 대한 정보에 기초하여, 프라임 에디팅을 이용한 게놈 편집의 과정에서 발생 가능한 하나 이상의 오프 타겟에 대한 정보를 확인함.
특정한 실시양태에서, 태그 서열은 온타겟 부위로 삽입될 수 있다.
특정한 실시양태에서, 태그 서열은 하나 이상의 후보 오프 타겟 부위로 삽입될 수 있다.
특정한 실시양태에서, 이때 상기 태그맨테이션(tagmentation)에 대한 정보는 다음 중 어느 하나 이상을 포함할 수 있다: 세포의 게놈 내부로의 태그 서열의 삽입 여부에 대한 정보, 하나 이상의 태그 서열이 삽입된 염색체에 대한 정보, 하나 이상의 태그 서열이 삽입된 위치에 대한 정보, 하나 이상의 태그 서열이 삽입된 염색체 및 염색체 상에서의 위치에 대한 정보, 및 하나 이상의 태그 서열이 삽입된 위치 별 삽입률에 대한 정보.
특정한 실시양태에서, 이때 프라임 에디팅을 이용한 게놈 편집 과정에서 발생 가능한 오프 타겟은 오프 타겟 후보이고, 이때 프라임 에디팅을 이용한 게놈 편집 과정에서 발생 가능한 하나 이상의 오프 타겟에 대한 정보는 다음 중 어느 하나 이상을 포함할 수 있다: 오프 타겟 후보의 존재 여부에 대한 정보, 하나 이상의 오프 타겟 후보의 발생 염색체에 대한 정보, 하나 이상의 오프 타겟 후보의 발생 위치에 대한 정보, 하나 이상의 오프 타겟 후보의 발생 염색체 및 염색체 상에서의 위치에 대한 정보, 및 하나 이상의 오프 타겟 후보의 위치 별 발생 가능성에 대한 정보.
특정한 실시양태에서, 태그맨테이션에 대한 정보는 다음을 포함할 수 있다: 하나 이상의 조작된 게놈 DNA에 태그 서열의 포함 여부에 대한 정보.
특정한 실시양태에서, 태그맨테이션에 대한 정보는 다음을 포함할 수 있다: 하나 이상의 태그 서열에 대한 각 태그 서열의 게놈 DNA 상에서의 위치.
특정한 실시양태에서, 태그맨테이션에 대한 정보는 다음을 포함할 수 있다: 각 태그된 부위에 대한 태그맨테이션율.
특정한 실시양태에서, 태그맨테이션에 대한 정보는 다음 중 하나 이상을 포함할 수 있다: 하나 이상의 조작된 게놈 DNA에 태그 서열의 포함 여부에 대한 정보; 하나 이상의 태그 서열에 대한 각 태그 서열의 게놈 DNA 상에서의 위치; 및 각 태그된 부위에 대한 태그맨테이션율.
특정한 실시양태에서, 본 출원의 오프 타겟을 예측하는 방법은 다음을 더 포함할 수 있다: 온타겟에 대한 정보를 확인함.
특정한 실시양태에서, 오프 타겟에 대한 정보는 다음을 포함할 수 있다: 오프 타겟 후보의 존재 여부. 이때 오프 타겟 후보의 존재 여부는 분석 대상 게놈 DNA에 태그 서열의 포함 여부에 대한 정보로부터 얻어질 수 있다.
특정한 실시양태에서, 오프 타겟에 대한 정보는 다음을 포함할 수 있다: 하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 게놈 DNA 상에서의 위치 (후보 오프 타겟 부위). 이때 하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 게놈 DNA 상에서의 위치는 하나 이상의 태그 서열에 대한 각 태그 서열의 게놈 DNA 상에서의 위치로부터 얻어질 수 있다.
특정한 실시양태에서, 오프 타겟에 대한 정보는 다음을 포함할 수 있다: 하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 오프 타겟 예측 점수. 이때 하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 오프 타겟 예측 점수는 각 태그된 부위에 대한 태그맨테이션율로부터 얻어질 수 있다.
특정한 실시양태에서, 오프 타겟에 대한 정보는 다음을 포함할 수 있다: 예측된 오프 타겟 후보의 개수.
특정한 실시양태에서, 오프 타겟에 대한 정보는 다음 중 하나 이상을 포함할 수 있다: 오프 타겟 후보의 존재 여부; 하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 게놈 DNA 상에서의 위치; 하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 오프 타겟 예측 점수; 및 예측된 오프 타겟 후보의 개수.
특정 실시양태에서, 이때 상기 역전사 주형은 편집 주형 및 상동성 영역을 포함할 수 있다.
특정 실시양태에서, 이때 상기 태그 주형의 길이는 5 내지 60nt일 수 있다.
특정 실시양태에서, 이때 상기 태그 주형의 길이는 15 내지 40nt일 수 있다.
특정 실시양태에서, 이때 상기 태그 주형의 길이는 약 19nt일 수 있다.
특정 실시양태에서, 이때 상기 태그 주형의 길이는 약 24nt일 수 있다.
특정 실시양태에서, 이때 상기 태그 주형의 길이는 약 29nt일 수 있다.
특정 실시양태에서, 이때 상기 태그 주형의 길이는 약 34nt일 수 있다.
특정 실시양태에서, 상기 프라임 에디팅 단백질은 편집 대상 DNA 분자에 nick의 발생을 유도할 수 있다.
특정 실시양태에서, 상기 프라임 에디팅 단백질은 편집 대상 DNA 분자에 DSB를 유도할 수 있다.
특정 실시양태에서, 상기 프라임 에디팅 단백질은 PE2 프라임 에디팅 단백질일 수 있다.
특정 실시양태에서, 상기 프라임 에디팅 단백질은 PE2-뉴클레아제일 수 있다.
특정 실시양태에서, 상기 프라임 에디팅 단백질은 PEmax 프라임 에디팅 단백질일 수 있다.
특정 실시양태에서, 상기 프라임 에디팅 단백질은 PEmax-뉴클레아제일 수 있다.
특정 실시양태에서, 오프 타겟에 대한 정보를 수득하는 방법은 미리 결정된 프라임 에디팅 시스템을 확인함을 포함할 수 있다.
특정 실시양태에서, 상기 프라임 에디팅 단백질은 미리 결정된 프라임 에디팅 단백질과 동일하거나 또는 다를 수 있다.
특정 실시양태에서, 상기 tpegRNA는 etpegRNA일 수 있다.
특정 실시양태에서, 상기 tpegRNA의 연장 영역 상에서, 상기 태그 주형은 상기 역전사 주형 및 상기 프라이머 결합 부위의 사이에 위치할 수 있다.
특정 실시양태에서, 상기 tpegRNA의 상기 스페이서 영역에 포함된 서열은 미리 결정된 pegRNA의 스페이서 영역의 서열과 90% 이상의 서열 동일성을 가질 수 있다.
특정 실시양태에서, 상기 tpegRNA의 상기 프라이머 결합 부에 포함된 서열은 미리 결정된 pegRNA의 프라이머 결합 부의 서열과 90% 이상의 서열 동일성을 가질 수 있다.
특정 실시양태에서, 상기 tpegRNA의 상기 상동성 영역에 포함된 서열은 미리 결정된 pegRNA의 상동성 영역의 서열과 90% 이상의 서열 동일성을 가질 수 있다.
특정 실시양태에서, (a)는 다음을 포함할 수 있다: 세포 내에서 프라임 에디팅 단백질 및 tpegRNA를 생산함.
특정 실시양태에서, (a)는 다음을 더 포함할 수 있다: 프라임 에디팅 단백질 또는 이의 단편 또는 이를 암호화하는 핵산, 및 tpegRNA 또는 이를 암호화하는 핵산을 세포 내로 도입함. 특정 실시양태에서, 이때 프라임 에디팅 단백질 또는 이의 단편 또는 이를 암호화하는 핵산, 및 tpegRNA 또는 이를 암호화하는 핵산은 하나 또는 그 이상의 벡터를 통해 세포 내로 도입될 수 있다.
특정한 실시양태에서, 오프 타겟에 대한 정보를 수득하는 방법은 다음을 더 포함할 수 있다: 조작된 세포를 파괴함. 이때 상기 조작된 세포를 파괴함은 (b) 이전에 수행될 수 있다.
특정한 실시양태에서, 오프 타겟에 대한 정보를 수득하는 방법은 다음을 더 포함할 수 있다: 하나 이상의 조작된 세포를 포함하는 세포 집단으로부터 DNA를 추출함. 이때 DNA를 추출함은 (b) 이전에 수행될 수 있다.
특정 실시양태에서, (b)는 다음을 더 포함할 수 있다: 하나 이상의 조작된 세포에 포함된 조작된 게놈에 대해, 태그-특이적 증폭을 통해 태그 서열을 포함하는 영역을 증폭함.
특정 실시양태에서, (b)는 다음을 더 포함할 수 있다: 하나 이상의 조작된 세포에 포함된 조작된 게놈에 대해, 상기 조작된 세포를 분석하기 위해 시퀀싱함.
특정한 실시양태에서, (b)는 다음을 포함할 수 있다: 상기 하나 이상의 조작된 게놈을 시퀀싱을 통해 분석함.
특정한 실시양태에서, (b)는 다음을 포함할 수 있다: 상기 하나 이상의 조작된 게놈을 태그-특이적 증폭함을 통해 증폭된 태그-특이적 라이브러리를 생성함; 및 증폭된 태그-특이적 라이브러리를 시퀀싱을 통해 분석함.
특정한 실시양태에서, (b)는 다음을 포함할 수 있다: 상기 하나 이상의 조작된 게놈으로부터 태그-특이적 라이브러리를 생성함; 및 상기 태그-특이적 라이브러리를 시퀀싱함.
특정한 실시양태에서, (b)는 다음을 포함할 수 있다: 상기 하나 이상의 조작된 게놈으로부터 태그-특이적 라이브러리를 생성함; 태그-특이적 라이브러리를 증폭하여 증폭된 태그-특이적 라이브러리를 생성함; 및 상기 증폭된 태그-특이적 라이브러리를 시퀀싱함.
특정 실시양태에서, 각각의 조작된 세포에 포함된 조작된 게놈은 서로 다르거나 동일할 수 있다.
예시적 실시양태 (2)
이하에서는, 전술한 "본 출원의 오프 타겟 예측 방법의 예시적 실시양태 (1)"과 다른 기재 방식을 통해 예시적 실시양태 (비제한적 실시양태)를 개시한다. 전술한 바와 같이, 본 명세서의 전체에 걸쳐, 발명을 설명하기 위해 사용되는 요소는 단수의 형태로 기재되더라도 복수의 개념을 포함하는 것으로 해석될 수 있다. 즉, 단수의 형태로 기재된 용어들은 필요에 따라 복수의 개념을 포함하는 것으로 해석될 수 있는 것으로 인식될 것이다. 예를 들어, 조작된 게놈 DNA를 분석함과 같이 설명되는 경우, 여기서 조작된 게놈 DNA는 하나의 조작된 게놈 DNA 또는 복수의 조작된 게놈 DNA를 의미하는 것으로 해석될 수 있다.
A01. 다음을 포함하는 프라임 에디팅 시스템을 이용한 게놈 편집 과정에서 발생하는 오프 타겟을 예측하는 방법:
(a) 조작된 세포를 얻음,
이때 상기 조작된 세포는 조작된 게놈 DNA를 포함하고, 이때 상기 조작된 게놈 DNA는 태그 서열을 포함하고, 이때 상기 조작된 게놈 DNA는 프라임 에디터 단백질 및 tpegRNA가 관여되는 다음을 포함하는 과정을 통해 생성됨:
(i) Cas 단백질 및 역전사 효소를 포함하는 프라임 에디터 단백질 및 tpegRNA(tagmentation pegRNA)를 게놈 DNA와 접촉함, 이때 상기 tpegRNA는 스페이서 및 태그 주형을 포함하는 연장 영역을 포함함,
(ii) 상기 tpegRNA의 상기 태그 주형을 역전사의 주형으로 하여 상기 역전사 효소에 의해 수행되는 역전사 과정을 통해 게놈 DNA 내에 태그 서열이 삽입됨;
(b) 상기 조작된 게놈 DNA를 분석하여 태그맨테이션에 대한 정보를 얻음,
이때 상기 태그멘테이션에 대한 정보는 태그 서열이 삽입된 게놈 DNA의 부위에 대한 정보를 포함함.
A02. A01의 오프 타겟을 예측하는 방법에 있어서,
상기 오프 타겟을 예측하는 방법은 다음을 더 포함함:
상기 태그맨테이션에 대한 정보에 기초하여 오프 타겟에 대한 정보를 얻음, 이때 상기 오프 타겟에 대한 정보는 오프 타겟 후보의 존재 여부에 대한 정보 및 상기 오프 타겟 후보가 존재하는 경우 상기 오프 타겟 후보의 부위에 대한 정보를 포함함.
A03. A02의 오프 타겟을 예측하는 방법에 있어서,
상기 오프 타겟 후보는 프라임 에디팅 시스템을 이용한 게놈 편집의 과정에서 발생하는 진정한 오프 타겟이 될 가능성이 있는 오프 타겟임.
A04. A01 내지 A03 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 오프 타겟을 예측하는 방법은 다음을 더 포함함:
온타겟에 대한 정보를 확인함 및 상기 온타겟에 대한 정보를 상기 태그맨테이션에 대한 정보와 비교함.
A05. A01 내지 A03 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 오프 타겟을 예측하는 방법은 다음을 더 포함함:
온타겟에 대한 정보를 확인하고 및 상기 온타겟에 대한 정보를 상기 태그맨테이션에 대한 정보와 비교함을 통해, 오프 타겟 후보의 존재 여부에 대한 정보를 확인함.
A06. A01 내지 A05 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 태그 서열은 상기 tpegRNA의 상기 스페이서에 의해 지정되는 게놈 DNA 내의 영역에 삽입됨.
A07. A01 내지 A06 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 태그 서열이 삽입된 부위는 오프 타겟 후보의 부위 또는 온타겟 부위와 연관됨.
A08. A01 내지 A07 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 태그 서열이 삽입된 부위에 대한 정보는 상기 태그 서열이 위치하는 염색체 및 상기 염색체 상에서의 상기 태그 서열이 존재하는 부위에 대한 정보를 포함함.
A09. A01 내지 A08 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 오프 타겟 후보의 부위에 대한 정보는 각각의 오프 타겟 후보가 위치하는 염색체 및 상기 염색체 상에서의 오프 타겟 후보가 위치하는 부위에 대한 정보를 포함함.
A10. A01 내지 A09 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 태그맨테이션에 대한 정보는 다음을 더 포함함:
태그 서열의 삽입 부위 별 태그 서열의 삽입율에 대한 정보.
A11. A01 내지 A10 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 오프 타겟에 대한 정보는 다음을 더 포함함:
오프 타겟 후보에 대한 오프 타겟 예측 점수.
A12. A01 내지 A11 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 오프 타겟에 대한 정보는 다음을 더 포함함:
예측된 오프 타겟 후보의 개수.
A13. A01 내지 A12 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 조작된 세포는 다음을 포함하는 방법에 의해 수득됨:
프라임 에디터 단백질 또는 이를 암호화하는 핵산 및 tpegRNA 또는 이를 암호화하는 핵산을 세포와 접촉함.
A14. A01 내지 A13 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 조작된 세포는 다음을 포함하는 방법에 의해 수득됨:
프라임 에디터 단백질 또는 이를 암호화하는 핵산 및 tpegRNA 또는 이를 암호화하는 핵산을 세포 내로 도입함.
A15. A01 내지 A14 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 오프 타겟을 예측하는 방법은 다음을 더 포함함:
상기 조작된 세포로부터 DNA를 추출함, 이때 상기 하나 이상의 조작된 세포로부터 DNA를 추출함은 (b) 이전에 수행됨.
A16. A01 내지 A15 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
tpegRNA는 다음을 포함함:
스페이서; gRNA 코어; 및 프라이머 결합 부, 태그 주형, 및 역전사 주형을 포함하는 연장 영역.
A17. A16의 오프 타겟을 예측하는 방법에 있어서,
상기 tpegRNA의 역전사 주형은 편집 주형 및 상동성 영역을 포함함.
A18. A17의 오프 타겟을 예측하는 방법에 있어서,
상기 조작된 게놈 DNA는 편집을 포함함.
A19. A16 내지 A18 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 스페이서, 상기 gRNA 코어, 및 상기 연장 영역은, 5'에서 3' 방향으로, 상기 스페이서, 상기 gRNA 코어, 및 상기 연장 영역의 순서로 위치함.
A20. A16 내지 A19 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 태그 주형은 상기 연장 영역 상에서 프라이머 결합 부 및 역전사 주형의 사이에 위치함.
A21. A16 내지 A20 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 tpegRNA는 RNA 보호 모티프를 포함하는 3' 엔지니어링 영역을 더 포함함.
A22. A01 내지 A21 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 오프 타겟을 예측하는 방법은 다음을 더 포함함:
미리 결정된 프라임 에디팅 시스템을 확인함,
이때 상기 미리 결정된 프라임 에디팅 시스템의 확인은 미리 결정된 세포에 대한 정보, 미리 결정된 pegRNA에 대한 정보, 및 미리 결정된 프라임 에디터 단백질에 대한 정보 중 어느 하나 이상을 확인하는 것임.
A23. A22의 오프 타겟을 예측하는 방법에 있어서,
상기 미리 결정된 세포는 상기 오프 타겟을 예측하는 방법에 사용되는 세포와 다른 세포임.
A24. A22 내지 A23 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 tpegRNA의 스페이서의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 스페이서 서열과 동일하고,
상기 tpegRNA의 프라이머 결합 부의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 프라이머 결합 부의 서열과 동일함.
A25. A22 내지 A24 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 tpegRNA의 스페이서의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 스페이서 서열과 동일하고,
상기 tpegRNA의 프라이머 결합 부의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 프라이머 결합 부의 서열과 동일하고,
상기 tpegRNA의 역전사 주형의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 역전사 주형의 서열과 동일함.
A26. A22 내지 A25 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 오프 타겟을 예측하는 방법에 사용되는 상기 프라임 에디터 단백질은 상기 미리 결정된 프라임 에디터 단백질과 동일하거나 또는 다른 것임.
A27. A01 내지 A26 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 태그 주형의 길이는 5 내지 60nt임.
A28. A01 내지 A27 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 태그 주형의 길이는 10 내지 50nt임.
A29. A01 내지 A28 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 프라임 에디터 단백질은 DSB(double-strand break) 활성을 갖는 Cas 단백질을 포함하는 PE-뉴클레아제임.
A30. A01 내지 A29 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 프라임 에디터 단백질은 PEmax-뉴클레아제임.
A31. A01 내지 A28 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 프라임 에디터 단백질에 포함된 Cas 단백질은 닉카제임.
A32. A01 내지 A28 및 A31 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 프라임 에디터 단백질은 PE2 프라임 에디터 단백질임.
A33. A01 내지 A32 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
게놈 DNA의 조작에는 dnMLH1, gRNA, 및 추가의 Cas 단백질, 및 추가의 프라임 에디터 단백질 중 어느 하나 이상이 추가로 관여됨.
A34. A01 내지 A33 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
(b)는 다음을 포함함:
상기 조작된 게놈 DNA를 태그-특이적 분석함.
A35. A01 내지 A34 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
(b)는 다음을 포함함:
상기 조작된 게놈 DNA를 시퀀싱함.
A36. A01 내지 A35 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
(b)는 다음을 포함함:
상기 조작된 게놈 DNA로부터 태그-특이적 라이브러리를 생성함; 태그-특이적 라이브러리를 증폭하여 증폭된 태그-특이적 라이브러리를 생성함; 및 상기 증폭된 태그-특이적 라이브러리를 시퀀싱함.
B01. 다음을 포함하는 프라임 에디팅 시스템을 이용한 게놈 편집 과정에서 발생하는 오프 타겟을 예측하는 방법:
(a) 하나 이상의 조작된 세포를 포함하는 세포 집단을 생성함,
이때 상기 조작된 세포는 조작된 게놈 DNA를 포함하고, 이때 상기 조작된 게놈 DNA는 하나 이상의 태그 서열을 포함하고, 이때 상기 조작된 게놈 DNA는 프라임 에디터 단백질 및 tpegRNA가 관여되는 다음을 포함하는 과정을 통해 생성됨:
(i) Cas 단백질 및 역전사 효소를 포함하는 프라임 에디터 단백질 및 tpegRNA (tagmentation pegRNA)를 세포의 게놈 DNA와 접촉함, 이때 상기 tpegRNA는 스페이서 및 태그 주형을 포함하는 연장 영역을 포함함,
(ii) 게놈 DNA 내에 태그 서열이 삽입됨, 이때 상기 태그 서열의 삽입은 상기 tpegRNA의 상기 태그 주형을 역전사 주형으로 하는 상기 역전사 효소에 의해 수행되는 역전사 과정을 통해 달성됨;
(b) 상기 하나 이상의 조작된 세포의 상기 조작된 게놈 DNA를 시퀀싱을 포함하는 과정을 통해 분석하여, 태그맨테이션에 대한 정보를 얻음,
이때 상기 태그맨테이션에 대한 정보는 하나 이상의 태그 서열이 삽입된 각 부위에 대한 정보를 포함함.
B02. B01의 오프 타겟을 예측하는 방법에 있어서,
상기 오프 타겟을 예측하는 방법은 다음을 더 포함함:
상기 태그맨테이션에 대한 정보에 기초하여 오프 타겟에 대한 정보를 얻음, 이때 상기 오프 타겟에 대한 정보는 오프 타겟 후보의 존재 여부에 대한 정보 및 하나 이상의 오프 타겟 후보의 부위에 대한 정보를 포함함.
B03. B02의 오프 타겟을 예측하는 방법에 있어서,
상기 오프 타겟 후보는 프라임 에디팅 시스템을 이용한 게놈 편집의 과정에서 발생하는 진정한 오프 타겟이 될 가능성이 있는 오프 타겟임.
B04. B01 내지 B03 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 오프 타겟을 예측하는 방법은 다음을 더 포함함:
온타겟에 대한 정보를 확인함 및 상기 온타겟에 대한 정보를 상기 태그맨테이션에 대한 정보와 비교함.
B05. B01 내지 B03 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 오프 타겟을 예측하는 방법은 다음을 더 포함함:
온타겟에 대한 정보를 확인하고 및 상기 온타겟에 대한 정보를 상기 태그맨테이션에 대한 정보와 비교하여, 오프 타겟 후보의 존재 여부에 대한 정보 및 하나 이상의 오프 타겟 후보의 부위에 대한 정보를 확인함.
B06. B01 내지 B05 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 태그 서열은 상기 tpegRNA의 상기 스페이서에 의해 지정되는 게놈 DNA 내의 영역에 삽입됨.
B07. B01 내지 B06 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 태그 서열이 삽입된 게놈 DNA 내의 각 부위는 오프 타겟 후보의 부위 또는 온타겟 부위와 연관됨.
B08. B01 내지 B07 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 태그 서열이 삽입된 게놈 DNA 내의 부위 중 어느 하나는 온타겟 부위이고, 다른 모두는 오프 타겟 후보의 부위임.
B09. B01 내지 B08 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 태그 서열이 삽입된 각 부위에 대한 정보는 각각의 상기 태그 서열이 위치하는 염색체 및 상기 염색체 상에서의 태그 서열이 존재하는 부위에 대한 정보를 포함함.
B10. B01 내지 B09 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 오프 타겟 후보의 부위에 대한 정보는 각각의 오프 타겟 후보가 위치하는 염색체 및 상기 염색체 상에서의 오프 타겟 후보가 위치하는 부위에 대한 정보를 포함함.
B11. B01 내지 B10 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 태그맨테이션에 대한 정보는 다음을 더 포함함:
각 태그 서열의 삽입 부위 별 태그 서열의 삽입율에 대한 정보.
B12. B01 내지 B11 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 오프 타겟에 대한 정보는 다음을 더 포함함:
각 오프 타겟 후보에 대한 각 오프 타겟 후보의 오프 타겟 예측 점수.
B13. B01 내지 B12 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 오프 타겟에 대한 정보는 다음을 더 포함함:
예측된 오프 타겟 후보의 전체 개수.
B14. B01 내지 B13 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 하나 이상의 조작된 세포를 포함하는 세포 집단은 다음을 포함하는 방법에 의해 생성됨:
프라임 에디터 단백질 또는 이를 암호화하는 핵산 및 tpegRNA 또는 이를 암호화하는 핵산을 포함하는 조성물을 하나 이상의 세포를 포함하는 세포 집단과 접촉함.
B15. B01 내지 B14 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 하나 이상의 조작된 세포를 포함하는 세포 집단은 다음을 포함하는 방법에 의해 생성됨:
프라임 에디터 단백질 또는 이를 암호화하는 핵산을 포함하는 조성물 및 tpegRNA 또는 이를 암호화하는 핵산을 포함하는 조성물을 하나 이상의 세포를 포함하는 세포 집단과 접촉함.
B16. B01 내지 B15 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 오프 타겟을 예측하는 방법은 다음을 더 포함함:
상기 하나 이상의 조작된 세포를 포함하는 세포 집단으로부터 DNA를 추출함, 이때 상기 하나 이상의 조작된 세포를 포함하는 세포 집단으로부터 DNA를 추출함은 (b) 이전에 수행됨.
B17. B01 내지 B16 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
tpegRNA는 다음을 포함함:
스페이서; gRNA 코어; 및 프라이머 결합 부, 태그 주형, 및 역전사 주형을 포함하는 연장 영역.
B18. B17의 오프 타겟을 예측하는 방법에 있어서,
상기 tpegRNA의 역전사 주형은 편집 주형 및 상동성 영역을 포함함.
B19. B18의 오프 타겟을 예측하는 방법에 있어서,
상기 조작된 게놈 DNA는 하나 이상의 편집을 포함함.
B20. B17 내지 B19 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 스페이서, 상기 gRNA 코어, 및 상기 연장 영역은, 5'에서 3' 방향으로, 상기 스페이서, 상기 gRNA 코어, 및 상기 연장 영역의 순서로 위치함.
B21. B17 내지 B20 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 태그 주형은 상기 연장 영역 상에서 프라이머 결합 부 및 역전사 주형의 사이에 위치함.
B22. B17 내지 B21 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 tpegRNA는 RNA 보호 모티프를 포함하는 3' 엔지니어링 영역을 더 포함함.
B23. B01 내지 B22 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 오프 타겟을 예측하는 방법은 다음을 더 포함함:
미리 결정된 프라임 에디팅 시스템을 확인함,
이때 상기 미리 결정된 프라임 에디팅 시스템의 확인은 미리 결정된 세포에 대한 정보, 미리 결정된 pegRNA에 대한 정보, 및 미리 결정된 프라임 에디터 단백질에 대한 정보 중 어느 하나 이상을 확인하는 것임.
B24. B23의 오프 타겟을 예측하는 방법에 있어서,
상기 미리 결정된 세포는 상기 오프 타겟을 예측하는 방법에 사용되는 세포와 다른 세포임.
B25. B23 내지 B24 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 tpegRNA의 스페이서의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 스페이서 서열과 동일하고,
상기 tpegRNA의 역전사 주형의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 역전사 주형의 서열과 동일하고,
상기 tpegRNA의 프라이머 결합 부의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 프라이머 결합 부의 서열과 동일함.
B26. B23 내지 B25 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 오프 타겟을 예측하는 방법에 사용되는 상기 프라임 에디터 단백질은 상기 미리 결정된 프라임 에디터 단백질과 동일하거나 또는 다른 것임.
B27. B01 내지 B26 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 태그 주형의 길이는 5 내지 60nt임.
B28. B01 내지 B27 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 태그 주형의 길이는 10 내지 50nt임.
B29. B01 내지 B28 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 프라임 에디터 단백질은 DSB(double-strand break) 활성을 갖는 Cas 단백질을 포함하는 PE-뉴클레아제임.
B30. B01 내지 B29 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 프라임 에디터 단백질은 PEmax-뉴클레아제임.
B31. B01 내지 B28 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 프라임 에디터 단백질에 포함된 Cas 단백질은 닉카제임.
B32. B01 내지 B28 및 B31 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
상기 프라임 에디터 단백질은 PE2 프라임 에디터 단백질임.
B33. B01 내지 B32 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
게놈 DNA의 조작에는 dnMLH1, gRNA, 및 추가의 Cas 단백질, 및 추가의 프라임 에디터 단백질 중 어느 하나 이상이 추가로 관여됨.
B34. B01 내지 B32 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,
(b)는 다음을 포함함:
상기 조작된 게놈 DNA로부터 태그-특이적 라이브러리를 생성함; 태그-특이적 라이브러리를 증폭하여 증폭된 태그-특이적 라이브러리를 생성함; 및 상기 증폭된 태그-특이적 라이브러리를 시퀀싱함.
C01. 다음을 포함하는 tpegRNA (tagmentation pegRNA):
스페이서; gRNA 코어; 태그 주형을 포함하는 연장 영역.
C02. C01의 tpegRNA에 있어서,
상기 스페이서, 상기 gRNA 코어, 및 상기 태그 주형을 포함하는 연장 영역은 5'에서 3' 방향으로, 상기 스페이서, 상기 gRNA 코어, 및 상기 태그 주형을 포함하는 연장 영역의 순서로 tpegRNA 상에 위치함.
C03. C01 내지 C02 중 어느 하나의 tpegRNA에 있어서,
상기 연장 영역은 상기 태그 주형, 프라이머 결합 부, 및 역전사 주형을 포함함.
C04. C01 내지 C03 중 어느 하나의 tpegRNA에 있어서,
상기 태그 주형은 상기 프라이머 결합 부 및 상기 역전사 주형 사이에 위치함.
C05. C01 내지 C03 중 어느 하나의 tpegRNA에 있어서,
상기 역전사 주형은 상기 태그 주형 및 상기 프라이머 결합 부 사이에 위치함.
C06. C01 내지 C04 중 어느 하나의 tpegRNA에 있어서,
상기 프라이머 결합 부, 상기 태그 주형, 상기 역전사 주형은, 5'에서 3' 방향으로, 상기 역전사 주형, 상기 태그 주형, 및 상기 프라이머 결합 부의 순서로 상기 연장 영역 상에 위치함.
C07. C01 내지 C06 중 어느 하나의 tpegRNA에 있어서,
상기 역전사 주형은 편집 주형 및 상동성 영역을 포함함.
C08. C01 내지 C07 중 어느 하나의 tpegRNA에 있어서,
상기 태그 주형은 5 내지 60nt의 길이를 가짐.
C09. C01 내지 C08 중 어느 하나의 tpegRNA에 있어서,
상기 태그 주형은 10 내지 50nt의 길이를 가짐.
C10. C01 내지 C09 중 어느 하나의 tpegRNA에 있어서,
상기 tpegRNA는 RNA 보호 모티프를 포함하는 3' 엔지니어링 영역을 더 포함함.
C11. C10의 tpegRNA에 있어서,
상기 RNA 보호 모티프는 10 내지 60nt의 길이를 가짐.
C12. C01 내지 C11 중 어느 하나의 tpegRNA에 있어서,
tpegRNA는 100 내지 350nt의 길이를 가짐.
D01. tpegRNA를 포함하는 조성물.
D02. D01의 조성물에 있어서,
상기 tpegRNA는 C01 내지 C12 중 어느 하나의 tpegRNA임.
D03. D01 내지 D02 중 어느 하나의 조성물에 있어서,
상기 조성물은 프라임 에디터 단백질을 더 포함함.
D04. D01 내지 C03 중 어느 하나의 조성물에 있어서,
상기 조성물은 프라임 에디팅 시스템을 이용한 DNA 분자의 편집 과정에서 발생하는 오프 타겟을 예측하는데 사용됨.
D05. D01 내지 D04 중 어느 하나의 조성물에 있어서,
상기 조성물은 A01 내지 A36, 및 B01 내지 B34 중 어느 하나의 오프 타겟 예측 방법에 사용됨.
본 출원의 오프 타겟 예측 방법의 예상 이용태양 (비제한적 기재)
일부 실시양태에서, 본 출원의 오프 타겟 예측 시스템은 TAPE-seq으로 지칭될 수 있다. TAPE-seq은 태그 서열을 프라임 에디팅의 특이적 매커니즘에 기초하여 DNA 분자 내로 삽입하고, 태그 서열에 대한 정보를 분석함을 통해 프라임 에디팅에서 발생 가능한 오프 타겟에 대한 정보를 확인하는 오프 타겟 스크리닝 시스템과 관련된 하나의 새로운 시스템이다. 이에 따라, 전술한 TAPE-seq의 특징을 이용하고, 프라임 에디팅에서 발생 가능한 오프 타겟을 확인함의 목적을 달성하기 위해 수행되는 모든 오프 타겟 확인 방법은 TAPE-seq의 하나의 사용 또는 적용 양태로 포함된다.
예를 들어, TAPE-seq은 세포의 게놈 편집을 위해 프라임 에디팅을 사용하는 기술자 또는 연구자에 의해 이용될 수 있다.
예를 들어, 연구자는 세포의 게놈 편집에 사용할 프라임 에디팅 시스템을 선정한다. 예를 들어, 연구자는 게놈 편집의 대상이 되는 세포를 선택한다. 예를 들어, 연구자는 프라임 에디팅에 사용할 하나의 pegRNA를 선정한다. 세포의 게놈 편집에 사용할 프라임 에디팅 시스템을 선택하는 과정에서, 적절한 pegRNA의 서열의 디자인을 위해 in silico 기반 오프 타겟 예측 방법이 이용될 수 있다. 연구자는 선정된 pegRNA의 사용을 포함하는 치료제를 개발하고자 한다. 치료제의 개발에서는 선정된 pegRNA의 오프 타겟 여부에 대한 정보가 필수로 확인되어야 한다. 선정된 pegRNA 및 선정된 프라임 에디팅 시스템을 기초로, 목적에 맞게 TAPE-seq 시스템의 세부 사항들을 디자인한다. TAPE-seq을 수행하여 선정된 프라임 에디팅 시스템에서 발생 가능한 오프 타겟에 대한 정보를 확인한다. 여기서 확인되는 정보는 오프 타겟 후보(off-target candidate) 또는 후보 오프 타겟 (candidate off-target)에 대한 정보이다. 이후, 확인된 오프 타겟 후보에 대한 정보를 이용하여 선정된 프라임 에디팅에서 문제되는 오프 타겟에 대한 정보를 확인한다. 구체적으로, TAPE-seq을 통해 확인된 오프 타겟 후보에 대한 정보로부터, off-target 후보의 발생 위치 (off-target이 발생하는 염색체, 염색체 내에서의 위치 등)를 확인한다. 이후 선정된 프라임 에디팅 시스템을 이용하여 목적하는 세포에서 게놈 편집을 수행하고, 오프 타겟 후보의 발생 위치를 중심으로, 검증하여, 진정한 오프 타겟을 최종적으로 확인하다. 이러한 과정에서, 알려진 오프 타겟 예측 방법이 진정한 오프 타겟 부위를 찾기 위해 조합되어 사용될 수 있다.
다른 예로, TAPE-seq은 pegRNA의 선정 과정에서 이용될 수 있다. 프라임 에디팅 시스템을 디자인하기 위해, 연구자는 다양한 종류의 pegRNA를 포함하는 pegRNA 라이브러리를 생성한다. pegRNA 라이브러리에 포함된 하나 이상의 pegRNA에 대해 TAPE-seq을 수행한다. 프라임 에디팅 시스템에 사용할 pegRNA를 선정한다. 이때 pegRNA의 선정에는 다음 중 하나 이상을 포함하는 기준이 이용될 수 있다: TAPE-seq을 통해 확인된 off-target 후보가 없거나 적은 pegRNA, 및 목적하는 편집을 수행할 수 있는 pegRNA.
전술한 바와 같이, TAPE-seq은 다양한 장면에서 사용될 수 있으며, TAPE-seq의 사용 양태는 전술한 예시에 제한되지 않는다.
이하, 실험예 또는 실시예를 통해 본 출원이 제공하는 발명에 대해 더욱 상세히 설명한다. 이들 실험예는 오로지 본 출원에 의해 개시되는 내용을 예시하기 위한 것으로, 본 명세서에 의해 개시되는 내용의 범위가 이들 실험예에 의해 제한되는 것으로 해석되지 않는 것은 당업계에서 통상의 지식을 가진 자에게 있어서 자명할 것이다.
실험예
실험예 개괄
본 출원의 발명자들은, 프라임 에디팅의 분자적 매커니즘에 기초한, 프라임 에디팅과 보다 직접적으로 관련된 오프 타겟 예측 방법인 TAPE-seq을 개발하였다. 나아가, 본 출원의 발명자들은 프라임 에디팅을 이용한 게놈 편집 과정에서 발생 가능한 오프 타겟의 예측 방법으로 새로이 개발된 TAPE-seq의 성능을, 알려진 GUIDE-seq 및 nDigenome-seq 등과 비교함을 통해, 확인하였다. 이하에서, 본 출원의 발명자들이 TAPE-seq을 개발하기 위해 진행된 실험 및 이로부터 도출된 결과들에 대하여 상세히 설명한다. 예시적으로, TAPE-seq에 대한 개략도가 도 07에 개시된다. 구체적으로, 도 07은 PE2를 사용한 TAPE-seq의 일부 과정을 도시한 것이다. Nick이 발생하는 가닥으로 태그 및 편집이 삽입되는 과정, 태그 및 편집이 최종적으로 게놈 DNA에 통합되는 과정, 및 태그를 분석하는 과정에 대한 개략도가 도 07에 개시된다.
실험예에서 사용되는 용어의 설명
본 실험예에 기재된 용어를 설명한다.
본 실험예에서, pegRNA는 일반적인 프라임 에디팅 가이드 RNA 뿐만 아니라, 태그 서열을 포함하는 경우 및/또는 3'말단에 부가적인 엔지니어링 요소를 더 포함하는 경우도 모두 포함하여 pegRNA로 지칭될 수 있다.
즉, 태그 주형을 포함하는 태그맨테이션 pegRNA (tpegRNA)는 pegRNA로 지칭될 수 있다. 통상의 기술자는 관련 단락의 내용이나 관련 데이터를 통해 pegRNA가 태그 서열을 포함하는지 또는 포함하지 않는지 확인할 수 있다. 나아가, 일부 실험예에서는 엔지니어된 pegRNA (engineered pegRNA; epegRNA)가 사용되었으며 (특히, epegRNA는 PEmax-nuclease와 함께 사용됨), 일부 설명 또는 결과에서 epegRNA는 편의상 pegRNA로 지칭되었다. 통상의 기술자는 관련 단락의 내용이나 관련 데이터를 통해 epegRNA의 사용 여부에 대해 확인할 수 있다.
사용된 pegRNA는 예를 들어, HEK4 (+2 G to T) pegRNA, 또는 HEK4 표적화된 (+2 G to T) pegRNA와 같이 지칭된다. 여기서, HEK4는 사용된 pegRNA가 표적하는 유전자를 나타낸다. 즉, HEK4 (+2 G to T) pegRNA는, 온타겟을 기준으로, “HEK4 유전자”의 어느 영역 (구체적으로, 스페이서 서열에 의해 특정되는 온타겟 서열)을 표적한다. 여기서, (+2 G to T)는 pegRNA가 유도하는 편집을 나타낸다. 예를 들어, HEK4 (+2 G to T) pegRNA는 nick 또는 DSB 발생 부위 (또는 DSB 발생 부위)로부터 “2번째 위치에 있는 뉴클레오타이드 G를 T로 치환”하는 편집을 유도할 수 있도록 디자인된 pegRNA를 나타낸다. + 는 nick 또는 DSB 발생 위치를 기준으로 3' 방향을 나타낸다. 더욱 구체적으로, PE2의 예에서, nick 발생 가닥 (즉, 스페이서 비-결합 가닥)을 기준으로 설명할 때, HEK4 (+2 G to T) pegRNA는 nick 발생 위치로부터 3' 방향에 위치한 G (게놈 DNA의 nick 발생 가닥에 존재함)를 T로 치환하는 편집을 유도할 수 있도록 디자인된 pegRNA를 나타낸다. 프라임 에디팅 매커니즘에 따르면, 스페이서 결합 가닥 또한 상기 스페이서 비-결합 가닥의 편집과 상보성을 가지는 편집으로 그 효과가 게놈에 통합된다. 본 실험예에서, 상기 예시 이외의 다른 pegRNA도 동일 또는 유사한 기준을 통해 명명되었다.
실험방법
플라스미드 컨스트럭션
sgRNA를 발현하는 플라스미드 pRG2(addgene #104174)를 pegRNA를 발현하는 플라스미드 (pRG2-pegRNA)를 생성하기 위해 변형하였다. 구체적으로 sgRNA 스캐폴드의 3' 말단에 있는 BsmBI 제한 부위에서 절단 후 깁슨 어셈플리를 수행하였다. 플라스미드는 BsaI 사이트 (스페이서 서열의 통합용) 및 BsmBI 사이트 (pegRNA의 3' 연장부의 통합용)을 포함하도록 변형되었다. PiggyBac PE2 올인원 플라스미드(pAllin1-PE2) (pAllin1-PE2의 예시는 도 93에 도시됨)를 생성하기 위해, piggyBac PE2-발현 플라스미드 DNA를 합성하고 클로닝하여 벡터(piggy-PE2)를 만들었다. 그 다음 이를 Mlu I로 분해하였다. pegRNA를 암호화하는 서열은 PCR에 의해 pRG2-pegRNA로부터 증폭되어 삽입 단편을 생성하였다. 삽입 단편은 깁슨 어셈플리를 통해 분해된 piggyBac PE2 벡터에 클로닝되었다. 다른 PE 올인원 플라스미드(pAllin1-PE4, pAllin1-PE2-nuclease, 및 pAllin1-PEmax-nuclease)는 pAllin1-PE2를 구성하는데 사용된 것과 동일한 절차를 사용하여 구성되었다. pRG2-epegRNA 벡터는 pRG2-pegRNA를 구성하는데 사용된 것과 동일한 절차를 사용하여 구성되었다. 구축된 모든 벡터 (pRG2-pegRNA, pAllin1-PE2, piggy-PE2, pRG2-epegRNA, pAllin1-PE4, pAllin1-PE2-nuclease, 및 pAllin1-PEmax-nuclease)의 DNA 서열은 실험예의 섹션 "벡터 서열"을 통해 개시된다.
인간 세포 배양 및 형질감염(transfection)
HEK293T (ATCC CRL-1268), HeLa (ATCC CCL-2), 및 K562 (Sigma 89121407) 세포를 37℃, 5% CO2 하에서, 10% FBS (fetal bovine serum) 및 1% 페니실린-스트렙토마이신(penicillin-streptomycin)을 포함하는 적절한 배지 [HEK293T 및 HeLa 세포주에 대해서는 Dulbecco's Modified Eagle Medium (DMEM); K562 세포주에 대해서는 Roswell Park Memorial Institute 1640 Medium (RPMI 1640)]에서 유지하였다. 1x105 HEK293T 세포 또는 4 x104 HeLa 세포를 24웰 플레이트에 시딩하여 형질감염을 준비하였다. 시딩(seeding) 하루 후, 세포를 적절한 양의 플라스미드(아래 참고) 및 2μl 리포펙타민 2000(Thermo Fisher Scientific)으로 형질감염하였다.
일시적 PE2 발현(transient PE2 expression)의 경우, 500 ng piggy-PE2 및 500ng pRG2-pegRNA가 사용되었다. 안정적 PE2 발현(stable PE2 expression)의 경우 850 ng pAllin1-PE2 및 150 ng piggyBac 트랜스포사제 발현 벡터 (piggyBac Transposase Expression Vector) (System Biosciences)가 사용되었다. 안정적인 PE4 발현(stable PE4 expression)의 경우, 880 ng pAllin1-PE4 및 120 ng piggyBac 트랜스포사제 발현 벡터가 사용되었다. 안정적인 PE2-EGFP 발현의 경우, 865 ng pAllin1-PE2-EGFP 및 135 ng piggyBac 트랜스포사제 발현 벡터가 사용되었다. 일시적 PE2-뉴클레아제 발현(transient PE2-nuclease expression)의 경우, 1000 ng pAllin1-PE2-뉴클레아제가 사용되었다. 일시적 PEmax-뉴클레아제 및 epegRNA 발현 (transient PEmax-nuclease and epegRNA expression)의 경우, 1000 ng pAllin1-PEmax-nuclease-epegRNA 가 사용되었다.
트랜스포존 및 piggybac 플라스미드는 약 2.5:1 (트랜스포존:트랜스포사제 플라스미드)의 몰 비로 사용되었다. 1x105 K562 세포를 Neon 형질감염 시스템을 통해 위에서 언급한 양의 플라스미드로 전기천공하였다 (전기천공 조건: 1450V, 10 ms, 3 pulses). 형질감염 (또는 전기천공) 1일 후, 2mg/ml 농도의 퓨로마이신 (puromycin) (InvivoGen)을 사용하여 항생제 셀렉션(antibiotic selection)을 수행하였다. 퓨로마이신 셀렉션은 2주 (TAPE-seq 및 FACs(fluorescence activated cell sorting)의 경우), 4 주(표적화된 딥시퀀싱의 경우), 또는 2일 (PE2 뉴클레아제 또는 PEmax-뉴클레아제를 사용한 TAPE-seq의 경우; 퓨로마이신 셀렉션 후, 세포를 일반 배지에서 4일동안 추가적으로 배양함) 동안 수행되었다. 게놈 DNA는 제조사의 지침에 따라 Blood Genomic DNA Extraction Mini Kit (Favorgen)로 정제되었다.
TAPE-seq에서의 DNA 분석
TAPE-seq에서의 DNA 분석 방법에 대한 전체 설명은 후술되는 섹션 "TAPE-seq 에서의 DNA 분석: 구체적 방법"에 추가로 개시된다. 게놈 DNA는 Covaris M220 기기로 평균 325 bp의 길이로 전단(shear)되었고 1X AMPure XP beads (Beckman coulter)로 단리되었다. NEBNext® Ultra™ II DNA Library Prep Kit를 사용하여 제조업체의 프로토콜을 기초로 특정 반응 시간을 조금 수정(adaptor ligation, 1 h; treatment with Uracil-Specific Excision Reagent, 30 min)하여 차세대 시퀀싱 (next-generation sequencing; NGS) 라이브러리를 준비하였다. 태그- 및 어댑터-특이적 프라이머를 사용하여 이전에 설명된 GUIDE-seq 방법 (문헌 [Tsai, Shengdar Q., et al. "GUIDE-seq enables genome-wide profiling of off-target cleavage by CRISPR-Cas nucleases." Nature biotechnology 33.2 (2015): 187-197.; 및 Liang, Shun-Qing, et al. "Genome-wide detection of CRISPR editing in vivo using GUIDE-tag." Nature communications 13.1 (2022): 1-14.] 참조) 에 따라 태그-특이적 라이브러리 증폭을 수행하였다. 증폭된 라이브러리는 MiSeq 또는 HiSeq 플랫폼 (Illumina)으로 분석되었다.
페어드 엔드 (paired end) FASTQ 파일은 다음의 단계를 사용하여 처리(process)되었다:
1. BBDuk 프로그램을 사용하여 태그를 포함하는 서열을 수집하였다 (센스 라이브러리(+)에 대한 Tag 서열, 5'-GTTTAATTGAGTTGTCATATGT-3' (서열번호 57) 및 5'-ACATATGACAACTCAATTAAAC-3' (서열번호 58); 안티센스 라이브러리(-)에 대한 태그 서열, 5'-TTGAGTTGTCATATGTTAATAACGGTA-3' (서열번호 59)및 5'- TACCGTTATTAACATATGACAACTCAA-3' (서열번호 60)).
2. 필터링된 FASTQ 파일은 참조 게놈 (hg19)에 매핑되었고 리드 뎁스(read depth)는 BWA, Picard tools, 및 SAMtools 프로그램을 사용하여 계산되었다.
3. Cas-OFFinder3 (http://www.rgenome.net)을 사용하여 오프 타겟 후보(온타겟 사이트와 비교할 때 최대 4개의 미스매치 및/또는 2개의 bulges 포함)를 식별하였다.
4. Cas-OFFinder에 의해 식별된 사이트의 리드 뎁스는 사내(in-house) 스크립트를 사용하여 사이트 주변 -150 bp 에서 +150 bp 범위의 영역으로부터 추출되었다.
5. Short mapped sequence(길이가 30 bp 미만) 및 거짓 태그맨테이션 서열 (PE nick 사이트 외부에서 태그맨테이션이 발생한 경우)은 제외되었다.
TAPE-seq 에서의 DNA 분석: 구체적 방법
사용된 시약
Blood Genomic DNA Extraction Mini Kit (Favorgen, Cat No. FABGK 001);
AMPure XP beads (Beckman coulter, Cat No. A63881);
NEBNext® Ultra™ II DNA Library Prep Kit for Illumina (NEB, Cat No. E7645L);
NEBNext adaptor (from NEBNext Singleplex kit) (NEB, Cat No. E7350);
Ethyl Alcohol 99.9% GR grade (DUKSAN, Cat No. UN1170);
TMAC Buffer, 5M (Sigma Aldrich, Cat No. T3411);
1X TE Buffer (Invitrogen, Cat No. 12090015);
Platinum® Taq DNA Polymerase (Invitrogen, Cat No. 10966026);
dNTP Mix, 2.5 mM each (Elpis biotech, Cat No. EBN-1006);
Nuclease-Free Water (Ambion, Cat No. AM9932);
Q5 High-Fidelity DNA Polymerase (NEB, Cat No. M0491L);
microTUBE-50 AFA Fiber Screw-Cap (Covaris, Cat No. 520166).
사용된 장비
M220 Focused-ultrasonicator (Covaris);
T100 Thermocycler (Bio rad);
NEBNext® Magnetic Separation Rack (NEB);
Nanodrop One C (Thermo);
MiSeq (Illumina);
HiSeq (Illumina);
사용된 올리고뉴클레오타이드
GSP1+: ATACCGTTATTAACATATGACA (서열번호 61);
GSP1-: GTTTAATTGAGTTGTCATATGTTAATAAC (서열번호 62);
GSP2+: GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTACATATGACAACTCAATTAAAC (서열번호 63);
GSP2-: GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTTGAGTTGTCATATGTTAATAACGGTA (서열번호 64);
Index Forward (illumina D501-508 index, N's denote Index sequences): AATGATACGGCGACCACCGAGATCTACACNNNNNNNNACACTCTTTCCCTACACGACG (서열번호 65);
Index Reverse (illumina D701-712 index): CAAGCAGAAGACGGCATACGAGATTANNNNNNNNGACTGGAGTTCAGACGTGTGCTC (서열번호 66).
게놈 DNA 전단 (Genomic DNA shearing)
1. Blood Genomic DNA Extraction Mini Kit을 사용하여 게놈 DNA(gDNA)를 분리한 다음, 정제된 gDNA를 1X TE 버퍼로 용출하고 농도를 나노드롭(nanodrop)으로 결정하였다.
2. M220 Focused-ultrasonicator를 사용하여 5μg의 gDNA를 평균 길이 325bp로 전단하였다. 소니케이션 조건에 대한 상세한 조건은 아래에 개시된다:
- Tube: microTUBE-50 AFA Fiber Screw-Cap
- 샘플 볼륨: 55 μl
- 온도 (°C): 20
- Peak Incident Power (W): 75
- Duty Factor (%): 10
- Cycles per Burst (cpb): 200
- 처리 시간 (sec): 90
3. 제조업체의 프로토콜에 따라, 55 μl의 AMPure XP beads (1X ratio)로 전단된 gDNA를 세척하고, 50 μl 1X TE 버퍼에서 용출하였다.
엔드 리페어, A-테일링, 및 NEBNext 어댑터 결찰 (End repair, A-tailing, and NEBNext adaptor ligation)
4. Illumina 용 NEBNext® Ultra™ II DNA Library Prep Kit를 사용하여 1 μg의 전단된 gDNA를 NEBNext 어댑터로 결찰하였다. (하나의 TAPE-seq 반응에는 +(센스) 및 -(안티센스) 라이브러리 구축을 위한 adaptor-ligated gDNA 바이알 2개가 필요함)
5. 어댑터 연결 및 USER 엔자임 처리 반응 시간이 수정된 것을 제외하고, 모든 단계는 제조업체의 프로토콜을 사용하여 수행되었다 (어댑터 결찰, 1hr / USER 엔자임 처리, 30min).
6. 0.9X AMPure XP 비드로 반응물을 정제하고, 12 μl의 뉴클레아제-프리 워터에서 용출하였다.
태그-특이적 라이브러리 증폭을 위한 PCR (PCRs for Tag-specific library amplification)
Modified GUIDE-seq Discovery PCR이 태그-특이적 라이브러리 증폭에 사용되었다. + (센스) 및 - (안티센스) 라이브러리 구성을 위해, GSP+ 및 GSP- 프라이머가 별도로 각각의 + 및 - PCR 반응에 사용되었다.
7. + 및 - 라이브러리를 위한 1차 PCR 반응의 두개의 바이알을 준비하고 하기의 조건으로 1차 PCR을 수행하였다.
1차 PCR 혼합물의 조건은 하기에 개시된다:
- Nuclease-free water: 10.1 μl
- Buffer for Taq Polymerase, 10X (MgCl2 free): 3.0 μl
- dNTP Mix, 2.5 mM each: 2.4 μl
- MgCl2, 50 mM: 1.2 μl
- Platinum Taq polymerase, 5 U/μl: 0.3 μl
- GSP1+ 또는 GSP1- primer (10uM) (별도의 PCR 반응에 대하여): 0.75 μl
- D5_#(Index forward D501-D508): 0.75 μl
- TMAC (0.5M): 1.5 μl
- DNA 샘플(단계 6으로부터): 10.0 μl
- 총합: 30.0 μl
1차 PCR의 열 사이클 조건 (Thermal cycler condition)은 하기에 개시된다:
- 95°C, 5 분;
- 15 cycles of [95°C for 30 s, 70°C (-1°C/cycle) for 2 min, 72°C for 30 s];
- 10 cycles of [95°C for 30 s, 55°C for 1 min, 72°C for 30 s];
- 72°C, 5 분; 및
- 4°C 홀드.
8. 0.9X AMPure XP 비드로 PCR 생성물을 세척하고 20 μl 뉴클레아지-프리 워터에 용출하였다.
9. 하기의 조건으로 2차 PCR 바이알을 준비하고 2차 PCR을 수행하였다.
2차 PCR 혼합물의 조건은 하기에 개시된다:
- Nuclease-free water: 3.6 μl
- Buffer for Taq Polymerase, 10X (MgCl2 free): 3.0 μl
- dNTP Mix, 2.5 mM each: 2.4 μl
- MgCl2, 50 mM: 1.2 μl
- Platinum Taq polymerase, 5 U/μl: 0.3 μl
- GSP2+ 또는 GSP2- Primer (10uM) (별도의 PCR 반응에 대하여): 1.5 μl
- D5_#(Index forward D501-D508): 1.5 μl
- TMAC (0.5M): 1.5 μl
- DNA 샘플(단계 8로부터): 15.0 μl
- 총합: 30.0 μl
2차 PCR 열 사이클 조건 (Thermal cycler condition)은 하기에 개시된다:
- 95°C, 5분;
- 15 cycles of [95°C for 30 s, 70°C (-1°C/cycle) for 2 min, 72°C for 30 s];
- 10 cycles of [95°C for 30 s, 55°C for 1 min, 72°C for 30 s];
- 72°C, 5 분; 및
- 4°C 홀드.
10. 0.7X AMPure XP 비드로 PCR 생성물을 세척하고, 15 μl 뉴클레이즈-프리 워터에서 용출하였다.
11. 하기의 조건으로 3차 PCR 바이알을 준비하고 3차 PCR을 수행하였다.
3차 PCR 혼합물의 조건은 하기에 개시된다:
- Nuclease-free water: 20.5 μl
- 5X Q5 Reaction Buffer: 10.0 μl
- dNTP Mix, 2.5 mM each: 4.0 μl
- Q5 High-Fidelity DNA Polymerase: 0.5 μl
- D7_#(Index reverse D701-712): 2.5 μl
- D5_#(Index forward D501-D508): 2.5 μl
- DNA 샘플(단계 10으로부터): 10.0 μl
- 총합: 50.0 μl
3차 PCR의 열 사이클 조건 (Thermal cycler condition)은 하기에 개시된다:
- 98°C, 30초;
- 30 cycles of [98°C for 10 s, 58°C for 20 s, 72°C for 30 s];
- 72°C, 5 분; 및
- 4°C 홀드.
12. 0.7X AMPure XP 비드로 PCR 생성물을 세척하고 60 μl 뉴클레아제 프리 워터에서 용출하였다.
13. 2x150-bp paired end Mi-seq 또는 Hi-seq으로 정제된 PCR 생성물을 분석하였다.
표적화된 딥시퀀싱(targeted deep sequencing) 및 오프 타겟 부위의 검증
PE2 및 pegRNA의 발현 후, 표적 부위는 표적 딥시퀀싱 (targeted deep sequencing)을 통해 분석되었다. 딥시퀀싱 라이브러리는 PCR에 의해 생성되었다. TruSeq HT Dual Index 프라이머가 각 샘플의 라벨을 위해 사용되었다. 풀링된 라이브러리는 Miseq(Illumina)를 사용한 paired-end 시퀀싱에 적용되었다. Paired-end FASTQ 파일은 PE-Analyzer (http://www.rgenome.net)로 분석되었다.
다음의 두가지 조건을 만족하는 후보들이 '검증된 오프 타겟'으로 지정되었다:
1. 돌연변이, 삽입, 결실, 치환, 또는 주요 편집의 사건 중 적어도 하나의 빈도가 야생형 샘플보다 높음.
2. 프라임 에디팅으로만 생성될 수 있는 변이 서열 (주요 편집된 서열)이 존재함.
NGS의 검출 한계와 PCR 에러에 의해 생성되는 문제를 극복하기 위해, PE2가 4주 동안 안정적으로 발현된 세포를 사용하여 검증 실험을 수행하였고, 생물학적으로 독립적인 게놈 DNA를 사용하여 3회 반복 수행하였다. 검증율은 검증된 표적의 수를 '검증된 표적의 수와 위양성 표적의 수의 합'으로 나누어 계산하였다. 분석되지 않은 표적은 검증율 계산에서 제외되었다.
프라임 에디팅 태그맨테이션 분석
태그 서열의 존재는 태그맨테이션으로 정의되었다. 태그를 포함하는 pegRNA를 통해 게놈 DNA의 편집 가닥(스페이서와 결합하지 않는 가닥)에 통합되는 태그 서열에 대한 정보는 다음과 같다:
34-bp 전체 길이 태그: GTTTAATTGAGTTGTCATATGTTAATAACGGTAT (서열번호 48);
29-bp 태그: GTTTAATTGAGTTGTCATATGTTAATAAC (서열번호 49);
19-bp 태그: GTTTAATTGAGTTGTCATA (서열번호 50).
PE-Analyzer (http://www.rgenome.net)가 태그맨테이션이 발생한 리드를 식별하기 위해 사용되었다 (문헌 [Hwang, Gue-Ho, et al. "PE-Designer and PE-Analyzer: web-based design and analysis tools for CRISPR prime editing." Nucleic acids research 49.W1 (2021): W499-W504.] 참조). 태그맨테이션 케이스 1 및 케이스 2는 서열 분석으로 구분되었다. TAPE-seq 리드가 NGS에 의해 분석된 후, 전체 길이 태그 서열을 포함하는 리드만 선별되었다. 그런 다음, 태그 서열을 분석을 위해 서열으로부터 제거하고, 남은 서열을 태그 서열이 없는 pegRNA로 프라임 에디팅을 거친 세포의 표적화된 딥시퀀싱으로부터의 NGS 리드와 비교하였다.
케이스 1은 태그 서열을 제거한 후의 에디팅 패턴이, 태그 서열이 없는 pegRNA로 생성된 에디팅 패턴과 동일함을 의미한다. 해당 패턴을 찾을 수 없으면, 서열은 케이스 2로 분류되었다.
PiggyBac 카피수(copy number) 분석
통합된 piggyBac 트랜스포존의 평균 복제 수를 정량화하기 위해, piggyBac vector의 5' 역반복(inverted repeat; IR) 방향의 프라이머 세트를 사용하였다. 5' IR을 증폭하기 위해 사용된 정방향 프라이머 및 역방향 프라이머의 서열은 각각 5'-CTAAATAGCGCGAATCCGTC-3' (서열번호 67) 및 5-'TCATTTTGACTCACGCGG-3' (서열번호 68) 이었다. 형질감염되지 않은 HEK293T 게놈 DNA와 카피수가 알려진 연속 희석된 piggyBac 플라스미드의 혼합물을 사용하여 생성된 스탠다드 커브를 사용하여 카피수(copy numbers)가 계산되었다. PowerUp SYBR Green Master Mix (Applied Biosystems)와 함께 QuantStudio 3 Real Time PCR System (Applied Biosystems)을 사용하여 실시간 PCR (Real-time PCR)을 수행하였다.
GFP-발현 세포의 FACS
퓨로마이신 셀렉션 2주 후, 세포를 인산염 완충 식염수(phosphate buffered saline)로 세척하고 트립신-EDTA로 플레이트에서 분리하였다. 세포를 실온에서 5분 동안 500xg에서 원심분리하고, 2% FBS가 포함된 인산염 완충 식염수에 재현탁하였다. GFP 양성 세포는 Attune NxT Acoustic Focusing Cytometer (Thermo Scientific)를 사용하여 분리되었다. Attune NxT software v4.2.0을 사용하여 원시 데이터를 분석하였다.
통계 및 재현성 (Statistics & Reproducibility)
이전 nDigenome-seq 논문 (문헌 [Kim, Do Yon, et al. "Unbiased investigation of specificities of prime editing systems in human cells." Nucleic acids research 48.18 (2020): 10576-10589.] 참조)에서 연구된 10개의 샘플 사이트를 분석하였다. 분석에서 제외된 데이터는 없다. 통계 분석은 Prism (version 9.4.1)으로 수행되었으며, two-sided unpaired student t-test의 결과가 개시된다.
데이터 가용성 (Data availability)
본 연구결과를 뒷받침하는 딥시퀀싱 데이터는 NCBI Bioproject (https://www.ncbi.nlm.nih.gov/bioproject/)에 엑세스 코드 PRJNA802977 (accession codes PRJNA802977)로 기탁되었다. 소스 데이터는 소스 데이터 파일로 제공된다.
코드 가용성 (Code availability)
본 연구 결과를 뒷받침하는 코드는 온라인 기록 보관소에 보관되었다. (https://github.com/PhyzenInc/TAPE-seq_flanking_depth)
분석 데이터
본 실험 방법을 통해 얻어진 분석 데이터들은 표를 통해 이하의 섹션 "결과"의 아래에 개시되는 섹션 "분석 데이터에 대한 표"에서 제공된다.
결과
태그맨테이션율(tagmentation rate)의 최적화
실험적 전 게놈(genome-wide) 오프 타겟 예측 방법은 세포 기반(cell-based) 방법 또는 in vitro 기반 방법으로 구분될 수 있다. 프라임 에디팅은 플랩 엔도뉴클레아제, 엑소뉴클레아제, 및 리가아제 등을 포함하는 다수의 세포 효소가 관여되는 다단계 과정(multi-step process)이기 때문에, 이러한 복잡한 세포 과정을 밀접하게 모방하는 in vitro 기반 방법은 개발되기 어렵다. 반면에 종래의 대부분의 세포 기반 방법은 온타겟(on-target) 및 오프 타겟 (off-target) 유전자좌(loci)에 태그 서열을 도입하여 이후 단계에서 PCR로 증폭시킬 수 있도록 한다. 그러나, 프라임 에디팅 버전 2인 PE2는 DSB(double strand breaks)를 일으키지 않고 표적에 nick을 발생시키기 때문에, 이중 가닥 올리고뉴클레오티드 또는 바이러스 DNA 단편을 태그로 삽입하는 것은 불가능하다.
PE2는 그 자체로 임의의 짧은 서열을 대상 사이트에 삽입할 수 있는 기능을 갖는다. 따라서, 본 출원의 발명자들은 PBS(primer binding site)와 RT 템플릿(reverse transcriptase template) 서열 사이에 태그 주형(tag template)(편의상 태그 서열 또는 태그로 지칭될 수 있음)이 위치하는 pegRNA를 설계하였다. 태그의 경우, GUIDE-seq (문헌 [Tsai, Shengdar Q., et al. "GUIDE-seq enables genome-wide profiling of off-target cleavage by CRISPR-Cas nucleases." Nature biotechnology 33.2 (2015): 187-197.] 참조)에서 사용되는 것과 동일한 시퀀스가 선택되었다. 다양한 기원의 세포에서 작동하는 것이 입증되었기 때문이다.
본 출원의 발명자들은 이전 연구의 검증 실험에서 사용된 PBS 및 RT 주형의 서열을 TAPE-seq과 관련된 실험에 사용하였다. 이전 연구에서는 GUIDE-seq 및 nDigenome-seq을 예측 도구로 하여 검증 실험을 진행하였다 (문헌 [Anzalone, Andrew V., et al. "Search-and-replace genome editing without double-strand breaks or donor DNA." Nature 576.7785 (2019): 149-157.; 및 Kim, Do Yon, et al. "Unbiased investigation of specificities of prime editing systems in human cells." Nucleic acids research 48.18 (2020): 10576-10589.] 참조). 이하에서, 본 TAPE-seq의 연구에 사용된 태그를 포함하는 pegRNA 및 pegRNA에 포함된 각 요소의 서열, 및 태그를 포함하는 epegRNA(epegRNA는 PEmax-뉴클레아제와 함께 사용됨)의 서열 및 epegRNA에 포함된 각 요소의 서열이 개시된다.
HEK4 (+2 G to T) pegRNA
- 전체 서열: GGCACUGCGGCUGGAGGUGGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUAACCCCAAAUACCGUUAUUAACAUAUGACAACUCAAUUAAACCCUCCAGCCUUUUUU (서열번호 69)
- 스페이서의 서열: GGCACUGCGGCUGGAGGUGG (서열번호 70)
- RT 주형의 서열: UUAACCCCAA (서열번호 71)
- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 72)
- PBS: CCUCCAGCC (서열번호 73)
HEK4  (+3 TAA ins) pegRNA
- pegRNA의 전체 서열: GGCACUGCGGCUGGAGGUGGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUAACCCCUUACAAUACCGUUAUUAACAUAUGACAACUCAAUUAAACCCUCCAGCCUUUUUU (서열번호 74)
- 스페이서의 서열: GGCACUGCGGCUGGAGGUGG (서열번호 75)
- RT 주형의 서열: UUAACCCCUUACA (서열번호 76)
- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 77)
- PBS의 서열: CCUCCAGCC (서열번호 78)
HBB  (+4 A to T) pegRNA
- pegRNA의 전체 서열: CAUGGUGCACCUGACUCCUGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCAGACUUCUCCACAGAUACCGUUAUUAACAUAUGACAACUCAAUUAAACGAGUCAGGUGCACUUUUUU (서열번호 79)
- 스페이서의 서열: CAUGGUGCACCUGACUCCUG (서열번호 80)
- RT 주형의 서열: AGACUUCUCCACAG (서열번호 81)
- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 82)
- PBS의 서열: GAGUCAGGUGCAC (서열번호 83)
HEK3  (+1 CTT ins) pegRNA
- pegRNA의 전체 서열: GGCCCAGACUGAGCACGUGAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUCUGCCAUCAAAGAUACCGUUAUUAACAUAUGACAACUCAAUUAAACCGUGCUCAGUCUGUUUUUU (서열번호 84)
- 스페이서의 서열: GGCCCAGACUGAGCACGUGA (서열번호 85)
- RT 주형의 서열: UCUGCCAUCAAAG (서열번호 86)
- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 87)
- PBS의 서열: CGUGCUCAGUCUG (서열번호 88)
FANCF  (+6 G to C) pegRNA
- pegRNA의 전체 서열: GGAAUCCCUUCUGCAGCACCGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCGGAAAAGCGAUGCAGGUAUACCGUUAUUAACAUAUGACAACUCAAUUAAACGCUGCAGAAGGGAUUUUUUU (서열번호 89)
- 스페이서의 서열: GGAAUCCCUUCUGCAGCACC (서열번호 90)
- RT 주형의 서열: GGAAAAGCGAUGCAGGU (서열번호 91)
- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 92)
- PBS의 서열: GCUGCAGAAGGGAU (서열번호 93)
EMX1  (+5 G to T) pegRNA
- pegRNA의 전체 서열: GAGUCCGAGCAGAAGAAGAAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCAUGGGAGCACUUCAUACCGUUAUUAACAUAUGACAACUCAAUUAAACUUCUUCUGCUCGGACUUUUUU (서열번호 94)
- 스페이서의 서열: GAGUCCGAGCAGAAGAAGAA (서열번호 95)
- RT 주형의 서열: AUGGGAGCACUUC (서열번호 96)
- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 97)
- PBS의 서열: UUCUUCUGCUCGGAC (서열번호 98)
DNMT1  (+6 G to C) pegRNA
- pegRNA의 전체 서열: GAUUCCUGGUGCCAGAAACAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCGUCACGCCUGUAUACCGUUAUUAACAUAUGACAACUCAAUUAAACUUCUGGCACCAGGUUUUUU (서열번호 99)
- 스페이서의 서열: GAUUCCUGGUGCCAGAAACA (서열번호 100)
- RT 주형의 서열: GUCACGCCUGU (서열번호 101)
- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 102)
- PBS의 서열: UUCUGGCACCAGG (서열번호 103)
RUNX1  (+6 G to C) pegRNA
- pegRNA의 전체 서열: GCAUUUUCAGGAGGAAGCGAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUGUCUGAAGGCAUCGAUACCGUUAUUAACAUAUGACAACUCAAUUAAACCUUCCUCCUGAAAAUUUUUUU (서열번호 104)
- 스페이서의 서열: GCAUUUUCAGGAGGAAGCGA (서열번호 105)
- RT 주형의 서열: UGUCUGAAGGCAUCG (서열번호 106)
- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 107)
- PBS의 서열: CUUCCUCCUGAAAAU (서열번호 108)
VEGFA  (+5 G to T) pegRNA
- pegRNA의 전체 서열: GAUGUCUGCAGGCCAGAUGAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCAAUGUGCCAUCUGGAGCACUCAAUACCGUUAUUAACAUAUGACAACUCAAUUAAACUCUGGCCUGCAGAUUUUUU (서열번호 109)
- 스페이서의 서열: GAUGUCUGCAGGCCAGAUGA (서열번호 110)
- RT 주형의 서열: AAUGUGCCAUCUGGAGCACUCA (서열번호 111)
- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 112)
- PBS의 서열: UCUGGCCUGCAGA (서열번호 113)
RNF2  (+6 G to A) pegRNA
- pegRNA의 전체 서열: GUCAUCUUAGUCAUUACCUGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCAACGAACACCGCAGAUACCGUUAUUAACAUAUGACAACUCAAUUAAACGUAAUGACUAAGAUGUUUUUU (서열번호 114)
- 스페이서의 서열: GUCAUCUUAGUCAUUACCUG (서열번호 115)
- RT 주형의 서열: AACGAACACCGCAG (서열번호 116)
- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 117)
- PBS의 서열: GUAAUGACUAAGAUG (서열번호 118)
HEK4  (+2 G to T) epegRNA
- pegRNA의 전체 서열: GGCACUGCGGCUGGAGGUGGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUAACCCCAAAUACCGUUAUUAACAUAUGACAACUCAAUUAAACCCUCCAGCCAUCUUAACCGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAAUUUUUU (서열번호 119)
- 스페이서의 서열: GGCACUGCGGCUGGAGGUGG (서열번호 70)
- RT 주형의 서열: UUAACCCCAA (서열번호 71)
- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 72)
- PBS: CCUCCAGCC (서열번호 73)
- 링커의 서열: AUCUUAAC (서열번호 120)
- RNA 모티프의 서열: CGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAA (서열번호 121)
HBB  (+4 A to T) epegRNA
- pegRNA의 전체 서열: CAUGGUGCACCUGACUCCUGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCAGACUUCUCCACAGAUACCGUUAUUAACAUAUGACAACUCAAUUAAACGAGUCAGGUGCACAAAUAAAGCGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAAUUUUUU (서열번호 122)
- 스페이서의 서열: CAUGGUGCACCUGACUCCUG (서열번호 80)
- RT 주형의 서열: AGACUUCUCCACAG (서열번호 81)
- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 82)
- PBS의 서열: GAGUCAGGUGCAC (서열번호 83)
- 링커의 서열: AAAUAAAG (서열번호 123)
- RNA 모티프의 서열: CGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAA (서열번호 124)
HEK3  (+1 CTT ins) epegRNA
- pegRNA의 전체 서열: GGCCCAGACUGAGCACGUGAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUCUGCCAUCAAAGAUACCGUUAUUAACAUAUGACAACUCAAUUAAACCGUGCUCAGUCUGUUAAACUUCGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAAUUUUUU (서열번호 125)
- 링커의 서열: UUAAACUU (서열번호 126)
- 스페이서의 서열: GGCCCAGACUGAGCACGUGA (서열번호 85)
- RT 주형의 서열: UCUGCCAUCAAAG (서열번호 86)
- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 87)
- PBS의 서열: CGUGCUCAGUCUG (서열번호 88)
- RNA 모티프의 서열: CGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAA (서열번호 127)
FANCF  (+6 G to C) epegRNA
- pegRNA의 전체 서열: GGAAUCCCUUCUGCAGCACCGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCGGAAAAGCGAUGCAGGUAUACCGUUAUUAACAUAUGACAACUCAAUUAAACGCUGCAGAAGGGAUAUAGAACGCGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAAUUUUUU (서열번호 128)
- 스페이서의 서열: GGAAUCCCUUCUGCAGCACC (서열번호 90)
- RT 주형의 서열: GGAAAAGCGAUGCAGGU (서열번호 91)
- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 92)
- PBS의 서열: GCUGCAGAAGGGAU (서열번호 93)
- 링커의 서열: AUAGAACG (서열번호 129)
- RNA 모티프의 서열: CGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAA (서열번호 130)
EMX1  (+5 G to T) epegRNA
- pegRNA의 전체 서열: GAGUCCGAGCAGAAGAAGAAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCAUGGGAGCACUUCAUACCGUUAUUAACAUAUGACAACUCAAUUAAACUUCUUCUGCUCGGACAAUAUUACCGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAAUUUUUU (서열번호 131)
- 스페이서의 서열: GAGUCCGAGCAGAAGAAGAA (서열번호 95)
- RT 주형의 서열: AUGGGAGCACUUC (서열번호 96)
- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 97)
- PBS의 서열: UUCUUCUGCUCGGAC (서열번호 98)
- 링커의 서열: AAUAUUAC (서열번호 132)
- RNA 모티프의 서열: CGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAA (서열번호 133)
DNMT1  (+6 G to C) epegRNA
- pegRNA의 전체 서열: GAUUCCUGGUGCCAGAAACAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCGUCACGCCUGUAUACCGUUAUUAACAUAUGACAACUCAAUUAAACUUCUGGCACCAGGCUAACUACCGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAAUUUUUU (서열번호 134)
- 스페이서의 서열: GAUUCCUGGUGCCAGAAACA (서열번호 100)
- RT 주형의 서열: GUCACGCCUGU (서열번호 101)
- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 102)
- PBS의 서열: UUCUGGCACCAGG (서열번호 103)
- 링커의 서열: CUAACUAC (서열번호 135)
- RNA 모티프의 서열: CGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAA (서열번호 136)
RUNX1  (+6 G to C) epegRNA
- pegRNA의 전체 서열: GCAUUUUCAGGAGGAAGCGAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUGUCUGAAGGCAUCGAUACCGUUAUUAACAUAUGACAACUCAAUUAAACCUUCCUCCUGAAAAUAUCCUACCCGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAAUUUUUU (서열번호 137)
- 스페이서의 서열: GCAUUUUCAGGAGGAAGCGA (서열번호 105)
- RT 주형의 서열: UGUCUGAAGGCAUCG (서열번호 106)
- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 107)
- PBS의 서열: CUUCCUCCUGAAAAU (서열번호 108)
- 링커의 서열: AUCCUACC (서열번호 138)
- RNA 모티프의 서열: CGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAA (서열번호 139)
VEGFA  (+5 G to T) epegRNA
- pegRNA의 전체 서열: GAUGUCUGCAGGCCAGAUGAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCAAUGUGCCAUCUGGAGCACUCAAUACCGUUAUUAACAUAUGACAACUCAAUUAAACUCUGGCCUGCAGAAAGAAAGGCGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAAUUUUUU (서열번호 140)
- 스페이서의 서열: GAUGUCUGCAGGCCAGAUGA (서열번호 110)
- RT 주형의 서열: AAUGUGCCAUCUGGAGCACUCA (서열번호 111)
- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 112)
- PBS의 서열: UCUGGCCUGCAGA (서열번호 113)
- 링커의 서열: AAGAAAGG (서열번호 141)
- RNA 모티프의 서열: CGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAA (서열번호 142)
RNF2  (+6 G to A) epegRNA
- pegRNA의 전체 서열: GUCAUCUUAGUCAUUACCUGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCAACGAACACCGCAGAUACCGUUAUUAACAUAUGACAACUCAAUUAAACGUAAUGACUAAGAUGUAAUAUACCGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAAUUUUUU (서열번호 143)
- 스페이서의 서열: GUCAUCUUAGUCAUUACCUG (서열번호 115)
- RT 주형의 서열: AACGAACACCGCAG (서열번호 116)
- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 117)
- PBS의 서열: GUAAUGACUAAGAUG (서열번호 118)
- 링커의 서열: UAAUAUAC (서열번호 145)
- RNA 모티프의 서열: CGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAA (서열번호 146)
개발된 오프 타겟 예측 방법의 신호 대 잡음비(signal-to-noise ratio)는 온타겟 및 오프타겟 위치에서 태그 삽입의 효율에 비례할 것이다. 본 출원의 발명자들은, 먼저, 온타겟 위치에의 태그 통합에 대한 실험 조건을 최적화하였다. PE2 및 태그 서열을 포함하는 HEK4-표적화 pegRNA(+2 G to T 편집, 닉에 대하여 번호가 매겨짐)를 암호화하는 플라스미드를 HEK293T 세포에 일시적으로 형질감염(transfection) 시켰을 때, 0.011%의 태그 통합율이 관찰되었다. 이러한 비율을 개선하기 위해서, 본 출원의 발명자들은 piggyBac 시스템 (문헌 [Li, Xianghong, et al. "piggyBac transposase tools for genome engineering." Proceedings of the National Academy of Sciences 110.25 (2013): E2279-E2287.] 참조)에서 PE2 및 pegRNA를 암호화하는 올인원(all-in-one) 벡터를 구성하였다. 이 벡터를 트랜스포사제(transposase)로 형질감염시켜 안정한 세포주를 구축하였다.
이 상황에서, 태그 통합 (태그맨테이션, tagmentation) 비율은 퓨로마이신 셀렉션(puromycin selection) 14일 후에 2% 이상으로 증가하였다. 결과는 도 08에 개시된다. 구체적으로, 2일 또는 14일 이후의 태그맨테이션율이 도 08에 개시된다 (바는 mean을 나타냄; 에러 바는 표준편차를 나타냄; n=3, 독립적인 형질감염에 대해; two-sided unpaired student t-test).
GFP-piggyBac 구축물을 통한 형질감염 후 14일 동안의 퓨로마이신 셀렉션은 녹색 형광 단백질 (GFP) 양성 세포를 성공적으로 농축하였다 (도 09 내지 도 15 참고). 14일 동안의 퓨로마이신 셀렉션은 GFP-piggyBac 구축물로 형질감염된 세포를 풍부하게 하였다. 도 09는 GFP-piggyBac 벡터의 맵을 나타낸다. GFP는 E2A 서열을 통해 PE2에 연결된다.
양성 세포의 농축 결과는 도 10 내지 도 15에 개시된다. 구체적으로, 도 10 내지 도 15는 세가지 다른 형질감염된 세포 집단 (HEK293T, HeLa, K562)에서 GFP 발현을 검출하기 위한 FACS 기반 분석 결과를 나타낸다. 세포 집단은 SSC-A vs. FSC-A으로 게이팅되었고 GFP+ 집단이 SSC-A에 대해 플롯되었다. 실험은 3회 (1차, 2차, 및 3차) 수행되었다.
배양 시간을 2주에서 7주로 연장하더라도 발견된 표적 수의 개수의 향상은 유의미하지 않았다. 배양 시간에 따른 표적 수에 대한 결과는 도 16에 개시된다. 구체적으로, 도 16은 HEK4 (+2G to T) pegRNA를 HEK294T 세포로 형질감염시킨 후의 인큐베이션 시간 별, TAPE-seq에 의해 발견된 후보 오프타겟 부위의 수를 나타낸다.
본 출원의 발명자들은 2주 (5329899), 4주 (5313548), 6주 (2324242), 및 7주 (4021702)의 샘플에 유사한 수의 Mi-seq 리드를 할당하였다 (분석 데이터 3, 표 11 참고). 4주 (2369), 6주 (1060), 및 7주 (1594) 샘플과 비교할 때 2주 샘플(62565)에서 더 많은 수의 온타겟 리드가 나타났고 (분석 데이터 2, 표 02 내지 표 10 참고), 이는 2주 샘플의 TAPE-seq 분석으로부터 얻은 신호 대 잡음비가 다른 샘플보다 높은 것을 나타낸다. 따라서, 후속 연구에서는 2주 동안의 퓨로마이신 셀렉션이 수행되었다.
본 출원의 발명자들은 트랜스포사제 플라스미드로 공동 형질감염(co-transfection)시키기 위한 최적의 piggyBac 벡터의 양을 찾아 태그맨테이션율(tagmentation rate)을 더욱 최적화하였다. 50ng 내지 1000ng의 양이 테스트되었다. 결과는 도 17 내지 도 19에 개시된다. 도 17 내지 도 19에서, PB는 PiggyBac을 나타낸다.
구체적으로, 도 17은 HEK293T 세포를 형질감염시키기 위해 사용된 piggyBac 플라스미드의 양(ng) 별, 정량적 PCR을 통해 세포에서 발견된 piggyBac 구축물의 복제수(copy number)를 도시한 그래프이다 (에러 바는 표준편자를 나타냄; n=3, 독립적인 형질감염에 대해; Two-sided unpaired student-t test).
도 18는 HEK293T를 형질감염시키기 위해 사용된 piggyBac 플라스미드의 양(ng) 별, 온타겟 위치에서의 태그맨테이션율을 도시한 그래프이다 (에러 바는 표준편자를 나타냄; n=3, 독립적인 형질감염에 대해; Two-sided unpaired student-t test). 여기서, 온타겟 위치는 HEK4 (+2 G to T) pegRNA에 대한 온타겟 위치를 나타낸다.
도 19는 HEK293T를 형질감염시키기 위해 사용된 piggyBac 플라스미드의 양(ng) 별, 오프 타겟 위치 (off-target site 1) 1에서의 태그맨테이션율을 도시한 그래프이다 (바는 mean을 나타냄; 에러 바는 표준편자를 나타냄; n=3, 독립적인 형질감염에 대해; Two-sided unpaired student-t test). 여기서, 오프 타겟 위치 1은 HEK4 (+2 G to T) pegRNA에 대한 오프 타겟 위치 중 하나를 나타낸다. PiggyBac 벡터의 복제 수(copy numbers)를 측정하였을 때, 1000ng이 가장 높은 값을 나타냈다. 나아가, 1000 ng은 온타겟 및 오프타겟 부위에서 지속적으로 높은 태그맨테이션 비율을 나타내었다. 따라서, 본 출원의 발명자들은 이후의 TAPE-seq에서 1000ng의 piggyBac 벡터를 형질감염시켰다.
다음으로, 프로브 서열(태그 주형 또는 태그)의 길이 별로 태그맨테이션 비율이 다를 수 있기 때문에, 다양한 길이의 프로브 서열에 대한 테스트가 진행되었다. 19 내지 34 bp 길이의 프로브 서열에 대한 테스트가 진행되었다. 테스트 결과, HEK4 를 타겟하는 pegRNA (+2G to T)의 온타겟 부위에서는, 19-bp 길이의 프로브 서열이 34-bp의 프로브 서열과 비교할 때 더 높은 통합율을 보였다 (도 20 참고). 오프타겟 부위 중 하나에서는 반대의 경향이 관찰되었다 (도 21 참고). 결과는 도 20 내지 도 21에 개시된다 (바는 mean을 나타냄; 에러 바는 표준편자를 나타냄; n=3, 독립적인 형질감염에 대해; Two-sided unpaired student-t test).
구체적으로, 프로브 서열의 길이에 따른, HEK4 (+2 G to T) pegRNA의 온타겟 사이트에서의 태그맨테이션율에 대한 그래프가 도 20 에 개시된다. 도 20 (a)는 HEK293T 세포에 대한 결과이다. 도 20 (b)는 HeLa 세포에 대한 결과이다. 도 20 (c)는 K562 세포에 대한 결과이다.
구체적으로, 프로브 서열의 길이에 따른, HEK4 (+2 G to T) pegRNA의 오프 타겟 사이트 1 에서의 태그맨테이션율에 대한 그래프가 도 21에 개시된다. 도 21 (a)는 HEK293T 세포에 대한 결과이다. 도 21 (b)는 HeLa 세포에 대한 결과이다. 도 21 (c)는 K562 세포에 대한 결과이다.
TAPE-seq의 일부 목적이 오프 타겟 사이트의 태그화이고, GUIDE-seq 실험 및 분석이 34-bp 길이의 태그 서열을 사용하여 최적화되었기 때문에, 본 출원의 발명자들은 이후의 분석에서 34bp 길이의 서열을 사용하기로 결정하였다. GUIDE-seq (문헌 [Tsai, Shengdar Q., et al. "GUIDE-seq enables genome-wide profiling of off-target cleavage by CRISPR-Cas nucleases." Nature biotechnology 33.2 (2015): 187-197.; 및 Malinin, Nikolay L., et al. "Defining genome-wide CRISPR-Cas genome-editing nuclease activity with GUIDE-seq." Nature Protocols 16.12 (2021): 5592-5615.] 참조) 및 이전 모델인 AMP(anchored multiplex PCR) (문헌 [Zheng, Zongli, et al. "Anchored multiplex PCR for targeted next-generation sequencing." Nature medicine 20.12 (2014): 1479-1484.] 참조) 방법은 높은 특이성을 보장하기 위해 중첩된 PCR 단계를 포함하고, 이는 두개의 단방향 프라이머(unidirectional primers)를 사용하여 달성된다. 프라이머가 AMP 분석을 위해 17개의 다른 타겟에 대해 최적화되었을 때 (문헌 [미국 특허, 등록번호 9,487,828 B2; inv. Iafrate, A.J., et al.] 참조), 두개의 탠덤 프라이머를 사용하면 35bp 내지 71bp 길이의 타겟 프라이밍 사이트가 생성되었으며, 평균은 46bp이고 중앙값은 44bp이었다. 본 출원의 발명자들은 표적 프라이밍 사이트의 길이를 34bp에서 19bp로 줄이면, GUIDE-seq 및 AMP 방법에서 중첩된 PCR(nested PCR)로 얻은 높은 특이성을 제거할 것이라고 추측하였다. 실제로, 프로브 서열의 길이가 34bp에서 19bp로 줄어들었을 때, Nucleotide BLAST (문헌 [Altschul, Stephen F., et al. "Basic local alignment search tool." Journal of molecular biology 215.3 (1990): 403-410.; 및 Zhang, Zheng, et al. "A greedy algorithm for aligning DNA sequences." Journal of Computational biology 7.1-2 (2000): 203-214.] 참조)의 히트 수는 1에서 대략 4000으로 급증하였고, 이는 전 게놈(whole-genome) 미스 프라이밍(mis-priming) 가능성이 4000배 높아졌음을 제안한다. 결과적으로 낮은 신호 대 잡음 비 (signal-to-noise ratio)를 보임을 나타낸다. GUIDE-seq에 사용된 34-bp 프로브 서열은, 6번의 다른 경우에서, GUIDE-seq에서 성공적으로 온 타겟 및 오프타겟 사이트에 태그되었기 때문에, 본 출원의 발명자들은 후속 분석에 34-bp 서열을 사용하기로 결정하였다.
태그 서열을 포함하고 서로 다른 유전자를 표적으로 하는 9개의 서로 다른 각각의 pegRNAs가 있는 최적화된 조건에서 배양된 샘플에 대해, 태그맨테이션 비율을 측정했을 때, 모든 타겟에서 태그맨테이션이 관찰되었다. 결과는 도 22에 개시된다. 구체적으로, 도 22는 9개의 다른 pegRNA의 온타겟 사이트에서의 태그맨테이션율 및 프라임 에디팅 율을 나타낸다 (에러 바는 표준편자를 나타냄; n=3, 독립적인 형질감염에 대해; Two-sided unpaired student-t test). 태그 서열을 포함하는 pegRNA 및 태그 서열이 없는 상응하는 pegRNA에 대한 각각의 결과가 측정되었다.
나아가, 본 출원의 발명자들은 이전에 nDigenome-seq에 의해 식별된 1개의 온타겟 유전자좌 및 5개의 오프타겟 유전자좌의 태그맨테이션율을 비교하였다. 결과는 도 23에 보여진다. 구체적으로, 도 23은 HEK4 (+2 G to T) 및 HBB (+4 A to T) pegRNAs의 6개의 타겟 사이트 (온타겟 및 오프타겟 사이트)에 대한 태그맨테이션율에 대한 그래프를 개시한다 (바는 mean을 나타냄; 에러 바는 표준편자를 나타냄; n=3, 독립적인 형질감염에 대해).
오프 타겟 유전자좌 중 하나가 100%에 가까운 태그맨테이션율을 보였기 때문에, 앞서 언급된 태그맨테이션 단계의 조건으로 다음 단계를 진행하였다.
온타겟 및 오프타겟 태그맨테이션의 패턴 분석
본 출원의 발명자들은 태그 서열이 있는 pegRNA를 사용하여 얻은 각 프라임 편집된 샘플에 대한 온타겟 유전자좌에서 프라임 에디팅 패턴을 비교하였다. pegRNA에 태그 서열의 추가는 두가지 대체 통합(integration) 시나리오를 보일 수 있다.
첫번째 케이스(Case 1)는 다음과 같다: 34-bp 태그 서열은 프라임 에디팅의 나머지 패턴을 교란하지 않고 삽입됨; 따라서 34-bp의 프로브 서열을 이 패턴으로부터 제거하면, 태그가 없는 pegRNA에 의해 유도된 프라임 에디팅 패턴과 동일함.
두번째 케이스(Case 2)는 다음과 같다: 태그 통합은 프라임 에디팅의 나머지 패턴을 교란함; 34-bp의 태그 서열을 이 패턴으로부터 제거하면, 태그가 없는 pegRNA에 의해 유도된 프라임 에디팅 패턴과 다름.
9개의 서로 다른 pegRNAs에 대한 온 타겟 및 오프 타겟 유전자좌의 태그 통합 패턴이 표적화된 딥시퀀싱 분석 및 PE-Analyzer (문헌 [Hwang, Gue-Ho, et al. "PE-Designer and PE-Analyzer: web-based design and analysis tools for CRISPR prime editing." Nucleic acids research 49.W1 (2021): W499-W504.] 참조)으로 분석되었다. 대부분의 태깅된 샘플은 Case 1의 시나리오에 대응되었다. 결과는 도 24에 보여진다. 구체적으로, 도 24는 표적화된 딥시퀀싱(targeted deep sequencing) 및 PE-analyzer를 이용하여 결정된 Case 1 및 Case 2 에디팅의 비율을 나타낸다.
나아가, Case 1 샘플의 추가적 분석은 대부분 태그와 프라임 에디팅(편집)이 모두 포함되어 있음을 밝혔다. 단지 작은 일부만이 프라임 에디팅 없이 태깅되었다 (분석 데이터 1, 표 01 참고). 결과는 도 25에 개시된다. 구체적으로, 도 25은 10개의 상이한 온타겟 및 오프타겟 사이트에 대한 분석 결과 나타내며, 프라임 에디팅 편집이 있는 태그맨테이션과 프라임 에디팅 편집이 없는 태그맨테이션에 대한 결과가 개시된다 (에러 바는 표준편자를 나타냄; n=3, 독립적인 형질감염에 대해).
이러한 결과로부터, 본 출원의 발명자들은 태그 서열의 존재가 온타겟 사이트와 오프타겟 사이트에서의 프라임 에디팅 패턴에 최소한의 영향만을 미친다는 것(즉, 영향이 거의 없음)을 확인하였다.
PE2의 전게놈 오프 타겟 효과를 예측하기 위한 태그가 삽입된 (태그된) 게놈 DNA의 분석
본 출원의 발명자들은 태그가 통합된 (즉, 태깅된) 게놈 DNA (즉, tagmented genomic DNA)를 정제하고 TAPE-seq 라이브러리를 생성하기 위한 태그-특이적 증폭을 위해 GUIDE-seq (문헌 [Tsai, Shengdar Q., et al. "GUIDE-seq enables genome-wide profiling of off-target cleavage by CRISPR-Cas nucleases." Nature biotechnology 33.2 (2015): 187-197.; 및 Malinin, Nikolay L., et al. "Defining genome-wide CRISPR-Cas genome-editing nuclease activity with GUIDE-seq." Nature Protocols 16.12 (2021): 5592-5615.] 참조) 으로부터의 프로토콜을 사용하여 처리하였다. 이전 분석 (문헌 [Kim, Do Yon, et al. "Unbiased investigation of specificities of prime editing systems in human cells." Nucleic acids research 48.18 (2020): 10576-10589.] 참조)에서, HEK4를 표적하는 pegRNAs는 다른 부위를 표적하는 pegRNA들과 비교하였을 때 다수의 검증된 비표적 부위와 관련이 있었다. 이에, 본 출원의 발명자들은 HEK4 부위를 케이스 스터디로써 사용하여 TAPE-seq 프로토콜을 최적화하였다.
먼저, 본 출원의 발명자들은 MiSeq 및 HiSeq으로, PE2 및 HEK4 (+2 G to T) pegRNA 및 PE2를 암호화하는 플라스미드로 세포를 형질감염시킨 후 생성된 동일한 게놈 DNA풀로 만든 TAPE-seq 라이브러리를 분석하였다. 결과는 벤다이어그램 (도 26)을 통해 요약된다. 구체적으로, 도 26은 검증된 부위 및 TAPE-seq에 의해 예측된 HEK4-targeted pegRNA의 오프 타겟 사이트에 대한 비교 결과를 나타내는 벤다이어그램을 개시한다. 도 26에서, HEK4 (+2 G to T) 의 검증된 사이트; Mi-seq을 사용하여 TAPE-seq에 의해 예측된 HEK4 (+2 G to T)의 오프 타겟 사이트; 및 Hi-seq을 사용하여 TAPE-seq에 의해 예측된 HEK4 (+2 G to T)의 오프 타겟 사이트에 대한 비교 결과가 개시된다.
HiSeq (53,771,178 reads)은 더 많은 오프타겟 사이트를 밝혀내지 않았으며, 이는 MiSeq의 리드 수 (2,251,379 reads)가 이 분석에 충분히 크다는 것을 나타낸다.
나아가, 본 출원의 발명자들은 HEK4 (+2 G to T) pegRNA 및 HEK4 (+3 TAA ins) pegRNA에 대한 결과를 비교하였다. 결과는 도 27 내지 도 28에 개시된다. 구체적으로, 도 27 내지 도 28은 검증된 부위 및 TAPE-seq에 의해 예측된 HEK4-targeted pegRNA의 오프 타겟 사이트에 대한 비교 결과를 나타내는 벤다이어그램을 개시한다.
도 27과 관련하여, HEK4 (+3 TAA ins)의 검증된 사이트; Mi-seq을 사용하여 TAPE-seq에 의해 예측된 HEK4 (+2 G to T)의 오프 타겟 사이트와 Hi-seq을 사용하여 TAPE-seq에 의해 예측된 HEK4 (+2 G to T)의 오프 타겟 사이트의 결합; 및 TAPE-seq에 의해 예측된 HEK4 (+3 TAA ins) (Mi-seq)의 오프 타겟 사이트에 대한 비교 결과가 개시된다.
도 28과 관련하여, HEK4 (+2 G to T)의 검증된 사이트; Mi-seq을 사용하여 TAPE-seq에 의해 예측된 HEK4 (+2 G to T)의 오프 타겟 사이트와 Hi-seq을 사용하여 TAPE-seq에 의해 예측된 HEK4 (+2 G to T)의 오프 타겟 사이트의 결합; 및 TAPE-seq에 의해 예측된 HEK4 (+3 TAA ins) (Mi-seq)의 오프 타겟 사이트에 대한 비교 결과가 개시된다.
벤다이어그램에 요약된 결과는, HEK4 (+2 G to T) pegRNA가 처리된 샘플의 TAPE-seq 분석이 HEK4 (+3 TAA ins) pegRNA의 TAPE-seq 분석에서 놓친 HEK4 (+3 TAA ins) pegRNA에 대한 검증된 오프 타겟을 정확히 예측하였음을 보여준다. 벤다이어그램에 요약된 결과는 또한 HEK4 (+3 TAA ins) pegRNA가 처리된 샘플의 TAPE-seq 분석이 HEK4 (+2 G to T) pegRNA의 TAPE-seq 분석에서 놓친 HEK4 (+2 G to T) pegRNA에 대한 검증된 오프 타겟을 정확히 예측하였음을 보여준다.
본 출원의 발명자들은 HEK4 (+2 G to T) pegRNA의 오프 타겟 프로파일이 HEK4 (+3 TAA ins) pegRNA과 유사할 것이라고 추측하였다. 그래서, 이 두 샘플간의 TAPE-seq 결과의 차이는, HEK4 (+2 G to T) pegRNA 처리 이후의 HiSeq 및 MiSeq 샘플들에서 발견된 동일한 복제 이슈(replication issue) (즉, 오프 타겟 사이트의 낮은 태그맨테이션 율)로부터 야기될 수 있을 것으로 추측하였다. 따라서, 본 출원의 발명자들은 이후 분석을 위해 HEK4 pegRNA에 대한 TAPE-seq 결과의 세가지 세트인 HEK4 (+2 G to T) pegRNA MiSeq TAPE-seq 결과, HEK4 (+2 G to T) pegRNA HiSeq TAPE-seq 결과, 및 HEK4 (+3 TAA ins) pegRNA TAPE-seq 결과를 모두 결합하였다.
TAPE-seq 예측 결과와 GUIDE-seq 및 nDigenome-seq의 비교
TAPE-seq 분석은 10개의 서로 다른 pegRNAs에 대해 최적화된 프로토콜로 수행되었으며, GUIDE-seq 및 nDigenome-seq에 의한 이전(previous) 예측과 비교되었다 (분석 데이터 2 및 분석 데이터 3, 표 01 내지 표 11 참고). 검증 실험은 TAPE-seq을 사용하여 예측된 모든 오프 타겟 후보들에 대해 수행되었다. TAPE-seq은 PE2 및 적절한 pegRNA를 안정적으로 발현하는 HEK293T 세포주에 대해 수행되었다 (분석 데이터 4, 표 12 내지 표 16 참고). 거짓 양성으로 확인된 nDigenome-seq에서 식별된 일부의 표적들은 본 출원에 개시된 실험에서는 검증된 것으로 확인되었다 (분석 데이터 5, 표 17 내지 표 26 참고). 이러한 결과는 nDigineme-seq 검증 실험에서 사용된 일시적인 형질감염(96시간)과 비교되는 본 프로토콜의 연장된 배양 기간 (4주) 때문일 수 있다.
본 출원의 발명자는, TAPE-seq에서 놓친 경우라도, 이전 논문의 방법에 의해 식별된 검증된 표적 유전자좌에 대해서도 검증 실험을 수행하였다. 벤 다이어그램은 TAPE-seq, GUIDE-seq, 및 nDigenome-seq 각각의 방법에 의해 예측된 오프 타겟 부위, 그리고 검증된 부위에 대한 결과를 요약하여 보여준다 (도 29 내지 도 38). TAPE-seq과 다른 오프 타겟 예측 방법의 비교 결과는 도 29 내지 도 38에 개시된다. 구체적으로, 도 29 내지 도 38은 nDigenome-seq, GUIDE-seq, 및 TAPE-seq에 의해 예측된 오프 타겟 사이트, 및 검증된 오프 타겟 사이트에 대한 비교 결과를 벤다이어그램을 통해 나타낸다 (도 29 내지 도 38에서, 몇몇의 숫자는 이웃하는 숫자와 구분하기 위해 밑줄을 통해 표시되었다). 도 29는 HEK4 (+2 G to T) pegRNA에 대한 결과를 나타낸다. 도 30은 HEK4 (+3 TAA ins) pegRNA에 대한 결과를 나타낸다. 도 31은 EMX1 (+5 G to T) pegRNA에 대한 결과를 나타낸다. 도 32는 FANCF (+6 G to C) pegRNA에 대한 결과를 나타낸다. 도 33은 HEK3 (+1 CTT ins) pegRNA에 대한 결과를 나타낸다. 도 34는 RNF2 (+6 G to A) pegRNA에 대한 결과를 나타낸다. 도 35는 DNMT1 (+6 G to C) pegRNA에 대한 결과를 나타낸다. 도 36은 HBB (+4 A to T) pegRNA에 대한 결과를 나타낸다. 도 37은 RUNX1 (+6 G to C) pegRNA에 대한 결과를 나타낸다. 도 38은 VEGFA (+5 G to T) pegRNA에 대한 결과를 나타낸다.
도 29 내지 도 38의 결과와 관련된, 각 예측 방법에서 놓친 검증된 오프 타겟을 나타내는 결과는 도 39에서 그래프를 통해 개시된다. 구체적으로, 도 39는 nDigenome-seq(n=10개, 독립적인 실험), GUIDE-seq (n=6, 독립적인 실험) 및 TAPE-seq(n=10개, 독립적인 실험)에서 놓친 검증된 오프 타겟에 대한 결과를 개시한다 (바는 mean을 나타냄, 에러 바는 표준 편차를 나타냄).
TAPE-seq은 GUIDE-seq 및 nDigenome-seq 보다 훨씬 적은 수의 오프 타겟을 예측하였다. 나아가, TAPE-seq은 다른 방법들보다 검증된 오프 타겟 사이트를 더 적게 놓쳤다. 이는 TAPE-seq을 이용한 예측이 더 높은 정확도를 나타냄을 시사한다.
PE2 및 PE4를 사용한 TAPE-seq 분석, 및 상이한 세포주에서의 TAPE-seq 분석
이후 버전의 PE가 개발되었으며 이전 버전보다 더 높은 프라임 에디팅 효율을 나타내는 것으로 보고되고 있다. PE4는 PE2의 변형된 버전으로, 미스매치 수선을 억제하기 위한 우성 음성 MLH1(dominant negative MLH1)을 암호화하는 플라스미드를 포함함으로 인해 더 높은 프라임 에디팅 효율을 나타내는 것으로 보고되었다 (문헌 [Chen, Peter J., et al. "Enhanced prime editing systems by manipulating cellular determinants of editing outcomes." Cell 184.22 (2021): 5635-5652.] 참조).
본 출원의 발명자들은 HEK293T, HeLa, 및 K562 세포에서 PE2 및 PE4를 사용하여 TAPE-seq을 수행하였다 (분석 데이터 2, 표 02 내지 표 10 참고). 3개의 세포주에서, HEK4 (+2 G to T) pegRNA의 온타겟, 및 오프타겟 유전자좌 중 하나에서 태그맨테이션율에 유의한 차이가 보이지 않았다. 결과는 도 40에 개시된다. 구체적으로, 도 40 (a)는 HeLa, K562, 및 HEK293T 세포 및 HEK4 (+2 G to T) pegRNA을 대상으로 진행된, TAPE-seq에 의해 분석된 온타겟 사이트의 태그맨테이션율을 개시한다 (각각, PE2 사용 및 PE4 사용). 도 40 (b)는 HeLa, K562, 및 HEK293T 세포 및 HEK4 (+2 G to T) pegRNA을 대상으로 진행된, TAPE-seq에 의해 분석된 오프 타겟 사이트 1의 태그맨테이션율을 개시한다 (각각, PE2 사용 및 PE4 사용).
표적화된 딥 시퀀싱 (targeted deep sequencing)을 통해 예측된 오프 타겟 부위에 대한 검증이 수행되었다. 결과는 벤다이어그램으로 표현되었으며 도 41 내지 도 43에 개시된다. 구체적으로, 도 41 내지 도 43는 PE2-형질감염된 세포주에서의 검증된 오프 타겟 사이트, PE2를 사용한 TAPE-seq에 의해 예측된 오프 타겟 사이트, 및 PE4를 사용한 TAPE-seq에 의해 예측된 오프 타겟 사이트에 대한 비교 결과를 개시한다. 도 41 (a)는 HEK4 (+2 G to T) pegRNA 및 HEK293T 세포에 대한 결과이다. 도 41 (b)는 HEK4 (+3 TAA ins) pegRNA 및 HEK293T 세포에 대한 결과이다. 도 42 (a)는 HEK4 (+2 G to T) pegRNA 및 HeLa 세포에 대한 결과이다. 도 42 (b)는 HEK4 (+3 TAA ins) pegRNA 및 HeLa 세포에 대한 결과이다. 도 43 (a)는 HEK4 (+2 G to T) pegRNA 및 K562 세포에 대한 결과이다. 도 43 (b)는 HEK4 (+3 TAA ins) pegRNA 및 K562 세포에 대한 결과이다.
도 44 (a)는, 도 41 내지 도 43과 관련된 각 샘플별 놓친 표적 사이트 수의 요약을 그래프를 통해 개시한다 (바는 mean을 나타냄; 에러 바는 표준편차를 나타냄; n=6, 독립적인 실험에 대해). 즉, 도 44 (a)는 PE2 사용 샘플과 PE4 사용 샘플에 대해 놓친 표적의 수를 나타낸다.
도 44 (b)는, 도 41 내지 도 43과 관련된 각 세포별 놓친 표적 사이트 수의 요약을 그래프를 통해 개시한다 (바는 mean을 나타냄; 에러 바는 표준편차를 나타냄; n=6, 독립적인 실험에 대해). 즉, 도 44 (b)는 HEK293T, HeLa, 및 K562에 대해 놓친 표적의 수를 나타낸다. HEK293T 세포에서 수행된 TAPE-seq은 다른 두 세포주에서의 분석과 비교하여 검증된 오프타겟 위치를 더 적게 놓쳤다.
다음으로, 본 발명자들은 HEK293T, HeLa 및 K562 세포주에서 후보 오프 타겟 위치가 검증될 수 있는지 여부를 결정하고, 검증 결과를 Venn 다이어그램을 사용하여 각 세포주에 대한 TAPE-seq 예측과 비교했다. 결과는 도 45 내지 도 47에 개시된다. 구체적으로, 도 45 내지 도47은 TAPE-seq에 의해 예측된 오프 타겟 사이트와 검증된 사이트를 비교한 결과를 나타낸다. 도 45 (a)는 HEK293T 세포에서의 HEK4 (+2 G to T) pegRNA에 대한 검증 결과와, 각 세포에서의 PE2 프라임 에디터 단백질을 사용한 TAPE-seq을 통한 예측 결과를 나타낸다. 도 45 (b)는 HEK293T 세포에서 HEK4 (+3 TAA ins) pegRNA에 대한 검증 결과와, 각 세포에서의 TAPE-seq을 통한 예측 결과를 나타낸다. 도 46 (a)는 HeLa에서 HEK4 (+2 G to T) pegRNA에 대한 검증 결과와, 각 세포에서의 TAPE-seq을 통한 예측 결과를 나타낸다. 도 46 (b)는 HeLa 세포에서 HEK4 (+3 TAA ins) pegRNA에 대한 검증 결과와, 각 세포에서의 TAPE-seq을 통한 예측 결과를 나타낸다. 도 47 (a)는 K562 세포에서 HEK4 (+2 G to T) pegRNA에 대한 검증 결과와, 각 세포에서의 TAPE-seq을 통한 예측 결과를 나타낸다. 도 47 (b)는 K562 세포에서 HEK4 (+3 TAA ins) pegRNA에 대한 검증 결과와, 각 세포에서의 TAPE-seq을 통한 예측 결과를 나타낸다. 유효(검증된) 오프타겟 사이트는, HEK293T 세포에 비해 HeLa 및 K562 세포에서 훨씬 적었다.
나아가, 일부 세포주에서 오직 몇 개의 오프타겟 사이트만이 TAPE-seq에 의해 누락되었다. 결과는 도 48에 개시된다. 구체적으로, 도 48은 각 세포 유형 내에서 놓친 오프 타겟 사이트의 수에 대한 결과를 나타낸다 (바는 mean을 나타냄; 에러 바는 표준 편차를 나타냄; n=2, 그래프 내에서 점으로 표시되는 독립적인 실험에 대해).
본 발명자들은 각 세포주의 TAPE-seq 예측이 정확하다고 추측하였다. 또한, HEK293T 세포주를 사용하여 만든 TAPE-seq 예측은 HeLa 및 K562 세포에 대한 모든 검증된 오프타겟 위치를 발견하였다. 따라서 후속 실험에서 HEK293T 세포를 사용했다. 후술되는 실험에서, 세포의 종류에 대해 별도로 언급되지 않는 경우, HEK293T 세포가 사용된 것으로 이해될 것이다.
PE2-뉴클레아제 및 epegRNA를 사용하는 PEmax-뉴클레아제를 이용한 TAPE-seq 분석
Cas9 닉카제 대신 야생형 Cas9 뉴클레아제를 포함하는 프라임 에디터 뉴클레아제 또한 PE2보다 높은 프라임 에디팅 효율을 보이는 것으로 보고되고 있다 (문헌 [Adikusuma, Fatwa, et al. "Optimized nickase-and nuclease-based prime editing in human and mouse cells." Nucleic acids research 49.18 (2021): 10785-10795.] 참조). 본 출원의 발명자들은 이러한 프라임 에디터 뉴클레아제의 사용이 오프 타겟 유전자좌에서 더 높은 태그화 비율을 초래하여, 오프 타겟 유전자좌를 식별하기 위한 TAPE-seq의 성공율을 증가시킬 것이라고 추론하였다. 본 출원의 발명자들은 PE2 프라임 에디터의 개량된 버전인 PE2-뉴클레아제 및 PEmax-뉴클레아제를 사용하여 TAPE-seq을 수행하고 결과를 확인하였다. PEmax-뉴클레아제는 epegRNA와 함께 사용되었다. 이하의 실험에서 사용된 PE2-뉴클레아제 및 PEmax-뉴클레아제는 각각 다음의 구조를 갖는다:
PE2-뉴클레아제:
[bpNLS(SV40)]-[SpCas9 (WT)]-[SGGSx2-XTEN16-SGGSx2]-[MMLV RT]-[bpNLS(SV40)].
PEmax-뉴클레아제:
[bpNLS(SV40)]-[SpCas9 (R221K)(N394K)]-[SGGSx2-bpNLS(SV40)-SGGSx2]-[MMLV RT(codon opt.)]-[bpNLS(SV40)]-[NLS(c-Myc)].
여기서, "bpNLS(SV40)"은 이분 (bipartite) SV40 NLS (문헌 [Chen, Peter J., et al. "Enhanced prime editing systems by manipulating cellular determinants of editing outcomes." Cell 184.22 (2021): 5635-5652.; 및 Wu, Jianrong, Anita H. Corbett, and Keith M. Berland. "The intracellular mobility of nuclear import receptors and NLS cargoes." Biophysical journal 96.9 (2009): 3840-3849.] 참조)를 나타내고, "MMLV RT"는 몰로니 뮤린 류케미아 바이러스 RT 펜타뮤턴트 (Moloney murine leukemia virus RT pentamutant) (MMKV RT_D200N, T306K, W313F, T330P, 및 L603W)를 나타내고, "codon opt."는 인간 코돈 최적화되었음을 나타내며, "NLS(c-Myc)"는 c-Myc NLS (문헌 [Chen, Peter J., et al. "Enhanced prime editing systems by manipulating cellular determinants of editing outcomes." Cell 184.22 (2021): 5635-5652.; 및 Dang, Chi V., and WMk Lee. "Identification of the human c-myc protein nuclear translocation signal." Molecular and cellular biology 8.10 (1988): 4048-4054.] 참조)를 나타낸다.
최적화 실험은 PE2-뉴클레아제 (문헌 [Adikusuma, Fatwa, et al. "Optimized nickase-and nuclease-based prime editing in human and mouse cells." Nucleic acids research 49.18 (2021): 10785-10795.] 참조) 및 조작된 pegRNA (engineered pegRNA, epegRNA)를 사용하는 PEmax-뉴클레아제 (문헌 [Chen, Peter J., et al. "Enhanced prime editing systems by manipulating cellular determinants of editing outcomes." Cell 184.22 (2021): 5635-5652.; 및 Nelson, James W., et al. "Engineered pegRNAs improve prime editing efficiency." Nature biotechnology 40.3 (2022): 402-410.] 참조)에 대해 일시적인 (transient) 형질감염이 충분하다는 것을 보여주었다. 나아가, PE2로 수행된 TAPE-seq에서 확인된 것과 비교하여 더 높은 태그맨테이션율을 보이는 것이 확인되었다. 결과는 도 49에 개시된다. 구체적으로, 도 49는 PE2, PE2-뉴클레아제, 및 epegRNA와 함께 사용된 PEmax-뉴클레아제를 사용한 TAPE-seq 각각의 태그맨테이션율에 대한 결과를 개시한다. HEK4 온타겟 사이트 및 다양한 오프 타겟 사이트에 대해서 태그맨테이션율이 확인되었다 (two-sided unpaired student t-test; n=3, 독립적인 형질감염에 대해서).
PE2-뉴클레아제, 및 epegRNA를 사용하는 PEmax-뉴클레아제(즉, epegRNA 및 PEmax-뉴클레아제를 사용하는 프라임 에디팅 시스템)의 온타겟 태그맨테이션율이 PE2보다 상당히 높은 것이 확인되었다 (도 49). PE2-뉴클레아제에 대해서는 오직 1110 온타겟 TAPE-seq 리드가 있었으며 epegRNA와 함께하는 PEmax-뉴클레아제에 대해서는 906 온타겟 TAPE-seq 리드가 있었다. 이는 PE2 샘플 (2주) 에서의 62565 리드와 비교된다 (분석 데이터 2, 표 02 내지 표 10 참고). PE2-뉴클레아제 및 epegRNA를 사용하는 PEmax-뉴클레아제는 PE2 (2주) 샘플에서 식별된 8개의 후보에 비해 각각 30개 및 27개의 후보를 식별하였다.
본 출원의 발명자들은 10개의 다른 pegRNA에 대해, PE2-뉴클레아제, 및 epegRNA를 함께 사용하는 PEmax-뉴클레아제 각각을 사용하여 TAPE-seq을 수행하였다. 그리고 PE2를 사용한 TAPE-seq 결과와 벤다이어그램을 통해 비교하였다. 비교 결과는 도 50 내지 도 54에 개시된다. 구체적으로, 도 50 내지 도 54는 PEmax 뉴클레아제 및 epegRNA를 사용하는 프라임 에디팅 시스템을 사용한 TAPE-seq 결과, PE2를 사용하는 TAPE-seq 결과, 및 PE2-뉴클레아제를 사용하는 TAPE-seq 결과, 그리고 검증된 오프 타겟 사이트들을 벤다이어그램을 통해 개시한다. 도 50은 HEK4 (+2 G to T) pegRNA (또는 epegRNA)에 대한 결과, 및 HEK4 (+3 TAA ins) pegRNA에 대한 결과를 개시한다. 도 50과 관련하여, PE2 TAPE-seq은 HEK4 (+2 G to T) pegRNA의 PE2 TAPE-seq 결과 및 HEK4 (+3 TAA ins) pegRNA의 PE2 TAPE-seq 결과의 합을 나타낸다. 도 51은 HBB (+4 A to T) pegRNA에 대한 결과, 및 DNMT1 (+6 G to C) pegRNA에 대한 결과를 개시한다. 도 52는 VEGFA (+5 G to T) pegRNA에 대한 결과, 및 EMX1 (+5 G to T) pegRNA에 대한 결과를 개시한다. 도 53은 FANCF (+6 G to C) pegRNA에 대한 결과, 및 HEK3 (+1 CTT ins) pegRNA에 대한 결과를 개시한다. 도 54는 RNF2 (+6 G to A) pegRNA, 및 RUNX1 (+6 G to C) pegRNA에 대한 결과를 개시한다.
나아가, 본 출원의 발명자들은 epegRNA를 사용하는 PEmax-뉴클레아제의 TAPE-seq 결과와 GUIDE-seq 및 nDigenome-seq의 예측 결과를 벤다이어그램을 통해 비교하였다. 결과는 도 55 내지 도 59에 개시된다. 구체적으로, 도 55 내지 도 59는 nDigenome-seq, GUIDE-seq, TAPE-seq(PEmax-뉴클레아제 및 epegRNA를 사용함)의 오프 타겟 예측 결과, 및 오프 타겟의 검증 결과를 비교한 결과를 개시한다. 도 55는 HEK4 (+2 G to T) pegRNA에 대한 결과, 및 HEK4 (+3 TAA ins) pegRNA에 대한 결과를 개시한다. 도 56은 HBB (+4 A to T) pegRNA에 대한 결과, 및 DNMT1 (+6 G to C) pegRNA에 대한 결과를 개시한다. 도 57은 VEGFA (+5 G to T) pegRNA에 대한 결과, 및 EMX1 (+5 G to T) pegRNA에 대한 결과를 개시한다. 도 58은 FANCF (+6 G to C) pegRNA에 대한 결과, 및 HEK3 (+1 CTT ins) pegRNA에 대한 결과를 개시한다. 도 59는 RNF2 (+6 G to A) pegRNA에 대한 결과, 및 RUNX1 (+6 G to C) pegRNA에 대한 결과를 개시한다. 편의상, epegRNA는, pegRNA의 개량된 버전이기 때문에, pegRNA로 지칭되었다.
본 출원의 발명자들은 PE2, PE2-뉴클레아제, 및 epegRNA와 함께 사용되는 PEmax-뉴클레아제를 사용하여 수행된 TAPE-seq의 미스율을 비교하였다. 10개의 다른 pegRNA(도 50 내지 도 59에서 사용된 pegRNA)에 대해 미스율이 비교되었다. 나아가, GUIDE-seq 및 nDigenome-seq의 결과와 비교되었다 (분석 데이터 6, 표 27 내지 표 35 참고) (도 60 참고). 여기서, 미스율은 예측 방법에서 놓친 검증된 오프타겟 사이트의 수를 검증된 오프타겟 사이트의 총 수로 나눈 값으로 정의되었다. 결과는 도 60에 개시된다. 구체적으로, GUIDE-seq, nDigenome-seq, TAPE-seq (PE2), TAPE-seq (PE2-nuclease), 및 TAPE-seq (PEmax-nuclease 및 epegRNA 사용) 각각의 예측 방법의 미스율이 비교되었다 (바는 mean을 나타냄; 에러바는 표준 편차를 나타냄). 도 60에서, 각각의 pegRNA에 대한 결과가 점으로 표시되었다 (GUIDE-seq에서의 n=6, 독립적인 실험에 대해; 나머지에서는 n=10, 독립적인 실험에 대해).
epegRNA와 함께 사용되는 PEmax-뉴클레아제를 사용하는 TAPE-seq이 가장 낮은 미스율을 보였다. 도 39의 결과와 비교하여 PE2에 대한 누락된 검증된 오프 타겟 사이트에 대한 결과가 증가했음을 유의해야한다. 이는 PE2-뉴클레아제 및 epegRNA와 함께 사용되는 PEmax-뉴클레아제를 사용한 TAPE-seq에서 새로운 검증된 오프 타겟 사이트들이 확인되었기 때문이다.
TAPE-seq의 ROC 커브 분석
ROC 곡선 (receiver operating characteristic curve)은 이진 분류기(binary classifier)의 진단 능력을 보여주는 플롯이다. 본 출원의 발명자들은 PE2, PE2-뉴클레아제, 및 PE2-뉴클레아제 with epegRNAs를 사용한 TAPE-seq 분석에 대한 ROC 커브를 구성하였다. 이는 GUIDE-seq 및 nDigenome-seq과 비교되었다. 본 출원의 발명자들은 ROC 커브에 대한 비교를 통해 각 방법의 진단 능력을 정량적으로 비교할 수 있다고 추론하였다. TAPE-seq의 매트릭(copy number)의 진단 능력이 GUIDE-seq (copy number) 및 nDigenome-seq (DNA cleavage score)과 비교되었다. 각 오프 타겟 예측 방법에 대한 ROC 커브의 분석 결과는 도 61 내지 도 66에 개시된다. 구체적으로, GUIDE-seq, nDigenome-seq, TAPE-seq (PE2), TAPE-seq (PE2-nuclease), 및 TAPE-seq (PEmax-nuclease 및 epegRNA) 예측 방법의 ROC 커브 결과가 도 61 내지 도 66에 개시된다. 도 61은 HEK4 (+2 G to T) pegRNA에 대한 결과 및 HEK4 (+3 TAA ins) pegRNA에 대한 결과를 나타낸다. 도 62는 HBB (+4 A to T) pegRNA에 대한 결과 및 DNMT1 (+6 G to C) pegRNA에 대한 결과를 나타낸다. 도 63은 HEK3 (+1 CTT ins) pegRNA에 대한 결과를 나타낸다. 도 64는 EMX1 (+5 G to T) pegRNA에 대한 결과 및 FANCF (+6 G to C) pegRNA에 대한 결과를 나타낸다. 도 65는 RNF2 (+6 G to A) pegRNA에 대한 결과 및 RUNX1 (+6 G to C) pegRNA에 대한 결과를 나타낸다. 도 66은 VEGFA (+5 G to T) pegRNA에 대한 결과를 나타낸다. 편의상 epegRNA 또한 pegRNA로 표현되었다.
ROC 커브 분석 결과를 바탕으로, 각 오프 타겟 예측 방법에 대해 ROC 커브의 아래 면적 (area under the ROC curves, AUC)이 계산되었다. 결과는 도 67에 개시된다 (바는 mean을 나타냄; 에러바는 표준 편차를 나타냄). 도 67에서, 각각의 pegRNA에 대한 결과가 점으로 표시되었다 (GUIDE-seq에서의 n=6, 독립적인 실험에 대해; 나머지에서는 n=10, 독립적인 실험에 대해).
각 오프 타겟 예측 방법에 대한 AUC를 서로 비교했을 때, epegRNA와 함께 사용되는 PEmax-뉴클레아제를 사용한 TAPE-seq 결과가 가장 높은 값을 보였다. 이러한 결과는 TAPE-seq metric이 GUIDE-seq 및 nDigenome-seq에 비해 오프 타겟 부위의 예측에 있어 우수한 진단 능력을 보인다는 것을 시사한다.
검증된 오프 타겟 사이트에서의 에디팅 패턴
표적화된 딥시퀀싱 결과의 비교를 통해 모든 검증된 오프 타겟 사이트의 에디팅 패턴 (편집 패턴)이 분석되었다 (도 68 내지 도 87 참고). pegRNA로 HEK4 (+2 G to T) pegRNA, HEK4 (+3 TAA ins) pegRNA, HBB (+4 A to T) pegRNA, DNMT1 (+6 G to C) pegRNA, VEGFA (+5 G to T) pegRNA 가 사용되었으며, 프라임 에디팅 시스템으로 PE2, PE2-뉴클레아제, 및 epegRNA와 함께 사용되는 PEmax-뉴클레아제가 사용되었다. 나아가, HEK293T, HeLa, 및 K562 세포에서 수행되었다.
TAPE-seq에 의해 예측된 HEK4-off3 사이트에서의 HEK4 (+3 TAA ins) pegRNA에 의해 유도된 편집 패턴은 도 68에 개시된다 (바는 mean을 나타냄; 에러 바는 표준편차를 나타냄; n=3, 독립적인 형질감염에 대해; two-sided unpaired student t-test). NC는 음성 대조군을 나타낸다. 소문자는 pegRNA와 비교했을 때의 미스매치를 나타낸다. 서열 비교의 편의상, 도면에서 pegRNA로 표시된 pegRNA의 서열은 온타겟 서열을 기준으로 표시되었다. 즉, WT 서열의 소문자는 pegRNA의 스페이서 및 PAM과 대응되는 온타겟의 서열과 비교했을 때의 미스매치를 나타낸다. 주 편집된 비율(Major edited rate)은 편집된 서열의 빈도에 대응한다.
TAPE-seq에 의해 예측된 HEK-off7, HEK-off10, 및 HEK-off22 사이트에서의 HEK4 (+2 G to T) pegRNA에 의해 유도된 편집 패턴은 도 69 내지 도 71에 개시된다 (바는 mean을 나타냄; 에러 바는 표준편차를 나타냄; n=3, 독립적인 형질감염에 대해; two-sided unpaired student t-test). NC는 음성 대조군을 나타낸다. 소문자는 pegRNA와 비교했을 때의 미스매치를 나타낸다. 서열 비교의 편의상, 도면에서 pegRNA로 표시된 pegRNA의 서열은 온타겟 서열을 기준으로 표시되었다. 주 편집된 비율(Major edited rate)은 편집된 서열의 빈도에 대응한다.
도 72 내지 도 75는 HEK4 (+2 G to T) pegRNA와 관련된 검증된 오프 타겟 사이트에서의 편집 패턴에 대한 결과를 개시한다 (바는 mean을 나타냄; 에러 바는 표준편차를 나타냄; n=3, 독립적인 형질감염에 대해; two-sided unpaired student t-test). NC는 음성 대조군을 나타낸다. 소문자는 pegRNA와 비교했을 때의 미스매치를 나타낸다. 서열 비교의 편의상, 도면에서 pegRNA로 표시된 pegRNA의 서열은 온타겟 서열을 기준으로 표시되었다. 주 편집된 비율(Major edited rate)은 편집된 서열의 빈도에 대응한다.
도 76은 HBB (+4 A to T) pegRNA과 관련된 검증된 오프 타겟 사이트에서의 편집 패턴에 대한 결과를 개시한다 (바는 mean을 나타냄; 에러 바는 표준편차를 나타냄; n=3, 독립적인 형질감염에 대해; two-sided unpaired student t-test). NC는 음성 대조군을 나타낸다. 소문자는 pegRNA와 비교했을 때의 미스매치를 나타낸다. 서열 비교의 편의상, 도면에서 pegRNA로 표시된 pegRNA의 서열은 온타겟 서열을 기준으로 표시되었다. 주 편집된 비율(Major edited rate)은 편집된 서열의 빈도에 대응한다.
도 77 내지 도 80은 HEK4 (+3 TAA ins) pegRNA와 관련된 검증된 오프 타겟 사이트에서의 편집 패턴에 대한 결과를 개시한다 (바는 mean을 나타냄; 에러 바는 표준편차를 나타냄; n=3, 독립적인 형질감염에 대해; two-sided unpaired student t-test). NC는 음성 대조군을 나타낸다. 소문자는 pegRNA와 비교했을 때의 미스매치를 나타낸다. 서열 비교의 편의상, 도면에서 pegRNA로 표시된 pegRNA의 서열은 온타겟 서열을 기준으로 표시되었다. 주 편집된 비율(Major edited rate)은 편집된 서열의 빈도에 대응한다.
도 81 내지 도 82는 HeLa 세포에서의 결과를 개시한다. 구체적으로, HEK4 (+3 TAA ins) pegRNA, 및 HEK4 (+2 G to T) pegRNA에 대한 결과를 개시한다 (바는 mean을 나타냄; 에러 바는 표준편차를 나타냄; n=3, 독립적인 형질감염에 대해; two-sided unpaired student t-test). NC는 음성 대조군을 나타낸다. 소문자는 pegRNA와 비교했을 때의 미스매치를 나타낸다. 서열 비교의 편의상, 도면에서 pegRNA로 표시된 pegRNA의 서열은 온타겟 서열을 기준으로 표시되었다. 주 편집된 비율(Major edited rate)은 편집된 서열의 빈도에 대응한다.
도 83 내지 도 84는 K562 세포에서의 결과를 개시한다. 구체적으로, HEK4 (+3 TAA ins) pegRNA, 및 HEK4 (+2 G to T) pegRNA에 대한 결과를 개시한다 (바는 mean을 나타냄; 에러 바는 표준편차를 나타냄; n=3, 독립적인 형질감염에 대해; two-sided unpaired student t-test). NC는 음성 대조군을 나타낸다. 소문자는 pegRNA와 비교했을 때의 미스매치를 나타낸다. 서열 비교의 편의상, 도면에서 pegRNA로 표시된 pegRNA의 서열은 온타겟 서열을 기준으로 표시되었다. 주 편집된 비율(Major edited rate)은 편집된 서열의 빈도에 대응한다.
도 85 내지 도 87은 PEmax-뉴클레아제를 사용하여 수행된 TAPE-seq의 검증된 오프 타겟 사이트에서의 편집 패턴에 대한 결과를 개시한다. 구체적으로, HEK4 (+2 G to T) pegRNA, DNMT1 (+6 G to C) pegRNA, HBB (+4 A to T) pegRNA, 및 VEGFA (+5 to T) pegRNA에 대한 결과를 개시한다 (바는 mean을 나타냄; 에러 바는 표준편차를 나타냄; n=3, 독립적인 형질감염에 대해; two-sided unpaired student t-test). NC는 음성 대조군을 나타낸다. 소문자는 pegRNA와 비교했을 때의 미스매치를 나타낸다. 서열 비교의 편의상, 도면에서 pegRNA로 표시된 pegRNA의 서열은 온타겟 서열을 기준으로 표시되었다. 주 편집된 비율(Major edited rate)은 편집된 서열의 빈도에 대응한다.
도 68 내지 도 87에 개시된 서열과 관련하여, 다음과 같이 서열번호가 할당되었다. 각 서열에서 bulge를 나타내는 "-"가 있는 경우, "-"가 생략된 서열이 서열목록에 개시되었다.
도 68의 WT로 표시된 서열에 서열번호 153, 편집된으로 표시된 서열에 서열번호 154, pegRNA로 표시된 서열에 서열번호 155가 할당되었다.
도 69의 WT로 표시된 서열에 서열번호 156, 편집된으로 표시된 서열에 서열번호 157, pegRNA로 표시된 서열에 서열번호 158가 할당되었다.
도 70의 WT로 표시된 서열에 서열번호 159, 편집된으로 표시된 서열에 서열번호 160, pegRNA로 표시된 서열에 서열번호 161가 할당되었다.
도 71의 WT로 표시된 서열에 서열번호 162, 편집된으로 표시된 서열에 서열번호 163, pegRNA로 표시된 서열에 서열번호 164가 할당되었다.
도 72의 HEK4-off1와 관련하여, WT로 표시된 서열에 서열번호 165, 편집된으로 표시된 서열에 서열번호 166, pegRNA로 표시된 서열에 서열번호 167이 할당되었다.
도 72의 HEK4-off2와 관련하여, WT로 표시된 서열에 서열번호 168, 편집된으로 표시된 서열에 서열번호 169, pegRNA로 표시된 서열에 서열번호 170이 할당되었다.
도 73의 HEK4-off4와 관련하여, WT로 표시된 서열에 서열번호 171, 편집된으로 표시된 서열에 서열번호 172, pegRNA로 표시된 서열에 서열번호 173이 할당되었다.
도 73의 HEK4-off6와 관련하여, WT로 표시된 서열에 서열번호 174, 편집된으로 표시된 서열에 서열번호 175, pegRNA로 표시된 서열에 서열번호 176이 할당되었다.
도 74의 HEK4-off7와 관련하여, WT로 표시된 서열에 서열번호 177, 편집된으로 표시된 서열에 서열번호 178, pegRNA로 표시된 서열에 서열번호 179이 할당되었다.
도 74의 HEK4-off10와 관련하여, WT로 표시된 서열에 서열번호 180, 편집된으로 표시된 서열에 서열번호 181, pegRNA로 표시된 서열에 서열번호 182이 할당되었다.
도 75의 HEK4-off12와 관련하여, WT로 표시된 서열에 서열번호 183, 편집된으로 표시된 서열에 서열번호 184, pegRNA로 표시된 서열에 서열번호 185이 할당되었다.
도 76의 HBB-off1와 관련하여, WT로 표시된 서열에 서열번호 186, 편집된으로 표시된 서열에 서열번호 187, pegRNA로 표시된 서열에 서열번호 188이 할당되었다.
도 77의 HEK4-off1와 관련하여, WT로 표시된 서열에 서열번호 189, 편집된으로 표시된 서열에 서열번호 190, pegRNA로 표시된 서열에 서열번호 191이 할당되었다.
도 78의 HEK4-off2와 관련하여, WT로 표시된 서열에 서열번호 192, 편집된으로 표시된 서열에 서열번호 193, pegRNA로 표시된 서열에 서열번호 194이 할당되었다.
도 78의 HEK4-off3와 관련하여, WT로 표시된 서열에 서열번호 195, 편집된으로 표시된 서열에 서열번호 196, pegRNA로 표시된 서열에 서열번호 197이 할당되었다.
도 79의 HEK4-off4와 관련하여, WT로 표시된 서열에 서열번호 198, 편집된으로 표시된 서열에 서열번호 199, pegRNA로 표시된 서열에 서열번호 200이 할당되었다.
도 79의 HEK4-off6와 관련하여, WT로 표시된 서열에 서열번호 201, 편집된으로 표시된 서열에 서열번호 202, pegRNA로 표시된 서열에 서열번호 203이 할당되었다.
도 80의 HEK4-off12와 관련하여, WT로 표시된 서열에 서열번호 204, 편집된으로 표시된 서열에 서열번호 205, pegRNA로 표시된 서열에 서열번호 206이 할당되었다.
도 81의 HEK4-off2 (+3 TAA ins)와 관련하여, WT로 표시된 서열에 서열번호 207, 편집된으로 표시된 서열에 서열번호 208, pegRNA로 표시된 서열에 서열번호 209이 할당되었다.
도 81의 HEK4-off3 (+3 TAA ins)와 관련하여, WT로 표시된 서열에 서열번호 210, 편집된으로 표시된 서열에 서열번호 211, pegRNA로 표시된 서열에 서열번호 212이 할당되었다.
도 82의 HEK4-off4 (+2 G to T)와 관련하여, WT로 표시된 서열에 서열번호 213, 편집된으로 표시된 서열에 서열번호 214, pegRNA로 표시된 서열에 서열번호 215이 할당되었다.
도 83의 HEK4-off1 (+2 G to T)와 관련하여, WT로 표시된 서열에 서열번호 216, 편집된으로 표시된 서열에 서열번호 217, pegRNA로 표시된 서열에 서열번호 218이 할당되었다.
도 83의 HEK4-off3 (+2 G to T)와 관련하여, WT로 표시된 서열에 서열번호 219, 편집된으로 표시된 서열에 서열번호 220, pegRNA로 표시된 서열에 서열번호 221이 할당되었다.
도 84의 HEK4-off7 (+2 G to T)와 관련하여, WT로 표시된 서열에 서열번호 222, 편집된으로 표시된 서열에 서열번호 223, pegRNA로 표시된 서열에 서열번호 224이 할당되었다.
도 85의 HEK4-off22 (+2 G to T)와 관련하여, WT로 표시된 서열에 서열번호 225, 편집된으로 표시된 서열에 서열번호 226, pegRNA로 표시된 서열에 서열번호 227이 할당되었다.
도 85의 HEK4-off28 (+2 G to T)와 관련하여, WT로 표시된 서열에 서열번호 228, 편집된으로 표시된 서열에 서열번호 229, pegRNA로 표시된 서열에 서열번호 230이 할당되었다.
도 86의 DNMT1-off1 (+6 G to C)와 관련하여, WT로 표시된 서열에 서열번호 231, 편집된으로 표시된 서열에 서열번호 232, pegRNA로 표시된 서열에 서열번호 233이 할당되었다.
도 86의 HBB-off3 (+4 A to T)와 관련하여, WT로 표시된 서열에 서열번호 234, 편집된으로 표시된 서열에 서열번호 235, pegRNA로 표시된 서열에 서열번호 236이 할당되었다.
도 87의 VEGFA-off16 (+5 G to T)와 관련하여, WT로 표시된 서열에 서열번호 237, 편집된으로 표시된 서열에 서열번호 238, pegRNA로 표시된 서열에 서열번호 239이 할당되었다.
도 68 내지 도 71을 참고하면, TAPE-seq에 의해 예측된 HEK4-off3 사이트에서는 HEK4 (+3 TAA ins) pegRNA 만이 편집을 유도한 반면, TAPE-seq에 의해 예측된 HEK4-off7, HEK4-off10, 및 HEK4-off22에 대해서는 HEK4 (+2 G to T) pegRNA만이 오프 타겟 효과를 일으켰다. 이러한 결과는 오프 타겟 효과가 RT 주형 서열에도 의존할 수 있음을 시사한다. 이러한 현상은 GUIDE-seq 또는 nDigenome-seq과 비교하여 TAPE-seq의 ROC 커브 아래 면적이 더 높은 것을 부분적으로 설명 가능하다. 이 두가지 방법은 RT 주형 서열이 없는 단일 가이드 RNA(sgRNA)로 수행되기 때문이다.
영역 별 미스매치 분석
본 출원의 발명자들은 온타겟 및 오프타겟 사이트에 대해, pegRNA의 PBS, RT 주형, 및 스페이서 영역의 미스매치 수를 표로 작성하고, 이를 검증 결과와 함께 나열하였다 (분석 데이터 7, 표 36 내지 표 44 참고).
검증 결과를 이진 분류로 예측하기 위한 매트릭(metric)으로 카피 넘버 (copy number) 대신 불일치 수를 사용하여 ROC 곡선이 구성되었다. 결과는 도 88 내지 도 90에 개시된다 (여기서, RNF2는 샘플이 하나뿐이므로 제외되었음). 구체적으로, PBS 영역, RT 주형 영역 및 타겟 영역의 미스매치에 대한 ROC 커브에 대한 결과가 도 88 내지 도 90에 개시된다. 도 88은 HEK4 (+2 G to T) pegRNA에 대한 결과, HEK4 (+3 TAA ins) pegRNA에 대한 결과, 및 HBB (+4 A to T) pegRNA에 대한 결과를 나타낸다. 도 89는 HEK3 (+1 CTT ins) pegRNA에 대한 결과, FANCF (+6 G to C) pegRNA에 대한 결과, 및 EMX1 (+5 G to T) pegRNA에 대한 결과이다. 도 90은 DNMT1 (+6 G to C) pegRNA에 대한 결과, RUNX1 (+6 G to C) pegRNA에 대한 결과, 및 VEGFA (+5 G to T) pegRNA에 대한 결과를 나타낸다.
도 91는 도 88 내지 도 90으로부터 계산된, 영역의 미스매치 별 ROC 커브의 아래 면적 (AUC)에 대한 결과를 개시한다. 9개의 다른 pegRNA에 대한 결과를 개시하며, 각각의 pegRNA에 대한 결과는 점으로 표시된다 (n=10, 여기서, RNF2는 샘플이 하나뿐이므로 제외되었음)
대부분의 경우에서, RT 주형 영역의 미스매치에 대한 ROC 커브의 아래 면적은 PBS의 미스매치의 면적보다 높았다.
도 92는 TAPE-seq에 의해 예측된 사이트, 위양성 사이트, 및 검증된 사이트들에 대한 미스매치 율을 나타낸다. 위양성 사이트와 관련하여, 타겟 미스매치 및 RT 영역 미스매치는 n=54의 독립적인 타겟 유전자좌에 대하여 확인되었다. PBS 미스매치는 n=47의 타겟 유전자좌에 대하여 확인되었다. PBS 미스매치에 대한 DNA/RNA 팽창이 있는 7개의 유전자좌는 분석에서 제외되었다. 검증된 사이트와 관련하여, 타겟 미스매치 및 RT 영역 미스매치가 n=13의 독립적인 타겟 유전자좌에 대하여 확인되었다. PBS 미스매치는 n=12의 타겟 유전자좌에 대하여 확인되었다. PBS 미스매치에 대한 DNA/RNA 팽창이 있는 1개 유전자좌는 분석에서 제외되었다 (two-sided unpaired student t-test; 바는 mean을 나타냄; 에러 바는 표준편차를 나타냄)
PBS, 타겟, 및 RT 주형 영역에서 거짓(false) 및 검증된 표적(validated target)의 미스매치율을 비교했을 때, 거짓에 대한 비율은, PBS 영역이 아닌 타겟 및 RT 주형 영역에서, 검증된 것에 대한 비율보다 상당히 높았다. 대체로, RT 주형의 미스매치는 잠재적인 오프 타겟 사이트의 유효성을 예측하는데 있어 타겟 미스매치 만큼의 영향을 미치는 것으로 보인다. TAPE-seq과는 달리, GUIDE-seq 및 nDigenome-seq은 프로토콜에 RT와 관련된 매커니즘을 포함하지 않으므로, 오프 타겟 예측 프로세스에서 RT의 분자 매커니즘을 수용하는 능력이 제한된다. GUIDE-seq이나 nDigenome-seq등 기존 Cas9만 사용한 방법들은 리버스 트랜스크립타아제나 pegRNA에 RT서열이 부재한 반면, TAPE-seq은 프라임 에디팅의 분자적 매커니즘 (pegRNA의 사용 및 리버스 트랜스크립타아제의 관여 등)을 반영하기 때문에 위양성 오프타겟 사이트를 효과적으로 제거하여 높은 진단 능력을 보이는것으로 추측된다.
본 출원의 발명자들은, 프라임 에디팅 시스템에 적용하기에 적합한 오프 타겟 예측 방법인, TAPE-seq을 개발하였다. 본 TAPE-seq 시스템은 프라임 에디팅의 특징을 잘 반영하는 오프 타겟 예측 방법으로서, 새로운 플랫폼을 제공한다. 본 출원의 발명자들은 TAPE-seq에 대한 초기 개발자의 입장에서, 다양한 버전의 PE를 사용하여 TAPE-seq에 대한 결과를 확인하였다. 특히, PEmax-뉴클레아제 및 epegRNA를 사용하는 프라임 에디팅 시스템의 적용에서 매우 우수한 효과를 나타냈다. 그럼에도 불구하고, 본 출원에 개시된 실험예가 다른 버전의 PE의 사용을 본 명세서 및 본 명세서에 기초하여 작성되는 청구항으로부터 배제하는 것이 아님은 통상의 기술자에게 명확할 것이다.
나아가, TAPE-seq의 발명적 특징 중 하나는 태그 주형을 포함하는 pegRNA(또는 epegRNA)의 사용에 있는 바, 본 출원 이전에 개발된 버전의 프라임 에디팅 단백질뿐만 아니라 본 출원 이후에 개발될 버전의 프라임 에디팅 단백질 또한 TAPE-seq 방법에 적용될 수 있음은 관련 분야의 기술자에게 명확할 것이다. 또한, TAPE-seq의 발명적 특징을 계승하는 발명은, 예를 들어, 다른 개량된 pegRNA를 사용하는 경우에도, 본 명세서 및 본 명세서를 기초로 작성되는 청구항에 포함됨은 통상의 기술자에게 명확할 것이다.
TAPE-seq은, 동일한 사이트를 대상으로 하는 DSB 유도 Cas9과 관련된 것과 비교하여, PE2에 대한 더 적은 오프 타겟 유전자좌를 식별하였다. 최근 PE2의 효율을 높이기 위한 다양한 기술들이 개발되었으며 개발되고 있는 실정이다. 이들 중 일부의 기술들은 태그맨테이션율을 높이기 위해 TAPE-seq 프로토콜에 적용되었으며, 이는 또한 이전 방법에서 놓친 새로운 오프 타겟 유전자좌를 식별하기 위한 TAPE-seq의 감도를 증가시켰다. 이와 같이, 본 출원의 출원일까지 개발된 프라임 에디팅 시스템의 개량 버전 및/또는 본 출원의 출원일 이후에 개발될 프라임 에디팅 시스템의 개량 버전은 TAPE-seq의 감도와 같은 성능을 개량하는데 적용 가능할 것이라 예상된다. TAPE-seq의 감도를 높이면 이전에 놓쳤던 오프 타겟 유전자좌를 더 많이 식별할 수 있을 것으로 예상된다. 나아가, 태그맨테이션 조건을 최적화하여 TAPE-seq의 감도를 높일 수 있을 것으로 예상된다.
TAPE-seq의 장점은 높은 검증율, 낮은 미스율, 및 높은 ROC 커브 아래 면적으로 세포 유형 특이적 프라임 에디팅 이벤트를 감지할 수 있는 편향되지 않은 세포 기반 방법이라는 점을 포함한다. 본 방법은 Cas9의 닉카제 또는 DSB 활성의 간접적인 측면만 제공하는 nDigenome-seq 및 GUIDE-seq과 같은 다른 방법과 달리, RT 매커니즘을 수용하여 PE 게놈 편집 활성을 직접 측정한다. 나아가, GUIDE-seq의 가장 큰 한계는 일부 dsODN(double-stranded oligodeoxynucleotide) 태그의 형질감염이 필수적이라는 것인데, 이는 일부 불내성 세포에서 독성이 있을 수 있거나 동물 모델에서 불가능할 수 있다. 이와 달리, TAPE-seq 태그 서열은 pegRNA 그 자체에 포함되어 있기 때문에, dsODN으로 인한 독성은 TAPE-seq과 무관하다. 나아가, TAPE-seq 벡터의 in vivo 전달 또한 가능할 것이다.
TAPE-seq의 태그맨테이션 pegRNA의 설계를 위해 다음의 사항들이 고려될 수 있다. pegRNA는 단일 가닥이기 때문에 태그 서열은 인접한 RT 또는 PBS 서열과 함께 2차 구조를 형성할 수 있다. 이러한 발생은 낮은 표적 태그맨테이션 비율에 의해 감지될 수 있으며, 이 경우 최종 TAPE-seq 분석이 수행되기 전에 태그 서열이 수정되어야 한다. 34-bp 태그 서열의 역상보 서열을 사용하거나, 또는 2차 구조를 형성하지 않는 다른 태그 서열이 설계될 수 있다. 이러한 과정에서 pegRNA를 설계하는데 도움이 되는 도구들이 사용될 수 있다. 예를 들어, epegRNA 설계를 위해 Vienna2.0 (문헌 [Lorenz, Ronny, et al. "ViennaRNA Package 2.0." Algorithms for molecular biology 6.1 (2011): 1-14.] 참조)와 같은 예측 도구의 도움을 받을 수 있다 (문헌 [Nelson, James W., et al. "Engineered pegRNAs improve prime editing efficiency." Nature biotechnology 40.3 (2022): 402-410.] 참조).
앞으로 더 많은 PE 기반 치료제가 개발될 것이 예측되며 (문헌 [Liu, Pengpeng, et al. "Improved prime editors enable pathogenic allele correction and cancer modelling in adult mice." Nature communications 12.1 (2021): 1-13.; Jang, Hyewon, et al. "Application of prime editing to the correction of mutations and phenotypes in adult mice with liver and eye diseases." Nature biomedical engineering 6.2 (2022): 181-194.; Kim, Yohan, et al. "Adenine base editing and prime editing of chemically derived hepatic progenitors rescue genetic liver disease." cell stem cell 28.9 (2021): 1614-1624.; Schene, Imre F., et al. "Prime editing for functional repair in patient-derived disease models." Nature communications 11.1 (2020): 1-8.; 및 Petri, Karl, et al. "CRISPR prime editing with ribonucleoprotein complexes in zebrafish and primary human cells." Nature biotechnology 40.2 (2022): 189-193.] 참조), 이에 따라 TAPE-seq은 PE 기반 약물의 안전성을 연구하기 위한 강력한 세포 기반 방법 중 하나가 될 것으로 기대된다.
분석 데이터에 대한 표
이하에서는, 본 출원에 개시된 실험 방법을 통해 얻어진 결과들이 표를 통해 개시된다. 이하에서 제공되는 각각의 표는, 각각의 표와 관련된 결과가 언급되는 부분에서 적절하게 인용되었다.
분석 데이터 1. PE2 TAPE-seq 온타겟 태그맨테이션 서열 분석
이하에서는 PE2 TAPE-seq 온타겟 태그맨테이션 서열 분석 결과가 표 1-1 및 표 1-2를 통해 개시된다.
표 1-1과 표 1-2는 연관된 결과를 나타낸다. 표 1-2의 첫번째 열을 통해 표 1-2의 정보를 표 1-1의 대응되는 정보와 연관시킬 수 있다. 표 1-2에서, 퍼센트는 전체 NGS 리드 중 표시된 시퀀스의 백분율을 나타낸다. 항목 "sequence"와 관련하여, "Bold" 표시된 서열은 스페이서 영역과 대응되는 서열을 나타내며, 및 이탤릭체(기울임)로 표시된 서열은 PAM과 대응되는 서열을 나타내며, 밑줄을 통해 표시된 서열은 편집된 서열과 편집 전의 서열 사이의 미스매치를 나타낸다.
표 1-1. PE2 TAPE-seq 온타겟 태그맨테이션 서열 분석 결과 (1)
Figure PCTKR2023001867-appb-img-000010
Figure PCTKR2023001867-appb-img-000011
표 1-1에 개시된 서열에 서열번호 240 에서 서열번호 275의 서열번호가 할당되었다. 표 1-1에서 서열의 개시 순서대로, 240에서 275의 서열번호가 할당되었으며, 서열목록에 개시된 각 서열에서 bulge를 나타내는 "-"는 생략되었다.
표 1-2. PE2 TAPE-seq 온타겟 태그맨테이션 서열 분석 결과 (2)
Figure PCTKR2023001867-appb-img-000012
Figure PCTKR2023001867-appb-img-000013
Figure PCTKR2023001867-appb-img-000014
분석 데이터 2. TAPE-seq에 의해 확인된 온타겟 위치 (on-target loci) 및 오프타겟 위치(off-target loci), 그리고 nDigenome-seq 및 GUIDE-seq으로 확인된 같은 부위를 표적하는 sgRNA에 대한 오프 타겟 위치와의 비교
이하에서는 TAPE-seq에 의해 확인된 온타겟 위치 및 오프 타겟 위치에 대한 분석 결과가 개시된다. 나아가, nDigenome-seq 및 GUIDE-seq으로 확인된, 같은 부위를 표적하는 sgRNA 대한 오프 타겟 부위와의 비교 결과가 개시된다. 각각의 표에서, 항목 "Type"은 bulge가 RNA bulge인지 또는 DNA bulge인지를 나타낸 것이다. 연관되는 결과는 표 n-x와 같이 표시된다. 예를 들어, 표 2-1, 표 2-2, 표 2-3, 표 2-4, 및 표 2-5는 연관된 결과이다. 하나의 연관된 표 집단 내에서, 각각의 표의 각각의 정보는 첫번째 열의 정보를 통해 대응되는 다른 연관된 표의 정보와 연관된다. 항목 "Target"과 관련하여, 소문자 및 "-"는 온타겟 및 pegRNA의 대응되는 영역과의 미스매치를 나타낸다.
이하의 표에 개시된 각 서열에 서열번호가 다음과 같이 할당되었다 (서열목록 참고). 서열목록에 개시된 각 서열에서 bulge를 나타내는 "-"는 생략되었다.
HEK4 on-target의 타겟 서열에는 276번의 서열번호가 할당되었다. 예측된 오프 타겟인 HEK4-off1 내지 HEK4-off39의 각 타겟 서열에는 서열번호 277 내지 서열번호 315의 서열번호가 순서대로 할당되었다.
HBB on-target의 타겟 서열에는 316의 서열번호가 할당되었다. 예측된 오프 타겟인 HBB-off1 내지 HBB-off5의 각 타겟 서열에는 서열번호 317 내지 서열번호 321의 서열번호가 순서대로 할당되었다.
EMX1 on-target의 타겟 서열에는 322의 서열번호가 할당되었다. 예측된 오프 타겟인 EMX1-off1 내지 EMX1-off2의 각 타겟 서열에는 서열번호 323 내지 서열번호 324의 서열번호가 순서대로 할당되었다.
FANCF on-target의 타겟 서열에는 325의 서열번호가 할당되었다. 예측된 오프 타겟인 FANCF-off1 내지 FANCF-off2의 각 타겟 서열에는 서열번호 326 내지 서열번호 327의 서열번호가 순서대로 할당되었다.
HEK3 on-target의 타겟 서열에는 328의 서열번호가 할당되었다. 예측된 오프 타겟인 HEK3-off1 내지 HEK3-off2의 각 타겟 서열에는 서열번호 329 내지 서열번호 330의 서열번호가 순서대로 할당되었다.
RNF2 on-target의 타겟 서열에는 331의 서열번호가 할당되었다.
DNMT1 on-target의 타겟 서열에는 332의 서열번호가 할당되었다. 예측된 오프 타겟인 DNMT1-off1 내지 DNMT1-off7의 각 타겟 서열에는 서열번호 333 내지 서열번호 339의 서열번호가 순서대로 할당되었다.
RUNX1 on-target의 타겟 서열에는 340의 서열번호가 할당되었다. 예측된 오프 타겟인 RUNX1-off1의 타겟 서열에는 서열번호 341이 할당되었다.
VEGFA on-target의 타겟 서열에는 342의 서열번호가 할당되었다. 예측된 오프 타겟인 VEGFA-off1 내지 VEGFA-off16의 각 타겟 서열에는 서열번호 343 내지 서열번호 358의 서열번호가 순서대로 할당되었다.
HEK4 on-target의 PBS에 대응되는 서열에는 359의 서열번호가 할당되었다. HEK4-off1 내지 HEK4-off39의 PBS에 대응되는 서열에는 각각 360 내지 398의 서열번호가 순서대로 할당되었다. HEK4 on-target의 RT에 대응되는 서열에는 399의 서열번호가 할당되었다. HEK4-off1 내지 HEK4-off39의 RT에 대응되는 서열에는 각각 400 내지 438의 서열번호가 순서대로 할당되었다. (표 36 참고)
HBB on-target의 PBS에 대응되는 서열에는 439의 서열번호가 할당되었다. HBB-off1 내지 HBB-off5의 PBS에 대응되는 서열에는 각각 440 내지 444의 서열번호가 순서대로 할당되었다. HBB on-target의 RT에 대응되는 서열에는 445의 서열번호가 할당되었다. HBB-off1 내지 HBB-off5의 RT에 대응되는 서열에는 각각 446 내지 450의 서열번호가 순서대로 할당되었다. (표 37 참고)
EMX1 on-target의 PBS에 대응되는 서열에는 451의 서열번호가 할당되었다. EMX1-off1 내지 EMX1-off2의 PBS에 대응되는 서열에는 각각 452 내지 453의 서열번호가 순서대로 할당되었다. EMX1 on-target의 RT에 대응되는 서열에는 454의 서열번호가 할당되었다. EMX1-off1 내지 EMX1-off2의 RT에 대응되는 서열에는 각각 455 내지 456의 서열번호가 순서대로 할당되었다. (표 38 참고)
FANCF on-target의 PBS에 대응되는 서열에는 457의 서열번호가 할당되었다. FANCF-off1 내지 FANCF-off2의 PBS에 대응되는 서열에는 각각 458 내지 459의 서열번호가 순서대로 할당되었다. FANCF on-target의 RT에 대응되는 서열에는 460의 서열번호가 할당되었다. FANCF-off1 내지 FANCF-off2의 RT에 대응되는 서열에는 각각 461 내지 462의 서열번호가 순서대로 할당되었다. (표 39 참고)
HEK3 on-target의 PBS에 대응되는 서열에는 463의 서열번호가 할당되었다. HEK3-off1 내지 HEK3-off2의 PBS에 대응되는 서열에는 각각 464 내지 465의 서열번호가 순서대로 할당되었다. HEK3 on-target의 RT에 대응되는 서열에는 466의 서열번호가 할당되었다. HEK3-off1 내지 HEK3-off2의 RT에 대응되는 서열에는 각각 467 내지 468의 서열번호가 순서대로 할당되었다. (표 40 참고)
RNF2 on-target의 PBS에 대응되는 서열에는 469의 서열번호가 할당되었다. RNF2 on-target의 RT에 대응되는 서열에는 470의 서열번호가 할당되었다. (표 41 참고)
DNMT1 on-target의 PBS에 대응되는 서열에는 471의 서열번호가 할당되었다. DNMT1-off1 내지 DNMT1-off7의 PBS에 대응되는 서열에는 각각 472 내지 478의 서열번호가 순서대로 할당되었다. DNMT1 on-target의 RT에 대응되는 서열에는 479의 서열번호가 할당되었다. DNMT1-off1 내지 DNMT1-off7의 RT에 대응되는 서열에는 각각 480 내지 486의 서열번호가 순서대로 할당되었다. (표 42 참고)
RUNX1 on-target의 PBS에 대응되는 서열에는 487의 서열번호가 할당되었다. RUNX1-off1의 PBS에 대응되는 서열에는 488의 서열번호가 할당되었다. RUNX1 on-target의 RT에 대응되는 서열에는 489의 서열번호가 할당되었다. RUNX1-off1의 RT에 대응되는 서열에는 490의 서열번호가 할당되었다. (표 43 참고)
VEGFA on-target의 PBS에 대응되는 서열에는 491의 서열번호가 할당되었다. VEGFA-off1 내지 VEGFA-off16의 PBS에 대응되는 서열에는 각각 492 내지 507의 서열번호가 순서대로 할당되었다. VEGFA on-target의 RT에 대응되는 서열에는 508의 서열번호가 할당되었다. VEGFA-off1 내지 VEGFA-off16의 RT에 대응되는 서열에는 각각 509 내지 524의 서열번호가 순서대로 할당되었다. (표 44 참고)
표 2-1. HEK4 TAPE-seq 평균 리드 깊이 (average read depth) (1)
Figure PCTKR2023001867-appb-img-000015
Figure PCTKR2023001867-appb-img-000016
표 2-2. HEK4 TAPE-seq 평균 리드 깊이 (average read depth) (2)
Figure PCTKR2023001867-appb-img-000017
Figure PCTKR2023001867-appb-img-000018
표 2-3. HEK4 TAPE-seq 평균 리드 깊이 (average read depth) (3)
Figure PCTKR2023001867-appb-img-000019
Figure PCTKR2023001867-appb-img-000020
표 2-4. HEK4 TAPE-seq 평균 리드 깊이 (average read depth) (4)
Figure PCTKR2023001867-appb-img-000021
Figure PCTKR2023001867-appb-img-000022
표 2-5. HEK4 TAPE-seq 평균 리드 깊이 (average read depth) (5)
Figure PCTKR2023001867-appb-img-000023
Figure PCTKR2023001867-appb-img-000024
표 3-1. HBB TAPE-seq 평균 리드 깊이 (1)
Figure PCTKR2023001867-appb-img-000025
표 3-2. HBB TAPE-seq 평균 리드 깊이 (2)
Figure PCTKR2023001867-appb-img-000026
표 4-1. EMX1 TAPE-seq 평균 리드 깊이 (1)
Figure PCTKR2023001867-appb-img-000027
표 4-2. EMX1 TAPE-seq 평균 리드 깊이 (2)
Figure PCTKR2023001867-appb-img-000028
표 5-1. FANCF TAPE-seq 평균 리드 깊이 (1)
Figure PCTKR2023001867-appb-img-000029
표 5-2. FANCF TAPE-seq 평균 리드 깊이 (2)
Figure PCTKR2023001867-appb-img-000030
표 6-1. HEK3 TAPE-seq 평균 리드 깊이 (1)
Figure PCTKR2023001867-appb-img-000031
표 6-2. HEK3 TAPE-seq 평균 리드 깊이 (2)
Figure PCTKR2023001867-appb-img-000032
표 7-1. RNF2 TAPE-seq 평균 리드 깊이 (1)
Figure PCTKR2023001867-appb-img-000033
표 7-2. RNF2 TAPE-seq 평균 리드 깊이 (2)
Figure PCTKR2023001867-appb-img-000034
표 8-1. DNMT1 TAPE-seq 평균 리드 깊이 (1)
Figure PCTKR2023001867-appb-img-000035
표 8-2. DNMT1 TAPE-seq 평균 리드 깊이 (2)
Figure PCTKR2023001867-appb-img-000036
표 9-1. RUNX1 TAPE-seq 평균 리드 깊이 (1)
Figure PCTKR2023001867-appb-img-000037
표 9-2. RUNX1 TAPE-seq 평균 리드 깊이 (2)
Figure PCTKR2023001867-appb-img-000038
표 10-1. VEGFA TAPE-seq 평균 리드 깊이 (1)
Figure PCTKR2023001867-appb-img-000039
표 10-2. VEGFA TAPE-seq 평균 리드 깊이 (2)
Figure PCTKR2023001867-appb-img-000040
분석 데이터 3. 시퀀싱 플랫폼 및 각각의 TAPE-seq 분석에 대해 생성된 리드 수
이하에서는 시퀀싱 플랫폼 및 각각의 TAPE-seq 분석에 대해 생성된 리드 수에 대한 결과가 개시된다.
표 11. 시퀀싱 플랫폼 및 각각의 TAPE-seq 분석에 대해 생성된 리드 수
Figure PCTKR2023001867-appb-img-000041
Figure PCTKR2023001867-appb-img-000042
Figure PCTKR2023001867-appb-img-000043
분석 데이터 4. TAPE-seq에 의해 확인된 후보 오프 타겟 부위의 표적화된 딮시퀀싱 분석
이하에서는 TAPE-seq에 의해 예측된 온 타겟 및 오프 타겟 부위에 대한 표적화된 딮시퀀싱 분석 결과(편집율, 태그맨테이션율 등)가 개시된다. 연관되는 결과는 표 n-x와 같이 표시된다. 예를 들어, 표 12-1, 및 표 12-2는 연관된 결과이다. 하나의 연관된 표 집단 (예를 들어, 표 12) 내에서, 각각의 표의 정보는 첫번째 열의 정보를 통해, 대응되는 다른 연관된 표의 정보와 연관된다. 항목 "Target"과 관련하여, 소문자 및 "-"는 온타겟 및 pegRNA와의 미스매치를 나타낸다.
표 12-1. 각 pegRNA의 온타겟 부위에 대한 결과 (1)
Figure PCTKR2023001867-appb-img-000044
표 12-2. 각 pegRNA의 온타겟 부위에 대한 결과 (2)
Figure PCTKR2023001867-appb-img-000045
표 13-1. 각 pegRNA에 대한 PE2 TAPE-seq에 의해 예측된 오프 타겟 부위에 대한 결과 (HEK293T, HeLa, K562) (1)
Figure PCTKR2023001867-appb-img-000046
Figure PCTKR2023001867-appb-img-000047
Figure PCTKR2023001867-appb-img-000048
Figure PCTKR2023001867-appb-img-000049
Figure PCTKR2023001867-appb-img-000050
Figure PCTKR2023001867-appb-img-000051
Figure PCTKR2023001867-appb-img-000052
표 13-2. 각 pegRNA에 대한 PE2 TAPE-seq에 의해 예측된 오프 타겟 부위에 대한 결과 (HEK293T, HeLa, K562) (2)
Figure PCTKR2023001867-appb-img-000053
Figure PCTKR2023001867-appb-img-000054
Figure PCTKR2023001867-appb-img-000055
Figure PCTKR2023001867-appb-img-000056
Figure PCTKR2023001867-appb-img-000057
Figure PCTKR2023001867-appb-img-000058
Figure PCTKR2023001867-appb-img-000059
표 13-3. 각 pegRNA에 대한 PE2 TAPE-seq에 의해 예측된 오프 타겟 부위에 대한 결과 (HEK293T, HeLa, K562) (3)
Figure PCTKR2023001867-appb-img-000060
Figure PCTKR2023001867-appb-img-000061
Figure PCTKR2023001867-appb-img-000062
Figure PCTKR2023001867-appb-img-000063
Figure PCTKR2023001867-appb-img-000064
Figure PCTKR2023001867-appb-img-000065
Figure PCTKR2023001867-appb-img-000066
표 14-1. PE2 TAPE-seq, PE-nuclease TAPE-seq, 및 PEmax nuclease TAPE-seq의 태그맨테이션율 (1)
Figure PCTKR2023001867-appb-img-000067
표 14-2. PE2 TAPE-seq, PE-nuclease TAPE-seq, 및 PEmax nuclease TAPE-seq의 태그맨테이션율 (2)
Figure PCTKR2023001867-appb-img-000068
표 15. PE2 TAPE-seq, 및 PE4 TAPE-seq의 태그맨테이션율
Figure PCTKR2023001867-appb-img-000069
표 16. 태그 길이 별 태그맨테이션 율
Figure PCTKR2023001867-appb-img-000070
분석 데이터 5. TAPE-seq에 의해 생성된 예측에 대한 검증율의 계산
이하에서는 TAPE-seq (PE2, PE2-nuclease, PEmax-nuclease) 및 다른 오프 타겟 예측 방법에 의해 생성된 예측에 대한 검증율의 계산 결과가 개시된다.
표 17. HEK4 (+2 G to T) pegRNA
Figure PCTKR2023001867-appb-img-000071
표 18. HEK4 (+3 TAA ins) pegRNA
Figure PCTKR2023001867-appb-img-000072
표 19. HBB (+4 A to T) pegRNA
Figure PCTKR2023001867-appb-img-000073
표 20. EMX1 (+5 G to T) pegRNA
Figure PCTKR2023001867-appb-img-000074
표 21. FANCF (+6 G to C) pegRNA
Figure PCTKR2023001867-appb-img-000075
표 22. HEK3 (+1 CTT ins) pegRNA
Figure PCTKR2023001867-appb-img-000076
표 23. RNF2 (+6 G to A) pegRNA
Figure PCTKR2023001867-appb-img-000077
표 24. DNMT1 (+6 G to C) pegRNA
Figure PCTKR2023001867-appb-img-000078
표 25. RUNX1 (+6 G to C) pegRNA
Figure PCTKR2023001867-appb-img-000079
표 26. VEGFA (+5 G to T) pegRNA
Figure PCTKR2023001867-appb-img-000080
분석 데이터 6. 검증된 오프 타겟의 미스율
이하에서는, 각 오프 타겟 예측 방법의 미스율에 대한 결과를 개시한다. 검증된 오프 타겟을 오프 타겟 예측 방법으로 예측한 경우 +로 표시된다. 나머지 타겟에 대한 미스율은 0으로 확인되었다. 항목 "Type"은 bulge가 RNA인지, DNA 인지, 또는 존재하지 않는지에 대한 정보를 나타낸다.
표 27. HEK4 (+2 G to T) pegRNA 미스율 (HEK293T)
Figure PCTKR2023001867-appb-img-000081
표 28. HEK4 (+3 TAA ins) pegRNA 미스율 (HEK293T)
Figure PCTKR2023001867-appb-img-000082
표 29. HBB (+4 A to T) pegRNA 미스율 (HEK293T)
Figure PCTKR2023001867-appb-img-000083
표 30. DNMT1 (+6 G to C) pegRNA 미스율 (HEK293T)
Figure PCTKR2023001867-appb-img-000084
표 31. VEGFA (+5 G to T) pegRNA 미스율 (HEK293T)
Figure PCTKR2023001867-appb-img-000085
표 32. HEK4 (+2 G to T) pegRNA 미스율 (HeLa)
Figure PCTKR2023001867-appb-img-000086
표 33. HEK4 (+3 TAA ins) pegRNA 미스율 (HeLa)
Figure PCTKR2023001867-appb-img-000087
표 34. HEK4 (+2 G to T) pegRNA 미스율 (K562)
Figure PCTKR2023001867-appb-img-000088
표 35. HEK4 (+3 TAA ins) pegRNA 미스율 (K562)
Figure PCTKR2023001867-appb-img-000089
분석 데이터 7. 영역(region)별 미스매치 분석
이하에서는, pegRNA의 각 영역에서의 미스매치에 대한 분석 결과를 개시한다. 항목 "Target", "PBS", 및 "RT region"에서 온타겟 서열 및 pegRNA의 대응되는 영역과의 미스매치는 "소문자" 및 "-"로 표시된다. 항목 "Type"은 bulge가 RNA인지, DNA 인지, 또는 존재하지 않는지에 대한 정보를 나타낸다.
표 36-1. HEK4 온타겟 및 오프 타겟에 대한 분석 결과 (1)
Figure PCTKR2023001867-appb-img-000090
Figure PCTKR2023001867-appb-img-000091
표 36-2. HEK4 온타겟 및 오프 타겟에 대한 분석 결과 (2)
Figure PCTKR2023001867-appb-img-000092
Figure PCTKR2023001867-appb-img-000093
Figure PCTKR2023001867-appb-img-000094
표 36-3. HEK4 온타겟 및 오프 타겟에 대한 분석 결과 (3)
Figure PCTKR2023001867-appb-img-000095
Figure PCTKR2023001867-appb-img-000096
표 37-1. HBB 온타겟 및 오프 타겟에 대한 분석 결과 (1)
Figure PCTKR2023001867-appb-img-000097
표 37-2. HBB 온타겟 및 오프 타겟에 대한 분석 결과 (2)
Figure PCTKR2023001867-appb-img-000098
표 37-3. HBB 온타겟 및 오프 타겟에 대한 분석 결과 (3)
Figure PCTKR2023001867-appb-img-000099
표 38. EMX1 온타겟 및 오프 타겟에 대한 분석 결과
Figure PCTKR2023001867-appb-img-000100
표 39. FANCF 온타겟 및 오프 타겟에 대한 분석 결과
Figure PCTKR2023001867-appb-img-000101
표 40. HEK3 온타겟 및 오프 타겟에 대한 분석 결과
Figure PCTKR2023001867-appb-img-000102
표 41. RNF2 온타겟 및 오프 타겟에 대한 분석 결과
Figure PCTKR2023001867-appb-img-000103
표 42-1. DNMT1 온타겟 및 오프 타겟에 대한 분석 결과 (1)
Figure PCTKR2023001867-appb-img-000104
표 42-2. DNMT1 온타겟 및 오프 타겟에 대한 분석 결과 (2)
Figure PCTKR2023001867-appb-img-000105
표 42-3. DNMT1 온타겟 및 오프 타겟에 대한 분석 결과 (3)
Figure PCTKR2023001867-appb-img-000106
표 43. RUNX1 온타겟 및 오프 타겟에 대한 분석 결과
Figure PCTKR2023001867-appb-img-000107
표 44-1. VEGFA 온타겟 및 오프 타겟에 대한 분석 결과 (1)
Figure PCTKR2023001867-appb-img-000108
표 44-2. VEGFA 온타겟 및 오프 타겟에 대한 분석 결과 (2)
Figure PCTKR2023001867-appb-img-000109
표 44-3. VEGFA 온타겟 및 오프 타겟에 대한 분석 결과 (3)
Figure PCTKR2023001867-appb-img-000110
벡터 서열
pRG2-pegRNA 전체 서열 및 포함된 각 요소
- 전체 서열
gacgaagactcaattgtcgattagtgaacggatctcgacggtatcgatcacgagactagcctcgagcggccgcccccttcacc(1) gagggcctatttcccatgattccttcatatttgcatatacgatacaaggctgttagagagataattggaattaatttgactgtaaacacaaagatattagtacaaaatacgtgacgtagaaagtaataatttcttgggtagtttgcagttttaaaattatgttttaaaatggactatcatatgcttaccgtaacttgaaagtatttcgatttcttggctttatatatcttgtggaaaggacgaaaca(2) ccggagaccacatttccccgaaaagtgccacctgacgtctaagaaaccattattatcatgacattaacctataaaaataggcgtatcacgaggccctttcgtctcgcgcgtttcggtgatgacggtgaaaacctctgacacatgcagctcccggagacggtcacagcttgtctgtaagcggatgccgggagcagacaagcccgtcagggcgcgtcagcgggtgttggcgggtgtcggggctggcttaactatgcggcatcagagcagattgtactgagagtgcaccatatgcggtgtgaaataccgcacagatgcgtaaggagaaaataccgcatcaggcgccattcgccattcaggctgcgcaactgttgggaagggcgatcggtgcgggcctcttcgctattacgccagctggcgaaagggggatgtgctgcaaggcgattaagttgggtaacgccagggttttcccagtcacgacgttgtaaaacgacggccagtgccaagcttgcatgcctgcaggtcgactctagaggatccccgggtaccgagctcgaattcgtaatcatggtcatagctgtttcctgtgtgaaattgttatccgctcacaattccacacaacatacgagccggaagcataaagtgtaaagcctggggtgcctaatagatccggtctcc(3) gttttagagctagaaatagcaagttaaaataaggctagtccgttatcaacttgaaaaagtggcaccgagtcggtgcggagacg(4) tgtctgtaagcggatgccgggagcagacaagcccgtcagggcgcgtcagcgggtgttggcgggtgtcggggctggcttaactatgcggcatcagagcagattgtactgagagtgcaccatatgcggtgtgaaataccgcacagatgcgtaaggagaaaataccgcatcaggcgccattcgccattcaggctgcgcaactgttgggaagggcgatcggtgcgggcctcttcgctattacgccagctggcgaaagggggatgtgctgcaaggcgattaagttgggtaacgccagggttttcccagtcacgacgttgtaaaacgacggccagtgccaagcttgcatgcctgcaggtcgactctagaggatccccgggtaccgagctcgaattcgtaatcatggtcatagctgtttcctgtgtgaaattgttatccgctcacaattccacacaacatacgagccggcgtctccctagattcgcgatgtacgggccagatatacgcgttgacattgattattgactagttgtcttcctgcattaatgaatcggccaacgcgcggggagaggcggtttgcgtattgggcgctcttccgcttcctcgctcactgactcgctgcgctcggtcgttcggctgcggcgagcggtatcagctcactcaaaggcggtaatacggttatccacagaatcaggggataacgcaggaaagaac(5) atgtgagcaaaaggccagcaaaaggccaggaaccgtaaaaaggccgcgttgctggcgtttttccataggctccgcccccctgacgagcatcacaaaaatcgacgctcaagtcagaggtggcgaaacccgacaggactataaagataccaggcgtttccccctggaagctccctcgtgcgctctcctgttccgaccctgccgcttaccggatacctgtccgcctttctcccttcgggaagcgtggcgctttctcaatgctcacgctgtaggtatctcagttcggtgtaggtcgttcgctccaagctgggctgtgtgcacgaaccccccgttcagcccgaccgctgcgccttatccggtaactatcgtcttgagtccaacccggtaagacacgacttatcgccactggcagcagccactggtaacaggattagcagagcgaggtatgtaggcggtgctacagagttcttgaagtggtggcctaactacggctacactagaaggacagtatttggtatctgcgctctgctgaagccagttaccttcggaaaaagagttggtagctcttgatccggcaaacaaaccaccgctggtagcggtggtttttttgtttgcaagcagcagattacgcgcagaaaaaaaggatctcaagaagatcctttgatcttttctacggggtctgacgctcagtggaacgaaaactcacgttaagggattttggtcatgagattatcaaaaaggatcttcacctagatccttttaaattaaaaatgaagttttaaatcaatctaaagtatatatgagtaaacttggtctgacag(6) ttaccaatgcttaatcagtgaggcacctatctcagcgatctgtctatttcgttcatccatagttgcctgactccccgtcgtgtagataactacgatacgggagggcttaccatctggccccagtgctgcaatgataccgcgagatccacgctcaccggctccagatttatcagcaataaaccagccagccggaagggccgagcgcagaagtggtcctgcaactttatccgcctccatccagtctattaattgttgccgggaagctagagtaagtagttcgccagttaatagtttgcgcaacgttgttgccattgctacaggcatcgtggtgtcacgctcgtcgtttggtatggcttcattcagctccggttcccaacgatcaaggcgagttacatgatcccccatgttgtgcaaaaaagcggttagctccttcggtcctccgatcgttgtcagaagtaagttggccgcagtgttatcactcatggttatggcagcactgcataattctcttactgtcatgccatccgtaagatgcttttctgtgactggtgagtactcaaccaagtcattctgagaatagtgtatgcggcgaccgagttgctcttgcccggcgtcaatacgggataataccgcgccacatagcagaactttaaaagtgctcatcattggaaaacgttcttcggggcgaaaactctcaaggatcttaccgctgttgagatccagttcgatgtaacccactcgtgcacccaactgatcttcagcatcttttactttcaccagcgtttctgggtgagcaaaaacaggaaggcaaaatgccgcaaaaaagggaataagggcgacacggaaatgttgaatactcatactcttcctttttcaatattattgaagcatttatcagggttattgtctcatgagcggatacatatttgaatgtatttagaaaaataaacaaataggggttccgcgcacatttccccgaaaagtgccacctgacgtc (서열번호 146)
- (1) U6 Promoter; (2) Stuffer; (3) sgRNA scaffold; (4) pUC origin; (5) stuffer; (6) Amp resistance
pAllin1-PE2 전체 서열 및 포함된 각 요소
- 전체 서열
cgatgtacgggccagatatacgcgcgtatatctggcccgtacatcgcgaatctag(1) AAAAAANNNNNNNNNNNNNNNNNNNNNNNNNNNNNgcaccgactcggtgccactttttcaagttgataacggactagccttattttaacttgctatttctagctctaaaacNNNNNNNNNNNNNNNNNNNcggtgtttc(2) gtcctttccacaagatatataaagccaagaaatcgaaatactttcaagttacggtaagcatatgatagtccattttaaaacataattttaaaactgcaaactacccaagaaattattactttctacgtcacgtattttgtactaatatctttgtgtttacagtcaaattaattccaattatctctctaacagccttgtatcgtatatgcaaatatgaaggaatcatgggaaataggccctccgcgtt(3) gacattgattattgactagttattaatagtaatcaattacggggtcattagttcatagcccatatatggagttccgcgttacataacttacggtaaatggcccgcctggctgaccgcccaacgacccccgcccattgacgtcaataatgacgtatgttcccatagtaacgccaatagggactttccattgacgtcaatgggtggagtatttacggtaaactgcccacttggcagtacatcaagtgtatcatatgccaagtacgccccctattgacgtcaatgacggtaaatggcccgcctggcattatgcccagtacatgaccttatgggactttcctacttggcagtacatctacgtattagtcatcgctattaccatggtgatgcggttttggcagtacatcaatgggcgtggatagcggtttgactcacggggatttccaagtctccaccccattgacgtcaatgggagtttgttttggcaccaaaatcaacgggactttccaaaatgtcgtaacaactccgccccattgacgcaaatgggcggtaggcgtgtacggtgggaggtctatataagcagagctggtttagtgaaccgtcagatccgctagagatccgcggccgctaatacgactcactatagggagagccgccaccatgaaacggacagccgacggaagcgagttcgagtca(4) ccaggacatcaaaagggacacagcgccgaggctagaggcaaccggatggctgaccaagcggcccgaaaggcagccatcacagagactccagacacctctaccctcctcatagaaaattcatcaccctctggcggctcaaaaagaaccgccgacggcagcgaattcgagcccaagaagaagaggaaagtctaaccggtcatcatcaccatcaccattgagttttacccctacgacgtgcccgactacgcctaataactcgagcatgcatctagagggccctattctatagtgtcacctaaatgctagagctcgctgatcagcctcgactgtgccttctagttgccagccatctgttgtttgcccctcccccgtgccttccttgaccctggaaggtgccactcccactgtcctttcctaataaaatgaggaaattgcatcgcattgtctgagtaggtgtcattctattctggggggtggggtggggcaggacagcaagggggaggattgggaagacaatagcaggcatgctgggga(5) ggatctgcgatcgctccggtgcccgtcagtgggcagagcgcacatcgcccacagtccccgagaagttggggggaggggtcggcaattgaacgggtgcctagagaaggtggcgcggggtaaactgggaaagtgatgtcgtgtactggctccgcctttttcccgagggtgggggagaaccgtatataagtgcagtagtcgccgtgaacgttctttttcgcaacgggtttgccgccagaacacagctgaagcttcgaggggctcgcatctctccttcacgcgcccgccgccctacctgaggccgccatccacgccggttgagtcgcgttctgccgcctcccgcctgtggtgcctcctgaactgcgtccgccgtctaggtaagtttaaagctcaggtcgagaccgggcctttgtccggcgctcccttggagcctacctagactcagccggctctccacgctttgcctgaccctgcttgctcaactctacgtctttgtttcgttttctgttctgcgccgttacagatccaagctgtgaccggcgcctac(6) ATGACCGAGTACAAGCCCACGGTGCGCCTCGCCACCCGCGACGACGTCCCCAGGGCCGTACGCACCCTCGCCGCCGCGTTCGCCGACTACCCCGCCACGCGCCACACCGTCGATCCAGACCGCCACATCGAGCGGGTCACCGAGCTGCAAGAACTCTTCCTCACGCGCGTCGGGCTCGACATCGGCAAGGTGTGGGTCGCGGACGACGGCGCCGCGGTGGCGGTCTGGACCACGCCGGAGAGCGTCGAAGCGGGGGCGGTGTTCGCCGAGATCGGCCCGCGCATGGCCGAGTTGAGCGGTTCCCGGCTGGCCGCGCAGCAACAGATGGAAGGTCTCCTGGCGCCGCACCGGCCCAAGGAGCCCGCGTGGTTCCTGGCCACCGTCGGCGTCTCGCCCGACCACCAGGGCAAGGGTCTGGGCAGCGCCGTCGTGCTCCCCGGAGTGGAGGCGGCCGAGCGCGCCGGGGTGCCCGCCTTCCTGGAGACCTCCGCGCCCCGCAACCTCCCCTTCTACGAGCGGCTCGGCTTCACCGTCACCGCCGACGTCGAGGTGCCCGAAGGACCGCGCACCTGGTGCATGACCCGCAAGCCCGGTGCCTGAccatccgtaagatgcttttctgtgactggtgagtactcaaccaagtcattctgagaatagtgtatgcggcgaccgagttgctcttgcccggcgtcaatacgggataataccgcgccacatagcagaactttaaaagtgctcatcattggaaaacgttcttcggggcgaaaactctcaaggatcttaccgctgttgagatccagttcgatgtaacccactcgtgcacccaactgatcttcagcatcttttactttcaccagcgtttctgggtgagcaaaaacaggaaggcaaaatgccgcaaaaaagggaataagggcgacacggaaatgttgaatactcatactcttcctttttcaatattattgaagcatttatcagggttattgtctcatgagcggatacatatttgaatgtatttagaaaaataaacaaataggggttccgcgaacttgtttattgcagcttataatggttacaaataaagcaatagcatcacaaatttcacaaataaagcatttttttcactgcattctagttgtggtttgtccaaactcatcaatgtatcttatcatgtctgg(7) ccagctagccaacaagctcgtcatcgctttgcagaagagcagagaggatatgctcatcgtctaaagaactacccattttattatatattagtcacctcctgttccgaccctgccgcttaccggatacctgtccgcctttctcccttcgggaagcgtggcgctttctcatagctcacgctgtaggtatctcagttcggtgtaggtcgttcgctccaagctgggctgtgtgcacgaaccccccgttcagcccgaccgctgcgccttatccggtaactatcgtcttgagtccaacccggtaagacacgacttatcgccactggcagcagccactggtaacaggattagcagagcgaggtatgtaggcggtgctacagagttcttgaagtggtggcctaactacggctacactagaaggacagtatttggtatctgcgctctgctgaagccagttaccttcggaaaaagagttggtagctcttgatccggcaaacaaaccaccgctggtagcggtggtttttttgtttgcaagcagcagattacgcgcagaaaaaaaggatctcaagaagatcctttgatcttttctacggggtctgacgctcagtggaacgaaaactcacgttaagggattttggtcatgattaaccctagaaagataatcatattgtgacgtacgttaaagataatcatgcgtaaaattgacgcatgtgttttatcggtctgtatatcgaggtttatttattaatttgaatagatattaagttttattatatttacacttacatactaataataaattcaacaaacaatttatttatgtttatttatttattaaaaaaaaacaaaaactcaaaatttcttctataaagtaacaaa(8) acttttaaacattctctcttttacaaaaataaacttattttgtactttaaaaacagtcatgttgtattataaaataagtaattagcttaacctatacataatagaaacaaattatacttattagtcagtcagaaacaaCTTTGGCACATATCAATATTATGCTCTCGTTAATTAA (서열번호 147)
- (1) pegRNA; (2) U6 Promoter; (3) CMV Promoter; (4) PE2; (5) EF1alpha Promoter; (6) Puromycin resistance; (7) ITR; (8) ITR
piggy-PE2 전체 서열 및 포함된 각 요소
- 전체 서열
CGATGTACGGGCCAGATATACGCGTT(1) GACATTGATTATTGACTAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATCATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTGGTTTAGTGAACCGTCAGATCCGCTAGAGATCCGCGGCCGCTAATACGACTCACTATAGGGAGAGCCGCCACCATGAAACGGACAGCCGACGGAAGCGAGTTCGAGTCA(2) CCAGGACATCAAAAGGGACACAGCGCCGAGGCTAGAGGCAACCGGATGGCTGACCAAGCGGCCCGAAAGGCAGCCATCACAGAGACTCCAGACACCTCTACCCTCCTCATAGAAAATTCATCACCCTCTGGCGGCTCAAAAAGAACCGCCGACGGCAGCGAATTCGAGCCCAAGAAGAAGAGGAAAGTCTAACCGGTCATCATCACCATCACCATTGAGTTTTACCCCTACGACGTGCCCGACTACGCCTAATAACTCGAGCATGCATCTAGAGGGCCCTATTCTATAGTGTCACCTAAATGCTAGAGCTCGCTGATCAGCCTCGACTGTGCCTTCTAGTTGCCAGCCATCTGTTGTTTGCCCCTCCCCCGTGCCTTCCTTGACCCTGGAAGGTGCCACTCCCACTGTCCTTTCCTAATAAAATGAGGAAATTGCATCGCATTGTCTGAGTAGGTGTCATTCTATTCTGGGGGGTGGGGTGGGGCAGGACAGCAAGGGGGAGGATTGGGAAGACAATAGCAGGCATGCTGGGGA(3) GGATCTGCGATCGCTCCGGTGCCCGTCAGTGGGCAGAGCGCACATCGCCCACAGTCCCCGAGAAGTTGGGGGGAGGGGTCGGCAATTGAACGGGTGCCTAGAGAAGGTGGCGCGGGGTAAACTGGGAAAGTGATGTCGTGTACTGGCTCCGCCTTTTTCCCGAGGGTGGGGGAGAACCGTATATAAGTGCAGTAGTCGCCGTGAACGTTCTTTTTCGCAACGGGTTTGCCGCCAGAACACAGCTGAAGCTTCGAGGGGCTCGCATCTCTCCTTCACGCGCCCGCCGCCCTACCTGAGGCCGCCATCCACGCCGGTTGAGTCGCGTTCTGCCGCCTCCCGCCTGTGGTGCCTCCTGAACTGCGTCCGCCGTCTAGGTAAGTTTAAAGCTCAGGTCGAGACCGGGCCTTTGTCCGGCGCTCCCTTGGAGCCTACCTAGACTCAGCCGGCTCTCCACGCTTTGCCTGACCCTGCTTGCTCAACTCTACGTCTTTGTTTCGTTTTCTGTTCTGCGCCGTTACAGATCCAAGCTGTGACCGGCGCCTAC(4) ATGACCGAGTACAAGCCCACGGTGCGCCTCGCCACCCGCGACGACGTCCCCAGGGCCGTACGCACCCTCGCCGCCGCGTTCGCCGACTACCCCGCCACGCGCCACACCGTCGATCCAGACCGCCACATCGAGCGGGTCACCGAGCTGCAAGAACTCTTCCTCACGCGCGTCGGGCTCGACATCGGCAAGGTGTGGGTCGCGGACGACGGCGCCGCGGTGGCGGTCTGGACCACGCCGGAGAGCGTCGAAGCGGGGATAAACCAGCCAGCCGGAAGGGCCGAGCGCAGAAGTGGTCCTGCAACTTTATCCGCCTCCATCCAGTCTATTAATTGTTGCCGGGAAGCTAGAGTAAGTAGTTCGCCAGTTAATAGTTTGCGCAACGTTGTTGCCATTGCTACAGGCATCGTGGTGTCACGCTCGTCGTTTGGTATGGCTTCATTCAGCTCCGGTTCCCAACGATCAAGGCGAGTTACATGATCCCCCATGTTGTGCAAAAAAGCGGTTAGCTCCTTCGGTCCTCCGATCGTTGTCAGAAGTAAGTTGGCCGCAGTGTTATCACTCATGGTTATGGCAGCACTGCATAATTCTCTTACTGTCATGCCATCCGTAAGATGCTTTTCTGTGACTGGTGAGTACTCAACCAAGTCATTCTGAGAATAGTGTATGCGGCGACCGAGTTGCTCTTGCCCGGCGTCAATACGGGATAATACCGCGCCACATAGCAGAACTTTAAAAGTGCTCATCATTGGAAAACGTTCTTCGGGGCGAAAACTCTCAAGGATCTTACCGCTGTTGAGATCCAGTTCGATGTAACCCACTCGTGCACCCAACTGATCTTCAGCATCTTTTACTTTCACCAGCGTTTCTGGGTGAGCAAAAACAGGAAGGCAAAATGCCGCAAAAAAGGGAATAAGGGCGACACGGAAATGTTGAATACTCATACTCTTCCTTTTTCAATATTATTGAAGCATTTATCAGGGTTATTGTCTCATGAGCGGATACATATTTGAATGTATTTAGAAAAATAAACAAATAGGGGTTCCGCGAACTTGTTTATTGCAGCTTATAATGGTTACAAATAAAGCAATAGCATCACAAATTTCACAAATAAAGCATTTTTTTCACTGCATTCTAGTTGTGGTTTGTCCAAACTCATCAATGTATCTTATCATGTCTGG(5) CCAGCTAGCCAACAAGCTCGTCATCGCTTTGCAGAAGAGCAGAGAGGATATGCTCATCGTCTAAAGAACTACCCATTTTATTATATATTAGTCACCTCCTGTTCCGACCCTGCCGCTTACCGGATACCTGTCCGCCTTTCTCCCTTCGGGAAGCGTGGCGCTTTCTCATAGCTCACGCTGTAGGTATCTCAGTTCGGTGTAGGTCGTTCGCTCCAAGCTGGGCTGTGTGCACGAACCCCCCGTTCAGCCCGACCGCTGCGCCTTATCCGGTAACTATCGTCTTGAGTCCAACCCGGTAAGACACGACTTATCGCCACTGGCAGCAGCCACTGGTAACAGGATTAGCAGAGCGAGGTATGTAGGCGGTGCTACAGAGTTCTTGAAGTGGTGGCCTAACTACGGCTACACTAGAAGGACAGTATTTGGTATCTGCGCTCTGCTGAAGCCAGTTACCTTCGGAAAAAGAGTTGGTAGCTCTTGATCCGGCAAACAAACCACCGCTGGTAGCGGTGGTTTTTTTGTTTGCAAGCAGCAGATTACGCGCAGAAAAAAAGGATCTCAAGAAGATCCTTTGATCTTTTCTACGGGGTCTGACGCTCAGTGGAACGAAAACTCACGTTAAGGGATTTTGGTCATGATTAACCCTAGAAAGATAATCATATTGTGACGTACGTTAAAGATAATCATGCGTAAAATTGACGCATGTGTTTTATCGGTCTGTATATCGAGGTTTATTTATTAATTTGAATAGATATTAAGTTTTATTATATTTACACTTACATACTAATAATAAATTCAACAAACAATTTATTTATGTTTATTTATTTATTAAAAAAAAACAAAAACTCAAAATTTCTTCTATAAAGTAACAAA(6) ACTTTTAAACATTCTCTCTTTTACAAAAATAAACTTATTTTGTACTTTAAAAACAGTCATGTTGTATTATAAAATAAGTAATTAGCTTAACCTATACATAATAGAAACAAATTATACTTATTAGTCAGTCAGAAACAACTTTGGCACATATCAATATTATGCTCTCGTTAATTAA (서열번호 148)
- (1) CMV Promoter; (2) PE2; (3) EF1alpha Promoter; (4) Puromycin resistance (5) ITR (6) ITR
pRG2-epegRNA 전체 서열 및 포함된 각 요소
- 전체 서열
GACGAAGACTCAATTGTCGATTAGTGAACGGATCTCGACGGTATCGATCACGAGACTAGCCTCGAGCGGCCGCCCCCTTCACC(1) GAGGGCCTATTTCCCATGATTCCTTCATATTTGCATATACGATACAAGGCTGTTAGAGAGATAATTGGAATTAATTTGACTGTAAACACAAAGATATTAGTACAAAATACGTGACGTAGAAAGTAATAATTTCTTGGGTAGTTTGCAGTTTTAAAATTATGTTTTAAAATGGACTATCATATGCTTACCGTAACTTGAAAGTATTTCGATTTCTTGGCTTTATATATCTTGTGGAAAGGACGAAACA(2) CCGGAGACCACATTTCCCCGAAAAGTGCCACCTGACGTCTAAGAAACCATTATTATCATGACATTAACCTATAAAAATAGGCGTATCACGAGGCCCTTTCGTCTCGCGCGTTTCGGTGATGACGGTGAAAACCTCTGACACATGCAGCTCCCGGAGACGGTCACAGCTTGTCTGTAAGCGGATGCCGGGAGCAGACAAGCCCGTCAGGGCGCGTCAGCGGGTGTTGGCGGGTGTCGGGGCTGGCTTAACTATGCGGCATCAGAGCAGATTGTACTGAGAGTGCACCATATGCGGTGTGAAATACCGCACAGATGCGTAAGGAGAAAATACCGCATCAGGCGCCATTCGCCATTCAGGCTGCGCAACTGTTGGGAAGGGCGATCGGTGCGGGCCTCTTCGCTATTACGCCAGCTGGCGAAAGGGGGATGTGCTGCAAGGCGATTAAGTTGGGTAACGCCAGGGTTTTCCCAGTCACGACGTTGTAAAACGACGGCCAGTGCCAAGCTTGCATGCCTGCAGGTCGACTCTAGAGGATCCCCGGGTACCGAGCTCGAATTCGTAATCATGGTCATAGCTGTTTCCTGTGTGAAATTGTTATCCGCTCACAATTCCACACAACATACGAGCCGGAAGCATAAAGTGTAAAGCCTGGGGTGCCTAATAGATCCGGTCTCC(3) GTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCGGAGACG(4) TGTCTGTAAGCGGATGCCGGGAGCAGACAAGCCCGTCAGGGCGCGTCAGCGGGTGTTGGCGGGTGTCGGGGCTGGCTTAACTATGCGGCATCAGAGCAGATTGTACTGAGAGTGCACCATATGCGGTGTGAAATACCGCACAGATGCGTAAGGAGAAAATACCGCATCAGGCGCCATTCGCCATTCAGGCTGCGCAACTGTTGGGAAGGGCGATCGGTGCGGGCCTCTTCGCTATTACGCCAGCTGGCGAAAGGGGGATGTGCTGCAAGGCGATTAAGTTGGGTAACGCCAGGGTTTTCCCAGTCACGACGTTGTAAAACGACGGCCAGTGCCAAGCTTGCATGCCTGCAGGTCGACTCTAGAGGATCCCCGGGTACCGAGCTCGAATTCGTAATCATGGTCATAGCTGTTTCCTGTGTGAAATTGTTATCCGCTCACAATTCCACACAACATACGAGCCGGCGTCTCC(5) CGCGGTTCTATCTAGTTACGCGTTAAACCAACTAGAATTTTTTAGATATACGCGTTGACATTGATTATTGACTAGTTGTCTTCCTGCATTAATGAATCGGCCAACGCGCGGGGAGAGGCGGTTTGCGTATTGGGCGCTCTTCCGCTTCCTCGCTCACTGACTCGCTGCGCTCGGTCGTTCGGCTGCGGCGAGCGGTATCAGCTCACTCAAAGGCGGTAATACGGTTATCCACAGAATCAGGGGATAACGCAGGAAAGAAC(6) ATGTGAGCAAAAGGCCAGCAAAAGGCCAGGAACCGTAAAAAGGCCGCGTTGCTGGCGTTTTTCCATAGGCTCCGCCCCCCTGACGAGCATCACAAAAATCGACGCTCAAGTCAGAGGTGGCGAAACCCGACAGGACTATAAAGATACCAGGCGTTTCCCCCTGGAAGCTCCCTCGTGCGCTCTCCTGTTCCGACCCTGCCGCTTACCGGATACCTGTCCGCCTTTCTCCCTTCGGGAAGCGTGGCGCTTTCTCAATGCTCACGCTGTAGGTATCTCAGTTCGGTGTAGGTCGTTCGCTCCAAGCTGGGCTGTGTGCACGAACCCCCCGTTCAGCCCGACCGCTGCGCCTTATCCGGTAACTATCGTCTTGAGTCCAACCCGGTAAGACACGACTTATCGCCACTGGCAGCAGCCACTGGTAACAGGATTAGCAGAGCGAGGTATGTAGGCGGTGCTACAGAGTTCTTGAAGTGGTGGCCTAACTACGGCTACACTAGAAGGACAGTATTTGGTATCTGCGCTCTGCTGAAGCCAGTTACCTTCGGAAAAAGAGTTGGTAGCTCTTGATCCGGCAAACAAACCACCGCTGGTAGCGGTGGTTTTTTTGTTTGCAAGCAGCAGATTACGCGCAGAAAAAAAGGATCTCAAGAAGATCCTTTGATCTTTTCTACGGGGTCTGACGCTCAGTGGAACGAAAACTCACGTTAAGGGATTTTGGTCATGAGATTATCAAAAAGGATCTTCACCTAGATCCTTTTAAATTAAAAATGAAGTTTTAAATCAATCTAAAGTATATATGAGTAAACTTGGTCTGACAG(7) TTACCAATGCTTAATCAGTGAGGCACCTATCTCAGCGATCTGTCTATTTCGTTCATCCATAGTTGCCTGACTCCCCGTCGTGTAGATAACTACGATACGGGAGGGCTTACCATCTGGCCCCAGTGCTGCAATGATACCGCGAGATCCACGCTCACCGGCTCCAGATTTATCAGCAATAAACCAGCCAGCCGGAAGGGCCGAGCGCAGAAGTGGTCCTGCAACTTTATCCGCCTCCATCCAGTCTATTAATTGTTGCCGGGAAGCTAGAGTAAGTAGTTCGCCAGTTAATAGTTTGCGCAACGTTGTTGCCATTGCTACAGGCATCGTGGTGTCACGCTCGTCGTTTGGTATGGCTTCATTCAGCTCCGGTTCCCAACGATCAAGGCGAGTTACATGATCCCCCATGTTGTGCAAAAAAGCGGTTAGCTCCTTCGGTCCTCCGATCGTTGTCAGAAGTAAGTTGGCCGCAGTGTTATCACTCATGGTTATGGCAGCACTGCATAATTCTCTTACTGTCATGCCATCCGTAAGATGCTTTTCTGTGACTGGTGAGTACTCAACCAAGTCATTCTGAGAATAGTGTATGCGGCGACCGAGTTGCTCTTGCCCGGCGTCAATACGGGATAATACCGCGCCACATAGCAGAACTTTAAAAGTGCTCATCATTGGAAAACGTTCTTCGGGGCGAAAACTCTCAAGGATCTTACCGCTGTTGAGATCCAGTTCGATGTAACCCACTCGTGCACCCAACTGATCTTCAGCATCTTTTACTTTCACCAGCGTTTCTGGGTGAGCAAAAACAGGAAGGCAAAATGCCGCAAAAAAGGGAATAAGGGCGACACGGAAATGTTGAATACTCATACTCTTCCTTTTTCAATATTATTGAAGCATTTATCAGGGTTATTGTCTCATGAGCGGATACATATTTGAATGTATTTAGAAAAATAAACAAATAGGGGTTCCGCGCACATTTCCCCGAAAAGTGCCACCTGACGTC (서열번호 149)
- (1) U6 promoter; (2) Stuffer; (3) sgRNA scaffold; (4) Stuffer; (5) tevopreQ1; (6) pUC origin; (7) Amp resistance
pAllin1-PE4 전체 서열 및 포함된 각 요소
- 전체 서열
CGATGTACGGGCCAGATATACGCGCGTATATCTGGCCCGTACATCGCGAATCTAG(1) AAAAAANNNNNNNNNNNNNNNNNNNNNNNNNNNNNGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGCCTTATTTTAACTTGCTATTTCTAGCTCTAAAACNNNNNNNNNNNNNNNNNNNCGGTGTTTC(2) GTCCTTTCCACAAGATATATAAAGCCAAGAAATCGAAATACTTTCAAGTTACGGTAAGCATATGATAGTCCATTTTAAAACATAATTTTAAAACTGCAAACTACCCAAGAAATTATTACTTTCTACGTCACGTATTTTGTACTAATATCTTTGTGTTTACAGTCAAATTAATTCCAATTATCTCTCTAACAGCCTTGTATCGTATATGCAAATATGAAGGAATCATGGGAAATAGGCCCTCCGCGTT(3) GACATTGATTATTGACTAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATCATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTGGTTTAGTGAACCGTCAGATCCGCTAGAGATCCGCGGCCGCTAATACGACTCACTATAGGGAGAGCCGCCACC(4) GGCCATGCTGGCTCTGGATAGCCCAGAAAGCGGCTGGACAGAAGAGGACGGACCTAAAGAGGGGCTGGCTGAATACATCGTGGAGTTCCTGAAGAAAAAGGCCGAGATGCTGGCCGACTACTTTTCTCTGGAAATCGACGAGGAAGGCAACCTGATCGGCCTGCCTCTGCTGATCGATAACTACGTGCCTCCCCTGGAAGGCCTGCCCATCTTCATCCTGAGACTGGCTACAGAGGTGAACTGGGACGAGGAAAAGGAATGCTTCGAGTCTCTGAGCAAGGAGTGCGCCATGTTCTATAGCATCAGAAAACAGTACATCTCTGAAGAGAGCACTCTGTCTGGCCAGCAGAGTGAAGTGCCCGGAAGCATCCCCAACAGCTGGAAGTGGACCGTGGAACACATCGTGTACAAGGCCCTGCGGAGCCACATTCTCCCTCCTAAGCACTTCACCGAGGACGGCAACATCCTGCAGCTGGCCAACCTGCCCGACCTTTATAAGGTTTTCTAACTCGAGCATGCATCTAGAGGGCCCTATTCTATAGTGTCACCTAAATGCTAGAGCTCGCTGATCAGCCTCGACTGTGCCTTCTAGTTGCCAGCCATCTGTTGTTTGCCCCTCCCCCGTGCCTTCCTTGACCCTGGAAGGTGCCACTCCCACTGTCCTTTCCTAATAAAATGAGGAAATTGCATCGCATTGTCTGAGTAGGTGTCATTCTATTCTGGGGGGTGGGGTGGGGCAGGACAGCAAGGGGGAGGATTGGGAAGACAATAGCAGGCATGCTGGGGA(5) GGATCTGCGATCGCTCCGGTGCCCGTCAGTGGGCAGAGCGCACATCGCCCACAGTCCCCGAGAAGTTGGGGGGAGGGGTCGGCAATTGAACGGGTGCCTAGAGAAGGTGGCGCGGGGTAAACTGGGAAAGTGATGTCGTGTACTGGCTCCGCCTTTTTCCCGAGGGTGGGGGAGAACCGTATATAAGTGCAGTAGTCGCCGTGAACGTTCTTTTTCGCAACGGGTTTGCCGCCAGAACACAGCTGAAGCTTCGAGGGGCTCGCATCTCTCCTTCACGCGCCCGCCGCCCTACCTGAGGCCGCCATCCACGCCGGTTGAGTCGCGTTCTGCCGCCTCCCGCCTGTGGTGCCTCCTGAACTGCGTCCGCCGTCTAGGTAAGTTTAAAGCTCAGGTCGAGACCGGGCCTTTGTCCGGCGCTCCCTTGGAGCCTACCTAGACTCAGCCGGCTCTCCACGCTTTGCCTGACCCTGCTTGCTCAACTCTACGTCTTTGTTTCGTTTTCTGTTCTGCGCCGTTACAGATCCAAGCTGTGACCGGCGCCTAC(6) ATGACCGAGTACAAGCCCACGGTGCGCCTCGCCACCCGCGACGACGTCCCCAGGGCCGTACGCACCCTCGCCGCCGCGTTCGCCGACTACCCCGCCACGCGCCACACCGTCGATCCAGACCGCCACATCGAGCGGGTCACCGAGCTGCAAGAACTCTTCCTCACGCGCGTCGGGCTCGACATCGGCAAGGTGTGGGTCGCGGACGACGGCGCCGCGGTGGCGGTCTGGACCACGCCGGAGAGCGTCGAAGCGGGGGCGGTGTTCGCCGAGATCGGCCCGCGCATGGCCGAGTTGAGCGGTTCCCGGCTGGCCGCGCAGCAACAGATGGAAGGTCTCCTGGCGCCGCACCGGCCCAAGGAGCCCGCGTGGTTCCTGGCCACCGTCGGCGTCTCGCCCGACCACCAGGGCAAGGGTCTGGGCAGCGCCGTCGTGCTCCCCGGAGTGGAGGCGGCCGAGCGCGCCGGGGTGCCCGCCTTCCTGGAGACCTCCGCGCCCCGCAACCTCCCCTTCTACGAGCGGCTCGGCTTCACCGTCACCGCCGACGTCGAGGTGCCCGAAGGACCGCGCACCTGGTGCATGACCCGCAAGCCCGGTGCCTGACCATCCGTAAGATGCTTTTCTGTGACTGGTGAGTACTCAACCAAGTCATTCTGAGAATAGTGTATGCGGCGACCGAGTTGCTCTTGCCCGGCGTCAATACGGGATAATACCGCGCCACATAGCAGAACTTTAAAAGTGCTCATCATTGGAAAACGTTCTTCGGGGCGAAAACTCTCAAGGATCTTACCGCTGTTGAGATCCAGTTCGATGTAACCCACTCGTGCACCCAACTGATCTTCAGCATCTTTTACTTTCACCAGCGTTTCTGGGTGAGCAAAAACAGGAAGGCAAAATGCCGCAAAAAAGGGAATAAGGGCGACACGGAAATGTTGAATACTCATACTCTTCCTTTTTCAATATTATTGAAGCATTTATCAGGGTTATTGTCTCATGAGCGGATACATATTTGAATGTATTTAGAAAAATAAACAAATAGGGGTTCCGCGAACTTGTTTATTGCAGCTTATAATGGTTACAAATAAAGCAATAGCATCACAAATTTCACAAATAAAGCATTTTTTTCACTGCATTCTAGTTGTGGTTTGTCCAAACTCATCAATGTATCTTATCATGTCTGG(7) cagctagccaacaagctcgtcatcgctttgcagaagagcagagaggatatgctcatcgtctaaagaactacccattTCTCCTGTTCCGACCCTGCCGCTTACCGGATACCTGTCCGCCTTTCTCCCTTCGGGAAGCGTGGCGCTTTCTCATAGCTCACGCTGTAGGTATCTCAGTTCGGTGTAGGTCGTTCGCTCCAAGCTGGGCTGTGTGCACGAACCCCCCGTTCAGCCCGACCGCTGCGCCTTATCCGGTAACTATCGTCTTGAGTCCAACCCGGTAAGACACGACTTATCGCCACTGGCAGCAGCCACTGGTAACAGGATTAGCAGAGCGAGGTATGTAGGCGGTGCTACAGAGTTCTTGAAGTGGTGGCCTAACTACGGCTACACTAGAAGGACAGTATTTGGTATCTGCGCTCTGCTGAAGCCAGTTACCTTCGGAAAAAGAGTTGGTAGCTCTTGATCCGGCAAACAAACCACCGCTGGTAGCGGTGGTTTTTTTGTTTGCAAGCAGCAGATTACGCGCAGAAAAAAAGGATCTCAAGAAGATCCTTTGATCTTTTCTACGGGGTCTGACGCTCAGTGGAACGAAAACTCACGTTAAGGGATTTTGGTCATGATTAACCCTAGAAAGATAATCATATTGTGACGTACGTTAAAGATAATCATGCGTAAAATTGACGCATGTGTTTTATCGGTCTGTATATCGAGGTTTATTTATTAATTTGAATAGATATTAAGTTTTATTATATTTACACTTACATACTAATAATAAATTCAACAAACAATTTATTTATGTTTATTTATTTATTAAAAAAAAACAAAAACTCAAAATTTCTTCTATAAAGTAACAAA(8) acttttaaacattctctcttttacaaaaataaacttattttgtactttaaaaacagtcatgttgtattataaaataagtaattagcttaacctatacataatagaaacaaattatacttattagtcagtcagaaacaaCTTTGGCACATATCAATATTATGCTCTCGTTAATTAA (서열번호 150)
- (1) pegRNA; (2) U6 Promoter; (3) CMV Promoter; (4) PE4; (5) EF1alpha Promoter; (6) Puromycin resistance; (7) ITR; (8) ITR
pAllin1-PE2-nuclease 전체 서열 및 포함된 각 요소
- 전체 서열
CGATGTACGGGCCAGATATACGCGCGTATATCTGGCCCGTACATCGCGAATCTAG(1) AAAAAANNNNNNNNNNNNNNNNNNNNNNNNNNNNNGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGCCTTATTTTAACTTGCTATTTCTAGCTCTAAAACNNNNNNNNNNNNNNNNNNNCGGTGTTTC(2) GTCCTTTCCACAAGATATATAAAGCCAAGAAATCGAAATACTTTCAAGTTACGGTAAGCATATGATAGTCCATTTTAAAACATAATTTTAAAACTGCAAACTACCCAAGAAATTATTACTTTCTACGTCACGTATTTTGTACTAATATCTTTGTGTTTACAGTCAAATTAATTCCAATTATCTCTCTAACAGCCTTGTATCGTATATGCAAATATGAAGGAATCATGGGAAATAGGCCCTCCGCGTT(3) GACATTGATTATTGACTAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATCATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTCTCTGGCTAACTAGAGAACCCACTGCTTACTGGCTTATCGAAATTTCCCTATCAGTGATAGAGATTGACATCCCTATCAGTGATAGAGATACTGAGCACATCAGCAGGACGCACTGACCAGGGAGACCCAAGCTTGCCACC(4) GCCCTACTAAAAGCCCTCTTTCTGCCCAAAAGACTTAGCATAATCCATTGTCCAGGACATCAAAAGGGACACAGCGCCGAGGCTAGAGGCAACCGGATGGCTGACCAAGCGGCCCGAAAGGCAGCCATCACAGAGACTCCAGACACCTCTACCCTCCTCATAGAAAATTCATCACCCTCTGGCGGCTCAAAAAGAACCGCCGACGGCAGCGAATTCGAGCCCAAGAAGAAGAGGAAAGTCTAACCGGTCATCATCACCATCACCATTGAGTTTTACCCCTACGACGTGCCCGACTACGCCTAATAACTCGAGCATGCATCTAGAGGGCCCTATTCTATAGTGTCACCTAAATGCTAGAGCTCGCTGATCAGCCTCGACTGTGCCTTCTAGTTGCCAGCCATCTGTTGTTTGCCCCTCCCCCGTGCCTTCCTTGACCCTGGAAGGTGCCACTCCCACTGTCCTTTCCTAATAAAATGAGGAAATTGCATCGCATTGTCTGAGTAGGTGTCATTCTATTCTGGGGGGTGGGGTGGGGCAGGACAGCAAGGGGGAGGATTGGGAAGACAATAGCAGGCATGCTGGGGA(5) GGATCTGCGATCGCTCCGGTGCCCGTCAGTGGGCAGAGCGCACATCGCCCACAGTCCCCGAGAAGTTGGGGGGAGGGGTCGGCAATTGAACGGGTGCCTAGAGAAGGTGGCGCGGGGTAAACTGGGAAAGTGATGTCGTGTACTGGCTCCGCCTTTTTCCCGAGGGTGGGGGAGAACCGTATATAAGTGCAGTAGTCGCCGTGAACGTTCTTTTTCGCAACGGGTTTGCCGCCAGAACACAGCTGAAGCTTCGAGGGGCTCGCATCTCTCCTTCACGCGCCCGCCGCCCTACCTGAGGCCGCCATCCACGCCGGTTGAGTCGCGTTCTGCCGCCTCCCGCCTGTGGTGCCTCCTGAACTGCGTCCGCCGTCTAGGTAAGTTTAAAGCTCAGGTCGAGACCGGGCCTTTGTCCGGCGCTCCCTTGGAGCCTACCTAGACTCAGCCGGCTCTCCACGCTTTGCCTGACCCTGCTTGCTCAACTCTACGTCTTTGTTTCGTTTTCTGTTCTGCGCCGTTACAGATCCAAGCTGTGACCGGCGCCTAC(6) ATGACCGAGTACAAGCCCACGGTGCGCCTCGCCACCCGCGACGACGTCCCCAGGGCCGTACGCACCCTCGCCGCCGCGTTCGCCGACTACCCCGCCACGCGCCACACCGTCGATCCAGACCGCCACATCGAGCGGGTCACCGAGCTGCAAGAACTCTTCCTCACGCGCGTCGGGCTCGACATCGGCAAGGTGTGGGTCGCGGACGACGGCGCCGCGGTGGCGGTCTGGACCACGCCGGAGAGCGTCGAAGCGGGGGCGGTGTTCGCCGAGATCGGCCCGCGCATGGCCGAGTTGAGCGGTTCCCGGCTGGCCGCGCAGCAACAGATGGAAGGTCTCCTGGCGCCGCACCGGCCCAAGGAGCCCGCGTGGTTCCTGGCCACCGTCGGCGTCTCGCCCGACCACCAGGGCAAGGGTCTGGGCAGCGCCGTCGTGCTCCCCGGAGTGGAGGCGGCCGAGCGCGCCGGGGTGCCCGCCTTCCTGGAGACCTCCGCGCCCCGCAACCTCCCCTTCTACGAGCGGCTCGGCTTCACCGTCACCGCCGACGTCGAGGTGCCCGAAGGACCGCGCACCTGGTGCATGACCCGCAAGCCCGGTGCCTGACCATCCGTAAGATGCTTTTCTGTGACTGGTGAGTACTCAACCAAGTCATTCTGAGAATAGTGTATGCGGCGACCGAGTTGCTCTTGCCCGGCGTCAATACGGGATAATACCGCGCCACATAGCAGAACTTTAAAAGTGCTCATCATTGGAAAACGTTCTTCGGGGCGAAAACTCTCAAGGATCTTACCGCTGTTGAGATCCAGTTCGATGTAACCCACTCGTGCACCCAACTGATCTTCAGCATCTTTTACTTTCACCAGCGTTTCTGGGTGAGCAAAAACAGGAAGGCAAAATGCCGCAAAAAAGGGAATAAGGGCGACACGGAAATGTTGAATACTCATACTCTTCCTTTTTCAATATTATTGAAGCATTTATCAGGGTTATTGTCTCATGAGCGGATACATATTTGAATGTATTTAGAAAAATAAACAAATAGGGGTTCCGCGAACTTGTTTATTGCAGCTTATAATGGTTACAAATAAAGCAATAGCATCACAAATTTCACAAATAAAGCATTTTTTTCACTGCATTCTAGTTGTGGTTTGTCCAAACTCATCAATGTATCTTATCATGTCTGGC(7) cagctagccaacaagctcgtcatcgctttgcagaagagcagagaggatatgctcatcgtctaaagaactacccattGAAGCTCCCTCGTGCGCTCTCCTGTTCCGACCCTGCCGCTTACCGGATACCTGTCCGCCTTTCTCCCTTCGGGAAGCGTGGCGCTTTCTCATAGCTCACGCTGTAGGTATCTCAGTTCGGTGTAGGTCGTTCGCTCCAAGCTGGGCTGTGTGCACGAACCCCCCGTTCAGCCCGACCGCTGCGCCTTATCCGGTAACTATCGTCTTGAGTCCAACCCGGTAAGACACGACTTATCGCCACTGGCAGCAGCCACTGGTAACAGGATTAGCAGAGCGAGGTATGTAGGCGGTGCTACAGAGTTCTTGAAGTGGTGGCCTAACTACGGCTACACTAGAAGGACAGTATTTGGTATCTGCGCTCTGCTGAAGCCAGTTACCTTCGGAAAAAGAGTTGGTAGCTCTTGATCCGGCAAACAAACCACCGCTGGTAGCGGTGGTTTTTTTGTTTGCAAGCAGCAGATTACGCGCAGAAAAAAAGGATCTCAAGAAGATCCTTTGATCTTTTCTACGGGGTCTGACGCTCAGTGGAACGAAAACTCACGTTAAGGGATTTTGGTCATGATTAACCCTAGAAAGATAATCATATTGTGACGTACGTTAAAGATAATCATGCGTAAAATTGACGCATGTGTTTTATCGGTCTGTATATCGAGGTTTATTTATTAATTTGAATAGATATTAAGTTTTATTATATTTACACTTACATACTAATAATAAATTCAACAAACAATTTATTTATGTTTATTTATTTATTAAAAAAAAACAAAAACTCAAAATTTCTTCTATAAAGTAACAAA(8) acttttaaacattctctcttttacaaaaataaacttattttgtactttaaaaacagtcatgttgtattataaaataagtaattagcttaacctatacataatagaaacaaattatacttattagtcagtcagaaacaaCTTTGGCACATATCAATATTATGCTCTCGTTAATTAA (서열번호 151)
- (1) pegRNA; (2) U6 Promoter; (3) CMV Promoter; (4) PE2-nuclease; (5) EF1alpha Promoter; (6) Puromycin resistance; (7) ITR; (8) ITR
pAllin1-PEmax-nuclease 전체 서열 및 포함된 각 요소
- 전체 서열
CGATGTACGGGCCAGATATACGCGCAATGTCAACGCGTATATCT(1) AAAAAATTCTAGTTGGTTTAACGCGTAACTAGATAGAACCGCGNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGCCTTATTTTAACTTGCTATTTCTAGCTCTAAAACNNNNNNNNNNNNNNNNNNNCGGTGTTTC(2) GTCCTTTCCACAAGATATATAAAGCCAAGAAATCGAAATACTTTCAAGTTACGGTAAGCATATGATAGTCCATTTTAAAACATAATTTTAAAACTGCAAACTACCCAAGAAATTATTACTTTCTACGTCACGTATTTTGTACTAATATCTTTGTGTTTACAGTCAAATTAATTCCAATTATCTCTCTAACAGCCTTGTATCGTATATGCAAATATGAAGGAATCATGGGAAATAGGCCCTCCGCGTT(3) GACATTGATTATTGACTAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATCATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTGGTTTAGTGAACCGTCAGATCCGCTAGAGATCCGCGGCCGCTAATACGACTCACTATAGGGAGAGCCGCCACC(4) GCCCTGTTTCTGCCCAAGCGGCTGAGCATCATCCACTGTCCTGGACACCAGAAGGGACACTCCGCCGAGGCAAGGGGCAATCGGATGGCCGACCAGGCCGCCAGAAAGGCTGCTATTACTGAAACTCCCGACACTTCCACTCTGCTGATTGAAAACTCCTCCCCTTCTGGCGGCTCAAAAAGAACCGCCGACGGCAGCGAATTCGAGTCTCCCAAGAAGAAGAGGAAAGTCGGCTCTGGCCCTGCCGCTAAGAGAGTGAAGCTGGACTAACCGGTCATCATCACCATCACCATTGAGTTTTACCCCTACGACGTGCCCGACTACGCCTAATAACTCGAGCATGCATCTAGAGGGCCCTATTCTATAGTGTCACCTAAATGCTAGAGCTCGCTGATCAGCCTCGACTGTGCCTTCTAGTTGCCAGCCATCTGTTGTTTGCCCCTCCCCCGTGCCTTCCTTGACCCTGGAAGGTGCCACTCCCACTGTCCTTTCCTAATAAAATGAGGAAATTGCATCGCATTGTCTGAGTAGGTGTCATTCTATTCTGGGGGGTGGGGTGGGGCAGGACAGCAAGGGGGAGGATTGGGAAGACAATAGCAGGCATGCTGGGGA(5) GGATCTGCGATCGCTCCGGTGCCCGTCAGTGGGCAGAGCGCACATCGCCCACAGTCCCCGAGAAGTTGGGGGGAGGGGTCGGCAATTGAACGGGTGCCTAGAGAAGGTGGCGCGGGGTAAACTGGGAAAGTGATGTCGTGTACTGGCTCCGCCTTTTTCCCGAGGGTGGGGGAGAACCGTATATAAGTGCAGTAGTCGCCGTGAACGTTCTTTTTCGCAACGGGTTTGCCGCCAGAACACAGCTGAAGCTTCGAGGGGCTCGCATCTCTCCTTCACGCGCCCGCCGCCCTACCTGAGGCCGCCATCCACGCCGGTTGAGTCGCGTTCTGCCGCCTCCCGCCTGTGGTGCCTCCTGAACTGCGTCCGCCGTCTAGGTAAGTTTAAAGCTCAGGTCGAGACCGGGCCTTTGTCCGGCGCTCCCTTGGAGCCTACCTAGACTCAGCCGGCTCTCCACGCTTTGCCTGACCCTGCTTGCTCAACTCTACGTCTTTGTTTCGTTTTCTGTTCTGCGCCGTTACAGATCCAAGCTGTGACCGGCGCCTAC(6) ATGACCGAGTACAAGCCCACGGTGCGCCTCGCCACCCGCGACGACGTCCCCAGGGCCGTACGCACCCTCGCCGCCGCGTTCGCCGACTACCCCGCCACGCGCCACACCGTCGATCCAGACCGCCACATCGAGCGGGTCACCGAGCTGCAAGAACTCTTCCTCACGCGCGTCGGGCTCGACATCGGCAAGGTGTGGGTCGCGGACGACGGCGCCGCGGTGGCGGTCTGGACCACGCCGGAGAGCGTCGAAGCGGGGGCGGTGTTCGCCGAGATCGGCCCGCGCATGGCCGAGTTGAGCGGTTCCCGGCTGGCCGCGCAGCAACAGATGGAAGGTCTCCTGGCGCCGCACCGGCCCAAGGAGCCCGCGTGGTTCCTGGCCACCGTCGGCGTCTCGCCCGACCACCAGGGCAAGGGTCTGGGCAGCGCCGTCGTGCTCCCCGGAGTGGAGGCGGCCGAGCGCGCCGGGGTGCCCGCCTTCCTGGAGACCTCCGCGCCCCGCAACCTCCCCTTCTACGAGCGGCTCGGCTTCACCGTCACCGCCGACGTCGAGGTGCCCGAAGGACCGCGCACCTGGTGCATGACCCGCAAGCCCGGTGCCTGACCATCCGTAAGATGCTTTTCTGTGACTGGTGAGTACTCAACCAAGTCATTCTGAGAATAGTGTATGCGGCGACCGAGTTGCTCTTGCCCGGCGTCAATACGGGATAATACCGCGCCACATAGCAGAACTTTAAAAGTGCTCATCATTGGAAAACGTTCTTCGGGGCGAAAACTCTCAAGGATCTTACCGCTGTTGAGATCCAGTTCGATGTAACCCACTCGTGCACCCAACTGATCTTCAGCATCTTTTACTTTCACCAGCGTTTCTGGGTGAGCAAAAACAGGAAGGCAAAATGCCGCAAAAAAGGGAATAAGGGCGACACGGAAATGTTGAATACTCATACTCTTCCTTTTTCAATATTATTGAAGCATTTATCAGGGTTATTGTCTCATGAGCGGATACATATTTGAATGTATTTAGAAAAATAAACAAATAGGGGTTCCGCGAACTTGTTTATTGCAGCTTATAATGGTTACAAATAAAGCAATAGCATCACAAATTTCACAAATAAAGCATTTTTTTCACTGCATTCTAGTTGTGGTTTGTCCAAACTCATCAATGTATCTTATCATGTCTGGC(7) cagctagccaacaagctcgtcatcgctttgcagaagagcagagaggatatgctcatcgtctaaagaactacccattGAAGCTCCCTCGTGCGCTCTCCTGTTCCGACCCTGCCGCTTACCGGATACCTGTCCGCCTTTCTCCCTTCGGGAAGCGTGGCGCTTTCTCATAGCTCACGCTGTAGGTATCTCAGTTCGGTGTAGGTCGTTCGCTCCAAGCTGGGCTGTGTGCACGAACCCCCCGTTCAGCCCGACCGCTGCGCCTTATCCGGTAACTATCGTCTTGAGTCCAACCCGGTAAGACACGACTTATCGCCACTGGCAGCAGCCACTGGTAACAGGATTAGCAGAGCGAGGTATGTAGGCGGTGCTACAGAGTTCTTGAAGTGGTGGCCTAACTACGGCTACACTAGAAGGACAGTATTTGGTATCTGCGCTCTGCTGAAGCCAGTTACCTTCGGAAAAAGAGTTGGTAGCTCTTGATCCGGCAAACAAACCACCGCTGGTAGCGGTGGTTTTTTTGTTTGCAAGCAGCAGATTACGCGCAGAAAAAAAGGATCTCAAGAAGATCCTTTGATCTTTTCTACGGGGTCTGACGCTCAGTGGAACGAAAACTCACGTTAAGGGATTTTGGTCATGATTAACCCTAGAAAGATAATCATATTGTGACGTACGTTAAAGATAATCATGCGTAAAATTGACGCATGTGTTTTATCGGTCTGTATATCGAGGTTTATTTATTAATTTGAATAGATATTAAGTTTTATTATATTTACACTTACATACTAATAATAAATTCAACAAACAATTTATTTATGTTTATTTATTTATTAAAAAAAAACAAAAACTCAAAATTTCTTCTATAAAGTAACAAA(8) acttttaaacattctctcttttacaaaaataaacttattttgtactttaaaaacagtcatgttgtattataaaataagtaattagcttaacctatacataatagaaacaaattatacttattagtcagtcagaaacaaCTTTGGCACATATCAATATTATGCTCTCGTTAATTAA (서열번호 152)
- (1) epegRNA; (2) U6 Promoter; (3) CMV Promoter; (4) PEmax-nuclease; (5) EF1alpha Promoter; (6) Puromycin resistance; (7) ITR; (8) ITR
레퍼런스
이하에서는, 본 명세서에서 참조된 레퍼런스 문헌의 일부를 개시한다. 본 명세서에서 참조된 문헌은 해당 참조와 관련된 단락에 언급되었거나, 또는 언급되지 않았을 수 있다.
1. Tsai, S.Q. et al. GUIDE-seq enables genome-wide profiling of off-target cleavage by CRISPR-Cas nucleases. Nat Biotechnol 33, 187-197 (2015).
2. Liang, S.Q. et al. Genome-wide detection of CRISPR editing in vivo using GUIDE-tag. Nat Commun 13, 437 (2022).
3. Yan, W.X. et al. BLISS is a versatile and quantitative method for genome-wide profiling of DNA double-strand breaks. Nat Commun 8, 15058 (2017).
4. Crosetto, N. et al. Nucleotide-resolution DNA double-strand break mapping by next-generation sequencing. Nat Methods 10, 361-365 (2013).
5. Wienert, B. et al. Unbiased detection of CRISPR off-targets in vivo using DISCOVER-Seq. Science 364, 286-289 (2019).
6. Wang, X. et al. Unbiased detection of off-target cleavage by CRISPR-Cas9 and TALENs using integrase-defective lentiviral vectors. Nat Biotechnol 33, 175-178 (2015).
7. Chiarle, R. et al. Genome-wide translocation sequencing reveals mechanisms of chromosome breaks and rearrangements in B cells. Cell 147, 107-119 (2011).
8. Kim, H.S. et al. CReVIS-Seq: A highly accurate and multiplexable method for genome-wide mapping of lentiviral integration sites. Mol Ther Methods Clin Dev 20, 792-800 (2021).
9. Breton, C., Clark, P.M., Wang, L., Greig, J.A. & Wilson, J.M. ITR-Seq, a next-generation sequencing assay, identifies genome-wide DNA editing sites in vivo following adeno-associated viral vector-mediated genome editing. BMC Genomics 21, 239 (2020).
10. Huang, H. et al. Tag-seq: a convenient and scalable method for genome-wide specificity assessment of CRISPR/Cas nucleases. Commun Biol 4, 830 (2021).
11. Dobbs, F.M. et al. Precision digital mapping of endogenous and induced genomic DNA breaks by INDUCE-seq. Nat Commun 13, 3989 (2022).
12. Kim, D. et al. Digenome-seq: genome-wide profiling of CRISPR-Cas9 off-target effects in human cells. Nat Methods 12, 237-243, 231 p following 243 (2015).
13. Kim, D. & Kim, J.S. DIG-seq: a genome-wide CRISPR off-target profiling method using chromatin DNA. Genome Res 28, 1894-1900 (2018).
14. Lazzarotto, C.R. et al. CHANGE-seq reveals genetic and epigenetic effects on CRISPR-Cas9 genome-wide activity. Nat Biotechnol 38, 1317-1327 (2020).
15. Tsai, S.Q. et al. CIRCLE-seq: a highly sensitive in vitro screen for genome-wide CRISPR-Cas9 nuclease off-targets. Nat Methods 14, 607-614 (2017).
16. Cameron, P. et al. Mapping the genomic landscape of CRISPR-Cas9 cleavage. Nat Methods 14, 600-606 (2017).
17. Bae, S., Park, J. & Kim, J.S. Cas-OFFinder: a fast and versatile algorithm that searches for potential off-target sites of Cas9 RNA-guided endonucleases. Bioinformatics 30, 1473-1475 (2014).
18. Concordet, J.P. & Haeussler, M. CRISPOR: intuitive guide selection for CRISPR/Cas9 genome editing experiments and screens. Nucleic Acids Res 46, W242-W245 (2018).
19. Montague, T.G., Cruz, J.M., Gagnon, J.A., Church, G.M. & Valen, E. CHOPCHOP: a CRISPR/Cas9 and TALEN web tool for genome editing. Nucleic Acids Res 42, W401-407 (2014).
20. Gillmore, J.D. et al. CRISPR-Cas9 In Vivo Gene Editing for Transthyretin Amyloidosis. N Engl J Med 385, 493-502 (2021).
21. Maeder, M.L. et al. Development of a gene-editing approach to restore vision loss in Leber congenital amaurosis type 10. Nat Med 25, 229-233 (2019).
22. Frangoul, H. et al. CRISPR-Cas9 Gene Editing for Sickle Cell Disease and beta-Thalassemia. N Engl J Med 384, 252-260 (2020).
23. Komor, A.C., Kim, Y.B., Packer, M.S., Zuris, J.A. & Liu, D.R. Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage. Nature 533, 420-424 (2016).
24. Gaudelli, N.M. et al. Programmable base editing of A*T to G*C in genomic DNA without DNA cleavage. Nature 551, 464-471 (2017).
25. Petri, K. et al. Global-scale CRISPR gene editor specificity profiling by ONE-seq identifies population-specific, variant off-target effects. bioRxiv, 2021.2004.2005.438458 (2021).
26. Lei, Z. et al. Detect-seq reveals out-of-protospacer editing and target-strand editing by cytosine base editors. Nat Methods 18, 643-651 (2021).
27. Kim, D. et al. Genome-wide target specificities of CRISPR RNA-guided programmable deaminases. Nat Biotechnol 35, 475-480 (2017).
28. Kim, D., Kim, D.E., Lee, G., Cho, S.I. & Kim, J.S. Genome-wide target specificity of CRISPR RNA-guided adenine base editors. Nat Biotechnol 37, 430-435 (2019).
29. Liang, P. et al. Genome-wide profiling of adenine base editor specificity by EndoV-seq. Nat Commun 10, 67 (2019).
30. Anzalone, A.V. et al. Search-and-replace genome editing without double-strand breaks or donor DNA. Nature 576, 149-157 (2019).
31. Kim, D.Y., Moon, S.B., Ko, J.H., Kim, Y.S. & Kim, D. Unbiased investigation of specificities of prime editing systems in human cells. Nucleic Acids Res 48, 10576-10589 (2020).
32. Jin, S. et al. Genome-wide specificity of prime editors in plants. Nat Biotechnol 39, 1292-1299 (2021).
33. Kim, D., Kang, B.C. & Kim, J.S. Identifying genome-wide off-target sites of CRISPR RNA-guided nucleases and deaminases with Digenome-seq. Nat Protoc 16, 1170-1192 (2021).
34. Li, X. et al. piggyBac transposase tools for genome engineering. Proc Natl Acad Sci U S A 110, E2279-2287 (2013).
35. Malinin, N.L. et al. Defining genome-wide CRISPR-Cas genome-editing nuclease activity with GUIDE-seq. Nat Protoc 16, 5592-5615 (2021).
36. Zheng, Z. et al. Anchored multiplex PCR for targeted next-generation sequencing. Nat Med 20, 1479-1484 (2014).
37. Iafrate, A.J., Le, L.P. & Zheng, Z., Vol. US 9.487,828 B2 (The General Hospital Corporation, Boston, MA (US), US; 2016).
38. Altschul, S.F., Gish, W., Miller, W., Myers, E.W. & Lipman, D.J. Basic local alignment search tool. J Mol Biol 215, 403-410 (1990).
39. Zhang, Z., Schwartz, S., Wagner, L. & Miller, W. A greedy algorithm for aligning DNA sequences. J Comput Biol 7, 203-214 (2000).
40. Hwang, G.H. et al. PE-Designer and PE-Analyzer: web-based design and analysis tools for CRISPR prime editing. Nucleic Acids Res 49, W499-W504 (2021).
41. Chen, P.J. et al. Enhanced prime editing systems by manipulating cellular determinants of editing outcomes. Cell 184, 5635-5652 e5629 (2021).
42. Adikusuma, F. et al. Optimized nickase- and nuclease-based prime editing in human and mouse cells. Nucleic Acids Res 49, 10785-10795 (2021).
43. Nelson, J.W. et al. Engineered pegRNAs improve prime editing efficiency. Nat Biotechnol (2021).
44. Liu, P. et al. Improved prime editors enable pathogenic allele correction and cancer modelling in adult mice. Nat Commun 12, 2121 (2021).
45. Choi, J. et al. Precise genomic deletions using paired prime editing. Nat Biotechnol (2021).
46. Lin, Q. et al. High-efficiency prime editing with optimized, paired pegRNAs in plants. Nat Biotechnol 39, 923-927 (2021).
47. Song, M. et al. Generation of a more efficient prime editor 2 by addition of the Rad51 DNA-binding domain. Nat Commun 12, 5617 (2021).
48. Lorenz, R. et al. ViennaRNA Package 2.0. Algorithms Mol Biol 6, 26 (2011).
49. Jang, H. et al. Application of prime editing to the correction of mutations and phenotypes in adult mice with liver and eye diseases. Nat Biomed Eng (2021).
50. Kim, Y. et al. Adenine base editing and prime editing of chemically derived hepatic progenitors rescue genetic liver disease. Cell Stem Cell 28, 1614-1624 e1615 (2021).
51. Schene, I.F. et al. Prime editing for functional repair in patient-derived disease models. Nat Commun 11, 5352 (2020).
52. Petri, K. et al. CRISPR prime editing with ribonucleoprotein complexes in zebrafish and primary human cells. Nat Biotechnol 40, 189-193 (2021).

Claims (49)

  1. 다음을 포함하는 프라임 에디팅 시스템을 이용한 게놈 편집 과정에서 발생하는 오프 타겟을 예측하는 방법:
    (a) 조작된 세포를 얻음,
    이때 상기 조작된 세포는 조작된 게놈 DNA를 포함하고, 이때 상기 조작된 게놈 DNA는 태그 서열을 포함하고, 이때 상기 조작된 게놈 DNA는 프라임 에디터 단백질 및 tpegRNA가 관여되는 다음을 포함하는 과정을 통해 생성됨:
    (i) Cas 단백질 및 역전사 효소를 포함하는 프라임 에디터 단백질 및 tpegRNA(tagmentation pegRNA)를 게놈 DNA와 접촉함, 이때 상기 tpegRNA는 스페이서 및 태그 주형을 포함하는 연장 영역을 포함함,
    (ii) 상기 tpegRNA의 상기 태그 주형을 역전사의 주형으로 하는 상기 역전사 효소에 의해 수행되는 역전사 과정을 통해 게놈 DNA 내에 태그 서열이 삽입됨;
    (b) 상기 조작된 게놈 DNA를 분석하여 태그맨테이션에 대한 정보를 얻음,
    이때 상기 태그멘테이션에 대한 정보는 태그 서열이 삽입된 게놈 DNA의 부위에 대한 정보를 포함함.
  2. 제1항에 있어서,
    상기 오프 타겟을 예측하는 방법은 다음을 더 포함하는, 오프 타겟을 예측하는 방법:
    상기 태그맨테이션에 대한 정보에 기초하여 오프 타겟에 대한 정보를 얻음, 이때 상기 오프 타겟에 대한 정보는 오프 타겟 후보의 존재 여부에 대한 정보 및 상기 오프 타겟 후보가 존재하는 경우 상기 오프 타겟 후보의 부위에 대한 정보를 포함함.
  3. 제1항에 있어서,
    상기 오프 타겟을 예측하는 방법은 다음을 더 포함하는, 오프 타겟을 예측하는 방법:
    온타겟에 대한 정보를 확인함 및 상기 온타겟에 대한 정보를 상기 태그맨테이션에 대한 정보와 비교함.
  4. 제1항에 있어서,
    상기 오프 타겟을 예측하는 방법은 다음을 더 포함하는, 오프 타겟을 예측하는 방법:
    온타겟에 대한 정보를 확인하고 및 상기 온타겟에 대한 정보를 상기 태그맨테이션에 대한 정보와 비교함을 통해, 오프 타겟 후보의 존재 여부에 대한 정보를 확인함.
  5. 제1항에 있어서,
    상기 태그 서열은 상기 tpegRNA의 상기 스페이서에 의해 지정되는 게놈 DNA 내의 영역에 삽입되는, 오프 타겟을 예측하는 방법.
  6. 제1항에 있어서,
    상기 태그 서열이 삽입된 부위는 오프 타겟 후보의 부위 또는 온타겟 부위와 연관되는, 오프 타겟을 예측하는 방법.
  7. 제1항에 있어서,
    상기 태그 서열이 삽입된 부위에 대한 정보는 상기 태그 서열이 위치하는 염색체 및 상기 염색체 상에서의 상기 태그 서열이 존재하는 부위에 대한 정보를 포함하는, 오프 타겟을 예측하는 방법.
  8. 제2항에 있어서,
    상기 오프 타겟 후보의 부위에 대한 정보는 각각의 오프 타겟 후보가 위치하는 염색체 및 상기 염색체 상에서의 오프 타겟 후보가 위치하는 부위에 대한 정보를 포함하는, 오프 타겟을 예측하는 방법.
  9. 제1항에 있어서,
    상기 태그맨테이션에 대한 정보는 다음을 더 포함하는, 오프 타겟을 예측하는 방법:
    태그 서열의 삽입 부위 별 태그 서열의 삽입율에 대한 정보.
  10. 제2항에 있어서,
    상기 오프 타겟에 대한 정보는 다음을 더 포함하는, 오프 타겟을 예측하는 방법:
    오프 타겟 후보에 대한 오프 타겟 예측 점수.
  11. 제2항에 있어서,
    상기 오프 타겟에 대한 정보는 다음을 더 포함하는, 오프 타겟을 예측하는 방법:
    예측된 오프 타겟 후보의 개수.
  12. 제1항에 있어서,
    상기 조작된 세포는 다음을 포함하는 방법에 의해 수득되는, 오프 타겟을 예측하는 방법:
    프라임 에디터 단백질 또는 이를 암호화하는 핵산 및 tpegRNA 또는 이를 암호화하는 핵산을 세포와 접촉함.
  13. 제1항에 있어서,
    상기 조작된 세포는 다음을 포함하는 방법에 의해 수득되는, 오프 타겟을 예측하는 방법:
    프라임 에디터 단백질 또는 이를 암호화하는 핵산 및 tpegRNA 또는 이를 암호화하는 핵산을 세포 내로 도입함.
  14. 제1항에 있어서,
    상기 오프 타겟을 예측하는 방법은 다음을 더 포함하는, 오프 타겟을 예측하는 방법:
    상기 조작된 세포로부터 DNA를 얻음, 이때 상기 하나 이상의 조작된 세포로부터 DNA를 얻음은 (b) 이전에 수행됨.
  15. 제1항에 있어서,
    tpegRNA는 다음을 포함하는, 오프 타겟을 예측하는 방법:
    스페이서; gRNA 코어; 및 프라이머 결합 부, 태그 주형, 및 역전사 주형을 포함하는 연장 영역.
  16. 제15항에 있어서,
    상기 tpegRNA의 역전사 주형은 편집 주형 및 상동성 영역을 포함하는, 오프 타겟을 예측하는 방법.
  17. 제15항에 있어서,
    상기 조작된 게놈 DNA는 편집을 포함하는, 오프 타겟을 예측하는 방법.
  18. 제1항에 있어서,
    상기 스페이서, 상기 gRNA 코어, 및 상기 연장 영역은, 5'에서 3' 방향으로, 상기 스페이서, 상기 gRNA 코어, 및 상기 연장 영역의 순서로 위치하는, 오프 타겟을 예측하는 방법.
  19. 제1항에 있어서,
    상기 태그 주형은 상기 연장 영역 상에서 프라이머 결합 부 및 역전사 주형의 사이에 위치하는, 오프 타겟을 예측하는 방법.
  20. 제1항에 있어서,
    상기 tpegRNA는 RNA 보호 모티프를 포함하는 3' 엔지니어링 영역을 더 포함하는, 오프 타겟을 예측하는 방법.
  21. 제1항에 있어서,
    상기 오프 타겟을 예측하는 방법은 다음을 더 포함하는, 오프 타겟을 예측하는 방법:
    미리 결정된 프라임 에디팅 시스템을 확인함, 이때 상기 미리 결정된 프라임 에디팅 시스템을 확인함은 다음 중 하나 이상을 포함함:
    미리 결정된 세포에 대한 정보, 미리 결정된 pegRNA에 대한 정보, 및 미리 결정된 프라임 에디터 단백질에 대한 정보.
  22. 제21항에 있어서,
    상기 미리 결정된 세포는 상기 오프 타겟을 예측하는 방법에 사용되는 세포와 다른 세포인, 오프 타겟을 예측하는 방법.
  23. 제21항에 있어서,
    상기 tpegRNA의 스페이서의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 스페이서 서열과 동일하고,
    상기 tpegRNA의 프라이머 결합 부의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 프라이머 결합 부의 서열과 동일한, 오프 타겟을 예측하는 방법.
  24. 제21항에 있어서,
    상기 tpegRNA의 스페이서의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 스페이서 서열과 동일하고,
    상기 tpegRNA의 프라이머 결합 부의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 프라이머 결합 부의 서열과 동일하고,
    상기 tpegRNA의 역전사 주형의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 역전사 주형의 서열과 동일한, 오프 타겟을 예측하는 방법.
  25. 제21항에 있어서,
    상기 오프 타겟을 예측하는 방법에 사용되는 상기 프라임 에디터 단백질은 상기 미리 결정된 프라임 에디터 단백질과 동일하거나 또는 다른 것인, 오프 타겟을 예측하는 방법.
  26. 제1항에 있어서,
    상기 태그 주형의 길이는 5 내지 60nt인, 오프 타겟을 예측하는 방법.
  27. 제1항에 있어서,
    상기 태그 주형의 길이는 10 내지 50nt인, 오프 타겟을 예측하는 방법.
  28. 제1항에 있어서,
    상기 프라임 에디터 단백질은 DSB(double-strand break) 활성을 갖는 Cas 단백질을 포함하는 PE-뉴클레아제인, 오프 타겟을 예측하는 방법.
  29. 제1항에 있어서,
    상기 프라임 에디터 단백질은 PEmax-뉴클레아제인, 오프 타겟을 예측하는 방법.
  30. 제1항에 있어서,
    상기 프라임 에디터 단백질에 포함된 Cas 단백질은 닉카제인, 오프 타겟을 예측하는 방법.
  31. 제1항에 있어서,
    상기 프라임 에디터 단백질은 PE2 프라임 에디터 단백질인, 오프 타겟을 예측하는 방법.
  32. 제1항에 있어서,
    게놈 DNA의 조작에는 dnMLH1, gRNA, 및 추가의 Cas 단백질, 및 추가의 프라임 에디터 단백질 중 어느 하나 이상이 추가로 관여되는, 오프 타겟을 예측하는 방법.
  33. 제1항에 있어서,
    (b)는 다음을 포함하는, 오프 타겟을 예측하는 방법:
    상기 조작된 게놈 DNA를 태그-특이적 분석함.
  34. 제1항에 있어서,
    (b)는 다음을 포함하는, 오프 타겟을 예측하는 방법:
    상기 조작된 게놈 DNA를 시퀀싱함.
  35. 제1항에 있어서,
    (b)는 다음을 포함하는, 오프 타겟을 예측하는 방법:
    상기 조작된 게놈 DNA로부터 태그-특이적 라이브러리를 생성함; 태그-특이적 라이브러리를 증폭하여 증폭된 태그-특이적 라이브러리를 생성함; 및 상기 증폭된 태그-특이적 라이브러리를 시퀀싱함.
  36. 다음을 포함하는 프라임 에디팅 시스템을 이용한 게놈 편집 과정에서 발생하는 오프 타겟을 예측하는 방법:
    (a) 하나 이상의 조작된 세포를 포함하는 세포 집단을 생성함,
    이때 상기 조작된 세포는 조작된 게놈 DNA를 포함하고, 이때 상기 조작된 게놈 DNA는 하나 이상의 태그 서열을 포함하고, 이때 상기 조작된 게놈 DNA는 프라임 에디터 단백질 및 tpegRNA가 관여되는 다음을 포함하는 과정을 통해 생성됨:
    (i) Cas 단백질 및 역전사 효소를 포함하는 프라임 에디터 단백질 및 tpegRNA (tagmentation pegRNA)를 세포의 게놈 DNA와 접촉함, 이때 상기 tpegRNA는 스페이서 및 태그 주형을 포함하는 연장 영역을 포함함,
    (ii) 게놈 DNA 내에 태그 서열이 삽입됨, 이때 상기 태그 서열의 삽입은 상기 tpegRNA의 상기 태그 주형을 역전사 주형으로 하는 상기 역전사 효소에 의해 수행되는 역전사 과정을 통해 달성됨;
    (b) 상기 하나 이상의 조작된 세포의 상기 조작된 게놈 DNA를 시퀀싱을 포함하는 과정을 통해 분석하여, 태그맨테이션에 대한 정보를 얻음,
    이때 상기 태그맨테이션에 대한 정보는 하나 이상의 태그 서열이 삽입된 각 부위에 대한 정보를 포함함; 및
    (c) 상기 태그맨테이션에 대한 정보에 기초하여 오프 타겟에 대한 정보를 얻음,
    이때 상기 오프 타겟에 대한 정보는 오프 타겟 후보의 존재 여부에 대한 정보 및 하나 이상의 오프 타겟 후보의 부위에 대한 정보를 포함함.
  37. 다음을 포함하는 tpegRNA (tagmentation pegRNA):
    스페이서; gRNA 코어; 태그 주형을 포함하는 연장 영역.
  38. 제37항에 있어서,
    상기 스페이서, 상기 gRNA 코어, 및 상기 태그 주형을 포함하는 연장 영역은 5'에서 3' 방향으로, 상기 스페이서, 상기 gRNA 코어, 및 상기 태그 주형을 포함하는 연장 영역의 순서로 상기 tpegRNA 상에 위치하는 것을 특징으로 하는, tpegRNA.
  39. 제37항에 있어서,
    상기 연장 영역은 상기 태그 주형, 프라이머 결합 부, 및 역전사 주형을 포함하는 것을 특징으로 하는, tpegRNA.
  40. 제39항에 있어서,
    상기 태그 주형은 상기 프라이머 결합 부 및 상기 역전사 주형 사이에 위치하는 것을 특징으로 하는, tpegRNA.
  41. 제39항에 있어서,
    상기 역전사 주형은 상기 태그 주형 및 상기 프라이머 결합 부 사이에 위치하는 것을 특징으로 하는, tpegRNA
  42. 제39항에 있어서,
    상기 프라이머 결합 부, 상기 태그 주형, 상기 역전사 주형은, 5'에서 3' 방향으로, 상기 역전사 주형, 상기 태그 주형, 및 상기 프라이머 결합 부의 순서로 상기 연장 영역 상에 위치하는 것을 특징으로 하는, tpegRNA.
  43. 제39항에 있어서,
    상기 역전사 주형은 편집 주형 및 상동성 영역을 포함하는 것을 특징으로 하는, tpegRNA.
  44. 제37항에 있어서,
    상기 태그 주형은 5 내지 60nt의 길이를 가지는 것을 특징으로 하는, tpegRNA.
  45. 제37항에 있어서,
    상기 태그 주형은 10 내지 50nt의 길이를 가지는 것을 특징으로 하는, tpegRNA.
  46. 제37항에 있어서,
    상기 tpegRNA는 RNA 보호 모티프를 포함하는 3' 엔지니어링 영역을 더 포함하는, tpegRNA.
  47. 제46항에 있어서,
    상기 RNA 보호 모티프는 10 내지 60nt의 길이를 가지는 것을 특징으로 하는, tpegRNA.
  48. 제47항에 있어서,
    상기 tpegRNA는 100 내지 350nt의 길이를 가지는 것을 특징으로 하는, tpegRNA.
  49. 다음을 포함하는, 프라임 에디팅 시스템을 이용한 게놈 편집 과정에서 발생하는 오프 타겟을 예측하기 위한 조성물:
    제37항 내지 제48항 중 어느 하나의 tpegRNA; 및
    Cas 단백질 및 역전사 효소를 포함하는 프라임 에디터.
PCT/KR2023/001867 2022-02-08 2023-02-08 프라임 에디팅 시스템을 이용한 게놈 편집의 과정에서 발생 가능한 오프 타겟을 예측하는 방법 WO2023153811A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
AU2023218196A AU2023218196A1 (en) 2022-02-08 2023-02-08 Method for predicting off-target which can occur in process of editing genome by using prime editing system

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2022-0016521 2022-02-08
KR20220016521 2022-02-08
KR10-2022-0161819 2022-11-28
KR20220161819 2022-11-28

Publications (1)

Publication Number Publication Date
WO2023153811A1 true WO2023153811A1 (ko) 2023-08-17

Family

ID=87565269

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/001867 WO2023153811A1 (ko) 2022-02-08 2023-02-08 프라임 에디팅 시스템을 이용한 게놈 편집의 과정에서 발생 가능한 오프 타겟을 예측하는 방법

Country Status (3)

Country Link
KR (2) KR102667508B1 (ko)
AU (1) AU2023218196A1 (ko)
WO (1) WO2023153811A1 (ko)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5244797A (en) 1988-01-13 1993-09-14 Life Technologies, Inc. Cloned genes encoding reverse transcriptase lacking RNase H activity
WO2018231018A2 (ko) 2017-06-15 2018-12-20 주식회사 툴젠 간에서 목적하는 단백질 발현하기 위한 플랫폼
WO2020156575A1 (en) * 2019-02-02 2020-08-06 Shanghaitech University Inhibition of unintended mutations in gene editing
WO2020191249A1 (en) * 2019-03-19 2020-09-24 The Broad Institute, Inc. Methods and compositions for editing nucleotide sequences
US20200370067A1 (en) * 2019-05-21 2020-11-26 University Of Washington Method to identify and validate genomic safe harbor sites for targeted genome engineering
WO2021038547A2 (en) 2020-12-11 2021-03-04 Rise Research Institutes of Sweden AB Colour electrochromic display
EP3940078A1 (en) * 2019-02-28 2022-01-19 Center For Excellence In Brain Science And Intelligence Technology, Chinese Academy Of Sciences Off-target single nucleotide variants caused by single-base editing and high-specificity off-target-free single-base gene editing tool

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015113063A1 (en) * 2014-01-27 2015-07-30 Georgia Tech Research Corporation Methods and systems for identifying crispr/cas off-target sites

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5244797A (en) 1988-01-13 1993-09-14 Life Technologies, Inc. Cloned genes encoding reverse transcriptase lacking RNase H activity
US5244797B1 (en) 1988-01-13 1998-08-25 Life Technologies Inc Cloned genes encoding reverse transcriptase lacking rnase h activity
WO2018231018A2 (ko) 2017-06-15 2018-12-20 주식회사 툴젠 간에서 목적하는 단백질 발현하기 위한 플랫폼
WO2020156575A1 (en) * 2019-02-02 2020-08-06 Shanghaitech University Inhibition of unintended mutations in gene editing
EP3940078A1 (en) * 2019-02-28 2022-01-19 Center For Excellence In Brain Science And Intelligence Technology, Chinese Academy Of Sciences Off-target single nucleotide variants caused by single-base editing and high-specificity off-target-free single-base gene editing tool
WO2020191249A1 (en) * 2019-03-19 2020-09-24 The Broad Institute, Inc. Methods and compositions for editing nucleotide sequences
WO2020191233A1 (en) 2019-03-19 2020-09-24 The Broad Institute, Inc. Methods and compositions for editing nucleotide sequences
US20200370067A1 (en) * 2019-05-21 2020-11-26 University Of Washington Method to identify and validate genomic safe harbor sites for targeted genome engineering
WO2021038547A2 (en) 2020-12-11 2021-03-04 Rise Research Institutes of Sweden AB Colour electrochromic display

Non-Patent Citations (34)

* Cited by examiner, † Cited by third party
Title
"The Cambridge Dictionary of Science and Technology", 1988
ABUDAYYEH, OMAR O. ET AL.: "C2c2 is a single-component programmable RNA-guided RNA-targeting CRISPR effector", SCIENCE, vol. 353, no. 6299, 2016, pages aaf5573, XP055407082, DOI: 10.1126/science.aaf5573
ADIKUSUMA, FATWA ET AL.: "Optimized nickase-and nuclease-based prime editing in human and mouse cells", NUCLEIC ACIDS RESEARCH, vol. 49, no. 18, 2021, pages 10785 - 10795
ANZALONE, ANDREW V. ET AL.: "Search-and-replace genome editing without double-strand breaks or donor DNA", NATURE, vol. 576, no. 7785, 2019, pages 149 - 157, XP055980447, DOI: 10.1038/s41586-019-1711-4
BAE, SANGSUJEONGBIN PARKJIN-SOO KIM: "Cas-OFFinder: a fast and versatile algorithm that searches for potential off-target sites of Cas9 RNA-guided endonucleases", BIOINFORMATICS, vol. 30, no. 10, 2014, pages 1473 - 1475, XP055196964, DOI: 10.1093/bioinformatics/btu048
BEBENEK, K. ET AL.: "Error-prone polymerization by HIV-1 reverse transcriptase. Contribution of template-primer misalignment, miscoding, and termination probability to mutational hot spots", JOURNAL OF BIOLOGICAL CHEMISTRY, vol. 268, no. 14, 1993, pages 10324 - 10334
CAMERON, PETER ET AL.: "Mapping the genomic landscape of CRISPR-Cas9 cleavage", NATURE METHODS, vol. 14, no. 6, 2017, pages 600 - 606, XP055852913, DOI: 10.1038/nmeth.4284
CHEN, PETER J. ET AL.: "Enhanced prime editing systems by manipulating cellular determinants of editing outcomes", CELL, vol. 184, no. 22, 2021, pages 5635 - 5652, XP055915530, DOI: 10.1016/j.cell.2021.09.018
CHYLINSKI, KRZYSZTOFANAIS LE RHUNEMMANUELLE CHARPENTIER: "The tracrRNA and Cas9 families of type II CRISPR-Cas immunity systems", RNA BIOLOGY, vol. 10, no. 5, 2013, pages 726 - 737, XP055116068, DOI: 10.4161/rna.24321
DELTCHEVA, ELITZA ET AL.: "CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III", NATURE, vol. 471, no. 7340, 2011, pages 602 - 607, XP055619637, DOI: 10.1038/nature09886
FERRETTI, JOSEPH J. ET AL.: "Complete genome sequence of an M1 strain of Streptococcus pyogenes", PROCEEDINGS OF THE NATIONAL ACADEMY OF SCIENCES, vol. 98, no. 8, 2001, pages 4658 - 4663
GERARD, GARY F. ET AL.: "Influence on stability in Escherichia coli of the carboxy-terminal structure of cloned Moloney murine leukemia virus reverse transcriptase", DNA, vol. 5, no. 4, 1986, pages 271 - 279
HALEMARHAM: "The Harper Collins Dictionary of Biology", 1991, SPRINGER VERLAG
JIN, SHUAI ET AL.: "Genome-wide specificity of prime editors in plants", NATURE BIOTECHNOLOGY, vol. 39, no. 10, 2021, pages 1292 - 1299, XP037583600, DOI: 10.1038/s41587-021-00891-x
JINEK, MARTIN ET AL.: "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity", SCIENCE, vol. 337, no. 6096, 2012, pages 816 - 821, XP093068947, DOI: 10.1126/science.1225829
KANG SEUNG-HUN, LEE WI-JAE, AN JU-HYUN, LEE JONG-HEE, KIM YOUNG-HYUN, KIM HANSEOP, OH YEOUNSUN, PARK YOUNG-HO, JIN YEUNG BAE, JUN : "Prediction-based highly sensitive CRISPR off-target validation using target-specific DNA enrichment", NATURE COMMUNICATIONS, vol. 11, no. 1, 1 December 2020 (2020-12-01), XP055923681, DOI: 10.1038/s41467-020-17418-8 *
KIM, DAESIK ET AL.: "Digenome-seq: genome-wide profiling of CRISPR-Cas9 off-target effects in human cells", NATURE METHODS, vol. 12, no. 3, 2015, pages 237 - 243, XP055554961, DOI: 10.1038/nmeth.3284
KIM, DO YON ET AL.: "Unbiased investigation of specificities of prime editing systems in human cells", NUCLEIC ACIDS RESEARCH, vol. 48, no. 18, 2020, pages 10576 - 10589
KOTEWICZ, MICHAEL L. ET AL.: "Cloning and overexpression of Moloney murine leukemia virus reverse transcriptase in Escherichia coli", GENE, vol. 35, no. 3, 1985, pages 249 - 258, XP001317059
KUMAR, KISHORE R.MARK J. COWLEYRYAN L. DAVIS: "Seminars in thrombosis and hemostasis", vol. 45, 2019, THIEME MEDICAL PUBLISHERS, article "Next-generation sequencing and emerging technologies"
LEE ET AL., NANO LETT., vol. 12, 2012, pages 6322 - 6327
LIANG, SHUN-QING ET AL.: "Genome-wide detection of CRISPR editing in vivo using GUIDE-tag", NATURE COMMUNICATIONS, vol. 13, no. 1, 2022, pages 1 - 14
LIN, YANNI ET AL.: "CRISPR/Cas9 systems have off-target activity with insertions or deletions between target DNA and guide RNA sequences", NUCLEIC ACIDS RESEARCH, vol. 42, no. 11, 2014, pages 7473, XP055186074, DOI: 10.1093/nar/gku402
METZKER, MICHAEL L.: "Sequencing technologies-the next generation", NATURE REVIEWS GENETICS, vol. 11, no. 1, 2010, pages 31 - 46
NELSON, JAMES W. ET AL.: "Engineered pegRNAs improve prime editing efficiency", NATURE BIOTECHNOLOGY, vol. 40, no. 3, 2022, pages 402 - 410, XP093043230, DOI: 10.1038/s41587-021-01039-7
OAKES, BENJAMIN L. ET AL.: "CRISPR-Cas9 circular permutants as programmable scaffolds for genome modification", CELL, vol. 176, no. 1-2, 2019, pages 254 - 267, XP093120142, DOI: 10.1016/j.cell.2018.11.052
OAKES, BENJAMIN L.DANA C. NADLERDAVID F. SAVAGE: "Methods in enzymology", vol. 546, 2014, ACADEMIC PRESS, article "Protein engineering of Cas9 for enhanced function", pages: 491 - 511
PATEL, NIKESH ET AL.: "Flap endonucleases pass 5'-flaps through a flexible arch using a disorder-thread-order mechanism to confer specificity for free 5'-ends", NUCLEIC ACIDS RESEARCH, vol. 40, no. 10, 2012, pages 4507 - 4519
SANDER, JEFFRY D.J. KEITH JOUNG: "CRISPR-Cas systems for editing, regulating and targeting genomes", NATURE BIOTECHNOLOGY, 2014, pages 347 - 355, XP055481941, DOI: 10.1038/nbt.2842
SEBASTIAN-MARTIN, ALBA, VERONICA BARRIOLUENGO, AND LUIS MENENDEZ-ARIAS: "Transcriptional inaccuracy threshold attenuates differences in RNA-dependent DNA synthesis fidelity between retroviral reverse transcriptases", SCIENTIFIC REPORTS, vol. 8, no. 1, 2018, pages 1 - 13
SINGLETON ET AL.: "Dictionary of Microbiology and Molecular Biology", 1994
TSAI, SHENGDAR Q. ET AL.: "GUIDE-seq enables genome-wide profiling of off-target cleavage by CRISPR-Cas nucleases", NATURE BIOTECHNOLOGY, vol. 33, no. 2, 2015, pages 187 - 197, XP055555627, DOI: 10.1038/nbt.3117
TSUTAKAWA, SUSAN E. ET AL.: "Human flap endonuclease structures, DNA double-base flipping, and a unified understanding of the FEN1 superfamily", CELL, vol. 145, no. 2, 2011, pages 198 - 211, XP028194588, DOI: 10.1016/j.cell.2011.03.004
WANG, DANPHILLIP WL TAIGUANGPING GAO: "Adeno-associated virus vector as a platform for gene therapy delivery", NATURE REVIEWS DRUG DISCOVERY, vol. 18, no. 5, 2019, pages 358 - 378, XP055735836, DOI: 10.1038/s41573-019-0012-9

Also Published As

Publication number Publication date
KR102667508B1 (ko) 2024-06-11
KR20240073226A (ko) 2024-05-24
AU2023218196A1 (en) 2024-08-22
KR20230121565A (ko) 2023-08-18

Similar Documents

Publication Publication Date Title
WO2016021973A1 (ko) 캄필로박터 제주니 crispr/cas 시스템 유래 rgen을 이용한 유전체 교정
WO2019103442A2 (ko) CRISPR/Cpf1 시스템을 이용한 유전체 편집용 조성물 및 이의 용도
WO2016076672A1 (ko) 유전체에서 유전자 가위의 비표적 위치를 검출하는 방법
WO2019009682A2 (ko) 표적 특이적 crispr 변이체
US20200032294A1 (en) Somatic haploid human cell line
Li et al. Gene disruption through base editing‐induced messenger RNA missplicing in plants
AU2013335451C1 (en) Composition for cleaving a target DNA comprising a guide RNA specific for the target DNA and Cas protein-encoding nucleic acid or Cas protein, and use thereof
Perroud et al. Prime Editing in the model plant Physcomitrium patens and its potential in the tetraploid potato
WO2017217768A1 (ko) 온타겟 및 오프타겟의 다중 타겟 시스템을 이용하는, 표적 특이적 유전자 가위 스크리닝 방법 및 이의 용도
WO2017188797A1 (ko) In vivo에서 rna-가이드 뉴클레아제의 활성을 고처리량 방식으로 평가하는 방법
EP3194578A1 (en) Immune-compatible cells created by nuclease-mediated editing of genes encoding hla
WO2018231018A2 (ko) 간에서 목적하는 단백질 발현하기 위한 플랫폼
JP7138712B2 (ja) ゲノム編集のためのシステム及び方法
WO2018208067A1 (ko) 인위적으로 조작된 조작면역세포
WO2018088694A2 (ko) 인위적으로 조작된 sc 기능 조절 시스템
WO2022075816A1 (ko) Crispr/cas12f1(cas14a1) 시스템 효율화를 위한 엔지니어링 된 가이드 rna 및 이의 용도
WO2020235974A2 (ko) 단일염기 치환 단백질 및 이를 포함하는 조성물
WO2022075808A1 (ko) Crispr/cas12f1 시스템 효율화를 위한 u-rich tail을 포함하는 엔지니어링 된 가이드 rna 및 그 용도
WO2023153811A1 (ko) 프라임 에디팅 시스템을 이용한 게놈 편집의 과정에서 발생 가능한 오프 타겟을 예측하는 방법
WO2019066378A1 (ko) Factor viii 또는 factor ix 유전자가 녹아웃된 토끼, 이의 제조방법 및 그 용도
WO2023059115A1 (ko) 유전자 편집을 위한 target 시스템 및 이의 용도
WO2023153845A2 (ko) 상동지정복구를 위한 target 시스템 및 이를 이용한 유전자 편집 방법
WO2020055187A1 (ko) 유전자가 변이된 세포의 사멸 유도 조성물 및 상기 조성물을 이용한 유전자가 변형된 세포 사멸 유도 방법
WO2022158898A1 (ko) Francisella novicida cas9 모듈 기반의 역전사 효소를 사용한 유전체 치환 및 삽입 기술
WO2020218657A1 (ko) 표적 특이적 crispr 변이체

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23753159

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: AU23218196

Country of ref document: AU

ENP Entry into the national phase

Ref document number: 2023218196

Country of ref document: AU

Date of ref document: 20230208

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2023753159

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2023753159

Country of ref document: EP

Effective date: 20240909