WO2023132704A1 - 유전자 편집 과정에서 발생 가능한 오프 타겟을 예측하는 방법 - Google Patents

유전자 편집 과정에서 발생 가능한 오프 타겟을 예측하는 방법 Download PDF

Info

Publication number
WO2023132704A1
WO2023132704A1 PCT/KR2023/000332 KR2023000332W WO2023132704A1 WO 2023132704 A1 WO2023132704 A1 WO 2023132704A1 KR 2023000332 W KR2023000332 W KR 2023000332W WO 2023132704 A1 WO2023132704 A1 WO 2023132704A1
Authority
WO
WIPO (PCT)
Prior art keywords
target
cells
cas
seq
cell
Prior art date
Application number
PCT/KR2023/000332
Other languages
English (en)
French (fr)
Inventor
이정준
권정훈
김민영
조안나
김운기
김영호
Original Assignee
주식회사 툴젠
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 툴젠 filed Critical 주식회사 툴젠
Publication of WO2023132704A1 publication Critical patent/WO2023132704A1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]

Definitions

  • This application relates to a method for predicting off-targets that may occur in the process of gene editing.
  • the gene editing process may be, for example, a genomic DNA editing process using a CRISPR/Cas gene editing system.
  • off-target prediction tools systems developed to date have limitations.
  • cell-based methods sometimes have problems such as missing true off-target sites.
  • in vitro and in silico methods have problems such as showing too many false positive data points.
  • Off-target problems may exist in the process of editing the genome using gene editing tools (eg, CRISPR/Cas gene editing systems). These off-targets cause powerful side effects.
  • gene editing tools eg, CRISPR/Cas gene editing systems.
  • the present application provides a method for predicting off-targets generated in the process of gene editing using a gene editing system.
  • One embodiment of the present application provides a method for identifying information on off-targets generated during genome editing using a CRISPR/Cas genome editing system including:
  • physically disrupting the cells comprises passing the cells through a filter having pores, wherein the average diameter of the pores of the filter is smaller than the size of the cells.
  • a method for checking information about may be provided.
  • the force that causes the cells to pass through the filter may be pressure.
  • the average diameter of the pores of the filter may be 5 to 15 ⁇ m.
  • physically disrupting the first cells can be accomplished through the use of an extruder comprising a filter with pores.
  • the average diameter of the pores of the filter included in the extruder may be smaller than the size of the cells.
  • the average diameter of the pores of the filter may be 5 to 15 ⁇ m.
  • the information about the cleavage site may include one or more of the following:
  • a method of ascertaining information about an off target may be provided that further includes:
  • the information about the off-target candidate may include one or more of the following:
  • analyzing the composition to be analyzed may provide a method for confirming information on an off target, including the following: analyzing the cleaved genomic DNA included in the composition to be analyzed through sequencing. .
  • the analysis of the composition to be analyzed may provide a method for confirming information on off-targets, including the following: cleaved genomic DNA included in the composition to be analyzed is subjected to a PCR-based method. analyzed.
  • a membrane structure including a cell membrane of the cell is destroyed by physically destroying the cell, thereby preparing an environment in which the Cas / gRNA complex can contact the genomic DNA derived from the cell.
  • a method of checking information on an off-target may be provided.
  • a membrane structure including a nuclear membrane of the cell is destroyed by physically destroying the cell, thereby preparing an environment in which the Cas / gRNA complex can contact the genomic DNA derived from the cell.
  • a method of checking information on an off-target may be provided.
  • a method of ascertaining information about an off target may be provided that further includes:
  • Identification of a predetermined CRISPR/Cas genome editing system wherein the identification of the predetermined CRISPR/Cas genome editing system is (i) previously performed.
  • the predetermined CRISPR/Cas genome editing system comprises the use of a predetermined guide RNA having a predetermined guide sequence, wherein the predetermined guide sequence and the guide sequence of the guide RNA may be identical.
  • the predetermined CRISPR/Cas genome editing system comprises the use of a predetermined cell, wherein the predetermined cell and the cell may be the same.
  • the composition to be analyzed includes information on an off target, characterized in that it includes cleaved genomic DNA in which the genomic DNA of the physically destroyed cell is cleaved by the Cas / gRNA complex.
  • a verification method may be provided.
  • the concentration of the Cas protein included in the starting composition may be greater than or equal to 4000 nM and less than or equal to 6000 nM.
  • the concentration of the guide RNA included in the starting composition may be 4000 nM or more and 6000 nM or less.
  • the concentration of the Cas/gRNA complex included in the starting composition may be greater than or equal to 4000 nM and less than or equal to 6000 nM.
  • the concentration of said cells included in said starting composition may be 1X10 7 cells/mL.
  • the obtaining of the composition to be analyzed may provide a method for confirming information on an off-target, further comprising the following:
  • the obtaining of the composition to be analyzed may provide a method for confirming information on an off-target, further comprising the following:
  • the obtaining of the composition to be analyzed may provide a method for confirming information on an off-target, further comprising the following:
  • One embodiment of the present application provides a method for identifying information on off-targets generated during genome editing using a CRISPR/Cas genome editing system, including:
  • the elements of the starting composition pass through a filter having pores located between the first accommodating part of the extruder and the second accommodating part of the extruder through applied pressure, and pass from the first accommodating part to the second accommodating part. moving to the part, whereby the mixed solution is seated in the second accommodating part;
  • the cells which are elements larger in size than the diameter of the pores of the filter, pass through the pores of the filter while being destroyed by the applied pressure
  • genomic DNA is cleaved at one or more cleavage sites
  • the pressure applied to the first accommodating part may be generated by pushing a piston designed to apply pressure to the first accommodating part in the direction of the first accommodating part and the filter.
  • One embodiment of the present application provides a method for identifying information on off-targets generated during genome editing using a CRISPR/Cas genome editing system including:
  • the elements of the starting composition pass through a filter having pores located between the first accommodating part of the extruder and the second accommodating part of the extruder through applied pressure, and pass from the first accommodating part to the second accommodating part. moving to the part, whereby the mixed solution is seated in the second accommodating part;
  • the elements of the mixed solution included in the second accommodating portion pass through the filter having pores located between the first accommodating portion and the second accommodating portion through the applied pressure, and pass from the second accommodating portion to the first accommodating portion. moving, whereby the mixed liquid moved from the second accommodating portion through the filter by pressure from the first accommodating portion is seated, and
  • 0.5 represents the performance of a single process of (a) or (b),
  • the cells which are elements larger in size than the diameter of the pores of the filter, pass through the pores of the filter while being destroyed by the applied pressure
  • genomic DNA is cleaved at one or more cleavage sites
  • the pressure applied to the first receptacle is generated by pushing a piston designed to apply pressure to the first receptacle in the direction of the first receptacle and the filter, 2
  • the pressure applied to the accommodating part may be generated through a process of pushing a piston designed to apply pressure to the second accommodating part in the direction of the second accommodating part and the filter.
  • the present application provides a method for predicting off-targets that may occur during gene (eg, genome) editing.
  • the present application provides a method for identifying potential off-target candidates during genome editing.
  • This application provides a method for predicting an off-target that can be performed more conveniently.
  • the off-target prediction method of the present application has the advantages of the in vitro-based off-target prediction method and the cell-based off-target prediction method.
  • the off-target prediction method of the present application shows a smaller false positive rate.
  • the off-target prediction method of the present application shows a smaller miss rate. That is, when using the off-target prediction method of the present application, off-targets that may occur in the genome editing process can be easily and accurately predicted.
  • 01 relates to three categories (cell based, in vitro, and in silico) of off-target prediction methods.
  • 02 is an overview diagram of a method for predicting an off target, provided according to an embodiment of the present application.
  • 03 is a comparison result of off-target candidates predicted through each off-target prediction method (Digenome-seq, Extru-seq, GUIDE-seq, or in silico). Comparative experiments on off-target prediction systems were performed using sgRNAs targeting human PCSK9 and sgRNAs targeting human Albumin , respectively.
  • 05 shows the validation rates of top off-target sites predicted through in silico methods, GUIDE-seq, Digenome-seq, and Extru-seq. Results for sgRNA targeting human PCSK9 , sgRNA targeting human Albumin , sgRNA targeting mouse PCSK9 , and sgRNA targeting mouse Albumin are disclosed.
  • 07 is a comparison result of off-target candidates predicted through each off-target prediction method (Digenome-seq, Extru-seq, GUIDE-seq, and DIG-seq). Comparative experiments were performed on off-target prediction systems using sgRNAs targeting HBB .
  • FIG. 09 shows a comparison result for each off-target prediction method analyzed through the intersection of Venn diagrams ( FIGS. 03 to 04 and 06 to 07 ).
  • Figure 10 compares verification results with results for off-targets predicted by GUIDE-seq and Extru-seq methods.
  • Figure 10(a) discloses the results related to sgRNA targeting human PCSK9 .
  • Figure 10 (b) discloses the results related to sgRNA targeting human Albumin .
  • Figure 11 compares verification results with results for off-targets predicted by GUIDE-seq and Extru-seq methods.
  • Figure 11(c) discloses the results related to sgRNA targeting mouse PCSK9 .
  • Figure 11(d) discloses the results related to sgRNA targeting mouse Albumin .
  • Figure 12 compares verification results with results for off-targets predicted by GUIDE-seq and Extru-seq methods.
  • Figure 12(e) discloses the results related to sgRNA targeting human FANCF .
  • Figure 12 (f) discloses the results related to sgRNA targeting human VEGFA .
  • Figure 12(g) discloses the results related to sgRNA targeting human HBB .
  • Figure 16 shows ROC curves for each off-target prediction method.
  • Figure 16 (a) discloses the results related to sgRNA targeting human PCSK9 .
  • Figure 16 (b) discloses the results related to sgRNA targeting human Albumin .
  • FIG. 17 shows ROC curves for each off-target prediction method.
  • Figure 17 (c) discloses the results related to sgRNA targeting mouse PCSK9 .
  • Figure 17(d) discloses the results related to sgRNA targeting mouse Albumin .
  • Figure 18 shows ROC curves for each off-target prediction method.
  • Figure 18 (e) discloses the results related to sgRNA targeting human FANCF .
  • Figure 18 (f) discloses the results related to sgRNA targeting human VEGFA .
  • Figure 18(g) discloses the results related to sgRNA targeting human HBB .
  • FIG. 19 shows AUC calculated using the ROC curve data of FIGS. 16 to 18 .
  • AUC was calculated for each of GUIDE-seq, Digenome-seq, Extru-seq, CROP, CFD, and DIG-seq.
  • Figures 20 to 21 disclose the experimental conditions and the results of experiments performed to find optimization conditions for the average pore size of the filter, the Cas9 RNP concentration of the mixture, and the number of cells in Extru-seq.
  • Figures 22-23 disclose cleavage rates for on- and off-target sites recognized by sgRNAs targeting human PCSK9 sites, measured via quantitative PCR (qPCR). 22 to 23 are results obtained through Extru-seq.
  • 31 shows the cleavage rates of 7 on-target sites of each target obtained through manual calculation based on IGV analysis of qPCR and WGS data.
  • FIGS. 34 to 41 disclose sequence read results of off-target candidates predicted through GUIDE-seq.
  • FIGS. 34 and 35 show GUIDE-seq sequence read results obtained from HEK293T using PCSK9 -targeting sgRNA.
  • 36 and 37 are GUIDE-seq sequence read results obtained from HEK293T using sgRNA targeting Albumin .
  • 38 and 39 are sequence read results of GUIDE-seq obtained from NIH-3T3 using sgRNA targeting PCSK9 .
  • 40 and 41 show GUIDE-seq sequence read results obtained from NIH-3T3 using Albumin -targeting sgRNA.
  • FIGS. 42 and 43 are Manhattan plot results of Digenome-seq obtained from HEK293T using PCSK9 -targeting sgRNA.
  • 44 and 45 are Manhattan plot results of Digenome-seq obtained from HEK293T using Albumin -targeting sgRNA.
  • 46 and 47 are Manhattan plot results of Digenome-seq obtained from NIH-3T3 using PCSK9 -targeting sgRNA.
  • 48 and 49 are Manhattan plot results of Digenome-seq obtained from NIH-3T3 using Albumin -targeting sgRNA.
  • FIGS. 50 to 57 disclose Manhattan plot results of off-target candidates predicted through Extru-seq.
  • Y-axis represents DNA cleavage score.
  • FIGS. 50 and 51 are Manhattan plot results of Extru-seq obtained from HEK293T using PCSK9 -targeting sgRNA.
  • 52 and 53 are Manhattan plot results of Extru-seq obtained from HEK293T using Albumin -targeting sgRNA.
  • 54 and 55 are Manhattan plot results of Extru-seq obtained from NIH-3T3 using PCSK9 -targeting sgRNA.
  • 56 and 57 are Manhattan plot results of Extru-seq obtained from NIH-3T3 using Albumin -targeting sgRNA.
  • CROP scores results related to scores according to the number of on-target and off-target mismatches predicted using an in silico system.
  • 61 discloses results related to scores (CFD scores) according to the number of on-target and off-target mismatches predicted using an in silico system.
  • Figures 63 and 64 disclose results for indel formation frequencies in subretinal and systemic injections.
  • FIG. 65 is a sequence read result of GUIDE-seq obtained from HeLa cells using sgRNA targeting FANCF .
  • 66 is a sequence read result of GUIDE-seq obtained from HeLa cells using sgRNA targeting VEGFA .
  • 67 is a sequence read result of GUIDE-seq obtained from HeLa cells using sgRNA targeting HBB .
  • FIGS. 68 to 73 disclose Manhattan plot results of off-target candidates predicted by Extru-seq.
  • Y-axis represents DNA cleavage score.
  • FIGS. 68 and 69 are Manhattan plot results of Extru-seq obtained from HeLa cells using sgRNA targeting FANCF .
  • 70 and 71 are Manhattan plot results of Extru-seq obtained from HeLa cells using sgRNA targeting VEGFA .
  • 72 and 73 are Manhattan plot results of Extru-seq obtained from HeLa cells using sgRNA targeting HBB .
  • 74 to 75 disclose Venn diagrams comparing Extru-seq results from MSCs and HEK293T cells. 74 discloses results related to sgRNAs targeting human PCSK9 . 75 discloses results related to sgRNAs targeting human Albumin .
  • 76 shows the p-value obtained by the normalized rank sum test for each pair of the off-target prediction method for sgRNAs targeting PCSK9 and Albumin in MSC and HEK293T cells.
  • Figures 77-116 disclose the results for off-target sites manually validated using IGV.
  • 117 to 125 disclose the results of manually excluded false positive off-target candidates using IGV from WGS data of Digenome-seq and Extru-seq.
  • nucleic acid refers to a portion of a region or region within a molecule composed of DNA (double-stranded or single-stranded), RNA (double-stranded or single-stranded), or a hybrid of DNA and RNA (double-stranded or single-stranded). It is used to mean the whole molecule. Nucleic acid is used to mean a collection of nucleotides (either a partial region within a molecule or an entire molecule) and is not otherwise limited. The terms nucleic acid or nucleic acid region may be used to refer to a portion of a region within a molecule.
  • nucleic acid or nucleic acid molecule may be used to refer to the molecule as a whole.
  • nucleic acid should be appropriately interpreted depending on the context, and the content of each context including the description of the term “nucleic acid” will help those skilled in the art to understand the meaning of the term nucleic acid.
  • the term includes all meanings that can be recognized by those skilled in the art, and may be appropriately interpreted depending on the context.
  • the term "linked” or “linked” means that two or more elements present in one conceptualizable structure are connected directly or indirectly (eg, through another element such as a linker), and , It is not intended that other additional elements cannot exist between the two or more elements.
  • a statement such as “Element B connected to Element A” may be used when one or more other elements are included between Elements A and B (i.e., Element A is connected to Element B through one or more other elements) and It is intended to include all cases where one or more other elements do not exist between element A and element B (ie, when element A and element B are directly connected), and should not be construed as limiting.
  • sequence identity is a term used in relation to the degree of similarity between two or more nucleotide sequences.
  • sequence identity is used with terms referring to a referenced sequence and terms indicating a ratio (eg, percentage).
  • sequence identity can be used to describe a sequence that is similar or substantially identical to a referenced nucleotide sequence. When described as "a sequence having at least 90% sequence identity with sequence A", the referenced sequence here is sequence A.
  • the percentage of sequence identity can be calculated by aligning a reference sequence with a sequence that is the subject of the percentage determination of sequence identity, and the percentage of sequence identity is a mismatch for one or more nucleotides, a deletion ( deletion), and insertion.
  • the method for calculating and/or determining the percentage of sequence identity is not otherwise limited and can be calculated and/or determined through a reasonable method or algorithm that can be used by a person skilled in the art.
  • amino acid sequence when describing an amino acid sequence in this specification, it is written in the direction from the N-terminal to the C-terminal using the one-letter notation of amino acids or the three-letter notation.
  • RNVP when expressed as RNVP, it means a peptide in which arginine, asparagine, valine, and proline are sequentially connected from the N-terminal to the C-terminal.
  • Thr-Leu-Lys it means a peptide in which threonine, leucine, and lysine are sequentially connected from the N-terminal to the C-terminal.
  • amino acids that cannot be expressed by the one-letter notation other letters are used to indicate them, and additionally supplemented descriptions are provided.
  • Each amino acid notation method is as follows: Alanine (Ala, A); Arginine (Arg, R); Asparagine (Asn, N); Aspartic acid (Asp, D); Cysteine (Cys, C); Glutamic acid (Glu, E); Glutamine (Gln, Q); Glycine (Gly, G); Histidine (His, H); Isoleucine (Ile, I); Leucine (Leu, L); Lysine (Lys K); Methionine (Met, M); Phenylalanine (Phe, F); Proline (Pro, P); Serine (Ser, S); Threonine (Thr, T); Tryptophan (Trp, W); Tyrosine (Tyrosine; Tyr, Y); and Valine (Val, V).
  • each nucleoside when meaning a base, each can be interpreted as adenine (A), thymine (T), cytosine (C), guanine (G), or uracil (U) itself, and when meaning a nucleoside, Each can be interpreted as adenosine (A), thymidine (T), cytidine (C), guanosine (G) or uridine (U), and when a nucleotide is meant in a sequence, each nucleoside It should be construed as meaning a nucleotide containing
  • target sequence refers to a specific sequence that a guide RNA or gene editing tool (eg, Cas/gRNA complex) recognizes to cleave a target gene or target nucleic acid.
  • the target sequence may be appropriately selected depending on the purpose.
  • the “target sequence” is a sequence included in a target gene or target nucleic acid sequence, and may refer to a sequence complementary to a spacer sequence included in a guide RNA.
  • target sequence is a sequence included in a target gene or target nucleic acid sequence, and may refer to a sequence complementary to a sequence complementary to a spacer sequence included in a guide RNA.
  • the target sequence is used to refer to a sequence having complementarity to the spacer sequence included in the guide RNA and/or a sequence substantially identical to the spacer sequence of the guide RNA, and should not be construed as limiting.
  • a target sequence may be initiated by a sequence comprising a PAM sequence.
  • a target sequence may be initiated by a sequence that does not include a PAM sequence.
  • a target sequence should be interpreted appropriately according to the context in which it is described.
  • the spacer sequence is determined considering the sequence of the target gene or target nucleic acid and the PAM sequence recognized by the editing protein of the CRISPR/Cas system.
  • the target sequence may refer to only a sequence of a specific strand that complementarily binds to the guide RNA of the CRISPR/Cas complex, may refer to only a sequence of a specific strand that does not complementarily bind to the guide RNA, or the specific strand. It may also refer to the entire target duplex including a portion, which is appropriately interpreted depending on the context.
  • the definition of the term for the target sequence is disclosed to describe a strand in which the target sequence may exist, and is not intended to distinguish between an on-target sequence and an off-target sequence through the term target sequence. That is, in some embodiments, an intended target sequence may be referred to as an on-target sequence, and an unintended target sequence may be referred to as an off-target sequence. Regarding on-target and off-target, the term target sequence may be appropriately interpreted according to the context of the relevant paragraph.
  • spacer binding strand refers to a part or all of the spacer region of a guide nucleic acid (eg, guide RNA) in a gene editing system (eg, a CRISPR/Cas gene editing system) involving a guide nucleic acid (eg, a guide RNA). It is used to refer to a strand comprising a sequence that forms a complementary bond with the sequence of. DNA molecules, such as genomes, usually have a double-stranded structure.
  • a strand having a sequence complementary to a sequence of part or all of the spacer region of the guide nucleic acid, and thereby forming a complementary bond with the sequence of part or all of the spacer region may be referred to as a spacer binding strand.
  • spacer non-binding strand refers to a portion of the spacer region of a guide nucleic acid (eg, guide RNA) in a gene editing system (eg, a CRISPR/Cas gene editing system) involving a guide nucleic acid. Or, it is used to refer to a strand other than the 'spacer binding strand', which is the strand containing a sequence that forms a complementary bond with all of the sequences.
  • DNA molecules, such as genomes usually have a double-stranded structure, and the term “spacer non-binding strand” can be used to refer to the other strand in the double-strand that is not the spacer-binding strand.
  • the term "functional equivalent” or “equivalent” refers to a second biomolecule that is functionally equivalent to a first biomolecule, but is not necessarily structurally equivalent.
  • “Cas9 equivalent” refers to a protein that has the same or substantially the same function as Cas9, but does not necessarily have the same amino acid sequence.
  • X protein when described as "X protein”, the term X protein can be interpreted to encompass functional equivalents of the X protein.
  • a "functional equivalent" of protein X encompasses any homolog, paralog, ortholog, fragment, naturally occurring, engineered, mutated, or synthetic version of protein X that retains an equivalent function. do.
  • the term Cas protein may be interpreted to encompass functional equivalents of the Cas protein.
  • NLS nuclear localization signal or sequence
  • nuclear localization signal or sequence refers to an amino acid sequence that promotes import of a protein into the cell nucleus. For example, import of the protein can be facilitated by nuclear transport.
  • NLSs are known in the art and will be apparent to those skilled in the art. For example, exemplary sequences of NLSs are described in PCT Application Application No. PCT/EP2000/011690 (Publication No. WO2021/038547), the contents of which are incorporated herein by reference for exemplary NLSs.
  • the NLS comprises the amino acid sequence PKKKRKV (SEQ ID NO: 01), KRPAATKKAGQAKKKK (SEQ ID NO: 02), PAAKRVKLD (SEQ ID NO: 03), RQRRNELKRSP (SEQ ID NO: 04), NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY (SEQ ID NO: 05), RMRIZFKNKGKDTAELRRRRVEV SVELRKAKKDEQILKRRNV (SEQ ID NO: 06) , VSRKRPRP (SEQ ID NO: 07), PPKKARED (SEQ ID NO: 08), POPKKKPL (SEQ ID NO: 09), SALIKKKKKKMAP (SEQ ID NO: 10), DRLRR (SEQ ID NO: 11), PKQKKRK (SEQ ID NO: 12), RKLKKKIKKL (SEQ ID NO: 13), REKKKFLKRR (SEQ ID NO: 14), KKRKGDEVDGV
  • the term "about” means a degree close to a quantity, 30, 25, 20, 30, 25, 20, 30, 25, 20, 30, 25, 20, means an amount, level, value, number, frequency, percentage, dimension, size, amount, weight or length that varies by 25, 10, 9, 8, 7, 6, 5, 4, 3, 2 or 1%.
  • Nucleotide sequences eg, DNA sequences, RNA sequences, DNA/RNA hybrid sequences
  • Nucleotide sequences eg, DNA sequences, RNA sequences, DNA/RNA hybrid sequences
  • Amino acid sequences disclosed herein are to be understood as being disclosed in the N-terminal to C-terminal direction, unless otherwise specified. Sequences disclosed in an orientation other than the foregoing are indicated separately for the orientation in the other orientation in the paragraph relating to the sequence.
  • the present application relates to a method for predicting off-targets that may occur in the process of gene editing using a gene editing system. Off-target predictions are used to encompass predictions of off-target sites. Prior to disclosing the method for predicting off-targets provided by the present application, a gene editing system related to off-targets will be described.
  • a gene editing system eg, a genome editing system
  • a gene editing system is a system used to achieve desired editing in a nucleic acid molecule of interest (eg, genomic DNA) through the use of gene editing tools such as editing proteins and guide nucleic acids. refers to In many studies, gene editing systems are used for editing the genome of a cell, and the term gene editing system can be used interchangeably with genome editing system.
  • gene editing system is not limited to genome editing.
  • gene editing system may be used to refer to a gene editing tool and may be appropriately interpreted depending on the related context.
  • known gene editing systems include zinc-finger nucleases (ZFNs), transcription activator-like effector nucleases (TALENs), and the CRISPR/Cas gene editing system (Khan, Sikandar Hayat. “Genome-editing technologies: concept, pros, and cons of various genome-editing techniques and bioethical concerns for clinical application.” Molecular Therapy-Nucleic Acids 16 (2019): 326-334.], the entire contents of which are incorporated herein by reference) .
  • base editing and prime editing developed based on the CRISPR/Cas gene editing system exist.
  • One of the characteristics of the off-target prediction method provided by the present application is to destroy the membrane structure of the cell through a physical method (eg, using an extruder) to generate elements of the gene editing system (eg, using an extruder). editing proteins and/or guide nucleic acids) to the genome. Accordingly, the off-target prediction method of the present application can be applied to all of the gene editing systems described above.
  • the CRISPR/Cas gene editing system is an editing protein including a Cas protein and a guide nucleic acid (eg, guide RNA) used to induce desired editing at a desired location of a gene (eg, genomic DNA). It is used as an umbrella term to refer to the gene editing systems involved.
  • CRISPR/Cas genetic system can be used with other terms that will be understood by those skilled in the art. For example, it may be referred to as CRISPR/Cas, CRISPR/Cas system, CRISRP system, and Cas-based genome editing system, etc., but is not limited otherwise.
  • the CRISPR/Cas gene editing system is based on base editing developed based on the CRISPR/Cas gene (Gaudelli, Nicole M., et al. "Programmable base editing of A T to G C in genomic DNA without DNA cleavage .” Nature 551.7681 (2017): 464-471.] and prime editing (Anzalone, Andrew V., et al. "Search-and-replace genome editing without double-strand breaks or donor DNA.” Nature 576.7785 (2019): 149-157.]) is used to cover all development technologies.
  • the result of gene editing e.g. genome editing
  • base editing can be achieved through
  • writing eg, can be achieved through prime editing
  • etc. and is not limited otherwise.
  • the CRISPR/Cas gene editing system is described in detail, including the origin of the CRISPR/Cas gene editing system.
  • CRISPR is a family of DNA sequences (ie CRISPR clusters) in bacteria and archaea that represent snippets of prior infections by viruses that have invaded prokaryotes. Fragments of DNA are used by prokaryotic cells to detect and destroy DNA from subsequent attack by similar viruses, and together with CRISPR-associated protein (Cas protein) and arrays of CRISPR-associated RNAs form the prokaryotic immune defense system. organize effectively. CRISPR clusters are transcribed and processed into CRISPR RNA (crRNA). Subsequently, Cas9/crRNA/tracrRNA intranucleolytically cleaves the linear or circular dsDNA target complementary to the RNA.
  • CRISPR clusters are transcribed and processed into CRISPR RNA (crRNA). Subsequently, Cas9/crRNA/tracrRNA intranucleolytically cleaves the linear or circular dsDNA target complementary to the RNA.
  • the target strand that is not complementary to the crRNA is first endolytically cleaved and then exotolytically trimmed 3'-5'.
  • DNA-binding and cleavage typically requires a protein and two RNAs.
  • single guide RNAs sgRNAs, single guide RNAs, or simply gRNAs
  • single-stranded RNAs are engineered to mix aspects of both crRNAs and tracrRNAs into a single RNA species. See, eg, Jinek, Martin, et al. "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity.” science 337.6096 (2012): 816-821.], the entire contents of which are incorporated herein by reference.
  • Cas9 recognizes short motifs (PAMs or protospacer adjacent motifs) within CRISPR repeat sequences to aid in self versus non-self discrimination.
  • CRISPR biology as well as the Cas9 nuclease sequence and structure, are well known to those skilled in the art (see, e.g., Ferretti, Joseph J., et al. "Complete genome sequence of an M1 strain of Streptococcus pyogenes.” Proceedings of the National Academy of Sciences 98.8 (2001): 4658-4663.; Deltcheva, Elitza, et al.
  • Cas9 orthologues have been described in a variety of species, including but not limited to S. pyogenes ( Streptococcus pyogenes ) and S. thermophilus (Streptococcus thermophilus) .
  • Cas9 nucleases and sequences will be apparent to those skilled in the art based on this disclosure, and such Cas9 nucleases and sequences are described in Chylinski, Krzysztof, Anais Le Rhun, and Emmanuelle Charpentier. "The tracrRNA and Cas9 families of type II CRISPR-Cas immunity systems.” RNA biology 10.5 (2013): 726-737.].
  • the CRISPR/Cas gene editing system developed from the above-described CRISPR uses a Cas protein derived from the CRISPR system of a cell and a guide nucleic acid that guides the Cas protein to a target region, at a desired location (e.g., cell genome). It is a technique to edit For example, a Cas protein together with a guide RNA (gRNA) forms a Cas/gRNA complex. The Cas/gRNA complex is guided to the desired location through the guide RNA included therein. The Cas protein included in the Cas/gRNA complex induces a DSB (double strand break) or nick at a desired location.
  • gRNA guide RNA
  • the CRISPR/Cas gene editing system can edit not only the genome of a cell, but also DNA molecules that are not located on the genome. Since the discovery of CRISPR, in relation to the CRISPR/Cas genome editing system, as described above, the development of a single guide RNA linked to tracrRNA and crRNA (Jinek, Martin, et al.
  • the CRISPR/Cas gene editing system can be used to encompass the traditional CRISPR/Cas gene editing system and technologies for gene editing developed based on the traditional CRISPR/Cas gene editing system.
  • CRISPR/Cas gene editing system For an understanding of the CRISPR/Cas gene editing system, reference may be made to the document WO2018/231018 (International Publication No.), which is incorporated herein by reference in its entirety. Editing proteins (e.g., Cas proteins) that can be used in the CRISPR/Cas gene editing system are further described further below to aid technicians' understanding.
  • An editing protein may be used to refer to a protein that generates DSBs or nicks in a target region to achieve gene editing, or helps to induce editing.
  • proteins having nuclease activity that cleave nucleic acids may be referred to as editing proteins.
  • editing proteins can be used interchangeably with Cas proteins.
  • a typical example of a Cas protein is Cas9.
  • the term Cas protein is used to generically refer to a gene editing protein capable of generating a DSB or nick in a target region, or an inactive Cas protein used in a CRISPR/Cas gene editing system.
  • Cas proteins examples include Cas9, Cas9 variants, Cas9 nickase (nCas9), dead Cas9, Cpf1 (Type-V CRISPR-Cas system), C2c1 (Type V CRISPR-Cas system), C2c2 (Type VI CRISPR -Cas system) and C2c3 (Type V CRISPR-Cas system), but are not limited thereto.
  • Cpf1 Type-V CRISPR-Cas system
  • C2c1 Type V CRISPR-Cas system
  • C2c2 Type VI CRISPR -Cas system
  • C2c3 Type V CRISPR-Cas system
  • C2c2 is a single-component programmable RNA-guided RNA-targeting CRISPR effector.” Science 353.6299 (2016): aaf5573.], the entire contents of which are incorporated herein by reference.
  • the Cas protein is Streptococcus pyogenes, Streptococcus thermophilus, Streptococcus sp., Staphylococcus aureus, Campylobacter Campylobacter jejuni, Nocardiopsis rougevillei, Streptomyces pristinaespiralis, Streptomyces viridochromogenes, Streptomyces viridochromogenes Streptomyces viridochromogenes, Streptosporangium roseum, Streptosporangium roseum, AlicyclobacHlus acidocaldarius, Bacillus pseudomycoides ), Bacillus selenitireducens, Exiguobacterium sibiricum, Lactobac
  • Cas9 protein a protein having a nuclease activity that cuts nucleic acids is called a Cas9 protein.
  • the Cas9 protein corresponds to Class 2, Type II in the CRISPR/Cas system classification, and Streptococcus pyogenes, Streptococcus thermophilus, Streptococcus sp., Streptomyces Streptomyces pristinaespiralis, Streptomyces viridochromogenes, Streptomyces viridochromogenes, Streptosporangium roseum, Streptospor and the Cas9 protein derived from Streptosporangium roseum.
  • Cas9 proteins and sequences are described in Chylinski, Krzysztof, Anais Le Rhun, and Emmanuelle Charpentier. "The tracrRNA and Cas9 families of type II CRISPR-Cas immunity systems.” RNA biology 10.5 (2013): 726-737.].
  • the DNA cleavage domain of Cas9 is known to contain two subdomains: an NHN nuclease subdomain and a RucC1 subdomain.
  • the NHN subdomain cleaves the strand complementary to the gRNA, while the RuvC1 subdomain cleaves the non-complementary strand. Inactivation of these subdomains can silence the nuclease activity of Cas9.
  • mutations D10A and H840A completely inactivate the nuclease activity of S. pyogenes Cas9 (Jinek, Martin, et al. "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity.” science 337.6096 (2012): 816-821.]).
  • mutation H840A provides a Cas9 nickase.
  • a Cas protein associates with a guide nucleic acid (eg, guide RNA) to form a Cas/guide nucleic acid complex (eg, a Cas/gRNA complex).
  • the Cas/gRNA complex may be referred to as RNP (Ribonucleoprotein).
  • the Cas/gRNA complex generates a double-strand break (DSB) or nick within the target region containing a sequence corresponding to (e.g., complementary to) the spacer sequence of the guide RNA (gRNA) DSBs or nicks are induced by Cas proteins.
  • the location where the DSB or nick occurs may be near the PAM sequence on the genome.
  • Cas/gRNA targeting involves a protospacer adjacent motif (PAM) on the genome and a spacer sequence of guide RNA.
  • a Cas protein eg, Cas9 directed to the target region by the PAM and the spacer sequence of the guide RNA generates a DSB within the target region.
  • an RNA having a function of guiding a Cas protein to a target region to recognize a specific sequence included in a target DNA molecule is referred to as a guide RNA.
  • the structure of the guide RNA is functionally divided, it can be largely divided into 1) a scaffold sequence portion and 2) a guide domain including a guide sequence.
  • the scaffold sequence portion is a portion that interacts with a Cas protein (eg, Cas9 protein), and is a portion that binds to the Cas protein to form a complex.
  • the scaffold sequence portion includes tracrRNA and crRNA repeat sequence portions, and the scaffold sequence is determined depending on which Cas9 protein is used.
  • the guide sequence is a portion capable of complementary binding with a portion of a nucleotide sequence of a certain length in a target nucleic acid (eg, a target DNA molecule or a genome of a cell).
  • the guide sequence can be artificially modified and is determined by the target nucleotide sequence of interest associated with the desired gene editing.
  • guide RNA can be described as including crRNA and tracrRNA.
  • crRNAs can include spacers and repeat sequences. A portion of a repetitive sequence of a crRNA is capable of interacting with (eg, complementary binding to) a portion of a tracrRNA.
  • a single-stranded guide RNA (sgRNA) in which crRNA and tracrRNA are linked may be provided.
  • the guide RNA may be provided in two strands. In one embodiment, the guide RNA may be provided as one strand.
  • single guide RNA sgRNA
  • tracrRNA and crRNA Jinek, Martin, et al. "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity.” science 337.6096 (2012): 816-821 .] reference, the entire contents of which are incorporated herein by reference
  • the guide RNA may be a single guide RNA (sgRNA).
  • a guide nucleic acid may include a guide domain comprising a guide sequence.
  • Guide sequences are used interchangeably with spacer sequences.
  • a guide sequence is a part that can be artificially designed and is determined by the target nucleotide sequence of interest.
  • guide sequences can be designed to target sequences adjacent to PAM sequences located on the DNA molecule desired for editing. As described above, localization of the Cas/gRNA complex to the target site is induced.
  • the structure of the guide nucleic acid may vary depending on the type of CRISPR. For example, guide RNA used in the CRISPR/Cas9 gene editing system may have a structure of 5'-[guide domain]-[scaffold]-3'.
  • the guide sequence may have a length of 5 nt to 40 nt. In one embodiment, the guide sequence included in the guide domain of the guide RNA may have a length of 10 nt to 30 nt. In one embodiment, the guide sequence may have a length of 15 nt to 25 nt. In one embodiment, the guide sequence may have a length of 18 nt to 22 nt. In one embodiment, the guide sequence may have a length of 20 nt. In one embodiment, the target sequence, which is a sequence in the genome that forms complementary bonds with the guide sequence (including both the target sequence present on the spacer binding strand and the target sequence present on the spacer non-binding strand), is between 5 nt and 40 nt.
  • the target sequence which is a sequence in the genome that forms a complementary bond with the guide sequence, may have a length of 10 nt to 30 nt or 10 bp to 30 bp. In one embodiment, the target sequence may have a length of 15 nt to 25 nt or 15 bp to 25 bp. In one embodiment, the target sequence may have a length of 18 nt to 22 nt or 18 bp to 22 bp. In one embodiment, the target sequence may have a length of 20 nt or 20 bp.
  • nucleotide sequence of a certain length that can be recognized by the Cas9 protein in the target gene or target nucleic acid.
  • a base sequence (nucleotide sequence) of a certain length recognized by the Cas9 protein is referred to as a Protospacer Adjacent Motif (PAM) sequence.
  • the PAM sequence is a unique sequence determined according to the Cas9 protein.
  • the PAM sequence may be used to cover both the sequence present on the spacer non-binding strand and the sequence present on the spacer binding strand.
  • the Cas/gRNA complex is guided to the target region by a protospacer adjacent motif (PAM) sequence on a target DNA molecule (e.g., the genome of a cell) and a guide sequence of the gRNA.
  • PAM protospacer adjacent motif
  • the PAM sequence may be located on the guide sequence non-binding strand of the guide RNA, rather than the guide sequence binding strand.
  • the PAM sequence may be independently determined depending on the type of Cas protein used.
  • the PAM sequence can be any one of the following (starting in the 5' to 3' direction): NGG (SEQ ID NO: 18); NNNNRYAC (SEQ ID NO: 19); NNAGAAW (SEQ ID NO: 20); NNNNGATT (SEQ ID NO: 21); NNGRR(T) (SEQ ID NO: 22); TTN (SEQ ID NO: 23); and NNNVRYAC (SEQ ID NO: 24).
  • N can independently be A, T, C or G.
  • Each R may independently be A or G.
  • Each Y may independently be C or T.
  • Each W may independently be A or T.
  • the PAM sequence may be NGG (SEQ ID NO: 18).
  • the PAM sequence may be NNAGAAW (SEQ ID NO: 20).
  • the PAM sequence may be NNNNGATT (SEQ ID NO: 21).
  • the PAM may be NNNVRYAC (SEQ ID NO: 24).
  • the PAM sequence may be linked to the 3' end of a target sequence present on the spacer non-binding strand, wherein the target sequence present on the spacer non-binding strand refers to a sequence that does not bind the guide RNA.
  • the PAM sequence may be located at the 3' end of the target sequence present on the spacer non-binding strand.
  • a target sequence present on the spacer non-binding strand refers to a sequence that does not bind with the guide sequence of the guide RNA.
  • the target sequence present on the spacer non-binding strand is complementary to the target sequence present on the spacer binding strand.
  • the location where the DSB or nick occurs may be near the PAM sequence on the genome.
  • the location at which a DSB or nick occurs can be -0 to -20 or +0 to +20 relative to the 5' or 3' end of the PAM sequence present in the spacer non-binding strand.
  • the location where the DSB or nick occurs may be -1 to -5 or +1 to +5 of the PAM sequence on the spacer non-binding strand.
  • spCas9 cuts between the third and fourth nucleotides upstream of the PAM sequence.
  • an environment in which a DNA molecule to be edited and a Cas/gRNA complex can contact may be provided. It may be a DNA molecule to be edited.
  • Cas protein or a nucleic acid encoding the same and guide RNA or a nucleic acid encoding the same are introduced into the cell, through which the Cas protein and guide RNA can contact the genomic DNA of the cell. environment can be achieved. Under circumstances where the Cas protein and guide RNA can come into contact with the genomic DNA of a cell, the Cas protein and guide RNA can form a Cas/gRNA complex.
  • the Cas/gRNA complex can be formed when both the Cas protein and the gRNA are present in an appropriate environment, even if the cell's genomic DNA is not present.
  • the guide sequence of the gRNA included in the Cas/gRNA complex and the PAM sequence on the genome are involved to guide the Cas/gRNA complex to a target region where a predesigned target sequence is present.
  • Cas/gRNA complexes directed to the target region generate a DSB (eg, in the case of Cas9) within the target region. Thereafter, gene editing at the target region or target site is achieved while the DSB-generated (cut) DNA is repaired by the DNA repair process.
  • HDR homology-directed repair
  • NHEJ nonhomologous end joining
  • NHEJ may be a DNA repair mechanism that can be selected primarily to induce indels.
  • An indel insertion/deletion
  • An indel may refer to a mutation in which some nucleotides are deleted in the middle, an arbitrary nucleotide is inserted, and/or the insertions and deletions are incorporated in the nucleotide sequence of the nucleic acid prior to gene editing. The occurrence of some of the indels generated in the target gene can inactivate the corresponding gene.
  • the DNA repair mechanisms HDR and NHEJ are described by Sander, Jeffry D., and J. Keith Joung. "CRISPR-Cas systems for editing, regulating and targeting genomes.” Nature biotechnology 32.4 (2014): 347-355.], the entire contents of which are incorporated herein by reference.
  • the present application relates to a method for predicting off-targets that may occur during gene editing (eg, genome editing) using a gene editing system.
  • off-targets that may occur in the gene editing system will be described in detail.
  • off-target refers to a genetic modification that occurs at an unintended location. Genetic alterations induced by off-targets may be non-specific.
  • Developed genome editing tools include a CRISPR/Cas gene editing system, transcription activator-like effector nucleases (TALENs), meganucleases, and zinc finger nucleases. These genome editing tools or genome editing systems are designed to enable editing within a target region, each with a specific mechanism that allows binding to a predetermined sequence (eg, a sequence within the target region). For example, in the CRISPR/Cas gene editing system, a guide RNA (gRNA) directs the movement of the Cas/gRNA complex to its intended, on-target location.
  • gRNA guide RNA
  • Movement to the target site may also involve PAM sequences in the genome.
  • the Cas/gRNA complex still has the potential to bind sequences at unintended locations other than sequences within the target region.
  • unintended genetic modification occurs.
  • Off-target effects lead to unintended genetic alterations such as unintended point mutations, deletions, insertions, inversions, and translocations. It is known that binding of genome editing tools in unwanted regions results from partially sufficient matching of sequences within the unwanted regions to target sequences. Without being bound by theory, see Lin, Yanni, et al.
  • CRISPR/Cas9 systems have off-target activity with insertions or deletions between target DNA and guide RNA sequences.
  • Nucleic acids research 42.11 (2014): 7473-7485.] describe the mechanisms of off-target binding can be grouped into base mismatch tolerance and bulge mismatch.
  • the off-target region may include, but is not limited to, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, or 10, or more, mismatches with the guide RNA sequence. .
  • Off-target problems imply the possibility of causing disruption of important coding regions leading to serious problems such as cancer. Furthermore, the problem of off-target in the research area may cause confusion of variables of biological research, further implying the possibility of causing non-reproducible results. (See Eid, Ayman, and Magdy M. Mahfouz. "Genome editing: the road of CRISPR/Cas9 from bench to clinic.” Experimental & Molecular Medicine 48.10 (2016): e265-e265.), the entire text of which is incorporated in this application).
  • off-target may be used as a concept corresponding to on-target, and may be used to refer to genetic modification at an unintended location.
  • off-targets cause potent side effects in various aspects (eg, elusive side effects and/or irreversible side effects). Accordingly, identifying off-targets that may occur in the use of a gene editing system (eg, a genome editing system) is very important in research and development of therapeutic agents. It is costly and time-consuming to identify true off-targets occurring in a designed gene editing system (eg, CRISPR/Cas9 gene editing system and specific guide RNA). For this reason, various methods capable of identifying off-target candidates, that is, predicting off-targets, have been researched and developed.
  • a gene editing system eg, a genome editing system
  • GUIDE-seq (Tsai, S. Q., Zheng, Z., Nguyen, N. T., Liebers, M., Topkar, V. V., Thapar, V., ... & Joung, J. K.
  • GUIDE-seq enables genome-wide profiling of off-target cleavage by CRISPR-Cas nucleases.Nature biotechnology, 33(2), 187-197.), GUIDE-tag, DISCOVER-seq, BLISS, BLESS , integrase-defective lentiviral vector-mediated DNA break capture, HTGTS, ONE-seq, CReVIS-Seq, ITR-seq, and TAG-seq, etc.
  • Cas-OFFinder (Bae, Sangsu, Jeongbin Park, and Jin-Soo Kim. "Cas-OFFinder: a fast and versatile algorithm that searches for potential off-target sites of Cas9 RNA-guided endonucleases.” Bioinformatics 30.10 (2014): 1473-1475.), CHOPCHOP, and CRISPOR et al.
  • the inventors of the present application additionally confirmed problems that may occur in cell-based prediction methods (eg, GUIDE-seq) through their own experiments.
  • the inventors of the present application confirmed a higher miss rate of the cell-based prediction method, and confirmed through experiments that the off-target prediction result may vary depending on the cell type (see the experimental example of the present application).
  • the inventors of the present application additionally confirmed problems that may occur in in vitro-based prediction methods (eg, Digenome-seq, Dig-seq) and in silico-based prediction methods through their own experiments.
  • the inventors of the present application confirmed a higher false positive rate of the in vitro-based prediction method (see the experimental example of the present application).
  • EDITAS Medicine used the off-target prediction tools of GUIDE-seq, Digenome-seq, and Cas-OFFinder together for candidate treatment EDIT-101 (Maeder ML, Stefanidakis M, Wilson CJ, Baral R, Barrera LA, Bounoutas GS, Bumcrot D, Chao H, Ciulla DM, DaSilva JA et al: Development of a gene-editing approach to restore vision loss in Leber congenital amaurosis type 10. Nat Med 2019, 25(2):229-233.]) .
  • the inventors of the present application have developed an effective off-target prediction method that is more accurate and has a lower false positive rate.
  • the inventors of the present application compared the performance of the existing method and the newly developed off-target prediction method of the present application in detail using various and multiple test methods, and confirmed the excellent performance of the new off-target prediction method of the present application. .
  • the inventors of the present application compared the in vitro off-target prediction method and the off-target prediction method of the present application, and confirmed that the off-target prediction method of the present application showed superior performance compared to the in vitro off-target prediction method.
  • the inventors of the present application compared the cell-based off-target prediction method and the off-target prediction method of the present application, and confirmed that the off-target prediction method of the present application showed superior performance compared to the cell-based off-target prediction method. . Furthermore, the inventors of the present application comprehensively confirmed that the off-target prediction method of the present application exhibits superior performance than other off-target prediction methods through various and multiple tests (see experimental examples of the present application).
  • the off-target prediction method provided by the present application has advantages of both the cell-based prediction method and the in vitro prediction method.
  • the off-target prediction method provided by the present application provides an environment in which Cas/gRNA complexes can come into contact with genomic DNA maintaining chromatin structure and epigenetic modifications. can do.
  • the off-target prediction method provided by the present application can prevent missing the true off-target by suppressing the DNA repair mechanism to accumulate the cleavage rate.
  • the off-target prediction system (or method or tool) provided by the present application will be described in detail.
  • the present application provides a method for predicting off-targets that may occur during gene editing.
  • the present application provides a method for predicting off-targets that may occur during genome editing.
  • the gene editing process can be performed through the CRISPR/Cas gene editing system.
  • the genome editing process can be performed through a CRISPR/Cas genome editing system.
  • One embodiment of the present application provides a method for predicting off-targets that may occur in the course of genome editing performed using a CRISPR/Cas genome editing system.
  • Off-target encompasses the concept of an off-target site. For example, an off-target site or location may be described as off-target. In this application, predicting an off-target may mean identifying an off-target candidate.
  • Prediction of an off-target may mean checking the position of an off-target candidate. Prediction of an off-target may mean identifying a candidate off-target site.
  • descriptions of 'off-target', 'off-target prediction', and 'off-target candidate' shall not be construed as limiting. .
  • the novel off-target prediction system physically destroys cells, thereby generating genomic DNA and gene editing proteins (eg, Cas proteins such as Cas9 proteins) and gRNAs, or characterized by contacting a Cas/gRNA complex (eg, a Cas9/gRNA complex).
  • genomic DNA and gene editing proteins eg, Cas proteins such as Cas9 proteins
  • gRNAs eg, a Cas9/gRNA complex
  • a Cas9/gRNA complex eg, a Cas9/gRNA complex
  • physical disruption of the cells may be performed using a filter having pores of an appropriate size to have minimal effect on the genomic DNA of the cells.
  • a filter having pores of an appropriate size may be used to provide an environment in which genomic DNA of a cell and the Cas/gRNA complex can contact. Pressure is applied to a region containing cells, cells pass through pores having a diameter smaller than the size of cells by the pressure, and cells may be destroyed in the process of passing through the pores.
  • genomic DNA or the structure of genomic DNA within the cell eg, structure according to epigenetic characteristics such as chromatin structure
  • an environment in which Cas protein and gRNA (or Cas / gRNA complex) can access or contact genomic DNA of the cell is created, and at the same time, more intact genomic DNA is converted into Cas / gRNA complex It can be maintained until cut by .
  • the off-target prediction system (or method) provided by this application may be referred to as Extru-seq.
  • the off-target prediction system provided by the present application can be largely divided into two processes, and the two processes are as follows: acquisition of a subject composition to be analyzed, and analysis of the subject composition to be analyzed.
  • the acquisition of the composition to be analyzed may be performed through a process including providing an environment in which genomic DNA and the Cas/gRNA complex can come into contact.
  • Analysis of the composition to be analyzed may be performed through a process that includes analyzing DNA (eg, cleaved DNA or uncut DNA) included in the composition to be analyzed.
  • DNA eg, cleaved DNA or uncut DNA
  • the method for predicting off-targets that may occur in the gene editing process can provide an environment in which genomic DNA and the Cas/gRNA complex can come into contact.
  • the cell In order to provide an environment in which genomic DNA present in the cell (eg, in the nucleus) can contact the Cas/gRNA complex, the cell is moved through a physical method (eg, using physical force). Cell destruction may be performed. Through cell destruction, cell membrane structures, such as cell membranes and/or cell nuclear membranes, may be destroyed, or spaces may be created in the membrane structures to allow Cas proteins and gRNAs or Cas/gRNA complexes to access genomic DNA. there is. For example, the cell's nuclear membrane can be disrupted, exposing genomic DNA to Cas proteins and gRNAs.
  • the membrane of the cell is destroyed, an environment in which the Cas protein and gRNA can contact the nucleus of the cell is provided, and the Cas protein and gRNA (or Cas / gRNA complex) pass through the nuclear membrane of the cell to access genomic DNA.
  • a Cas protein may have an NLS fused or linked (ie, a Cas protein with an NLS linked may be provided), and an NLS fused or linked to a Cas protein may have a Cas protein (or a Cas/gRNA complex) of a cell. It can help pass through the nuclear membrane.
  • disruption of the cell may result in disruption of the membrane structure of the cell.
  • disruption of the cell may result in disruption of the cellular membrane of the cell.
  • disruption of the cell may result in destruction of the cell's nuclear membrane.
  • destruction of the cells described above may be achieved through passage of the cells through a porous structure having pores.
  • the porous structure may be a filter or membrane having pores.
  • disruption of the cells may be performed while the cells pass through a filter having pores.
  • destruction of cells may be performed by passing cells through pores having a diameter smaller than the size of the cells.
  • destruction of cells may be performed by passing cells through pores having a diameter smaller than the size of the nuclei of the cells.
  • the driving force for allowing the cells to pass through the filter may be pressure. Specifically, pressure is applied to the region where the cells are located, and the applied pressure causes the cells to pass through pores smaller than the size of the cells. At this time, as the cells pass through pores smaller than the size of the cells, the cells may be destroyed.
  • disruption of the cells may be accomplished through an extrusion process.
  • disruption of the cell and contact of the Cas/gRNA complex with genomic DNA may be achieved through the use of an extruder.
  • the extruder and the use of the extruder will be disclosed in detail through the following description.
  • cleavage occurs at on-target and off-target sites in the genomic DNA.
  • cleavage can be achieved by DSBs or nicks induced by Cas/gRNA complexes (in particular Cas proteins).
  • Cas/gRNA complexes in particular Cas proteins.
  • the cell's DNA repair mechanism may be damaged, so the DNA that is cut may not be repaired.
  • sites where off-targets are likely to occur can be analyzed. That is, an off-target (or off-target site) can be predicted or an off-target candidate (or candidate off-target site) can be identified.
  • the inventors of this application have tested in detail the off-target prediction method provided by this application. By comparing the off-target prediction method of the present application with other off-target prediction methods, it was confirmed that the off-target prediction method of the present application showed better performance than other off-target prediction methods (see experimental examples of the present application).
  • the off-target prediction method of the present application shows a number of advantages that other off-target prediction methods do not have.
  • the off-target prediction method of the present application may have both the advantages of the cell-based off-target prediction method and the in vitro off-target prediction method.
  • the off-target prediction method of the present application may have a lower false positive rate than the in vitro off-target prediction method.
  • the false positive rate of off-target prediction results is high Detecting sites that are not truly off-targets as off-target candidates can result in false positive results.
  • a high false positive rate can be associated with a low validation rate.
  • off-target prediction method of the present application since cells are physically destroyed without using chemical additives to maintain the structure of genomic DNA, a cell-specific environment can be partially maintained, resulting in a lower false positive rate. .
  • the off-target prediction method of the present application can show a high validation rate. Furthermore, epigenetic characteristics may be reflected in off-target prediction results.
  • the off-target prediction method of the present application may have a lower miss rate than the cell-based off-target prediction method.
  • a miss rate can mean missing true off-targets. For example, false negative results, such as failure to detect true off-target sites as off-target candidates, increase the miss rate.
  • a DNA repair mechanism is inevitably involved in the process of a cell-based prediction method, and a cleavage site repaired by such a DNA repair mechanism prevents identification of a true off-target or off-target candidate. However, since cells are destroyed in the off-target prediction method of the present application, a DNA repair mechanism may not be involved.
  • the off-target prediction method of the present application can be applied without limitation to cell types.
  • cell-based prediction methods are difficult to perform in some cells and may be difficult to apply to cells used in clinical practice. If off-target prediction is performed based on cells unrelated to cells used in clinical practice, inaccurate results may be obtained. For example, since different types of cells have different epigenetic characteristics, the use of different types of cells may lead to inaccurate results.
  • off-target prediction methods have less or no restrictions on cell types.
  • off-target prediction method of the present application can be performed more conveniently and at a lower cost than cell-based prediction methods or in vitro off-target prediction methods.
  • the off-target prediction method of the present application includes physically destroying cells.
  • the inventors of the present application have tested and verified the off-target prediction method of the present application through a large number and many kinds of experiments.
  • the advantage of the off-target prediction method of the present application is confirmed through the experimental example of the present application.
  • the verification rate calculated based on the top 10 off-target candidates among the off-target candidates identified through the off-target prediction method of the present application is 20%, 25%, 30%, 35%, 40%, and 45% , 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95% or 100%, but is not limited otherwise.
  • the verification rate calculated based on the top 10 off-target candidates among off-target candidates identified through the off-target prediction method of the present application may be within a range formed by two of the above values, but otherwise limited. It doesn't work.
  • the verification rate may be affected by the type of gene editing tool used in the off-target prediction system and the type of cell.
  • the miss rate of the off-target prediction method of the present application is 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18 , 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, or 40% or less, not otherwise limited.
  • the miss rate of the off-target prediction method of the present application may be within a range formed by two values selected from the above values, but is not otherwise limited. The miss rate may be affected by the type of gene editing tool used in the off-target prediction system and the type of cell.
  • an ROC curve (receiver operating characteristic curve) can be drawn for the off-target prediction method of the present application.
  • the area under receiver operating characteristic curve (AUC) can be calculated for the off target prediction method of the present application.
  • the ROC curve and the area under the ROC curve are powerful tools to indicate the diagnostic capability of a binary classifier system.
  • an ROC curve may be prepared by corresponding a true positive rate (TPR) and a false positive rate (FPR), or by corresponding a sensitivity and specificity. For example, a true positive rate (TPR) is plotted on the y-axis and a false positive rate (FPR) is plotted on the x-axis to create an ROC curve.
  • a ROC curve may be created by plotting sensitivity on the y-axis and plotting specificity on the x-axis. The closer the area under the ROC curve is to 1 (ie, the wider the AUC area), the better the performance of the model.
  • the area under the ROC curve for the off-target prediction method of the present application can be calculated, wherein the area under the ROC curve is about 0.4, 0.42, 0.44, 0.46, 0.48, 0.5, 0.52, 0.54, 0.56 , 0.58, 0.6, 0.62, 0.64, 0.66, 0.68, 0.7, 0.72, 0.74, 0.75, 0.76, 0.77, 0.78, 0.79, 0.8, 0.81, 0.82, 0.83, 0.84, 0.85, 0. 86, 0.87, 0.88, 0.89, 0.9 , 0.91, 0.92, 0.93, 0.94, 0.95, 0.96, 0.97, 0.98, 0.99 or more or 1, but is not limited thereto.
  • the area under the ROC curve calculated for the off-target prediction method of the present application may be within a range of two values selected from the foregoing, but is not otherwise limited.
  • the area under the ROC curve may be influenced by the gene editing tool used in the off-target prediction system and the type of cell.
  • the off-target prediction method of the present application includes obtaining a composition to be analyzed and analyzing the composition to be analyzed. It will be clear to those skilled in the art that additional processes may be further included in addition to the above two processes. Hereinafter, the obtaining of the composition to be analyzed is described in detail.
  • the off-target prediction method of the present application may include a process of obtaining a composition to be analyzed.
  • the composition to be analyzed may refer to a composition including cleaved DNA and/or uncut DNA.
  • the off-target prediction method of the present application may be achieved through a method comprising obtaining a composition to be analyzed and analyzing the composition to be analyzed (eg, analyzing truncated DNA included in the composition to be analyzed).
  • genomic DNA, Cas protein and gRNA or Cas/gRNA complex
  • the Cas/gRNA complex contacts genomic DNA and cleave on-target and/or off-target sites.
  • the cell may be disrupted. That is, an environment in which genomic DNA and the Cas/gRNA complex can come into contact can be provided by cell destruction (eg, cell membrane structure disruption).
  • the composition to be assayed can be obtained by disrupting cells from a starting composition.
  • the starting composition may include cells.
  • a starting composition may include cells and gene editing tools (eg, Cas proteins and gRNAs).
  • the off-target prediction method may include physically destroying cells.
  • chemical additives that may cause damage to genomic DNA or genomic DNA structure eg, chromatin structure, etc.
  • physical disruption of the cells may be performed by allowing the cells to pass through a porous structure having pores smaller than the size of the cells.
  • the porous structure may be a filter with pores.
  • physical disruption of the cells may be performed by a method comprising passing the cells through a filter having pores smaller than the size of the cells. At this time, the force that allows the cells to pass through the filter may be pressure.
  • pressure may be applied to the first accommodating portion where the first composition comprising the cells is positioned.
  • the applied pressure causes the cells to be destroyed while passing through a filter having pores smaller than the size of the cells. That is, the driving force to force the cells through the filter may be pressure.
  • the mixed solution and contained elements eg, cells
  • the mixed solution and contained elements within the first receptacle can escape from the first receptacle through the pores of the filter. In this process, cells may be destroyed by pores smaller than the cell size.
  • cell membranes can be disrupted by pores that are smaller than the cell's size.
  • cell membranes and nuclear membranes may be disrupted by pores that are smaller than the cell's size.
  • some or all of the plurality of cells may be destroyed in the process of passing through pores smaller than the size of the cells. Some of the cells that are not destroyed may pass through pores larger than the size of the cells, or may not be destroyed even if they pass through pores smaller than the size of the cells.
  • the first composition located in the first receptacle may further include a tool used in a gene editing system (eg, a gene editing tool).
  • the first composition located in the first receptacle may further include a Cas protein and gRNA.
  • a tool used in a gene editing system eg, a gene editing tool
  • the first composition located in the first receptacle may further include a Cas protein and gRNA.
  • Cas protein and gRNA may move to the second receptacle through pores.
  • the Cas protein and gRNA (or Cas/gRNA complex) and the cell's genomic DNA may contact the second receptacle located on the opposite side of the first receptacle based on the filter.
  • the contact of Cas / gRNA and genomic DNA may be performed in a newly created vesicle (eg, liposome), and / or in an environment outside the vesicle, not inside the vesicle, not otherwise limited.
  • a newly created vesicle eg, liposome
  • an environment outside the vesicle not inside the vesicle, not otherwise limited.
  • a first composition positioned in the first receptacle comprises cells
  • a second receptacle positioned opposite the first receptacle relative to the filter may contain a tool used in a gene editing system.
  • a tool used in a gene editing system For example, when pressure is applied to the first receptacle, cells are destroyed and elements of the destroyed cell move to the second receptacle where gene editing tools exist. This allows gene editing tools (eg, Cas proteins and gRNAs) to contact DNA molecules derived from cells in the second receptacle.
  • gene editing tools eg, Cas proteins and gRNAs
  • the DNA molecule eg, genomic DNA
  • the gene editing tool when contact between the gene editing tool and the DNA molecule is achieved, an environment is created in which the DNA molecule (eg, genomic DNA) can be cleaved by the gene editing tool.
  • the DNA molecule eg, genomic DNA
  • destruction of cells can be achieved by allowing cells to pass through a porous structure having pores.
  • the porous structure may be a filter with pores.
  • the filter is any one of polycarbonate, cellulose, mixed cellulose esters membrane, glass, polyethersulfone, nylon, polytetrafluoroethylene (PTFE), and PVDF, or It may be a filter composed of a combination thereof, but is not limited otherwise, and may be a filter commonly used in the bio and/or chemical fields.
  • the filter may be a polycarbonate membrane filter, but is not otherwise limited.
  • the filter may include pores of a diameter smaller than the size of the cells. In one embodiment, the filter may include pores with a diameter smaller than the average size of the cells. In one embodiment, the filter may include pores of a diameter smaller than the size of the cell's nucleus. In one embodiment, the filter may include pores having diameters smaller than the average size of the nuclei of cells.
  • the filter may be appropriately designed according to the type of cell. In one embodiment, the average diameter of the pores included in the filter may be smaller than the size of the cells (eg, the diameter of the cells). In one embodiment, the average diameter of the pores included in the filter may be smaller than the size of the nucleus of the cell (eg, the diameter of the nucleus of the cell).
  • the filter is about 0.1 ⁇ m, 0.2 ⁇ m, 0.3 ⁇ m, 0.4 ⁇ m, 0.5 ⁇ m, 0.6 ⁇ m, 0.7 ⁇ m, 0.8 ⁇ m, 0.9 ⁇ m, 1 ⁇ m, 1.5 ⁇ m, 2 ⁇ m, 2.5 ⁇ m, 3 ⁇ m, 3.5 ⁇ m, 4 ⁇ m, 4.54 ⁇ m, 5 ⁇ m, 5.5 ⁇ m, 6 ⁇ m, 6.5 ⁇ m, 7 ⁇ m, 7.5 ⁇ m, 8 ⁇ m, 8.5 ⁇ m, 9 ⁇ m, 9.5 ⁇ m, 10 ⁇ m, 11 ⁇ m, 12 ⁇ m, 13 ⁇ m, 14 ⁇ m, 15 ⁇ m, 16 ⁇ m, 17 ⁇ m, 18 ⁇ m, 19 ⁇ m, 20 ⁇ m, 21 ⁇ m, 22 ⁇ m, 23 ⁇ m, 24 ⁇ m, 25 ⁇ m, 26 ⁇ m, 27 ⁇ m, 28 ⁇ m, 29 ⁇ m, 30 ⁇ m, 31 ⁇ m, 32 ⁇ m, 33 ⁇ m, 34 ⁇ m, 35 ⁇ m, 36 ⁇ m,
  • the average diameter of the pores included in the filter is about 0.1 ⁇ m, 0.2 ⁇ m, 0.3 ⁇ m, 0.4 ⁇ m, 0.5 ⁇ m, 0.6 ⁇ m, 0.7 ⁇ m, 0.8 ⁇ m, 0.9 ⁇ m, 1 ⁇ m, 1.5 ⁇ m, 2 ⁇ m, 2.5 ⁇ m ⁇ m, 3 ⁇ m, 3.5 ⁇ m, 4 ⁇ m, 4.54 ⁇ m, 5 ⁇ m, 5.5 ⁇ m, 6 ⁇ m, 6.5 ⁇ m, 7 ⁇ m, 7.5 ⁇ m, 8 ⁇ m, 8.5 ⁇ m, 9 ⁇ m, 9.5 ⁇ m, 10 ⁇ m, 11 ⁇ m, 12 ⁇ m, 13 ⁇ m, 14 ⁇ m, 15 ⁇ m, 16 ⁇ m , 17 ⁇ m, 18 ⁇ m, 19 ⁇ m, 20 ⁇ m, 21 ⁇ m, 22 ⁇ m, 23 ⁇ m, 24 ⁇ m, 25 ⁇ m, 26 ⁇ m, 27 ⁇ m, 28 ⁇ m, 29 ⁇ m, 30 ⁇ m, 31 ⁇ m, 32 ⁇ m, 33 ⁇ m,
  • the average diameter of the pores included in the filter may be about 5 ⁇ m, 6 ⁇ m, 7 ⁇ m, 8 ⁇ m, 9 ⁇ m, 10 ⁇ m, 11 ⁇ m, 12 ⁇ m, 13 ⁇ m, 14 ⁇ m, or 15 ⁇ m. In certain embodiments, the average diameter of the pores included in the filter may be no greater than 5 ⁇ m, 6 ⁇ m, 7 ⁇ m, 8 ⁇ m, 9 ⁇ m, 10 ⁇ m, 11 ⁇ m, 12 ⁇ m, 13 ⁇ m, 14 ⁇ m, or 15 ⁇ m.
  • the average diameter of the pores of the filter is 0.1 ⁇ m, 0.2 ⁇ m, 0.3 ⁇ m, 0.4 ⁇ m, 0.5 ⁇ m, 0.6 ⁇ m, 0.7 ⁇ m, 0.8 ⁇ m, 0.9 ⁇ m, 1 ⁇ m, 1.5 ⁇ m, 2 ⁇ m, 2.5 ⁇ m, 3 ⁇ m , 3.5 ⁇ m, 4 ⁇ m, 4.54 ⁇ m, 5 ⁇ m, 5.5 ⁇ m, 6 ⁇ m, 6.5 ⁇ m, 7 ⁇ m, 7.5 ⁇ m, 8 ⁇ m, 8.5 ⁇ m, 9 ⁇ m, 9.5 ⁇ m, 10 ⁇ m, 11 ⁇ m, 12 ⁇ m, 13 ⁇ m, 14 ⁇ m, 15 ⁇ m, 16 ⁇ m, 17 ⁇ m, 18 ⁇ m, 19 ⁇ m, 20 ⁇ m, 21 ⁇ m, 22 ⁇ m, 23 ⁇ m, 24 ⁇ m, 25 ⁇ m, 26 ⁇ m, 27 ⁇ m, 28 ⁇ m, 29 ⁇ m, 30 ⁇ m, 31 ⁇ m, 32 ⁇ m, 33 ⁇ m, 34 ⁇ m,
  • one or more filters may be used to achieve physical disruption of cells.
  • one filter may be used, for example, a first filter including pores of a first average diameter may be used.
  • a plurality of filters may be used, for example, a first filter including pores of a first average diameter is primarily used, and a second filter including pores of a second average diameter (ie, the first A filter having a pore profile different from that of the filter) may be used secondarily.
  • the type of filter and the number of filters that can be used to achieve physical disruption of cells are not otherwise limited.
  • the force that causes a cell to pass through a pore may be pressure. That is, when pressure is applied to a region in which cells are located (eg, a receiving portion including cells), cells may pass through pores smaller than the size of cells while being destroyed.
  • the pressure may be applied by various methods and is not limited otherwise.
  • the application of pressure may be performed by a person.
  • pressure may be applied by pushing a piston designed to apply pressure to a receptacle containing cells.
  • application of pressure may be accomplished by a machine or device.
  • pressure may be applied by pushing a piston through a machine designed to apply pressure to a receptacle containing cells.
  • application of pressure may be accomplished by centrifugation.
  • the pressure may be centrifugal or osmotic.
  • the magnitude or intensity of the applied force is not otherwise limited. For example, a minimum force or pressure capable of achieving cells passing through a pore and/or filter, or greater force or pressure may be applied.
  • disruption of cells may be achieved using an extruder.
  • an extruder a method of disrupting cells using an extruder will be described in detail.
  • an extruder is designed to include a porous structure having a receiving portion and pores, and apply force to the receiving portion so that the composition loaded into the receiving portion can pass through the porous structure having pores. It may refer to a tool or machine that has been used.
  • An example of an extruder used in bio and chemical fields is Avanti's mini-extruder.
  • the mini-extruder has two receptacles included in two syringes, and includes a filter (or membrane) with pores located between the two receptacles.
  • the inventors of the present application found that the structure of this extruder was suitable for physically destroying cells and used it to destroy cells.
  • the term 'extrusion' can be recognized as including a series of processes in which an element located in the receiving portion passes through a porous structure (filter or membrane) using pressure.
  • a process of applying pressure to a first accommodating part where a composition containing cells is located and allowing the cells to pass through a filter while being destroyed by the pressure is an example of extrusion.
  • the process of allowing the Cas protein and/or gRNA to pass through a filter from the first accommodating unit and move to a region other than the first accommodating unit (eg, the second accommodating unit) by pressure is called extrusion. is an example of
  • the extruder may be, but is not limited to, a one-way extruder designed to pass through the filter once.
  • the extruder may be, but is not limited to, a bi-directional extruder designed to allow multiple passes through the filter.
  • the bidirectional extruder may include at least two accommodating units and a filter positioned between the two accommodating units.
  • the aforementioned mini-extruder manufactured by Avanti may be a bi-directional extruder.
  • the destruction rate of cells may be increased by passing through the filter multiple times, but is not otherwise limited.
  • the method of predicting an off-target of the present application may include the use of an extruder.
  • an extruder including a first accommodating portion, a second accommodating portion, and a filter may be used.
  • the filter may be located between the first accommodating part and the second accommodating part.
  • an example of use of an extruder including a first accommodating portion, a second accommodating portion, and a filter is disclosed.
  • the first receptacle may be loaded with a starting composition comprising cells, Cas protein, and gRNA.
  • Pressure may be applied to the first receptacle where the starting composition is located.
  • the application of pressure may be performed by pushing a piston connected to the first receptacle, which is designed to apply pressure to the first receptacle. That is, the piston connected to the first accommodating part may be pushed in the direction of the first accommodating part and the filter to apply pressure to the first accommodating part.
  • pressure may be applied to move the elements of the starting composition (including cells, Cas proteins, and gRNAs) into the second receptacle.
  • elements included in the starting composition may pass through a filter having pores and move into the second accommodating unit.
  • cells having a size larger than the pore size may be destroyed while passing through the filter.
  • destruction of cells may be disruption of cell membranes, or may be disruption of cell membranes and nuclear membranes.
  • a mixed solution including elements obtained from destroyed cells, Cas protein, and gRNA may settle in the second accommodation unit.
  • the Cas/gRNA complex comes into contact with DNA (eg, genomic DNA), which is one of the elements obtained from the disrupted cell.
  • the mixed solution seated in the second accommodating unit may or may not contain undestroyed cells.
  • the extruder can be used to force elements of the composition or elements derived from the composition loaded into the extruder to pass through the filter of the extruder multiple times. Passing through the filter several times can increase the rate of destruction of cells and/or increase the rate of contact between the Cas/gRNA complex and genomic DNA.
  • extrusion can be performed n times. In one embodiment, passing through the filter may be performed n times. In this case, n may be an integer. where n is 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24 , 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49 , 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74 , 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99 , or 100, but is not limited
  • composition to be analyzed may be obtained through a process involving the use of an extruder.
  • any one or more processes of incubation, RNA removal, and DNA purification may be further performed after the extrusion process.
  • an incubation process may be performed to accumulate the cleavage rate after the extrusion process. That is, after performing the cell destruction process, a process of incubating the composition containing the destroyed cellular elements may be additionally performed. For example, an incubation time of about 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 26, 28, 30, 32, 36, 38, 40, 42, 44, 46, or 48 hours, or greater than, but not limited to, the foregoing. For example, after the extrusion process is completed, incubation (eg, incubation at 37° C.) and RNA removal process may be performed to finally obtain the composition to be analyzed.
  • incubation eg, incubation at 37° C.
  • RNA removal process may be performed to finally obtain the composition to be analyzed.
  • the composition to be analyzed is a composition to be used in an analysis process to be performed later.
  • the DNA included in the composition to be analyzed may be DNA suitable for analysis (eg, sequencing).
  • the composition to be analyzed may include truncated DNA.
  • the composition to be analyzed may include uncut DNA in addition to cleaved DNA.
  • the formation process of the truncated DNA has been described above in detail.
  • a Cas/gRNA complex may contact DNA (eg, genomic DNA) and the DNA may be cleaved through a DSB or nick induced by the Cas/gRNA complex.
  • composition to be analyzed Composition to be analyzed
  • the composition to be analyzed may be obtained by a method comprising contacting genomic DNA with a gene editing tool (eg, Cas/gRNA complex) according to one embodiment of the present application.
  • the composition to be analyzed may include truncated genomic DNA.
  • the composition to be analyzed may include one or more truncated DNA (eg, double-stranded DNA or single-stranded DNA).
  • the cleaved genomic DNA may include one or more cleavages occurring at one or more cleavage sites. For example, as described above, one or more cleavages may occur by DSBs or nicks induced by Cas/gRNA complexes in contact with genomic DNA.
  • the cleavage site may be associated with an off-target site or an on-target site.
  • the cleavage site can be an off-target site or an on-target site. That is, cleavage can be caused by a DSB or nick induced (or generated) at an off-target or on-target site by the Cas/gRNA complex in contact with genomic DNA.
  • the composition of interest may reflect the advantages of an in vitro off-target prediction system.
  • the truncated genomic DNA included in the composition to be analyzed may not be repaired genomic DNA. This is because some or all of the DNA repair mechanisms are inactivated.
  • the composition to be analyzed may reflect the advantages of a cell-based off-target prediction system.
  • the truncated genomic DNA included in the composition to be analyzed may reflect cell-specific epigenetic characteristics.
  • information on cleavage of genomic DNA may be obtained by analyzing the composition to be analyzed.
  • information on off-target candidates that may occur in the use of the gene editing system can be obtained.
  • Information about an off-target candidate may be used to predict an off-target. That is, off-targets that may occur in the use of a gene editing system (eg, a CRISPR/Cas gene editing system) can be predicted.
  • the method of the present application includes analyzing the composition to be analyzed including the obtained, cleaved genomic DNA.
  • information on cleavage of genomic DNA eg, information on one or more cleavage sites and/or cleavage scores for one or more cleavage sites, etc.
  • Information on off-target candidates eg, information on one or more off-targets and/or scores on one or more off-targets
  • information about cleavage of genomic DNA can be obtained by analyzing DNA (eg, cleaved and/or uncut genomic DNA) included in the composition to be analyzed.
  • information on cleavage of genomic DNA can be obtained by analyzing cleaved DNA included in the composition to be analyzed.
  • information about cleavage of genomic DNA can be obtained by analyzing one or more cleavage sites.
  • the analysis method capable of confirming the cleavage site of the cleaved DNA is not otherwise limited. For example, any analysis method capable of confirming the cleavage site of the cleaved DNA can be sufficiently used in the off-target prediction method of the present application.
  • analysis of DNA may be performed using DNA analysis methods well known to those skilled in the art.
  • analysis of DNA is PCR-based analysis (see Cameron, Peter, et al. "Mapping the genomic landscape of CRISPR-Cas9 cleavage.” Nature methods 14.6 (2017): 600-606.) and sequencing (sequencing) (Metzker, Michael L. "Sequencing technologies-the next generation.” Nature reviews genetics 11.1 (2010): 31-46; and Kumar, Kishore R., Mark J. Cowley, and Ryan L. Davis “Next-generation sequencing and emerging technologies.” Seminars in thrombosis and hemostasis. Vol. 45. No. 07. Thieme Medical Publishers, 2019.) (e.g., DNA sequencing) can be performed
  • sequencing includes whole-genome sequencing (WGS), deep sequencing, high-throughput sequencing (HTS), de-novo sequencing, second-generation Second-generation sequencing, next-generation sequencing, third generation sequencing, large-scale sequencing, shotgun sequencing, long-read sequencing ), and a sequencing method referred to as any one or more of short-read sequencing may be used, but is not limited otherwise.
  • the sequencing depth of the sequencing method used to analyze the composition to be analyzed is about 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42, 44, 46, 48, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 200, 300, 400, 500, 600, 700, 800, 900, or 1000x.
  • the sequencing depth may be a range of two values selected from the foregoing.
  • the sequencing depth may be equal to or greater than the value set forth above.
  • the sequencing depth of the sequencing used for analysis may be about 10-40x.
  • the sequencing depth is not otherwise limited, and a sequencing depth sufficient to determine the DNA cleavage site is sufficient.
  • information about cleavage of DNA can be obtained by analyzing the composition to be analyzed.
  • information about cleavage of DNA may include information about one or more cleavage sites.
  • the cleavage site may be generated by a gene editing tool.
  • information about cleavage of DNA may include information about the location on genomic DNA of one or more cleavage sites.
  • information on DNA cleavage may include positional information on genomic DNA of each cleavage site for all cleavage sites present in the cleaved DNA included in the composition to be analyzed.
  • information on DNA cleavage may include positional information on genomic DNA of each cleavage site for one or more cleavage sites present in the cleaved DNA of the composition to be analyzed. That is, positional information of the entire cleavage site or positional information of a part of the cleavage site can be obtained through the analysis.
  • the location information thus obtained may be associated with an off-target candidate and/or an on-target site. For example, it may be determined whether the cleavage site is associated with an off-target candidate or an on-target by comparing location information of the identified cleavage site with a predetermined on-target site.
  • information about cleavage of DNA may include a cleavage score for one or more cleavage sites.
  • information on DNA cleavage may include a cleavage score of each cleavage site for all cleavage sites present in the cleaved DNA included in the composition to be analyzed.
  • information on DNA cleavage may include a cleavage score of each cleavage site for one or more cleavage sites present in the cleaved DNA of the composition to be analyzed. That is, a cleavage score for the entire cleavage site or a score for a part of the cleavage site can be obtained through the analysis.
  • a cleavage score can be calculated through sequence reads. In one embodiment, the cleavage score can be calculated through the results of a Manhattan plot. The calculation mechanism of the cleavage score is not otherwise limited and may be appropriately selected depending on which analysis method is used.
  • a cleavage rank can be calculated based on the cleavage score. For example, cleavage sites with high cleavage scores may be ranked higher. For example, the cleavage site with the highest cleavage score may be ranked first. In one embodiment, the cleavage score can be related to the cleavage rate of the corresponding cleavage site. Information on the truncation score obtained in this way may be associated with the scores of the off-target candidate and/or the on-target candidate.
  • information about cleavage of DNA may include information about the number of cleavage sites that have occurred. For example, the total number of cleavage sites can be calculated. For example, in one calculation of the number of cleavage sites, overlapping sites may be counted as one. As another example, in another calculation method of the number of cleavage sites, overlapping positions may be counted in plurality. For example, if 5 DNAs showing cleavage at cleavage site x are found, this can be counted as 1 or counted as 5, if desired.
  • the information on the number of cleavage sites it is possible to confirm the total number of off-target candidates that can be generated in the use of the gene editing system.
  • information on DNA cleavage obtained by assaying the composition to be analyzed may include, but is not limited to, any one or more of the following:
  • the process of obtaining information on DNA cleavage by analyzing the composition to be analyzed may further include an additional process for obtaining information on DNA cleavage.
  • processing of information (or data) and/or normalization of obtained information (or data) may be further included.
  • a process of comparing the obtained cutting information with predetermined on-target information may be further included.
  • the process of obtaining the cutting information may further include additional processes and is not otherwise limited.
  • information about DNA cleavage may further include, but is not limited to, other information that can be obtained through analysis of the composition to be analyzed (eg, DNA sequencing).
  • information on off-target candidates can be obtained from the obtained information on cleavage.
  • a person skilled in the art related to the present application will be able to obtain information on the off-target without much difficulty based on the information on the truncation, and therefore the present disclosure does not limit the process of the off-target prediction system of the present application.
  • Technicians in the technical field related to the present application use the information on cleavage (eg, information on DNA cleavage) obtained by analyzing the composition to be analyzed, to off-target, with or without an appropriate process. you will be able to get information about
  • the off-target prediction method of the present application may include a process of identifying information on an off-target candidate from the obtained information on cleavage.
  • information about off-target candidates may include information about the location of one or more off-target candidates on genomic DNA (e.g., at a candidate off-target site). information).
  • the information on positions of off-target candidates may include information on each position (position on genomic DNA) of all off-target candidates.
  • information on locations of off-target candidates may include information on locations of one or more off-target candidates. That is, location information may be obtained for all candidate off-target sites, or location information may be obtained for one or more but not all candidate off-target sites.
  • off-target candidates there may be genuine off-targets (eg, actual off-targets resulting from the use of gene editing systems).
  • Information about the position of the off-target candidate may be obtained based on the above-described cleavage information (eg, positional information of one or more cleavage sites).
  • information about off-target candidates may include off-target scores (eg, off-target prediction scores) for one or more off-target candidates.
  • information on off-target candidates may include off-target scores of each off-target candidate for all off-target candidates.
  • information on off-target candidates may include off-target scores of each off-target candidate with respect to one or more off-target candidates. That is, off-target scores can be obtained for all candidate off-target sites, or off-target scores can be obtained for one or more but not all candidate off-target sites.
  • Information about off-target scores of off-target candidates may be obtained based on the above-described cleavage information (eg, scores for one or more cleavage sites).
  • a rank of an off-target candidate may be calculated based on the obtained off-target score. For example, off-target candidates (eg, candidate off-target sites) exhibiting high off-target scores may be ranked higher. For example, the off-target candidate with the highest off-target score may be ranked first. For example, a high off-target score for an off-target candidate can be associated with a true off-target, but is not otherwise limited.
  • information on off-target candidates may include information on the number of off-target candidates.
  • the total number of off-target candidates may be calculated.
  • overlapping positions may be counted as one.
  • overlapping positions may be counted in plurality. For example, if 5 candidate off-target sites x are found, this may be counted as 1 or counted as 5.
  • information about off-target candidates may include, but is not limited to, any one or more of the following:
  • the process of obtaining information about the off-target candidate may further include an additional process of obtaining information about the off-target candidate.
  • processing of information (or data) and/or normalization of obtained information (or data) may be further included.
  • a process of comparing the obtained off-target candidate information with predetermined on-target information may be further included.
  • the process of obtaining information on the off-target candidate may further include an additional process and is not otherwise limited.
  • information on off-target candidates may further include, but is not limited to, additional information helpful in predicting possible off-targets in use of the gene editing system.
  • the off-target prediction system of the present application may be associated with a gene editing system to be predicted.
  • the gene editing system to be predicted may refer to a gene editing system determined to be used in research or used in a therapeutic agent, but is not limited thereto. That is, the gene editing system to be predicted may refer to a gene editing system (or gene editing process) in which off-targets are to be predicted.
  • the specific cell when a specific cell is used in a gene editing system that is a target of prediction, the specific cell may also be used in the method of predicting an off target of the present application.
  • the guide RNA having a specific guide sequence when a guide RNA having a specific guide sequence is used in a gene editing system to be predicted, the guide RNA having the same guide sequence may also be used in the method of predicting an off-target of the present application.
  • the method for predicting an off-target may further include a process of identifying a gene editing system that is a target of prediction.
  • the gene editing system to be predicted may be referred to as a predetermined gene editing system.
  • the predetermined gene editing (eg, genome editing) system may include any one or more of a cell for gene editing (genome editing) and a predetermined gene editing tool.
  • the predetermined gene editing tool may include, for example, a guide RNA, a guide sequence, and a type of gene editing protein (eg, Cas protein).
  • the method of predicting an off target of the present application may further include identifying or designing a predetermined gene editing system.
  • a pre-determined gene editing system can be identified, and through this, elements to be used in the off-target prediction system can be properly designed.
  • the process of identifying the predetermined gene editing system may be performed before obtaining the composition to be analyzed.
  • an example of identifying a predetermined (ie, predicted target) gene editing system, based on the CRISPR/Cas gene editing system is disclosed.
  • the exemplary description based on the CRISPR/Cas gene editing system does not limit the aspect of the off-target prediction system of the present application, and is sufficiently applicable to other gene editing systems in a similar or identical context to the description below.
  • the method of predicting an off target of the present application may include identifying a predetermined CRISPR/Cas gene editing system.
  • confirming the predetermined CRISPR / Cas gene editing system is a predetermined cell (ie, a cell for editing to be used for CRISPR / Cas-based gene editing to be predicted), a predetermined type of Cas protein (ie, prediction target type of Cas protein to be used for CRISPR/Cas-based gene editing), and information on a predetermined guide RNA (guide RNA sequence or guide sequence).
  • identifying a predetermined CRISPR/Cas gene editing system may include identifying a predetermined cell.
  • the same cells as the pre-determined cells may be used in the off-target prediction system of the present application. In this way, cell-specific features can be reflected in the results of the off-target prediction system.
  • Cells subject to genome editing are not otherwise limited.
  • the predetermined cell may be an animal cell or a plant cell.
  • the predetermined cell may be a human cell or a non-human animal (eg, mouse, rat, dog, cat, cow, pig, horse, and sheep, etc.) cell, but is not otherwise limited.
  • the predetermined cell may be a human cell.
  • identifying a predetermined CRISPR/Cas gene editing system may include identifying a predetermined Cas protein.
  • the same Cas protein as the pre-determined Cas protein can be used in the off-target prediction system of the present application. As a result, characteristics that can be affected by the Cas protein can be reflected in the results of the off-target prediction system. In one embodiment, it may be a gene editing system using SpCas9.
  • identifying a predetermined CRISPR/Cas gene editing system may include identifying a predetermined guide RNA.
  • the same guide RNA as the predetermined guide RNA may be used in the off-target prediction system of the present application. In this way, features that can be influenced by the guide RNA can be reflected in the results of the off-target prediction system.
  • identifying a predetermined CRISPR/Cas gene editing system may include identifying a predetermined guide sequence.
  • a guide RNA having a guide sequence identical to a predetermined guide sequence may be used in the off-target prediction system of the present application. As a result, features that may be affected by the guide sequence may be reflected in the result of the off-target prediction system.
  • the off-target prediction system of the present application may use any one or more selected from cells identical to a predetermined cell, a Cas protein identical to a predetermined Cas protein, and a guide RNA having a guide sequence identical to a predetermined guide sequence. there is.
  • the off-target prediction system of the present application uses the engineer's off-target prediction system. It can be selected appropriately according to the intended purpose.
  • a Cas protein of a different kind from the predetermined Cas protein eg, a Cas protein known to have similar characteristics
  • a cell of a different type from the predetermined cell eg, a cell known to have similar characteristics
  • a guide RNA of a different type from the predetermined guide RNA eg, a guide RNA improved to be more effectively applied to the off-target prediction system, etc.
  • the off-target prediction system of the present application can be used with other off-target prediction systems.
  • the off-target prediction system of the present application may be used together with at least one selected from an in silico-based off-target prediction system, an in vitro-based off-target prediction system, and a cell-based off-target prediction system.
  • the off-target prediction system of the present application includes Cas-OFFinder, CHOPCHOP, CRISPOR, Digenome-seq, DIG-seq, SITE-seq, CIRCLE-seq, CHANGE-seq, GUIDE-seq, GUIDE-tag, DISCOVER- seq, BLISS, BLESS, integrase-defective lentiviral vector-mediated DNA break capture, HTGTS, ONE-seq, CReVIS-Seq, ITR-seq, and TAG-seq.
  • the off-target prediction system of the present application and another off-target prediction system may be used together, and the other off-target prediction system is an off-target prediction system developed before the filing date of the present application. or an off-target prediction system developed after the filing date of the present application, and is not otherwise limited.
  • the composition to be analyzed may be obtained by disrupting cells.
  • information on genomic DNA cleavage can be obtained.
  • the composition to be analyzed can be obtained by disrupting the cells.
  • the starting composition may further include a gene editing tool (eg, Cas protein and guide RNA) in addition to the cells.
  • a gene editing tool eg, Cas protein and guide RNA
  • the starting composition may include cells.
  • the concentration of cells in the starting composition is about 1x10 5 cells/mL, 2x10 5 cells/mL, 3x10 5 cells/mL, 4x10 5 cells/mL, 5x10 5 cells/mL, 6x10 5 cells/mL , 7x10 5 cells/mL, 8x10 5 cells/mL, 9x10 5 cells/mL, 1x10 6 cells/mL, 2x10 6 cells/mL, 3x10 6 cells/mL, 4x10 6 cells/mL, 5x10 6 cells/mL, 6x10 6 cells/mL, 7x10 6 cells/mL, 8x10 6 cells/mL, 9x10 6 cells/mL, 1x10 7 cells/mL , 2x10 7 cells /mL , 3x10 7 cells/mL , 4x10 7 cells/mL , 5x10 7 cells /mL , 6x10 7 cells/mL , 7x10 7 cells/mL ,
  • the concentration of cells included in the starting composition can range from two values selected from the foregoing. In one embodiment, the concentration of cells included in the starting composition may be greater than or less than any one selected from the foregoing values. In certain embodiments, the concentration of cells included in the starting composition is about 1x10 6 cells/mL, 2x10 6 cells/mL, 3x10 6 cells/mL, 4x10 6 cells/mL, 5x10 6 cells/mL, 6x10 6 cells/mL , 7x10 6 cells/mL, 8x10 6 cells/mL, 9x10 6 cells/mL, 1x10 7 cells/mL , 2x10 7 cells/mL , 3x10 7 cells/mL , 4x10 7 cells/mL , 5x10 7 cells/mL , 6x10 7 cells/mL , 7x10 7 cells/mL , 8x10 7 cells/mL , 9x10 7 cells/mL , or 1x10 8 cells/mL.
  • a cell may be an animal cell or a plant cell.
  • the cells may be human cells or non-human animal (eg, mouse, rat, dog, cat, cow, pig, horse, and sheep, etc.) cells, but are not limited to otherwise.
  • the cells may be human cells.
  • the starting composition may include a gene editing tool.
  • a starting composition may include a Cas protein and a gRNA.
  • the concentration of Cas protein included in the starting composition is about 10 nM, 20 nM, 30 nM, 40 nM, 50 nM, 60 nM, 70 nM, 80 nM, 90 nM, 100 nM, 200 nM, 300 nM, 400 nM, 500 nM, 600 nM, 700 nM, 80 nM 0nM, 900nM, 1000nM (1 ⁇ M), 2000nM, 3000nM, 4000nM, 5000nM, 6000nM, 7000nM, 8000nM, 9000nM, 10000nM (10 ⁇ M), 20000nM, 30000nM, 4000 0 nM, 50000 nM, 60000 nM, 70000 nM, 80000 nM, 90000 nM, or 100000 nM (100 ⁇ M)
  • the concentration of Cas protein included in the starting composition may range from two values selected from the foregoing. In one embodiment, the concentration of Cas protein included in the starting composition may be greater than or less than any one selected from the foregoing values. In certain embodiments, the concentration of Cas protein included in the starting composition may be about 1000 nM (1 ⁇ M), 2000 nM, 3000 nM, 4000 nM, 5000 nM, 6000 nM, 7000 nM, 8000 nM, 9000 nM, or 10000 nM (10 ⁇ M).
  • the concentration of guide RNA included in the starting composition is about 10 nM, 20 nM, 30 nM, 40 nM, 50 nM, 60 nM, 70 nM, 80 nM, 90 nM, 100 nM, 200 nM, 300 nM, 400 nM, 500 nM, 600 nM, 700 nM, 80 nM 0nM, 900nM, 1000nM (1 ⁇ M), 2000nM, 3000nM, 4000nM, 5000nM, 6000nM, 7000nM, 8000nM, 9000nM, 10000nM (10 ⁇ M), 20000nM, 30000nM, 4000 0 nM, 50000 nM, 60000 nM, 70000 nM, 80000 nM, 90000 nM, or 100000 nM (100 ⁇ M)
  • the concentration of guide RNA included in the starting composition may range from two values selected from the foregoing. In one embodiment, the concentration of guide RNA included in the starting composition may be greater than or less than any one of the values set forth above. In certain embodiments, the concentration of guide RNA included in the starting composition may be about 1000 nM (1 ⁇ M), 2000 nM, 3000 nM, 4000 nM, 5000 nM, 6000 nM, 7000 nM, 8000 nM, 9000 nM, or 10000 nM (10 ⁇ M).
  • the starting composition may include ribonucleoproteins (RNPs) (eg, Cas/gRNA complexes).
  • RNPs ribonucleoproteins
  • the off-target prediction method of the present application may further include mixing and pre-incubating the guide RNA and the Cas protein. . That is, before the starting composition is provided, a process of culturing the mixed solution containing the guide RNA and the Cas protein may be additionally performed.
  • a starting composition may be obtained by obtaining RNP (Cas/gRNA complex) from a mixture containing the cultured guide RNA and Cas protein, and mixing the obtained RNP and cells.
  • the concentration of RNP (e.g., Cas/gRNA complex) included in the starting composition is about 10 nM, 20 nM, 30 nM, 40 nM, 50 nM, 60 nM, 70 nM, 80 nM, 90 nM, 100 nM, 200 nM, 300 nM, 400 nM , 500nM, 600nM, 700nM, 800nM, 900nM, 1000nM (1 ⁇ M), 2000nM, 3000nM, 4000nM, 5000nM, 6000nM, 7000nM, 8000nM, 9000nM, 10000nM (10 ⁇ M), 20000nM, 30000nM, 40000nM, 50000nM, 60000nM, 70000nM, 80000nM , 90000 nM, or 100000 nM (100 ⁇ M), but is not otherwise limited.
  • RNP e.g., Cas/gRNA complex
  • the concentration of RNP included in the starting composition can range from two values selected from the foregoing. In one embodiment, the concentration of RNP included in the starting composition may be greater than or less than any one selected from the foregoing values. In certain embodiments, the concentration of RNP included in the starting composition may be about 1000 nM (1 ⁇ M), 2000 nM, 3000 nM, 4000 nM, 5000 nM, 6000 nM, 7000 nM, 8000 nM, 9000 nM, or 10000 nM (10 ⁇ M).
  • exemplary embodiments of the off target prediction system of the present application are disclosed.
  • the following embodiments may be disclosed as a feature of the mechanism of the off-target prediction system of the present application.
  • Some or all of the embodiments below may include some or all of the embodiments disclosed in the embodiments featuring the use of extruders described below.
  • One embodiment of the present application provides a method for predicting off-targets that may occur during gene editing (eg, genome editing).
  • One embodiment of the present application provides a method for identifying off-target candidates that may occur during genome editing.
  • One embodiment of the present application provides a method for predicting off-targets of a CRISPR/Cas gene editing system.
  • One embodiment of the present application provides a method for identifying off-target candidates that may occur in a gene editing process using a CRISPR/Cas gene editing system. Any description of a method for predicting off-targets that may occur during genome editing or checking information on off-targets may be used without limitation.
  • the cleaved genomic DNA included in the composition to be analyzed may be cleaved genomic DNA in which genomic DNA of physically disrupted cells has been cleaved by a gene editing system.
  • the truncated genomic DNA may have cell-specific epigenetic characteristics.
  • the cleaved genomic DNA may not be repaired genomic DNA.
  • One embodiment of the present application provides a method for predicting possible off-targets in a gene editing (e.g., genome editing) process that includes:
  • a method of predicting an off target may be provided that further comprises:
  • One embodiment of the present application provides a method for predicting possible off-targets in a CRISPR/Cas gene editing system comprising:
  • a method for predicting an off-target may be provided, further comprising: (iv) confirming information on an off-target candidate from the information on the cleavage site obtained from (iii).
  • the information about the cleavage site may include one or more of: the location of the one or more cleavage sites on genomic DNA, the cleavage score for the one or more cleavage sites, and the number of cleavage sites.
  • the location for one or more cleavage sites on genomic DNA can be the location of each cleavage site relative to one or more cleavage sites on genomic DNA.
  • the cleavage score for one or more cleavage sites can be a cleavage score for each of the one or more cleavage sites.
  • the number of cleavage sites may be the total number of cleavage sites.
  • the information about the off-target candidates may include one or more of the following: a location on genomic DNA of one or more off-target candidates; off-target prediction scores for one or more off-target candidates; and the number of predicted off-target candidates.
  • the location on the genomic DNA of one or more off-target candidates can be a location on the genomic DNA of each off-target candidate for the one or more off-target candidates.
  • the off-target prediction score for one or more off-target candidates may be the off-target prediction score of each off-target candidate for one or more off-target candidates.
  • the number of off-target candidates may be the total number of predicted off-target candidates.
  • the membrane structure including the cell membrane of the first cell is destroyed by physically destroying the first cell, thereby providing an environment in which the Cas/gRNA complex can contact genomic DNA. It can be.
  • the membrane structure including the nuclear membrane of the first cell is destroyed by physically destroying the first cell, thereby preparing an environment in which the Cas/gRNA complex can contact genomic DNA.
  • physically disrupting the first cell may include passing the first cell through a filter having pores.
  • the force that causes the first cells to pass through pores smaller than the size of the first cells may be pressure.
  • the average diameter of the pores of the filter may be smaller than the size of the first cells.
  • the filter may include pores having a smaller diameter than the size of the first cells.
  • the average diameter of the pores of the filter may be 5 to 15 ⁇ m.
  • the average diameter of the pores of the filter may be about 8 ⁇ m.
  • the filter may include pores between 5 and 15 ⁇ m in diameter.
  • physically destroying the first cell can be accomplished through the use of an extruder.
  • the extruder includes a filter having pores, wherein the filter may include pores having a diameter smaller than the size of the first cells.
  • the extruder includes a filter having pores, wherein the average diameter of the pores of the filter may be 5 to 15 ⁇ m.
  • the genomic DNA exposed by physical disruption of the first cell may retain cell-specific epigenetic characteristics (eg, chromatin structural characteristics) of the first cell.
  • the information on the off-target candidate may be information reflecting epigenetic characteristics specific to the first cell.
  • an environment in which genomic DNA and the Cas/gRNA complex can come into contact may be an environment in which DNA repair mechanisms are inactivated.
  • destruction of the cell inactivates the cell's DNA repair machinery, which may result in unrepair of severed DNA.
  • a method for predicting off-targets may be provided further comprising: identifying a predetermined CRISPR/Cas gene editing system that is subject to off-target prediction, wherein the predetermined CRISPR/Cas gene editing system includes any one or more of the use of a predetermined cell, the use of a predetermined Cas protein, and the use of a predetermined guide RNA, wherein the confirmation of the predetermined CRISPR / Cas gene editing system is (i) previously performed.
  • the guide sequence of the first guide RNA may have the same sequence as the guide sequence of the predetermined guide RNA.
  • the predetermined CRISPR/Cas gene editing system comprises the use of a predetermined cell, wherein the first cell and the predetermined cell may be the same.
  • (iii) analyzing the composition to be analyzed may include: analyzing DNA included in the composition to be analyzed through sequencing.
  • (iii) analyzing the composition to be analyzed may include: analyzing the cleaved genomic DNA included in the composition to be analyzed through sequencing.
  • (iii) analyzing the composition to be analyzed may include: analyzing DNA included in the composition to be analyzed through a PCR-based analysis method.
  • (iii) analyzing the composition to be analyzed may include: analyzing the cleaved genomic DNA included in the composition to be analyzed through a PCR-based analysis method.
  • the concentration of Cas protein included in the starting composition may be about 5000 nM.
  • the concentration of the first cells included in the starting composition may be about 1X10 7 cells/mL.
  • obtaining the composition to be analyzed may further include: incubating the composition obtained through disruption of cells.
  • obtaining the composition to be analyzed may further include: incubating the composition comprising disrupted cellular elements, Cas protein and guide RNA.
  • obtaining the composition to be analyzed may further include: removing RNA from the composition obtained through destruction of cells.
  • obtaining the composition to be analyzed may further include: removing RNA elements of the composition comprising disrupted cellular elements, Cas protein, and guide RNA.
  • obtaining the composition to be analyzed may further include: purifying DNA from the composition obtained through disruption of cells.
  • obtaining the composition to be analyzed may further include: purifying DNA from the composition comprising disrupted cellular elements, Cas protein, and guide RNA.
  • the off-target predicting methods of the present application may be used in combination with one or more other off-target predicting methods.
  • other off-target prediction methods include Cas-OFFinder, CHOPCHOP, CRISPOR, Digenome-seq, DIG-seq, SITE-seq, CIRCLE-seq, CHANGE-seq, GUIDE-seq, GUIDE-tag, DISCOVER-seq, BLISS, It may be any one or more selected from BLESS, integrase-defective lentiviral vector-mediated DNA break capture, HTGTS, ONE-seq, CReVIS-Seq, ITR-seq, and TAG-seq.
  • a method for predicting possible off-targets in a CRISPR/Cas gene editing system comprising:
  • the elements of the starting composition pass through a filter having pores located between the first accommodating part of the extruder and the second accommodating part of the extruder through applied pressure, and pass from the first accommodating part to the second accommodating part. moving to a part, whereby the mixed solution is seated in the second accommodating part;
  • the first cells which are elements larger in size than the diameter of the pores of the filter, pass through the pores of the filter while being destroyed by the applied pressure
  • genomic DNA is cleaved at one or more cleavage sites
  • the method of predicting an off target may further include:
  • the (ii) extrusion process may include:
  • the elements of the starting composition pass through a filter having pores located between the first accommodating part of the extruder and the second accommodating part of the extruder through applied pressure, and pass from the first accommodating part to the second accommodating part. moving to the part, whereby the mixed solution is seated in the second accommodating part,
  • the elements of the mixed solution included in the second accommodating part pass through the filter having pores located between the first accommodating part and the second accommodating part through the applied pressure and move from the second accommodating part to the first accommodating part, thereby
  • the mixed liquid moved through the filter by the pressure from the second accommodating unit is seated in the first accommodating unit, and
  • 0.5 represents the performance of a single process of (a) or (b),
  • the first cells which are elements larger in size than the diameter of the pores of the filter, pass through the pores of the filter while being destroyed by the applied pressure
  • genomic DNA is cleaved at one or more cleavage sites.
  • the pressure applied to the first receptacle may be generated by pushing a piston designed to apply pressure to the first receptacle in the direction of the first receptacle and the filter.
  • the pressure applied to the first receptacle is generated by pushing a piston designed to apply pressure to the first receptacle in the direction of the first receptacle and the filter
  • the second receptacle Pressure applied to the unit may be generated through a process of pushing a piston designed to apply pressure to the second housing unit in the direction of the second housing unit and the filter.
  • the information about the cleavage site may include one or more of the following: a location on genomic DNA for one or more cleavage sites, a cleavage score for one or more cleavage sites , and the number of cleavage sites.
  • the information about the off-target candidate may include one or more of: a location on genomic DNA for one or more off-target candidates, an off-target prediction score for one or more off-target candidates, and Number of predicted off-target candidates.
  • the membrane structure including the cell membrane of the first cell is destroyed by physically destroying the first cell, thereby preparing an environment in which the Cas/gRNA complex can contact the genomic DNA of the first cell.
  • membrane structures including the nuclear membrane of the first cell are disrupted by physically disrupting the first cell, whereby the Cas/gRNA complex contacts the genomic DNA of the first cell.
  • Possible environments can be prepared.
  • the filter may include pores with a diameter smaller than the size of the first cells.
  • the average diameter of the pores of the filter may be 5 to 15 ⁇ m.
  • the average diameter of the pores of the filter may be 8 ⁇ m.
  • the predetermined number of times may be 4 to 7.
  • the predetermined number of times may be 5.5.
  • genomic DNA exposed by physical disruption of said first cell may retain first cell-specific epigenetic characteristics.
  • the information on the cleavage site obtained from (iii) may be information reflecting the first cell-specific epigenetic characteristics.
  • the information on the off-target candidate obtained from (iv) may be information reflecting the first cell-specific epigenetic characteristics.
  • destruction of the cell disrupts the cell's DNA repair machinery, which may result in unrepair of the DNA that was cut.
  • the method of predicting an off target may further include:
  • Identifying a predicted target CRISPR/Cas gene editing system that is an off-target prediction target wherein the predicted target CRISPR/Cas gene editing system includes the use of a predicted target Cas protein and a predicted target guide RNA.
  • the method of predicting an off target may further include:
  • the guide sequence of the first guide RNA may have the same sequence as the guide sequence of the predicted guide RNA.
  • the CRISPR/Cas gene editing system of prediction includes the use of a cell of prediction, wherein the first cell and the cell of prediction may be the same.
  • (iii) analyzing the composition to be analyzed may include: analyzing the cleaved genomic DNA included in the composition to be analyzed through sequencing.
  • (iii) analyzing the composition to be analyzed may include: analyzing the cleaved genomic DNA included in the composition to be analyzed through sequencing.
  • (iii) analyzing the composition to be analyzed may include: analyzing DNA included in the composition to be analyzed through a PCR-based analysis method.
  • (iii) analyzing the composition to be analyzed may include: analyzing the cleaved genomic DNA included in the composition to be analyzed through a PCR-based analysis method.
  • the concentration of Cas protein included in the starting composition may be 5000 nM.
  • the concentration of the first cells included in the starting composition may be 1X10 7 cells/mL.
  • the following process may be further performed to obtain the composition to be analyzed: incubating the composition comprising disrupted cellular elements, Cas protein, and guide RNA.
  • the following process may be further performed to obtain the composition to be analyzed: Incubating the composition obtained through disruption of cells.
  • the following process may be further performed to obtain the composition to be analyzed: removing RNA elements of the composition including disrupted cellular elements, Cas protein, and guide RNA.
  • the following process may be further performed to obtain the composition to be analyzed: removing RNA from the composition obtained through disruption of cells.
  • the following process may be further performed to obtain the composition to be analyzed: purifying the DNA of the composition comprising disrupted cellular elements, Cas protein, and guide RNA.
  • the following process may be further performed to obtain the composition to be analyzed: purifying DNA from the composition obtained through disruption of cells.
  • the off-target predicting methods of the present application may be used in combination with one or more other off-target predicting methods.
  • other off-target prediction methods include Cas-OFFinder, CHOPCHOP, CRISPOR, Digenome-seq, DIG-seq, SITE-seq, CIRCLE-seq, CHANGE-seq, GUIDE-seq, GUIDE-tag, DISCOVER-seq, BLISS, It may be any one or more selected from BLESS, integrase-defective lentiviral vector-mediated DNA break capture, HTGTS, ONE-seq, CReVIS-Seq, ITR-seq, and TAG-seq.
  • a method for predicting off-targets that may occur during genome editing using the CRISPR/Cas gene editing system including:
  • the information on the cleavage site includes one or more of the following methods for predicting an off target:
  • the information on the off-target candidate includes one or more of the following methods for predicting an off-target:
  • the membrane structure including the cell membrane of the first cell is destroyed by physically destroying the first cell, thereby preparing an environment in which the Cas / gRNA complex can contact the genomic DNA of the first cell Characterized in that, a method for predicting an off target.
  • the membrane structure including the nuclear membrane of the first cell is destroyed by physically destroying the first cell, thereby preparing an environment in which the Cas / gRNA complex can contact the genomic DNA of the first cell Characterized in that, a method for predicting an off target.
  • Physically destroying the first cells includes passing the first cells through a filter having pores smaller than the size of the first cells, wherein the first cells are smaller than the size of the first cells.
  • Physically destroying the first cells is to pass the composition containing the first cells or a composition containing cell elements derived from the destroyed cells through a filter having pores smaller than the size of the first cells twice.
  • a method for predicting an off-target comprising passing through abnormally, wherein the first cell is destroyed while passing through a pore having a size smaller than that of the first cell.
  • the filter comprises pores having a diameter smaller than the size of the first cells.
  • the method of predicting an off-target wherein the average diameter of the pores of the filter is smaller than the size of the first cells.
  • the average diameter of the pores of the filter is 5 to 15 ⁇ m, how to predict off-target.
  • the method of predicting off-target wherein the average diameter of the pores of the filter is about 8 ⁇ m.
  • Physically destroying the first cell is characterized in that achieved through the use of an extruder, the method of predicting off-target.
  • Physically destroying the first cell is achieved through the use of an extruder, characterized in that the filter included in the extruder includes pores having a diameter smaller than the size of the first cell. How to predict your target.
  • Physically destroying the first cell is achieved through the use of an extruder, wherein the average diameter of the pores of the filter included in the extruder is 5 to 15 ⁇ m. .
  • the genomic DNA exposed by the physical disruption of the first cell is characterized in that the first cell-specific epigenetic characteristics are maintained.
  • the information on the cleavage site obtained from (iii) is information in which the first cell-specific epigenetic characteristics are reflected.
  • the information on the off-target candidate is information in which the first cell-specific epigenetic characteristics are reflected.
  • a method for predicting an off-target characterized in that the DNA repair mechanism of the cell is broken by cell destruction, and thus the cut DNA is not repaired.
  • A19 The method of predicting an off target according to any one of A01 to A18, further comprising:
  • Identifying a predicted target CRISPR/Cas gene editing system that is an off-target prediction target wherein the predicted target CRISPR/Cas gene editing system includes the use of a predicted target Cas protein and a predicted target guide RNA.
  • A20 The method of predicting an off target according to any one of A01 to A18, further comprising:
  • the guide sequence of the first guide RNA has the same sequence as the guide sequence of the prediction target guide RNA, the method of predicting off-target.
  • the prediction target CRISPR / Cas gene editing system includes the use of a prediction target cell, wherein the first cell and the prediction target cell are the same.
  • Analyzing the composition to be analyzed is a method for predicting off-targets including the following: DNA included in the composition to be analyzed is analyzed through sequencing.
  • Analyzing the composition to be analyzed is a method for predicting off-targets including the following: Analyzing the cleaved genomic DNA included in the composition to be analyzed through sequencing.
  • Analyzing the composition to be analyzed is a method for predicting off-targets including the following: DNA included in the composition to be analyzed is analyzed through a PCR-based analysis method.
  • Analyzing the composition to be analyzed is a method for predicting off-targets including the following: Analyzing the cleaved genomic DNA included in the composition to be analyzed through a PCR-based analysis method.
  • the method of predicting off-target characterized in that the concentration of the first cells included in the starting composition is 1X10 7 cells / mL.
  • composition to be analyzed further comprises:
  • composition comprising disrupted cellular elements, Cas protein, and guide RNA.
  • composition to be analyzed further comprises:
  • RNA elements of the composition including disrupted cellular elements, Cas proteins, and guide RNAs.
  • composition to be analyzed further comprises:
  • a method for predicting possible off-targets during genome editing using the CRISPR/Cas gene editing system including:
  • the elements of the starting composition pass through a filter having pores located between the first accommodating part of the extruder and the second accommodating part of the extruder through applied pressure, and pass from the first accommodating part to the second accommodating part. moving to the part, whereby the mixed solution is seated in the second accommodating part;
  • the first cells which are elements larger in size than the diameter of the pores of the filter, pass through the pores of the filter while being destroyed by the applied pressure
  • genomic DNA is cleaved at one or more cleavage sites
  • the method of predicting off-target in B01, characterized in that the (ii) extrusion process includes the following process:
  • the elements of the starting composition pass through a filter having pores located between the first accommodating part of the extruder and the second accommodating part of the extruder through applied pressure, and pass from the first accommodating part to the second accommodating part. moving to the part, whereby the mixed solution is seated in the second accommodating part;
  • the elements of the mixed solution included in the second accommodating part pass through the filter having pores located between the first accommodating part and the second accommodating part through the applied pressure and move from the second accommodating part to the first accommodating part, thereby
  • the mixed liquid moved through the filter by the pressure from the second accommodating unit is seated in the first accommodating unit, and
  • 0.5 represents the performance of a single process of (a) or (b),
  • the first cells which are elements larger in size than the diameter of the pores of the filter, pass through the pores of the filter while being destroyed by the applied pressure
  • genomic DNA is cleaved at one or more cleavage sites.
  • the pressure applied to the first accommodating part is generated through a process of pushing a piston designed to apply pressure to the first accommodating part in the direction of the first accommodating part and the filter. method.
  • the pressure applied to the first accommodating part is generated by pushing a piston designed to apply pressure to the first accommodating part in the direction of the first accommodating part and the filter,
  • the pressure applied to the second accommodating part is generated through a process of pushing a piston designed to apply pressure to the second accommodating part in the direction of the second accommodating part and the filter. method.
  • the information on the cleavage site includes one or more of the following methods for predicting an off target:
  • the information on the off-target candidate includes one or more of the following methods for predicting an off-target:
  • the membrane structure including the cell membrane of the first cell is destroyed by physically destroying the first cell, thereby preparing an environment in which the Cas / gRNA complex can contact the genomic DNA of the first cell Characterized in that, a method for predicting an off target.
  • the membrane structure including the nuclear membrane of the first cell is destroyed by physically destroying the first cell, thereby preparing an environment in which the Cas / gRNA complex can contact the genomic DNA of the first cell Characterized in that, a method for predicting an off target.
  • the method of predicting off-target characterized in that the filter comprises a pore smaller than the size of the first cell in diameter.
  • the average diameter of the pores of the filter is 5 to 15 ⁇ m, how to predict off-target.
  • the average diameter of the pores of the filter is 8 ⁇ m, a method for predicting off-target.
  • the method of predicting an off target characterized in that the predetermined number of times is 4 to 7.
  • the method of predicting an off target characterized in that the predetermined number of times is 5.5.
  • the genomic DNA exposed by the physical disruption of the first cell is characterized in that the first cell-specific epigenetic characteristics are maintained.
  • the information on the cleavage site obtained from (iii) is information in which the first cell-specific epigenetic characteristics are reflected.
  • the method for predicting off-targets wherein the information on the off-target candidates obtained from (iv) is information in which the first cell-specific epigenetic characteristics are reflected.
  • a method for predicting an off-target characterized in that the DNA repair mechanism of the cell is broken by cell destruction, and thus the cut DNA is not repaired.
  • Identifying a predicted target CRISPR/Cas gene editing system that is an off-target prediction target wherein the predicted target CRISPR/Cas gene editing system includes the use of a predicted target Cas protein and a predicted target guide RNA.
  • the guide sequence of the first guide RNA has the same sequence as the guide sequence of the prediction target guide RNA, the method of predicting off-target.
  • the prediction target CRISPR / Cas gene editing system includes the use of a prediction target cell, wherein the first cell and the prediction target cell are the same.
  • Analyzing the composition to be analyzed is a method for predicting off-targets including the following: Analyzing the cleaved genomic DNA included in the composition to be analyzed through sequencing.
  • Analyzing the composition to be analyzed is a method for predicting off-targets including the following: Analyzing the cleaved genomic DNA included in the composition to be analyzed through sequencing.
  • Analyzing the composition to be analyzed is a method for predicting off-targets including the following: DNA included in the composition to be analyzed is analyzed through a PCR-based analysis method.
  • Analyzing the composition to be analyzed is a method for predicting off-targets including the following: Analyzing the cleaved genomic DNA included in the composition to be analyzed through a PCR-based analysis method.
  • the method of predicting off-target characterized in that the concentration of the first cells included in the starting composition is 1X10 7 cells / mL.
  • a method for predicting an off-target further comprising the following process to obtain the composition to be analyzed:
  • composition comprising disrupted cellular elements, Cas protein, and guide RNA.
  • a method for predicting an off-target further comprising the following process to obtain the composition to be analyzed:
  • RNA elements of the composition including disrupted cellular elements, Cas proteins, and guide RNAs.
  • a method for predicting an off-target further comprising the following process to obtain the composition to be analyzed:
  • the off-target prediction system eg, Extru-seq
  • the off-target prediction system is an off-target prediction system characterized by physically destroying cells, and has the advantages of existing in vitro-based off-target prediction systems and in vivo-based off-target. It is a more efficient and more accurate off-target prediction system that has the advantages of a prediction system.
  • off-target candidate identification methods or off-target prediction methods performed to achieve the purpose of identifying off-targets that may occur in the gene editing process using the characteristics of the off-target prediction system of the present application described above are , Included as one use or application aspect of the off-target prediction method of the present application, the following examples do not limit the scope of the present application.
  • the off-target prediction method (or system) of the present application can be used by technicians or researchers who use the CRISPR/Cas gene editing system for genome editing of cells.
  • a researcher selects a gene-editing system to use to edit a cell's genome.
  • a researcher chooses the CRISPR/Cas gene editing system as the gene editing system to use for editing the genome of a cell.
  • researchers can select cells that are the primary target for genome editing.
  • an in silico-based off-target prediction method can be used to design an appropriate guide sequence.
  • researchers seek to develop therapeutics involving the use of gene editing systems.
  • information on the off-target of the selected gene editing system (especially guide RNA) must be identified as essential.
  • the off-target prediction system of the present application can be used in the process of selecting a gene editing system (particularly, guide RNA guide sequence).
  • a gene editing system particularly, guide RNA guide sequence
  • researchers create guide RNA libraries containing various types of guide RNAs.
  • the off-target prediction method of the present application is performed on the gene editing system including one or more guide RNAs included in the guide RNA library. Then, based on the results of the off-target prediction method of the present application, a gene editing system to be used for development or research of a therapeutic agent is selected.
  • known off-target prediction methods in silico, in vitro, cell-based off-target prediction methods
  • the off-target prediction system of the present application can be used in various scenes, and the use of the off-target prediction system is not limited to the above-described examples.
  • Candidate target sequences containing the NGG protospacer adjacent motif (PAM) located within the PCSK9 and Albumin genes of the mouse genome (mm10) were prepared by Cas-Designer (Park, Jeongbin, Sangsu Bae, and Jin-Soo Kim. "Cas-Designer : a web-based tool for choice of CRISPR-Cas9 target sites.” Bioinformatics 31.24 (2015): 4014-4016.]). Extracted sequences were aligned to the human genome (hg19). Among the extracted sequences, sequences having at least one or more targets with a mismatch of 0 when the extracted sequences were aligned with the human genome were selected.
  • PAM NGG protospacer adjacent motif
  • the selected candidate was Cas-OFFinder (Bae, Sangsu, Jeongbin Park, and Jin-Soo Kim. "Cas-OFFinder: a fast and versatile algorithm that searches for potential off-target sites of Cas9 RNA-guided endonucleases.” Bioinformatics 30.10 (2014): 1473-1475.]). Candidates with a diverse set of related sequences, including a variable number of mismatches (0 to 5 mismatches per site), widely distributed throughout the human and mouse genomes, were selected as targets. Information on the target and guide sequences of the promiscuous sgRNAs selected and used in subsequent experiments is as follows:
  • Target sequence of sgRNA single-stranded guide RNA targeting mouse PCSK9 (NGG PAM excluded):
  • Target sequence of sgRNA targeting mouse Albumin (NGG PAM excluded):
  • these sgRNAs perfectly matched the target sequences present in the human genome (with the exception that the PCSK9 and Albumin loci were not targeted in the human genome). Although the target and guide sequences target loci other than PCSK9 or Albumin in the human genome, for convenience, sgRNA targeting human PCSK9 and sgRNA targeting human Albumin are indicated.
  • the target sequence of the promiscuous sgRNA referred to as human PCSK9 -targeting sgRNA
  • human PCSK9 -targeting sgRNA is identical to the target sequence of mouse PCSK9- targeting sgRNA.
  • the target sequence of the sgRNA targeting human PCSK9 is as follows (NGG PAM excluded): AGGTGGGAAACTGAGGCTT (SEQ ID NO: 25)
  • the target sequence of the promiscuous sgRNA which is referred to as human Albumin -targeting sgRNA, is the same as that of the mouse Albumin- targeting sgRNA.
  • the target sequence of the sgRNA targeting human Albumin is as follows (excluding NGG PAM): ACATGCATATGTATGTGTG (SEQ ID NO: 26)
  • Streptococcus pyogenes Cas9 sequence (see Cho, Seung Woo, et al. "Targeted genome engineering in human cells with the Cas9 RNA-guided endonuclease.” Nature biotechnology 31.3 (2013): 230-232.) and designed promises Cureus sgRNA sequences (sgRNA targeting Albumin and sgRNA targeting PCSK9 ) were used in previous studies (Kim, Eunji , et al. "In vivo genome editing with a small Cas9 orthologue derived from Campylobacter jejuni.” Nature communications 8.1 (2017): 1-12.]). Cas9 expression was under the control of the CMV promoter and expression of sgRNA was under the control of the U6 promoter. Guide sequences targeting the FANCF , VEGFA , and HBB genes were cloned into the pRG2 vector (Addgene #104174).
  • Human HEK293T cells (ATCC, Cat# CRL-3216) and mouse NIH-3T3 cells (ATCC, Cat# CRL-1658) were cultured in DMEM (Dulbecco's Modified Eagle Medium) with 10% fetal bovine serum (FBS) and 1% penicillin-streptomycin. ), and 5% CO2, maintained at 37 °C.
  • DMEM Dulbecco's Modified Eagle Medium
  • FBS fetal bovine serum
  • penicillin-streptomycin penicillin-streptomycin
  • HEK293T cells were transfected with a plasmid expressing sgRNA (500ng, pAAV-Albumin or pAAV-PCSK9) and a plasmid expressing Cas9 (500ng, p3s-Cas9HC; Addgene plasmid #43945) and 5 pmol of dsODN. Transfection was performed using Lipofectamine 2000.
  • sgRNA 500ng, pAAV-Albumin or pAAV-PCSK9
  • Cas9 500ng, p3s-Cas9HC; Addgene plasmid #43945
  • 2x10 5 NIH-3T3 cells were transfected with a plasmid expressing sgRNA (250 ng, pAAV-Albumin or pAAV-PCSK), a plasmid expressing Cas9 (500 ng, p3s-Cas9HC; Addgene plasmid #43945), and 100 pmol of dsODN. Transfection was performed using the Amaxa P3 electroporation kit (V4XP-3032; program EN-158). Transfer the transfected cells to a 24-well plate containing DMEM (1 mL/well) pre-incubated at 37 °C. After 72 hours, genomic DNA was isolated using the QIAamp DNA Mini Kit (Qiagen).
  • HeLa cells Human HeLa cells (ATCC, Cat# CCL-2) were maintained in DMEM (Dolubecco's Modified Eagle Medium) with 10% fetal bovine serum (FBS) and 1% penicillin-streptomycin and under conditions of 5% CO2, 37°C. It became. HeLa cells were subcultured every 72 hours to maintain 80% confluency.
  • DMEM Dolubecco's Modified Eagle Medium
  • FBS fetal bovine serum
  • penicillin-streptomycin penicillin-streptomycin
  • GUIDE-seq enables genome-wide profiling of off-target cleavage by CRISPR-Cas nucleases. Nature biotechnology 33.2 (2015): 187-197.] reference) as described in For data analysis, GUIDE-seq (1.0.2; https://pypi.org/project/guide-seq/) compatible with Python 3 was used.
  • sgRNA templates were generated by PCR amplification after annealing of two complementary oligonucleotides. BamHI, BsaI, and KpnI restriction sites were attached to the ends of the sgRNA template in a second PCR.
  • the tailed sgRNA template was inserted into the pUC19 plasmid digested with BamHI and Kpnl.
  • the sgRNA-encoding plasmid was linearized by Bsal, resulting in the appropriate sgRNA end sequence.
  • Linearized plasmid was prepared with 14 mM MgCl 2 (NEB, B0510A), 10 mM DTT (Sigma, 43816), 0.02 U/ ⁇ l yeast inorganic pyrophosphatase (NEB, M2403L), 1 U/ ⁇ l murine RNase inhibitor (NEB, M0314L), 4 mM ATP ( 7.5 U/ ⁇ l T7 RNA polymerase (NEB, N0452AA), 4 mM UTP (NEB, N0453AA), and 4 mM CTP (NEB, N0454AA) in reaction buffer (NEB, B9012S). M0251L), and incubated at 37°C for 8 hours.
  • Yeast inorganic phosphatase was included to enhance sgRNA synthesis. After the reaction, the mixture was mixed and incubated with DNase I to remove the DNA template; The transcribed sgRNA was then purified using a PCR purification kit (Favorgen, #FAGCK001-1).
  • Genomic DNA from HEK293T (ATCC, Cat# CRL-3216) and NIH-3T3 cells (ATCC, Cat# CRL-1658) was purified with the DNeasy Blood & Tissue Kit (Qiagen). Both genomic DNAs (10 ⁇ g) were mixed with the Cas9 protein ( 10 ⁇ g) and albumin or PCSK9 -targeting sgRNA (10 ⁇ g each) (8 hours, 37°C). The digested genomic DNA was treated with RNase A (50 ⁇ g/mL, Qiagen) for 10 minutes to digest sgRNA and purified with the DNeasy Blood & Tissue Kit (Qiagen).
  • Genomic DNA (1 ⁇ g) was fragmented into 300 bp ranges using the Covaris system (Life Technologies) and blunt-ended using End Repair Mix (Thermo Fischer).
  • a library was created by ligating the fragmented DNA with an adapter, and then applied to WGS using the HiSeq X Ten Sequencer (Illumina) from Macrogen. WGS was performed at a sequencing depth of 30-40x. DNA cleavage sites were identified using the Digenome 1.0 program (see Park, Jeongbin, et al. "Digenome-seq web tool for profiling CRISPR specificity.” Nature methods 14.6 (2017): 548-549.).
  • CROP scores (heuristic scores that indicate if the candidate off-target sites would be edited) are described in a previous paper (Liu, Qiaoyue, et al. "Deep learning improves the ability of sgRNA off-target propensity prediction.” BMC bioinformatics 21.1 ( 2020): 1-15.]) was calculated using a CROP prediction model and optimized parameters (https://github.com/vaprilyanto/crop).
  • the CFD score (percent activity values provided in a matrix of penalties based on mismatches of each possible type at each position within the guide RNA sequence) was obtained from the "crisprScore" R package (Doench, John G., et al. "Optimized sgRNA design to maximize activity and minimize off-target effects of CRISPR-Cas9.” Nature biotechnology 34.2 (2016): 184-191.]).
  • the GX19 GACATGCATATGTATGTGTGTG (SEQ ID NO: 27) for Albumin and GAGGTGGGAAACTGAGGCTT (SEQ ID NO: 28) for PCSK9 sgRNA sequences and the X20 target sequence were used.
  • the transcribed sgRNA was refolded in 1X NEBuffer 3.1 reaction buffer (100 mM NaCl, 50 mM Tris-HCl, 10 mM MgCl2, 100 ⁇ g/mL BSA, at pH 7.9). After heating the sgRNA to 98 °C for 2 min, the temperature was lowered at a rate of 0.1 °C/s until reaching 20 °C.
  • Cas9 buffer (10 mM Tris-HCl, 0.15 M NaCl, 50% glycerol, at pH 7.4) was mixed with elution buffer (100 mM NaCl, 50 mM Tris-HCl, 10 mM MgCl2, at pH 8.0). Buffer exchange was performed through a 10K Amicon ® Ultra-15 Centrifugal Filter (Millipore).
  • HEK293T ATCC, Cat# CRL-3216
  • NIH-3T3 ATCC, Cat# CRL-1658
  • HeLa cells ATCC, Cat# CCL-2
  • BM-MSCs Human bone marrow mesenchymal stem cells
  • PT-2501 Harvested cells were resuspended in Dulbecco's phosphate-buffered saline (PBS).
  • Buffer exchanged Cas9 800 mg
  • refolded sgRNA 530 ⁇ g
  • 1x10 7 cells were added to 1 mL 1X NEBuffer 3.1 reaction buffer (100 mM NaCl, 50 mM Tris-HCl, 10 mM MgCl2, 100 ⁇ g/mL BSA, at pH 7.9) with 5000 nM RNP complex.
  • SCR7 pyrazine (Sigma, SML1546) (1 ⁇ M) was added. After gently pipetting, the suspended cells were extruded (extruded) 11 times through a polycarbonate membrane filter (whatman) with a pore size of 8 ⁇ m using a mini extruder (Avanti Polar Lipids). Extruded samples were incubated at 37°C for 16 hours. After adding RNase A (2 mg/mL) to remove sgRNA and RNA, genomic DNA was extracted from extruded samples using the FavorPrep Blood Genomic DNA Extraction Mini Kit (Favorgen, #FAGCK001-2). purified.
  • AtATATATATaTATaTaTGGAG SEQ ID NO: 50
  • bulges if present
  • PAM sequences are underlined.
  • the standalone Digenome-seq program does not have an sgRNA:off-target alignment function that provides information on the number of mismatches between guide and off-target sites and the type of bulge (DNA or RNA).
  • the web version of the Digenome-seq analysis tool http://www.rgenome.net/digenome-js/# ! is a selective alignment with an alignment score that does not provide information about the number of mismatches or types of bulges. has a function Instead, the inventors of the present application used CAS-OFFinder to identify off-target sites with up to 7 mismatches and 2 bulges relative to the target sequence.
  • Human HEK293T and HeLa cells were maintained in DMEM supplemented with 10% FBS (ATCC, CRL-3216) and 1% penicillin-streptomycin, respectively, at 37°C in the presence of 5% CO 2 .
  • 2x10 5 HEK293T cells and 8x10 4 HeLa cells were each transfected with plasmids expressing sgRNAs (500 ng, pAAV-Albumin, pAAV-PCSK9, pRG2-HBB, pRG2-FANCF or pRG2- VEGFA) and a Cas9-expressing plasmid (500 ng, pAAV-Cas9 or p3s-Cas9HC; Addgene plasmid #43945) using Lipofectamine 2000 (vendor, amount).
  • sgRNAs 500 ng, pAAV-Albumin, pAAV-PCSK9, pRG2-HBB, pRG2-FANCF or p
  • genomic DNA was prepared using the FavorPrep Blood Genomic DNA Extraction Mini Kit (Favorgen, #FAGCK001-2). Then, target sites and potential off-target sites were analyzed through deep sequencing. Deep sequencing libraries were generated via PCR. TruSeq HT Dual Index primers were used for labeling of each sample. Paired-end sequencing was performed on the pooled libraries using MiSeq (Illumina). Specifically, PCR was performed on several targets using primers having different indexes to combine them, and deep sequencing analysis was performed.
  • Deep sequencing data are accessible through the NCBI Bioproject (https://www.ncbi.nlm.nih.gov/bioproject/) under accession number PRJNA796642.
  • the inventors of the present application use EDITAS Medicine (Maeder, Morgan L., et al. "Development of a gene-editing approach to restore vision loss in Leber congenital amaurosis type 10.” The following criteria used in Nature medicine 25.2 (2019): 229-233.] were used. First, the indel of the sample must be higher than 0.1% for the sample to be verified. Second, the treated/control ratio should be higher than 2. Verification results for off-target candidates through deep sequencing are disclosed in detail in Table 01.
  • the off-target candidate's meet-match with the target to be verified is indicated in lowercase letters.
  • SEQ ID numbers 74 to 132 were assigned to off-target sequences 1 to 59 disclosed in Human PCSK9 in the order of off-target sequences.
  • SEQ ID numbers 133 to 174 were assigned to off-target sequences 1 to 42 disclosed in Human Albumin in the order of off-target sequences.
  • SEQ ID numbers 175 to 211 were assigned to the off-target sequences 1 to 37 disclosed in Mouse PCSK9 in the order of off-target sequences.
  • SEQ ID numbers 212 to 249 were assigned to off-target sequences 1 to 38 disclosed in Mouse Albumin in the order of off-target sequences.
  • SEQ ID numbers 250 to 293 were assigned to off-target sequences 1 to 44 disclosed in Human HBB in the order of disclosure of off-target sequences.
  • SEQ ID numbers 294 to 343 were assigned to off-target sequences 1 to 50 disclosed in Human VEGFA in the order of off-target sequences.
  • SEQ ID numbers 344 to 383 were assigned to off-target sequences 1 to 40 disclosed in Human FANCF in the order of off-target sequences. In the following, Table 01 is disclosed.
  • AAV8 carrying the desired cloned sequences (pAAV-PCSK9, pAAV-Albumin, and pAAV-Cas9) was produced at VigeneBioscience on a large scale (10 13 genome copies (GC)/mL). The resulting AAV was aliquoted and stored at -70 °C until use.
  • AAV8 Two forms of AAV8, each carrying pAAV-Cas9 and one of the two pAAV-sgRNAs (pAAV-PCSK9 or pAAV-Albumin), were introduced into C57BL/6 mice by systemic (intravenous) and subretinal injection. delivered. Both types of injection were performed at a 1:1 GC (pAAV-Cas9:pAAV-sgRNA) ratio. Each dose was 2.5 x 10 11 GC/animal for intravenous infusion and 1.5 x 10 10 GC/eye for subretinal infusion.
  • mice 7 to 9 week old male mice were injected by tail vein injection with 200 ⁇ l of AAV8 diluted in PBS.
  • the dose is 2.5 x 10 11 It was GC AAV8.
  • mice Male mice aged 7-9 weeks were selected. Under general anesthesia, one pupil per mouse was dilated with eye drops containing tropicamide and phenylephrine. During the experiment, the mouse's body temperature was maintained at 37 °C with a heating pad. A small incision was made with a 1/2 30G needle at a distance of 1 mm from the limbus of the cornea. A Hamilton syringe with a 33G blunt needle loaded with a 2 ⁇ l solution containing the AAV8 mixture was inserted through the incision to the point where resistance was felt (subretinal space). To avoid unnecessary tissue damage, the volume was carefully and gently injected, waiting for 20-30 seconds to spread evenly, and then slowly removing the syringe. An antibiotic ointment was then applied to the ocular surface. Four mice were used for each injection method and each sgRNA.
  • Organs and tissues were harvested 2 weeks and 3 months after injection. At the end of the experiment, animals were euthanized by cardiac puncture under isoflurane anesthesia. Organs including eyes, liver, spleen, lungs, kidneys, muscles, brain, and testes were dissected, flash frozen in liquid nitrogen, and stored at -70 °C until further analysis.
  • the neural retina and retinal pigment epithelium were isolated and prepared.
  • the cornea, iris, lens, and vitreous were removed from the excised eyeball.
  • the remaining eye tissue was incubated in hyaluronidase solution for 45 minutes (37°C, 5% CO 2 ). Then, incubation was performed in cold PBS for 30 minutes to inactivate hyaluronidase activity.
  • the ocular tissue was transferred to fresh PBS and the neural retina was gently separated from the retina/RPE/choroid/sclera complex.
  • the remaining RPE/choroid/sclera complex was incubated in trypsin solution at 37°C, 5% CO 2 for 45 minutes and gently shaken until the RPE sheet fell off completely. All isolated RPE sheets and RPE cells were collected. Genomic DNA was extracted using the DNeasy Blood & Tissue Kit (Qiagen, Cat No. 69506) according to the manufacturer's instructions.
  • Genomic DNA of mouse RPE cells (Retinal Pigment Epithelial cells) was amplified with the REPLI-g Single Cell Kit (Qiagen) according to the manufacturer's protocol.
  • Deep sequencing libraries were generated via PCR. TruSeq HT Dual Index primers were used for labeling of each sample. Paired-end sequencing was performed on pooled libraries using MiSeq (Illumina). Specifically, PCR was performed using primers having different indexes for several targets to combine them, and then targeted deep sequencing analysis was performed.
  • Score/sequence read counts were min-max normalized. In each group, the maximum value was normalized to 1 and the minimum value to 0.
  • the Wilcoxon Rank-Sum Test was performed on samples at each intersection of the Venn diagram to test whether the score medians of two different groups were equal. The results of the two-sided unpaired Mann-Whitney test calculated by Prism (version 9.4.1) are shown.
  • the sequence of the sgRNA used, the sequence related thereto, and the sequence of spCas9 are disclosed.
  • the sgRNA targeting human PCSK9 was targeted at a locus other than PCSK9 in the human genome, but for convenience, it is referred to as an sgRNA targeting human PCSK9 .
  • the human albumin -targeting sgRNA was targeted at a locus other than albumin in the human genome, but for convenience, it is referred to as human albumin -targeting sgRNA.
  • mouse Albumin Target sequence of sgRNA targeting target sequence on spacer unbound strand, excluding PAM
  • FANCF The whole sequence of sgRNA targeting
  • Target sequence of sgRNA targeting target sequence on the spacer unbound strand, excluding PAM
  • VEGFA Target sequence of sgRNA targeting target sequence on the spacer unbound strand, excluding PAM
  • HBB Target sequence of sgRNA targeting target sequence on the spacer unbound strand, excluding PAM
  • Genome-wide off-target prediction methods can be categorized into three groups according to their approach: cell-based, in vitro, and in silico.
  • An example of the three groups of approaches is disclosed in FIG. 01 .
  • GUIDE-seq was chosen as the cell-based off-target prediction method.
  • CAS-OFFinder was selected as the in silico off-target prediction method. This is because GUIDE-seq and CAS-OFFinder were most frequently used to predict off-targets of Cas9 therapeutics including EDIT101 and NTLA-2001.
  • Digenome-seq was selected as an in vitro off-target prediction method. Digenome-seq was used in the study of EDIT101 because it is one of the most popular protocols with many previous studies for comparison.
  • Extru-seq an off-target prediction method, characterized by lysing cells using physical force and mixing genomic DNA with Cas9 and sgRNA.
  • FIG. 02 A schematic diagram of Extru-seq, which is a method of predicting a new off-target, is disclosed in FIG. 02 .
  • FIG. 20 shows the quality of genomic DNA incubated overnight with Cas9 RNPs, analyzed via gel electrophoresis. Different numbers of NIH-3T3 cells and different pore sizes were tested.
  • 'Con' represents control genomic DNA of sufficient quality for WGS analysis.
  • 'L' represents ladder DNA. 21 discloses information for each of 1 to 9 samples. For example, an electrophoresis result of genomic DNA of a sample extruded under the conditions of Sample 8 (1 ⁇ 107 cells/mL; 8 ⁇ m pore size) is shown in line 8 of FIG. 20 .
  • Figures 22-23 disclose cleavage rates for on- and off-target sites recognized by sgRNAs targeting human PCSK9 sites, measured via quantitative PCR (qPCR). 22 shows the results of cleavage rates for on-target and off-target 2 sites of samples using sgRNA targeting human PCSK9 . 23 discloses the results of cleavage rates for off-target 4 and off-target 7 sites of samples using sgRNA targeting human PCSK9 .
  • the inventors of the present application determined the optimized conditions of Extru-seq for the subsequent experiments as follows: pore size of 8 ⁇ M, Cas9 RNP concentration of 5000 nM, and 10 7 cells. Under the above optimized conditions, the quality of Cas9 RNP and genomic DNA incubated overnight at 37 °C was confirmed to be sufficiently high for whole genome sequencing (WGS) library construction.
  • WGS whole genome sequencing
  • the inventors of the present application hypothesized that a DNA repair mechanism for re-ligating genomic DNA cut by Cas9 would not exist in the process of Extru-seq. In fact, when DNA was cut through the process of Extru-seq and the cut rate of the target site was measured using quantitative PCR, an average rate of 70% was observed. The results for the cleavage rate of the target site are shown in FIGS. 24 to 31 .
  • 24 to 30 show WGS data of Extru-seq analyzed using IGV to reveal cleavage patterns.
  • 24 shows the results using sgRNA targeting human PCSK9 .
  • 25 shows the results using sgRNA targeting human Albumin .
  • 26 shows the results using sgRNA targeting mouse PCSK9 .
  • 27 shows the results using sgRNA targeting mouse Albumin .
  • 28 shows the results using sgRNA targeting human FANCF .
  • 29 shows the results using sgRNA targeting human VEGFA .
  • 30 shows the results using sgRNA targeting human HBB .
  • FIG. 31 shows the cleavage rates of 7 on-target sites of each target obtained through manual calculation based on IGV analysis of qPCR and WGS data.
  • the y-axis represents the cut rate.
  • the inventors of the present application analyzed cut and un-cut populations of on-target sites to investigate which NHEJ occurs after the extrusion process or the degree of occurrence of NHEJ.
  • the non-cut population in Extru-seq samples was analyzed through deep sequencing. Deep sequencing results for Extru-seq samples treated with the Cas9 RNP complex were compared with results for control samples not treated with the Cas9 RNP complex. As a result of comparison, no significant difference was found between the two samples. Deep sequencing results of the uncut population are shown in FIG. 32 . Specifically, FIG.
  • FIG. 32 shows indel frequencies, as measured using targeted deep sequencing, for the uncut population of the Extru-seq samples associated with FIGS. 24-30. Indel frequencies were measured for untreated and Cas9 treated samples of Cas9.
  • Cas9 untreated samples are indicated as Cas9(-)
  • Cas9-treated samples are indicated as Cas9(+).
  • the inventors of the present application hypothesized that cellular elements other than genomic DNA would still be intact so that the cleavage pattern would be similar to cell-based off-target prediction methods. Hypotheses were tested by comparing Extru-seq results with cell-based and in vitro-based methods (discussed below). Extru-seq predicts off-targets that can reflect both the positive characteristics of cell-based off-target prediction methods (integrity of cellular components other than genomic DNA) and in vitro off-target prediction methods (absence of DNA repair mechanisms). It was confirmed that the method
  • the second goal of this study was to conduct a standard test that can effectively measure the performance index for each method.
  • Previous studies have used guide sequences predicted to recognize only a small number of off-target sites in the genome to compare with other methods. As a result, only a small number of guide sequence-validated off-target loci were found, making it difficult to effectively compare different prediction methods using the number of statistically significant loci. More recent papers (Wienert, Beeke, et al. "Unbiased detection of CRISPR off-targets in vivo using DISCOVER-Seq.” Science 364.6437 (2019): 286-289.; and Akcakaya, Pinar, et al.
  • the researchers of the present application searched for two types of promiscuous guide sequences targeting PCSK9 and Albumin in the mouse genome, respectively. They also perfectly matched the target sequences present in the human genome (with the exception that the PCSK9 and Albumin loci were not targeted in the human genome). Although the guide sequence targets loci other than PCSK9 or Albumin in the human genome, for convenience, human PCSK9 and human Albumin are indicated. The number of off-target sequences for these promiscuous guide sequences in the human and mouse genomes, respectively, was calculated using Cas-OFFinder. The selected guide sequences were confirmed to be associated with multiple off-target sequences in both genomes.
  • Table 03 discloses the search results for genome wide off-target loci containing 0 to 6 mismatches. Off-target locations were predicted through CAS-OFFinder in genome hg19 (Table 03 (a)) and genome mm10 (Table 03 (b)).
  • the sequence GACCCCCTCCACCCCGCCTC (SEQ ID NO: 72) ( VEGFA target sequence), the sequence AGCAGCAGCGGCGGCAACAG (SEQ ID NO: 73) ( PCSK9 target sequence, previous studies), the sequence ACATGCATATGTATGTGTG (SEQ ID NO: 26) ( Albumin target sequence), and the sequence AGGTGGGAAACTGAGGCTT (SEQ ID NO: 25) ( PCSK9 target sequence) is disclosed.
  • FIGS. 34 and 35 are GUIDE-seq results obtained from HEK293T cells using sgRNA targeting PCSK9 .
  • the target sequence (including the PAM sequence) AGGTGGGAAACTGAGGCTTNGG (SEQ ID NO: 44) is disclosed.
  • FIG. 36 and 37 are GUIDE-seq results obtained from HEK293T cells using Albumin -targeting sgRNA.
  • the target sequence including PAM
  • ACATGCATATGTATGTGTGNGG SEQ ID NO: 45

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Plant Pathology (AREA)
  • Immunology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 출원은 유전자 편집 시스템을 이용한 유전자 편집 과정(예를 들어, 게놈 편집 과정)에서 발생 가능한 오프 타겟을 예측하는 방법에 관한 것이다.

Description

유전자 편집 과정에서 발생 가능한 오프 타겟을 예측하는 방법
본 출원은 유전자 편집 과정에서 발생 가능한 오프 타겟을 예측하는 방법에 관한 것이다. 유전자 편집 과정은 예를 들어, CRISPR/Cas 유전자 편집 시스템을 이용한 게놈 DNA의 편집 과정일 수 있다.
2005년 이래로, IND (investigational new drug) 어플리케이션이 다양한 유전자 편집제(예를 들어, 징크 핑거 뉴클리에이즈 기반, TALEN 기반, CRISPR 뉴클리에이즈 기반)에 대해서 제출되었다 (문헌 [Mullard, Asher. "Gene-editing pipeline takes off." Nature Reviews Drug Discovery 19.6 (2020): 367-373.] 참조). 일반적으로 가역적인 부작용과 관련된 캐미컬 또는 항체와 같은 다른 약물과는 달리, 게놈 편집 약물의 효과는 영구적이다. 즉, 게놈 편집 과정에서 원하지 않는 위치에서 자주 발생되는 효과(즉, 오프 타겟 효과)는 중요한 안전 문제를 발생시키기 때문에, 게놈 전체에서 오프 타겟 부위의 식별은 게놈 편집 약물에 특히나 중요하다. 게놈 편집 과정에서 발생 가능한 오프 타겟에 대한 정보를 확인하기 위해, 여러 연구진들은 다양한 접근 방법을 통해 전 게놈(whole genome)에서 오프 타겟 효과를 예측하는 다양한 방법들을 개발하였다.
그러나, 현재까지 개발된 오프 타겟 예측 도구 (시스템)에는 한계가 있다. 예를 들어, 세포 기반 방법은 때때로 진정한 오프 타겟 부위를 놓치는 등의 문제를 갖는다. 반면에, in vitro 및 in silico 방법은 너무 많은 위양성(거짓 양성, false positive) 데이터 포인트를 보여주는 등의 문제를 갖는다.
유전자 편집 도구 (예를 들어, CRISPR/Cas 유전자 편집 시스템)을 사용하여 게놈을 편집 과정에서는 오프 타겟 문제가 존재할 수 있다. 이러한 오프 타겟은 강력한 부작용을 야기한다. 본 출원의 일 실시양태는 게놈 편집 과정에서 발생하는 오프 타겟을 예측하는 방법을 제공한다.
본 출원은 유전자 편집 시스템을 이용한 유전자 편집 과정에서 발생하는 오프 타겟을 예측하는 방법을 제공한다.
본 출원의 일 실시양태는, 다음을 포함하는 CRISPR/Cas 게놈 편집 시스템을 이용한 게놈 편집 과정에서 발생하는 오프 타겟에 대한 정보를 확인하는 방법을 제공한다:
(i) Cas 단백질, 가이드 RNA, 및 세포를 포함하는 출발 조성물을 준비함;
(ii) 상기 세포를 물리적으로 파괴함을 통해 분석 대상 조성물을 얻음, 이때 상기 세포가 물리적으로 파괴됨을 통해 게놈 DNA와 상기 Cas 단백질 및 가이드 RNA로부터 형성된 Cas/gRNA 복합체가 접촉하고, 이로써 상기 게놈 DNA는 하나 이상의 절단 부위에서 절단됨; 및
(iii) 상기 분석 대상 조성물을 분석하여 상기 절단 부위에 대한 정보를 수득함.
특정한 실시양태에서, 상기 세포를 물리적으로 파괴함은 상기 세포를 기공을 갖는 필터를 통과시킴을 포함하고, 이때 상기 필터의 기공의 평균 지름은 상기 세포의 크기보다 작은 것을 특징으로 하는, 오프 타겟에 대한 정보를 확인하는 방법이 제공될 수 있다.
특정한 실시양태에서, 상기 세포가 상기 필터를 통과하도록 하는 힘은 압력일 수 있다.
특정한 실시양태에서, 상기 필터의 기공의 평균 지름은 5 내지 15μm 일 수 있다.
특정한 실시양태에서, 상기 제1 세포를 물리적으로 파괴함은 기공을 갖는 필터를 포함하는 익스트루더의 사용을 통해 달성될 수 있다.
특정한 실시양태에서, 상기 익스트루더에 포함된 상기 필터의 기공의 평균 지름은 상기 세포의 크기보다 작을 수 있다.
특정한 실시양태에서, 상기 필터의 기공의 평균 지름은 5 내지 15μm 일 수 있다.
특정한 실시양태에서, 상기 절단 부위에 대한 정보는 다음 중 하나 이상을 포함할 수 있다:
상기 하나 이상의 절단 부위에 대한 각 절단 부위의 게놈 DNA 상에서의 위치;
상기 하나 이상의 절단 부위에 대한 각 절단 부위의 절단 점수; 및
절단 부위의 개수.
특정한 실시양태에서, 다음을 더 포함하는 오프 타겟에 대한 정보를 확인하는 방법이 제공될 수 있다:
(iv) (iii)으로부터 얻은 상기 절단 부위에 대한 정보로부터 오프 타겟 후보에 대한 정보를 확인함.
특정한 실시양태에서, 상기 오프 타겟 후보에 대한 정보는 다음 중 하나 이상을 포함할 수 있다:
하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 게놈 DNA 상에서의 위치;
상기 하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 오프 타겟 예측 점수; 및
예측된 오프 타겟 후보의 개수.
특정한 실시양태에서, 상기 분석 대상 조성물을 분석함은 다음을 포함하는, 오프 타겟에 대한 정보를 확인하는 방법이 제공될 수 있다: 상기 분석 대상 조성물에 포함된 절단된 게놈 DNA를 시퀀싱을 통해 분석함.
특정한 실시양태에서, 상기 분석 대상 조성물을 분석함은 다음을 포함하는, 오프 타겟에 대한 정보를 확인하는 방법이 제공될 수 있다: 상기 분석 대상 조성물에 포함된 절단된 게놈 DNA를 PCR 기반 방법을 통해 분석함.
특정한 실시양태에서, 상기 세포를 물리적으로 파괴함을 통해 상기 세포의 세포막을 포함한 막 구조가 파괴되고, 이로써 상기 Cas/gRNA 복합체가 상기 세포로부터 유래된 상기 게놈 DNA에 접촉 가능한 환경이 준비되는 것을 특징으로 하는, 오프 타겟에 대한 정보를 확인하는 방법이 제공될 수 있다.
특정한 실시양태에서, 상기 세포를 물리적으로 파괴함을 통해 상기 세포의 핵막을 포함한 막 구조가 파괴되고, 이로써 상기 Cas/gRNA 복합체가 상기 세포로부터 유래된 상기 게놈 DNA에 접촉 가능한 환경이 준비되는 것을 특징으로 하는, 오프 타겟에 대한 정보를 확인하는 방법이 제공될 수 있다.
특정한 실시양태에서, 다음을 더 포함하는 오프 타겟에 대한 정보를 확인하는 방법이 제공될 수 있다:
미리 결정된 CRISPR/Cas 게놈 편집 시스템을 확인함, 이때 상기 미리 결정된 CRISPR/Cas 게놈 편집 시스템을 확인함은 (i) 이전에 수행됨.
특정한 실시양태에서, 이때 상기 미리 결정된 CRISPR/Cas 게놈 편집 시스템은 미리 결정된 가이드 서열을 갖는 미리 결정된 가이드 RNA의 사용을 포함하고, 이때 상기 미리 결정된 가이드 서열과 상기 가이드 RNA의 가이드 서열은 동일할 수 있다.
특정한 실시양태에서, 이때 상기 미리 결정된 CRISPR/Cas 게놈 편집 시스템은 미리 결정된 세포의 사용을 포함하고, 이때 상기 미리 결정된 세포와 상기 세포는 동일할 수 있다.
특정한 실시양태에서, 상기 분석 대상 조성물은, 물리적으로 파괴된 세포의 상기 게놈 DNA가 상기 Cas/gRNA 복합체에 의해 절단되어 있는, 절단된 게놈 DNA를 포함하는 것을 특징으로 하는, 오프 타겟에 대한 정보를 확인하는 방법이 제공될 수 있다.
특정한 실시양태에서, 상기 출발 조성물에 포함된 상기 Cas 단백질의 농도는 4000nM 이상 6000nM 이하일 수 있다.
특정한 실시양태에서, 상기 출발 조성물에 포함된 상기 가이드 RNA의 농도는 4000nM 이상 6000nM 이하일 수 있다.
특정한 실시양태에서, 상기 출발 조성물에 포함된 상기 Cas/gRNA 복합체의 농도는 4000nM 이상 6000nM 이하일 수 있다.
특정한 실시양태에서, 상기 출발 조성물에 포함된 상기 세포의 농도는 1X107 세포/mL일 수 있다.
특정한 실시양태에서, 상기 분석 대상 조성물을 얻음은 다음을 더 포함하는, 오프 타겟에 대한 정보를 확인하는 방법이 제공될 수 있다:
세포의 파괴를 통해 얻어진 조성물을 인큐베이션함.
특정한 실시양태에서, 상기 분석 대상 조성물을 얻음은 다음을 더 포함하는, 오프 타겟에 대한 정보를 확인하는 방법이 제공될 수 있다:
세포의 파괴를 통해 얻어진 조성물로부터 RNA를 제거함.
특정한 실시양태에서, 상기 분석 대상 조성물을 얻음은 다음을 더 포함하는, 오프 타겟에 대한 정보를 확인하는 방법이 제공될 수 있다:
세포의 파괴를 통해 얻어진 조성물로부터 DNA를 정제함.
본 출원의 일 실시양태는, 다음을 포함하는, CRISPR/Cas 게놈 편집 시스템을 이용한 게놈 편집 과정에서 발생하는 오프 타겟에 대한 정보를 확인하는 방법을 제공한다:
(i) Cas 단백질, 가이드 RNA, 세포를 포함하는 출발 조성물을 익스트루더의 제1 수용부에 로딩함;
(ii) 분석 대상 조성물을 얻기 위해 상기 익스트루더를 이용하여 하기의 과정을 포함하는 익스트루젼 과정을 수행함:
(a) 제1 수용부에 압력을 가하여 상기 출발 조성물의 요소를 상기 익스트루더의 제1 수용부로부터 상기 익스트루더의 제2 수용부로 이동시킴,
이때 상기 출발 조성물의 요소는 상기 익스트루더의 제1 수용부와 상기 익스트루더의 제2 수용부 사이에 위치한 기공을 갖는 필터를 가해진 압력을 통해 통과하여 상기 제1 수용부로부터 상기 제2 수용부로 이동하고, 이로써 상기 제2 수용부에 혼합액이 안착됨;
이때 가해진 압력에 의해 필터의 기공의 지름보다 크기가 더 큰 요소인 상기 세포는 파괴되면서 필터의 기공을 통과하고,
이때 상기 세포가 물리적으로 파괴됨을 통해 게놈 DNA가 상기 Cas 단백질 및 상기 가이드 RNA와 접촉 가능한 환경이 조성되며,
이로써 상기 게놈 DNA와 상기 Cas/gRNA 복합체가 접촉하고,
이로써 상기 게놈 DNA는 하나 이상의 절단 부위에서 절단됨; 및
(iii) 상기 절단 부위에 대한 정보를 얻기 위해 상기 분석 대상 조성물을 분석함.
특정한 실시양태에서, 상기 제1 수용부에 가해지는 압력은 상기 제1 수용부에 압력을 가할 수 있도록 디자인된 피스톤을 상기 제1 수용부와 상기 필터의 방향으로 미는 과정을 통해 생성될 수 있다.
본 출원의 일 실시양태는, 다음을 포함하는 CRISPR/Cas 게놈 편집 시스템을 이용한 게놈 편집 과정에서 발생하는 오프 타겟에 대한 정보를 확인하는 방법을 제공한다:
(i) Cas 단백질, 가이드 RNA, 세포를 포함하는 출발 조성물을 익스트루더의 제1 수용부에 로딩함;
(ii) 분석 대상 조성물을 얻기 위해 상기 익스트루더를 이용하여 하기의 과정을 포함하는 익스트루젼 과정을 수행함:
(a) 제1 수용부에 압력을 가하여 출발 조성물의 요소를 상기 익스트루더의 제1 수용부로부터 상기 익스트루더의 제2 수용부로 이동시킴,
이때 상기 출발 조성물의 요소는 상기 익스트루더의 제1 수용부와 상기 익스트루더의 제2 수용부 사이에 위치한 기공을 갖는 필터를 가해진 압력을 통해 통과하여 상기 제1 수용부로부터 상기 제2 수용부로 이동하고, 이로써 상기 제2 수용부에 혼합액이 안착됨,
(b) 상기 제2 수용부에 압력을 가하여 상기 제2 수용부에 포함된 혼합액의 요소를 상기 제2 수용부로부터 상기 제1 수용부로 이동시킴,
이때 상기 제2 수용부에 포함된 혼합액의 요소는 상기 제1 수용부와 상기 제2 수용부 사이에 위치한 기공을 갖는 상기 필터를 가해진 압력을 통해 통과하여 상기 제2 수용부로부터 상기 제1 수용부로 이동하고, 이로써 상기 제1 수용부에 상기 제2 수용부로부터 압력에 의해 필터를 거쳐 이동된 혼합액이 안착됨, 및
(c) 미리 결정된 횟수로 (a) 및 (b)의 과정을 반복 수행함,
이때 미리 결정된 횟수는 0.5 단위로 카운팅되며, 0.5는 (a) 또는 (b)의 단일 과정의 수행을 나타내고,
이때 가해진 압력에 의해 상기 필터의 기공의 지름보다 크기가 더 큰 요소인 상기 세포는 파괴되면서 필터의 기공을 통과하고,
이때 상기 세포가 물리적으로 파괴됨을 통해 게놈 DNA가 상기 Cas 단백질 및 가이드 RNA와 접촉 가능한 환경이 조성되며,
이로써 상기 게놈 DNA와 Cas/gRNA 복합체가 접촉하고,
이로써 상기 게놈 DNA는 하나 이상의 절단 부위에서 절단됨; 및
(iii) 상기 절단 부위에 대한 정보를 얻기 위해 상기 분석 대상 조성물을 분석함.
특정한 실시양태에서, 상기 제1 수용부에 가해지는 압력은 상기 제1 수용부에 압력을 가할 수 있도록 디자인된 피스톤을 상기 제1 수용부와 상기 필터의 방향으로 미는 과정을 통해 생성되고, 상기 제2 수용부에 가해지는 압력은 상기 제2 수용부에 압력을 가할 수 있도록 디자인된 피스톤을 상기 제2 수용부와 상기 필터의 방향으로 미는 과정을 통해 생성될 수 있다.
본 출원은 유전자(예를 들어, 게놈) 편집 과정에서 발생 가능한 오프 타겟을 예측하는 방법을 제공한다. 본 출원은 게놈 편집 과정에서 발생 가능한 오프 타겟의 후보를 확인하는 방법을 제공한다. 본 출원은 보다 간편하게 수행될 수 있는 오프 타겟을 예측하는 방법을 제공한다. 본 출원의 오프 타겟 예측 방법은, in vitro 기반 오프 타겟 예측 방법의 장점 및 세포 기반 오프 타겟 예측 방법의 장점을 보유한다. 본 출원의 오프 타겟 예측 방법은 보다 작은 위양성율을 보인다. 본 출원의 오프 타겟 예측 방법은 보다 작은 미스율을 보인다. 즉, 본 출원의 오프 타겟 예측 방법을 이용하는 경우, 게놈 편집 과정에서 발생 가능한 오프 타겟을 간편하고, 정확하게 예측할 수 있다.
도 01은 오프 타겟 예측 방법의 세가지 카테고리 (cell based, in vitro, in silico)에 관한 것이다.
도 02는 본 출원의 일 실시양태에 따라 제공되는, 오프 타겟을 예측하는 방법에 대한 개요도이다.
도 03은 각 오프 타겟 예측 방법(Digenome-seq, Extru-seq, GUIDE-seq, in silico)을 통해 예측된 오프 타겟 후보들에 대한 비교 결과이다. 인간 PCSK9을 타겟하는 sgRNA 및 인간 Albumin을 타겟하는 sgRNA 각각을 사용하여 오프 타겟 예측 시스템에 대한 비교 실험이 수행되었다.
도 04는 각 오프 타겟 예측 방법(Digenome-seq, Extru-seq, GUIDE-seq, in silico)을 통해 예측된 오프 타겟 후보들에 대한 비교 결과이다. 마우스 PCSK9을 타겟하는 sgRNA 및 마우스 Albumin을 타겟하는 sgRNA 각각을 사용하여 오프 타겟 예측 시스템에 대한 비교 실험이 수행되었다.
도 05는 in silico 방법, GUIDE-seq, Digenome-seq, 및 Extru-seq 을 통해 예측된 탑(top) 오프 타겟 부위의 검증율을 나타낸다. 인간 PCSK9을 타겟하는 sgRNA, 인간 Albumin을 타겟하는 sgRNA, 마우스 PCSK9을 타겟하는 sgRNA, 및 마우스 Albumin을 타겟하는 sgRNA에 대한 결과가 개시된다.
도 06은 각 오프 타겟 예측 방법(Digenome-seq, Extru-seq, GUIDE-seq, DIG-seq)을 통해 예측된 오프 타겟 후보들에 대한 비교 결과이다. FANCF를 타겟하는 sgRNA 및 VEGFA를 타겟하는 sgRNA 각각을 사용하여 오프 타겟 예측 시스템에 대한 비교 실험이 수행되었다.
도 07은 각 오프 타겟 예측 방법(Digenome-seq, Extru-seq, GUIDE-seq, DIG-seq)을 통해 예측된 오프 타겟 후보들에 대한 비교 결과이다. HBB를 타겟하는 sgRNA를 사용하여 오프 타겟 예측 시스템에 대한 비교 실험이 수행되었다.
도 08은 DIG-seq, GUIDE-seq, Digenome-seq, 및 Extru-seq 을 통해 예측된 탑(top) 오프 타겟 부위의 검증율을 나타낸다. FANCF를 타겟하는 sgRNA, VEGFA를 타겟하는 sgRNA, 및 HBB를 타겟하는 sgRNA에 대한 결과가 개시된다.
도 09는 벤 다이어그램 (도 03 내지 도 04 및 도 06 내지 도 07)의 인터섹션을 통해 분석된, 각 오프 타겟 예측 방법에 대한 비교 결과를 나타낸다.
도 10은 검증 결과와, GUIDE-seq 및 Extru-seq 방법에 의해 예측된 오프 타겟에 대한 결과를 비교한 것이다. 도 10의 (a)는 인간 PCSK9를 타겟하는 sgRNA와 관련된 결과를 개시한다. 도 10의 (b)는 인간 Albumin을 타겟하는 sgRNA와 관련된 결과를 개시한다.
도 11은 검증 결과와, GUIDE-seq 및 Extru-seq 방법에 의해 예측된 오프 타겟에 대한 결과를 비교한 것이다. 도 11의 (c)는 마우스 PCSK9를 타겟하는 sgRNA와 관련된 결과를 개시한다. 도 11의 (d)는 마우스 Albumin을 타겟하는 sgRNA와 관련된 결과를 개시한다.
도 12는 검증 결과와, GUIDE-seq 및 Extru-seq 방법에 의해 예측된 오프 타겟에 대한 결과를 비교한 것이다. 도 12의 (e)는 인간 FANCF를 타겟하는 sgRNA와 관련된 결과를 개시한다. 도 12의 (f)는 인간 VEGFA을 타겟하는 sgRNA와 관련된 결과를 개시한다.
도 13은 검증 결과와, GUIDE-seq 및 Extru-seq 방법에 의해 예측된 오프 타겟에 대한 결과를 비교한 것이다. 도 12의 (g)는 인간 HBB를 타겟하는 sgRNA와 관련된 결과를 개시한다.
도 14는 검증 결과를 바탕으로 계산된, GUIDE-seq 및 Extru-seq 오프 타겟 예측 방법에 대한 미스율을 나타낸다.
도 15는 검증 결과를 바탕으로 확인된, GUIDE-seq에서 놓친 오프 타겟에 대한 미스매치 수의 분포를 나타낸다.
도 16은 각 오프 타겟 예측 방법에 대한 ROC 커브를 나타낸다. 도 16의 (a)는 인간 PCSK9을 타겟하는 sgRNA와 관련된 결과를 개시한다. 도 16의 (b)는 인간 Albumin을 타겟하는 sgRNA와 관련된 결과를 개시한다.
도 17은 각 오프 타겟 예측 방법에 대한 ROC 커브를 나타낸다. 도 17의 (c)는 마우스 PCSK9을 타겟하는 sgRNA와 관련된 결과를 개시한다. 도 17의 (d)는 마우스 Albumin을 타겟하는 sgRNA와 관련된 결과를 개시한다.
도 18은 각 오프 타겟 예측 방법에 대한 ROC 커브를 나타낸다. 도 18의 (e)는 인간 FANCF을 타겟하는 sgRNA와 관련된 결과를 개시한다. 도 18의 (f)는 인간 VEGFA을 타겟하는 sgRNA와 관련된 결과를 개시한다. 도 18의 (g)는 인간 HBB를 타겟하는 sgRNA와 관련된 결과를 개시한다.
도 19는 도 16 내지 도 18의 ROC 커브 데이터를 이용하여 계산된 AUC를 나타낸다. GUIDE-seq, Digenome-seq, Extru-seq, CROP, CFD, DIG-seq 각각에 대하여 AUC가 계산되었다.
도 20 내지 도 21은 Extru-seq에서, 필터의 평균 기공 크기, 및 혼합물의 Cas9 RNP 농도, 및 세포의 개수 등에 대한 최적화 조건을 찾기 위해 수행된 실험의 결과 및 실험 조건을 개시한다.
도 22 내지 도 23은 정량적 PCR (quantitative PCR; qPCR)을 통해 측정된, 인간 PCSK9 부위를 타겟팅하는 sgRNA에 의해 인식된 on- 및 off-target 부위에 대한 클리비지율(cleavage rate)을 개시한다. 도 22 내지 도 23은 Extru-seq을 통해 얻은 결과이다.
도 24 내지 도 30은 절단 패턴 (cleavage pattern)을 밝히기 위해 IGV를 사용하여 분석된 Extru-seq의 WGS 데이터를 나타낸다.
도 31은 qPCR 및 WGS 데이터의 IGV 분석을 기반으로 한 매뉴얼 계산을 통해 얻어진, 각 타겟의 7개의 on-target 부위의 절단율을 나타낸다.
도 32는 Extru-seq의 익스트루젼 과정 이후 NHEJ의 발생 정도를 확인하기 위해 수행된, 비절단 집단에 대한 딥시퀀싱 결과이다.
도 33은 Extru-seq의 익스트루젼 과정 이후 NHEJ의 발생 정도를 확인하기 위해 수행된, SCR7 처리에 따른 절단율에 대한 결과이다.
도 34 내지 도 41은 GUIDE-seq을 통해 예측된 오프 타겟 후보의 서열 리드 결과를 개시한다. 구체적으로, 도 34 및 도 35는 PCSK9을 타겟하는 sgRNA를 사용하여 HEK293T로부터 얻은 GUIDE-seq의 서열 리드 결과이다. 도 36 및 도 37은 Albumin을 타겟하는 sgRNA를 사용하여 HEK293T로부터 얻은 GUIDE-seq 서열 리드 결과이다. 도 38 및 도 39는 PCSK9을 타겟하는 sgRNA를 사용하여 NIH-3T3로부터 얻은 GUIDE-seq의 서열 리드 결과이다. 도 40 및 도 41은 Albumin을 타겟하는 sgRNA를 사용하여 NIH-3T3로부터 얻은 GUIDE-seq의 서열 리드 결과이다.
도 42 내지 도 49는 Digenome-seq을 통해 예측된 오프 타겟 후보의 맨하탄 플롯 결과를 개시한다. Y 축은 DNA 절단 점수를 나타낸다. 구체적으로, 도 42 및 도 43은 PCSK9을 타겟하는 sgRNA를 사용하여 HEK293T로부터 얻은 Digenome-seq의 맨하탄 플롯 결과이다. 도 44 및 도 45는 Albumin을 타겟하는 sgRNA를 사용하여 HEK293T로부터 얻은 Digenome-seq의 맨하탄 플롯 결과이다. 도 46 및 도 47은 PCSK9을 타겟하는 sgRNA를 사용하여 NIH-3T3로부터 얻은 Digenome-seq의 맨하탄 플롯 결과이다. 도 48 및 도 49는 Albumin을 타겟하는 sgRNA를 사용하여 NIH-3T3로부터 얻은 Digenome-seq의 맨하탄 플롯 결과이다.
도 50 내지 도 57은 Extru-seq을 통해 예측된 오프 타겟 후보의 맨하탄 플롯 결과를 개시한다. Y 축은 DNA 절단 점수를 나타낸다. 구체적으로, 도 50 및 도 51은 PCSK9을 타겟하는 sgRNA를 사용하여 HEK293T로부터 얻은 Extru-seq의 맨하탄 플롯 결과이다. 도 52 및 도 53는 Albumin을 타겟하는 sgRNA를 사용하여 HEK293T로부터 얻은 Extru-seq의 맨하탄 플롯 결과이다. 도 54 및 도 55는 PCSK9을 타겟하는 sgRNA를 사용하여 NIH-3T3로부터 얻은 Extru-seq의 맨하탄 플롯 결과이다. 도 56 및 도 57는 Albumin을 타겟하는 sgRNA를 사용하여 NIH-3T3로부터 얻은 Extru-seq의 맨하탄 플롯 결과이다.
도 58은 GUIDE-seq을 이용하여 예측된 온 타겟 및 오프 타겟의 미스매치 개수에 따른 점수(서열 리드 카운트 결과로부터 계산된 점수)와 관련된 결과를 개시한다.
도 59는 Digenome-seq을 이용하여 예측된 온 타겟 및 오프 타겟의 미스매치 개수에 따른 점수(맨하탄 플롯의 절단 점수)와 관련된 결과를 개시한다.
도 60은 in silico 시스템을 이용하여 예측된 온 타겟 및 오프 타겟의 미스매치 개수에 따른 점수(CROP 점수)와 관련된 결과를 개시한다.
도 61은 in silico 시스템을 이용하여 예측된 온 타겟 및 오프 타겟의 미스매치 개수에 따른 점수(CFD 점수)와 관련된 결과를 개시한다.
도 62는 Extru-seq을 이용하여 예측된 온 타겟 및 오프 타겟의 미스매치 개수에 따른 점수(맨하탄 플롯의 절단 점수)와 관련된 결과를 개시한다.
도 63 및 도 64는 망막하 주입 및 전신 주입에서의 인델 형성 빈도에 대한 결과를 개시한다.
도 65 내지 도 67은 GUIDE-seq을 통해 예측된 오프 타겟 후보의 서열 리드 결과를 개시한다. 구체적으로, 도 65는 FANCF를 타겟하는 sgRNA를 사용하여 HeLa 세포로부터 얻은 GUIDE-seq의 서열 리드 결과이다. 도 66은 VEGFA를 타겟하는 sgRNA를 사용하여 HeLa 세포로부터 얻은 GUIDE-seq의 서열 리드 결과이다. 도 67은 HBB를 타겟하는 sgRNA를 사용하여 HeLa 세포로부터 얻은 GUIDE-seq의 서열 리드 결과이다.
도 68 내지 도 73은 Extru-seq을 예측된 오프 타겟 후보의 맨하탄 플롯 결과를 개시한다. Y축은 DNA 절단 점수를 나타낸다. 구체적으로, 도 68 및 도 69는 FANCF를 타겟하는 sgRNA를 사용하여 HeLa 세포로부터 얻은 Extru-seq의 맨하탄 플롯 결과이다. 도 70 및 도 71은 VEGFA를 타겟하는 sgRNA를 사용하여 HeLa 세포로부터 얻은 Extru-seq의 맨하탄 플롯 결과이다. 도 72 및 도 73은 HBB를 타겟하는 sgRNA를 사용하여 HeLa 세포로부터 얻은 Extru-seq의 맨하탄 플롯 결과이다.
도 74 내지 도 75는 MSCs로부터 얻은 Extru-seq 결과와 HEK293T 세포로부터 얻은 Extru-seq 결과를 비교한 벤 다이어그램을 개시한다. 도 74는 인간 PCSK9을 타겟하는 sgRNA와 관련된 결과를 개시한다. 도 75는 인간 Albumin을 타겟하는 sgRNA와 관련된 결과를 개시한다.
도 76은 MSC 및 HEK293T 세포에서 PCSK9Albumin을 표적으로 하는 sgRNA에 대한 오프 타겟 예측 방법의, 각 쌍에 대한, 정규화된 순위 합계 검정(normalized rank sum test)에 의해 얻은 p-value를 나타낸다.
도 77 내지 도 116은 IGV를 사용하여 매뉴얼하게 검증된 오프 타겟 부위에 대한 결과를 개시한다.
도 117 내지 도 125는 Digenome-seq 및 Extru-seq의 WGS 데이터로부터, IGV를 사용하여, 매뉴얼하게 제외된 거짓 양성 오프 타겟 후보에 대한 결과를 개시한다.
용어의 정의
핵산 (nucleic acid)
본 명세서에서 사용되는 용어 "핵산"은 DNA (이중가닥 또는 단일가닥), RNA (이중가닥 또는 단일가닥), 또는 DNA와 RNA의 하이브리드 (이중가닥 또는 단일가닥)로 구성된, 분자 내의 일부의 영역 또는 분자 전체를 의미하는 것으로 사용된다. 핵산은 뉴클레오타이드들의 집합(분자 내의 일부 영역 또는 분자 전체)을 의미하는 것으로 사용되며, 달리 제한되지 않는다. 분자 내의 일부의 영역을 지칭하는 것으로 용어 핵산 또는 핵산 영역이 사용될 수 있다. 분자의 전체를 지칭하는 것으로 용어 핵산 또는 핵산 분자가 사용될 수 있다. 용어 "핵산"은 문맥에 따라 적절히 해석되어야 하며, 용어 "핵산"의 기재를 포함하는 각각의 문맥의 내용은 통상의 기술자가 용어 핵산의 의미를 이해하는데 도움을 줄 것이다. 또한, 상기 용어는 당업계 통상의 기술자가 인식할 수 있는 의미를 모두 포함하며, 문맥에 따라 적절히 해석될 수 있다.
"연결된" 또는 "연결"
본 명세서에서 사용되는 용어 "연결된" 또는 "연결"은 하나의 개념화 가능한 구조체 내에 존재하는 2 이상의 요소가 직접적으로 또는 간접적으로 (예를 들어, 링커와 같은 다른 요소를 통해) 연결되어 있는 것을 의미하며, 상기 2 이상의 요소 사이에 다른 추가적 요소가 존재할 수 없음을 의도하는 것은 아니다. 예를 들어, "요소 A에 연결된 요소 B"와 같은 기재는 요소 A와 요소 B 사이에 하나 이상의 다른 요소가 포함된 경우(즉, 하나 이상의 다른 요소를 통해 요소 A가 요소 B에 연결된 경우) 및 요소 A와 요소 B 사이에 하나 이상의 다른 요소가 존재하지 않는 경우 (즉, 요소 A와 요소 B가 직접적으로 연결된 경우)를 모두 포함하는 것으로 의도되며, 제한되어 해석될 것은 아니다.
서열 동일성 (Sequence identity)
본 명세서에서 사용되는 용어 "서열 동일성 (sequence identity)"은 2개 이상의 뉴클레오타이드 서열 사이의 유사성 정도와 관련하여 사용되는 용어이다. 예를 들어, 용어 "서열 동일성"은 기준이 되는 서열을 지칭하는 용어 및 비율(예를 들어, 백분율)을 나타내는 용어와 함께 사용된다. 예를 들어, 용어 "서열 동일성"은 기준이 되는 뉴클레오타이드 서열과 유사하거나 실질적으로 동일한 서열을 설명하기 위해서 사용될 수 있다. "서열 A와 90% 이상의 서열 동일성을 갖는 서열"과 같이 기술되는 경우, 여기서 기준이 되는 서열은 서열 A이다. 예를 들어, 서열 동일성의 백분율은 기준 서열과 서열 동일성의 백분율 측정의 대상이 되는 서열을 정렬함을 통해 계산될 수 있으며, 서열 동일성의 백분율은 하나 이상의 뉴클레오타이드에 대한 미스매치(mismatch), 결실(deletion), 및 삽입(insertion)을 모두 포함하여 계산될 수 있다. 서열 동일성의 백분율의 계산 및/또는 결정 방법은 달리 제한되지 않으며, 당해 기술분야의 통상의 기술자에 의해 이용될 수 있는 합리적인 방법 또는 알고리즘을 통해 계산 및/또는 결정될 수 있다.
아미노산 서열의 표기
달리 서술하지 않는 한, 본 명세서에서 아미노산 서열을 기재할 때는 아미노산 일문자 표기법, 또는 세문자 표기법을 사용하여, N-터미널에서 C-터미널 방향으로 기재한다. 예를 들어, RNVP로 표기하는 경우, N-터미널에서 C-터미널 방향으로 아르기닌(arginine), 아스파라긴(asparagine), 발린(valine), 및 프롤린(proline)이 차례로 연결된 펩타이드를 의미한다. 또 다른 예를 들어, Thr-Leu-Lys로 표기하는 경우, N-터미널에서 C-터미널 방향으로 트레오닌(Threonine), 류신(Leucine), 및 리신(Lysine)이 차례로 연결된 펩타이드를 의미한다. 상기 일문자 표기법으로 나타낼 수 없는 아미노산의 경우, 다른 문자를 사용하여 표기하며, 추가적으로 보충하여 설명한다.
각각의 아미노산 표기 방법은 다음과 같다: 알라닌(Alanine; Ala, A); 아르기닌(Arginine; Arg, R); 아스파라긴(Asparagine; Asn, N); 아스파르트산(Aspartic acid; Asp, D); 시스테인(Cysteine; Cys, C); 글루탐산(Glutamic acid; Glu, E); 글루타민(Glutamine; Gln, Q); 글리신(Glycine; Gly, G); 히스티딘(Histidine; His, H); 이소류신(Isoleucine; Ile, I); 류신(Leucine; Leu, L); 리신(Lysine; Lys K); 메티오닌(Methionine; Met, M); 페닐알라닌(Phenylalanine; Phe, F); 프롤린(Proline; Pro, P); 세린(Serine; Ser, S); 트레오닌(Threonine; Thr, T); 트립토판(Tryptophan; Trp, W); 티로신(Tyrosine; Tyr, Y); 및 발린(Valine; Val, V).
핵산 서열의 표기
본 명세서에서 사용되는 A, T, C, G 및 U 기호는 당업계 통상의 기술자가 이해하는 의미로 해석된다. 문맥 및 기술에 따라 DNA 또는 RNA 상에서 염기, 뉴클레오사이드 또는 뉴클레오타이드로 적절히 해석될 수 있다. 예를 들어, 염기를 의미하는 경우는 각각 아데닌(A), 티민(T), 시토신(C), 구아닌(G) 또는 우라실(U) 자체로 해석될 수 있고, 뉴클레오사이드를 의미하는 경우는 각각 아데노신(A), 티미딘(T), 시티딘(C), 구아노신(G) 또는 유리딘(U)으로 해석될 수 있으며, 서열에서 뉴클레오타이드를 의미하는 경우는 상기 각각의 뉴클레오사이드를 포함하는 뉴클레오타이드를 의미하는 것으로 해석되어야 한다.
표적 서열
본 명세서에서 사용되는 “표적 서열”은 가이드 RNA 또는 유전자 편집 도구 (예를 들어, Cas/gRNA 복합체)가 표적 유전자 또는 표적 핵산을 절단하기 위해 인식하는 특정 서열을 의미한다. 상기 표적 서열은 그 목적에 따라 적절히 선택될 수 있다. 예를 들어, “표적 서열”은 표적 유전자 또는 표적 핵산 서열 내에 포함된 서열이며, 가이드 RNA에 포함된 스페이서 서열과 상보성을 가지는 서열을 의미할 수 있다. 다른 예로, "표적 서열"은 표적 유전자 또는 표적 핵산 서열 내에 포함된 서열이며, 가이드 RNA에 포함된 스페이서 서열과 상보성을 갖는 서열에 상보적인 서열을 의미할 수 있다. 이와 같이, 표적 서열은 가이드 RNA에 포함된 스페이서 서열에 상보성을 갖는 서열 및/또는 가이드 RNA의 스페이서 서열과 실질적으로 동일한 서열을 지칭하는 것으로 사용되며, 제한되어 해석되어서는 아니된다. 일부 실시양태서, 표적 서열은 PAM 서열을 포함하는 서열로 개시될 수 있다. 일부 실시양태에서, 표적 서열은 PAM 서열을 포함하지 않는 서열로 개시될 수 있다. 표적 서열은 이를 서술하는 문맥의 내용에 따라 적절히 해석되어야 할 것이다. 일반적으로, 상기 스페이서 서열은 표적 유전자 또는 표적 핵산의 서열 및 CRISPR/Cas 시스템의 편집 단백질이 인식하는 PAM 서열을 고려하여 결정된다. 상기 표적 서열은 CRISPR/Cas 복합체의 가이드 RNA와 상보적으로 결합하는 특정 가닥의 서열만을 지칭할 수 있으며, 가이드 RNA와 상보적으로 결합하지 않는 특정 가닥의 서열만을 지칭할 수 있으며, 또는 상기 특정 가닥 부분을 포함하는 표적 이중 가닥 전체를 지칭할 수도 있으며, 이는 문맥에 따라 적절히 해석된다. 본 표적 서열에 대한 용어의 정의는, 표적 서열이 존재할 수 있는 가닥을 설명하기 위해서 개시되며, 표적 서열이라는 용어를 통해 온 타겟 서열과 오프 타겟 서열을 구분하기 위한 의도로 작성된 것은 아니다. 즉, 일부 실시양태에서, 의도된 표적 서열은 온 타겟 서열로 지칭될 수 있고, 의도되지 않은 표적 서열은 오프 타겟 서열로 지칭될 수 있다. 온 타겟 및 오프 타겟과 관련하여, 용어 표적 서열은 관련 단락의 내용에 따라 적절히 해석될 수 있다.
스페이서 결합 가닥
본 명세서에서 용어 "스페이서 결합 가닥"은, 가이드 핵산 (예를 들어, 가이드 RNA)이 관여되는 유전자 편집 시스템 (예를 들어, CRISPR/Cas 유전자 편집 시스템)에서, 가이드 핵산의 스페이서 영역의 일부 또는 전부의 서열과 상보적인 결합을 형성하는 서열을 포함하는 가닥을 지칭하는 것으로 사용된다. 게놈과 같은 DNA 분자는 대체로 이중 가닥으로 형성된 구조를 가진다. 이중 가닥에서, 가이드 핵산의 스페이서 영역의 일부 또는 전부의 서열과 상보성을 갖는 서열을 가지고, 이를 통해 스페이서 영역의 일부 또는 전부의 서열과 상보적인 결합을 형성하게 되는 가닥이 스페이서 결합 가닥으로 지칭될 수 있다.
스페이서 비-결합 가닥
본 명세서에서 용어 "스페이서 비-결합 가닥"은, 가이드 핵산 (예를 들어, 가이드 RNA)이 관여되는 유전자 편집 시스템 (예를 들어, CRISPR/Cas 유전자 편집 시스템)에서, 가이드 핵산의 스페이서 영역의 일부 또는 전부의 서열과 상보적인 결합을 형성하는 서열을 포함하는 가닥인 '스페이서 결합 가닥'이 아닌 다른 가닥을 지칭하는 것으로 사용된다. 게놈과 같은 DNA 분자는 대체로 이중 가닥으로 형성된 구조를 가지며, 용어 "스페이서 비-결합 가닥"은 이중 가닥에서 스페이서 결합 가닥이 아닌 다른 가닥을 지칭하는 것으로 사용될 수 있다.
기능적 등가물 (Functional Equivalent)
용어 "기능적 등가물" 또는 "등가물"은 제1 생체분자와 기능상 등가이지만 구조상 반드시 등가인 것은 아닌 제2 생체분자를 지칭한다. 예를 들어, "Cas9 등가물"은 Cas9와 동일하거나 실질적으로 동일한 기능을 갖지만 반드시 동일한 아미노산 서열을 갖는 것은 아닌 단백질을 지칭한다. 본 출원의 전반에 걸쳐, 특정 단백질을 언급하는 경우 언급된 특정 단백질은 그의 기능적 등가물을 모두 포괄하는 것으로 의도된다. 예를 들어, "X 단백질"과 같이 기재되는 경우, X 단백질의 용어는 X 단백질의 기능적 등가물을 포괄하는 의미로 해석될 수 있다. 이러한 차원에서, X 단백질의 "기능적 등가물"은 등가의 기능을 보유하는 단백질 X의 임의의 상동체, 파라로그, 오쏘로그, 단편, 자연발생된, 조작된, 돌연변이된, 또는 합성된 버전을 포괄한다. Cas 단백질과 같이 개시되는 경우, 용어 Cas 단백질은 Cas 단백질의 기능적 등가물을 포괄하는 것으로 해석될 수 있다.
NLS (nuclear localization signal or sequence)
용어 "NLS (nuclear localization signal or sequence)"은, 세포 핵 내로의 단백질의 유입을 촉진하는 아미노산 서열을 지칭한다. 예를 들어, 상기 단백질의 유입은 핵 수송에 의해 촉진될 수 있다. NLS는 관련 기술분야에 공지되어 있고, 통상의 기술자에게 명백할 것이다. 예를 들어, NLS의 예시적인 서열은 PCT 출원 출원번호 PCT/EP2000/011690 (공개번호 WO2021/038547)에 기재되어 있으며, 이의 내용은 예시적인 NLS에 대해 본 명세서에 참조로 포함된다. 일부 실시양태에서, NLS는 아미노산 서열 PKKKRKV (서열번호 01), KRPAATKKAGQAKKKK (서열번호 02), PAAKRVKLD (서열번호 03), RQRRNELKRSP (서열번호 04), NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY (서열번호 05), RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV (서열번호 06), VSRKRPRP (서열번호 07), PPKKARED (서열번호 08), POPKKKPL (서열번호 09), SALIKKKKKMAP (서열번호 10), DRLRR (서열번호 11), PKQKKRK (서열번호 12), RKLKKKIKKL (서열번호 13), REKKKFLKRR (서열번호 14), KRKGDEVDGVDEVAKKKSKK (서열번호 15), RKCLQAGMNLEARKTKK (서열번호 16) 또는 MDSLLMNRRKFLYQFKNVRWAKGRRETYLC (서열번호 17)을 포함할 수 있으나, 이에 제한되지 않는다. NLS는 Cas 단백질 등과 같은 유전자 편집제에 선택적으로 융합될 수 있다. 단백질에 융합된 NLS는, 연결된 단백질을 목적하는 위치인 핵 내로의 이동을 촉진하는데 사용될 수 있다.
약 (about)
본 명세서에서 사용되는 용어 “약”은 어떤 수량에 거의 가까운 정도를 의미하며, 참조 양, 수준, 값, 수, 빈도, 퍼센트, 치수, 크기, 양, 중량 또는 길이에 대해 30, 25, 20, 25, 10, 9, 8, 7, 6, 5, 4, 3, 2 또는 1% 정도로 변하는 양, 수준, 값, 수, 빈도, 퍼센트, 치수, 크기, 양, 중량 또는 길이를 의미한다.
개시되는 서열의 방향성
본 명세서에서 개시되는 뉴클레오타이드 서열(예를 들어, DNA 서열, RNA 서열, DNA/RNA 하이브리드 서열)은, 달리 명시되지 않는 한, 5' 에서 3' 방향으로 개시된 것으로 이해되어야 한다. 본 명세서에서 개시되는 아미노산 서열은, 달리 명시되지 않는 한, N 말단에서 C 말단의 방향으로 개시된 것으로 이해되어야 한다. 전술한 방향과 다른 방향으로 개시되는 서열은, 해당 서열과 관련된 단락에서, 다른 방향에 대한 방향성을 별도로 명시한다.
유전자 편집 시스템 개괄
본 출원은 유전자 편집 시스템을 이용한 유전자 편집의 과정에서 발생 가능한 오프 타겟을 예측하는 방법에 관한 것이다. 오프 타겟의 예측은 오프 타겟 부위의 예측을 포괄하는 것으로 사용된다. 본 출원에 의해 제공되는 오프 타겟을 예측하는 방법을 개시하기에 앞서, 오프 타겟과 관련된 유전자 편집 시스템에 대하여 설명한다. 유전자 편집 시스템 (예를 들어, 게놈 편집 시스템)은 편집 단백질 및 가이드 핵산 등과 같은 유전자 편집 도구의 사용을 통해 목적하는 핵산 분자(예를 들어, 게놈 DNA)에서 목적하는 편집을 달성하기위해 사용하는 시스템을 지칭한다. 다수의 연구에서, 유전자 편집 시스템은 세포의 게놈을 편집하는 용도로 사용되며, 용어 유전자 편집 시스템은 게놈 편집 시스템과 상호 교환적으로 사용될 수 있다. 그러나, 유전자 편집 시스템의 용도가 게놈 편집의 용도로 한정될 것은 아니다. 나아가, 유전자 편집 시스템의 용어는 유전자 편집 도구를 지칭하는 것으로 사용될 수 있으며, 관련된 문맥에 따라 적절히 해석될 수 있다. 알려진 유전자 편집 시스템의 예로는, ZFN (zinc-finger nucleases), TALEN (transcription activator-like effector nucleases), 및 CRISPR/Cas 유전자 편집 시스템 등이 있다 (문헌 [Khan, Sikandar Hayat. "Genome-editing technologies: concept, pros, and cons of various genome-editing techniques and bioethical concerns for clinical application." Molecular Therapy-Nucleic Acids 16 (2019): 326-334.] 참조, 상기 문헌의 전체 내용이 본 출원의 참조로 포함됨). 나아가, CRISPR/Cas 유전자 편집 시스템을 기초로 하여 개발된 베이스 에디팅 및 프라임 에디팅 등이 존재한다.
본 출원에 의해 제공되는 오프 타겟 예측 방법의 특징 중 하나는, 물리적인 방법(예를 들어, 익스트루더를 사용하여)을 통해 세포의 막구조를 파괴하여 유전자 편집 시스템의 요소 (예를 들어, 편집 단백질 및/또는 가이드 핵산)를 게놈에 접촉시키는 것이다. 이에 따라, 본 출원의 오프 타겟 예측 방법은 전술한 유전자 편집 시스템 모두에 적용될 수 있다.
이하에서는, 유전자 편집 시스템의 예시로, 게놈 편집의 목적을 달성하기 위해 활발히 연구되고 있는 CRISPR/Cas 유전자 편집 시스템에 대하여 상세히 개시한다.
CRISPR/Cas 유전자 편집 시스템
CRISPR/Cas 유전자 편집 시스템 개괄
CRISPR/Cas 유전자 편집 시스템은 유전자(예를 들어, 게놈 DNA)의 목적하는 위치에서 목적하는 편집을 유도하기 위해 사용되는, Cas 단백질을 포함하는 편집 단백질 및 가이드 핵산(예를 들어, 가이드 RNA)가 관여되는 유전자 편집 시스템을 지칭하는 포괄적인 용어로 사용된다. CRISPR/Cas 유전자 시스템은 통상의 기술자에게 이해될 수 있는 기타의 용어로 사용될 수 있다. 예를 들어, CRISPR/Cas, CRISPR/Cas 시스템, CRISRP 시스템, 및 Cas 기반 게놈 에디팅 시스템 등과 같이 지칭될 수 있으며, 달리 제한되지 않는다. 나아가, CRISPR/Cas 유전자 편집 시스템은 CRISPR/Cas 유전자를 기초로 개발된 베이스 에디팅 (문헌 [Gaudelli, Nicole M., et al. "Programmable base editing of A· T to G· C in genomic DNA without DNA cleavage." Nature 551.7681 (2017): 464-471.] 참조) 및 프라임 에디팅(문헌 [Anzalone, Andrew V., et al. "Search-and-replace genome editing without double-strand breaks or donor DNA." Nature 576.7785 (2019): 149-157.] 참조)과 같은 개발 기술들을 모두 포괄하는 것으로 사용된다. 유전자 편집(예를 들어 게놈 편집)의 결과는 절단(cleavage), 인델(indel), 삽입(insertion), 결실(deletion), 치환(substitution), 베이스 에디팅(base editing) (예를 들어, 베이스 에디팅을 통해 달성될 수 있음), 및 작성(writing) (예를 들어, 프라임 에디팅을 통해 달성될 수 있음) 등으로 나타날 수 있으며, 달리 제한되지 않는다. 이하에서, CRISPR/Cas 유전자 편집 시스템의 유래를 포함하여 CRISPR/Cas 유전자 편집 시스템에 대하여 상세히 개시한다.
CRISPR
본 "CRISPR" 섹션은 기술자의 이해를 돕기 위한 섹션이며, 본 섹션에 사용된 용어는 본 명세서에 개시된 용어를 제한하는 것이 아니다.
CRISPR는 원핵생물을 침입한 바이러스에 의한 이전 감염(prior infections)의 조각 (snippets)을 나타내는, 박테리아 및 고세균에서의 DNA 서열의 패밀리 (즉, CRISPR 클러스터)이다. DNA의 조각은 유사한 바이러스에 의한 후속 공격으로부터 DNA를 검출하고 파괴하기 위해 원핵세포에 의해 사용되고, CRISPR-연관 단백질 (CRISPR associated protein; Cas protein) 및 CRISPR-연관 RNA의 어레이와 함께 원핵 면역 방어 시스템을 효과적으로 구성한다. CRISPR 클러스터는 CRISPR RNA (crRNA)로 전사 및 프로세싱된다. 후속적으로, Cas9/crRNA/tracrRNA는 RNA에 상보적인 선형 또는 원형 dsDNA 표적을 핵산내부분해적으로 절단한다. 구체적으로, crRNA에 상보적이지 않은 표적 가닥은 먼저 핵산내부분해적으로 절단된 다음, 핵산외부분해적으로 3'-5' 트리밍된다. DNA-결합 및 절단은 전형적으로 단백질 및 두개의 RNA를 요구한다. 그러나, 단일 가이드 RNA (sgRNA, single guide RNA, 또는 간단히 gRNA)가 개발되었으며 단일 가닥 RNA는 crRNA 및 tracrRNA 둘 다의 측면을 단일 RNA 종 내로 혼합되도록 조작된 것이다. 예를 들어, 문헌 [Jinek, Martin, et al. "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity." science 337.6096 (2012): 816-821.]을 참조하며, 이의 전체 내용은 본 명세서에 참조로 포함된다. Cas9은 CRISPR 반복 서열 내의 짧은 모티프 (PAM 또는 프로토스페이서 인접 모티프)를 인식하여 자기 대 비-자기 구별을 돕는다. CRISPR 생물학, 뿐만 아니라 Cas9 뉴클레아제 서열 및 구조는 관련 기술분야의 통상의 기술자에게 널리 공지되어 있다 (예를 들어, 문헌 [Ferretti, Joseph J., et al. "Complete genome sequence of an M1 strain of Streptococcus pyogenes." Proceedings of the National Academy of Sciences 98.8 (2001): 4658-4663.; Deltcheva, Elitza, et al. "CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III." Nature 471.7340 (2011): 602-607.; 및 Jinek, Martin, et al. "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity." science 337.6096 (2012): 816-821.] 참조, 이들 각각의 전체 내용은 본 명세서에 참조로 포함됨). Cas9 오쏘로그 (orthologue)는 S. pyogenes (Streptococcus pyogenes)및 S. thermophilus (Streptococcus thermophilus)를 포함하나 이에 제한되지 않고, 다양한 종에서 기재되어 있다. 추가의 적합한 Cas9 뉴클레아제 및 서열은 본 개시내용에 기초하여 관련 기술분야의 통상의 기술자에게 명백할 것이고, 이러한 Cas9 뉴클레아제 및 서열은 그의 전체 내용이 본원에 참조로 포함되는 문헌 [Chylinski, Krzysztof, Anais Le Rhun, and Emmanuelle Charpentier. "The tracrRNA and Cas9 families of type II CRISPR-Cas immunity systems." RNA biology 10.5 (2013): 726-737.]에 개시된 유기체 및 유전자좌로부터의 Cas9 서열을 포함한다.
CRISPR/Cas 유전자 편집 시스템
전술한 CRISPR로부터 개발된 CRISPR/Cas 유전자 편집 시스템은 세포의 CRISPR 시스템으로부터 유래된 Cas 단백질과, Cas 단백질을 표적 영역으로 유도하는 가이드 핵산을 이용하여 원하는 위치에서 유전자(예를 들어, 세포의 게놈)을 편집하는 기술이다. 예를 들어, Cas 단백질은 가이드 RNA (guide RNA; gRNA)와 함께, Cas/gRNA 복합체를 형성한다. Cas/gRNA 복합체는 여기에 포함된 가이드 RNA를 통해 목적하는 위치로 유도된다. Cas/gRNA 복합체에 포함된 Cas 단백질은 목적하는 위치에 DSB(double strand break) 또는 nick을 유도한다. CRISPR/Cas 유전자 편집 시스템은 세포의 게놈 뿐만 아니라, 게놈 상에 위치하지 않은 DNA 분자 또한 편집 가능하다. CRISPR의 발견 이래로, CRISPR/Cas 게놈 편집 시스템과 관련하여, 전술한 바와 같이 tracrRNA 및 crRNA이 연결된 single guide RNA의 개발 (문헌 [Jinek, Martin, et al. "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity." science 337.6096 (2012): 816-821.], 이의 전체 내용이 본 명세서에 참조로 포함됨), cas9, cas12a(cpf1), cas12b(c2c1), cas12e(casX), cas12k(c2c5), cas14, cas14a, cas13a(c2c2), cas13b(c2c6) cas9 nicakse, dead cas 등과 같은 다양한 종류 및/또는 유형의 Cas 단백질 (Cas 등가물)이 개발되었다. 나아가, CRISPR/Cas 유전자 편집 시스템을 기초로 하여, 염기 변경의 목적을 달성할 수 있는 베이스 에디팅과 원하는 편집의 작성을 달성할 수 있는 프라임 에디팅이 개발되었다. 전술한 바와 같이, CRISPR/Cas 유전자 편집 시스템은 전통적인 CRISPR/Cas 유전자 편집 시스템과 이를 기초로 개발된 유전자 편집을 목적으로 하는 기술들을 포괄하는 것으로 사용될 수 있다. CRISPR/Cas 유전자 편집 시스템의 이해를 위해 문헌 WO2018/231018(국제공개번호)가 참조될 수 있으며, 이의 전체가 본원에 참조로 포함된다. 기술자의 이해를 돕기 위해 CRISPR/Cas 유전자 편집 시스템에 사용될 수 있는 편집 단백질(예를 들어, Cas 단백질)에 대하여 추가적으로 아래에서 더 설명한다.
CRISPR/Cas 유전자 편집 시스템 1 - 편집 단백질
편집 단백질 개괄 및 CRISPR/Cas 유전자 편집 시스템에서의 편집 단백질
편집 단백질은 유전자 편집을 달성할 수 있도록 목적하는 영역에 DSB 또는 닉을 발생시키거나, 편집을 유도할 수 있도록 도움을 주는 단백질을 지칭하는 것으로 사용될 수 있다. 일반적으로, 핵산을 절단하는 뉴클레이즈(nuclease)활성을 갖는 단백질을 편집 단백질로 지칭할 수 있다. CRISPR/Cas 유전자 편집 시스템에서 편집 단백질은 Cas 단백질과 상호 교환적으로 사용될 수 있다. Cas 단백질의 대표적인 예로는 Cas9 이 있다. 본 명세서에서 사용되는 용어 Cas 단백질은 CRISPR/Cas 유전자 편집 시스템에서 사용되는, 표적 영역 내에 DSB 또는 nick을 발생시킬 수 있는 유전자 편집 단백질, 또는 불활성 Cas 단백질을 총칭하는 것으로 사용된다. Cas 단백질의 예로는, Cas9, Cas9 변이체, Cas9 닉카제 (Cas9 nickase, nCas9), dead Cas9, Cpf1 (유형-V CRISPR-Cas 시스템), C2c1 (유형 V CRISPR-Cas 시스템), C2c2(유형 VI CRISPR-Cas 시스템) 및 C2c3 (유형 V CRISPR-Cas 시스템) 등이 있으나 이에 제한되지 않는다. 추가의 Cas 단백질의 예시는 문헌 [Abudayyeh, Omar O., et al. "C2c2 is a single-component programmable RNA-guided RNA-targeting CRISPR effector." Science 353.6299 (2016): aaf5573.]에 기재되어 있으며, 이의 전체 내용은 본 명세서에 참조로 포함된다. 일 실시양태에서, Cas 단백질은 스트렙토코커스 피오게네스(Streptococcus pyogenes), 스트렙토코커스 써모필러스(Streptococcus thermophilus), 스트렙토코커스 속(Streptococcus sp.), 스타필로코커스 아우레스(Staphylococcus aureus), 캄필로박터 제주니 (Campylobacter jejuni), 노카르디옵시스 다손빌레이(Nocardiopsis dassonvillei), 스트렙토마이세스 프리스티네스피랄리스(Streptomyces pristinaespiralis), 스트렙토마이세스 비리도크로모게네스(Streptomyces viridochromogenes), 스트렙토마이세스 비리도크로모게네스(Streptomyces viridochromogenes), 스트렙토스포랑기움 로세움(Streptosporangium roseum), 스트렙토스포랑기움 로세움(Streptosporangium roseum), 알리사이클로바클루스 아시도칼다리우스(AlicyclobacHlus acidocaldarius), 바실러스 슈도마이코이데스(Bacillus pseudomycoides), 바실러스 셀레니티레두센스(Bacillus selenitireducens), 엑시구오박테리움 시비리쿰(Exiguobacterium sibiricum), 락토바실러스 델브루에키이(Lactobacillus delbrueckii), 락토바실러스 살리바리우스(Lactobacillus salivarius), 미크로스 킬라 마리나(Microscilla marina), 부르크홀데리아레스 박테리움(Burkholderiales bacterium), 폴라로모나스 나프탈레니보란스(Polaromonas naphthalenivorans), 폴라로모나스 속(Polaromonas sp.), 크로코스파에라 와트소니이(Crocosphaera watsonii), 시아노테세 속(Cyanothece sp.), 마이크로시스티스 아에루기노사(Microcystis aeruginosa), 시네코코커스 속(Synechococcus sp.), 아세토할로비움 아라바티쿰(Acetohalobium arabaticum), 암모니펙스 데겐시이(Ammonifex degensii), 칼디셀룰로시럽토 베시이(Caldicelulosiruptor bescii), 칸디다투스 데술포루디스(Candidatus Desulforudis), 클로스트리듐 보툴리눔(Clostridium botulinum), 클로스트리듐 디피실레(Clostridium difficile), 피네골디아 마그나(Finegoldia magna), 나트라나에로비우스 써모필러스 (Natranaerobius thermophilus), 펠로토마쿨럼 써모프로피오니쿰(Pelotomaculum thermopropionicum), 아시디티오바실러스 칼두스(Acidithiobacillus caldus), 아시디티오바실러스 페로옥시단스(Acidithiobacillus ferrooxidans), 알로크로마티움 비노숨(Allochromatium vinosum), 마리노박터 속(Marinobacter sp.), 니트로소코커스 할로필러스(Nitrosococcus halophilus), 니트로소코커스 와트소니(Nitrosococcus watsoni), 슈도알테로 모나스 할로플란크티스(Pseudoalteromonas haloplanktis), 크테도노박테르 라세미페르(Ktedonobacter racemifer), 메타노할로비움 에베스티가툼(Methanohalobium evestigatum), 아나베나 바리아빌리스(Anabaena variabilis), 노둘라리아 스푸미게나(Nodularia spumigena), 노스톡 속(Nostoc sp.), 아르트로스피라 맥시마(Arthrospira maxima), 아르트로스피라 플라텐시스(Arthrospira platensis), 아르트로스피라 속(Arthrospira sp.), 링비아속(Lyngbya sp.), 마이크로콜레우스 크토노플라스테스(Microcoleus chthonoplastes), 오실라토리아 속(Oscillatoria sp.), 페트로토가 모빌리스(Petrotoga mobilis), 써모시포 아프리카누스(Thermosipho africanus) 또는 아카리오클로리스 마리나(Acaryochloris marina) 등 다양한 미생물 유래의 Cas9 또는 Cpf1 일 수 있다. 이하에서는 CRISPR/Cas9 유전자 편집 시스템에서 사용되는 Cas9 단백질에 대하여 예시한다.
Cas9 단백질
CRISPR/Cas9 유전자 편집 시스템에서, 핵산을 절단하는 뉴클레이즈(nuclase) 활성을 가지는 단백질을 Cas9 단백질이라 한다. 상기 Cas9 단백질은 CRISPR/Cas 시스템 분류 상 Class 2, Type II에 해당하며, 스트렙토코커스 피오게네스(Streptococcus pyogenes), 스트렙토코커스 써모필러스(Streptococcus thermophilus), 스트렙토코커스 속 (Streptococcus sp.), 스트렙토마이세스 프리스티네스피랄리스(Streptomyces pristinaespiralis), 스트렙토마이세스 비리도크로모게네스(Streptomyces viridochromogenes), 스트렙토마이세스 비리도크로모게네스(Streptomyces viridochromogenes), 스트렙토스포랑기움 로세움(Streptosporangium roseum), 스트렙토스포랑기움 로세움(Streptosporangium roseum) 유래 Cas9 단백질 등이 있다. 추가의 Cas9 단백질 및 서열은 본 명세서에 전체 내용이 참조로 포함되는 문헌 [Chylinski, Krzysztof, Anais Le Rhun, and Emmanuelle Charpentier. "The tracrRNA and Cas9 families of type II CRISPR-Cas immunity systems." RNA biology 10.5 (2013): 726-737.]에 개시된다. 예를 들어, Cas9의 DNA 절단 도메인은 2개의 서브 도메인, 즉 NHN 뉴클레아제 서브도메인 및 RucC1 서브도메인을 포함하는 것으로 알려져 있다. NHN 서브도메인은 gRNA에 상보적인 가닥을 절단하는 반면, RuvC1 서브도메인은 비-상보적 가닥을 절단한다. 이들 서브도메인의 불활성화는 Cas9의 뉴클레아제 활성을 침묵시킬 수 있다. 예를 들어, 돌연변이 D10A 및 H840A 모두는 S. pyogenes Cas9의 뉴클레아제 활성을 완전히 불활성화시킨다 (문헌 [Jinek, Martin, et al. "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity." science 337.6096 (2012): 816-821.] 참조). 예를 들어, 돌연변이 H840A는 Cas9 nickase를 제공한다.
CRISPR/Cas 유전자 편집 시스템 2 - 가이드 핵산
가이드 핵산 개괄
CRISPR/Cas 유전자 편집 시스템에서, Cas 단백질은 가이드 핵산 (예를 들어, 가이드 RNA)과 회합(association)하여 Cas/가이드 핵산 복합체 (예를 들어, Cas/gRNA 복합체)를 형성한다. Cas/gRNA 복합체는 RNP(Ribonucleoprotein)으로 지칭될 수 있다. Cas/gRNA 복합체는 가이드 RNA (guide RNA; gRNA)의 스페이서 서열과 대응되는 (예를 들어, 상보성을 갖는) 서열을 포함하는 표적 영역 내에서 DSB (double-strand break) 또는 닉 (nick)을 발생시키며, DSB 또는 닉은 Cas 단백질에 의해 유도된다. DSB 또는 닉이 발생되는 위치는 게놈 상의 PAM 서열 근처일 수 있다. Cas/gRNA의 표적화에는 게놈상의 프로토스페이서 인접 모티프(Protospacer adjacent motif; PAM) 및 가이드 RNA의 스페이서 서열이 관여된다. PAM 및 가이드 RNA의 스페이서 서열에 의해 표적 영역으로 유도된 Cas 단백질 (예를 들어, Cas9)은 표적 영역 내에 DSB를 발생시킨다.
CRISPR/Cas 유전자 편집 시스템에서, 표적 DNA 분자에 포함된 특정 서열을 인식하도록 Cas 단백질을 표적 영역으로 유도하는 기능을 갖는 RNA를 가이드 RNA라고 지칭한다.
상기 가이드 RNA의 구성을 기능적으로 나눈다면, 크게, 1) 스캐폴드 서열 부분, 및 2) 가이드 서열을 포함하는 가이드 도메인으로 나눌 수 있다. 상기 스캐폴드 서열 부분은 Cas 단백질 (예를 들어, Cas9 단백질)과 상호작용하는 부분으로, Cas 단백질과 결합하여 복합체를 이룰 수 있도록 하는 부분이다. 일반적으로 상기 스캐폴드 서열 부분은 tracrRNA, crRNA 반복 서열 부분을 포함하며, 상기 스캐폴드 서열은 어떤 Cas9 단백질을 사용하느냐에 따라서 결정된다. 상기 가이드 서열은, 표적 핵산 (예를 들어, 표적 DNA 분자 또는 세포의 게놈) 내 일정 길이의 뉴클레오타이드 서열 부분과 상보적으로 결합할 수 있는 부분이다. 상기 가이드 서열은 인위적으로 변형할 수 있으며, 목적하는 유전자 편집과 관련된 관심 있는 표적 뉴클레오타이드 서열에 의해 결정된다.
일부 실시양태에서, 가이드 RNA는 crRNA 및 tracrRNA를 포함하는 것으로 설명될 수 있다. crRNA는 스페이서 및 반복 서열을 포함할 수 있다. crRNA의 반복 서열의 부분은 tracrRNA의 부분과 상호작용(예를 들어, 상보적 결합)을 할 수 있다. 전술한 바와 같이, crRNA와 tracrRNA가 연결된 단일 가닥 가이드 RNA(single guide RNA; sgRNA)가 제공될 수 있다.
일 실시양태에서, 가이드 RNA는 두개의 가닥으로 제공될 수 있다. 일 실시양태에서, 가이드 RNA는 하나의 가닥으로 제공될 수 있다. tracrRNA 및 crRNA가 연결된 단일 가이드 RNA (single guide RNA; sgRNA) (문헌 [Jinek, Martin, et al. "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity." science 337.6096 (2012): 816-821.] 참조, 이의 전체 내용이 본 출원에 참조로 포함됨)가 개발되었다. 특정한 실시양태에서, 가이드 RNA는 sgRNA(single guide RNA)일 수 있다.
가이드 RNA의 가이드 도메인과 가이드 서열
가이드 핵산 (예를 들어, 가이드 RNA)는 가이드 서열을 포함하는 가이드 도메인을 포함할 수 있다. 가이드 서열은 스페이서 서열과 상호 교환적으로 사용된다. 가이드 서열은 인위적으로 디자인될 수 있는 부분으로 관심 있는 표적 뉴클레오타이드 서열에 의해 결정된다. 일부 실시양태에서, 가이드 서열은 편집을 목적하는 DNA 분자 상에 위치한 PAM 서열에 인접하는 서열을 표적하도록 디자인될 수 있다. 전술한 바와 같이, Cas/gRNA 복합체의 표적 위치로의 국재화를 유도한다. 가이드 핵산의 구조는 CRISPR 유형에 따라 달라질 수 있다. 예를 들어, CRISPR/Cas9 유전자 편집 시스템에 사용되는 가이드 RNA는 5'-[가이드 도메인]-[스캐폴드]-3'의 구조를 가질 수 있다.
일 실시양태에서, 가이드 서열은 5nt 내지 40nt의 길이를 가질 수 있다. 일 실시양태에서, 가이드 RNA의 가이드 도메인에 포함된 가이드 서열은 10nt 내지 30nt의 길이를 가질 수 있다. 일 실시양태에서, 가이드 서열은 15nt 내지 25nt의 길이를 가질 수 있다. 일 실시양태에서, 가이드 서열은 18nt 내지 22nt의 길이를 가질 수 있다. 일 실시양태에서, 가이드 서열은 20nt의 길이를 가질 수 있다. 일 실시양태에서, 가이드 서열과 상보적인 결합을 형성하는 게놈 내의 서열인 타겟 서열(스페이서 결합 가닥에 존재하는 타겟 서열 및 스페이서 비-결합 가닥에 존재하는 타겟 서열을 모두 포괄함)은 5nt 내지 40nt의 길이 또는 5bp 내지 40bp를 가질 수 있다. 일 실시양태에서, 가이드 서열과 상보적인 결합을 형성하는 게놈 내의 서열인 타겟 서열은 10nt 내지 30nt의 길이 또는 10bp 내지 30bp를 가질 수 있다. 일 실시양태에서, 타겟 서열은 15nt 내지 25nt의 길이 또는 15bp 내지 25bp의 길이를 가질 수 있다. 일 실시양태에서, 타겟 서열은 18nt 내지 22nt의 길이 또는 18bp 내지 22bp의 길이를 가질 수 있다. 일 실시양태에서, 타겟 서열은 20nt 또는 20bp의 길이를 가질 수 있다.
CRISPR/Cas 유전자 편집 시스템 3 - PAM (protospacer adjacent motif)
CRISPR/Cas9 유전자 편집 시스템이 표적 유전자, 또는 표적 핵산을 절단하기 위해서는 두 가지 조건이 필요하다.
첫째, 표적 유전자, 또는 표적 핵산 내에 Cas9 단백질이 인식할 수 있는 일정 길이의 염기 서열(뉴클레오타이드 서열)이 있어야 한다. 이때, 상기 Cas9 단백질에 의해 인식되는 일정 길이의 염기 서열(뉴클레오타이드 서열)을 Protospacer Adjacent Motif(PAM) 서열이라 한다. 상기 PAM 서열은 상기 Cas9 단백질에 따라 정해지는 고유한 서열이다. 둘째, 상기 일정 길이의 PAM 서열 주변에 가이드 RNA에 포함된 스페이서 서열과 상보적으로 결합할 수 있는 서열이 있어야 한다. 여기서, PAM 서열은 스페이서 비-결합 가닥 상에 존재하는 서열과 스페이서 결합 가닥 상에 존재하는 서열을 모두 포괄하는 것으로 사용될 수 있다.
전술한 바와 같이, CRISPR/Cas 유전자 편집 시스템에서 Cas/gRNA 복합체는 표적 DNA 분자 (예를 들어, 세포의 게놈) 상의 프로토스페이서 인접 모티프(PAM) 서열 및 gRNA의 가이드 서열에 의해 표적 영역으로 유도된다. 표적 DNA 분자에서, PAM 서열은 가이드 RNA의 가이드 서열이 결합하는 가닥이 아닌 가이드 서열 비-결합 가닥에 위치할 수 있다. PAM 서열은 사용되는 Cas 단백질의 종류에 따라 독립적으로 결정될 수 있다. 일 실시양태에서, PAM 서열의 다음 중 선택되는 어느 하나일 수 있다 (5' 에서 3' 방향으로 개시됨): NGG (서열번호 18); NNNNRYAC (서열번호 19); NNAGAAW (서열번호 20); NNNNGATT (서열번호 21); NNGRR(T) (서열번호 22); TTN (서열번호 23); 및 NNNVRYAC (서열번호 24). 각각의 N은, 독립적으로 A, T, C 또는 G일 수 있다. 각각의 R은 독립적으로 A 또는 G일 수 있다. 각각의 Y는 독립적으로 C 또는 T일 수 있다. 각각의 W는 독립적으로 A 또는 T일 수 있다. 예를 들어, Cas 단백질로 spCas9이 사용되는 경우, PAM 서열은 NGG (서열번호 18)일 수 있다. 예를 들어, Cas 단백질로 스트렙토코커스 써모필러스 Cas9 (StCas9)이 사용되는 경우, PAM 서열은 NNAGAAW (서열번호 20)일 수 있다. 예를 들어, NmCas9(Neisseria meningitides Cas9)이 사용되는 경우, PAM 서열은 NNNNGATT (서열번호 21)일 수 있다. 예를 들어, CjCas9(Campylobacter jejuni Cas9)이 사용되는 경우, PAM 은 NNNVRYAC (서열번호 24)일 수 있다. 일 실시양태에서, PAM 서열은 스페이서 비-결합 가닥에 존재하는 타겟 서열 (여기서, 스페이서 비-결합 가닥에 존재하는 타겟 서열은 가이드 RNA와 결합하지 않는 서열을 지칭함)의 3' 말단에 연결되어 있을 수 있다. 일 실시양태에서, PAM 서열은 스페이서 비-결합 가닥에 존재하는 표적 서열의 3' 말단에 위치할 수 있다. 스페이서 비-결합 가닥에 존재하는 표적 서열은 가이드 RNA의 가이드 서열과 결합하지 않는 서열을 지칭한다. 스페이서 비-결합 가닥에 존재하는 타겟 서열은 스페이서 결합 가닥에 존재하는 타겟 서열에 상보적이다.
DSB 또는 닉이 발생되는 위치는 게놈 상의 PAM 서열 근처일 수 있다. 일 실시양태에서, DSB 또는 닉이 발생되는 위치는 스페이서 비-결합 가닥에 존재하는 PAM 서열의 5' 또는 3' 말단을 기준으로 -0 내지 -20 또는 +0 내지 +20일 수 있다. 일 실시양태에서, DSB 또는 닉이 발생되는 위치는 스페이서 비-결합 가닥 상의 PAM 서열의 -1 내지 -5 또는 +1 내지 +5일 수 있다. 예를 들어, spCas9을 사용하는 CRISPR/Cas 유전자 편집 시스템에서, spCas9은 PAM 서열의 상류에 위치한 세번째 뉴클레오타이드와 네번째 뉴클레오타이드 사이를 절단한다.
CRISPR/Cas 유전자 편집 시스템을 이용한 게놈 편집 과정
기술자의 이해를 돕기 위해, CRISPR/Cas 유전자 편집 시스템을 이용한 게놈 편집 과정에 대하여 하기의 예시를 들어 간략하게 개시한다.
예를 들어, 편집을 목적하는 DNA 분자와 Cas/gRNA 복합체가 접촉할 수 있는 환경이 제공될 수 있다. 편집을 목적하는 DNA 분자일 수 있다. 세포 내에서 게놈 편집을 목적으로 하는 경우, Cas 단백질 또는 이를 암호화하는 핵산 및 가이드 RNA 또는 이를 암호화하는 핵산이 세포 내부로 도입되고, 이를 통해 Cas 단백질 및 가이드 RNA가 세포의 게놈 DNA와 접촉할 수 있는 환경이 달성될 수 있다. Cas 단백질 및 가이드 RNA가 세포의 게놈 DNA와 접촉할 수 있는 환경 하에서, Cas 단백질과 가이드 RNA는 Cas/gRNA 복합체를 형성할 수 있다. 물론, Cas/gRNA 복합체는, 세포의 게놈 DNA가 존재하지 않더라도, 적절한 환경에서 Cas 단백질 및 gRNA가 모두 존재하는 경우 형성될 수 있다. Cas/gRNA 복합체에 포함된 gRNA의 가이드 서열 및 게놈 상의 PAM 서열이 관여되어 Cas/gRNA 복합체를 미리 디자인된 표적 서열이 존재하는 표적 영역으로 유도한다. 표적 영역으로 유도된 Cas/gRNA 복합체는 표적 영역 내에 DSB(예를 들어, Cas9의 경우)를 발생시킨다. 이후, DNA 수선 과정에 의해 DSB가 발생된 (절단된) DNA가 수선되면서 표적 영역 또는 표적 위치에서의 유전자 편집이 달성된다. DNA에 발생된 DSB의 복구를 위한 두가지 주요 경로로는 상동 재조합(Homology-directed repair; HDR) 및 NHEJ(nonhomologous end joining)가 있다. 이중 자연적으로 발생하는 DNA 복구 시스템인 HDR은 인간을 포함한 다양한 유기체에서 게놈을 수정하는데 사용될 수 있다. HDR 매개 수선은 주로, 표적 영역 또는 표적 위치에 목적하는 서열을 삽입하거나 특정한 점 돌연변이 등을 유도하는데 사용될 수 있으나, 이에 제한되지 않는다. HDR 매개 수선(HDR mediate reparing)은 DNA 복구 시스템인 HDR 및 HDR 템플릿 (예를 들어, 세포 외부로부터 공급될 수 있는 도너 템플릿)을 통해 수행될 수 있다. NHEJ는 DNA의 DSB를 수선하는 과정을 지칭하며, HDR과는 대조적으로, HDR 템플릿 없이 절단된 말단을 연결한다. 즉, 수선 과정에서 HDR 템플릿을 필요로 하지 않는다. NHEJ는 주로 인델을 유도하기 위해 선택될 수 있는 DNA 수선 매커니즘일 수 있다. 인델(insertion/deletion)은, 유전자 편집 전 핵산의 뉴클레오타이드 배열에서 일부 뉴클레오타이드가 중간에 결실되거나, 임의의 뉴클레오타이드가 삽입되거나, 및/또는 상기 삽입과 결실이 혼입된 변이를 지칭할 수 있다. 표적 유전자에 발생된 인델의 일부는 발생은 해당 유전자를 불활성화시킬 수 있다. DNA 수선 매커니즘인 HDR 및 NHEJ는 문헌 [Sander, Jeffry D., and J. Keith Joung. "CRISPR-Cas systems for editing, regulating and targeting genomes." Nature biotechnology 32.4 (2014): 347-355.]에 상세히 개시되며, 이의 전체 내용은 본 출원에 참조로 포함된다.
지금까지, CRISPR/Cas 유전자 편집 시스템을 포함한 유전자 편집 시스템에 대하여 상세히 개시하였다. 본 출원은 유전자 편집 시스템을 이용한 유전자 편집 (예를 들어, 게놈 편집)과정에서 발생할 수 있는 오프 타겟을 예측하는 방법에 관한 것이다. 이하에서는, 유전자 편집 시스템에서 발생할 수 있는 오프 타겟에 대하여 상세히 개시한다.
오프 타겟 (off-target)
유전자 편집 (예를 들어, 게놈 편집)의 분야에서, 오프 타겟은 의도되지 않은 위치에서 발생하는 유전자 변형(genetic modification)을 지칭한다. 오프 타겟에 의해 유도되는 유전자 변형은 비특이적일 수 있다. 개발된 게놈 편집의 도구로는 CRISPR/Cas 유전자 편집 시스템, transcription activator-like effector nucleases (TALEN), 메가뉴클리에이즈(meganuclease), 및 zinc finger nuclease 등이 있다. 이들 게놈 편집 도구 또는 게놈 편집 시스템은 미리 결정된 서열(예를 들어, 표적 영역 내의 서열)에 결합할 수 있도록 하는 각각의 특수한 매커니즘을 통해 표적 영역 내의 편집을 수행 가능하도록 디자인된다. 예를 들어, CRISPR/Cas 유전자 편집 시스템에서는 가이드 RNA(guide RNA; gRNA)는 Cas/gRNA 복합체의, 의도된, 표적 위치로의 이동을 유도한다. 표적 위치로의 이동에는 게놈 내의 PAM 서열 또한 관여될 수 있다. 그러나, Cas/gRNA 복합체는 여전히 표적 영역 내의 서열이 아닌 의도되지 않은 위치의 서열에 결합할 가능성을 갖는다. 이와 같이, Cas/gRNA 복합체가 의도되지 않은 위치의 서열에 결합하고, 의도되지 않은 위치에서 DSB를 발생시키면, 의도되지 않은 유전적 변형이 발생한다. 오프 타겟 효과는 의도하지 않은 점 돌연변이, 결실, 삽입, 역전, 및 전좌 등의 의도되지 않은 유전적 변형을 유도한다. 원하지 않는 영역에서의 게놈 편집 도구의 결합은 원하지 않는 영역 내의 서열의 타겟 서열에 대한 부분적이지만 충분한 일치(partially sufficient matching)에서 비롯된다고 알려져 있다. 이론에 얽매이지 않지만, 본 출원에 그 전체 내용이 참조로 포함되는 문헌[Lin, Yanni, et al. "CRISPR/Cas9 systems have off-target activity with insertions or deletions between target DNA and guide RNA sequences." Nucleic acids research 42.11 (2014): 7473-7485.]는 Off-target 결합의 매커니즘은 base mismatch tolerance 및 bulge mismatch로 그룹화될 수 있다고 설명한다. 예를 들어, 오프 타겟 부위는 가이드 RNA 서열과 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10, 혹은 그 이상의 미스매치를 포함할 수 있으나, 이에 제한되지 않는다.
오프 타겟의 문제는 암과 같은 심각한 문제를 초래하는 중요한 코딩 영역의 붕괴를 야기할 가능성을 내포한다. 나아가, 연구 영역에서 또한 오프 타겟의 문제는 생물학적 연구의 변수의 혼동을 유발할 수 있고, 나아가 재현할 수 없는 결과를 초래할 가능성을 내포한다. (문헌 [Eid, Ayman, and Magdy M. Mahfouz. "Genome editing: the road of CRISPR/Cas9 from bench to clinic." Experimental & Molecular Medicine 48.10 (2016): e265-e265.] 참조, 상기 문헌의 전체 내용이 본 출원에 포함됨).
오프 타겟에 대한 문제는 CRISPR/Cas 유전자 편집 시스템에서 뿐만 아니라, 이를 바탕으로 개발된 베이스 에디팅 및 프라임 에디팅에도 여전히 존재한다. 본 명세서에서 오프 타겟은 온 타겟과 대응되는 개념으로 사용될 수 있으며, 의도되지 않은 위치에서의 유전적 변형을 지칭하는 것으로 사용될 수 있다.
전술한 바와 같이, 오프 타겟은 다양한 측면에서 강력한 부작용(예를 들면, 찾기 어려운 부작용, 및/또는 비가역적인 부작용)을 야기한다. 이에 따라, 유전자 편집 시스템(예를 들어, 게놈 편집 시스템)의 사용에서 발생할 수 있는 오프 타겟을 확인하는 것은 치료제의 개발에 있어서, 또한 연구에 있어서 매우 중요한 사항이다. 디자인된 유전자 편집 시스템 (예를 들어, CRISPR/Cas9 유전자 편집 시스템 및 특정 가이드 RNA)에서 일어나는 진정한 오프 타겟을 확인하는 것은 많은 비용과 시간을 필요로 한다. 이러한 이유로, 오프 타겟 후보를 확인할 수 있는, 즉, 오프 타겟을 예측할 수 있는 다양한 방법들이 연구 및 개발되어 왔다. 그러나, 본 출원의 출원일까지 개발된, 유전자 편집 과정(예를 들어, 게놈 편집 시스템을 통한 게놈 편집 과정)에서 발생 가능한 오프 타겟을 예측하는 방법들은 여전히 다양한 문제점을 가지고 있다. 이하에서, 연구 및 개발된 종래의 오프 타겟 예측 시스템과 이들이 갖는 문제점에 대하여 개시한다.
알려진 오프 타겟 예측 시스템 및 이들의 한계
알려진 오프 타겟 예측 시스템
전술한 바와 같이, 유전자 편집 시스템(예를 들어, CRISPR/Cas 유전자 편집 시스템)을 이용한 게놈 편집에서 발생 가능한 오프 타겟을 예측하기 위해, 다양한 방법들이 개발되었다. 기존의 오프 타겟 예측 또는 오프 타겟 후보의 확인 방법은 상기 방법의 MOA(mechanism of action)에 따라 세포 기반(cell-based) 오프 타겟 예측 시스템, in vitro 오프 타겟 예측 시스템, 및 in silico 오프 타겟 예측 시스템의 3가지 카테고리로 분류될 수 있다. 각각의 카테고리에 포함된 예측 시스템의 예시는 다음과 같다:
- 세포 기반 시스템(Cell based system): GUIDE-seq(문헌 [Tsai, S. Q., Zheng, Z., Nguyen, N. T., Liebers, M., Topkar, V. V., Thapar, V., ... & Joung, J. K. (2015). GUIDE-seq enables genome-wide profiling of off-target cleavage by CRISPR-Cas nucleases. Nature biotechnology, 33(2), 187-197.] 참조), GUIDE-tag, DISCOVER-seq, BLISS, BLESS, integrase-defective lentiviral vector-mediated DNA break capture, HTGTS, ONE-seq, CReVIS-Seq, ITR-seq, 및 TAG-seq 등.
- in vitro 시스템: Digenome-seq (문헌 [Kim, Daesik, et al. "Digenome-seq: genome-wide profiling of CRISPR-Cas9 off-target effects in human cells." Nature methods 12.3 (2015): 237-243.] 참조), DIG-seq(문헌 [Kim, Daesik, and Jin-Soo Kim. "DIG-seq: a genome-wide CRISPR off-target profiling method using chromatin DNA." Genome research 28.12 (2018): 1894-1900.] 참조), SITE-seq, CIRCLE-seq, 및 CHANGE-seq 등.
- in silico 시스템: Cas-OFFinder(문헌 [Bae, Sangsu, Jeongbin Park, and Jin-Soo Kim. "Cas-OFFinder: a fast and versatile algorithm that searches for potential off-target sites of Cas9 RNA-guided endonucleases." Bioinformatics 30.10 (2014): 1473-1475.] 참조), CHOPCHOP, 및 CRISPOR 등.
CRISPR/Cas 게놈 편집 시스템 (또는 도구)를 통한 게놈 편집 과정에서 발생하는 오프 타겟을 예측하기 위해서 전술한 바와 같이 다양한 방법들이 개발되었으나, 현재까지 개발된 예측 방법 또는 예측 도구는 여전히 한계를 갖는다. 이하에서 각각의 카테고리 별 한계점을 예시한다.
Cell-based 클래스의 문제
예를 들어, 세포 기반 방법은 때때로 진정한 오프 타겟 위치를 놓치는 문제를 보이며, 임상적으로 더 관련성이 높은 세포 (예를 들어, 임상에 사용되는 세포)의 유형에서 예측 방법의 효율성이 감소되는 문제를 보인다 (문헌 [Wienert, Beeke, et al. "Unbiased detection of CRISPR off-targets in vivo using DISCOVER-Seq." Science 364.6437 (2019): 286-289.; 및 Shapiro, Jenny, et al. "Increasing CRISPR efficiency and measuring its specificity in HSPCs using a clinically relevant system." Molecular Therapy-Methods & Clinical Development 17 (2020): 1097-1107.] 참조).
나아가, 본 출원의 발명자들은 자체적인 실험을 통해 세포 기반 예측 방법(예를 들어, GUIDE-seq)에서 발생할 수 있는 문제들을 추가적으로 확인하였다. 예를 들어, 본 출원의 발명자들은 세포 기반 예측 방법의 보다 높은 미스율을 확인하였으며, 세포 종류에 따라 오프 타겟 예측 결과가 달라질 수 있음을 실험을 통해 확인하였다 (본 출원의 실험예 참조).
In vitro 및 in silico 클래스의 문제
In vitro 오프 타겟 예측 방법 및 in silico 오프 타겟 예측 방법은 너무 많은 위양성 데이터 포인트를 제공하는 문제가 있으며, 크로마틴의 구조 및 후생유전학적 변형과 같은, 세포 특이적일 수 있는 세포내 환경을 반영하지 못하는 문제가 있다 (문헌 [Kim, Daesik, and Jin-Soo Kim. "DIG-seq: a genome-wide CRISPR off-target profiling method using chromatin DNA." Genome research 28.12 (2018): 1894-1900.] 참조).
나아가, 본 출원의 발명자들은 자체적인 실험을 통해 in vitro 기반 예측 방법(예를 들어, Digenome-seq, Dig-seq) 및 in silico 기반 예측 방법에서 발생할 수 있는 문제들을 추가적으로 확인하였다. 예를 들어, 본 출원의 발명자들은 in vitro 기반 예측 방법의 보다 높은 위양성율을 확인하였다 (본 출원의 실험예 참조).
유전자 치료제의 IND 과정에서 사용되는 오프 타겟 예측 시스템
각각의 방법이 각각의 장 단점을 갖는 이유로, CRISPR/Cas 게놈 편집 시스템의 오프 타겟을 결정 또는 확인하기 위해서, 다양한 예측 방법이 조합되어 사용되었다. Intellia에서 수행된 최근 연구에서는, GUIDE-seq, SITE-seq, 및 Cas-OFFinder가 잠재적인 오프 타겟 위치를 식별하기 위해 사용되었다 (NTLA-2001, 문헌 [Gillmore, Julian D., et al. "CRISPR-Cas9 in vivo gene editing for transthyretin amyloidosis." New England Journal of Medicine 385.6 (2021): 493-502.] 참조). EDITAS Medicine은 후보 치료제 EDIT-101에 대해 GUIDE-seq, Digenome-seq, 및 Cas-OFFinder의 오프 타겟 예측 도구를 함께 사용하였다 (문헌 [Maeder ML, Stefanidakis M, Wilson CJ, Baral R, Barrera LA, Bounoutas GS, Bumcrot D, Chao H, Ciulla DM, DaSilva JA et al: Development of a gene-editing approach to restore vision loss in Leber congenital amaurosis type 10. Nat Med 2019, 25(2):229-233.] 참조).
그러나, 다수의 예측 방법을 조합하여 사용하는 것은 많은 노동력과 비용을 요구하고, 일반적인 그룹에서 사용되기 어렵다. 또한, 다양한 오프 타겟 예측 방법을 사용한다고 하여, 더 많은 오프 타겟 후보를 감지할 수 있음이 보장되는 것은 아닐 수 있다. 예를 들어, NTLA-2001와 관련하여, 사용된 SITE-seq에 의해 식별된 7개의 유효한 오프 타겟 위치는 GUIDE-seq을 통해 찾아진 유효한 오프 타겟 위치 (3개의 유효한 오프 타겟이 발견됨) 및 Cas-OFFinder를 통해 찾아진 유효한 오프 타겟 위치 (3개의 유효한 오프 타겟이 발견됨)를 모두 포함하였다. 이러한 경우, 하나의 in vitro 방법의 출력은 세가지 방법을 결합한 것의 출력과 동일하다. NTLA-2001의 경우, SITE-seq은 475개의 오프 타겟 후보를 식별하였으며, 이 중 468개가 위양성(false positive)으로 판별되었다. 임상 연구에서 각 환자 또는 각 장기의 세포에 대해 475개의 오프 타겟 후보를 모두 검증하는 것은 힘든 일이다.
따라서, 전술한 측면을 포함한 다양한 이유로, 강력한 오프 타겟 예측 방법의 개발이 필요하다. 본 출원의 발명자들은, 보다 정확하고 위양성율이 적은, 효과적인 오프 타겟 예측 방법을 개발하였다. 본 출원의 발명자들은 다양한 및 다수의 테스트 방법을 사용하여 기존 방법과 새로이 개발된 본 출원의 오프 타겟 예측 방법의 성능을 상세히 비교하고, 이를 통해 본 출원의 새로운 오프 타겟 예측 방법의 뛰어난 성능을 확인하였다. 구체적으로, 본 출원의 발명자들은 in vitro 오프 타겟 예측 방법과 본 출원의 오프 타겟 예측 방법을 비교하여, 본 출원의 오프 타겟 예측 방법이 in vitro 오프 타겟 예측 방법에 비해 뛰어난 성능을 보임을 확인하였다. 나아가, 본 출원의 발명자들은 cell-based 오프 타겟 예측 방법과 본 출원의 오프 타겟 예측 방법을 비교하여, 본 출원의 오프 타겟 예측 방법이 cell-based 오프 타겟 예측 방법에 비해 뛰어난 성능을 보임을 확인하였다. 나아가, 본 출원의 발명자들은 다양한 및 다수의 테스트를 통해 본 출원의 오프 타겟 예측 방법이 다른 오프 타겟 예측 방법들보다 뛰어난 성능을 보임을 종합적으로 확인하였다 (본 출원의 실험예 참고).
본 출원에 의해 제공되는 오프 타겟의 예측 방법은 세포 기반(cell-based) 예측 방법과 in vitro 예측 방법 각각의 장점을 모두 가진다. 세포 기반 예측 방법의 장점과 관련하여, 본 출원에 의해 제공되는 오프 타겟 예측 방법은 Cas/gRNA 복합체가 크로마틴 구조 및 후성적 변형(epigenetic modification)을 유지하는 게놈 DNA와 접촉할 수 있는 환경을 제공할 수 있다. In vitro 기반 예측 방법의 장점과 관련하여, 본 출원에 의해 제공되는 오프 타겟 예측 방법은 DNA 수선 기작을 억제하여 절단율이 축적되도록 함을 통해, 진정한 오프 타겟을 놓치는 것을 방지할 수 있다. 이하에서, 본 출원에 의해 제공되는 오프 타겟 예측 시스템 (또는 방법, 도구)에 대하여 상세히 개시한다.
본 출원에 의해 제공되는 오프 타겟 예측 시스템 개괄
본 출원에 의해 제공되는 오프 타겟 예측 시스템 개괄
본 출원은 유전자 편집 과정에서 발생 가능한 오프 타겟을 예측하는 방법을 제공한다. 본 출원은 게놈 편집 과정에서 발생 가능한 오프 타겟을 예측하는 방법을 제공한다. 일 실시양태에서, 상기 유전자 편집 과정은 CRISPR/Cas 유전자 편집 시스템을 통해 수행될 수 있다. 일 실시양태에서, 상기 게놈 편집 과정은 CRISPR/Cas 게놈 편집 시스템을 통해 수행될 수 있다. 본 출원의 일 실시양태는 CRISPR/Cas 게놈 편집 시스템을 사용하여 수행되는 게놈 편집의 과정에서 발생 가능한 오프 타겟을 예측하는 방법을 제공한다. 오프 타겟은 오프 타겟 부위(site)에 대한 개념을 포괄한다. 예를 들어, 오프 타겟 부위 또는 위치는 오프 타겟으로 서술될 수 있다. 본 출원에서, 오프 타겟의 예측은 오프 타겟 후보를 확인함을 의미할 수 있다. 오프 타겟의 예측은 오프 타겟 후보의 위치를 확인함을 의미할 수 있다. 오프 타겟의 예측은 후보 오프 타겟 부위를 확인함을 의미할 수 있다. 본 명세서에서, '오프 타겟(off-target)', '오프 타겟 예측(off-target prediction)', 및 '오프 타겟 후보(off-target candidate)'에 대한 서술은 제한되어 해석되어서는 아니될 것이다.
본 출원에 의해 제공되는 신규한 오프 타겟 예측 시스템은 물리적으로 세포를 파괴하고, 이를 통해 세포의 게놈 DNA(genomic DNA)와 유전자 편집 단백질 (예를 들어, Cas9 단백질과 같은 Cas 단백질) 및 gRNA, 또는 Cas/gRNA 복합체 (예를 들어, Cas9/gRNA 복합체)를 접촉시키는 것을 특징으로 한다. 세포가 물리적으로 파괴됨으로써, 세포의 세포 막 및/또는 세포의 핵막이 파괴되고, Cas/gRNA 복합체가 게놈에 접촉할 수 있는 환경이 조성될 수 있다.
일 실시양태에서, 세포의 게놈 DNA에 미치는 영향이 적도록 적절한 크기의 기공(pore)을 갖는 필터를 이용하여 세포의 물리적 파괴가 수행될 수 있다. 예를 들어, 세포의 게놈 DNA와 Cas/gRNA 복합체가 접촉할 수 있는 환경을 제공하기 위해, 적절한 크기의 기공을 갖는 필터를 포함하는 익스트루더 (extruder)가 사용될 수 있다. 세포가 포함된 영역에 압력을 가하고, 압력에 의해 세포의 크기보다 작은 지름을 갖는 기공을 세포가 통과하고, 기공을 통과하는 과정에서 세포가 파괴될 수 있다. 기공의 크기를 적절히 조절하면, 세포의 파괴 과정에서 세포 내의 게놈 DNA 또는 게놈 DNA의 구조 (예를 들어, 크로마틴 구조 등과 같은 후생유전학적 특징에 따른 구조)는 파괴되지 않거나 또는 변형되지 않을 수 있다.
본 출원의 오프 타겟 시스템의 특징을 따를 때, Cas 단백질 및 gRNA (또는 Cas/gRNA 복합체)가 세포의 게놈 DNA에 접근 또는 접촉할 수 있는 환경이 조성됨과 동시에, 보다 온전한 게놈 DNA가 Cas/gRNA 복합체에 의해 절단되기 전까지 유지될 수 있다.
본 출원에 의해 제공되는 오프 타겟 예측 시스템 (또는 방법)은 Extru-seq으로 지칭될 수 있다.
본 출원에 의해 제공되는 오프 타겟 예측 시스템은 크게 두가지의 과정으로 구분될 수 있으며, 두가지의 과정은 다음과 같다: 분석 대상 조성물(subject composition)의 획득, 및 분석 대상 조성물의 분석.
여기서, 분석 대상 조성물의 획득은 게놈 DNA와 Cas/gRNA 복합체가 접촉 가능한 환경을 제공함을 포함하는 과정을 통해 수행될 수 있다.
분석 대상 조성물의 분석은 분석 대상 조성물에 포함된 DNA (예를 들어, 절단된 DNA 또는 절단되지 않은 DNA)를 분석함을 포함하는 과정을 통해 수행될 수 있다.
이하에서, 게놈 DNA와 Cas/gRNA 복합체가 접촉 가능한 환경을 제공하는 방법에 대하여 개시한다.
게놈 DNA와 Cas/gRNA 복합체가 접촉 가능한 환경 제공 방법
전술한 바와 같이, 본 출원에 의해 제공되는, 유전자 편집 과정에서 발생 가능한 오프 타겟을 예측하는 방법은 게놈 DNA와 Cas/gRNA 복합체가 접촉 가능한 환경을 제공할 수 있다.
세포 내(예를 들어, 핵 내)에 존재하는 게놈 DNA가 Cas/gRNA 복합체와 접촉할 수 있는 환경을 제공하기 위해, 세포를 물리적인 방법(예를 들어, 물리적인 힘을 사용하여)을 통하여 세포를 파괴하는 과정이 수행될 수 있다. 세포의 파괴를 통해 세포의 막 및/또는 세포의 핵막과 같은 세포의 막 구조가 파괴되거나, 상기 막 구조에 Cas 단백질 및 gRNA 또는 Cas/gRNA 복합체가 게놈 DNA에 접근 가능하도록 하는 공간이 생성될 수 있다. 예를 들어, 세포의 핵막이 파괴되어 게놈 DNA가 Cas 단백질 및 gRNA에 노출될 수 있다. 다른 예로, 세포의 막이 파괴되고, Cas 단백질 및 gRNA가 세포의 핵과 접촉할 수 있는 환경이 제공되고, Cas 단백질 및 gRNA (또는 Cas/gRNA 복합체)가 세포의 핵막을 통과하여 게놈 DNA에 접근할 수 있다. 일부 실시양태에서, Cas 단백질에는 NLS가 융합되거나 연결될 수 있으며 (즉, NLS가 연결된 Cas 단백질이 제공될 수 있음), Cas 단백질에 융합되거나 연결된 NLS는 Cas 단백질 (또는 Cas/gRNA 복합체)이 세포의 핵막을 통과하는데 도움을 줄 수 있다. 일 실시양태에서, 세포의 파괴로 인해 세포의 막 구조가 파괴될 수 있다. 일 실시양태에서, 세포의 파괴로 인해 세포의 세포막이 파괴될 수 있다. 일 실시양태에서, 세포의 파괴로 인해 세포의 핵막이 파괴될 수 있다.
일 실시양태에서, 전술한 세포의 파괴는 세포가 기공을 갖는 다공성의 구조체를 통과함을 통해 달성될 수 있다. 다공성의 구조체는 기공을 갖는 필터 또는 멤브레인일 수 있다. 예를 들어, 세포의 파괴는 세포가 기공을 갖는 필터를 통과하면서 수행될 수 있다. 예를 들어, 세포의 파괴는 세포가 상기 세포의 크기보다 작은 지름을 갖는 기공을 통과함을 통해 수행될 수 있다. 예를 들어, 세포의 파괴는 세포가 상기 세포의 핵의 크기보다 작은 지름을 갖는 기공을 통과함을 통해 수행될 수 있다. 여기서, 세포가 필터를 통과하도록 하는 드라이빙 포스(driving force)는 압력일 수 있다. 구체적으로, 세포가 위치한 영역에 압력이 가해지고, 인가된 압력은 세포가 세포의 크기보다 작은 기공을 통과하도록 한다. 이때 세포가 세포의 크기보다 작은 기공을 통과하면서, 세포는 파괴될 수 있다. 일 실시양태에서, 세포의 파괴는 압출 과정을 통해 수행될 수 있다.
일 실시양태에서, 세포의 파괴, 및 게놈 DNA와 Cas/gRNA 복합체의 접촉은 익스트루더의 사용을 통해 달성될 수 있다. 익스트루더 및 익스트루더의 사용에 대해서는 이후의 기재를 통해 상세히 개시된다.
전술한 기재는 Cas 단백질 및 gRNA 또는 Cas/gRNA 복합체를 통해 예시되었으나, CRISPR/Cas 유전자 편집 시스템이 아닌 다른 유전자 편집 시스템에 사용되는 편집 단백질에 대해서도 충분히 적용될 수 있다.
게놈 DNA와 Cas/gRNA 복합체가 접촉하면, 게놈 DNA의 온 타겟 및 오프 타겟 위치에서 절단(cleavage)이 발생한다. 여기서, 절단은 Cas/gRNA 복합체 (특히, Cas 단백질)에 의해 유도되는 DSB 또는 nick에 의해 달성될 수 있다. 세포의 파괴 과정에서 세포의 DNA 수복 매커니즘이 망가질 수 있으므로, 절단된 DNA는 수복되지 않을 수 있다. 절단된 DNA 또는 절단되지 않은 DNA를 분석함을 통해 오프 타겟이 발생할 수 있는 가능성을 갖는 위치가 분석될 수 있다. 즉, 오프 타겟 (또는 오프 타겟 부위)가 예측되거나 오프 타겟 후보 (또는 후보 오프 타겟 부위)가 확인될 수 있다.
본 출원에 개시된 오프 타겟 예측 방법의 장점
본 출원의 발명자들은 본 출원에 의해 제공되는 오프 타겟 예측 방법에 대하여 상세히 테스트하였다. 본 출원의 오프 타겟 예측 방법을 다른 오프 타겟 예측 방법과 비교하여, 본 출원의 오프 타겟 예측 방법이 다른 오프 타겟 예측 방법보다 좋은 성능을 보임을 확인하였다 (본 출원의 실험예 참조). 본 출원의 오프 타겟 예측 방법은 다른 오프 타겟 예측 방법이 갖지 못하는 다수의 장점을 보여준다. 본 출원의 오프 타겟 예측 방법은 세포 기반 오프 타겟 예측 방법이 갖는 장점과 in vitro 오프 타겟 예측 방법이 갖는 장점을 두루 가질 수 있다.
본 출원의 오프 타겟 예측 방법은 위양성율이 in vitro 오프 타겟 예측 방법보다 적을 수 있다. 예를 들어, in vitro 오프 타겟 예측 방법은 크로마틴 구조와 후생적 변형 (epigenetic modification)과 같은 후생유전학적 특징(epigenetic feature)을 반영하기 어렵기 때문에, 오프 타겟 예측 결과의 위양성(false positive)율이 높다. 진정한 오프 타겟이 아닌 부위를 오프 타겟 후보로 탐지하는 것은 위양성 결과로 표현될 수 있다. 높은 위양성율은 낮은 검증율(validation rate)과 연관될 수 있다. 나아가, 종래의 in vitro 오프 타겟 예측 방법에서는, 세포 특이적일 수 있는 후생 유전학적 특징이 in vitro 오프 타겟 예측 결과에 반영되기 어렵다. 그러나, 본 출원의 오프 타겟 예측 방법에서는 게놈 DNA의 구조를 유지하기 위해, 세포를 화학적 첨가제를 사용하지 않고 물리적으로 파괴하기 때문에, 세포 특이적 환경을 일부 유지할 수 있으므로, 보다 적은 위양성율을 보일 수 있다. 본 출원의 오프 타겟 예측 방법은 높은 검증율(validation rate)를 보일 수 있다. 나아가, 후생 유전학적 특징이 오프 타겟 예측 결과에 반영될 수 있다.
본 출원의 오프 타겟 예측 방법은 미스율(miss rate)이 세포 기반 오프 타겟 예측 방법보다 적을 수 있다. 미스율은 진정한 오프 타겟을 놓치는 것을 의미할 수 있다. 예를 들어, 진정한 오프 타겟 부위를 오프 타겟 후보로 탐지하지 못하는 경우와 같은 거짓 음성(false negative) 결과는 미스율을 높인다. 예를 들어, 세포 기반 예측 방법의 과정에는 DNA 수선 매커니즘이 관여될 수밖에 없고, 이러한 DNA 수선 매커니즘에 의해 수선된 절단 부위는 진정한 오프 타겟 또는 오프 타겟 후보의 확인을 방해한다. 그러나, 본 출원의 오프 타겟 예측 방법에서는 세포가 파괴되기 때문에, DNA 수선 매커니즘이 관여되지 않을 수 있다.
본 출원의 오프 타겟 예측 방법은 세포의 종류에 제한되지 않고 적용될 수 있다. 예를 들어, 세포 기반 예측 방법은 몇몇 세포에서 수행이 어렵고, 실제 임상에서 사용되는 세포에 적용이 어려울 수 있다. 실제 임상에서 사용되는 세포와 관련이 없는 세포를 기초로 오프 타겟 예측을 수행하는 경우, 부정확한 결과를 얻을 수 있다. 예를 들어, 세포의 종류 별로 후생유전학적 특징이 다르므로, 다른 종류의 세포의 사용은 부정확한 결과를 야기할 수 있다. 그러나, 오프 타겟 예측 방법은 세포의 종류에 대한 제한이 없거나 보다 적다.
나아가, 본 출원의 오프 타겟 예측 방법은 세포 기반 예측 방법이나 in vitro 오프 타겟 예측 방법보다 간편하고 보다 적은 비용으로 수행될 수 있다.
전술한 장점은, 본 출원의 오프 타겟 예측 방법이 세포를 물리적으로 파괴함을 포함하기 때문에 발생한 것일 수 있다. 본 출원의 발명자들은 많은 수의 그리고 많은 종류의 실험을 통해 본 출원의 오프 타겟 예측 방법을 테스트하고 검증하였다. 본 출원의 오프 타겟 예측 방법에 대한 장점은 본 출원의 실험예를 통해 확인된다.
일 실시양태에서, 본 출원의 오프 타겟 예측 방법을 통해 확인된 오프 타겟 후보 중 top 10 오프 타겟 후보를 기초로 계산된 검증율은 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95% 또는 100% 이상일 수 있으나, 달리 제한되지 않는다. 일 실시양태에서, 본 출원의 오프 타겟 예측 방법을 통해 확인된 오프 타겟 후보 중 top 10 오프 타겟 후보를 기초로 계산된 검증율은 전술한 값 중 두 값에 의해 형성되는 범위 내일 수 있으나, 달리 제한되지 않는다. 검증율은 오프 타겟 예측 시스템에 사용되는 유전자 편집 도구의 종류 및 세포의 종류 등에 영향을 받을 수 있다.
일 실시양태에서, 본 출원의 오프 타겟 예측 방법의 미스율은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 또는 40% 이하일 수 있으나, 달리 제한되지 않는다. 일 실시양태에서, 본 출원의 오프 타겟 예측 방법의 미스율은 전술한 값 중 선택되는 두 값에 의해 형성되는 범위 내일 수 있으나, 달리 제한되지 않는다. 미스율은 오프 타겟 예측 시스템에 사용되는 유전자 편집 도구의 종류, 및 세포의 종류 등에 영향을 받을 수 있다.
일 실시양태에서, 본 출원의 오프 타겟 예측 방법에 대해 ROC 커브가 (receiver operating characteristic curve) 그려질 수 있다. 일 실시양태에서, 본 출원의 오프 타겟 예측 방법에 대해 ROC 커브의 아래 면적 (area under receiver operating characteristic curve; AUC)이 계산될 수 있다. ROC 커브 및 ROC 커브의 아래 면적은 이진 분류기(binary classifier system)의 진단 능력을 나타낼 수 있는 강력한 도구이다. ROC 커브는, 일반적으로, TPR (True positive rate)와 FPR (false positive rate)를 대응하여 작성되거나, 또는 민감도 (sensitivity)와 특이도 (specificity)를 대응하여 작성될 수 있다. 예를 들어, TPR (true positive rate)는 y축에 도시되고, FPR(false positive rate)은 x 축에 도시되어 ROC 커브가 작성될 수 있다. 예를 들어, 민감도(sensitivity)는 y 축에 도시되고, 특이도(specificity)는 x 축에 도시되어 ROC 커브가 작성될 수 있다. ROC 커브의 아래 면적이 1에 가까울수록 (즉, AUC의 넓이가 넓을수록) 성능이 좋은 모델임을 나타낸다. 일 실시양태에서, 본 출원의 오프 타겟 예측 방법에 대한 ROC 커브의 아래 면적이 계산될 수 있고, 이때 ROC 커브의 아래 면적은 약 0.4, 0.42, 0.44, 0.46, 0.48, 0.5, 0.52, 0.54, 0.56, 0.58, 0.6, 0.62, 0.64, 0.66, 0.68, 0.7, 0.72, 0.74, 0.75, 0.76, 0.77, 0.78, 0.79, 0.8, 0.81, 0.82, 0.83, 0.84, 0.85, 0.86, 0.87, 0.88, 0.89, 0.9, 0.91, 0.92, 0.93, 0.94, 0.95, 0.96, 0.97, 0.98, 0.99 이상 또는 1 일 수 있으나, 이에 제한되지 않는다. 일 실시양태에서, 본 출원의 오프 타겟 예측 방법에 대해 계산된 ROC 커브의 아래 면적은 전술한 값 중 선택되는 두 값의 범위 내일 수 있으나, 달리 제한되지 않는다. ROC 커브의 아래 면적은 오프 타겟 예측 시스템에 사용되는 유전자 편집 도구, 및 세포의 종류 등에 영향을 받을 수 있다.
전술한 바와 같이, 본 출원의 오프 타겟 예측 방법은 분석 대상 조성물의 획득과 분석 대상 조성물의 분석을 포함한다. 전술한 두 과정 외에도 추가적인 과정이 더 포함될 수 있음은 통상의 기술자에게 명백할 것이다. 이하에서, 분석 대상 조성물의 수득에 대하여 상세히 개시한다.
분석 대상 조성물의 수득
본 출원의 오프 타겟 예측 방법은 분석 대상 조성물을 얻음의 과정을 포함할 수 있다. 여기서, 분석 대상 조성물은 절단된 DNA 및/또는 절단되지 않은 DNA를 포함하는 조성물을 지칭할 수 있다. 분석 대상 조성물을 수득하고, 분석 대상 조성물을 분석 (예를 들어, 분석 대상 조성물에 포함된 절단된 DNA를 분석)함을 포함하는 방법을 통해 본 출원의 오프 타겟 예측 방법이 달성될 수 있다. 절단된 DNA를 포함하는 분석 대상 조성물을 얻기 위해서는, 게놈 DNA와 Cas 단백질 및 gRNA (또는 Cas/gRNA 복합체)가 접촉하여야 한다. Cas/gRNA 복합체는 게놈 DNA와 접촉하여 온 타겟 및/또는 오프 타겟 부위를 절단한다. Cas/gRNA 복합체와 게놈 DNA의 접촉을 달성하기 위해서, 세포가 파괴될 수 있다. 즉, 게놈 DNA와 Cas/gRNA 복합체가 접촉할 수 있는 환경은, 세포의 파괴(예를 들어, 세포의 막 구조의 파괴)에 의해 제공될 수 있다.
분석 대상 조성물을 얻기 위한 중요한 과정 중 하나는, 세포를 물리적으로 파괴하는 것이다. 일 실시양태에서, 세포는 물리적인 방법을 통해 파괴될 수 있다. 일 실시양태에서, 세포는 물리적으로 파괴될 수 있다. 일 실시양태에서, 세포는 물리적인 힘을 통해 파괴될 수 있다. 일 실시양태에서, 분석 대상 조성물은 출발 조성물(starting composition)로부터 세포를 파괴함을 통해 수득될 수 있다. 특정한 실시양태에서, 출발 조성물은 세포를 포함할 수 있다. 특정한 실시양태에서, 출발 조성물은 세포 및 유전자 편집 도구(예를 들어, Cas 단백질 및 gRNA)를 포함할 수 있다.
이하에서, 본 출원의 오프 타겟 예측 방법의 주요한 특징 중 하나인, 세포의 물리적 파괴에 대하여 하기에서 보다 상세히 개시한다.
세포의 물리적 파괴
세포의 물리적 파괴 개괄
전술한 바와 같이, 본 출원의 일 실시양태에 따른 오프 타겟 예측 방법은 세포를 물리적으로 파괴하는 과정을 포함할 수 있다. 여기서, 주목해야 하는 점은, 게놈 DNA 또는 게놈 DNA 구조 (예를 들어, 크로마틴의 구조 등)의 손상을 유발할 수 있는 화학적 첨가제를, 세포를 파괴하는 주 용도로 사용하지 않는 것이다. 일 실시양태에서, 세포의 물리적 파괴는, 세포가 세포의 크기보다 작은 기공을 갖는 다공성의 구조를 통과하도록 하여 수행될 수 있다. 일 실시양태에서, 다공성의 구조는 기공을 갖는 필터일 수 있다. 이하에서, 세포가 세포의 크기보다 작은 기공을 갖는 다공성의 구조를 통과하도록 하여 수행되는 세포의 물리적 파괴 과정에 대하여 상세히 개시한다.
기공을 갖는 필터 및 압력을 이용한 세포의 파괴
일 실시양태에서, 세포의 물리적 파괴는, 세포가 세포의 크기보다 작은 기공을 갖는 필터를 통과하도록 함을 포함하는 방법에 의해 수행될 수 있다. 이때, 세포가 필터를 통과하도록 하는 힘은 압력일 수 있다.
예를 들어, 세포를 포함하는 제1 조성물이 위치하는 제1 수용부에 압력이 인가될 수 있다. 이때, 인가된 압력은, 세포가 세포의 크기보다 작은 기공을 갖는 필터를 통과하면서 파괴되도록 한다. 즉, 세포가 필터를 통과하게 하도록 하는 드라이빙 포스는 압력일 수 있다. 압력이 제1 수용부 또는 제1 조성물에 인가되면, 제1 수용부 내의 혼합 용액 및 포함된 요소(예를 들어, 세포)가 필터의 기공을 통해 제1 수용부로부터 빠져나갈 수 있다. 이러한 과정에서, 세포는 세포의 크기보다 작은 기공에 의해 파괴될 수 있다.
일 실시양태에서, 세포막은 세포의 크기보다 작은 기공에 의해 파괴될 수 있다. 일 실시양태에서, 세포막 및 핵막은 세포의 크기보다 작은 기공에 의해 파괴될 수 있다.
복수의 세포에 대해 기술되는 경우, 복수의 세포 중 일부 또는 전부의 세포는 세포의 크기보다 작은 기공을 통과하는 과정에서 파괴될 수 있다. 복수의 세포 중 파괴되지 않은 일부의 세포는 세포의 크기보다 큰 기공을 통과하여 파괴되지 않을 수 있거나, 세포의 크기보다 작은 기공을 통과하더라도 파괴되지 않을 수 있다.
일 실시양태에서, 제1 수용부에 위치하는 제1 조성물은 유전자 편집 시스템에 사용되는 도구 (예를 들어, 유전자 편집 도구)를 더 포함할 수 있다. 예를 들어, 제1 수용부에 위치하는 제1 조성물은 Cas 단백질 및 gRNA를 더 포함할 수 있다. 제1 수용부에 압력이 인가되면, 세포가 파괴되면서 파괴된 세포의 요소가 제2 수용부로 이동함과 함께 Cas 단백질 및 gRNA가 기공을 통해 제2 수용부로 이동할 수 있다. 필터를 기준으로 제1 수용부와 반대편에 위치하는 제2 수용부에서는 Cas 단백질 및 gRNA (또는 Cas/gRNA 복합체)와 세포의 게놈 DNA가 접촉할 수 있다. 이때, Cas/gRNA 및 게놈 DNA의 접촉은 새로이 생성된 베지클(vesicle, 예를 들어, 리포좀) 내에서 수행될 수 있거나, 및/또는 베지클 내부가 아닌 베지클 외부 환경에서 수행될 수 있고, 달리 제한되지 않는다.
다른 실시양태에서, 제1 수용부에 위치하는 제1 조성물은 세포를 포함하고, 필터를 기준으로 제1 수용부와 반대편에 위치하는 제2 수용부는 유전자 편집 시스템에 사용되는 도구를 포함할 수 있다. 예를 들어, 제1 수용부에 압력을 인가하면, 세포가 파괴되면서 파괴된 세포의 요소가 유전자 편집 도구들이 존재하는 제2 수용부로 이동한다. 이를 통해, 제2 수용부에서 유전자 편집 도구 (예를 들어, Cas 단백질 및 gRNA)가 세포로부터 유래된 DNA 분자와 접촉할 수 있다.
제2 수용부에서, 유전자 편집 도구와 DNA 분자의 접촉이 달성되면, 유전자 편집 도구에 의해 DNA 분자 (예를 들어, 게놈 DNA)가 절단될 수 있는 환경이 만들어진다.
기공을 갖는 필터
전술한 바와 같이, 기공을 갖는 다공성의 구조를 세포가 통과하게 함으로써, 세포의 파괴가 달성될 수 있다.
일 실시양태에서, 다공성의 구조는 기공을 갖는 필터일 수 있다. 일 실시양태에서, 필터는 폴리카보네이트 (polycarbonate), 셀룰로오스, 혼합된 셀룰로오스 에스터 (mixed cellulose esters membrane), 글래스, 폴리에터설폰(polyethersulfone), 나일론, PTFE(polytetrafluoroethylene), 및 PVDF 중 어느 하나, 또는 이들의 조합으로 구성된 필터일 수 있으나, 달리 제한되지 않고, 바이오 및/또는 화학 분야에서 통상적으로 사용되는 필터일 수 있다. 특정한 실시양태에서, 필터는 폴리카보네이트 맴브레인 필터일 수 있으나 달리 제한되지 않는다.
일 실시양태에서, 필터는 세포의 크기보다 작은 지름의 기공을 포함할 수 있다. 일 실시양태에서, 필터는 세포의 평균 크기보다 작은 지름을 갖는 기공을 포함할 수 있다. 일 실시양태에서, 필터는 세포의 핵의 크기보다 작은 지름의 기공을 포함할 수 있다. 일 실시양태에서, 필터는 세포의 핵의 평균 크기보다 작은 지름을 갖는 기공을 포함할 수 있다. 필터는 세포의 종류에 따라 적절히 디자인될 수 있다. 일 실시양태에서, 필터에 포함된 기공의 평균 지름은 세포의 크기(예를 들어, 세포의 지름)보다 작을 수 있다. 일 실시양태에서, 필터에 포함된 기공의 평균 지름은 세포의 핵의 크기 (예를 들어, 세포의 핵의 지름)보다 작을 수 있다.
일 실시양태에서, 필터는 약 0.1μm, 0.2μm, 0.3μm, 0.4μm, 0.5μm, 0.6μm, 0.7μm, 0.8μm, 0.9μm, 1μm, 1.5μm, 2μm, 2.5μm, 3μm, 3.5μm, 4μm, 4.54μm, 5μm, 5.5μm, 6μm, 6.5μm, 7μm, 7.5μm, 8μm, 8.5μm, 9μm, 9.5μm, 10μm, 11μm, 12μm, 13μm, 14μm, 15μm, 16μm, 17μm, 18μm, 19μm, 20μm, 21μm, 22μm, 23μm, 24μm, 25μm, 26μm, 27μm, 28μm, 29μm, 30μm, 31μm, 32μm, 33μm, 34μm, 35μm, 36μm, 37μm, 38μm, 39μm, 40μm, 41μm, 42μm, 43μm, 44μm, 45μm, 46μm, 47μm, 48μm, 49μm, 50μm, 51μm, 52μm, 53μm, 54μm, 55μm, 56μm, 57μm, 58μm, 59μm, 60μm, 61μm, 62μm, 63μm, 64μm, 65μm, 66μm, 67μm, 68μm, 69μm, 70μm, 71μm, 72μm, 73μm, 74μm, 75μm, 76μm, 77μm, 78μm, 79μm, 80μm, 81μm, 82μm, 83μm, 84μm, 85μm, 86μm, 87μm, 88μm, 89μm, 90μm, 91μm, 92μm, 93μm, 94μm, 95μm, 96μm, 97μm, 98μm, 99μm, 및 100μm 중 어느 하나의 지름을 갖는 기공을 포함할 수 있다. 일 실시양태에서, 필터는 전술한 값 중 어느 하나의 값 이하의 지름을 갖는 기공을 포함할 수 있다.
일 실시양태에서, 필터에 포함된 기공의 평균 지름은 약 0.1μm, 0.2μm, 0.3μm, 0.4μm, 0.5μm, 0.6μm, 0.7μm, 0.8μm, 0.9μm, 1μm, 1.5μm, 2μm, 2.5μm, 3μm, 3.5μm, 4μm, 4.54μm, 5μm, 5.5μm, 6μm, 6.5μm, 7μm, 7.5μm, 8μm, 8.5μm, 9μm, 9.5μm, 10μm, 11μm, 12μm, 13μm, 14μm, 15μm, 16μm, 17μm, 18μm, 19μm, 20μm, 21μm, 22μm, 23μm, 24μm, 25μm, 26μm, 27μm, 28μm, 29μm, 30μm, 31μm, 32μm, 33μm, 34μm, 35μm, 36μm, 37μm, 38μm, 39μm, 40μm, 41μm, 42μm, 43μm, 44μm, 45μm, 46μm, 47μm, 48μm, 49μm, 50μm, 51μm, 52μm, 53μm, 54μm, 55μm, 56μm, 57μm, 58μm, 59μm, 60μm, 61μm, 62μm, 63μm, 64μm, 65μm, 66μm, 67μm, 68μm, 69μm, 70μm, 71μm, 72μm, 73μm, 74μm, 75μm, 76μm, 77μm, 78μm, 79μm, 80μm, 81μm, 82μm, 83μm, 84μm, 85μm, 86μm, 87μm, 88μm, 89μm, 90μm, 91μm, 92μm, 93μm, 94μm, 95μm, 96μm, 97μm, 98μm, 99μm, 및 100μm 중에서 선택된 어느 하나 이거나, 전술한 값 중 어느 하나의 값 이하일 수 있다. 특정한 실시양태에서, 필터에 포함된 기공의 평균 지름은 약 5μm, 6μm, 7μm, 8μm, 9μm, 10μm, 11μm, 12μm, 13μm, 14μm, 또는 15μm 일 수 있다. 특정한 실시양태에서, 필터에 포함된 기공의 평균 지름은 5μm, 6μm, 7μm, 8μm, 9μm, 10μm, 11μm, 12μm, 13μm, 14μm, 또는 15μm 이하일 수 있다.
일 실시양태에서, 필터의 기공의 평균 지름은 0.1μm, 0.2μm, 0.3μm, 0.4μm, 0.5μm, 0.6μm, 0.7μm, 0.8μm, 0.9μm, 1μm, 1.5μm, 2μm, 2.5μm, 3μm, 3.5μm, 4μm, 4.54μm, 5μm, 5.5μm, 6μm, 6.5μm, 7μm, 7.5μm, 8μm, 8.5μm, 9μm, 9.5μm, 10μm, 11μm, 12μm, 13μm, 14μm, 15μm, 16μm, 17μm, 18μm, 19μm, 20μm, 21μm, 22μm, 23μm, 24μm, 25μm, 26μm, 27μm, 28μm, 29μm, 30μm, 31μm, 32μm, 33μm, 34μm, 35μm, 36μm, 37μm, 38μm, 39μm, 40μm, 41μm, 42μm, 43μm, 44μm, 45μm, 46μm, 47μm, 48μm, 49μm, 50μm, 51μm, 52μm, 53μm, 54μm, 55μm, 56μm, 57μm, 58μm, 59μm, 60μm, 61μm, 62μm, 63μm, 64μm, 65μm, 66μm, 67μm, 68μm, 69μm, 70μm, 71μm, 72μm, 73μm, 74μm, 75μm, 76μm, 77μm, 78μm, 79μm, 80μm, 81μm, 82μm, 83μm, 84μm, 85μm, 86μm, 87μm, 88μm, 89μm, 90μm, 91μm, 92μm, 93μm, 94μm, 95μm, 96μm, 97μm, 98μm, 99μm, 및 100μm 중에서 선택된 두 값의 범위 내일 수 있다.
일부 실시양태에서, 세포의 물리적 파괴를 달성하기 위하여, 하나 또는 그 이상의 필터가 사용될 수 있다. 예를 들어, 하나의 필터가 사용될 수 있고, 예를 들어, 제1의 평균 지름의 기공을 포함하는 제1 필터가 사용될 수 있다. 다른 예로, 복수의 필터가 사용될 수 있고, 예를 들어, 제1 평균 지름의 기공을 포함하는 제1 필터가 1차적으로 사용되고, 제2 평균 지름의 기공을 포함하는 제2 필터 (즉, 제1 필터의 기공 프로파일과는 다른 기공 프로파일을 갖는 필터)가 2차적으로 사용될 수 있다. 세포의 물리적 파괴를 달성하기 위해 사용될 수 있는 필터의 종류 및 필터의 개수는 달리 제한되지 않는다.
압력
전술한 바와 같이, 세포가 세포의 크기보다 작은 기공을 통과하기 위해서는, 세포가 위치하는 영역에 힘이 인가되어야 한다.
세포가 기공을 통과 (예를 들어, 파괴되면서 통과)하도록 하는 힘은 압력일 수 있다. 즉, 세포가 위치하는 영역 (예를 들어, 세포를 포함하는 수용부)에 압력이 인가되면, 세포는 세포의 크기보다 작은 크기의 기공을 파괴되면서 통과할 수 있게 된다. 여기서, 압력은 다양한 방법에 의해 인가될 수 있으며, 달리 제한되지 않는다.
일 실시양태에서, 압력의 인가는 사람에 의해 수행될 수 있다. 예를 들어, 압력은 세포를 포함하는 수용부에 압력을 가할 수 있도록 디자인된 피스톤을 밀어줌을 통해 인가될 수 있다. 일 실시양태에서, 압력의 인가는 기계 또는 장치에 의해 달성될 수 있다. 예를 들어, 압력은 세포를 포함하는 수용부에 압력을 가할 수 있도록 디자인된 피스톤을 기계를 통해 밀어줌을 통해 인가될 수 있다. 다른 예로, 압력의 인가는 원심분리에 의해 달성될 수 있다. 일 실시양태에서, 압력은 원심력 또는 삼투압일 수 있다. 인가되는 힘 (예를 들어, 압력)의 크기 또는 세기는 달리 제한되지 않는다. 예를 들어, 세포가 기공 및/또는 필터를 통과하는 것을 달성할 수 있는 최소한의 힘 또는 압력, 또는 그 이상의 세기의 힘 또는 압력이 인가될 수 있다.
일 실시양태에서, 세포의 파괴는 익스트루더를 사용하여 달성될 수 있다. 이하에서, 익스트루더를 사용하여 세포를 파괴하는 방법에 대하여 상세히 개시한다.
익스트루더를 사용하여 세포를 파괴하는 방법
익스트루더 개괄
본 명세서에서, 익스트루더(extruder)는 수용부 및 기공을 갖는 다공성의 구조를 포함하고, 수용부에 힘을 가하여, 수용부에 로딩된 조성물이 기공을 갖는 다공성의 구조를 통과할 수 있도록 디자인된 도구 또는 기계를 지칭하는 것일 수 있다. 바이오 및 화학 분야에서 사용되는 익스트루더의 예로는, Avanti 사의 mini-extruder가 있다. mini-extruder는 두개의 주사기에 포함된 두개의 수용부를 가지며, 두개의 수용부 사이에 위치한 기공을 갖는 필터 (또는 맴브레인)을 포함한다. 본 출원의 발명자들은, 이러한 익스트루더의 구조가 세포를 물리적으로 파괴하는데 적합하다는 것을 발견하고 이를 세포를 파괴하는데 사용하였다. Avanti 사의 mini extruder에 대한 위의 개시는, 통상의 기술자의 이해를 돕기 위한 예시이며, 본 명세서에서 개시하는 익스트루더는 위 mini-extruder에 제한되지 않고, 적어도 하나의 수용부 및 다공성의 구조체(필터 또는 맴브레인)를 포함하고, 세포의 파괴를 달성할 수 있도록 하는 도구 또는 기계를 포괄하는 것으로 인식될 수 있다.
일 실시양태에서, 용어 '익스트루젼(extrusion)'은 수용부에 위치한 요소를 압력을 이용하여 다공성의 구조 (필터 또는 맴브레인)을 통과하도록 하는 일련의 과정을 포함하는 것으로 인식될 수 있다. 예를 들어, 세포를 포함하는 조성물이 위치한 제1 수용부에 압력을 인가하고, 압력에 의해 세포가 파괴되면서 필터를 통과하도록 하는 과정은 익스트루젼의 한 예시이다. 다른 예로, Cas 단백질 및/또는 gRNA이, 압력에 의해, 제1 수용부로부터 필터를 통과하여 제1 수용부가 아닌 다른 영역(예를 들어, 제2 수용부)로 이동하도록 하는 과정은 익스트루젼의 한 예시이다.
일 실시양태에서, 익스트루더는 필터를 한번 통과할 수 있도록 디자인된 일방향 익스트루더일 수 있으나, 이에 제한되지 않는다. 일 실시양태에서, 익스트루더는 필터를 다회 통과할 수 있도록 디자인된 양방향 익스트루더일 수 있으나, 이에 제한되지 않는다. 양방향 익스트루더는 적어도 2개의 수용부 및 상기 2개의 수용부 사이에 위치한 필터를 포함할 수 있다. 예를 들어, 전술한 avanti 사의 mini-extruder는 양방향 익스트루더일 수 있다. 일 실시양태에서, 양방향 익스트루더를 사용하는 경우, 필터를 다회 통과함으로 인해 세포의 파괴율이 높아질 수 있으나, 달리 제한되지 않는다.
이하에서는, 전술한 익스트루더를 사용하여, 세포를 파괴하는 과정을 포함하는 유전자 편집 도구와 DNA 분자가 접촉 가능한 환경을 조성하는 방법에 대하여 보다 상세히 개시한다.
익스트루더를 통한 세포의 파괴
본 출원의 오프 타겟을 예측하는 방법은 익스트루더의 사용을 포함할 수 있다. 예를 들어, 제1 수용부, 제2 수용부, 및 필터를 포함하는 익스트루더가 사용될 수 있다. 이때 필터는 상기 제1 수용부와 제2 수용부 사이에 위치할 수 있다. 이하에서, 제1 수용부, 제2 수용부, 및 필터를 포함하는 익스트루더의 사용의 예시를 개시한다.
일 실시양태에서, 제1 수용부에 세포, Cas 단백질, 및 gRNA를 포함하는 출발 조성물이 로딩될 수 있다. 상기 출발 조성물이 위치한 제1 수용부에 압력이 인가될 수 있다. 예를 들어, 압력의 인가는 상기 제1 수용부에 압력을 인가할 수 있도록 디자인된, 상기 제1 수용부에 연결된 피스톤을 밀어줌으로써 수행될 수 있다. 즉, 제1 수용부에 연결된 피스톤을 제1 수용부와 필터의 방향으로 밀어, 제1 수용부에 압력을 가할 수 있다. 일 실시양태에서, 출발 조성물의 요소 (세포, Cas 단백질, 및 gRNA를 포함하는 요소)를 제2 수용부로 이동시키기 위해 압력이 인가될 수 있다.
제1 수용부에 압력이 인가되면, 출발 조성물에 포함된 요소는 기공을 갖는 필터를 통과하여 제2 수용부로 이동될 수 있다. 여기서, 기공의 크기보다 큰 크기의 세포는 필터를 통과하면서 파괴될 수 있다. 전술한 바와 같이, 세포의 파괴는 세포 막의 파괴일 수 있거나, 세포막 및 핵막의 파괴일 수 있다. 결국, 제2 수용부에 파괴된 세포로부터 얻어진 요소, Cas 단백질 및 gRNA를 포함하는 혼합액이 안착될 수 있다. 이러한 과정에서, Cas/gRNA 복합체는 파괴된 세포로부터 얻어진 요소 중 하나인 DNA (예를 들어, 게놈 DNA)와 접촉한다. 나아가, 제2 수용부에 안착된 혼합액은, 파괴되지 않은 세포를 포함하거나, 포함하지 않을 수 있다.
이후, 선택적으로, 혼합액이 위치한 제2 수용부에 압력을 인가하여, 혼합액의 요소들이 제1 수용부로 (필터를 거쳐) 이동하도록 할 수 있다. 이로써, 제1 수용부에 혼합액이 안착될 수 있다. 이후, 선택적으로, 혼합액이 위치한 제1 수용부에 압력을 인가할 수 있고, 혼합액의 요소들이 제2 수용부로 (필터를 거쳐) 이동하도록 할 수 있다. 이와 같이, 익스트루더에 로딩된 조성물의 요소 또는 조성물로부터 유래된 요소들이 익스트루더의 필터를 수회 통과하도록 익스트루더가 사용될 수 있다. 이러한 필터의 수회 통과는 세포의 파괴율을 높이거나, 및/또는 Cas/gRNA 복합체와 게놈 DNA의 접촉율을 증가시킬 수 있다.
일 실시양태에서, 익스트루젼은 n회 수행될 수 있다. 일 실시양태에서, 필터의 통과는 n회 수행될 수 있다. 이때 n은 정수일 수 있다. 이때 n은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 또는 100일 수 있으나, 이에 제한되지 않는다. 일 실시양태에서, n은 전술한 값 중 어느 하나 이하일 수 있다. 일 실시양태에서, n은 전술한 값 중 어느 하나 이상일 수 있다. 일 실시양태에서, n은 전술한 값 중 어느 두 값에 의해 설정된 범위 내일 수 있다.
익스트루더의 사용을 포함하는 과정을 통해 분석 대상 조성물이 수득될 수 있다. 일 실시양태에서, 익스트루젼 과정 이후 인큐베이션, RNA 제거, 및 DNA 정제 중 어느 하나 이상의 과정이 추가로 더 수행될 수 있다.
일 실시양태에서, 익스트루젼 과정 이후 절단율을 축적하기 위한 인큐베이션 과정이 수행될 수 있다. 즉, 세포의 파괴 과정 수행 이후, 파괴된 세포 요소를 포함하는 조성물을 인큐베이션하는 과정이 추가로 수행될 수 있다. 예를 들어, 인큐베이션 시간은 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 26, 28, 30, 32, 36, 38, 40, 42, 44, 46, 또는 48시간, 혹은 전술한 값 이상일 수 있으나, 달리 제한되지 않는다. 예를 들어, 익스트루젼 과정이 완료되고, 인큐베이션(예를 들어, 37°C에서의 인큐베이션) 및 RNA 제거 과정을 거쳐, 최종적으로 분석 대상 조성물이 수득될 수 있다. 여기서, 분석 대상 조성물은 이후 수행할 분석 공정에 사용될 조성물이다. 이 때, 예를 들어, 분석 대상 조성물에 포함된 DNA는 분석(예를 들어, 시퀀싱)에 적합한 DNA일 수 있다. 예를 들어, 분석 대상 조성물은 절단된 DNA를 포함할 수 있다. 분석 대상 조성물은 절단된 DNA에 더하여 절단되지 않은 DNA를 포함할 수 있다. 절단된 DNA의 형성 과정은 상세히 전술되었다. 예를 들어, Cas/gRNA 복합체가 DNA(예를 들어, 게놈 DNA)와 접촉하고, Cas/gRNA 복합체에 의해 유도된 DSB 또는 nick을 통해 DNA가 절단될 수 있다.
분석 대상 조성물의 분석
분석 대상 조성물
전술한 바와 같이, 본 출원의 일 실시양태에 따른, 유전자 편집 도구 (예를 들어, Cas/gRNA 복합체)와 게놈 DNA를 접촉함을 포함하는 방법에 의해 분석 대상 조성물이 얻어질 수 있다. 일 실시양태에서, 분석 대상 조성물은 절단된 게놈 DNA를 포함할 수 있다. 일 실시양태에서, 분석 대상 조성물은 하나 이상의 절단된 DNA (예를 들어, 이중 가닥 DNA 또는 단일 가닥 DNA)를 포함할 수 있다. 일 실시양태에서, 절단된 게놈 DNA는 하나 이상의 절단 부위(cleavage site)에서 발생한 하나 이상의 절단을 포함할 수 있다. 예를 들어, 전술한 바와 같이, 하나 이상의 절단은 게놈 DNA와 접촉한 Cas/gRNA 복합체에 의해 유도된 DSB 또는 nick에 의해 발생할 수 있다. 일 실시양태에서, 절단 부위는 오프 타겟 부위(off-target site) 또는 온타겟 부위(on-target site)와 연관될 수 있다. 일 실시양태에서, 절단 부위는 오프 타겟 부위 또는 온타겟 부위일 수 있다. 즉, 절단은 게놈 DNA와 접촉한 Cas/gRNA 복합체에 의해, 오프 타겟 위치 또는 온 타겟 위치에서 유도된(또는 발생된) DSB 또는 nick에 의해 발생될 수 있다.
일 실시양태에서, 분석 대상 조성물은 in vitro 오프 타겟 예측 시스템의 장점을 반영할 수 있다. 예를 들어, 분석 대상 조성물에 포함된 절단된 게놈 DNA는 수선된 게놈 DNA가 아닐 수 있다. DNA 수복 매커니즘의 일부 또는 전부가 불활성화 되었기 때문이다.
일 실시양태에서, 분석 대상 조성물은 세포 기반 오프 타겟 예측 시스템의 장점을 반영할 수 있다. 예를 들어, 분석 대상 조성물에 포함된 절단된 게놈 DNA는 세포-특이적 후생유전학적 특징을 반영할 수 있다.
분석 대상 조성물을 얻으면, 상기 분석 대상 조성물을 분석하여 게놈 DNA의 절단에 대한 정보를 얻을 수 있다. 이를 통해, 유전자 편집 시스템의 사용에서 발생 가능한 오프 타겟 후보에 대한 정보를 얻을 수 있다. 오프 타겟 후보에 대한 정보는 오프 타겟을 예측하는 데 활용될 수 있다. 즉, 유전자 편집 시스템 (예를 들어, CRISPR/Cas 유전자 편집 시스템)의 사용에서 발생 가능한 오프 타겟이 예측될 수 있다.
이하에서, 상기 분석 대상 조성물을 분석하여 오프 타겟 후보에 대한 정보를 수득하는 방법에 대하여 개시한다.
분석 대상 조성물의 분석 개괄
전술한 바와 같이, 본 출원의 방법은 상기 수득한, 절단된 게놈 DNA를 포함하는 분석 대상 조성물을 분석함을 포함한다. 분석 대상 조성물을 분석하여, 게놈 DNA의 절단에 대한 정보 (예를 들어, 하나 이상의 절단 위치에 대한 정보 및/또는 하나 이상의 절단 위치에 대한 절단 점수 등)을 얻을 수 있다. 게놈 DNA의 절단에 대한 정보를 바탕으로 오프 타겟 후보에 대한 정보(예를 들어, 하나 이상의 오프 타겟에 대한 정보 및/또는 하나 이상의 오프 타겟에 대한 점수)를 얻을 수 있다.
분석 대상 조성물의 분석 및 게놈 DNA의 절단에 대한 정보의 수득
일 실시양태에서, 게놈 DNA의 절단에 대한 정보는 분석 대상 조성물에 포함된 DNA(예를 들어, 절단된 및/또는 절단되지 않은 게놈 DNA)를 분석함을 통해 얻어질 수 있다. 일 실시양태에서, 게놈 DNA의 절단에 대한 정보는 분석 대상 조성물에 포함된 절단된 DNA를 분석함을 통해 얻어질 수 있다. 일 실시양태에서, 게놈 DNA의 절단에 대한 정보는 하나 이상의 절단 부위(cleavage site)를 분석함을 통해 얻어질 수 있다. 이 때, 절단된 DNA의 절단 부위를 확인할 수 있는 분석 방법은 달리 제한되지 않는다. 예를 들어, 절단된 DNA의 절단 부위를 확인할 수 있는 분석 방법이면 본 출원의 오프 타겟 예측 방법에 충분히 이용될 수 있다.
일 실시양태에서, DNA의 분석은 통상의 기술자에게 잘 알려진 DNA 분석 방법을 통해 분석될 수 있다. 일 실시양태에서, DNA의 분석은 PCR 기반 분석 (문헌 [Cameron, Peter, et al. "Mapping the genomic landscape of CRISPR-Cas9 cleavage." Nature methods 14.6 (2017): 600-606.] 참조) 및 시퀀싱 (sequencing) (문헌 [Metzker, Michael L. "Sequencing technologies-the next generation." Nature reviews genetics 11.1 (2010): 31-46.; 및 Kumar, Kishore R., Mark J. Cowley, and Ryan L. Davis. "Next-generation sequencing and emerging technologies." Seminars in thrombosis and hemostasis. Vol. 45. No. 07. Thieme Medical Publishers, 2019.] 참조) (예를 들어, DNA 시퀀싱) 중 선택되는 어느 하나 이상에 의해 수행될 수 있다.
예를 들어, 시퀀싱은 전체 게놈 시퀀싱(whole-genome sequencing; WGS), 딥 시퀀싱(deep sequencing), 고처리 시퀀싱(High-throughput sequencing; HTS), de-novo 시퀀싱 (de-novo sequencing), 2세대 시퀀싱 (second-generation sequencing), 차세대 시퀀싱(next-generation sequencing), 3세대 시퀀싱 (third generation sequencing), 대용량 시퀀싱(Large-scale sequencing), 샷건 시퀀싱(shotgun sequencing), 롱리드 시퀀싱 (long-read sequencing), 및 숏리드 시퀀싱(short-read sequencing) 중 어느 하나 이상으로 지칭되는 시퀀싱 방법이 사용될 수 있으나, 달리 제한되지 않는다.
일 실시양태에서, 분석 대상 조성물의 분석에 사용되는 시퀀싱 방법의 시퀀싱 깊이 (sequencing depth)는 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42, 44, 46, 48, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 200, 300, 400, 500, 600, 700, 800, 900, 또는 1000x 일 수 있다. 일 실시양태에서, 시퀀싱 깊이는 전술한 값 중에 선택되는 두 값의 범위일 수 있다. 일 실시양태에서, 시퀀싱 깊이는 전술한 값 이하이거나, 또는 이상일 수 있다. 특정한 실시양태에서, 분석에 사용되는 시퀀싱의 시퀀싱 깊이는 약 10 내지 40x일 수 있다. 시퀀싱 깊이는 달리 제한되지 않고, DNA의 절단 위치를 확인할 수 있을 정도의 시퀀싱 깊이이면 충분하다.
DNA의 절단에 대한 정보
일 실시양태에서, DNA의 절단에 대한 정보(예를 들어, 게놈 DNA의 절단 부위에 대한 정보)는 분석 대상 조성물을 분석함을 통해 수득될 수 있다.
일 실시양태에서, DNA의 절단에 대한 정보는 하나 이상의 절단 부위(cleavage site)에 대한 정보를 포함할 수 있다. 이때, 상기 절단 부위는 유전자 편집 도구에 의해 발생된 것일 수 있다.
일 실시양태에서, DNA의 절단에 대한 정보는 하나 이상의 절단 부위(cleavage site)에 대한 게놈 DNA 상에서의 위치(location)에 대한 정보를 포함할 수 있다. 예를 들어, DNA의 절단에 대한 정보는 분석 대상 조성물에 포함된 절단된 DNA에 존재하는 모든 절단 부위에 대한 각 절단 부위의 게놈 DNA 상에서의 위치 정보를 포함할 수 있다. 예를 들어, DNA의 절단에 대한 정보는 분석 대상 조성물의 절단된 DNA에 존재하는 하나 이상의 절단 부위에 대한 각 절단 부위의 게놈 DNA 상에서의 위치 정보를 포함할 수 있다. 즉, 분석을 통해 절단 부위 전체의 위치 정보 또는 절단 부위 일부에 대한 위치 정보가 수득될 수 있다. 이렇게 수득된 위치 정보는 오프 타겟 후보 및/또는 온타겟의 부위와 연관될 수 있다. 예를 들어, 확인된 절단 부위에 대한 위치 정보와 미리 결정된 온타겟 부위를 비교하여, 절단 부위가 오프 타겟 후보와 연관되는지 또는 온타겟과 연관되는지가 판단될 수 있다.
일 실시양태에서, DNA의 절단에 대한 정보는 하나 이상의 절단 부위에 대한 절단 점수(cleavage score)를 포함할 수 있다. 예를 들어, DNA 절단에 대한 정보는 분석 대상 조성물에 포함된 절단된 DNA에 존재하는 모든 절단 부위에 대한 각 절단 부위의 절단 점수를 포함할 수 있다. 예를 들어, DNA 절단에 대한 정보는 분석 대상 조성물의 절단된 DNA에 존재하는 하나 이상의 절단 부위에 대한 각 절단 부위의 절단 점수를 포함할 수 있다. 즉, 분석을 통해 절단 부위 전체에 대한 절단 점수 또는 절단 부위 일부에 대한 점수가 수득될 수 있다. 일 실시양태에서, 절단 점수는 시퀀스 리드(sequence reads)를 통해 계산될 수 있다. 일 실시양태에서, 절단 점수는 맨하탄 플롯 (manhattan plot) 결과를 통해 계산될 수 있다. 절단 점수의 계산 매커니즘은 달리 제한되지 않으며, 어떠한 분석 방법을 이용하느냐에 따라 적절히 선택될 수 있다. 일 실시양태에서, 절단 점수를 기초로 절단 랭크(cleavage rank)가 계산될 수 있다. 예를 들어, 높은 절단 점수를 보이는 절단 부위는 보다 상위에 랭크될 수 있다. 예를 들어, 가장 높은 절단 점수를 보이는 절단 부위는 1위에 랭크될 수 있다. 일 실시양태에서, 절단 점수는 대응되는 절단 부위의 절단율(cleavage rate)와 관련될 수 있다. 이렇게 수득된 절단 점수에 대한 정보는 오프 타겟 후보 및/또는 온타겟 후보의 점수와 연관될 수 있다.
일 실시양태에서, DNA의 절단에 대한 정보는 발생된 절단 부위의 개수에 대한 정보를 포함할 수 있다. 예를 들어, 절단 부위의 총 개수가 계산될 수 있다. 예를 들어, 절단 부위의 개수의 일 계산에서, 중복되는 위치는 하나로 카운팅 될 수 있다. 다른 예로, 절단 부위의 개수의 다른 계산법에서, 중복되는 위치는 복수로 카운팅될 수 있다. 예를 들어, 절단 부위 x에서의 절단을 나타내는 DNA가 5개 발견된다면, 이는 필요에 따라 1로 카운팅되거나 5로 카운팅될 수 있다. 절단 부위의 개수에 대한 정보를 통해, 유전자 편집 시스템의 사용에서 발생 가능한 오프 타겟 후보의 전체 개수를 확인할 수 있다.
일 실시양태에서, 분석 대상 조성물을 분석하여 얻어진 DNA 절단에 대한 정보는 다음 중 어느 하나 이상을 포함할 수 있으나, 달리 제한되지 않는다:
하나 이상의 절단 부위(cleavage site)에 대한 게놈 DNA 상에서의 위치 (location);
하나 이상의 절단 부위에 대한 절단 점수; 및
발생된 절단의 개수.
일 실시양태에서, 분석 대상 조성물을 분석하여 DNA 절단에 대한 정보를 얻는 과정은 DNA 절단에 대한 정보를 얻기 위한 추가적인 과정을 더 포함할 수 있다. 예를 들어, 정보(또는 데이터)의 가공, 및/또는 수득된 정보(또는 데이터)의 정규화 등의 과정을 더 포함할 수 있다. 예를 들어, 수득된 절단 정보를 미리 결정된 온타겟에 대한 정보와 비교함 등의 과정을 더 포함할 수 있다. 절단 정보를 얻는 과정은, 전술한 바와 같이, 추가적인 과정을 더 포함할 수 있으며 달리 제한되지 않는다.
일 실시양태에서, DNA 절단에 대한 정보는 분석 대상 조성물의 분석(예를 들어, DNA 시퀀싱)을 통해 수득될 수 있는 다른 정보를 더 포함할 수 있으나, 달리 제한되지 않는다.
오프 타겟에 대한 정보의 수득
일 실시양태에서, 수득된 절단에 대한 정보로부터, 오프 타겟 후보(off-target candidate)에 대한 정보가 수득될 수 있다. 본 출원과 관련된 기술분야의 기술자는 절단에 대한 정보를 기초로 별다른 어려움 없이 오프 타겟에 대한 정보를 수득할 수 있을 것이고, 따라서 본 개시 내용은 본 출원의 오프 타겟 예측 시스템의 과정을 제한하는 것은 아니다. 본 출원과 관련된 기술분야의 기술자는 분석 대상 조성물을 분석하여 얻은 절단에 대한 정보(예를 들어, DNA 절단에 대한 정보)를 이용하여, 적절한 과정을 거치거나 또는 별다른 과정을 거치지 않고, 오프 타겟에 대한 정보를 얻을 수 있을 것이다.
일 실시양태에서, 본 출원의 오프 타겟 예측 방법은 수득된 절단에 대한 정보로부터 오프 타겟 후보에 대한 정보를 확인하는 과정을 포함할 수 있다.
일 실시양태에서, 오프 타겟 후보에 대한 정보는 하나 이상의 오프 타겟 후보(off-target candidate)의 게놈 DNA 상에서의 위치(location)에 대한 정보를 포함할 수 있다 (예를 들어, 후보 오프 타겟 부위에 대한 정보). 예를 들어, 오프 타겟 후보의 위치에 대한 정보는 모든 오프 타겟 후보의 각 위치(게놈 DNA 상에서의 위치)에 대한 정보를 포함할 수 있다. 예를 들어, 오프 타겟 후보의 위치에 대한 정보는 하나 이상의 오프 타겟 후보(off-target candidates)의 각 위치에 대한 정보를 포함할 수 있다. 즉, 모든 후보 오프 타겟 부위(candidate off-target site)에 대한 위치 정보가 수득되거나, 또는 모든 후보 오프 타겟 부위(candidate off-target site)는 아니지만 하나 이상의 후보 오프 타겟 부위에 대한 위치 정보가 수득될 수 있다. 오프 타겟 후보 중 진정한 오프 타겟(예를 들어, 유전자 편집 시스템의 사용에서 발생하는 실제의 오프 타겟)이 존재할 수 있다. 오프 타겟 후보의 위치에 대한 정보는 전술한 절단 정보(예를 들어, 하나 이상의 절단 부위의 위치 정보)에 기초하여 수득될 수 있다.
일 실시양태에서, 오프 타겟 후보에 대한 정보는 하나 이상의 오프 타겟 후보에 대한 오프 타겟 점수 (예를 들어, 오프 타겟 예측 점수)를 포함할 수 있다. 예를 들어, 오프 타겟 후보에 대한 정보는 모든 오프 타겟 후보에 대한 각 오프 타겟 후보의 오프 타겟 점수를 포함할 수 있다. 예를 들어, 오프 타겟 후보에 대한 정보는 하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 오프 타겟 점수를 포함할 수 있다. 즉, 모든 후보 오프 타겟 부위에 대한 오프 타겟 점수가 수득되거나, 또는 모든 후보 오프 타겟 부위는 아니지만 하나 이상의 후보 오프 타겟 부위에 대한 오프 타겟 점수가 수득될 수 있다. 오프 타겟 후보의 오프 타겟 점수에 대한 정보는, 전술한 절단 정보(예를 들어, 하나 이상의 절단 부위에 대한 점수)에 기초하여 수득될 수 있다. 일 실시양태에서, 수득된 오프 타겟 점수를 기초로 오프 타겟 후보의 랭크가 계산될 수 있다. 예를 들어, 높은 오프 타겟 점수를 나타내는 오프 타겟 후보(예를 들어, 후보 오프 타겟 부위)는 보다 상위에 랭크될 수 있다. 예를 들어, 가장 높은 오프 타겟 점수를 나타내는 오프 타겟 후보는 1위에 랭크될 수 있다. 예를 들어, 오프 타겟 후보의 높은 오프 타겟 점수는 진정한 오프 타겟과 관련될 수 있으나, 달리 제한되지 않는다.
일 실시양태에서, 오프 타겟 후보에 대한 정보는 오프 타겟 후보의 개수에 대한 정보를 포함할 수 있다. 예를 들어, 오프 타겟 후보의 총 개수가 계산될 수 있다. 예를 들어, 오프 타겟 후보의 개수의 계산에서, 중복되는 위치는 하나로 카운팅될 수 있다. 다른 예로, 오프 타겟 후보의 개수의 계산에서, 중복되는 위치는 복수로 카운팅될 수 있다. 예를 들어, 후보 오프 타겟 부위 x가 5개 발견된 경우, 이는 1로 카운팅되거나 5로 카운팅될 수 있다. 오프 타겟 후보의 개수에 대한 정보를 통해, 유전자 편집 시스템의 사용에서 발생 가능한 오프 타겟 후보의 전체 개수를 확인할 수 있다. 즉, 예측된 오프 타겟의 전체 개수가 확인될 수 있다.
일 실시양태에서, 오프 타겟 후보에 대한 정보는 다음 중 어느 하나 이상을 포함할 수 있으나, 달리 제한되지 않는다:
하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 게놈 DNA 상에서의 위치;
하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 오프 타겟 점수; 및
예측된 오프 타겟 후보의 개수.
일 실시양태에서, 오프 타겟 후보에 대한 정보를 얻는 과정은 오프 타겟 후보에 대한 정보를 얻기 위한 추가적인 과정을 더 포함할 수 있다. 예를 들어, 정보(또는 데이터)의 가공, 및/또는 수득된 정보(또는 데이터)의 정규화 과정을 더 포함할 수 있다. 예를 들어, 얻어진 오프 타겟 후보에 대한 정보를 미리 결정된 온타겟에 대한 정보와 비교함의 과정을 더 포함할 수 있다. 오프 타겟 후보에 대한 정보를 얻는 과정은, 전술한 바와 같이, 추가적인 과정을 더 포함할 수 있으며 달리 제한되지 않는다.
일 실시양태에서, 오프 타겟 후보에 대한 정보는 유전자 편집 시스템의 사용에서 발생 가능한 오프 타겟을 예측하는데 도움이 되는 추가적인 정보를 더 포함할 수 있으나, 달리 제한되지 않는다.
예측의 대상이 되는 유전자 편집 시스템과의 관계
본 출원의 오프 타겟 예측 시스템은 예측의 대상이 되는 유전자 편집 시스템과 연관될 수 있다. 여기서, 예측의 대상이 되는 유전자 편집 시스템은 연구에 사용되거나 또는 치료제에 사용되는 것으로 결정된 유전자 편집 시스템을 지칭할 수 있으나, 달리 제한되지 않는다. 즉, 예측의 대상이 되는 유전자 편집 시스템은 오프 타겟이 예측되어야 하는 유전자 편집 시스템 (또는 유전자 편집 과정)을 지칭하는 것일 수 있다.
예를 들어, 예측의 대상이 되는 유전자 편집 시스템에서 특정한 세포가 사용되는 경우, 본 출원의 오프 타겟을 예측하는 방법에서도 상기 특정한 세포가 사용될 수 있다. 예를 들어, 예측의 대상이 되는 유전자 편집 시스템에서 특정한 가이드 서열을 갖는 가이드 RNA가 사용되는 경우, 본 출원의 오프 타겟을 예측하는 방법에서도 상기 동일한 가이드 서열을 갖는 가이드 RNA가 사용될 수 있다.
이러한 측면에서, 본 출원의 일 실시양태에 따른 오프 타겟을 예측하는 방법은 예측의 대상이 되는 유전자 편집 시스템을 확인함의 과정을 더 포함할 수 있다. 예측의 대상이 되는 유전자 편집 시스템은 미리 결정된 유전자 편집 시스템으로 지칭될 수 있다. 미리 결정된 유전자 편집(예를 들어, 게놈 편집) 시스템은 유전자 편집(게놈 편집)을 목적하는 세포, 및 미리 결정된 유전자 편집 도구 중 어느 하나 이상을 포함할 수 있다. 미리 결정된 유전자 편집 도구는, 예를 들어, 가이드 RNA, 가이드 서열, 및 유전자 편집 단백질(예를 들어, Cas 단백질)의 종류 등을 포함할 수 있다.
일 실시양태에서, 본 출원의 오프 타겟을 예측하는 방법은 미리 결정된 유전자 편집 시스템을 확인함 또는 설계함을 더 포함할 수 있다. 미리 결정된 유전자 편집 시스템을 확인하고, 이를 통해 적절히 오프 타겟 예측 시스템에 사용될 요소들을 디자인할 수 있다. 이때, 상기 미리 결정된 유전자 편집 시스템을 확인함의 과정은 분석 대상 조성물의 수득 이전에 수행될 수 있다. 이하에서, 미리 결정된 (즉, 예측 대상이 되는) 유전자 편집 시스템을 확인함의 예시를, CRISPR/Cas 유전자 편집 시스템을 기초로 하여, 개시한다. CRISPR/Cas 유전자 편집 시스템에 기초한 예시적 기재는, 본 출원의 오프 타겟 예측 시스템의 태양을 제한하는 것은 아니며, 하기의 기재와 유사한 또는 동일한 맥락에서 다른 유전자 편집 시스템에도 충분히 적용 가능함을 내포한다.
일 실시양태에서, 본 출원의 오프 타겟을 예측하는 방법은 미리 결정된 CRISPR/Cas 유전자 편집 시스템을 확인함을 포함할 수 있다. 이때, 미리 결정된 CRISPR/Cas 유전자 편집 시스템을 확인함은 미리 결정된 세포 (즉, 예측 대상이 되는 CRISPR/Cas 기반 유전자 편집에 사용될 편집을 목적하는 세포), 미리 결정된 Cas 단백질의 종류 (즉, 예측 대상이 되는 CRISPR/Cas 기반 유전자 편집에 사용될 Cas 단백질의 종류), 및 미리 결정된 가이드 RNA에 대한 정보(가이드 RNA의 서열 또는 가이드 서열) 중 어느 하나 이상을 확인함을 포함할 수 있다.
특정한 실시양태에서, 미리 결정된 CRISPR/Cas 유전자 편집 시스템을 확인함은 미리 결정된 세포를 확인함을 포함할 수 있다. 특정한 실시양태에서, 본 출원의 오프 타겟 예측 시스템에는 미리 결정된 세포와 동일한 세포가 사용될 수 있다. 이로써 세포 특이적인 특징이 오프 타겟 예측 시스템의 결과에 반영될 수 있다. 게놈 편집의 대상이 되는 세포는 달리 제한되지 않는다. 일 실시양태에서, 미리 결정된 세포는 동물 세포 또는 식물 세포일 수 있다. 일 실시양태에서, 미리 결정된 세포는 인간 세포 또는 비인간 동물(예를 들어, 마우스, 래트, 개, 고양이, 소, 돼지, 말, 및 양 등) 세포일 수 있으나, 달리 제한되지 않는다. 특정한 실시양태에서, 미리 결정된 세포는 인간 세포일 수 있다.
특정한 실시양태에서, 미리 결정된 CRISPR/Cas 유전자 편집 시스템을 확인함은 미리 결정된 Cas 단백질을 확인함을 포함할 수 있다. 특정한 실시양태에서, 본 출원의 오프 타겟 예측 시스템에는 미리 결정된 Cas 단백질과 동일한 Cas 단백질이 사용될 수 있다. 이로써, Cas 단백질에 따라 영향을 받을 수 있는 특징이 오프 타겟 예측 시스템의 결과에 반영될 수 있다. 일 구체예에서, SpCas9을 이용하는 유전자 편집 시스템일 수 있다.
특정한 실시양태에서, 미리 결정된 CRISPR/Cas 유전자 편집 시스템을 확인함은 미리 결정된 가이드 RNA를 확인함을 포함할 수 있다. 특정한 실시양태에서, 본 출원의 오프 타겟 예측 시스템에는 미리 결정된 가이드 RNA와 동일한 가이드 RNA가 사용될 수 있다. 이로써, 가이드 RNA에 의해 영향을 받을 수 있는 특징이 오프 타겟 예측 시스템의 결과에 반영될 수 있다.
특정한 실시양태에서, 미리 결정된 CRISPR/Cas 유전자 편집 시스템을 확인함은 미리 결정된 가이드 서열을 확인함을 포함할 수 있다. 특정한 실시양태에서, 본 출원의 오프 타겟 예측 시스템에는 미리 결정된 가이드 서열과 동일한 가이드 서열을 갖는 가이드 RNA가 사용될 수 있다. 이로써, 가이드 서열에 따라 영향을 받을 수 있는 특징이 오프 타겟 예측 시스템의 결과에 반영될 수 있다.
특정한 실시양태에서, 본 출원의 오프 타겟 예측 시스템에는 미리 결정된 세포와 동일한 세포, 미리 결정된 Cas 단백질과 동일한 Cas 단백질, 미리 결정된 가이드 서열과 동일한 가이드 서열을 갖는 가이드 RNA 중 선택되는 어느 하나 이상이 사용될 수 있다.
전술한 기재는 미리 결정된 유전자 편집 시스템에서 사용된 요소들과 동일한 요소들이 오프 타겟 예측 시스템에서 필수적으로 사용되어야 함을 제한하는 것은 아니며, 본 출원의 오프 타겟 예측 시스템은 기술자의 오프 타겟 예측 시스템을 사용하는 목적에 따라 적절히 선택될 수 있다. 예를 들어, 미리 결정된 Cas 단백질과 다른 종류의 Cas 단백질(예를 들어, 유사한 특징을 갖는다고 알려진 Cas 단백질)이 오프 타겟 예측 시스템에 사용될 수 있다. 다른 예로, 미리 결정된 세포와 다른 종류의 세포(예를 들어, 유사한 특징을 갖는다고 알려진 세포 등)가 오프 타겟 예측 시스템에 사용될 수 있다. 다른 예로, 미리 결정된 가이드 RNA와 다른 종류의 가이드 RNA (예를 들어, 오프 타겟 예측 시스템에 보다 효과적으로 적용될 수 있도록 개량된 가이드 RNA 등)이 오프 타겟 예측 시스템에 사용될 수 있다.
다른 오프 타겟 예측 시스템과 함께 사용될 수 있음
일 실시양태에서, 본 출원의 오프 타겟 예측 시스템은 다른 오프 타겟 예측 시스템과 함께 사용될 수 있다. 예를 들어, 본 출원의 오프 타겟 예측 시스템은 in silico 기반 오프 타겟 예측 시스템, in vitro 기반 오프 타겟 예측 시스템, 및 세포 기반 오프 타겟 예측 시스템 중 선택되는 어느 하나 이상과 함께 사용될 수 있다. 예를 들어, 본 출원의 오프 타겟 예측 시스템은 Cas-OFFinder, CHOPCHOP, CRISPOR, Digenome-seq, DIG-seq, SITE-seq, CIRCLE-seq, CHANGE-seq, GUIDE-seq, GUIDE-tag, DISCOVER-seq, BLISS, BLESS, integrase-defective lentiviral vector-mediated DNA break capture, HTGTS, ONE-seq, CReVIS-Seq, ITR-seq, 및 TAG-seq 중에 선택되는 어느 하나 이상과 함께 사용될 수 있다. 진정한 오프 타겟 부위를 보다 효율적으로 찾기 위한 목적으로, 본 출원의 오프 타겟 예측 시스템과 다른 오프 타겟 예측 시스템이 함께 사용될 수 있으며, 다른 오프 타겟 예측 시스템은 본 출원의 출원일 이전에 개발된 오프 타겟 예측 시스템이거나 본 출원의 출원일 이후에 개발된 오프 타겟 예측 시스템일 수 있고, 달리 제한되지 않는다.
출발 조성물 및 출발 조성물에 포함될 수 있는 요소
출발 조성물 개괄
전술한 바와 같이, 본 출원의 일 실시양태에 따르면, 분석 대상 조성물은 세포를 파괴함을 통해 얻어질 수 있다. 그리고, 분석 대상 조성물을 분석하여 게놈 DNA의 절단에 정보 등을 얻을 수 있다.
일 실시양태에서, 세포를 포함하는 출발 조성물로부터, 상기 세포를 파괴함을 통해 분석 대상 조성물을 얻을 수 있다. 일 실시양태에서, 출발 조성물은 세포에 더하여 유전자 편집 도구 (예를 들어, Cas 단백질 및 가이드 RNA)를 더 포함할 수 있다. 이하에서는 본 출원의 일 실시양태에 따른 오프 타겟 예측 방법의 출발 조성물에 포함될 수 있는 요소의 조건에 대하여 개시한다.
세포 및 세포의 농도
일 실시양태에서, 출발 조성물은 세포를 포함할 수 있다. 일 실시양태에서, 출발 조성물에 포함된 세포의 농도는 약 1x105 cells/mL, 2x105 cells/mL, 3x105 cells/mL, 4x105 cells/mL, 5x105 cells/mL, 6x105 cells/mL, 7x105 cells/mL, 8x105 cells/mL, 9x105 cells/mL, 1x106 cells/mL, 2x106 cells/mL, 3x106 cells/mL, 4x106 cells/mL, 5x106 cells/mL, 6x106 cells/mL, 7x106 cells/mL, 8x106 cells/mL, 9x106 cells/mL, 1x107 cells/mL, 2x107 cells/mL, 3x107 cells/mL, 4x107 cells/mL, 5x107 cells/mL, 6x107 cells/mL, 7x107 cells/mL, 8x107 cells/mL, 9x107 cells/mL, 1x108 cells/mL, 2x108 cells/mL, 3x108 cells/mL, 4x108 cells/mL, 5x108 cells/mL, 6x108 cells/mL, 7x108 cells/mL, 8x108 cells/mL, 9x108 cells/mL, 1x109 cells/mL, 2x109 cells/mL, 3x109 cells/mL, 4x109 cells/mL, 5x109 cells/mL, 6x109 cells/mL, 7x109 cells/mL, 8x109 cells/mL, 9x109 cells/mL, 1x1010 cells/mL, 2x1010 cells/mL, 3x1010 cells/mL, 4x1010 cells/mL, 5x1010 cells/mL, 6x1010 cells/mL, 7x1010 cells/mL, 8x1010 cells/mL, 또는 9x1010 cells/mL일 수 있으나, 달리 제한되지 않는다. 일 실시양태에서, 출발 조성물에 포함된 세포의 농도는 전술한 값 중 선택되는 두 값의 범위일 수 있다. 일 실시양태에서, 출발 조성물에 포함된 세포의 농도는 전술한 값 중 선택되는 어느 하나의 값 이상 또는 이하일 수 있다. 특정한 실시양태에서, 출발 조성물에 포함된 세포의 농도는 약 1x106 cells/mL, 2x106 cells/mL, 3x106 cells/mL, 4x106 cells/mL, 5x106 cells/mL, 6x106 cells/mL, 7x106 cells/mL, 8x106 cells/mL, 9x106 cells/mL, 1x107 cells/mL, 2x107 cells/mL, 3x107 cells/mL, 4x107 cells/mL, 5x107 cells/mL, 6x107 cells/mL, 7x107 cells/mL, 8x107 cells/mL, 9x107 cells/mL, 또는 1x108 cells/mL 일 수 있다.
본 출원의 오프 타겟 예측 시스템에 사용될 수 있는 세포는 달리 제한되지 않는다. 일 실시양태에서, 세포는 동물 세포 또는 식물 세포일 수 있다. 일 실시양태에서, 세포는 인간 세포 또는 비인간 동물(예를 들어, 마우스, 래트, 개, 고양이, 소, 돼지, 말, 및 양 등) 세포일 수 있으나, 달리 제한되지 않는다. 특정한 실시양태에서, 세포는 인간 세포일 수 있다.
유전자 편집 도구 및 편집 도구의 농도
일 실시양태에서, 출발 조성물은 유전자 편집 도구를 포함할 수 있다. 일 실시양태에서, 출발 조성물은 Cas 단백질 및 gRNA를 포함할 수 있다.
일 실시양태에서, 출발 조성물에 포함된 Cas 단백질의 농도는 약 10nM, 20nM, 30nM, 40nM, 50nM, 60nM, 70nM, 80nM, 90nM, 100nM, 200nM, 300nM, 400nM, 500nM, 600nM, 700nM, 800nM, 900nM, 1000nM (1μM), 2000nM, 3000nM, 4000nM, 5000nM, 6000nM, 7000nM, 8000nM, 9000nM, 10000nM (10μM), 20000nM, 30000nM, 40000nM, 50000nM, 60000nM, 70000nM, 80000nM, 90000nM, 또는 100000nM (100μM)일 수 있으나, 달리 제한되지 않는다. 일 실시양태에서, 출발 조성물에 포함된 Cas 단백질의 농도는 전술한 값 중 선택되는 두 값의 범위일 수 있다. 일 실시양태에서, 출발 조성물에 포함된 Cas 단백질의 농도는 전술한 값 중 선택되는 어느 하나의 값 이상 또는 이하일 수 있다. 특정한 실시양태에서, 출발 조성물에 포함된 Cas 단백질의 농도는 약 1000nM (1μM), 2000nM, 3000nM, 4000nM, 5000nM, 6000nM, 7000nM, 8000nM, 9000nM, 또는 10000nM (10μM)일 수 있다.
일 실시양태에서, 출발 조성물에 포함된 가이드 RNA의 농도는 약 10nM, 20nM, 30nM, 40nM, 50nM, 60nM, 70nM, 80nM, 90nM, 100nM, 200nM, 300nM, 400nM, 500nM, 600nM, 700nM, 800nM, 900nM, 1000nM (1μM), 2000nM, 3000nM, 4000nM, 5000nM, 6000nM, 7000nM, 8000nM, 9000nM, 10000nM (10μM), 20000nM, 30000nM, 40000nM, 50000nM, 60000nM, 70000nM, 80000nM, 90000nM, 또는 100000nM (100μM)일 수 있으나, 달리 제한되지 않는다. 일 실시양태에서, 출발 조성물에 포함된 가이드 RNA의 농도는 전술한 값 중 선택되는 두 값의 범위일 수 있다. 일 실시양태에서, 출발 조성물에 포함된 가이드 RNA의 농도는 전술한 값 중 선택되는 어느 하나의 값 이상 또는 이하일 수 있다. 특정한 실시양태에서, 출발 조성물에 포함된 가이드 RNA의 농도는 약 1000nM (1μM), 2000nM, 3000nM, 4000nM, 5000nM, 6000nM, 7000nM, 8000nM, 9000nM, 또는 10000nM (10μM)일 수 있다.
일 실시양태에서, 출발 조성물은 RNP(ribonucleoprotein) (예를 들어, Cas/gRNA 복합체)를 포함할 수 있다. 이 경우, 출발 조성물에서 Cas 단백질 및 gRNA가 RNP의 형태로 존재하도록 하기 위해서, 본 출원의 오프 타겟 예측 방법은 가이드 RNA와 Cas 단백질을 혼합하고 전배양(pre-incubation)함을 더 포함할 수 있다. 즉, 출발 조성물이 제공되기 전에, 가이드 RNA 및 Cas 단백질을 포함하는 혼합액을 배양하는 과정이 추가적으로 수행될 수 있다. 예를 들어, 상기의 배양된 가이드 RNA 및 Cas 단백질을 포함하는 혼합액으로부터 RNP (Cas/gRNA 복합체)를 수득하고, 수득된 RNP 및 세포를 혼합하여 출발 조성물을 얻을 수 있다. 일 실시양태에서, 출발 조성물에 포함된 RNP(예를 들어, Cas/gRNA 복합체)의 농도는 약 10nM, 20nM, 30nM, 40nM, 50nM, 60nM, 70nM, 80nM, 90nM, 100nM, 200nM, 300nM, 400nM, 500nM, 600nM, 700nM, 800nM, 900nM, 1000nM (1μM), 2000nM, 3000nM, 4000nM, 5000nM, 6000nM, 7000nM, 8000nM, 9000nM, 10000nM (10μM), 20000nM, 30000nM, 40000nM, 50000nM, 60000nM, 70000nM, 80000nM, 90000nM, 또는 100000nM (100μM)일 수 있으나, 달리 제한되지 않는다. 일 실시양태에서, 출발 조성물에 포함된 RNP의 농도는 전술한 값 중 선택되는 두 값의 범위일 수 있다. 일 실시양태에서, 출발 조성물에 포함된 RNP의 농도는 전술한 값 중 선택되는 어느 하나의 값 이상 또는 이하일 수 있다. 특정한 실시양태에서, 출발 조성물에 포함된 RNP의 농도는 약 1000nM (1μM), 2000nM, 3000nM, 4000nM, 5000nM, 6000nM, 7000nM, 8000nM, 9000nM, 또는 10000nM (10μM)일 수 있다.
본 출원의 오프 타겟 예측 시스템의 예시적 실시양태 (1)
이하에서는, 본 출원의 오프 타겟 예측 시스템의 예시적 실시양태(비제한적 실시양태)를 개시한다. 이하의 실시양태는 본 출원의 오프 타겟 예측 시스템의 매커니즘을 특징으로 하여 개시된 것일 수 있다. 이하의 실시양태 중 일부 또는 전부는 후술되는 익스트루더의 사용을 특징으로 하는 실시양태에 개시되는 실시양태의 일부 또는 전부를 포함할 수 있다.
본 출원의 일 실시양태는 유전자 편집 (예를 들어, 게놈 편집) 과정에서 발생 가능한 오프 타겟을 예측하는 방법을 제공한다. 본 출원의 일 실시양태는 게놈 편집 과정에서 발생 가능한 오프 타겟 후보를 확인하는 방법을 제공한다. 본 출원의 일 실시양태는 CRISPR/Cas 유전자 편집 시스템의 오프 타겟을 예측하는 방법을 제공한다. 본 출원의 일 실시양태는 CRISPR/Cas 유전자 편집 시스템을 이용한 유전자 편집 과정에서 발생 가능한 오프 타겟 후보를 확인하는 방법을 제공한다. 게놈 편집 과정에서 발생할 수 있는 오프 타겟을 예측하거나 오프 타겟에 대한 정보를 확인하는 방법에 대한 서술이라면, 제한 없이 사용될 수 있다.
본 출원의 일 실시양태는, 다음을 포함하는 유전자 편집 과정에서 발생 가능한 오프 타겟을 예측하는 방법을 제공한다:
(i) 절단된 게놈 DNA를 포함하는 분석 대상 조성물을 수득함; 및
(ii) 상기 분석 대상 조성물을 분석하여 상기 절단 부위에 대한 정보를 수득함.
특정한 실시양태에서, 분석 대상 조성물에 포함된 절단된 게놈 DNA는 물리적으로 파괴된 세포의 게놈 DNA가 유전자 편집 시스템에 의해 절단되어 있는, 절단된 게놈 DNA일 수 있다.
특정한 실시양태에서, 상기 절단된 게놈 DNA는 세포-특이적 후생유전학적 특징을 가질 수 있다.
특정한 실시양태에서, 상기 절단된 게놈 DNA는 수선된 게놈 DNA가 아닐 수 있다.
본 출원의 일 실시양태는, 다음을 포함하는 유전자 편집 (예를 들어, 게놈 편집) 과정에서 발생 가능한 오프 타겟을 예측하는 방법을 제공한다:
(i) 유전자 편집 도구 및 제1 세포를 포함하는 출발 조성물(starting composition)을 준비함;
(ii) 상기 제1 세포를 물리적으로 파괴함을 통해 분석 대상 조성물을 얻음, 이때 상기 제1 세포가 물리적으로 파괴됨을 통해 세포 내의 게놈 DNA와 상기 유전자 편집 도구가 접촉할 수 있는 환경이 조성되고, 이로써 상기 게놈 DNA와 상기 유전자 편집 도구가 접촉함, 이로써 상기 게놈 DNA는 하나 이상의 절단 부위에서 절단됨; 및
(iii) 상기 분석 대상 조성물을 분석하여 상기 절단 부위에 대한 정보를 수득함.
특정한 실시양태에서, 다음을 더 포함하는 오프 타겟을 예측하는 방법이 제공될 수 있다:
(iv) (iii)으로부터 얻은 상기 절단 부위에 대한 정보로부터 오프 타겟 후보에 대한 정보를 확인함.
본 출원의 일 실시양태는, 다음을 포함하는 CRISPR/Cas 유전자 편집 시스템에서 발생 가능한 오프 타겟을 예측하는 방법을 제공한다:
(i) 제1 Cas 단백질, 제1 가이드 RNA, 및 제1 세포를 포함하는 출발 조성물(starting composition)을 준비함, 이때 Cas 단백질 및 가이드 RNA는 Cas/gRNA 복합체를 형성 가능함;
(ii) 상기 제1 세포를 물리적으로 파괴함을 통해 분석 대상 조성물을 얻음, 이때 상기 제1 세포가 물리적으로 파괴됨을 통해 게놈 DNA와 Cas/gRNA 복합체가 접촉할 수 있는 환경이 조성되고, 이로써 게놈 DNA와 Cas/gRNA 복합체가 접촉함, 이때 상기 게놈 DNA는 하나 이상의 절단 부위에서 절단됨; 및
(iii) 상기 분석 대상 조성물을 분석하여 상기 절단 부위에 대한 정보를 수득함.
특정한 실시양태에서, 다음을 더 포함하는 오프 타겟을 예측하는 방법이 제공될 수 있다: (iv) (iii)으로부터 얻은 상기 절단 부위에 대한 정보로부터 오프 타겟 후보에 대한 정보를 확인함.
특정한 실시양태에서, 상기 절단 부위에 대한 정보는 다음 중 하나 이상을 포함할 수 있다: 게놈 DNA 상에서의 하나 이상의 절단 부위에 대한 위치, 하나 이상의 절단 부위에 대한 절단 점수, 및 절단 부위의 개수.
특정한 실시양태에서, 게놈 DNA 상에서의 하나 이상의 절단 부위에 대한 위치는, 게놈 DNA 상에서의 하나 이상의 절단 부위에 대한 각 절단 부위의 위치일 수 있다.
특정한 실시양태에서, 하나 이상의 절단 부위에 대한 절단 점수는, 하나 이상의 절단 부위 각각에 대한 절단 점수일 수 있다.
특정한 실시양태에서, 절단 부위의 개수는, 절단 부위의 총 개수일 수 있다.
특정한 실시양태에서, 상기 오프 타겟 후보에 대한 정보는 다음 중 하나 이상을 포함할 수 있다: 하나 이상의 오프 타겟 후보의 게놈 DNA 상에서의 위치; 하나 이상의 오프 타겟 후보에 대한 오프 타겟 예측 점수; 및 예측된 오프 타겟 후보의 개수.
특정한 실시양태에서, 하나 이상의 오프 타겟 후보의 게놈 DNA 상에서의 위치는, 하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 게놈 DNA 상에서의 위치일 수 있다.
특정한 실시양태에서, 하나 이상의 오프 타겟 후보에 대한 오프 타겟 예측 점수는, 하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 오프 타겟 예측 점수일 수 있다.
특정한 실시양태에서, 오프 타겟 후보의 개수는, 예측된 오프 타겟 후보의 총 개수일 수 있다.
특정한 실시양태에서, (ii)에서, 상기 제1 세포를 물리적으로 파괴함을 통해 상게 제1 세포의 세포막을 포함하는 막 구조가 파괴되고, 이로써 Cas/gRNA 복합체가 게놈 DNA에 접촉 가능한 환경이 제공될 수 있다.
특정한 실시양태에서, (ii)에서, 상기 제1 세포를 물리적으로 파괴함을 통해 상기 제1 세포의 핵막을 포함한 막 구조가 파괴되고, 이로써 Cas/gRNA 복합체가 게놈 DNA에 접촉 가능한 환경이 준비될 수 있다.
특정한 실시양태에서, 상기 제1 세포를 물리적으로 파괴함은 상기 제1 세포를 기공을 갖는 필터를 통과시킴을 포함할 수 있다.
특정한 실시양태에서, 상기 제1 세포가 상기 제1 세포의 크기보다 작은 기공을 통과하도록 하는 힘은 압력일 수 있다.
특정한 실시양태에서, 상기 필터의 기공의 평균 지름은 상기 제1 세포의 크기보다 작을 수 있다.
특정한 실시양태에서, 상기 필터는 상기 제1 세포의 크기보다 작은 지름의 기공을 포함할 수 있다.
특정한 실시양태에서, 상기 필터의 기공의 평균 지름은 5 내지 15μm 일 수 있다.
특정한 실시양태에서, 상기 필터의 기공의 평균 지름은 약 8μm일 수 있다.
특정한 실시양태에서, 상기 필터는 지름이 5 내지 15μm인 기공을 포함할 수 있다.
특정한 실시양태에서, 상기 제1 세포를 물리적으로 파괴함은 익스트루더의 사용을 통해 달성될 수 있다.
특정한 실시양태에서, 상기 익스트루더는 기공을 갖는 필터를 포함하고, 이때 상기 필터는 지름이 상기 제1 세포의 크기보다 작은 기공을 포함할 수 있다.
특정한 실시양태에서, 상기 익스트루더는 기공을 갖는 필터를 포함하고, 이때 상기 필터의 기공의 평균 지름은 5 내지 15μm일 수 있다.
특정한 실시양태에서, 상기 제1 세포의 물리적 파괴에 의해 노출된 게놈 DNA는 상기 제1 세포의 세포 특이적 후생유전학적 특징 (예를 들어, 크로마틴 구조의 특징)을 유지하는 것일 수 있다.
특정한 실시양태에서, 오프 타겟 후보에 대한 정보는 제1 세포 특이적인 후생유전학적 특징이 반영된 정보일 수 있다.
특정한 실시양태에서, 게놈 DNA와 Cas/gRNA 복합체가 접촉 가능한 환경은 DNA 수선 매커니즘이 불활성화 된 환경일 수 있다.
특정한 실시양태에서, 세포가 파괴됨으로써 세포의 DNA 수선 기작이 불활성화되며, 이로써 절단된 DNA가 수복되지 않을 수 있다.
특정한 실시양태에서, 다음을 더 포함하는 오프 타겟을 예측하는 방법이 제공될 수 있다: 오프 타겟 예측 대상이 되는 미리 결정된 CRISPR/Cas 유전자 편집 시스템을 확인함, 이때 상기 미리 결정된 CRISPR/Cas 유전자 편집 시스템은 미리 결정된 세포의 사용, 미리 결정된 Cas 단백질의 사용, 및 미리 결정된 가이드 RNA의 사용 중 어느 하나 이상을 포함하고, 이때 상기 미리 결정된 CRISPR/Cas 유전자 편집 시스템의 확인은 (i) 이전에 수행됨.
특정한 실시양태에서, 상기 제1 가이드 RNA의 가이드 서열은 상기 미리 결정된 가이드 RNA의 가이드 서열과 동일한 서열을 가질 수 있다.
특정한 실시양태에서, 상기 미리 결정된 CRISPR/Cas 유전자 편집 시스템은 미리 결정된 세포의 사용을 포함하고, 이때 상기 제1 세포와 상기 미리 결정된 세포는 동일할 수 있다.
특정한 실시양태에서, (iii) 상기 분석 대상 조성물을 분석함은 다음을 포함할 수 있다: 상기 분석 대상 조성물에 포함된 DNA를 시퀀싱을 통해 분석함.
특정한 실시양태에서, (iii) 상기 분석 대상 조성물을 분석함은 다음을 포함할 수 있다: 상기 분석 대상 조성물에 포함된 절단된 게놈 DNA를 시퀀싱을 통해 분석함.
특정한 실시양태에서, (iii) 상기 분석 대상 조성물을 분석함은 다음을 포함할 수 있다: 상기 분석 대상 조성물에 포함된 DNA를 PCR 기반 분석 방법을 통해 분석함.
특정한 실시양태에서, (iii) 상기 분석 대상 조성물을 분석함은 다음을 포함할 수 있다: 상기 분석 대상 조성물에 포함된 절단된 게놈 DNA를 PCR 기반 분석 방법을 통해 분석함.
특정한 실시양태에서, 상기 출발 조성물에 포함된 Cas 단백질의 농도는 약 5000nM일 수 있다.
특정한 실시양태에서, 상기 출발 조성물에 포함된 상기 제1 세포의 농도는 약 1X107 cells/mL일 수 있다.
특정한 실시양태에서, 상기 분석 대상 조성물을 얻음은 다음을 더 포함할 수 있다: 세포의 파괴를 통해 얻어진 조성물을 인큐베이션함.
특정한 실시양태에서, 상기 분석 대상 조성물을 얻음은 다음을 더 포함할 수 있다: 파괴된 세포 요소, Cas 단백질 및 가이드 RNA를 포함하는 조성물을 인큐베이션함.
특정한 실시양태에서, 상기 분석 대상 조성물을 얻음은 다음을 더 포함할 수 있다: 세포의 파괴를 통해 얻어진 조성물로부터 RNA를 제거함.
특정한 실시양태에서, 상기 분석 대상 조성물을 얻음은 다음을 더 포함할 수 있다: 파괴된 세포 요소, Cas 단백질, 및 가이드 RNA를 포함하는 조성물의 RNA 요소를 제거함.
특정한 실시양태에서, 상기 분석 대상 조성물을 얻음은 다음을 더 포함할 수 있다: 세포의 파괴를 통해 얻어진 조성물로부터 DNA를 정제함.
특정한 실시양태에서, 상기 분석 대상 조성물을 얻음은 다음을 더 포함할 수 있다: 파괴된 세포 요소, Cas 단백질, 및 가이드 RNA를 포함하는 조성물로부터 DNA를 정제함.
특정한 실시양태에서, 본 출원의 오프 타겟을 예측하는 방법은 하나 이상의 다른 오프 타겟 예측 방법과 조합되어 사용될 수 있다. 이때, 다른 오프 타겟 예측 방법은 Cas-OFFinder, CHOPCHOP, CRISPOR, Digenome-seq, DIG-seq, SITE-seq, CIRCLE-seq, CHANGE-seq, GUIDE-seq, GUIDE-tag, DISCOVER-seq, BLISS, BLESS, integrase-defective lentiviral vector-mediated DNA break capture, HTGTS, ONE-seq, CReVIS-Seq, ITR-seq, 및 TAG-seq 중 선택되는 어느 하나 이상일 수 있다.
이하에서는, 익스트루더의 사용을 특징으로 하는 본 출원의 오프 타겟 예측 시스템의 예시적 실시양태를 개시한다.
일 실시양태에서, 다음을 포함하는 CRISPR/Cas 유전자 편집 시스템에서 발생 가능한 오프 타겟을 예측하는 방법이 제공될 수 있다:
(i) 제1 편집 단백질, 제1 가이드 RNA, 및 제1 세포를 포함하는 출발 조성물을 익스트루더의 제1 수용부에 로딩함;
(ii) 분석 대상 조성물을 얻기 위해 상기 익스트루더를 이용하여 하기의 과정을 포함하는 익스트루젼 과정을 수행함:
(a) 제1 수용부에 압력을 가하여 상기 출발 조성물의 요소를 상기 익스트루더의 제1 수용부로부터 상기 익스트루더의 제2 수용부로 이동시킴,
이때 상기 출발 조성물의 요소는 상기 익스트루더의 제1 수용부와 상기 익스트루더의 제2 수용부 사이에 위치한 기공을 갖는 필터를 가해진 압력을 통해 통과하여 상기 제1 수용부로부터 상기 제2 수용부로 이동하고, 이로써 상기 제2 수용부에 혼합액이 안착됨;
이때 가해진 압력에 의해 필터의 기공의 지름보다 크기가 더 큰 요소인 상기 제1 세포는 파괴되면서 필터의 기공을 통과하고,
이때 상기 제1 세포가 물리적으로 파괴됨을 통해 세포 내의 게놈 DNA와 Cas/gRNA 복합체가 접촉 가능한 환경이 조성되며,
이로써 상기 게놈 DNA와 Cas/gRNA 복합체가 접촉하고,
이로써 상기 게놈 DNA는 하나 이상의 절단 부위에서 절단됨; 및
(iii) 상기 절단 부위에 대한 정보를 얻기 위해 상기 분석 대상 조성물을 분석함.
특정한 실시양태에서, 오프 타겟을 예측하는 방법은 다음을 더 포함할 수 있다:
(iv) CRISPR/Cas 유전자 편집 시스템에서 발생하는 오프 타겟을 예측하기 위해, (iii)으로부터 얻은 상기 절단 부위에 대한 정보로부터 오프 타겟 후보에 대한 정보를 확인함.
특정한 실시양태에서, 상기 (ii)익스트루젼 과정은 다음의 과정을 포함할 수 있다:
(a) 제1 수용부에 압력을 가하여 출발 조성물의 요소를 상기 익스트루더의 제1 수용부로부터 상기 익스트루더의 제2 수용부로 이동시킴,
이때 상기 출발 조성물의 요소는 상기 익스트루더의 제1 수용부와 상기 익스트루더의 제2 수용부 사이에 위치한 기공을 갖는 필터를 가해진 압력을 통해 통과하여 상기 제1 수용부로부터 상기 제2 수용부로 이동하고, 이로써 상기 제2 수용부에 혼합액이 안착됨,
(b) 제2 수용부에 압력을 가하여 제2 수용부에 포함된 혼합액의 요소를 상기 제2 수용부로부터 상기 제1 수용부로 이동시킴,
이때 상기 제2 수용부에 포함된 혼합액의 요소는 제1 수용부와 제2 수용부 사이에 위치한 기공을 갖는 상기 필터를 가해진 압력을 통해 통과하여 제2 수용부로부터 제1 수용부로 이동하고, 이로써 상기 제1 수용부에 제2 수용부로부터 압력에 의해 필터를 거쳐 이동된 혼합액이 안착됨, 및
(c) 미리 결정된 횟수로 (a) 및 (b)의 과정을 반복 수행함,
이때 미리 결정된 횟수는 0.5 단위로 카운팅되며, 0.5는 (a) 또는 (b)의 단일 과정의 수행을 나타냄,
이때 가해진 압력에 의해 필터의 기공의 지름보다 크기가 더 큰 요소인 상기 제1 세포는 파괴되면서 필터의 기공을 통과하고,
이때 상기 제1 세포가 물리적으로 파괴됨을 통해 세포 내의 게놈 DNA와 Cas/gRNA 복합체가 접촉 가능한 환경이 조성되며,
이로써 상기 게놈 DNA와 Cas/gRNA 복합체가 접촉하고,
이로써 상기 게놈 DNA는 하나 이상의 절단 부위에서 절단됨.
특정한 실시양태에서, 상기 제1 수용부에 가해지는 압력은 상기 제1 수용부에 압력을 가할 수 있도록 디자인된 피스톤을 제1 수용부와 필터의 방향으로 미는 과정을 통해 생성될 수 있다.
특정한 실시양태에서, 상기 제1 수용부에 가해지는 압력은 상기 제1 수용부에 압력을 가할 수 있도록 디자인된 피스톤을 제1 수용부와 필터의 방향으로 미는 과정을 통해 생성되고, 상기 제2 수용부에 가해지는 압력은 상기 제2 수용부에 압력을 가할 수 있도록 디자인된 피스톤을 제2 수용부와 필터의 방향으로 미는 과정을 통해 생성될 수 있다.
특정한 실시양태에서, 이때 상기 절단 부위에 대한 정보는 다음 중 하나 이상을 포함할 수 있다: 하나 이상의 절단 부위(cleavage site)에 대한 게놈 DNA 상에서의 위치(location), 하나 이상의 절단 부위에 대한 절단 점수, 및 절단 부위의 개수.
특정한 실시양태에서, 이때 상기 오프 타겟 후보에 대한 정보는 다음 중 하나 이상을 포함할 수 있다: 하나 이상의 오프 타겟 후보에 대한 게놈 DNA 상에서의 위치, 하나 이상의 오프 타겟 후보에 대한 오프 타겟 예측 점수, 및 예측된 오프 타겟 후보의 개수.
특정한 실시양태에서, 상기 제1 세포를 물리적으로 파괴함을 통해 상기 제1 세포의 세포막을 포함한 막 구조가 파괴되고, 이로써 Cas/gRNA 복합체가 상기 제1 세포의 게놈 DNA에 접촉 가능한 환경이 준비될 수 있다.
특정한 실시양태에서, (ii)에서, 상기 제1 세포를 물리적으로 파괴함을 통해 상기 제1 세포의 핵막을 포함한 막 구조가 파괴되고, 이로써 Cas/gRNA 복합체가 상기 제1 세포의 게놈 DNA에 접촉 가능한 환경이 준비될 수 있다.
특정한 실시양태에서, 필터는 지름이 제1 세포의 크기보다 작은 기공을 포함할 수 있다.
특정한 실시양태에서. 필터의 기공의 평균 지름은 5 내지 15μm일 수 있다.
특정한 실시양태에서, 필터의 기공의 평균 지름은 8μm일 수 있다.
특정한 실시양태에서, 미리 결정된 횟수는 4 내지 7일 수 있다.
특정한 실시양태에서, 미리 결정된 횟수는 5.5일 수 있다.
특정한 실시양태에서, (ii)에서, 상기 제1 세포의 물리적 파괴에 의해 노출된 게놈 DNA는 제1 세포-특이적 후생유전학적 특징을 유지할 수 있다.
특정한 실시양태에서, (iii)으로부터 얻은 상기 절단 부위에 대한 정보는 제1 세포-특이적 후생유전학적 특징이 반영된 정보일 수 있다.
특정한 실시양태에서, (iv)으로부터 얻어진 오프 타겟 후보에 대한 정보는 제1 세포-특이적 후생유전학적 특징이 반영된 정보일 수 있다.
특정한 실시양태에서, 세포가 파괴됨으로써 세포의 DNA 수선 기작이 망가지며, 이로써 절단된 DNA가 수복되지 않을 수 있다.
특정한 실시양태에서, 오프 타겟을 예측하는 방법은 다음을 더 포함할 수 있다:
오프 타겟 예측 대상이 되는 예측 대상 CRISPR/Cas 유전자 편집 시스템을 확인함, 이때 상기 예측 대상 CRISPR/Cas 유전자 편집 시스템은 예측 대상 Cas 단백질의 사용 및 예측 대상 가이드 RNA의 사용을 포함함.
특정한 실시양태에서, 오프 타겟을 예측하는 방법은 다음을 더 포함할 수 있다:
오프 타겟 예측 대상이 되는 예측 대상 CRISPR/Cas 유전자 편집 시스템을 확인함, 이때 상기 예측 대상 CRISPR/Cas 유전자 편집 시스템은 예측 대상 Cas 단백질의 사용 및 예측 대상 가이드 RNA의 사용을 포함하고, 이때 상기 예측 대상 CRISPR/Cas 유전자 편집 시스템의 확인은 (i) 이전에 수행됨.
특정한 실시양태에서, 제1 가이드 RNA의 가이드 서열은 예측 대상 가이드 RNA의 가이드 서열과 동일한 서열을 가질 수 있다.
특정한 실시양태에서, 예측 대상 CRISPR/Cas 유전자 편집 시스템은 예측 대상 세포의 사용을 포함하고, 이때 상기 제1 세포와 상기 예측 대상 세포는 동일할 수 있다.
특정한 실시양태에서, (iii) 상기 분석 대상 조성물을 분석함은 다음을 포함할 수 있다: 상기 분석 대상 조성물에 포함된 절단된 게놈 DNA를 시퀀싱을 통해 분석함.
특정한 실시양태에서, (iii) 상기 분석 대상 조성물을 분석함은 다음을 포함할 수 있다: 상기 분석 대상 조성물에 포함된 절단된 게놈 DNA를 시퀀싱을 통해 분석함.
특정한 실시양태에서, (iii) 상기 분석 대상 조성물을 분석함은 다음을 포함할 수 있다: 상기 분석 대상 조성물에 포함된 DNA를 PCR 기반 분석 방법을 통해 분석함.
특정한 실시양태에서, (iii) 상기 분석 대상 조성물을 분석함은 다음을 포함할 수 있다: 상기 분석 대상 조성물에 포함된 절단된 게놈 DNA를 PCR 기반 분석 방법을 통해 분석함.
특정한 실시양태에서, 출발 조성물에 포함된 Cas 단백질의 농도는 5000nM일 수 있다.
특정한 실시양태에서, 상기 출발 조성물에 포함된 상기 제1 세포의 농도는 1X107 cells/mL일 수 있다.
특정한 실시양태에서, 분석 대상 조성물을 얻기 위해 다음의 과정이 더 수행될 수 있다: 파괴된 세포 요소, Cas 단백질, 및 가이드 RNA를 포함하는 조성물을 인큐베이션함.
특정한 실시양태에서, 분석 대상 조성물을 얻기 위해 다음의 과정이 더 수행될 수 있다: 세포의 파괴를 통해 얻어진 조성물을 인큐베이션함.
특정한 실시양태에서, 분석 대상 조성물을 얻기 위해 다음의 과정이 더 수행될 수 있다: 파괴된 세포 요소, Cas 단백질, 및 가이드 RNA를 포함하는 조성물의 RNA 요소를 제거함.
특정한 실시양태에서, 분석 대상 조성물을 얻기 위해 다음의 과정이 더 수행될 수 있다: 세포의 파괴를 통해 얻어진 조성물로부터 RNA를 제거함.
특정한 실시양태에서, 분석 대상 조성물을 얻기 위해 다음의 과정이 더 수행될 수 있다: 파괴된 세포 요소, Cas 단백질, 및 가이드 RNA를 포함하는 조성물의 DNA를 정제함.
특정한 실시양태에서, 분석 대상 조성물을 얻기 위해 다음의 과정이 더 수행될 수 있다: 세포의 파괴를 통해 얻어진 조성물로부터 DNA를 정제함.
특정한 실시양태에서, 본 출원의 오프 타겟을 예측하는 방법은 하나 이상의 다른 오프 타겟 예측 방법과 조합되어 사용될 수 있다. 이때, 다른 오프 타겟 예측 방법은 Cas-OFFinder, CHOPCHOP, CRISPOR, Digenome-seq, DIG-seq, SITE-seq, CIRCLE-seq, CHANGE-seq, GUIDE-seq, GUIDE-tag, DISCOVER-seq, BLISS, BLESS, integrase-defective lentiviral vector-mediated DNA break capture, HTGTS, ONE-seq, CReVIS-Seq, ITR-seq, 및 TAG-seq 중 선택되는 어느 하나 이상일 수 있다.
본 출원의 오프 타겟 예측 시스템의 예시적 실시양태 (2)
이하에서는, 전술한 "본 출원의 오프 타겟 예측 시스템의 예시적 실시양태 (1)"과 다른 기재 방식을 통해 예시적 실시양태 (비제한적 실시양태)를 개시한다.
매커니즘을 특징으로 하는 예시적 실시양태
A01. 다음을 포함하는, CRISPR/Cas 유전자 편집 시스템을 사용하는 게놈 편집과정에서 발생 가능한 오프 타겟을 예측하는 방법:
(i) 제1 Cas 단백질, 제1 가이드 RNA, 및 제1 세포를 포함하는 출발 조성물(starting composition)을 준비함, 이때 Cas 단백질 및 제1 가이드 RNA는 Cas/gRNA 복합체를 형성 가능함;
(ii) 상기 제1 세포를 물리적으로 파괴함을 통해 분석 대상 조성물을 얻음,
이때 상기 제1 세포가 물리적으로 파괴됨을 통해 게놈 DNA와 Cas/gRNA 복합체가 접촉할 수 있는 환경이 조성되고, 이로써 상기 게놈 DNA와 Cas/gRNA 복합체가 접촉함, 이로써 상기 게놈 DNA는 하나 이상의 절단 부위에서 절단됨;
(iii) 상기 분석 대상 조성물을 분석하여 상기 절단 부위에 대한 정보를 수득함; 및
(iv) CRISPR/Cas 유전자 편집 시스템에서 발생하는 오프 타겟을 예측하기 위해, (iii)으로부터 얻은 상기 절단 부위에 대한 정보로부터 오프 타겟 후보에 대한 정보를 확인함.
A02. A01에 있어서,
이때 상기 절단 부위에 대한 정보는 다음 중 하나 이상을 포함하는, 오프 타겟을 예측하는 방법:
상기 하나 이상의 절단 부위(cleavage site)에 대한 게놈 DNA 상에서의 위치(location),
상기 하나 이상의 절단 부위에 대한 절단 점수, 및
절단 부위의 개수
A03. A01 내지 A02 중 어느 하나에 있어서,
이때 상기 오프 타겟 후보에 대한 정보는 다음 중 하나 이상을 포함하는, 오프 타겟을 예측하는 방법:
하나 이상의 오프 타겟 후보에 대한 게놈 DNA 상에서의 위치,
하나 이상의 오프 타겟 후보에 대한 오프 타겟 예측 점수, 및
예측된 오프 타겟 후보의 개수.
A04. A01 내지 A03 중 어느 하나에 있어서,
(ii)에서, 상기 제1 세포를 물리적으로 파괴함을 통해 상기 제1 세포의 세포막을 포함한 막 구조가 파괴되고, 이로써 Cas/gRNA 복합체가 상기 제1 세포의 게놈 DNA에 접촉 가능한 환경이 준비되는 것을 특징으로 하는, 오프 타겟을 예측하는 방법.
A05. A01 내지 A04 중 어느 하나에 있어서,
(ii)에서, 상기 제1 세포를 물리적으로 파괴함을 통해 상기 제1 세포의 핵막을 포함한 막 구조가 파괴되고, 이로써 Cas/gRNA 복합체가 상기 제1 세포의 게놈 DNA에 접촉 가능한 환경이 준비되는 것을 특징으로 하는, 오프 타겟을 예측하는 방법.
A06. A01 내지 A05 중 어느 하나에 있어서,
상기 제1 세포를 물리적으로 파괴함은 상기 제1 세포를 상기 제1 세포의 크기보다 작은 크기의 기공을 갖는 필터를 통과시킴을 포함하고, 이때 상기 제1 세포는 상기 제1 세포의 크기보다 작은 크기의 기공을 통과하면서 파괴되는 것을 특징으로 하는, 오프 타겟을 예측하는 방법.
A07. A01 내지 A06 중 어느 하나에 있어서,
상기 제1 세포를 물리적으로 파괴함은 상기 제1 세포를 포함하는 조성물을 또는 파괴된 세포로부터 유래된 세포 요소를 포함하는 조성물을 상기 제1 세포의 크기보다 작은 크기의 기공을 갖는 필터를 2회 이상 통과시킴을 포함하고, 이때, 상기 제1 세포는 상기 제1 세포의 크기보다 작은 크기의 기공을 통과하면서 파괴되는 것을 특징으로 하는, 오프 타겟을 예측하는 방법.
A08. A06 내지 A07 중 어느 하나에 있어서,
상기 필터는 상기 제1 세포의 크기보다 작은 지름을 갖는 기공을 포함하는, 오프 타겟을 예측하는 방법.
A09. A06 내지 A08 중 어느 하나에 있어서,
상기 필터의 기공의 평균 지름은 상기 제1 세포의 크기보다 작은, 오프 타겟을 예측하는 방법.
A10. A06 내지 A09 중 어느 하나에 있어서,
상기 필터의 기공의 평균 지름은 5 내지 15μm인, 오프 타겟을 예측하는 방법.
A11. A06 내지 A10 중 어느 하나에 있어서,
상기 필터의 기공의 평균 지름은 약 8μm인, 오프 타겟을 예측하는 방법.
A12. A01 내지 A05 중 어느 하나에 있어서,
상기 제1 세포를 물리적으로 파괴함은 익스트루더의 사용을 통해 달성되는 것을 특징으로 하는, 오프 타겟을 예측하는 방법.
A13. A01 내지 A05 및 A12 중 어느 하나에 있어서,
상기 제1 세포를 물리적으로 파괴함은 익스트루더의 사용을 통해 달성되며, 이때 상기 익스트루더에 포함된 필터는 지름이 상기 제1 세포의 크기보다 작은 기공을 포함하는 것을 특징으로 하는, 오프 타겟을 예측하는 방법.
A14. A01 내지 A05 및 A12 내지 A13 중 어느 하나에 있어서,
상기 제1 세포를 물리적으로 파괴함은 익스트루더의 사용을 통해 달성되며, 이때 상기 익스트루더에 포함된 필터의 기공의 평균 지름은 5 내지 15μm인 것을 특징으로 하는, 오프 타겟을 예측하는 방법.
A15. A01 내지 A14 중 어느 하나에 있어서,
(ii)에서, 상기 제1 세포의 물리적 파괴에 의해 노출된 게놈 DNA는 제1 세포-특이적 후생유전학적 특징을 유지하는 것을 특징으로 하는, 오프 타겟을 예측하는 방법.
A16. A01 내지 A15 중 어느 하나에 있어서,
(iii)으로부터 얻은 상기 절단 부위에 대한 정보는 제1 세포-특이적 후생유전학적 특징이 반영된 정보인, 오프 타겟을 예측하는 방법.
A17. A01 내지 A16 중 어느 하나에 있어서,
(iv)에서, 상기 오프 타겟 후보에 대한 정보는 제1 세포-특이적 후생유전학적 특징이 반영된 정보인, 오프 타겟을 예측하는 방법.
A18. A01 내지 A17 중 어느 하나에 있어서,
세포가 파괴됨으로써 세포의 DNA 수선 기작이 망가지며, 이로써 절단된 DNA가 수복되지 않는 것을 특징으로 하는, 오프 타겟을 예측하는 방법.
A19. A01 내지 A18 중 어느 하나에 있어서, 다음을 더 포함하는 오프 타겟을 예측하는 방법:
오프 타겟 예측 대상이 되는 예측 대상 CRISPR/Cas 유전자 편집 시스템을 확인함, 이때 상기 예측 대상 CRISPR/Cas 유전자 편집 시스템은 예측 대상 Cas 단백질의 사용 및 예측 대상 가이드 RNA의 사용을 포함함.
A20. A01 내지 A18 중 어느 하나에 있어서, 다음을 더 포함하는 오프 타겟을 예측하는 방법:
오프 타겟 예측 대상이 되는 예측 대상 CRISPR/Cas 유전자 편집 시스템을 확인함, 이때 상기 예측 대상 CRISPR/Cas 유전자 편집 시스템은 예측 대상 Cas 단백질의 사용 및 예측 대상 가이드 RNA의 사용을 포함하고, 이때 상기 예측 대상 CRISPR/Cas 유전자 편집 시스템의 확인은 (i) 이전에 수행됨.
A21. A19 내지 A20 중 어느 하나에 있어서,
상기 제1 가이드 RNA의 가이드 서열은 상기 예측 대상 가이드 RNA의 가이드 서열과 동일한 서열을 갖는 것을 특징으로 하는, 오프 타겟을 예측하는 방법.
A22. A19 내지 A21 중 어느 하나에 있어서,
상기 예측 대상 CRISPR/Cas 유전자 편집 시스템은 예측 대상 세포의 사용을 포함하고, 이때 상기 제1 세포와 상기 예측 대상 세포는 동일한 것을 특징으로 하는, 오프 타겟을 예측하는 방법.
A23. A01 내지 A22 중 어느 하나에 있어서,
(iii) 상기 분석 대상 조성물을 분석함은 다음을 포함하는 오프 타겟을 예측하는 방법: 상기 분석 대상 조성물에 포함된 DNA를 시퀀싱을 통해 분석함.
A24. A01 내지 A23 중 어느 하나에 있어서,
(iii) 상기 분석 대상 조성물을 분석함은 다음을 포함하는 오프 타겟을 예측하는 방법: 상기 분석 대상 조성물에 포함된 절단된 게놈 DNA를 시퀀싱을 통해 분석함.
A25. A01 내지 A22 중 어느 하나에 있어서,
(iii) 상기 분석 대상 조성물을 분석함은 다음을 포함하는 오프 타겟을 예측하는 방법: 상기 분석 대상 조성물에 포함된 DNA를 PCR 기반 분석 방법을 통해 분석함.
A26. A01 내지 A22 및 A25 중 어느 하나에 있어서,
(iii) 상기 분석 대상 조성물을 분석함은 다음을 포함하는 오프 타겟을 예측하는 방법: 상기 분석 대상 조성물에 포함된 절단된 게놈 DNA를 PCR 기반 분석 방법을 통해 분석함.
A27. A01 내지 A26 중 어느 하나에 있어서,
상기 출발 조성물에 포함된 Cas 단백질의 농도는 5000nM 인 것을 특징으로 하는, 오프 타겟을 예측하는 방법.
A28. A01 내지 A27 중 어느 하나에 있어서,
상기 출발 조성물에 포함된 상기 제1 세포의 농도는 1X107 cells/mL인 것을 특징으로 하는, 오프 타겟을 예측하는 방법.
A29. A01 내지 A28 중 어느 하나에 있어서,
상기 분석 대상 조성물을 얻음은 다음을 더 포함하는, 오프 타겟을 예측하는 방법:
파괴된 세포 요소, Cas 단백질, 및 가이드 RNA를 포함하는 조성물을 인큐베이션함.
A30. A01 내지 A29 중 어느 하나에 있어서,
상기 분석 대상 조성물을 얻음은 다음을 더 포함하는, 오프 타겟을 예측하는 방법:
파괴된 세포 요소, Cas 단백질, 및 가이드 RNA를 포함하는 조성물의 RNA 요소를 제거함.
A31. A01 내지 A30 중 어느 하나에 있어서,
상기 분석 대상 조성물을 얻음은 다음을 더 포함하는, 오프 타겟을 예측하는 방법:
파괴된 세포 요소, Cas 단백질, 및 가이드 RNA를 포함하는 조성물의 DNA를 정제함.
익스트루더의 사용을 특징으로 하는 예시적 실시양태
B01. 다음을 포함하는 CRISPR/Cas 유전자 편집 시스템을 사용하는 게놈 편집 과정에서 발생 가능한 오프 타겟을 예측하는 방법:
(i) 제1 Cas 단백질, 제1 가이드 RNA, 및 제1 세포를 포함하는 출발 조성물을 익스트루더의 제1 수용부에 로딩함;
(ii) 분석 대상 조성물을 얻기 위해 상기 익스트루더를 이용하여 하기의 과정을 포함하는 익스트루젼 과정을 수행함:
(a) 제1 수용부에 압력을 가하여 상기 출발 조성물의 요소를 상기 익스트루더의 제1 수용부로부터 상기 익스트루더의 제2 수용부로 이동시킴,
이때 상기 출발 조성물의 요소는 상기 익스트루더의 제1 수용부와 상기 익스트루더의 제2 수용부 사이에 위치한 기공을 갖는 필터를 가해진 압력을 통해 통과하여 상기 제1 수용부로부터 상기 제2 수용부로 이동하고, 이로써 상기 제2 수용부에 혼합액이 안착됨;
이때 가해진 압력에 의해 필터의 기공의 지름보다 크기가 더 큰 요소인 상기 제1 세포는 파괴되면서 필터의 기공을 통과하고,
이때 상기 제1 세포가 물리적으로 파괴됨을 통해 게놈 DNA와 Cas/gRNA 복합체가 접촉 가능한 환경이 조성되며,
이로써 상기 게놈 DNA와 Cas/gRNA 복합체가 접촉하고,
이로써 상기 게놈 DNA는 하나 이상의 절단 부위에서 절단됨;
(iii) 상기 절단 부위에 대한 정보를 얻기 위해 상기 분석 대상 조성물을 분석함; 및
(iv) CRISPR/Cas 유전자 편집 시스템에서 발생하는 오프 타겟을 예측하기 위해, (iii)으로부터 얻은 상기 절단 부위에 대한 정보로부터 오프 타겟 후보에 대한 정보를 확인함.
B02. B01에 있어서, 상기 (ii)익스트루젼 과정은 다음의 과정을 포함하는 것을 특징으로 하는, 오프 타겟을 예측하는 방법:
(a) 제1 수용부에 압력을 가하여 출발 조성물의 요소를 상기 익스트루더의 제1 수용부로부터 상기 익스트루더의 제2 수용부로 이동시킴,
이때 상기 출발 조성물의 요소는 상기 익스트루더의 제1 수용부와 상기 익스트루더의 제2 수용부 사이에 위치한 기공을 갖는 필터를 가해진 압력을 통해 통과하여 상기 제1 수용부로부터 상기 제2 수용부로 이동하고, 이로써 상기 제2 수용부에 혼합액이 안착됨,
(b) 제2 수용부에 압력을 가하여 제2 수용부에 포함된 혼합액의 요소를 상기 제2 수용부로부터 상기 제1 수용부로 이동시킴,
이때 상기 제2 수용부에 포함된 혼합액의 요소는 제1 수용부와 제2 수용부 사이에 위치한 기공을 갖는 상기 필터를 가해진 압력을 통해 통과하여 제2 수용부로부터 제1 수용부로 이동하고, 이로써 상기 제1 수용부에 제2 수용부로부터 압력에 의해 필터를 거쳐 이동된 혼합액이 안착됨, 및
(c) 미리 결정된 횟수로 (a) 및 (b)의 과정을 반복 수행함,
이때 미리 결정된 횟수는 0.5 단위로 카운팅되며, 0.5는 (a) 또는 (b)의 단일 과정의 수행을 나타냄,
이때 가해진 압력에 의해 필터의 기공의 지름보다 크기가 더 큰 요소인 상기 제1 세포는 파괴되면서 필터의 기공을 통과하고,
이때 상기 제1 세포가 물리적으로 파괴됨을 통해 세포 내의 게놈 DNA와 Cas/gRNA 복합체가 접촉 가능한 환경이 조성되며,
이로써 상기 게놈 DNA와 Cas/gRNA 복합체가 접촉하고,
이로써 상기 게놈 DNA는 하나 이상의 절단 부위에서 절단됨.
B03. B01 내지 B02 중 어느 하나에 있어서,
상기 제1 수용부에 가해지는 압력은 상기 제1 수용부에 압력을 가할 수 있도록 디자인된 피스톤을 제1 수용부와 필터의 방향으로 미는 과정을 통해 생성되는 것을 특징으로 하는, 오프 타겟을 예측하는 방법.
B04. B02에 있어서,
상기 제1 수용부에 가해지는 압력은 상기 제1 수용부에 압력을 가할 수 있도록 디자인된 피스톤을 제1 수용부와 필터의 방향으로 미는 과정을 통해 생성되고,
상기 제2 수용부에 가해지는 압력은 상기 제2 수용부에 압력을 가할 수 있도록 디자인된 피스톤을 제2 수용부와 필터의 방향으로 미는 과정을 통해 생성되는 것을 특징으로 하는, 오프 타겟을 예측하는 방법.
B05. B01 내지 B04 중 어느 하나에 있어서,
이때 상기 절단 부위에 대한 정보는 다음 중 하나 이상을 포함하는, 오프 타겟을 예측하는 방법:
하나 이상의 절단 부위(cleavage site)에 대한 게놈 DNA 상에서의 위치(location),
하나 이상의 절단 부위에 대한 절단 점수, 및
절단 부위의 개수.
B06. B01 내지 B05 중 어느 하나에 있어서,
이때 상기 오프 타겟 후보에 대한 정보는 다음 중 하나 이상을 포함하는, 오프 타겟을 예측하는 방법:
하나 이상의 오프 타겟 후보에 대한 게놈 DNA 상에서의 위치,
하나 이상의 오프 타겟 후보에 대한 오프 타겟 예측 점수, 및
예측된 오프 타겟 후보의 개수.
B07. B01 내지 B06 중 어느 하나에 있어서,
(ii)에서, 상기 제1 세포를 물리적으로 파괴함을 통해 상기 제1 세포의 세포막을 포함한 막 구조가 파괴되고, 이로써 Cas/gRNA 복합체가 상기 제1 세포의 게놈 DNA에 접촉 가능한 환경이 준비되는 것을 특징으로 하는, 오프 타겟을 예측하는 방법.
B08. B01 내지 B07 중 어느 하나에 있어서,
(ii)에서, 상기 제1 세포를 물리적으로 파괴함을 통해 상기 제1 세포의 핵막을 포함한 막 구조가 파괴되고, 이로써 Cas/gRNA 복합체가 상기 제1 세포의 게놈 DNA에 접촉 가능한 환경이 준비되는 것을 특징으로 하는, 오프 타겟을 예측하는 방법.
B09. B01 내지 B08 중 어느 하나에 있어서,
상기 필터는 지름이 상기 제1 세포의 크기보다 작은 기공을 포함하는 것을 특징으로 하는, 오프 타겟을 예측하는 방법.
B10. B01 내지 B09 중 어느 하나에 있어서,
상기 필터의 기공의 평균 지름은 5 내지 15μm인, 오프 타겟을 예측하는 방법.
B11. B01 내지 B10 중 어느 하나에 있어서,
상기 필터의 기공의 평균 지름은 8μm인, 오프 타겟을 예측하는 방법.
B12. B02 내지 B10 중 어느 하나에 있어서,
상기 미리 결정된 횟수는 4 내지 7인 것을 특징으로 하는, 오프 타겟을 예측하는 방법.
B13. B02 내지 B12 중 어느 하나에 있어서,
상기 미리 결정된 횟수는 5.5인 것을 특징으로 하는, 오프 타겟을 예측하는 방법.
B14. B01 내지 B13 중 어느 하나에 있어서,
(ii)에서, 상기 제1 세포의 물리적 파괴에 의해 노출된 게놈 DNA는 제1 세포-특이적 후생유전학적 특징을 유지하는 것을 특징으로 하는, 오프 타겟을 예측하는 방법.
B15. B01 내지 B14 중 어느 하나에 있어서,
(iii)으로부터 얻은 상기 절단 부위에 대한 정보는 제1 세포-특이적 후생유전학적 특징이 반영된 정보인, 오프 타겟을 예측하는 방법.
B16. B01 내지 B15 중 어느 하나에 있어서,
(iv)으로부터 얻어진 오프 타겟 후보에 대한 정보는 제1 세포-특이적 후생유전학적 특징이 반영된 정보인, 오프 타겟을 예측하는 방법.
B17. B01 내지 B16 중 어느 하나에 있어서,
세포가 파괴됨으로써 세포의 DNA 수선 기작이 망가지며, 이로써 절단된 DNA가 수복되지 않는 것을 특징으로 하는, 오프 타겟을 예측하는 방법.
B18. B01 내지 B17 중 어느 하나에 있어서, 다음을 더 포함하는 오프 타겟을 예측하는 방법:
오프 타겟 예측 대상이 되는 예측 대상 CRISPR/Cas 유전자 편집 시스템을 확인함, 이때 상기 예측 대상 CRISPR/Cas 유전자 편집 시스템은 예측 대상 Cas 단백질의 사용 및 예측 대상 가이드 RNA의 사용을 포함함.
B19. B01 내지 B17 중 어느 하나에 있어서, 다음을 더 포함하는 오프 타겟을 예측하는 방법:
오프 타겟 예측 대상이 되는 예측 대상 CRISPR/Cas 유전자 편집 시스템을 확인함, 이때 상기 예측 대상 CRISPR/Cas 유전자 편집 시스템은 예측 대상 Cas 단백질의 사용 및 예측 대상 가이드 RNA의 사용을 포함하고, 이때 상기 예측 대상 CRISPR/Cas 유전자 편집 시스템의 확인은 (i) 이전에 수행됨.
B20. B18 내지 B19 중 어느 하나에 있어서,
상기 제1 가이드 RNA의 가이드 서열은 상기 예측 대상 가이드 RNA의 가이드 서열과 동일한 서열을 갖는 것을 특징으로 하는, 오프 타겟을 예측하는 방법.
B21. B18 내지 B20 중 어느 하나에 있어서,
상기 예측 대상 CRISPR/Cas 유전자 편집 시스템은 예측 대상 세포의 사용을 포함하고, 이때 상기 제1 세포와 상기 예측 대상 세포는 동일한 것을 특징으로 하는, 오프 타겟을 예측하는 방법.
B22. B01 내지 B21 중 어느 하나에 있어서,
(iii) 상기 분석 대상 조성물을 분석함은 다음을 포함하는 오프 타겟을 예측하는 방법: 상기 분석 대상 조성물에 포함된 절단된 게놈 DNA를 시퀀싱을 통해 분석함.
B23. B01 내지 B22 중 어느 하나에 있어서,
(iii) 상기 분석 대상 조성물을 분석함은 다음을 포함하는 오프 타겟을 예측하는 방법: 상기 분석 대상 조성물에 포함된 절단된 게놈 DNA를 시퀀싱을 통해 분석함.
B24. B01 내지 B21 중 어느 하나에 있어서,
(iii) 상기 분석 대상 조성물을 분석함은 다음을 포함하는 오프 타겟을 예측하는 방법: 상기 분석 대상 조성물에 포함된 DNA를 PCR 기반 분석 방법을 통해 분석함.
B25. B01 내지 B21 중 어느 하나에 있어서,
(iii) 상기 분석 대상 조성물을 분석함은 다음을 포함하는 오프 타겟을 예측하는 방법: 상기 분석 대상 조성물에 포함된 절단된 게놈 DNA를 PCR 기반 분석 방법을 통해 분석함.
B26. B01 내지 B25 중 어느 하나에 있어서,
상기 출발 조성물에 포함된 Cas 단백질의 농도는 5000nM인 것을 특징으로 하는, 오프 타겟을 예측하는 방법.
B27. B01 내지 B26 중 어느 하나에 있어서,
상기 출발 조성물에 포함된 상기 제1 세포의 농도는 1X107 cells/mL인 것을 특징으로 하는, 오프 타겟을 예측하는 방법.
B28. B01 내지 B27 중 어느 하나에 있어서,
상기 분석 대상 조성물을 얻기 위해 다음의 과정을 더 포함하는, 오프 타겟을 예측하는 방법:
파괴된 세포 요소, Cas 단백질, 및 가이드 RNA를 포함하는 조성물을 인큐베이션함.
B29. B01 내지 B28 중 어느 하나에 있어서,
상기 분석 대상 조성물을 얻기 위해 다음의 과정을 더 포함하는, 오프 타겟을 예측하는 방법:
파괴된 세포 요소, Cas 단백질, 및 가이드 RNA를 포함하는 조성물의 RNA 요소를 제거함.
B30. B01 내지 B29 중 어느 하나에 있어서,
상기 분석 대상 조성물을 얻기 위해 다음의 과정을 더 포함하는, 오프 타겟을 예측하는 방법:
파괴된 세포 요소, Cas 단백질, 및 가이드 RNA를 포함하는 조성물의 DNA를 정제함.
본 출원의 오프 타겟 예측 시스템의 예상 이용 태양
이하에서는, 본 출원의 오프 타겟 예측 시스템의 예상 이용 태양(통상의 기술자가 본 출원의 오프 타겟 예측 시스템을 이용하는 장면의 예상)에 대하여 비제한적으로 기재한다. 본 출원의 오프 타겟 예측 시스템 (예를 들어, Extru-seq)은 세포를 물리적으로 파괴함을 특징으로 하는 오프 타겟 예측 시스템으로, 기존의 in vitro 기반 오프 타겟 예측 시스템의 장점 및 in vivo 기반 오프 타겟 예측 시스템의 장점을 갖고 있는 보다 효율적이고 보다 정확한 오프 타겟 예측 시스템이다. 이에 따라, 전술한 본 출원의 오프 타겟 예측 시스템의 특징을 이용하고, 유전자 편집 과정에서 발생 가능한 오프 타겟을 확인함의 목적을 달성하기 위해 수행되는 모든 오프 타겟 후보의 확인 방법 또는 오프 타겟의 예측 방법은, 본 출원의 오프 타겟 예측 방법의 하나의 사용 또는 적용 양태로 포함되며, 하기의 예시는 본 출원의 범위를 제한하는 것이 아니다.
예를 들어, 본 출원의 오프 타겟 예측 방법(또는 시스템)은 세포의 게놈 편집을 위해 CRISPR/Cas 유전자 편집 시스템을 사용하는 기술자 또는 연구자에 의해 이용될 수 있다.
예를 들어, 연구자는 세포의 게놈 편집에 사용할 유전자 편집 시스템을 선택한다. 예를 들어, 연구자는 세포의 게놈 편집에 사용할 유전자 편집 시스템으로 CRISPR/Cas 유전자 편집 시스템을 선택한다. 나아가, 연구자는 게놈 편집의 주 목적이 되는 세포를 선택할 수 있다. 세포의 게놈 편집에 사용할 유전자 편집 시스템을 선택하는 과정에서, 적절한 가이드 서열의 디자인을 위해 in silico 기반 오프 타겟 예측 방법이 이용될 수 있다. 여기서, 연구자는 유전자 편집 시스템의 사용을 포함하는 치료제를 개발하고자 한다. 치료제의 개발에서는 선정된 유전자 편집 시스템 (특히 가이드 RNA)의 오프 타겟에 대한 정보가 필수로 확인되어야 한다. 선정된 유전자 편집 시스템을 기초로, 목적에 맞게 본 출원의 오프 타겟을 예측하는 방법의 세부 사항들을 디자인한다. 본 출원의 오프 타겟을 예측하는 방법을 수행하여, 선정된 유전자 편집 시스템의 사용에서 발생 가능한 오프 타겟 후보에 대한 정보를 확인한다. 이후, 확인된 오프 타겟 후보에 대한 정보를 이용하여 선정된 유전자 편집 시스템의 사용에서 문제되는 오프 타겟과 관련된 정보를 확인한다. 구체적으로, 본 출원의 오프 타겟 예측 시스템으로부터 확인된 후보 오프 타겟 부위를 중심으로, 검증하여, 진정한 오프 타겟을 최종적으로 확인한다. 이러한 과정에서, 알려진 오프 타겟 예측 방법 (in silico, in vitro, cell-based 기반 오프 타겟 예측 방법)이 진정한 오프 타겟 부위를 찾기 위해 조합되어 사용될 수 있다.
다른 예로, 본 출원의 오프 타겟 예측 시스템은 유전자 편집 시스템 (특히, 가이드 RNA의 가이드 서열)의 선정 과정에서 이용될 수 있다. 연구자는 다양한 종류의 가이드 RNA를 포함하는 가이드 RNA 라이브러리를 생성한다. 가이드 RNA 라이브러리에 포함된 하나 이상의 가이드 RNA를 포함하는 유전자 편집 시스템에 대하여 본 출원의 오프 타겟 예측 방법을 수행한다. 이후, 본 출원의 오프 타겟 예측 방법의 결과를 바탕으로, 치료제 개발 또는 연구에 사용될 유전자 편집 시스템을 선정한다. 이러한 과정에서, 알려진 오프 타겟 예측 방법 (in silico, in vitro, cell-based 기반 오프 타겟 예측 방법)이 진정한 오프 타겟 부위를 찾기 위해 조합되어 사용될 수 있다.
전술한 바와 같이, 본 출원의 오프 타겟 예측 시스템은 다양한 장면에서 사용될 수 있으며, 오프 타겟 예측 시스템의 사용 양태는 전술한 예시에 제한되지 않는다.
이하, 실험예 또는 실시예를 통해 본 출원이 제공하는 발명에 대해 더욱 상세히 설명한다. 이들 실험예는 오로지 본 출원에 의해 개시되는 내용을 예시하기 위한 것으로, 본 명세서에 의해 개시되는 내용의 범위가 이들 실험예에 의해 제한되는 것으로 해석되지 않는 것은 당업계에서 통상의 지식을 가진 자에게 있어서 자명할 것이다.
실험예
실험 방법
실험 방법 1. 프로미스큐어스 sgRNA (promiscuous sgRNAs)의 디자인
마우스 게놈(mm10)의 PCSK9Albumin 유전자 내에 위치하는 NGG PAM(protospacer adjacent motif)를 포함하는 후보 타겟 서열들이 Cas-Designer (문헌 [Park, Jeongbin, Sangsu Bae, and Jin-Soo Kim. "Cas-Designer: a web-based tool for choice of CRISPR-Cas9 target sites." Bioinformatics 31.24 (2015): 4014-4016.] 참조)를 통해 추출되었다. 추출된 서열은 인간 게놈(hg19)에 대해 정렬되었다. 추출된 서열 중, 추출된 서열을 인간 게놈에 대해 정렬하였을 때 미스매치가 0인 타겟의 개수가 적어도 1개 이상인 서열들이 선택되었다. 선택된 후보는 Cas-OFFinder (문헌 [Bae, Sangsu, Jeongbin Park, and Jin-Soo Kim. "Cas-OFFinder: a fast and versatile algorithm that searches for potential off-target sites of Cas9 RNA-guided endonucleases." Bioinformatics 30.10 (2014): 1473-1475.] 참조)를 통해 분석되었다. 인간 및 마우스 게놈 전반에 걸쳐 광범위하게 분포된, 다양한 수의 미스매치(사이트 별 0 내지 5 까지의 미스매치)를 포함하는 다양한 관련 시퀀스 세트를 갖는 후보가 대상(타겟)으로 선정되었다. 선택된 그리고 이후의 실험에 사용된 프로미스큐어스 sgRNA의 타겟 및 가이드 서열에 대한 정보는 다음과 같다:
마우스 PCSK9를 표적화하는 sgRNA (single-stranded guide RNA)의 타겟 서열 (NGG PAM은 제외됨):
AGGTGGGAAACTGAGGCTT (서열번호 25)
마우스 Albumin을 표적화하는 sgRNA의 타겟 서열 (NGG PAM은 제외됨):
ACATGCATATGTATGTGTG (서열번호 26)
실험 결과에서 후술되는 바와 같이, 이들 sgRNA는 인간 게놈에 존재하는 표적 서열(단, 인간 게놈에서는 PCSK9Albumin 유전자좌가 표적이 아님)에 완벽하게 매치되었다. 비록, 상기 타겟 및 가이드 서열이 인간 게놈에서 PCSK9 또는 Albumin이 아닌 다른 유전자좌를 표적으로 하였으나, 편의상 인간 PCSK9을 표적하는 sgRNA 및 인간 Albumin을 표적하는 sgRNA로 표시한다.
즉, 인간 PCSK9을 표적하는 sgRNA로 지칭되는 프로미스큐어스 sgRNA의 타겟 서열은 마우스 PCSK9을 표적하는 sgRNA의 타겟 서열과 동일하다. 인간 PCSK9을 표적하는 sgRNA의 타겟 서열은 다음과 같다 (NGG PAM은 제외됨): AGGTGGGAAACTGAGGCTT (서열번호 25)
인간 Albumin을 표적하는 sgRNA로 지칭되는 프로미스큐어스 sgRNA의 타겟 서열은 마우스 Albumin을 표적하는 sgRNA의 타겟 서열과 동일하다. 인간 Albumin을 표적하는 sgRNA의 타겟 서열은 다음과 같다 (NGG PAM은 제외됨): ACATGCATATGTATGTGTG (서열번호 26)
실험 방법 2. sgRNA 및 Cas9 발현을 위한 플라스미드 컨스트럭션
Streptococcus pyogenes Cas9 서열(문헌 [Cho, Seung Woo, et al. "Targeted genome engineering in human cells with the Cas9 RNA-guided endonuclease." Nature biotechnology 31.3 (2013): 230-232.] 참조) 및 디자인된 프로미스큐어스 sgRNA 서열 (Albumin을 타겟하는 sgRNA 및 PCSK9을 타겟하는 sgRNA 서열)은 Cas9 (pAAV-Cas9) 및 sgRNA(pAAV-Albumin 및 pAAV-PCSK9) 발현 벡터를 생성하기 위해 이전 연구(문헌 [Kim, Eunji, et al. "In vivo genome editing with a small Cas9 orthologue derived from Campylobacter jejuni." Nature communications 8.1 (2017): 1-12.] 참조)에서 사용된 AAV 플라스미드 백본에 클로닝되었다. Cas9 발현은 CMV 프로모터의 제어 하에서, 그리고 sgRNA의 발현은 U6 프로모터의 제어 하에서 수행되었다. FANCF, VEGFA, 및 HBB 유전자를 표적하는 가이드 서열은 pRG2 벡터(Addgene #104174)에 클로닝되었다.
실험 방법 3. GUIDE-seq
인간 HEK293T 세포 (ATCC, Cat# CRL-3216) 및 마우스 NIH-3T3 세포 (ATCC, Cat# CRL-1658)는 10% 소태아혈청 (FBS) 및 1% 페니실린-스트렙토마이신의 DMEM (Dulbecco's Modified Eagle Medium)에서, 및 5% CO2, 37°C의 조건에서 유지되었다. HEK293T 및 NIH3T3 세포는 80%의 컨플루언시를 유지하기 위해 72시간마다 서브컬쳐하였다. GUIDE-seq을 위해, 2x105 HEK293T 세포가 sgRNA를 발현하는 플라스미드 (500ng, pAAV-Albumin 또는 pAAV-PCSK9) 및 Cas9을 발현하는 플라스미드 (500ng, p3s-Cas9HC; Addgene plasmid #43945) 및 5pmol의 dsODN으로 Lipofectamine 2000을 사용하여 트랜스펙션되었다. 2x105 NIH-3T3 세포가 sgRNA를 발현하는 플라스미드 (250 ng, pAAV-Albumin 또는 pAAV-PCSK)), Cas9을 발현하는 플라스미드 (500 ng, p3s-Cas9HC; Addgene plasmid #43945), 및 100pmol의 dsODN으로 Amaxa P3 electroporation kit (V4XP-3032; program EN-158)를 사용하여 트랜스펙션되었다. 트랜스펙션된 세포를 37°C에서 사전 배양된 DMEM(1mL/well)을 함유하는 24웰 플레이트로 옮겼다. 72시간 후, QIAamp DNA Mini Kit (Qiagen)을 사용하여 게놈 DNA를 분리하였다.
인간 HeLa 세포 (ATCC, Cat# CCL-2)는 10% 소태아혈청 (FBS) 및 1% 페니실린-스트렙토마이신의 DMEM (Dolubecco's Modified Eagle Medium)에서, 및 5% CO2, 37°C의 조건에서 유지되었다. HeLa 세포는 80%의 컨플루언시를 유지하기 위해 72시간마다 서브컬쳐하였다. GUIDE-seq을 위해, 2x105 HeLa 세포가 sgRNA를 발현하는 플라스미드 (500ng, pRG2-FANCF, pRG2-VEGFA 또는 pRG2-HBB), Cas9을 발현하는 플라스미드 (500ng, p3s-Cas9HC; Addgene plasmid #43945), 및 25pmol의 dsODN으로 Amaxa 4D-nucleofector (V4XC-1024; program CN-114)를 사용하여 트랜스펙션되었다. 트랜스펙션된 세포를 37°C에서 사전 배양된 DMEM(1mL/well)을 함유하는 24웰 플레이트로 옮겼다. 72시간 후, QIAamp DNA Mini Kit (Qiagen)을 사용하여 게놈 DNA를 분리하였다.
Covaris 시스템(Duty Factor: 10%, PIP: 50, Cycles per burst: 200, Time: 50 s, Temperature: 20°C)을 사용하여 1000nm의 정제된 DNA를 단편화하고 Ampure XP beads (A63881)를 사용하여 정제하였다. 제조업체의 프로토콜에 따라 NEBNext® Ultra™ II DNA Library Prep Kit for Illumina (E7546L)를 사용하여 DNA로부터 시퀀싱 라이브러리를 생성하였다. 다음으로, dsODN 서열을 함유하는 라이브러리의 영역을 dsODN-specific 프라이머를 사용하여 증폭하고 Miseq(Illumina, TruSeq HT Kit)를 사용하여 서열화(sequenced) 하였다. 나머지 절차는 이전 연구(문헌 [Tsai, Shengdar Q., et al. "GUIDE-seq enables genome-wide profiling of off-target cleavage by CRISPR-Cas nucleases." Nature biotechnology 33.2 (2015): 187-197.] 참조)에서 설명된 것과 같다. 데이터 분석을 위해, Python 3와 호환되는 GUIDE-seq (1.0.2; https://pypi.org/project/guide-seq/)이 사용되었다.
실험 방법 4. sgRNA 전사 및 in vitro 전사 반응을 위한 플라스미드의 컨스트럭션
sgRNA 전사의 수율 및 정확성을 개선하기 위해, 본 출원의 발명자들은 이전에 설명된 방법(문헌 [Kim, Daesik, Beum-Chang Kang, and Jin-Soo Kim. "Identifying genome-wide off-target sites of CRISPR RNA-guided nucleases and deaminases with Digenome-seq." Nature Protocols 16.2 (2021): 1170-1192.] 참조)를 수정하였다. 간략하게, sgRNA 주형은 2개의 상보적 올리고뉴클레오타이드를 어닐링한 후 PCR 증폭에 의해 생성되었다. BamHI, BsaI, 및 KpnI 제한 부위 (restriction site)는 두번째 PCR로 sgRNA 주형의 말단에 부착되었다. 꼬리가 달린 sgRNA 주형을 BamHI 및 Kpnl로 분해된 pUC19 플라스미드에 삽입하였다. sgRNA-암호화 플라스미드는 Bsal에 의해 선형화되었고, 그 결과로 적절한 sgRNA 말단 서열이 생성되었다. 선형화된 플라스미드는 14 mM MgCl2 (NEB, B0510A), 10mM DTT (Sigma, 43816), 0.02U/μl yeast inorganic pyrophosphatase (NEB, M2403L), 1U/μl murine RNase inhibitor (NEB, M0314L), 4mM ATP (NEB, N0451AA), 4mM GTP (NEB, N0452AA), 4mM UTP (NEB, N0453AA), 및 4mM CTP (NEB, N0454AA)를 함유하는 리액션 버퍼(NEB, B9012S)에서 7.5U/μl T7 RNA polymerase (NEB, M0251L)와 함께, 8시간 동안 37°C에서 배양되었다. Yeast inorganic phosphatase는 sgRNA 합성을 향상시키기 위해 포함되었다. 반응 후, 혼합물을 혼합하고 DNA 주형을 제거하기 위해 DNase I과 함께 배양하였다; 그런 다음 전사된 sgRNA를 PCR 정제 키트(Favorgen, #FAGCK001-1)를 사용하여 정제하였다.
실험 방법 5. Digenome-seq
HEK293T (ATCC, Cat# CRL-3216) 및 NIH-3T3 세포(ATCC, Cat# CRL-1658)로부터 게놈 DNA를 DNeasy Blood & Tissue Kit (Qiagen)로 정제하였다. 두가지 게놈 DNA(10μg)를 NEB3 버퍼[100 mM NaCl, 50 mM Tris-HCl, 10 mM MgCl2, 100 μg/mL bovine serum albumin (BSA), at pH 7.9]를 함유하는 반응 용액 1mL에서 Cas9 단백질 (10μg) 및 Albumin 또는 PCSK9을 타겟하는 sgRNA (각각 10 μg)와 함께 배양하였다 (8시간, 37°C). 소화된(digested) 게놈 DNA를 sgRNA를 분해하기 위해 RNase A(50 μg/mL, Qiagen)로 10분동안 처리하고 DNeasy Blood & Tissue Kit (Qiagen)로 정제하였다.
Covaris 시스템 (Life Technologies)을 사용하여 게놈 DNA(1μg)를 300bp 범위로 단편화하고 End Repair Mix(Thermo Fischer)를 사용하여 blunt-ended 하였다. 단편화된 DNA를 어댑터로 연결(ligates)하여 라이브러리를 생성한 다음, 마크로젠에서 HiSeq X Ten Sequencer (Illumina)을 사용하여 WGS에 적용하였다. WGS는 30-40x의 시퀀싱 뎁스(depth)에서 수행되었다. DNA 클리비지 부위는 Digenome 1.0 프로그램을 사용하여 확인하였다 (문헌 [Park, Jeongbin, et al. "Digenome-seq web tool for profiling CRISPR specificity." Nature methods 14.6 (2017): 548-549.] 참조).
실험 방법 6. off-target 사이트의 in silico 예측
Cas-OFFinder를 사용하여, 선택한 sgRNA와 7개 보다 적은 미스매치를 갖는 hg19 게놈 전체의 후보 오프 타겟 부위(genome-wide candidate off-target sites)를 얻었다. CROP 점수 (heuristic scores that indicate if the candidate off-target sites would be edited)는 이전 논문 (문헌 [Liu, Qiaoyue, et al. "Deep learning improves the ability of sgRNA off-target propensity prediction." BMC bioinformatics 21.1 (2020): 1-15.])을 기반으로 CROP 예측 모델 및 최적화된 파라미터 (https://github.com/vaprilyanto/crop)를 사용하여 계산되었다. CFD 점수 (percent activity values provided in a matrix of penalties based on mismatches of each possible type at each position within the guide RNA sequence)는 "crisprScore" R package (문헌 [Doench, John G., et al. "Optimized sgRNA design to maximize activity and minimize off-target effects of CRISPR-Cas9." Nature biotechnology 34.2 (2016): 184-191.] 참조)를 사용하여 계산되었다. 두 계산을 위해, GX19 (GACATGCATATGTATGTGTG (서열번호 27) for Albumin 및 GAGGTGGGAAACTGAGGCTT (서열번호 28) for PCSK9) sgRNA 서열 및 X20 타겟 서열이 사용되었다.
실험 방법 7. Extru-seq
Extru-seq을 준비하기 위해, 전사된 sgRNA는 1X NEBuffer 3.1 reaction buffer (100 mM NaCl, 50 mM Tris-HCl, 10 mM MgCl2, 100 μg/mL BSA, at pH 7.9)에서 리폴딩(refold)되었다. sgRNA를 2분 동안 98°C로 가열한 후, 20°C에 도달할 때까지 0.1°C/s의 속도로 온도를 낮췄다. 고농도의 글리세롤로 인한 반응 억제를 줄이기 위해, Cas9 버퍼(10 mM Tris-HCl, 0.15 M NaCl, 50% glycerol, at pH 7.4)를 용출(elution) 버퍼(100 mM NaCl, 50 mM Tris-HCl, 10 mM MgCl2, at pH 8.0)로 교환하였다. 버퍼 교환은 10K Amicon® Ultra-15 Centrifugal Filter (Millipore)를 통해 수행되었다.
HEK293T (ATCC, Cat# CRL-3216), NIH-3T3 (ATCC, Cat# CRL-1658), 및 HeLa 세포 (ATCC, Cat# CCL-2) 각각을 0.25% 트립신-EDTA로 수확하고 인간 골수 MSCs(human bone marrow mesenchymal stem cell; BM-MSCs) (Lonza, Cat# PT-2501)를 0.05% 트립신-EDTA로 수확하였다. 수확된 세포를 Dulbecco's phosphate-buffered saline (PBS)에 재현탁하였다. 버퍼 교환된 Cas9(800mg) 및 리폴딩된 sgRNA(530μg)을 실온에서 10분 동안 예비 배양하여 RNP 복합체를 형성하였다. (멀티플렉스 Extru-seq의 경우 버퍼 교환된 Cas9 (800mg) 및 다섯개의 다른 리폴딩된 sgRNA (각각 106 μg)이 사용되었다) 1x107 세포를 1 mL 1X NEBuffer 3.1 reaction buffer (100 mM NaCl, 50 mM Tris-HCl, 10 mM MgCl2, 100 μg/mL BSA, at pH 7.9)에서 5000nM RNP 복합체와 혼합하였다. SCR7 존재 하에서 Extur-seq의 수행을 위해, SCR7 pyrazine(Sigma, SML1546) (1μM)가 추가되었다. 부드럽게 피펫팅한 후, 미니 익스트루더 (Avanti Polar Lipids)를 사용하여 8 μm 기공 크기의 폴리카보네이트 맴브레인 필터(whatman)를 통해 부유 세포를 11회 익스트루드(압출, extrude) 하였다. 익스트루드된(extruded) 샘플을 37°C에서 16시간동안 인큐베이션하였다. sgRNA 및 RNA를 제거하기 위해 RNase A (2 mg/mL)를 첨가한 후, FavorPrep Blood Genomic DNA Extraction Mini Kit (Favorgen, #FAGCK001-2)를 사용하여 익스트루드된(extruded) 샘플로부터 게놈 DNA를 정제하였다. WGS(whole genome sequencing)는 30-40x의 시퀀싱 뎁스(depth)에서 수행되었다. WGS는 마크로젠에서 수행되었으며, 제조사의 스탠다드 프로토콜에 따라 Nova-seq 장비를 통해 수행되었다. DNA 클리비지(cleavage) 부위는 Digenome-seq standalone 프로그램 (http://www.rgenome.net/digenome-js/standalone)을 사용하여 확인되었다. 분석 필터링 옵션은 다음과 같다: 최소 뎁스(depth) 10, 최소 점수 0.05, 및 최소 비율 0.01; 다른 옵션은 기본값이었다. 나아가, 본 출원의 발명자들은 새로운 툴의 개발자로서, IGV(Integrative Genomic Viewer)를 사용하여 Extru-seq에서 식별된 모든 부위를 확인하였다. 일부 유전자좌는 거짓 양성(즉, IGV에 따른 비절단 부위 (도 117 내지 도 125 참고)) 후보인 것처럼 보였다. IGV를 사용하여 판별된 거짓 양성(비절단 부위)은 음성으로 처리하고 분석에서 제외하였다. 도 117 내지 125는 Digenome-seq 및 Extru-seq WGS 데이터로부터 매뉴얼하게 제외된 거짓 양성 오프 타겟 부위에 대한 것이다. IGV를 사용하여 시각화되었다. 이러한 거짓 양성은 Digenome-seq 에서도 관찰되었다. 관련 bam 파일은 NCBI Bioproject (https://www.ncbi.nlm.nih.gov/bioproject/) under accession number PRJNA796642을 통해 접근 가능하다.
도 117 내지 도 119와 관련하여, 서열 ACtTGtgTgTGTgTGTGgGGGG (서열번호 49)이 개시된다. 도면에서 미스매치는 소문자로, bulge (존재하는 경우)는 대시로 표시되었다. 도면에서 PAM 서열은 밑줄을 통해 표시되었다.
도 120 내지 도 122와 관련하여, 서열 AtATATATATaTATaTaTGGAG (서열번호 50) (bulge와 관련된 표시는 생략됨)이 개시된다. 도면에서 미스매치는 소문자로, bulge (존재하는 경우)는 대시로 표시되었다. 도면에서 PAM 서열은 밑줄을 통해 표시되었다.
도 123 내지 도 125와 관련하여, 서열 TAgATATATATGaATGgGTaGAG (서열번호 51) (bulge와 관련된 표시는 생략됨)이 개시된다. 도면에서 미스매치는 소문자로, bulge (존재하는 경우)는 대시로 표시되었다. 도면에서 PAM 서열은 밑줄을 통해 표시되었다.
실험 방법 8. CAS-OFFinder 결과에 대한 Digenome-seq 및 Extru-seq의 비표적 결과 할당
GUIDE-seq과 CAS-OFFinder와 달리, 독립형 Digenome-seq 프로그램은 가이드와 오프 타겟 부위 간의 미스매치 수 및 벌지 유형 (DNA or RNA)에 대한 정보를 제공하는 sgRNA:off-target 정렬 기능을 갖고 있지 않다. 웹 버전의 Digenome-seq 분석 도구 (http://www.rgenome.net/digenome-js/#!)는 미스매치 또는 벌지 (bulge) 유형의 수에 대한 정보를 제공하지 않는 정렬 점수가 있는 선택적 정렬 기능을 가진다. 대신, 본 출원의 발명자들은 CAS-OFFinder를 사용하여 타겟 서열과 관련하여 최대 7개의 미스매치 및 2개의 벌지가 있는 오프 타겟 사이트를 식별하였다. Digenome-seq 및 Extru-seq으로 식별된 오프 타겟 후보의 위치가 CAS-OFFinder로 식별된 위치와 비교되었다. CAS-OFFinder 으로부터 얻은 미스매치 및 벌지 유형에 대한 정보를 Digenome-seq 및 Extru-seq에 의해 식별된 유전자좌에 할당할 수 있었다.
실험 방법 9. 인간 세포주를 이용한 Off-target 위치 후보의 검증(Validation)
인간 HEK293T와 HeLa 세포를 각각 10% FBS (ATCC, CRL-3216) 및 1% 페니실린-스트렙토마이신이 보충된 DMEM에서, 37°C, 5% CO2 존재 하에 유지시켰다. 후보 오프 타겟 부위에서 인델 빈도를 결정하기 위해, 2x105 HEK293T 세포 및 8x104 HeLa 세포 각각이 sgRNA를 발현하는 플라스미드(500 ng, pAAV-Albumin, pAAV-PCSK9, pRG2-HBB, pRG2-FANCF or pRG2-VEGFA) 및 Cas9을 발현하는 플라스미드(500 ng, pAAV-Cas9 or p3s-Cas9HC; Addgene plasmid #43945)로 리포펙타민 2000(vendor, amount)을 사용하여 트랜스펙션 되었다. 세포를 37°C에서 3일동안 배양 후, FavorPrep Blood Genomic DNA Extraction Mini Kit (Favorgen, #FAGCK001-2)를 이용하여 게놈 DNA를 준비하였다. 이후, 딥시퀀싱을 통해 타겟 부위 및 잠재적인 오프 타겟 부위를 분석하였다. 딥 시퀀싱 라이브러리는 PCR을 통해 생성되었다. TruSeq HT Dual Index 프라이머가 각 샘플의 라벨을 위해 사용되었다. 풀링된 라이브러리 (pooled libraries)에 MiSeq (Illumina) 사용하여 paired-end sequencing를 수행하였다. 구체적으로, 여러 타겟을 각각 다른 index를 갖는 프라이머를 통해 PCR을 진행하여 합친 후, 딥 시퀀싱 분석을 진행하였다.
딥 시퀀싱 데이터는 NCBI Bioproject (https://www.ncbi.nlm.nih.gov/bioproject/) under accession number PRJNA796642을 통해 접근 가능하다. 본 출원의 발명자들은 타겟이 검증되었는지 또는 거짓인지 확인하기 위해, EDITAS Medicine(문헌 [Maeder, Morgan L., et al. "Development of a gene-editing approach to restore vision loss in Leber congenital amaurosis type 10." Nature medicine 25.2 (2019): 229-233.] 참조)에서 사용되었던 다음 기준을 사용하였다. 첫째, 샘플이 검증되려면 샘플의 인델이 0.1%보다 높아야 한다. 둘째, 처리(treated)/컨트롤(control) 비율이 2보다 높아야 한다. 딥시퀀싱을 통한 오프 타겟 후보에 대한 검증 결과는 표 01에 상세히 개시된다. 검증 대상이 되는 오프 타겟 후보의 타겟과의 미츠매치는 소문자로 표시되었다. 표 01의 Human PCSK9과 관련하여, Human PCSK9에 개시된 1 내지 59번의 오프 타겟 서열에 대하여, 오프 타겟 서열의 개시 순서대로, 74 내지 132의 서열번호가 할당되었다. 표 01의 Human Albumin과 관련하여, Human Albumin에 개시된 1 내지 42번의 오프 타겟 서열에 대하여, 오프 타겟 서열의 개시 순서대로, 133 내지 174의 서열번호가 할당되었다. 표 01의 Mouse PCSK9과 관련하여, Mouse PCSK9에 개시된 1 내지 37번의 오프 타겟 서열에 대하여, 오프 타겟 서열의 개시 순서대로, 175 내지 211의 서열번호가 할당되었다. 표 01의 Mouse Albumin과 관련하여, Mouse Albumin에 개시된 1 내지 38번의 오프 타겟 서열에 대하여, 오프 타겟 서열의 개시 순서대로, 212 내지 249의 서열번호가 할당되었다. 표 01의 Human HBB와 관련하여, Human HBB에 개시된 1 내지 44의 오프 타겟 서열에 대하여, 오프 타겟 서열의 개시 순서대로, 250 내지 293의 서열번호가 할당되었다. 표 01의 Human VEGFA와 관련하여, Human VEGFA에 개시된 1 내지 50번의 오프 타겟 서열에 대하여, 오프 타겟 서열의 개시 순서대로, 294 내지 343의 서열번호가 할당되었다. 표 01의 Human FANCF와 관련하여, Human FANCF에 개시된 1 내지 40번의 오프 타겟 서열에 대하여, 오프 타겟 서열의 개시 순서대로, 344 내지 383의 서열번호가 할당되었다. 이하에서, 표 01이 개시된다.
표 01. 오프 타겟 검증을 위한 표적화된 딥 시퀀싱 결과
Figure PCTKR2023000332-appb-img-000001
Figure PCTKR2023000332-appb-img-000002
Figure PCTKR2023000332-appb-img-000003
Figure PCTKR2023000332-appb-img-000004
Figure PCTKR2023000332-appb-img-000005
Figure PCTKR2023000332-appb-img-000006
Figure PCTKR2023000332-appb-img-000007
Figure PCTKR2023000332-appb-img-000008
Figure PCTKR2023000332-appb-img-000009
Figure PCTKR2023000332-appb-img-000010
Figure PCTKR2023000332-appb-img-000011
Figure PCTKR2023000332-appb-img-000012
Figure PCTKR2023000332-appb-img-000013
Figure PCTKR2023000332-appb-img-000014
실험 방법 10. AAV 생산
원하는 클로닝된 서열(pAAV-PCSK9, pAAV-Albumin, and pAAV-Cas9)을 운반하는 AAV8은 VigeneBioscience에서 대규모로 (1013 genome copies (GC)/mL) 생산되었다. 생성된 AAV는 분주하여 사용할 때까지 -70°C에서 보관하였다.
실험 방법 11. 동물 연구
모든 동물 실험은 연세대학교 의과대학의 IACUC(Institutional Animal Care and Use Committee) (IACUC number 2019-0215)의 승인을 받았다. C57BL/6 마우스는 12:12h 명암 주기로 유지되었다.
실험 방법 12. AAV 주입(injection)
각각, pAAV-Cas9 및 2개의 pAAV-sgRNA (pAAV-PCSK9 또는 pAAV-Albumin) 중 하나를 운반하는 2가지 형태의 AAV8을 전신 (정맥내) 및 망막하 (subretinal) 주입에 의해 C57BL/6 마우스 내로 전달하였다. 두 유형의 주입 모두 1:1 GC (pAAV-Cas9:pAAV-sgRNA) 비율로 수행되었다. 각 용량은 정맥내 주입에 대해서는 2.5 x 1011 GC/animal, 망막하 주입에 대해서는 1.5 x 1010 GC/eye이었다.
전신 주입을 위해, 7 내지 9주령 수컷 마우스에 PBS에 희석된 AAV8 200μl를 꼬리 정맥 주사로 주입하였다. 투여량은 2.5 x 1011 GC AAV8 이었다.
망막하 주입을 위해, 7-9 주령의 수컷 마우스를 선택하였다. 전신 마취 하에, 트로피카미드(tropicamide) 및 페닐에프린(phenylephrine)을 함유하는 안약으로 마우스 당 하나의 동공을 확장시켰다. 실험 기간 동안 발열 패드로 마우스의 체온을 37°C로 유지시켰다. 각막 윤부(limbus of the cornea)로부터 1mm 떨어진 곳에 1/2 30G 니들로 작은 절개를 만들었다. 저항이 느껴지는 지점 (망막하 공간)까지 절개를 통해 AAV8 혼합물을 함유하는 2μl 용액이 로드된 33G의 블런트 니들이 있는 해밀턴 주사기를 삽입하였다. 불필요한 조직의 손상을 방지하기 위해, 조심스럽고 부드럽게 불륨을 주입하였고, 고르게 퍼질 수 있도록 20-30 초 동안 기다린 다음, 주사기를 천천히 제거하였다. 그런 다음 안구 표면에 항생제 연고를 발랐다. 각각의 주사 방법 및 각각의 sgRNA에 대해 4마리의 마우스가 사용되었다.
실험 방법 13. 수확된 장기 및 조직에서 DNA 준비 (preparation)
장기 및 조직은 주사 후 2주 및 3개월 후에 적출하였다. 실험의 종점에서 이소플루란 마취 하에 심장 천자(cardiac puncture)로 동물을 안락사시켰다. 눈, 간, 비장, 폐, 신장, 근육, 뇌, 및 고환을 포함한 장기를 해부하고, 액체 질소에서 급속 냉동하고, -70°C에서 추가 분석이 있을 때까지 보관하였다.
망막하 주사의 경우, 신경망막 및 망막색소상피(retinal pigment epithelium; RPE)를 분리하고 준비하였다. 적출된 안구로부터 각막, 홍채, 수정체, 및 유리체를 제거하였다. 남은 안구 조직을 이알루로니다아제 (hyaluronidase) 용액에서 45분동안 배양하였다 (37°C, 5% CO2). 이후 히알루로니다아제 활성을 비활성화시키기 위해 차가운 PBS에서 30분동안 배양하였다. 다음, 안구 조직을 신선한 PBS로 옮기고 신경 망막을 망막/RPE/맥락막/공막 복합체로부터 부드럽게 분리하였다. 남은 RPE/맥락막/공막 복합체를 트립신 용액에서 37℃, 5% CO2에서 45분동안 배양하고 RPE 시트가 완전히 떨어질 때까지 부드럽게 흔들었다. 모든 분리된 RPE 시트 및 RPE 세포를 수집하였다. 게놈 DNA는 제조사의 지침에 따라 DNeasy Blood & Tissue Kit (Qiagen, Cat No. 69506)를 사용하여 추출되었다.
실험 방법 14. 표적화된 딥시퀀싱 (targeted deep sequencing)
마우스 RPE 세포(Retinal Pigment Epithelial cells)의 게놈 DNA를 제조사의 프로토콜에 따라 REPLI-g Single Cell Kit (Qiagen)로 증폭하였다.
표적화된 딥시퀀싱을 통해 타겟 부위 및 잠재적인 오프 타겟 부위를 분석하였다. 딥 시퀀싱 라이브러리는 PCR을 통해 생성되었다. TruSeq HT Dual Index 프라이머가 각 샘플의 라벨을 위해 사용되었다. 풀링된 라이브러리 (pooled libraries)에 MiSeq (Illumina) 사용하여 paired-end sequencing를 수행하였다. 구체적으로, 여러 타겟을 각각 다른 index를 갖는 프라이머를 통해 PCR을 진행하여 합친 후, 표적화된 딥 시퀀싱 분석을 진행하였다.
실험 방법 15. 통계 분석 (Statistical analysis)
스코어/시퀀스 리드 카운트는 min-max 정규화되었다. 각 집단에서, 최대값은 1로, 최소값은 0으로 정규화되었다. Wilcoxon Rank-Sum Test는 서로 다른 두 그룹의 스코어 메디안(score medians)이 같은지 테스트하기 위해 벤다이어그램의 각 인터섹션에 있는 샘플에 대해 수행되었다. Prism (version 9.4.1)에 의해 계산된 two-sided unpaired Mann-Whitney test의 결과가 표시된다.
실험에 사용된 sgRNA의 핵산 서열 및 spCas9의 아미노산 서열
이하에서는, 사용된 sgRNA의 서열 및 이와 관련된 서열, 그리고 spCas9의 서열이 개시된다. 전술한 바와 같이, 인간 PCSK9을 타겟하는 sgRNA는 인간 게놈에서 PCSK9이 아닌 다른 유전자좌를 표적으로 하였으나, 편의상 인간 PCSK9을 타겟하는 sgRNA로 지칭된다. 인간 Albumin을 타겟하는 sgRNA는 인간 게놈에서 Albumin이 아닌 다른 유전자좌를 표적으로 하였으나, 편의상 인간 Albumin을 타겟하는 sgRNA로 지칭된다.
마우스 PCSK9 을 타겟하는 sgRNA의 전체 서열
GAGGUGGGAAACUGAGGCUUGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU (서열번호 29)
마우스 PCSK9 을 타겟하는 sgRNA의 가이드 서열
GAGGUGGGAAACUGAGGCUU (서열번호 30)
마우스 PCSK9 을 타겟하는 sgRNA의 타겟 서열 (스페이서 비결합 가닥 상의 타겟 서열, PAM 제외)
AGGTGGGAAACTGAGGCTT (서열번호 25)
마우스 Albumin 을 타겟하는 sgRNA의 전체 서열
GACAUGCAUAUGUAUGUGUGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU (서열번호 31)
마우스 Albumin 을 타겟하는 sgRNA의 가이드 서열
GACAUGCAUAUGUAUGUGUG (서열번호 32)
마우스 Albumin 을 타겟하는 sgRNA의 타겟 서열 (스페이서 비결합 가닥 상의 타겟 서열, PAM 제외)
ACATGCATATGTATGTGTG (서열번호 26)
인간 PCSK9 을 타겟하는 sgRNA의 전체 서열
GAGGUGGGAAACUGAGGCUUGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU (서열번호 29)
인간 PCSK9 을 타겟하는 sgRNA의 가이드 서열
GAGGUGGGAAACUGAGGCUU (서열번호 30)
인간 PCSK9 을 타겟하는 sgRNA의 타겟 서열 (스페이서 비결합 가닥 상의 타겟 서열, PAM 제외)
AGGTGGGAAACTGAGGCTT (서열번호 25)
인간 Albumin 을 타겟하는 sgRNA의 전체 서열
GACAUGCAUAUGUAUGUGUGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU (서열번호 31)
인간 Albumin 을 타겟하는 sgRNA의 가이드 서열
GACAUGCAUAUGUAUGUGUG (서열번호 32)
인간 Albumin 을 타겟하는 sgRNA의 타겟 서열 (스페이서 비결합 가닥 상의 타겟 서열, PAM 제외)
ACATGCATATGTATGTGTG (서열번호 26)
FANCF 를 타겟하는 sgRNA의 전제 서열
GGAAUCCCUUCUGCAGCACCGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU (서열번호 33)
FANCF 를 타겟하는 sgRNA의 가이드 서열
GGAAUCCCUUCUGCAGCACC (서열번호 34)
FANCF 를 타겟하는 sgRNA의 타겟 서열 (스페이서 비결합 가닥 상의 타겟 서열, PAM 제외)
GAATCCCTTCTGCAGCACC (서열번호 35)
VEGFA 를 타겟하는 sgRNA의 전체 서열
GGGUGGGGGGAGUUUGCUCCGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU (서열번호 36)
VEGFA 를 타겟하는 sgRNA의 가이드 서열
GGGUGGGGGGAGUUUGCUCC (서열번호 37)
VEGFA 를 타겟하는 sgRNA의 타겟 서열 (스페이서 비결합 가닥 상의 타겟 서열, PAM 제외)
GGTGGGGGGAGTTTGCTCC (서열번호 38)
HBB 를 타겟하는 sgRNA의 전체 서열
GUUGCCCCACAGGGCAGUAAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU (서열번호 39)
HBB 를 타겟하는 sgRNA의 가이드 서열
GUUGCCCCACAGGGCAGUAA (서열번호 40)
HBB 를 타겟하는 sgRNA의 타겟 서열 (스페이서 비결합 가닥 상의 타겟 서열, PAM 제외)
TTGCCCCACAGGGCAGTAA (서열번호 41)
spCas9의 아미노산 서열
IAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD (서열번호 42)
spCas9를 암호화하는 DNA 서열
TGAGCCAGCTGGGCGGCGAC (서열번호 43)
결과
결과 1. 비교 대상으로 사용될 오프-타겟 예측 방법의 선택
게놈 와이드 오프타겟 예측 방법은 그것들의 접근법에 따라 세포 기반(cell-based), 인 비트로 (in vitro), 및 인실리코(in silico)의 세가지 그룹으로 카테고리화될 수 있다. 세가지 그룹의 접근법에 대한 예시는 도 01에 개시된다.
다른 조합의 오프 타겟 예측 방법이 게놈 편집 치료제의 IND 연구에 사용되었다. 게놈 편집 치료제의 IND 연구에 사용된 오프 타겟 예측 방법에 대한 정보는 표 02에 개시된다.
표 02. 유전자 편집 약물 및 IND 연구에 사용된 오프 타겟 예측 방법. (TALEN: Transcription activator-like effector; NA: Not available; LCA10: Leber congenital amaurosis 10; MPS: Mucopolysaccharidosis.)
Figure PCTKR2023000332-appb-img-000015
본 출원의 발명자들은 오프 타겟 예측 방법의 성능을 비교하기 위해, 전술한 카테고리 별로 하나의 방법을 선택하였다. 세포 기반(cell-based) 오프 타겟 예측 방법에서는 GUIDE-seq이 선택되었다. In silico 오프 타겟 예측 방법으로는 CAS-OFFinder가 선택되었다. GUIDE-seq 및 CAS-OFFinder는 EDIT101 및 NTLA-2001을 포함한 Cas9 치료제의 off-target을 예측하기 위해 가장 빈번하게 사용되었기 때문이다. In vitro 오프 타겟 예측 방법으로는 Digenome-seq이 선택되었다. Digenome-seq은 EDIT101의 연구에 사용되었으며, 비교를 위한 이전(previous) 연구가 많은 가장 인기 있는 프로토콜 중 하나이기 때문이다.
결과 2. Extru-seq 개요 및 Extru-seq 조건 최적화
본 출원의 발명자들은, 세포 기반 방법과 in vitro 방법의 긍정적인 특성을 결합한 새로운 방법을 설계하는 것을 목표로 하였다. 이를 위해, 물리적인 힘(physical force)를 이용하여 세포를 용해시키고 게놈 DNA를 Cas9 및 sgRNA를 혼합하는 것을 특징으로 하는, 오프 타겟 예측 방법인 Extru-seq을 개발하였다. 새로운 오프타겟을 예측하는 방법인 Extru-seq의 개요도는 도 02에 개시된다.
예를 들어, 살아있는 HEK294T 또는 NIH-3T3 세포들이 전-배양된 (pre-incubated) Cas9-sgRNA RNP 복합체와 혼합된다. 익스투르더 (extruder) (문헌 [Goh, Wei Jiang, et al. "Bioinspired cell-derived nanovesicles versus exosomes as drug delivery systems: a cost-effective alternative." Scientific reports 7.1 (2017): 1-10.] 참조)의 사용 하에서, 혼합물은 세포 직경보다 작은 기공 크기를 가진 필터 (예를 들어, 필터 페이퍼)를 통과하게 된다. 세포 직경보다 작은 기공 크기를 갖는 필터를 통과하면서 세포(예를 들어, 세포막)은 파괴되며, 이로써 Cas9 RNP가 세포의 게놈 DNA에 접근하게 된다. 도 20 내지 도 21은 Extru-seq에서, 필터의 평균 기공 크기, 및 혼합물의 Cas9 RNP 농도, 및 세포의 개수 등에 대한 최적화 조건을 찾기 위해 수행된 실험의 결과를 개시한다.
구체적으로, 도 20은 겔 전기영동을 통해 분석된, Cas9 RNP와 밤새 배양된 게놈 DNA의 품질을 나타낸다. 다양한 수의 NIH-3T3 세포와 다양한 기공 크기가 테스트되었다. 여기서, 'Con'은 WGS 분석하기에 충분한 퀄리티를 갖는 대조군 게놈 DNA를 나타낸다. 'L'은 래더 DNA를 나타낸다. 도 21은 각각의 1 내지 9 샘플에 대한 정보를 개시한다. 예를 들어, 샘플 8의 조건 (1x107 cells/mL; 8μm pore size)으로 익스트루젼된 샘플의 게놈 DNA에 대한 전기영동 결과는 도 20의 라인 8에 개시된다.
도 22 내지 도 23은 정량적 PCR (quantitative PCR; qPCR)을 통해 측정된, 인간 PCSK9 부위를 타겟팅하는 sgRNA에 의해 인식된 on- 및 off-target 부위에 대한 클리비지율(cleavage rate)을 개시한다. 도 22는 인간 PCSK9을 타겟팅하는 sgRNA이 사용된 샘플의 on-target 및 off-target 2 부위에 대한 클리비지율 결과를 나타낸다. 도 23은 인간 PCSK9을 타겟팅하는 sgRNA이 사용된 샘플의 off-target 4 및 off-target 7 부위에 대한 클리비지율 결과를 개시한다.
본 출원의 발명자들은 본 실험을 통해, 이후의 실험을 위한 Extru-seq의 최적화된 조건을 다음과 같이 결정하였다: 8μM의 기공 크기, 5000nM Cas9 RNP 농도, 및 107 cells. 상기의 최적화된 조건에서, Cas9 RNP와 37°C에서 밤새 배양된 게놈 DNA의 퀄리티는 전 게놈 시퀀싱(whole genome sequencing; WGS) 라이브러리 구축을 위해 충분히 높은 것으로 확인되었다.
결과 3. 압출 (extrusion) 단계 후 NHEJ 수준 측정
본 출원의 발명자들은 Cas9에 의해 절단된 게놈 DNA를 재결찰(re-ligate)하기 위한 DNA 수선 기작이 Extru-seq의 과정에서는 존재하지 않을 것이라는 가설을 세웠다. 실제로, Extru-seq의 과정으로 DNA를 절단하고, 정량적 PCR을 사용하여 표적 부위의 절단율을 측정했을 때 평균 70%의 비율이 관찰되었다. 표적 부위의 절단율에 대한 결과는 도 24 내지 도 31에 개시된다.
도 24 내지 도 30은 절단 패턴 (cleavage pattern)을 밝히기 위해 IGV를 사용하여 분석된 Extru-seq의 WGS 데이터를 나타낸다. 도 24는 인간 PCSK9을 표적화하는 sgRNA를 사용한 결과를 나타낸다. 도 25는 인간 Albumin을 표적화하는 sgRNA를 사용한 결과를 나타낸다. 도 26은 마우스 PCSK9을 표적화하는 sgRNA를 사용한 결과를 나타낸다. 도 27은 마우스 Albumin을 표적화하는 sgRNA를 사용한 결과를 나타낸다. 도 28는 인간 FANCF를 표적화하는 sgRNA를 사용한 결과를 나타낸다. 도 29는 인간 VEGFA를 표적화하는 sgRNA를 사용한 결과를 나타낸다. 도 30은 인간 HBB를 표적화하는 sgRNA를 사용한 결과를 나타낸다.
도 31은 qPCR 및 WGS 데이터의 IGV 분석을 기반으로 한 매뉴얼 계산을 통해 얻어진, 각 타겟의 7개의 on-target 부위의 절단율을 나타낸다. 도 31에서, y축은 절단율 (cut rate)를 나타낸다.
도 24 내지 도 31를 통해 개시되는 결과는 NHEJ와 같은 DNA 복구 매커니즘이 없는 것을 나타내며, Extru-seq이 in vitro에서의 긍정적인 특징을 반영할 수 있음을 나타낸다.
나아가, 본 출원의 발명자들은 익스트루젼(extrusion) 과정 이후 어떤 NHEJ가 발생하는지 또는 NHEJ의 발생 정도를 조사하기 위해 온 타겟 사이트의 절단(cut) 및 비절단(un-cut) 집단을 분석하였다. 첫째로, 만약 NHEJ 프로세스가 익스트루젼 과정 이후의 배양 기간 동안 온전하다면 인델 변이가 비절단 집단에 축적될 것이라는 점에 착안하여, Extru-seq 샘플에서 비절단 집단을 딥시퀀싱을 통해 분석하였다. Cas9 RNP 복합체가 처리된 Extru-seq 샘플에 대한 딥시퀀싱 결과는 Cas9 RNP 복합체가 처리되지 않은 대조군 샘플에 대한 결과와 비교되었다. 비교 결과, 두 샘플간에 큰 차이가 발견되지 않았다. 비절단 집단의 딥시퀀싱 결과는 도 32에 개시된다. 구체적으로, 도 32는 도 24 내지 도 30과 관련된 Extru-seq 샘플의 비절단 집단에 대한, 표적화된 딥시퀀싱(targeted deep sequencing)을 사용하여 측정된, 인델 빈도 (indel frequencies)를 나타낸다. 인델 빈도는 Cas9의 미처리 샘플 및 Cas9 처리 샘플에 대해 측정되었다. 도 32에서, Cas9 미처리 샘플은 Cas9(-)로 표시되며, Cas9 처리 샘플은 Cas9(+)로 표시된다. t-검정으로 unpaired student t-test가 사용되었다. 에러 바는 표준 편자를 나타낸 것이다 (n=3).
이러한 결과는 익스트루젼 과정 이후의 NHEJ의 수준은 유의하지 않음을 시사한다.
둘째로, 멀티플렉스 Digenome-seq (문헌 [Kim, Daesik, et al. "Genome-wide target specificities of CRISPR-Cas9 nucleases revealed by multiplex Digenome-seq." Genome research 26.3 (2016): 406-415.] 참조) 으로부터의 프로토콜을 사용하여, 본 출원의 발명자들은 SCR7 (화학적 DNA 라이게이즈 IV 또는 NHEJ 억제제) (문헌 [Chu, Van Trung, et al. "Increasing the efficiency of homology-directed repair for CRISPR-Cas9-induced precise gene editing in mammalian cells." Nature biotechnology 33.5 (2015): 543-548.] 참조)의 존재 또는 부재하에서 다섯 종류의 다른 온-타겟 부위에서 절단율의 변화를 측정하기 위해 멀티플렉스 Extru-seq을 수행하였다. 만약 NHEJ가 발생한다면, SCR7 존재로 인해 절단율이 증가하며, 이 효과는 배양 단계 중에도 축적된다. 그러나 SCR7의 존재 또는 부재 하에서 5개의 온타겟 부위에서의 평균 절단율의 차이는 유의미하지 않았다. SCR7의 존재 또는 부재와 관련된 결과는 도 33에 개시된다. 구체적으로, 도 33는 5개의 표적 위치에서 qPCR을 사용하여 측정된 절단율%를 나타낸다. 결과는 1μM SCR7의 존재(도 33에서, +SCR7) 또는 부재(도 33에서, -SCR7) 하에서 다중 Extru-seq 사용하여 수득되었다. 그래프에 표시된 수평선은 실험(n=5)에 대한 평균을 나타낸다. t-검정으로 unpaired student t-test가 사용되었다.
이러한 결과는 NHEJ가 온타겟 절단율에 유의한 영향을 미치지 않는다는 것을 추가로 나타낸다.
본 출원의 발명자들은 게놈 DNA 이외의 세포 요소가 여전히 손상되지 않아 절단 패턴이 세포 기반 오프타겟 예측 방법과 유사할 것이라는 가설을 세웠다. 가설을 Extru-seq 결과와 세포 기반 및 in vitro 기반 방법을 비교함으로써 테스트되었다 (뒤에서 개시됨). Extru-seq은 세포 기반 오프 타겟 예측방법의 긍정적 특성(게놈 DNA 이외의 세포 구성 요소들의 온전함) 및 in vitro 오프 타겟 예측 방법의 긍정적 특성 (DNA 복구 매커니즘의 부재)을 모두 반영할 수 있는 오프타겟 예측 방법인 것으로 확인되었다.
결과 4. 프로미스큐어스 가이드 서열의 디자인 및 사용
본 연구의 두번째 목표는 각 방법에 대한 성능 지표를 효과적으로 측정할 수 있는 표준 테스트를 수행하는 것이었다. 이전의 연구는 다른 방법과 비교하기 위해 게놈에서 적은 수의 오프 타겟 위치만을 인식할 것으로 예측되는 가이드 서열을 사용하였다. 그 결과 가이드 서열 검증된 오프 타겟 유전자좌가 적은 수만 발견되어, 통계적으로 의미 있는 유전자좌의 수를 이용하여 서로 다른 예측 방법을 효과적으로 비교하는 것이 어려웠다. 더 최근의 논문 (문헌 [Wienert, Beeke, et al. "Unbiased detection of CRISPR off-targets in vivo using DISCOVER-Seq." Science 364.6437 (2019): 286-289.; 및 Akcakaya, Pinar, et al. "In vivo CRISPR editing with no detectable genome-wide off-target mutations." Nature 561.7723 (2018): 416-419.] 참조)에서는 많은 수의 오프 타겟 유전자좌를 인식할 것으로 예측되는 프로미스큐어스 가이드 서열이 사용되었다. 프로미스큐어스 가이드 서열의 사용을 통해 게놈 와이드 오프 타겟 예측 방법에 대한 강력한 테스트 베드를 제공하였다. 그러나 이들의 프로미스큐어스 가이드 서열은 본 연구에서 사용되지 않았다. 그중 하나는 PCSK9을 표적으로 하는 인간 세포의 서열에 상보적이지 않은 마우스 가이드 서열 (이전 연구로 표시됨)을 포함하였다. VEGFA를 표적으로 하는 다른 하나는 단일 불일치로 예측된 오프 타겟 유전자좌가 부족하였다 (표 03 참고).
이러한 한계를 극복하기 위해, 본 출원의 연구자들은 각각 마우스 게놈의 PCSK9Albumin을 타겟하는 두 종류의 프로미스큐어스 가이드 서열을 검색하였다. 이들은 또한 인간 게놈에 존재하는 표적 서열(단, 인간 게놈에서는 PCSK9Albumin 유전자좌가 표적이 아님)에 완벽하게 매치되었다. 비록, 상기 가이드 서열이 인간 게놈에서 PCSK9 또는 Albumin이 아닌 다른 유전자좌를 표적으로 하였으나, 편의상 인간 PCSK9 및 인간 Albumin으로 표시한다. 인간과 마우스 각각의 게놈에서 이들 프로미스큐어스 가이드 서열에 대한 오프 타겟 서열의 수를 Cas-OFFinder를 사용하여 계산하였다. 선택된 가이드 서열은 두 게놈 모두에서 다수의 오프타겟 서열들과 연관된 것을 확인하였다. 이전 연구에서의 가이드 서열과 본 연구에 사용되는 프로미스큐어스 가이드 서열의 타겟 서열에 대한 정보 및 오프 타겟 부위에 대한 조사 결과는 하기의 표 03에 개시된다. 구체적으로, 표 03은 0 내지 6개의 미스매치를 포함하는 게놈 와이드 오프타겟 유전자좌에 대한 조사 결과를 개시한다. 게놈 hg19 (표 03 (a)) 및 게놈 mm10 (표 03 (b))에서 CAS-OFFinder를 통해 오프 타겟 위치를 예측하였다. 표 03과 관련하여, 서열 GACCCCCTCCACCCCGCCTC (서열번호 72) (VEGFA 타겟 서열), 서열 AGCAGCAGCGGCGGCAACAG (서열번호 73) (PCSK9 타겟 서열, 이전 연구), 서열 ACATGCATATGTATGTGTG (서열번호 26) (Albumin 타겟 서열), 및 서열 AGGTGGGAAACTGAGGCTT (서열번호 25) (PCSK9 타겟 서열)가 개시된다.
표 03. 타겟 서열 또는 가이드 서열에 따른 전 게놈 오프타겟 부위 조사 결과
Figure PCTKR2023000332-appb-img-000016
Figure PCTKR2023000332-appb-img-000017
결과 5. GUIDE-seq, Digenome-seq, in silico method, 및 Extru-seq을 사용한 게놈 와이드 오프타겟 부위의 예측
PCSK9Albumin을 타겟하는 각각의 상기 프로미스큐어스 sgRNA 서열을 사용하여, GUIDE-seq, Digenome-seq, Extru-seq 및 CAS-OFFinder에 기초한 in silico 예측이 수행되었다. 각각의 off-target 예측 시스템은 인간 세포주 (HEK293T) 및 마우스 세포주(NIH-3T3)에 대해서 수행되었다. 결과는 도 34 내지 도 62 및 도 3 내지 도 4에 개시된다.
구체적으로, 도 34 및 도 35는 PCSK9을 타겟팅하는 sgRNA를 사용하여 HEK293T 세포로부터 얻은 GUIDE-seq 결과이다. 도 34 및 도 35에서, 타겟 서열 (PAM 서열 포함) AGGTGGGAAACTGAGGCTTNGG (서열번호 44)이 개시된다.
도 36 및 도 37은 Albumin을 타겟팅하는 sgRNA를 사용하여 HEK293T 세포로부터 얻은 GUIDE-seq 결과이다. 도 36 및 도 37에서, 타겟 서열 (PAM 포함) ACATGCATATGTATGTGTGNGG (서열번호 45)이 개시된다.
도 38 및 도 39는 PCSK9을 타겟팅하는 sgRNA를 사용하여 NIH-3T3 세포로부터 얻은 GUIDE-seq 결과이다. 도 38 및 도 39에서, 타겟 서열 (PAM 포함) AGGTGGGAAACTGAGGCTTNGG (서열번호 44)이 개시된다.
도 40 및 도 41은 Albumin을 타겟팅하는 sgRNA를 사용하여 NIH-3T3 세포로부터 얻은 GUIDE-seq 결과이다. 도 40 및 도 41에서, 타겟 서열 (PAM 포함) ACATGCATATGTATGTGTGNGG (서열번호 45)이 개시된다.
비교적 순위가 낮은 오프 타겟 유전자좌는 GUIDE-seq 분석 프로그램에 의해 해당 도면에서 생략되었다. 생략된 유전자좌는 다른 후속 분석에 포함되었다.
도 42 및 도 43은 PCSK9을 타겟팅하는 sgRNA를 사용하여 HEK293T 세포로부터 얻은 Digenome-seq의 맨하탄 플롯(Manhattan plot) 결과이다. 여기서, y 축은 DNA 절단 점수를 나타낸다.
도 44 및 도 45는 Albumin을 타겟팅하는 sgRNA를 사용하여 HEK293T 세포로부터 얻은 Digenome-seq의 맨하탄 플롯 결과이다. 여기서, y 축은 DNA 절단 점수를 나타낸다.
도 46 및 도 47은 PCSK9을 타겟팅하는 sgRNA를 사용하여 NIH-3T3 세포로부터 얻은 Digenome-seq의 맨하탄 플롯(Manhattan plot) 결과이다. 여기서, y 축은 DNA 절단 점수를 나타낸다.
도 48 및 도 49는 Albumin을 타겟팅하는 sgRNA를 사용하여 NIH-3T3 세포로부터 얻은 Digenome-seq의 맨하탄 플롯(Manhattan plot) 결과이다. 여기서, y 축은 DNA 절단 점수를 나타낸다.
도 50 및 도 51은 PCSK9을 타겟팅하는 sgRNA를 사용하여 HEK293T 세포로부터 얻은 Extru-seq의 맨하탄 플롯(Manhattan plot) 결과이다. 여기서, y 축은 DNA 절단 점수를 나타낸다.
도 52 및 도 53은 Albumin을 타겟팅하는 sgRNA를 사용하여 HEK293T 세포로부터 얻은 Extru-seq의 맨하탄 플롯(Manhattan plot)결과이다. 여기서, y 축은 DNA 절단 점수를 나타낸다.
도 54 및 도 55는 PCSK9을 타겟팅하는 sgRNA를 사용하여 NIH-3T3 세포로부터 얻은 Extru-seq의 맨하탄 플롯(Manhattan plot) 결과이다. 여기서, y 축은 DNA 절단 점수를 나타낸다.
도 56 및 도 57은 Albumin을 타겟팅하는 sgRNA를 사용하여 NIH-3T3 세포로부터 얻은 Extru-seq의 맨하탄 플롯(Manhattan plot) 결과이다. 여기서, y 축은 DNA 절단 점수를 나타낸다.
본 출원의 발명자들은 각각의 sgRNA (인간 PCSK9를 타겟팅하는 sgRNA, 인간 Albumin을 타겟팅하는 sgRNA, 마우스 PCSK9을 타겟팅하는 sgRNA, 마우스 Albumin을 타겟팅하는 sgRNA)의 오프 타겟 부위(후보 오프 타겟 부위)를 GUIDE-seq, Digenome-seq, Extru-seq, in silico 방법을 통해 예측하고, 결과를 비교하였다. 비교 결과는 벤다이어그램을 통해 도 03 내지 도 04에 개시된다. 구체적으로, 도 03은 인간 PCSK9을 타겟팅하는 sgRNA에 대한 비교 결과 및 인간 Albumin을 타겟팅하는 sgRNA에 대한 비교 결과를 개시한다. 도 4는 마우스 PCSK9을 타겟팅하는 sgRNA에 대한 비교 결과 및 마우스 Albumin을 타겟팅하는 sgRNA에 대한 비교 결과를 개시한다. 도 3 및 도 4의 결과와 관련하여, 인간 세포주 (HEK293T) 및 마우스 세포주 (NIH-3T3)가 사용되었다.
GUIDE-seq의 서열 리드 카운트와 Digenome-seq 및 Extru-seq의 DNA 절단 점수(cleavage score)를 사용하여 각 후보 오프 타겟 유전자좌의 순위를 매길 수 있었다. CAS-OFFinder에 기초한 in silico 예측의 경우, 이러한 순위에 사용될 수 있는 점수가 없다. 따라서, 본 출원의 발명자들은 머신러닝 연구(문헌 [Liu, Qiaoyue, et al. "Deep learning improves the ability of sgRNA off-target propensity prediction." BMC bioinformatics 21.1 (2020): 1-15.; 및 Doench, John G., et al. "Optimized sgRNA design to maximize activity and minimize off-target effects of CRISPR-Cas9." Nature biotechnology 34.2 (2016): 184-191.] 참조)의 두가지 다른 스크립트를 사용하여 순위를 매기기 위해 각 후보 오프 타겟 부위에 대한 예측 점수들을 계산하였다. 예측 점수는 다음과 같다: CRISPR Off-target Predictor (CROP) 점수 (후보 오프타겟 부위가 편집되는지 여부를 나타내는 휴리스틱 점수) 및 Cutting Frequency Determination (CFD) 점수 (가이드 RNA 서열 내의 각 위치에서 가능한 각 유형의 미스매치에 기초한 패널티 매트릭스에 제공된 백분율 활성 값). 각 후보 오프 타겟 유전자좌에 대한 서열 리드 카운트, DNA 절단, 및 인실리코 예측 점수의 분포를 가이드 서열과의 미스매치 수에 대해 표로 작성하였다. 가이드 서열과의 미스매치 수에 따른 서열 리드 카운트, DNA 절단 점수, 및 인실리코 예측 점수의 분포의 표는 도 58 내지 도 62에 개시된다.
구체적으로, 도 58은, GUIDE-seq을 이용하여 예측된 온 타겟 및 오프 타겟의 미스매치 개수에 따른 점수(서열 리드 카운트 결과로부터 계산된 점수)와 관련된 결과를 개시한다. x축을 미스매치의 수로 표시하여, 미스매치 개수 별 점수가 도시된다. 즉, 온 타겟 및 오프 타겟 부위에 대한 미스매치 개수는 x 축에 표시된다. 서열 리드 카운트로부터 환산된 점수는 y 축에 표시된다.
도 59는 Digenome-seq을 이용하여 예측된 온 타겟 및 오프 타겟의 미스매치 개수에 따른 점수(맨하탄 플롯의 절단 점수)와 관련된 결과를 개시한다. X 축을 미스매치의 수로 표시하여, 미스매치 개수 별 점수가 도시된다. 즉, 온 타겟 및 오프 타겟 부위에 대한 미스매치 개수는 x축에 표시된다. 절단 점수는 y 축에 표시된다.
도 60은 in silico 시스템을 이용하여 예측된 온 타겟 및 오프 타겟의 미스매치 개수에 따른 점수(CROP 점수)와 관련된 결과를 개시한다. X 축은 미스매치 수로 표시하여, 미스매치 개수 별 점수가 도시된다. 즉, 온 타겟 및 오프 타겟 부위에 대한 미스매치 개수는 x축에 표시된다. CROP 점수는 y 축에 표시된다.
도 61은 in silico 시스템을 이용하여 예측된 온 타겟 및 오프 타겟의 미스매치 개수에 따른 점수(CFD 점수)와 관련된 결과를 개시한다. X 축은 미스매치 수로 표시하여, 미스매치 개수 별 점수가 도시된다. 즉, 온 타겟 및 오프 타겟 부위에 대한 미스매치 개수는 x축에 표시된다. CFD 점수는 y 축에 표시된다.
도 62는 Extru-seq을 이용하여 예측된 온 타겟 및 오프 타겟의 미스매치 개수에 따른 점수(맨하탄 플롯의 절단 점수)와 관련된 결과를 개시한다. X 축을 미스매치의 수로 표시하여, 미스매치 개수 별 점수가 도시된다. 즉, 온 타겟 및 오프 타겟 부위에 대한 미스매치 개수는 x축에 표시된다. 절단 점수는 y 축에 표시된다.
미스매치의 수가 증가함에 따라 대응되는 예측 점수가 감소할 것으로 예상되었다. GUIDE-seq 및 in silico 예측에서는 이러한 경향을 따르는 반면, Digenome-seq 결과에서는 4, 5, 또는 6개의 미스매치가 있는 경우에도 높은 DNA 절단 점수를 갖는 이상값(outliers)이 관찰되었다. Extru-seq의 접근법을 사용하여 오프 타겟 부위 후보에 대한 DNA 절단 점수를 계산한 경우, Digenome-seq의 결과와 달리, 4개 이상의 미스매치가 있는 sgRNA의 오프 타겟 후보의 경우 높은 DNA 절단 점수가 관찰되지 않았다. 이러한 결과는, Extru-seq이 Digenome-seq보다 더 적은 거짓 양성(false positive)를 식별했음을 나타낸다. 본 출원의 발명자들은 최고 점수(top score)를 갖는 오프 타겟 후보의 검증(validation)을 통해 이러한 아이디어를 확인하였다.
결과 6. GUIDE-seq 및 Extru-seq의 검증률(Validation rate)
GUIDE-seq 및 Extru-seq은 높은 검증률(validation rate)를 보였다. 예측된 오프타겟 유전자좌(loci)의 검증(validation)은 인간 세포주 및 마우스 모델에서 수행되었다. 인간 세포주 실험에서는, Cas9 단백질 및 sgRNA를 암호화하는 플라스미드가 HEK293T 세포로 트랜스펙션 되었다. 마우스 실험에서는, Cas9 단백질 및 sgRNA를 암호화하는 서열이 AAV(adeno-associated virus) 세로타입8 (즉, AAV8)에 패키징되었다. 이들 AAV들은 이후 C57BL/6 마우스로, 전신(systemic) 또는 망막하(subretinal) 주입을 통해, 전달되었다. 오직 망막하 주입은 높은 빈도의 온타겟 인델 형성의 빈도를 보였기 때문에, 모델의 망막 색소 상피 세포(Retinal Pigment Epithelial cells)를 검증 실험에 사용하였다.
망막하 주입 및 전신 주입에서의 인델 형성 빈도에 대한 결과를 도 63 및 도 64에 개시한다. 구체적으로, 인델 비율은 PCSK9 또는 Albumin을 표적으로 하는 Cas9 및 sgRNA를 각각 발현하는 2개의 AAV8 벡터를 주사한 C57BL/6 마우스의 장기로부터 얻은 게놈 DNA의 분석을 통해 계산되었다. 도 63 및 도 64에서, iv로 표시된 결과는 전신 주입에 대한 결과를 나타내며, subretinal으로 표시된 결과는 망막하 주입에 대한 결과를 나타낸다. 도 63 및 도 64에서, 오류 막대는 s.e.m (n=3)을 나타낸다. NR은 신경 망막(neural retina), RPE는 망막 색소 상피 세포 (Retinal Pigment Epithelial cells)를 나타낸다.
각 예측 방법의 상위 10개 후보를 표적 딥시퀀싱(targeted deep sequencing)을 사용하여 조사하였다. 조사 결과, Extru-seq 는 92.5%의 검증률을 보였으며, GUIDE-seq 은 97.5%의 검증률을 보였다. 반면, Digenome-seq은 45%의 검증률을 보였으며, in silico 방법은 CROP에서 62.5%, CFD에서 67.5%의 검증률을 보였다. Extru-seq 및 GUIDE-seq이 Digenome-seq 및 in silico 방법에 비해 훨씬 더 높은 검증률을 보였다. 각 예측 방법에 대한 검증률에 대한 결과는 도 05 및 표 04에 개시된다.
구체적으로, 도 05는 in silico 방법, GUIDE-seq, Digenome-seq, 및 Extru-seq 을 통해 예측된 탑(top) 오프 타겟 부위의 검증율을 나타낸다. 이는 PCSK9Albumin을 타겟하는 프로미스큐어스 sgRNA에 대해, 인간 세포 및 마우스 세포에서의 실험 결과를 나타낸다. (*P<0.05, ns, no significance in two-sided unpaired Mann-Whitney test)
하기의 표 04는 각각의 방법을 통해 예측된 10개의 탑 오프 타겟 부위 (인간 PCSK9을 타겟하는 sgRNA, 인간 Albumin을 타겟하는 sgRNA, 마우스 PCSK9을 타겟하는 sgRNA, 마우스 Albumin을 타겟하는 sgRNA가 사용됨)의, 표적 딥 시퀀싱을 통해 얻은 검증 결과를 개시한 것이다. 검증을 위해, 오프 타겟 부위에서의 인델의 빈도는 0.1%보다 높아야 하고, 식 '(Indel frequency at the off-target locus)/(indel frequency in the control with no Cas9 treatment) > 2'가 만족되어야 한다 (문헌 [Frangoul, Haydar, et al. "CRISPR-Cas9 gene editing for sickle cell disease and β-thalassemia." New England Journal of Medicine 384.3 (2021): 252-260.] 참조). *는 타겟이 매뉴얼하게(manually) 확인되었음을 나타낸다. 여기서, 매뉴얼하게 확인된 (오프) 타겟 부위는 Digenome의 소프트웨어를 사용하는 경우 음성으로 판단된 부위 중, IGV 소프트웨어를 사용하는 경우 양성으로 판단된 부위를 의미한다. IGV 소프트웨어를 사용하여 확인 결과, human PCSK9 샘플에서는 1개의 부위가 추가로 확인되었다. Human Albumin 샘플에서는 5개의 부위가 추가로 확인되었다. Mouse PCSK9 샘플에서는 3개의 부위가 추가로 확인되었다. Mouse Albumin 샘플에서는 3개의 부위가 추가로 확인되었다.
표 04. 각 오프 타겟 예측 방법을 통해 예측된 오프 타겟 후보의 부외 (top 10)에 대한 검증 결과
Figure PCTKR2023000332-appb-img-000018
Figure PCTKR2023000332-appb-img-000019
Figure PCTKR2023000332-appb-img-000020
Figure PCTKR2023000332-appb-img-000021
매뉴얼하게 확인된 타겟에 대한 정보는 도 77 내지 도 116에 개시된다. 구체적으로, Extru-seq으로부터 매뉴얼하게 검증된 off-target 부위에 대한 IGV를 사용하여 시각화된 WGS 데이터가 도 77 내지 도 116에 개시된다. 도 77 내지 도 116과 관련하여 오프 타겟 부위의 서열이 개시되며, 가이드 서열과 미스매치되는 서열은 소문자로 표시되었다. PAM 서열은 밑줄을 통해 표시되었다.
도 77 및 도 78과 관련하여, 오프 타겟 부위의 서열 AGGTGGGAAACTGAGGCccAGG (서열번호 52)이 개시된다.
도 79 및 도 80과 관련하여, 오프 타겟 부위의 서열 tgATGCATATGTATGTGTGGaGG (서열번호 53)이 개시된다.
도 81 및 도 82과 관련하여, 오프 타겟 부위의 서열 AaATGCATATGTATGaGTGTGG (서열번호 54)이 개시된다.
도 83 및 도 84과 관련하여, 오프 타겟 부위의 서열 CATGCATATGcATGTGgGAGG (서열번호 55)이 개시된다.
도 85 및 도 86과 관련하여, 오프 타겟 부위의 서열 AgATGCATAgGTATGTGTGTGG (서열번호 56)이 개시된다.
도 87 및 도 88과 관련하여, 오프 타겟 부위의 서열 ACtTGCATATcTATGTGTGTGG (서열번호 57)이 개시된다.
도 89 및 도 90과 관련하여, 오프 타겟 부위의 서열 ccGTGGGAAACTGAGGCTTGGG (서열번호 58)이 개시된다.
도 91 및 도 92과 관련하여, 오프 타겟 부위의 서열 AGGTGGGAAACTGAGGCTgAGG (서열번호 59)이 개시된다.
도 93 및 도 94과 관련하여, 오프 타겟 부위의 서열 AGGaGGGAAACTGAGGCTcAGG (서열번호 60)이 개시된다.
도 95 및 도 96과 관련하여, 오프 타겟 부위의 서열 AaATaCATATGTATGTGTGTGG (서열번호 61)이 개시된다.
도 97 및 도 98과 관련하여, 오프 타겟 부위의 서열 ACATGtATATGTATaTGTGTGG (서열번호 62)이 개시된다.
도 99 및 도 100과 관련하여, 오프 타겟 부위의 서열 ACATatATATGTATGTGTGTGG (서열번호 63)이 개시된다.
도 101 및 도 102과 관련하여, 오프 타겟 부위의 서열 GGGTGGGtGGAGTTTGCTaCTGG (서열번호 64)이 개시된다.
도 103 및 도 104과 관련하여, 오프 타겟 부위의 서열 aGGTGGtGGGAGcTTGtTCCTGG (서열번호 65)이 개시된다.
도 105 및 도 106과 관련하여, 오프 타겟 부위의 서열 GGtgGGGGtGgGTTTGCTCCTGG (서열번호 66)이 개시된다.
도 107 및 도 108과 관련하여, 오프 타겟 부위의 서열 GGGcaaGGGGAGgTTGCTCCTGG (서열번호 67)이 개시된다.
도 109 및 도 110과 관련하여, 오프 타겟 부위의 서열 GGAtTgCCaTCcGCAGCACCTGG (서열번호 68)이 개시된다.
도 111 및 도 112과 관련하여, 오프 타겟 부위의 서열 GGAgTCCCTcCTGCAGCACCTGA (서열번호 69)이 개시된다.
도 113 및 도 114과 관련하여, 오프 타겟 부위의 서열 aGAggCCCcTCTGCAGCACCAGG (서열번호 70)이 개시된다.
도 115 및 도 116과 관련하여, 오프 타겟 부위의 서열 accATCCCTcCTGCAGCACCAGG (서열번호 71)이 개시된다.
결과 7. Extru-seq, GUIDE-seq, Digenome-seq 및 DIG-seq의 추가적 비교
Digenome-seq은 크로마틴 단백질과 같은 요소들이 사라진 정제된 게놈 DNA를 사용한다. 이러한 문제를 극복하기 위하여, 이전의 연구는 DIG-seq으로 명명되는 Digenome-seq의 향상된 버전을 개발하였다. 히스톤-free DNA가 아닌 Cell-free 크로마틴 DNA를 사용하는 DIG-seq은 Digenome-seq보다 더 적은 거짓 양성(false positive)을 예측하였다. DIG-seq 접근법에서 세포를 용해하는데 사용되는 순한 디터젼트(ditergent)는 세포 DNA의 크로마틴 상태에 영향을 미칠 수 있으며, 이는 Cas9 절단 매커니즘에 영향을 미칠 수 있기 때문에, 본 출원의 발명자들은 세포 용해를 위해 물리적 힘을 사용하는 Extru-seq이 DIG-seq에 비해 세포 기반 방법의 더 많은 특성을 반영할 것이라고 예측하였다.
Extru-seq을 다른 in vitro 방법과 비교하기 위해, 본 출원의 발명자들은 HeLa cell에서 FANCF, VEGFA, 및 HBB를 표적화하는 가이드 서열을 사용하여 GUIDE-seq 및 Extru-seq을 수행하였다. FANCF, VEGFA, 및 HBB을 표적화하는 각각의 가이드 서열은 이전의 연구에서 DIG-seq 및 Digenome-seq을 비교하기 위해 사용된 것이다 (문헌 [Kim, Daesik, and Jin-Soo Kim. "DIG-seq: a genome-wide CRISPR off-target profiling method using chromatin DNA." Genome research 28.12 (2018): 1894-1900.] 참조).
HeLa cell에서의 GUIDE-seq 결과는 도 65 내지 도 67에 개시된다 (FANCF, VEGFA, 및 HBB를 표적화하는 sgRNA 사용). 도 65와 관련하여, 타겟 서열 (PAM 포함) GAATCCCTTCTGCAGCACCNGG (서열번호 46)가 개시된다. 도 66과 관련하여, 타겟 서열 (PAM 포함) GGTGGGGGGAGTTTGCTCCNGG (서열번호 47)가 개시된다. 도 67과 관련하여, 타겟 서열 (PAM 포함) TTGCCCCACAGGGCAGTAANGG (서열번호 48)가 개시된다. 구체적으로, 도 65는 FANCF를 타겟하는 sgRNA를 사용하여, GUIDE-seq을 통해 오프 타겟을 예측한 결과(서열 리드 결과)이다. 도 66는 VEGFA를 타겟하는 sgRNA를 사용하여, GUIDE-seq을 통해 오프 타겟을 예측한 결과(서열 리드 결과)이다. 도 67은 HBB를 타겟하는 sgRNA를 사용하여, GUIDE-seq을 통해 오프 타겟을 예측한 결과(서열 리드 결과)이다.
HeLa cell에서의 Extru-seq 결과는 도 68 내지 도 73에 개시된다 (FANCF, VEGFA, 및 HBB를 표적화하는 sgRNA 사용). 구체적으로, 도 68 및 도 69는 FANCF를 타겟하는 sgRNA을 사용하여, Extru-seq을 통해 오프 타겟을 예측한 결과(맨하탄 플롯 결과)이다. 도 70 및 도 71은 VEGFA를 타겟하는 sgRNA를 사용하여, Extru-seq을 통해 오프 타겟을 예측한 결과(맨하탄 플롯 결과)이다. 도 72 및 도 73은 HBB를 타겟하는 sgRNA를 사용하여, Extru-seq을 통해 오프 타겟을 예측한 결과(맨하탄 플롯 결과)이다. y 축은 DNA 절단 스코어를 나타낸다.
도 06 및 도 07은 각 방법(Extru-seq, GUIDE-seq, DIG-seq, Digenome-seq)에 따른 오프 타겟 후보에 대한 결과를 벤 다이어그램을 통해 비교한 것이다 (HeLa cell, human FACNF targeting sgRNA, human VEGFA targeting sgRNA, human HBB targeting sgRNA 사용). 벤 다이어그램을 통한 분석 결과는 Digenome-seq 및 DIG-seq은 다수의 다른 오프타겟 유전자좌(loci)를 예측했음을 나타낸다. 반면에, Extru-seq에 의해 예측된 대부분의 오프 타겟 유전자좌(loci)는 다른 오프 타겟 예측 방법 중 적어도 하나에 의해 식별되었음을 보여준다.
후보 유전자좌가 검증될 수 있는지 확인하기 위해 검사했을 때, Extru-seq은 DIG-seq 및 Digenome-seq 보다 더 높은 검증률을 보였다. 검증 결과는 하기의 표 05에 개시된다.
구체적으로, 표 05 (a)는 인간 FANCF를 타겟하는 sgRNA에 대한 예측된 오프 타겟 부위 top 10의 검증 결과를 나타낸다. 표 05 (b)는 인간 VEGFA를 타겟하는 sgRNA에 대한 예측된 오프 타겟 부위 top 10의 검증 결과를 나타낸다. 표 05 (c)는 인간 HBB를 타겟하는 sgRNA에 대한 예측된 오프 타겟 부위 top 10의 검증 결과를 나타낸다. 표적 딥시퀀싱을 통해 검증되었다. 검증을 위해서는 오프 타겟 부위의 인델 빈도가 0.1%보다 높아야 하며, 식 '(Indel frequency at the off-target locus)/(Indel frequency in the control) > 2'이 만족되어야 한다. 표 05에서 *은 대상이 매뉴얼하게 확인되었음을 나타낸다. 매뉴얼하게 확인된 대상에 대한 결과는 도 101 내지 도 116에 개시된다.
표 05. 각 오프 타겟 예측 방법에 의해 예측된 오프 타겟 부위 (top 10)의 검증 결과
Figure PCTKR2023000332-appb-img-000022
Figure PCTKR2023000332-appb-img-000023
Figure PCTKR2023000332-appb-img-000024
도 08는 각 방법(DIG-seq, Digenome-seq, Extru-seq, 및 GUIDE-seq)으로 예측된 오프 타겟 부위에 대한 검증율을 도시한 것이다. 구체적으로, 도 06 내지 도 07 및 표 06과 관련된 결과의 검증율(validation ratio)을 그래프로 도시한 것이다 (ns, no significance in two-sided unpaired Mann-Whitney test).
결과 8. GUIDE-seq 및 Extru-seq에 의해 예측된 오프타겟 부위의 순위 분포 비교
본 출원의 발명자들은 Extru-seq, 세포 기반, in vitro, 및 in silico 방법으로 얻은 예측 결과가 서로 일치하는 정도를 비교하였다. 각 예측 방법에 대해 상위 10개의 후보 오프 타겟 유전자좌를 표로 작성하고 각각의 다른 방법에서의 이들 유전자좌의 순위를 표로 작성하였다. 이후, 각 방법에서의 오프 타겟 유전자좌의 순위를 비교하였다. 결과는 표 06 내지 표 09에 개시된다. Pair of method에 의해 상위 10개에 속하는 것으로 예측된 유전자좌가 카운트되었으며 공유율이 계산되었다. 이를 통해 top 10 (rank)의 공유 백분율이 계산되었다. 즉, A 방법에서 top 10 오프 타겟 후보가 추출되었으며, A의 top 10 오프 타겟 후보에 대응되는 오프 타겟 후보가 다른 방법 (예를 들어 B 방법)에서 차지하는 랭크를 비교하였다. 다른 방법에서 상기 대응되는 오프타겟 후보가 top10에 해당하는 경우 공유율에 기여하는 것으로 판단하였다. 계산 결과, 대부분의 경우 낮은 유사성 (top 10 공유 백분율의 전체 평균 = 22%)이 관찰되었다. 가장 높은 유사성은 GUIDE-seq과 Extru-seq 쌍 비교 사이에서 일관되게 발견되었다 ((GUIDE-seq 및 Extru-seq 쌍의 top 10 공유 백분율의 평균 = 43%).
표 06. 인간 PCSK9을 표적화하는 sgRNA에 대한 오프 타겟 예측 결과 (in silico, GUIDE-seq, Digenome seq, Extru-seq)
Figure PCTKR2023000332-appb-img-000025
Figure PCTKR2023000332-appb-img-000026
Figure PCTKR2023000332-appb-img-000027
표 07. 인간 Albumin을 표적하는 sgRNA에 대한 오프 타겟 예측 결과 (in silico, GUIDE-seq, Digenome seq, Extru-seq)
Figure PCTKR2023000332-appb-img-000028
Figure PCTKR2023000332-appb-img-000029
Figure PCTKR2023000332-appb-img-000030
표 08. 마우스 PCSK9을 표적하는 sgRNA에 대한 오프 타겟 예측 결과 (in silico, GUIDE-seq, Digenome seq, Extru-seq)
Figure PCTKR2023000332-appb-img-000031
Figure PCTKR2023000332-appb-img-000032
Figure PCTKR2023000332-appb-img-000033
표 09. 마우스 Albumin을 표적하는 sgRNA에 대한 오프 타겟 예측 결과 (in silico, GUIDE-seq, Digenome seq, Extru-seq)
Figure PCTKR2023000332-appb-img-000034
Figure PCTKR2023000332-appb-img-000035
Figure PCTKR2023000332-appb-img-000036
검증되지 않은 부위를 포함하는 모든 오프 타겟 부위에 대한 순위의 비교가 수행될 수도 있다. 벤 다이어그램 (도 03 내지 도 04 및 도 06 내지 도 07)은 분석될 인터섹션(intersection)에 있는 통계적으로 유의미한 수의 후보 오프 타겟 부위를 보여준다. 두가지 방법으로부터 얻어진 결과의 인터섹션(intersection) 내의 유전자좌의 점수에 대한 중앙값의 동등성을 확인하기 위해, 점수/리드 카운트는 min-max 정규화 (min-max normalized)되었고 및 Wilcoxon rank sum test가 수행되었다. 분석 결과는 도 09에 개시된다. 도 09에서, 점선은 p=0.05를 나타낸다. Asymptotic nonparametric Wilcoxon rank tests (문헌 [MUNDRY, ROGER, and JULIA FISCHER. "Use of statistical programs for nonparametric tests of small samples often leads to incorrect Pvalues: examples from animal behaviour." Animal behaviour 56.1 (1998): 256-259.; 및 Dwivedi, Alok Kumar, Indika Mallawaarachchi, and Luis A. Alvarado. "Analysis of small sample size studies using nonparametric bootstrap test with pooled resampling method." Statistics in medicine 36.14 (2017): 2187-2205.] 참조)를 사용하기 위해서는 최소 16개의 샘플 크기가 요구되기 때문에, 16개 미만의 샘플이 있는 인터섹션(intersection)은 이 분석에 포함되지 않았다. 하기의 표 10이 참조된다. 테스트에서 낮은 p-값은 두 모집단의 인터섹션으로부터 나온 유전자좌의 점수들은 다르게 분포하는 것을 나타낸다. GUIDE-seq:Extru-seq 및 DIG-seq:Digenome-seq 쌍의 분포를 제외하고는, 어떤 쌍도 분포가 유사하지 않았으며 n >= 3에서 높은 p 값은 나타내었다. 도 09에서, p-value는 각 오프 타겟 예측 방법 쌍에 대한 normalized rank sum test 로부터 얻어졌다. sgRNA는 Hela cell에서 FANCF, VEGFA, 및 HBB 를 타겟하는 sgRNA, 및 인간 세포 및 마우스 세포에서 PCSK9Albumin을 타겟하는 sgRNA 각각이 사용되었다 (n ≥ 16을 선택하여 분석하였다).
도 09와 관련하여, 하기의 표 10이 개시된다. 표 10은 벤 다이어그램의 인터섹션에서 발견된 샘플의 수를 나타낸 것이다. 각각의 sgRNA (인간 PCSK9, 인간 Albumin, 마우스 PCSK9, 마우스 Albumin, 인간 FANCF, 인간 VEGFA 및 인간 HBB를 타겟하는 sgRNA)에 대하여 표가 개시된다. n >= 16 (16은 asymptotic nonparametric Wilcoxon rank tests에 요구되는 샘플의 최소 수임)이상인 케이스는 밑줄로 표시되었다.
표 10. 도 03 내지 도 04, 및 도 06 내지 도 07의 벤 다이어그램에서, 겹치는 영역에서 발견된 예측된 오프 타겟 후보의 수 (각 방법별로 비교됨)
Figure PCTKR2023000332-appb-img-000037
Figure PCTKR2023000332-appb-img-000038
GUIDE-seq 또는 Extru-seq의 결과와 Digenome-seq 또는 in silico 예측 결과 사이의 불일치는, 높은 수의 가짜 양성으로 인한 Digenome-seq의 낮은 검증 비율 및 머신 러닝 기반 예측 점수와 실제(real world) 실험 값의 불일치로 인한 in silico 예측의 낮은 검증 비율로부터 기인하는 것으로 판단된다. 나아가, DIG-seq:Digenome-seq 쌍은 지속적으로 높은 p 값을 보였기 때문에, 낮은 p 값을 보이는 Digenome-seq:Extru-seq 쌍과는 달리, DIG-seq으로부터 얻은 결과는 in vitro 예측 방법(여기서는 Digenome-seq으로 표시)으로부터 얻은 결과와 유사한 것으로 분석된다. 반면에 Extru-seq으로부터 얻은 결과는 세포 기반 예측 방법(여기서는 GUIDE-seq으로 표시)와 더 유사한 것으로 분석되고, Digenome-seq과 같은 in vitro 예측 방법으로부터 얻은 결과와는 상이한 것으로 분석된다. 왜냐하면, 전술한 바와 같이, GUIDE-seq:Extru-seq 쌍에 대한 결과는 높은 p 값을 보였으며, Extru-seq:Digenome-seq 쌍에 대한 결과는 낮은 p 값을 보였기 때문이다. 이와 관련하여, Extru-seq은 in vitro Digenome-seq의 방법과의 유사성을 상실했다는 점에서, (Digenome-seq과 여전히 유사성을 보여주는) DIG-seq과 구별된다. Digenome-seq, DIG-seq 및 본 실험에 사용된 Extru-seq의 실험 과정은 모두 WGS를 포함하는 반면, GUIDE-seq을 통한 분석은 PCR을 기반으로 수행되기 때문에, Extru-seq이 GUIDE-seq과 유사성을 보이는 이러한 결과는 다소 놀라움을 준다. 이는 게놈 DNA에 Cas9을 처리하는 조건이 분석 절차보다 더 중요함을 보여준다.
결과 9. Extru-seq 및 GUIDE-seq의 미스율(miss rate) 비교
GUIDE-seq을 포함하는 세포 기반 방법은 때때로 진정한(bona-fide) 오프 타겟 후보를 놓치는 것으로 알려져 있다. 본 출원의 발명자들은 Extru-seq 및 GUIDE-seq의 예측과 딥 시퀀싱으로 분석된 샘플에서의 검증된 표적(validated targets) 간의 오버랩을 보여주는 벤 다이어그램을 사용하여 미스율 (또는 다음의 식으로 계산되는 거짓 음성 비율: (거짓 음성의 수)/(거짓 음성의 수 + 참양성의 수))을 계산하였다. 조사 결과 Extru-seq의 평균 미스율은 2.3%로 확인되었으며, GUIDE-seq의 평균 미스율은 29%로 확인되었다 (도 10 내지 도 14 및 표 11 내지 표 17 참고). Extru-seq 및 GUIDE-seq의 미스율에 대한 요약 결과는 도 14의 그래프를 통해 도시된다.
구체적으로, 도 10 내지 도 13은 미스율 확인에 사용된 벤다이어그램을 나타낸다. 구체적으로, 도 10 내지 도 13에 개시된 벤다이어그램은 Extru-seq 및 GUIDE-seq에 의해 예측된 오프 타겟 후보와 검증된 오프 타겟 (validation으로 표시됨)에 대한 비교 결과를 나타낸다. 오프 타겟 예측 및 검증은 (a) 인간 PCSK9를 표적하는 sgRNA (도 10), (b) 인간 Albuimin을 표적하는 sgRNA (도 10), (c) 마우스 PCSK9을 표적하는 sgRNA (도 11), (d) 마우스 Albumin을 표적하는 sgRNA (도 11), (e) 인간 FANCF을 표적하는 sgRNA (도 12), (f) 인간 VEGFA을 표적하는 sgRNA (도 12), 및 (g) 인간 HBB을 표적하는 sgRNA(도 13)을 사용하여 수행되었다. 검증(validation)은 표적 딥시퀀싱을 통해 검증된 타겟(오프 타겟 및 온 타겟)을 나타낸다. 도 10 내지 도 13에서, *는 매뉴얼하게 확인된 오프 타겟 부위의 수를 나타낸다.
도 14는 Extru-seq 및 GUIDE-seq에 대해 조사된 미스율을 그래프로 나타낸 것이다. 미스율은 각 방법에 대해 개시된다. 또한 미스율은 각 sgRNA(인간 PCSK9를 표적하는 sgRNA, 인간 Albuimin을 표적하는 sgRNA, 마우스 PCSK9을 표적하는 sgRNA, 마우스 Albumin을 표적하는 sgRNA, 인간 FANCF을 표적하는 sgRNA, 인간 VEGFA을 표적하는 sgRNA, 및 인간 HBB을 표적하는 sgRNA)에 대해 개시된다. (*: P<0.05 in two-sided unpaired Mann-Whitney test)
도 15는 GUIDE-seq에서 놓친 오프 타겟에 대한 미스매치 수의 분포를 나타낸다.
표 11 내지 표 17를 통해, 각각의 방법(Extru-seq 및 GUIDE-seq)을 통해 예측된 오프 타겟 분석 결과와 딥시퀀싱을 통해 확인된 실제 오프 타겟 분석 결과(도 10 내지 도 14와 관련됨)를 개시한다. 즉, Extru-seq 또는 GUIDE-seq에 의해 예측된 오프 타겟 후보와 딥시퀀싱에 의해 검증된 오프타겟 부위에 대한 결과를 비교한 것이다. (a) 인간 PCSK9를 표적하는 sgRNA, (b) 인간 Albuimin을 표적하는 sgRNA, (c) 마우스 PCSK9을 표적하는 sgRNA, (d) 마우스 Albumin을 표적하는 sgRNA, (e) 인간 FANCF을 표적하는 sgRNA, (f) 인간 VEGFA을 표적하는 sgRNA, 및 (g) 인간 HBB을 표적하는 sgRNA 각각에 대하여 조사되었다. 검증(validation)을 위해서는, 오프 타겟 부위의 인델 빈도가 0.1%보다 높아야하며, 식 '((Indel frequency at the off-target locus)/(Indel frequency in the control) > 2)'가 만족되어야 한다.
표 11 내지 17에서, Target 및 Position의 열은 딥시퀀싱을 통해 검증된 타겟에 대한 정보를 나타낸다. +는 타겟(검증된 온 타겟 또는 오프 타겟)이 표시된 오프 타겟 예측 방법에 의해 예측되었음을 나타낸다. 블랭크 박스는 타겟(온 타겟 또는 오프 타겟)이 표시된 오프 타겟 예측 방법에 의해 예측되지 않았음(즉, 표시된 오프 타겟 예측방법이 검증된 타겟을 놓쳤음)을 나타낸다. 미스율은 식 '(블랭크 박스의 수)/(전체 박스의 수)'를 통해 계산되었다. *는 타겟이 매뉴얼하게 확인되었음을 나타낸다 (도 77 내지 도 116 참고).
표 11. 오프 타겟 예측 방법인 Extru-seq 및 GUIDE-seq의 미스율 확인 결과 (인간 PCSK9를 표적하는 sgRNA에 대한 결과)
Figure PCTKR2023000332-appb-img-000039
Figure PCTKR2023000332-appb-img-000040
표 12. 오프 타겟 예측 방법인 Extru-seq 및 GUIDE-seq의 미스율 확인 결과 (인간 Albuimin을 표적하는 sgRNA에 대한 결과)
Figure PCTKR2023000332-appb-img-000041
표 13. 오프 타겟 예측 방법인 Extru-seq 및 GUIDE-seq의 미스율 확인 결과 (마우스 PCSK9을 표적하는 sgRNA에 대한 결과)
Figure PCTKR2023000332-appb-img-000042
표 14. 오프 타겟 예측 방법인 Extru-seq 및 GUIDE-seq의 미스율 확인 결과 (마우스 Albumin을 표적하는 sgRNA에 대한 결과)
Figure PCTKR2023000332-appb-img-000043
표 15. 오프 타겟 예측 방법인 Extru-seq 및 GUIDE-seq의 미스율 확인 결과 (인간 FANCF을 표적하는 sgRNA에 대한 결과)
Figure PCTKR2023000332-appb-img-000044
표 16. 오프 타겟 예측 방법인 Extru-seq 및 GUIDE-seq의 미스율 확인 결과 (인간 VEGFA을 표적하는 sgRNA에 대한 결과)
Figure PCTKR2023000332-appb-img-000045
표 17. 오프 타겟 예측 방법인 Extru-seq 및 GUIDE-seq의 미스율 확인 결과 (인간 HBB을 표적하는 sgRNA에 대한 결과)
Figure PCTKR2023000332-appb-img-000046
도 10 내지 도 15, 및 표 11 내지 표 17의 미스율과 관련된 결과는 Extru-seq의 민감도가 세포 기반 GUIDE-seq의 방법보다 훨씬 높음을 나타내고, Extru-seq이 실제 오프 타겟 부위를 거의 놓치는 일이 없음을 나타낸다.
본 출원에 개시된 결과를 보면, GUIDE-seq은 1 내지 6개의 미스매치를 포함하는 검증된 오프 타겟 부위를 간과하였다. 따라서, GUIDE-seq에만 의존하는 IND 연구(문헌 [Stadtmauer, Edward A., et al. "CRISPR-engineered T cells in patients with refractory cancer." Science 367.6481 (2020): eaba7365.] 참조)는 유효한 오프 타겟 후보를 간과할 위험이 있다. CTX001의 경우 GUIDE-seq을 보완하기 위해 in silico 방법을 사용하였다 (문헌 [Frangoul, Haydar, et al. "CRISPR-Cas9 gene editing for sickle cell disease and β-thalassemia." New England Journal of Medicine 384.3 (2021): 252-260.] 참조). 그러나, 3개 이하의 미스매치, 또는 2개 이하의 미스매치 및 단일 DNA 또는 RNA 벌지에 대한 게놈 사이트만 컴퓨터로 식별되며, 3개 이상의 미스매치가 있는 유효한 비표적 사이트는 여전히 간과될 위험이 있다.
결과 10. Extru-seq의 ROC (receiver operating characteristic) 커브
예측 모델을 평가하기 위한 강력한 도구 중 하나는 ROC 곡선이다. ROC곡선은 y축과 x 축에 각각 민감도와 특이성을 보여준다. 검증 결과를 이진 분류로 예측하기 위한 메트릭으로, 서열 리드 수(GUIDE-seq), DNA 절단 점수 (Digenome-seq, DIG-seq, and Extru-seq), CDF 점수(CFD) 또는 CROP 점수(CROP)를 사용하여 ROC 곡선을 구성하였다. 각각의 예측 방법에 대한 ROC 곡선은 도 16 내지 도 18에 개시된다. 구체적으로, 도 16 내지 도 18은 GUIDE-seq, Digenome-seq, Extru-seq, CROP, 및 CFD 예측 방법의 ROC 커브를 나타낸다. 도 16(a)는 인간 PCSK9를 표적하는 sgRNA를 사용하여 수행된 예측 방법에 대한 결과를 나타낸다. 도 16(b)는 인간 Albumin을 표적하는 sgRNA를 사용하여 수행된 예측 방법에 대한 결과를 나타낸다. 도 17(c)는 마우스 PCSK9을 표적하는 sgRNA를 사용하여 수행된 예측 방법에 대한 결과를 나타낸다. 도 17(d)는 마우스 Albumin을 표적하는 sgRNA를 사용하여 수행된 예측 방법에 대한 결과를 나타낸다. 도 18(e)는 인간 FANCF를 표적하는 sgRNA를 사용하여 수행된 예측 방법에 대한 결과를 나타낸다. 도 18(f)는 인간 VEGFA를 표적하는 sgRNA를 사용하여 수행된 예측 방법에 대한 결과를 나타낸다. 도 18(g)는 인간 HBB를 표적하는 sgRNA를 사용하여 수행된 예측 방법에 대한 결과를 나타낸다.
도 19는 도 16 내지 도 18에 개시된 결과(ROC 커브 결과)를 통해 계산된, 각 방법의 Area under curve를 나타낸다. Extru-seq은 0.83, GUIDE-seq은 0.81, DIG-seq은 0.80, Digenome-seq은 0.72, CROP은 0.69, CFD는 0.68의 Area under curve 값을 보였다. Error bar는 표준 편차를 나타낸다.
전술한 바와 같이, ROC 곡선의 아래 면적(area under the ROC curves)이 계산되었으며, Extru-seq이 가장 높은 값의 면적을 보였다. 구체적으로, Extru-seq은 0.83, GUIDE-seq은 0.81, DIG-seq은 0.80, Digenome-seq은 0.72, CROP은 0.69, CFD는 0.68의 아래 면적 값을 보였다. 곡선의 아래 면적이 1에 가까울수록, 검증 결과의 예측에서 더 나은 모델인 것을 나타낸다. Extru-seq의 area under ROC curve 값이 가장 높은 것은, Extru-seq의 DNA 절단 점수의 높은 성능을 시사한다. 또한, 다른 임계값 또는 컷오프 값의 사용은 예측되는 오프 타겟 부위의 수에 영향을 줄 수 있다. 높은 area under ROC curve은 Extru-seq에 대한 의미있는 임계값을 찾을 가능성이 다른 방법보다 높다는 것을 나타낸다.
결과 11. Extru-seq의 프라이머리 세포에의 사용
본 출원의 발명자들은 보다 적은 최적화로도 Extru-seq이 프라이머리 세포에 적용될 수 있음을 확인하였다. GUIDE-seq 방법은 DSB(Double strand break) 부위에 이중 가닥 올리고데옥시뉴클레오티드 (double-stranded oligodeoxynucleotides; dsODN)의 높은 삽입률을 요구하며, 이는 일부 세포 유형 및 실험 조건에서 실험적으로 달성되기 어려울 수 있다. 예를 들어, 본 출원의 발명자들은 dsODN의 높은 삽입률을 골수로부터 유래된 프라이머리 중간엽 줄기세포 (mesenchymal stem cells; MSCs)에서 얻을 수 없었다. 이와 달리, Extru-seq은 dsODN의 삽입을 요구하지 않는다. 이러한 Extru-seq의 이점(advantages)을 고려하여, 본 출원의 발명자들은 전술한 인간 PCSK9Albumin을 표적하는 프로미스큐어스 sgRNA를 사용하여, MSCs에 대해 Extru-seq을 수행하였다.
도 74 내지 도 75에 개시되는 벤 다이어그램은 MSCs에 대해 얻은 Extru-seq 결과와 HEK293T 세포에 대해 얻은 Extru-seq 결과 간에 차이가 있음을 나타낸다.
구체적으로 도 74는 인간 PCSK9을 표적하는 sgRNA에 대해 예측된 오프 타겟 부위의 비교 결과를 나타낸다. MSC에 대해 수행된 Extru-seq을 통해 예측된 오프 타겟 부위와 HEK293T에 대해 수행된 Extru-seq을 통해 예측된 오프 타겟 부위는 1213개의 오프 타겟 부위만이 겹치는 것으로 나타났다(세포의 종류에 따라 일부 차이를 보임).
도 75는 인간 Albumin을 표적하는 sgRNA에 대해 예측된 오프 타겟 부위의 비교 결과를 나타낸다. MSC에 대해 수행된 Extru-seq을 통해 예측된 오프 타겟 부위와 HEK293T에 대해 수행된 Extru-seq을 통해 예측된 오프 타겟 부위는 26개의 오프 타겟 부위만이 겹치는 것으로 나타났다 (세포의 종류에 따라 일부 차이를 보임).
MSC 및 HEK293T에서, 각 예측 방법에 대해 조사된 결과를 표 18 및 표 19에 추가로 개시한다. sgRNA로는 전술한 PCSK9Albumin을 표적하는 각각의 sgRNA가 사용되었다. 구체적으로, 표 18은 MSC 세포에서 수행된, 인간 PCSK9을 표적으로 하는 sgRNA에 대한, Extru-seq에 의해 예측된 top 10의 오프 타겟 유전자좌 후보를 나타낸다. 나아가, 상기 Extru-seq의 top10 유전자좌의 다른 예측 방법에 의해 예측된 순위를 나타낸다. Extru-seq의 top 10은 DNA 절단 점수를 바탕으로 도출되었다.
표 18. 세포 및 방법 별 예측된 오프 타겟 후보에 대한 비교 (인간 PCSK9을 타겟하는 sgRNA)
Figure PCTKR2023000332-appb-img-000047
표 19는 HEK293T 세포에서 수행된, 인간 Albumin을 표적으로 하는 sgRNA에 대한, Extru-seq에 의해 예측된 top 10의 오프 타겟 유전자좌 후보를 나타낸다. 나아가, 상기 Extru-seq의 top10 유전자좌의 다른 예측 방법에 의해 예측된 순위를 나타낸다. Extru-seq의 top 10은 DNA 절단 점수를 바탕으로 도출되었다.
표 19. 세포 및 방법 별 예측된 오프 타겟 후보에 대한 비교 (인간 Albumin을 타겟하는 sgRNA)
Figure PCTKR2023000332-appb-img-000048
표 18 및 표 19에 개시된 바와 같이, MSC의 Extru-seq top 10을 기준으로 비교한 경우, 인간 PCSK9을 표적하는 sgRNA와 관련된 결과에서는, Extru-seq top 10(MSC) 와 Extru-seq top 10 (HEK293T)은 30%가 일치하는 것으로 확인되었다.
MSC의 Extru-seq top 10을 기준으로 비교한 경우, 인간 Albumin을 표적하는 sgRNA와 관련된 결과에서는, Extru-seq top 10(MSC) 와 Extru-seq top 10 (HEK293T)은 70%가 일치하는 것으로 확인되었다. 이러한 결과는 Extru-seq에 의해 예측된 genome-wide 오프 타겟 유전자좌가 세포 유형에 따라 다르다는 것을 나타낸다.
벤 다이어그램의 교집합을 정규화된 순위 합계 테스트(normalized rank sum test)를 통해 분석한 결과, Albumin을 표적으로하는 sgRNA에 대한 테스트에서는 높은 p-value가 관찰되었다. 반면에, PCSK9을 표적으로하는 sgRNA에 대한 테스트에서는 낮은 p-value가 관찰되었다 (도 76 참고).
구체적으로, 도 76은 MSC 및 HEK293T 세포에서 PCSK9Albumin을 표적으로 하는 프로미스큐어스 sgRNA에 대한 비표적 예측 방법의, 각 쌍에 대한, 정규화된 순위 합계 검정(normalized rank sum test)에 의해 얻은 p-value를 나타낸다. 이러한 결과는, 세포 유형에 따라 오프 타겟 순위가 바뀔 수도 있고, 바뀌지 않을 수도 있음을 나타낸다.
GUIDE-seq과 같은 세포 기반 방법은 in vitro 및 in silico 방법보다 더 많은 유효한 오프 타겟 후보를 놓치는 것으로 알려져 있다. 본 출원의 발명자들은 Extru-seq의 미스율 (2.33%)이 GUIDE-seq (29.5%)보다 12.6 배 더 낮은 것을 확인하였다. 나아가, 다른 in vitro 방법과 유사하게, Extru-seq은 기원이 다른 다양한 세포 유형이 보편적으로 적용될 수 있음을 확인하였다. DSB 부위에 dsODN의 삽입을 요구하는 GUIDE-seq과는 달리, Extru-seq은 dsODN의 삽입을 필요로 하지 않기 때문이다. Extru-seq은 cell-based 방법의 주요 한계 (높은 미스율과 상이한 세포 유형에 대한 최정화의 필요성) 및 in vitro 방법의 주요 한계 (낮은 검증율 및 세포 유형 특이적 정보의 소실)를 극복하였다. 또한, 검증 결과의 이진 분류기(binary classifier)로서 Extru-seq의 강력한 성능은 Extru-seq에 대한 area under ROC curves에 의해 뒷받침되었다. 이에, Extru-seq은 다양한 세포 유형 및 환자별 임상 안전성 테스트에서 오프 타겟 부위의 포괄적인 목록을 얻기 위한 균형 잡힌 방법으로서 강력한 후보가 될 것으로 예측된다.
대부분의 세포 기반(cell-based) 방법은 '대리(surrogate)' 세포주를 사용하여 인간 임상 샘플에 대한 게놈 전체의 오프타겟 위치(genome-wide off-target sites)를 예측한다. 그러나 HEK293T 세포와 MSC에 대한 Extru-seq의 결과의 비교에 의해 생각될 수 있는 것처럼, 분열하는 in vitro 세포주와 대부분의 분열하지 않는 in vivo 세포 사이에는 염색질 및 후생유전학적 상태에 차이가 있을 수 있다. 따라서, Extru-seq을 통해 대리 세포주가 아닌 임상적으로 더 관련성이 높은 세포로 오프 타겟 예측을 수행하는 것이 바람직하다. 최근, 두가지 세포 기반 방법 DISCOVER-seq (문헌 [Wienert, Beeke, et al. "Unbiased detection of CRISPR off-targets in vivo using DISCOVER-Seq." Science 364.6437 (2019): 286-289.] 참조), 및 GUIDE-tag (문헌 [Liang, Shun-Qing, et al. "Genome-wide detection of CRISPR editing in vivo using GUIDE-tag." Nature communications 13.1 (2022): 1-14.] 참조)가 마우스 모델의 생체 내에서 직접 수행되었다. 그러나, 인간 치료제에 대한 전임상 연구의 경우, 이러한 방법을 인간 장기에서 직접 수행하는 것은 거의 불가능하다. Extru-seq은 특정 환자나 장기에서 분리된 프라이머리 인간 세포에서 수행될 수 있다는 장점이 있다. 본 출원의 실험예에서는 Extru-seq의 익스트루젼 이후의 게놈 분석 방법으로 WGS(whole genome sequencing)를 사용하였다. 본 출원의 실험예에 개시된 방법에 제한되지 않고, 익스트루젼 이후의 게놈 분석 (예를 들어, DNA 절단 위치의 분석)을 위해 PCR 기반 증폭 프로토콜(예를 들어, SITE-seq에 사용된 PCR 기반 증폭 프로토콜, 문헌 [Cameron, Peter, et al. "Mapping the genomic landscape of CRISPR-Cas9 cleavage." Nature methods 14.6 (2017): 600-606.] 참조) 등과 같은 다른 방법 또한 사용될 수 있음이 강력히 예언된다. 나아가, Extru-seq의 최적화를 위해, 사용되는 알고리즘의 최적화(예를 들어, 분석 감도를 증가시키기 위한 알고리즘의 최적화), Extruder의 최적화 (예를 들어, extruder의 사이즈, 비용, 처리량의 최적화 등) 등이 수행될 수 있음이 강력히 예언된다. 본 출원의 출원일 이후로 개발되는, 본 출원에 개시된 Extru-seq의 발명적 사상을 계승하는 발명은, 본 출원의 범위에 포함될 것이다. 나아가, Extru-seq은, Cas9 매개 대규모 결실, 크로모좀 고갈 및 전좌 등을 감지하기 위해, 최근에 개발된 CAST-seq(문헌 [Turchiano G, Andrieux G, Klermund J, Blattner G, Pennucci V, El Gaz M, Monaco G, Poddar S, Mussolino C, Cornu TI et al: Quantitative evaluation of chromosomal rearrangements in gene-edited human stem cells by CAST-Seq. Cell Stem Cell 2021, 28(6):1136-1147 e1135.] 참조)과 같은 도구와 함께 사용될 수 있을 것이다.
이하에서는, 본 명세서에서 참조된 레퍼런스 문헌의 일부를 개시한다. 본 명세서에서 참조된 문헌은 해당 참조와 관련된 단락에 언급되었거나, 또는 언급되지 않았을 수 있다.
레퍼런스
1. Mullard A: Gene-editing pipeline takes off. Nat Rev Drug Discov 2020, 19(6):367-372.
2. Tsai SQ, Zheng Z, Nguyen NT, Liebers M, Topkar VV, Thapar V, Wyvekens N, Khayter C, Iafrate AJ, Le LP et al: GUIDE-seq enables genome-wide profiling of off-target cleavage by CRISPR-Cas nucleases. Nat Biotechnol 2015, 33(2):187-197.
3. Liang SQ, Liu P, Smith JL, Mintzer E, Maitland S, Dong X, Yang Q, Lee J, Haynes CM, Zhu LJ et al: Genome-wide detection of CRISPR editing in vivo using GUIDE-tag. Nat Commun 2022, 13(1):437.
4. Wienert B, Wyman SK, Richardson CD, Yeh CD, Akcakaya P, Porritt MJ, Morlock M, Vu JT, Kazane KR, Watry HL et al: Unbiased detection of CRISPR off-targets in vivo using DISCOVER-Seq. Science 2019, 364(6437):286-289.
5. Yan WX, Mirzazadeh R, Garnerone S, Scott D, Schneider MW, Kallas T, Custodio J, Wernersson E, Li Y, Gao L et al: BLISS is a versatile and quantitative method for genome-wide profiling of DNA double-strand breaks. Nat Commun 2017, 8:15058.
6. Crosetto N, Mitra A, Silva MJ, Bienko M, Dojer N, Wang Q, Karaca E, Chiarle R, Skrzypczak M, Ginalski K et al: Nucleotide-resolution DNA double-strand break mapping by next-generation sequencing. Nat Methods 2013, 10(4):361-365.
7. Wang X, Wang Y, Wu X, Wang J, Qiu Z, Chang T, Huang H, Lin RJ, Yee JK: Unbiased detection of off-target cleavage by CRISPR-Cas9 and TALENs using integrase-defective lentiviral vectors. Nat Biotechnol 2015, 33(2):175-178.
8. Chiarle R, Zhang Y, Frock RL, Lewis SM, Molinie B, Ho YJ, Myers DR, Choi VW, Compagno M, Malkin DJ et al: Genome-wide translocation sequencing reveals mechanisms of chromosome breaks and rearrangements in B cells. Cell 2011, 147(1):107-119.
9. Petri K, Kim DY, Sasaki KE, Canver MC, Wang X, Shah H, Lee H, Horng JE, Clement K, Iyer S et al: Global-scale CRISPR gene editor specificity profiling by ONE-seq identifies population-specific, variant off-target effects. bioRxiv 2021:2021.2004.2005.438458.
10. Kim HS, Hwang GH, Lee HK, Bae T, Park SH, Kim YJ, Lee S, Park JH, Bae S, Hur JK: CReVIS-Seq: A highly accurate and multiplexable method for genome-wide mapping of lentiviral integration sites. Mol Ther Methods Clin Dev 2021, 20:792-800.
11. Breton C, Clark PM, Wang L, Greig JA, Wilson JM: ITR-Seq, a next-generation sequencing assay, identifies genome-wide DNA editing sites in vivo following adeno-associated viral vector-mediated genome editing. BMC Genomics 2020, 21(1):239.
12. Huang H, Hu Y, Huang G, Ma S, Feng J, Wang D, Lin Y, Zhou J, Rong Z: Tag-seq: a convenient and scalable method for genome-wide specificity assessment of CRISPR/Cas nucleases. Commun Biol 2021, 4(1):830.
13. Kim D, Bae S, Park J, Kim E, Kim S, Yu HR, Hwang J, Kim JI, Kim JS: Digenome-seq: genome-wide profiling of CRISPR-Cas9 off-target effects in human cells. Nat Methods 2015, 12(3):237-243, 231 p following 243.
14. Kim D, Kim JS: DIG-seq: a genome-wide CRISPR off-target profiling method using chromatin DNA. Genome Res 2018, 28(12):1894-1900.
15. Cameron P, Fuller CK, Donohoue PD, Jones BN, Thompson MS, Carter MM, Gradia S, Vidal B, Garner E, Slorach EM et al: Mapping the genomic landscape of CRISPR-Cas9 cleavage. Nat Methods 2017, 14(6):600-606.
16. Tsai SQ, Nguyen NT, Malagon-Lopez J, Topkar VV, Aryee MJ, Joung JK: CIRCLE-seq: a highly sensitive in vitro screen for genome-wide CRISPR-Cas9 nuclease off-targets. Nat Methods 2017, 14(6):607-614.
17. Lazzarotto CR, Malinin NL, Li Y, Zhang R, Yang Y, Lee G, Cowley E, He Y, Lan X, Jividen K et al: CHANGE-seq reveals genetic and epigenetic effects on CRISPR-Cas9 genome-wide activity. Nat Biotechnol 2020, 38(11):1317-1327.
18. Bae S, Park J, Kim JS: Cas-OFFinder: a fast and versatile algorithm that searches for potential off-target sites of Cas9 RNA-guided endonucleases. Bioinformatics 2014, 30(10):1473-1475.
19. Montague TG, Cruz JM, Gagnon JA, Church GM, Valen E: CHOPCHOP: a CRISPR/Cas9 and TALEN web tool for genome editing. Nucleic Acids Res 2014, 42(Web Server issue):W401-407.
20. Concordet JP, Haeussler M: CRISPOR: intuitive guide selection for CRISPR/Cas9 genome editing experiments and screens. Nucleic Acids Res 2018, 46(W1):W242-W245.
21. Shapiro J, Iancu O, Jacobi AM, McNeill MS, Turk R, Rettig GR, Amit I, Tovin-Recht A, Yakhini Z, Behlke MA et al: Increasing CRISPR Efficiency and Measuring Its Specificity in HSPCs Using a Clinically Relevant System. Mol Ther Methods Clin Dev 2020, 17:1097-1107.
22. Gillmore JD, Gane E, Taubel J, Kao J, Fontana M, Maitland ML, Seitzer J, O'Connell D, Walsh KR, Wood K et al: CRISPR-Cas9 In Vivo Gene Editing for Transthyretin Amyloidosis. N Engl J Med 2021, 385(6):493-502.
23. Maeder ML, Stefanidakis M, Wilson CJ, Baral R, Barrera LA, Bounoutas GS, Bumcrot D, Chao H, Ciulla DM, DaSilva JA et al: Development of a gene-editing approach to restore vision loss in Leber congenital amaurosis type 10. Nat Med 2019, 25(2):229-233.
24. Poirot L, Philip B, Schiffer-Mannioui C, Le Clerre D, Chion-Sotinel I, Derniame S, Potrel P, Bas C, Lemaire L, Galetto R et al: Multiplex Genome-Edited T-cell Manufacturing Platform for "Off-the-Shelf" Adoptive T-cell Immunotherapies. Cancer Res 2015, 75(18):3853-3864.
25. MacLeod DT, Antony J, Martin AJ, Moser RJ, Hekele A, Wetzel KJ, Brown AE, Triggiano MA, Hux JA, Pham CD et al: Integration of a CD19 CAR into the TCR Alpha Chain Locus Streamlines Production of Allogeneic Gene-Edited CAR T Cells. Mol Ther 2017, 25(4):949-961.
26. Stadtmauer EA, Fraietta JA, Davis MM, Cohen AD, Weber KL, Lancaster E, Mangan PA, Kulikovskaya I, Gupta M, Chen F et al: CRISPR-engineered T cells in patients with refractory cancer. Science 2020, 367(6481).
27. Goh WJ, Zou S, Ong WY, Torta F, Alexandra AF, Schiffelers RM, Storm G, Wang JW, Czarny B, Pastorin G: Bioinspired Cell-Derived Nanovesicles versus Exosomes as Drug Delivery Systems: a Cost-Effective Alternative. Sci Rep 2017, 7(1):14322.
28. Kim D, Kim S, Park J, Kim JS: Genome-wide target specificities of CRISPR-Cas9 nucleases revealed by multiplex Digenome-seq. Genome Res 2016, 26(3):406-415.
29. Chu VT, Weber T, Wefers B, Wurst W, Sander S, Rajewsky K, Kuhn R: Increasing the efficiency of homology-directed repair for CRISPR-Cas9-induced precise gene editing in mammalian cells. Nat Biotechnol 2015, 33(5):543-548.
30. Akcakaya P, Bobbin ML, Guo JA, Malagon-Lopez J, Clement K, Garcia SP, Fellows MD, Porritt MJ, Firth MA, Carreras A et al: In vivo CRISPR editing with no detectable genome-wide off-target mutations. Nature 2018, 561(7723):416-419.
31. Liu Q, Cheng X, Liu G, Li B, Liu X: Deep learning improves the ability of sgRNA off-target propensity prediction. BMC Bioinformatics 2020, 21(1):51.
32. Doench JG, Fusi N, Sullender M, Hegde M, Vaimberg EW, Donovan KF, Smith I, Tothova Z, Wilen C, Orchard R et al: Optimized sgRNA design to maximize activity and minimize off-target effects of CRISPR-Cas9. Nat Biotechnol 2016, 34(2):184-191.
33. Mundry R, Fischer J: Use of statistical programs for nonparametric tests of small samples often leads to incorrect P values: examples from animal behaviour. . Animal Behaviour 1998, 56:256-259.
34. Dwivedi AK, Mallawaarachchi I, Alvarado LA: Analysis of small sample size studies using nonparametric bootstrap test with pooled resampling method. Stat Med 2017, 36(14):2187-2205.
35. Frangoul H, Altshuler D, Cappellini MD, Chen YS, Domm J, Eustace BK, Foell J, de la Fuente J, Grupp S, Handgretinger R et al: CRISPR-Cas9 Gene Editing for Sickle Cell Disease and beta-Thalassemia. N Engl J Med 2020, 384(3):252-260.
36. Turchiano G, Andrieux G, Klermund J, Blattner G, Pennucci V, El Gaz M, Monaco G, Poddar S, Mussolino C, Cornu TI et al: Quantitative evaluation of chromosomal rearrangements in gene-edited human stem cells by CAST-Seq. Cell Stem Cell 2021, 28(6):1136-1147 e1135.
37. Park J, Bae S, Kim JS: Cas-Designer: a web-based tool for choice of CRISPR-Cas9 target sites. Bioinformatics 2015, 31(24):4014-4016.
38. Cho SW, Kim S, Kim JM, Kim JS: Targeted genome engineering in human cells with the Cas9 RNA-guided endonuclease. Nat Biotechnol 2013, 31(3):230-232.
39. Kim E, Koo T, Park SW, Kim D, Kim K, Cho HY, Song DW, Lee KJ, Jung MH, Kim S et al: In vivo genome editing with a small Cas9 orthologue derived from Campylobacter jejuni. Nat Commun 2017, 8:14500.
40. Kim D, Kang BC, Kim JS: Identifying genome-wide off-target sites of CRISPR RNA-guided nucleases and deaminases with Digenome-seq. Nat Protoc 2021, 16(2):1170-1192.
41. Park J, Childs L, Kim D, Hwang GH, Kim S, Kim ST, Kim JS, Bae S: Digenome-seq web tool for profiling CRISPR specificity. Nat Methods 2017, 14(6):548-549.
42. DiGiusto DL, Cannon PM, Holmes MC, Li L, Rao A, Wang J, Lee G, Gregory PD, Kim KA, Hayward SB et al: Preclinical development and qualification of ZFN-mediated CCR5 disruption in human hematopoietic stem/progenitor cells. Mol Ther Methods Clin Dev 2016, 3:16067.
43. A Safety and Efficacy Study Evaluating CTX110 in Subjects With Relapsed or Refractory B-Cell Malignancies (CARBON). https://clinicaltrials.gov/ct2/show/NCT04035434. Accessed 15 Dec 2022.
44. Safety, Tolerability, and PK of LBP-EC01 in Patients With Lower Urinary Tract Colonization Caused by E. Coli. https://clinicaltrials.gov/ct2/show/NCT04191148. Accessed 15 Dec 2022.
45. Miller JC, Paschon D, Rebar EJ: METHODS AND COMPOSITIONS FOR TREATING HEMOPHILIA. World Intellectual Property Organization 2015, WO:2015/089046.
46. Kwon J, Kim M, Lee J: Extru-seq: A method for predicting genome-wide off-target sites with high sensitivity. NCBI Bioproject 2022, PRJNA796642. https://www.ncbi.nlm.nih.gov/bioproject/?term=PRJNA796642

Claims (29)

  1. 다음을 포함하는 CRISPR/Cas 게놈 편집 시스템을 이용한 게놈 편집 과정에서 발생하는 오프 타겟에 대한 정보를 확인하는 방법:
    (i) Cas 단백질, 가이드 RNA, 및 세포를 포함하는 출발 조성물을 준비함;
    (ii) 상기 세포를 물리적으로 파괴함을 통해 분석 대상 조성물을 얻음, 이때 상기 세포가 물리적으로 파괴됨을 통해 게놈 DNA와 상기 Cas 단백질 및 가이드 RNA로부터 형성된 Cas/gRNA 복합체가 접촉하고, 이로써 상기 게놈 DNA는 하나 이상의 절단 부위에서 절단됨; 및
    (iii) 상기 분석 대상 조성물을 분석하여 상기 하나 이상의 절단 부위에 대한 정보를 수득함.
  2. 제1항에 있어서,
    상기 세포를 물리적으로 파괴함은 상기 세포를 기공을 갖는 필터를 통과시킴을 포함하고, 이때 상기 필터의 기공의 평균 지름은 상기 세포의 크기보다 작은 것을 특징으로 하는, 오프 타겟에 대한 정보를 확인하는 방법.
  3. 제2항에 있어서,
    상기 세포가 상기 필터를 통과하도록 하는 힘은 압력인, 오프 타겟에 대한 정보를 확인하는 방법.
  4. 제2항에 있어서,
    상기 필터의 기공의 평균 지름은 5 내지 15μm 인, 오프 타겟에 대한 정보를 확인하는 방법.
  5. 제1항에 있어서,
    상기 세포를 물리적으로 파괴함은 기공을 갖는 필터를 포함하는 익스트루더의 사용을 통해 달성되는, 오프 타겟에 대한 정보를 확인하는 방법.
  6. 제5항에 있어서,
    상기 익스트루더에 포함된 상기 필터의 기공의 평균 지름은 상기 세포의 크기보다 작은, 오프 타겟에 대한 정보를 확인하는 방법.
  7. 제5항에 있어서,
    상기 필터의 기공의 평균 지름은 5 내지 15μm 인, 오프 타겟에 대한 정보를 확인하는 방법.
  8. 제1항에 있어서,
    상기 절단 부위에 대한 정보는 다음 중 하나 이상을 포함하는, 오프 타겟에 대한 정보를 확인하는 방법:
    상기 하나 이상의 절단 부위에 대한 각 절단 부위의 게놈 DNA 상에서의 위치;
    상기 하나 이상의 절단 부위에 대한 각 절단 부위의 절단 점수; 및
    절단 부위의 개수.
  9. 제1항에 있어서,
    다음을 더 포함하는 오프 타겟에 대한 정보를 확인하는 방법:
    (iv) (iii)으로부터 얻은 상기 절단 부위에 대한 정보로부터 오프 타겟 후보에 대한 정보를 확인함.
  10. 제9항에 있어서,
    상기 오프 타겟 후보에 대한 정보는 다음 중 하나 이상을 포함하는, 오프 타겟에 대한 정보를 확인하는 방법:
    하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 게놈 DNA 상에서의 위치;
    상기 하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 오프 타겟 예측 점수; 및
    예측된 오프 타겟 후보의 개수.
  11. 제1항에 있어서,
    상기 분석 대상 조성물을 분석함은 상기 분석 대상 조성물에 포함된 절단된 게놈 DNA를 시퀀싱을 통해 분석함을 포함하는, 오프 타겟에 대한 정보를 확인하는 방법.
  12. 제1항에 있어서,
    상기 분석 대상 조성물을 분석함은 상기 분석 대상 조성물에 포함된 절단된 게놈 DNA를 PCR 기반 방법을 통해 분석함을 포함하는, 오프 타겟에 대한 정보를 확인하는 방법.
  13. 제1항에 있어서,
    상기 세포를 물리적으로 파괴함을 통해 상기 세포의 세포막을 포함한 막 구조가 파괴되고, 이로써 상기 Cas/gRNA 복합체가 상기 세포로부터 유래된 상기 게놈 DNA에 접촉 가능한 환경이 준비되는 것을 특징으로 하는, 오프 타겟에 대한 정보를 확인하는 방법.
  14. 제1항에 있어서,
    상기 세포를 물리적으로 파괴함을 통해 상기 세포의 핵막을 포함한 막 구조가 파괴되고, 이로써 상기 Cas/gRNA 복합체가 상기 세포로부터 유래된 상기 게놈 DNA에 접촉 가능한 환경이 준비되는 것을 특징으로 하는, 오프 타겟에 대한 정보를 확인하는 방법.
  15. 제1항에 있어서,
    다음을 더 포함하는, 오프 타겟에 대한 정보를 확인하는 방법:
    미리 결정된 CRISPR/Cas 게놈 편집 시스템을 확인함, 이때 상기 미리 결정된 CRISPR/Cas 게놈 편집 시스템을 확인함은 (i) 이전에 수행됨.
  16. 제15항에 있어서,
    이때 상기 미리 결정된 CRISPR/Cas 게놈 편집 시스템은 미리 결정된 가이드 서열을 갖는 미리 결정된 가이드 RNA의 사용을 포함하고,
    이때 상기 미리 결정된 가이드 서열과 상기 가이드 RNA의 가이드 서열은 동일한 것을 특징으로 하는, 오프 타겟에 대한 정보를 확인하는 방법.
  17. 제15항에 있어서,
    이때 상기 미리 결정된 CRISPR/Cas 게놈 편집 시스템은 미리 결정된 세포의 사용을 포함하고, 이때 상기 미리 결정된 세포와 상기 세포는 동일한 것을 특징으로 하는, 오프 타겟에 대한 정보를 확인하는 방법.
  18. 제1항에 있어서,
    상기 분석 대상 조성물은, 물리적으로 파괴된 세포의 상기 게놈 DNA가 상기 Cas/gRNA 복합체에 의해 절단되어 있는, 절단된 게놈 DNA를 포함하는 것을 특징으로 하는, 오프 타겟에 대한 정보를 확인하는 방법.
  19. 제1항에 있어서,
    상기 출발 조성물에 포함된 상기 Cas 단백질의 농도는 4000nM 이상 6000nM 이하인 것을 특징으로 하는, 오프 타겟에 대한 정보를 확인하는 방법.
  20. 제1항에 있어서,
    상기 출발 조성물에 포함된 상기 가이드 RNA의 농도는 4000nM 이상 6000nM 이하인 것을 특징으로 하는, 오프 타겟에 대한 정보를 확인하는 방법.
  21. 제1항에 있어서,
    상기 출발 조성물에 포함된 상기 Cas/gRNA 복합체의 농도는 4000nM 이상 6000nM 이하인 것을 특징으로 하는, 오프 타겟에 대한 정보를 확인하는 방법.
  22. 제1항에 있어서,
    상기 출발 조성물에 포함된 상기 세포의 농도는 1X107 세포/mL인 것을 특징으로 하는, 오프 타겟에 대한 정보를 확인하는 방법.
  23. 제1항에 있어서,
    상기 분석 대상 조성물을 얻음은 다음을 더 포함하는, 오프 타겟에 대한 정보를 확인하는 방법:
    세포의 파괴를 통해 얻어진 조성물을 인큐베이션함.
  24. 제1항에 있어서,
    상기 분석 대상 조성물을 얻음은 다음을 더 포함하는, 오프 타겟에 대한 정보를 확인하는 방법:
    세포의 파괴를 통해 얻어진 조성물로부터 RNA를 제거함.
  25. 제1항에 있어서,
    상기 분석 대상 조성물을 얻음은 다음을 더 포함하는, 오프 타겟에 대한 정보를 확인하는 방법:
    세포의 파괴를 통해 얻어진 조성물로부터 DNA를 정제함.
  26. 다음을 포함하는, CRISPR/Cas 게놈 편집 시스템을 이용한 게놈 편집 과정에서 발생하는 오프 타겟에 대한 정보를 확인하는 방법:
    (i) Cas 단백질, 가이드 RNA, 세포를 포함하는 출발 조성물을 익스트루더의 제1 수용부에 로딩함;
    (ii) 분석 대상 조성물을 얻기 위해 상기 익스트루더를 이용하여 하기의 과정을 포함하는 익스트루젼 과정을 수행함:
    (a) 제1 수용부에 압력을 가하여 상기 출발 조성물의 요소를 상기 익스트루더의 제1 수용부로부터 상기 익스트루더의 제2 수용부로 이동시킴,
    이때 상기 출발 조성물의 요소는 상기 익스트루더의 제1 수용부와 상기 익스트루더의 제2 수용부 사이에 위치한 기공을 갖는 필터를 가해진 압력을 통해 통과하여 상기 제1 수용부로부터 상기 제2 수용부로 이동하고, 이로써 상기 제2 수용부에 혼합액이 안착됨;
    이때 가해진 압력에 의해 필터의 기공의 지름보다 크기가 더 큰 요소인 상기 세포는 파괴되면서 필터의 기공을 통과하고,
    이때 상기 세포가 물리적으로 파괴됨을 통해 게놈 DNA가 상기 Cas 단백질 및 상기 가이드 RNA와 접촉 가능한 환경이 조성되며,
    이로써 상기 게놈 DNA와 상기 Cas/gRNA 복합체가 접촉하고,
    이로써 상기 게놈 DNA는 하나 이상의 절단 부위에서 절단됨; 및
    (iii) 상기 절단 부위에 대한 정보를 얻기 위해 상기 분석 대상 조성물을 분석함.
  27. 제26항에 있어서,
    상기 제1 수용부에 가해지는 압력은 상기 제1 수용부에 압력을 가할 수 있도록 디자인된 피스톤을 제1 수용부와 필터의 방향으로 미는 과정을 통해 생성되는 것을 특징으로 하는, 오프 타겟에 대한 정보를 확인하는 방법.
  28. 다음을 포함하는, CRISPR/Cas 게놈 편집 시스템을 이용한 게놈 편집 과정에서 발생하는 오프 타겟에 대한 정보를 확인하는 방법:
    (i) Cas 단백질, 가이드 RNA, 세포를 포함하는 출발 조성물을 익스트루더의 제1 수용부에 로딩함;
    (ii) 분석 대상 조성물을 얻기 위해 상기 익스트루더를 이용하여 하기의 과정을 포함하는 익스트루젼 과정을 수행함:
    (a) 제1 수용부에 압력을 가하여 출발 조성물의 요소를 상기 익스트루더의 제1 수용부로부터 상기 익스트루더의 제2 수용부로 이동시킴,
    이때 상기 출발 조성물의 요소는 상기 익스트루더의 제1 수용부와 상기 익스트루더의 제2 수용부 사이에 위치한 기공을 갖는 필터를 가해진 압력을 통해 통과하여 상기 제1 수용부로부터 상기 제2 수용부로 이동하고, 이로써 상기 제2 수용부에 혼합액이 안착됨,
    (b) 상기 제2 수용부에 압력을 가하여 상기 제2 수용부에 포함된 혼합액의 요소를 상기 제2 수용부로부터 상기 제1 수용부로 이동시킴,
    이때 상기 제2 수용부에 포함된 혼합액의 요소는 상기 제1 수용부와 상기 제2 수용부 사이에 위치한 기공을 갖는 상기 필터를 가해진 압력을 통해 통과하여 상기 제2 수용부로부터 상기 제1 수용부로 이동하고, 이로써 상기 제1 수용부에 상기 제2 수용부로부터 압력에 의해 필터를 거쳐 이동된 혼합액이 안착됨, 및
    (c) 미리 결정된 횟수로 (a) 및 (b)의 과정을 반복 수행함,
    이때 미리 결정된 횟수는 0.5 단위로 카운팅되며, 0.5는 (a) 또는 (b)의 단일 과정의 수행을 나타내고,
    이때 가해진 압력에 의해 상기 필터의 기공의 지름보다 크기가 더 큰 요소인 상기 세포는 파괴되면서 필터의 기공을 통과하고,
    이때 상기 세포가 물리적으로 파괴됨을 통해 게놈 DNA가 상기 Cas 단백질 및 가이드 RNA와 접촉 가능한 환경이 조성되며,
    이로써 상기 게놈 DNA와 Cas/gRNA 복합체가 접촉하고,
    이로써 상기 게놈 DNA는 하나 이상의 절단 부위에서 절단됨; 및
    (iii) 상기 절단 부위에 대한 정보를 얻기 위해 상기 분석 대상 조성물을 분석함.
  29. 제28항에 있어서,
    상기 제1 수용부에 가해지는 압력은 상기 제1 수용부에 압력을 가할 수 있도록 디자인된 피스톤을 상기 제1 수용부와 상기 필터의 방향으로 미는 과정을 통해 생성되고, 상기 제2 수용부에 가해지는 압력은 상기 제2 수용부에 압력을 가할 수 있도록 디자인된 피스톤을 상기 제2 수용부와 상기 필터의 방향으로 미는 과정을 통해 생성되는 것을 특징으로 하는, 오프 타겟에 대한 정보를 확인하는 방법.
PCT/KR2023/000332 2022-01-07 2023-01-06 유전자 편집 과정에서 발생 가능한 오프 타겟을 예측하는 방법 WO2023132704A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20220003002 2022-01-07
KR10-2022-0003002 2022-01-07
KR10-2022-0160591 2022-11-25
KR20220160591 2022-11-25

Publications (1)

Publication Number Publication Date
WO2023132704A1 true WO2023132704A1 (ko) 2023-07-13

Family

ID=87074019

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/000332 WO2023132704A1 (ko) 2022-01-07 2023-01-06 유전자 편집 과정에서 발생 가능한 오프 타겟을 예측하는 방법

Country Status (2)

Country Link
KR (1) KR20230107750A (ko)
WO (1) WO2023132704A1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160058703A (ko) * 2014-11-14 2016-05-25 기초과학연구원 유전체에서 유전자 가위의 비표적 위치를 검출하는 방법
KR20170106486A (ko) * 2015-01-30 2017-09-20 더 리젠츠 오브 더 유니버시티 오브 캘리포니아 일차 조혈 세포에서의 단백질 전달
KR20180084671A (ko) * 2017-01-17 2018-07-25 기초과학연구원 Dna 단일가닥 절단에 의한 염기 교정 비표적 위치 확인 방법
US20200232022A1 (en) * 2017-01-06 2020-07-23 Editas Medicine, Inc. Methods of assessing nuclease cleavage

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160058703A (ko) * 2014-11-14 2016-05-25 기초과학연구원 유전체에서 유전자 가위의 비표적 위치를 검출하는 방법
KR20170106486A (ko) * 2015-01-30 2017-09-20 더 리젠츠 오브 더 유니버시티 오브 캘리포니아 일차 조혈 세포에서의 단백질 전달
US20200232022A1 (en) * 2017-01-06 2020-07-23 Editas Medicine, Inc. Methods of assessing nuclease cleavage
KR20180084671A (ko) * 2017-01-17 2018-07-25 기초과학연구원 Dna 단일가닥 절단에 의한 염기 교정 비표적 위치 확인 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YEN JONATHAN, FIORINO MICHAEL, LIU YI, PAULA STEVE, CLARKSON SCOTT, QUINN LISA, TSCHANTZ WILLIAM R., KLOCK HEATH, GUO NING, RUSS C: "TRIAMF: A New Method for Delivery of Cas9 Ribonucleoprotein Complex to Human Hematopoietic Stem Cells", SCIENTIFIC REPORTS, vol. 8, no. 1, 1 December 2018 (2018-12-01), XP055790057, DOI: 10.1038/s41598-018-34601-6 *

Also Published As

Publication number Publication date
KR20230107750A (ko) 2023-07-18

Similar Documents

Publication Publication Date Title
WO2016076672A1 (ko) 유전체에서 유전자 가위의 비표적 위치를 검출하는 방법
Page et al. Whole exome sequencing reveals the major genetic contributors to nonsyndromic tetralogy of Fallot
WO2015163733A1 (en) A method of selecting a nuclease target sequence for gene knockout based on microhomology
US20200032294A1 (en) Somatic haploid human cell line
WO2014065596A1 (en) Composition for cleaving a target dna comprising a guide rna specific for the target dna and cas protein-encoding nucleic acid or cas protein, and use thereof
WO2016021973A1 (ko) 캄필로박터 제주니 crispr/cas 시스템 유래 rgen을 이용한 유전체 교정
JP4555292B2 (ja) 標的化された切断及び組換えの方法及び組成物
Yoshida et al. Chromatin states shape insertion profiles of the piggyBac, Tol2 and Sleeping Beauty transposons and murine leukemia virus
WO2016111546A2 (ko) 혈액 응고인자 viii 유전자를 타겟으로 하는 엔도뉴클레아제 및 이를 포함하는 혈우병 치료용 조성물
WO2019103442A2 (ko) CRISPR/Cpf1 시스템을 이용한 유전체 편집용 조성물 및 이의 용도
WO2019161783A1 (en) Fusion proteins for base editing
WO2016021972A1 (en) Immune-compatible cells created by nuclease-mediated editing of genes encoding hla
Mulholland et al. A modular open platform for systematic functional studies under physiological conditions
WO2017188797A1 (ko) In vivo에서 rna-가이드 뉴클레아제의 활성을 고처리량 방식으로 평가하는 방법
WO2019009682A2 (ko) 표적 특이적 crispr 변이체
EP2370569A1 (en) A novel zinc finger nuclease and uses thereof
WO2018088694A2 (ko) 인위적으로 조작된 sc 기능 조절 시스템
WO2020068196A2 (en) Proteins that inhibit cas12a (cpf1), a crispr-cas nuclease
Kurtz et al. Drosophila p53 directs nonapoptotic programs in postmitotic tissue
WO2023132704A1 (ko) 유전자 편집 과정에서 발생 가능한 오프 타겟을 예측하는 방법
Zhao et al. Distinct expression requirements and rescue strategies for BEST1 loss-and gain-of-function mutations
WO2020235974A2 (ko) 단일염기 치환 단백질 및 이를 포함하는 조성물
Tavakoli et al. Tipping the balance between replicative and simple transposition
WO2023153811A1 (ko) 프라임 에디팅 시스템을 이용한 게놈 편집의 과정에서 발생 가능한 오프 타겟을 예측하는 방법
Huang et al. The spectrum and frequency of self-inflicted and host gene mutations produced by the transposon Ac in maize

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23737452

Country of ref document: EP

Kind code of ref document: A1