WO2020101329A1 - 세포의 dna에 시간의 흐름을 기록하는 방법 - Google Patents

세포의 dna에 시간의 흐름을 기록하는 방법 Download PDF

Info

Publication number
WO2020101329A1
WO2020101329A1 PCT/KR2019/015372 KR2019015372W WO2020101329A1 WO 2020101329 A1 WO2020101329 A1 WO 2020101329A1 KR 2019015372 W KR2019015372 W KR 2019015372W WO 2020101329 A1 WO2020101329 A1 WO 2020101329A1
Authority
WO
WIPO (PCT)
Prior art keywords
sequence
time
target
target sequence
cells
Prior art date
Application number
PCT/KR2019/015372
Other languages
English (en)
French (fr)
Inventor
김형범
박지혜
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to US17/290,657 priority Critical patent/US20220251634A1/en
Publication of WO2020101329A1 publication Critical patent/WO2020101329A1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • C12N15/1024In vivo mutagenesis using high mutation rate "mutator" host strains by inserting genetic material, e.g. encoding an error prone polymerase, disrupting a gene for mismatch repair
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6881Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for tissue or cell typing, e.g. human leukocyte antigen [HLA] probes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/111General methods applicable to biologically active non-coding nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/165Mathematical modelling, e.g. logarithm, ratio

Definitions

  • the present invention relates to a method of recording the flow of time in the DNA of a cell, and more specifically, the present invention is a method for measuring the elapsed time from a predetermined time point in a cell using a target gene correction system and for measuring the intracellular time It's about the system.
  • radioactive isotope decay has been used to measure the passage of time.
  • This radiometric method relies on two principles: the rate at which individual radioisotope atoms are converted to decay products is constant, and that all conversion reactions are independent of each other. Therefore, the number of radioisotope atoms remaining in a specific substance decreases exponentially with time, and the time elapsed from the half-life of a radioactive isotope can be calculated by measuring the amount of radioactive isotopes and decay products in the substance. It is.
  • This dating method is used to determine the age of a material such as a rock or fossil.
  • DNA a genetic material
  • DNA-engineering tools such as the CRISPR-Cas nuclease system.
  • temporal information such as the elapsed time of exposure to chemicals or the lifespan of animals in DNA within cells.
  • the present inventors tried hard to develop a method for accurately measuring time in living animal cells and animals.
  • the frequency of the intact target sequence was timed when the indel was formed in the target sequence in the cell using the CRISPR-Cas9 system.
  • the present invention was developed by developing a synthetic biological system that can accurately measure the time from a few hours to a week by deriving an exponential function, and deriving an expression representing the correlation between indel frequency and time of the target sequence. Completed.
  • the object of the present invention is (a) the step of culturing the target gene correction composition after transduction into cells, (b) after harvesting a portion of the cultured cells at any time (t) that has elapsed from a predetermined time point , Sequencing the target sequence from the cell genomic DNA, (c) measuring the indel frequency (IF) of the target sequence, and (d) calculating an arbitrary time point from the following formula:
  • F represents the relative frequency (ratio) of the total number of target sequence copies among the total number of copies of the target sequence at any time point
  • IF represents the indel frequency of the target sequence measured at any time point
  • is the unit time.
  • Still another object of the present invention is an indel generation unit in a cell containing a composition for correcting a target gene, an indel frequency measurement unit in a cell including sequencing of the target gene, and a predetermined indel frequency using the measured indel frequency. It is intended to provide a system for measuring intracellular time, including a time prediction unit that calculates the time course of a time point of.
  • the present invention is to solve the above-mentioned problems, and when the indels in the target are generated through the CRISPR / Cas9 system, the intact sequence frequency of the target cells decreases exponentially as in radiometric dating. It provides a method and system for accurately measuring the time course of the.
  • the present invention provides a method for measuring elapsed time from a predetermined time point in a cell.
  • a method for measuring elapsed time from a predetermined time point in a cell will be described in detail.
  • the method for measuring the elapsed time from a predetermined time point in the cells of the present invention includes the step of inducing the target gene-correcting composition into cells and culturing it (step (a)).
  • composition for correcting a target gene of the present invention may include guide RNA, a target nucleotide sequence desired by the guide RNA, and an RNA-guide nuclease.
  • guide RNA in the present invention refers to RNA specific to a target DNA, and the RNA-guide nuclease can cleave the target sequence in whole or in part by complementary binding.
  • the guide RNA comprises two RNAs, namely, a double RNA (crRNA), which comprises a crRNA (CRISPR RNA) and a tracrRNA (trans-activating crRNA); Or a form comprising a first site comprising a sequence in the target DNA, in whole or in part complementary, and a second site comprising a sequence that interacts with an RNA-guide nuclease, wherein the RNA-guided nuclease is a target.
  • crRNA double RNA
  • CRISPR RNA crRNA
  • tracrRNA trans-activating crRNA
  • a form comprising a first site comprising a sequence in the target DNA, in whole or in part complementary, and a second site comprising a sequence that interacts with an RNA-guide nuclease, wherein the RNA-guided nuclease is a target.
  • Any form that can have activity in the sequence can be included in the scope of the present invention without limitation.
  • the guide RNA when the guide RNA is applied to Cpf1, the guide RNA may be crRNA, and when applied to Cas, particularly Cas9, a double RNA form comprising crRNA and tracrRNA as components or a major part of crRNA and tracrRNA is fused It may be in the form of a single-chain guide RNA (sgRNA).
  • the sgRNA includes a portion having a sequence complementary to a sequence in the target DNA (also referred to as a spacer region, target DNA recognition sequence, base pairing region, etc.) and a hairpin structure for Cas, particularly Cas9 protein binding. Can be.
  • the present invention may include a part having a sequence completely or partially complementary to a sequence in the target DNA, Cas, in particular, a hairpin structure for terminating the Cas9 protein and a terminator sequence.
  • Cas in particular, a hairpin structure for terminating the Cas9 protein and a terminator sequence.
  • the above-described structure may be sequentially present in 5 'to 3' order.
  • the present invention is not limited thereto, and any type of guide RNA may be used in the present invention, provided that the guide RNA includes a major portion of crRNA or a complementary portion of the target DNA.
  • the guide RNA comprises a sequence in whole or in part complementary to the sequence in the target DNA, and may include one or more additional nucleotides at the upstream region of the crRNA or sgRNA, specifically the 5 'end of the sgRNA or crRNA.
  • the additional nucleotide may be guanine (G), but is not limited thereto.
  • the guide RNA may include a scaffold sequence that helps to attach the RNA-guide nuclease.
  • target sequence or “target sequence (target sequence)” refers to a nucleotide sequence that is expected to be targeted by an RNA-guided nuclease.
  • the indel frequency in the method of the present invention is determined. It contains the target sequence to be analyzed.
  • the guide RNA and the target sequence are present in pairs in each oligonucleotide and vector constituting the oligonucleotide library and vector library, the guide RNA present in one oligonucleotide or vector is linked to the target sequence. Correspond.
  • Target sequence used in the present invention refers to a sequence to analyze whether the activity of the RNA-guide nuclease generated by the guide RNA present in pair form. That is, it can be determined by the operator in each oligonucleotide design or manufacturing step constituting the oligonucleotide library of the present invention, and the operator targets the pair guide RNA according to the implementation purpose in the design step. A sequence that expects activity and a sequence that expects non-target activity can be selected and designed as a target sequence.
  • the target sequence may include, but is not limited to, a PAM (protospacer-adjacent motif) sequence recognized by the RNA-guide nuclease.
  • the guide RNA and the target sequencing targeted by the guide RNA may be self-targeting guide RNA (stgRNA).
  • stgRNA self-targeting guide RNA
  • stgRNA self-targeting guide RNA
  • the stgRNA has a characteristic that it can measure indel frequency and activity over a long time because its activity is reduced compared to a general guide RNA.
  • a stgRNA sequence was used to simplify the indel analysis step of the target sequence and to confirm the possibility of time measurement for a relatively long time.
  • RNA-guide nuclease of the present invention is a nuclease capable of recognizing and cleaving a specific location on a desired genome, in particular having a target specificity by guide RNA. It refers to a nuclease.
  • the RNA-guide nuclease is specifically Cas9 protein (CRISPR-Associated Protein 9), Cpf1 (CRISPR-associated endonuclease in Prevotella and Francisella 1) derived from the microbial immune system, or activity is induced by chemicals Nuclease may be included, but is not limited thereto.
  • the RNA-guide nuclease can recognize a specific nucleotide sequence in the genome of animal or animal cells, including human cells, and cause double strand break (DSB), and can form nicks (nickase activity) ).
  • the double helix cleavage includes cutting a double helix of DNA to make a blunt end or a cohesive end.
  • DSBs are efficiently repaired in cells by homologous recombination or non-homologous end-joining (NHEJ) mechanisms, which allow researchers to introduce the desired mutations to target sites.
  • NHEJ non-homologous end-joining
  • the RNA-guided nuclease can be artificial or engineered non-naturally occurring.
  • Cas protein or “Cas9 protein” is a major protein component of the CRISPR / Cas system, and is a protein capable of acting as an activated endonuclease or nickase.
  • the Cas protein may exhibit its activity by forming a complex with crRNA (CRISPR RNA) and tracrRNA (trans-activating crRNA).
  • Cas protein or gene information can be obtained from a known database such as GenBank of the National Center for Biotechnology Information (NCBI).
  • the Cas protein may be a Cas9 protein.
  • the Cas protein is a Streptococcus (Streptococcus) in, Ney ceria (Neisseria), An Pas Chateau Pasteurella (Pasteurella), A Francisco when Cellar (Francisella) genus Campylobacter in (Campylobacter) in be in the origin of the Cas protein
  • the Cas protein may be a recombinant protein.
  • Cpf1 or "Cpf1 protein” is a nuclease of a new CRISPR system distinct from the CRISPR / Cas system, and the role of Cpf1 as a gene scissor has only been reported relatively recently (Cell, 2015, 163 ( 3): 759-71).
  • the Cpf1 is a nuclease driven by a single RNA and does not require tracrRNA and has a relatively small size compared to Cas9.
  • PAM thymine-rich protospacer-adjacent motif
  • the Cpf1 is Candidatus Paceibacter , Lachnospira genus, Butyrivibrio genus, Peregrinibacteria genus, Acidominococcus genus, Porphyromonas genus Porphyromonas ), Prevotella , Francisella , Candidatus Methanoplasma , or Eubacterium .
  • the Cpf1 protein may be a recombinant protein.
  • recombinant when used in reference to, for example, a cell, nucleic acid, protein or vector, etc., when used, introduces a heterologous nucleic acid or protein, or alters a native nucleic acid or protein, or derived from a modified cell.
  • a cell, nucleic acid, protein, or vector modified by a cell can be made by reconstructing the sequence encoding the Cas9 or Cpf1 protein using a human codon table.
  • the Cas9 or Cpf1 protein may be in a form that allows the protein to act in the nucleus, or may be a form that is easy to be introduced into cells.
  • the Cas9 or Cpf1 protein can be linked to a cell-penetrating peptide or protein transduction domain.
  • the protein delivery domain may be poly-arginine or HIV-derived TAT protein, but is not limited thereto. Since various kinds of cell-penetrating peptide or protein delivery domains are known in the art in addition to the above-described examples, those skilled in the art are not limited to the above examples and various examples can be applied to the present invention.
  • the nucleic acid encoding the Cas9 or Cpf1 protein may additionally include a nuclear localization signal (NLS) sequence.
  • the expression cassette including the nucleic acid encoding the Cas9 or Cpf1 protein may include, but is not limited to, an NLS sequence in addition to a regulatory sequence such as a promoter sequence for expressing the Cas9 or Cpf1 protein.
  • the Cas9 or Cpf1 protein of the invention can be linked to a tag that is advantageous for isolation and / or purification.
  • a small peptide tag such as a His tag, a Flag tag, an S tag, or a GST (Glutathione S-transferase) tag or a MBP (Maltose binding protein) tag may be connected according to purposes, but is not limited thereto.
  • the step (a) comprises (i) preparing a cell line in which a sequence encoding an RNA-guide nuclease is inserted (knock-in), (ii) Preparing a vector comprising a nucleotide sequence encoding a guide RNA (guide RNA) and a target sequence targeted by the guide RNA (target sequence), (iii) transducing the vector into the cell line To prepare the transduced cells, and (iv) culturing the transduced cells.
  • the probability ( ⁇ ) of the decrease in the total number of target sequence copies per unit cell is determined by the composition of the target sequence, the concentration of the RNA-guide nuclease and the guide RNA. It is determined by concentration.
  • the activity of the nuclease may be different depending on the type and / or number of the guide RNA-target sequence pair or stgRNA sequence possessed by the introduced cell.
  • the RNA-guided nuclease may be delivered to the cell through a plasmid vector or a viral vector, or the RNA-guided nuclease protein itself may be delivered into the cell, and the RNA-guided nuclease may exhibit activity in the cell.
  • RNA-guide nuclease eg, Cas protein, Cpf1 protein
  • RNA-guide nuclease may be delivered in a form linked to a protein delivery domain, but is not limited thereto.
  • protein delivery domains known in the art may be used, and as described above, poly-arginine or HIV-derived TAT protein may be used. However, it is not particularly limited.
  • the cell type can be appropriately selected by a person skilled in the art according to the type of the vector and / or the type of the desired cell.
  • bacterial cells such as E. coli, Streptomyces, Salmonella typhimurium; Yeast cells; Fungal cells such as Pichia pastoris; Insect cells such as Drozophila and Spodoptera Sf9 cells; Chinese hamster ovary cells (CHO), SP2 / 0 (mouse myeloma), human lymphoblastoid, COS, NSO (mouse myeloma), 293T, Bow melanoma cells, HT-1080, BHK ( Animal cells such as baby hamster kidney cells, baby hamster kidney cells, HEK (human embryonic kidney cells), and PERC.6 (human retinal cells); Or it may be selected from plant cells, but is not limited thereto.
  • a cell line into which Cas9 is inserted was prepared by inserting a SpCas9 sequence using FLP recombinase into the transcriptional active region of HEK293 cells.
  • a vector comprising an oligonucleotide comprising a nucleotide sequence encoding a guide RNA and a target nucleotide sequence desired by the guide RNA can be prepared.
  • a vector comprising a nucleotide sequence encoding a guide RNA and a target nucleotide sequence desired by the guide RNA can be prepared.
  • the guide RNA may be two or more different from each other, and in this case, a vector library including two or more vectors including a nucleotide sequence encoding two or more guide RNAs and a target sequencing targeted by the guide RNA may be prepared. have.
  • the term "library” refers to a group (pool or population) containing two or more kinds of substances of the same kind with different properties.
  • the oligonucleotide library may be a population comprising two or more oligonucleotides having different nucleotide sequences, such as guide RNA, PAM sequence, and / or two oligonucleotides having different target sequences, and vector libraries (eg, viral vectors).
  • Libraries may be a group comprising two or more vectors having different sequences or components, for example, as a group of vectors for each oligonucleotide in the oligonucleotide library. Can be a group of two or more vectors.
  • a cell library can be a population of two or more cells with different characteristics, specifically, for the purposes of the present invention, different oligonucleotides included by each cell, such as the number and / or type of vectors introduced, especially cells of different types. .
  • oligonucleotides, vectors (eg, viral vectors) constituting each library and
  • the type of cells may be at least 2, and the upper limit may not be limited as long as the time measuring method is normally operated, but may be, for example, 10,000.
  • oligonucleotide refers to a substance in which hundreds to hundreds of nucleotides are connected by a phosphodiester bond, and for the purposes of the present invention, the oligonucleotide may be double-stranded DNA.
  • the oligonucleotide used in the present invention may have a length of 20 to 300 bp, specifically, 50 to 200 bp, and more specifically, 100 to 180 bp.
  • the oligonucleotide may include a guide RNA coding base sequence and a target base sequence.
  • the oligonucleotide of the present invention may include a self-targeting guide RNA coding sequence.
  • the oligonucleotide may include additional sequences to which primers can be attached to be PCR amplified.
  • guide RNA in a single oligonucleotide, can be cis-acted to a target sequencing existing adjacent thereto. That is, the guide RNA may be designed to confirm whether or not the adjacent target sequence is cleaved.
  • the oligonucleotide may be introduced into a cell and integrated into a chromosome.
  • a pair may be composed of a sequence having a target activity for a specific guide RNA sequence, and a pair may be composed of a sequence having a non-target activity for the guide RNA sequence.
  • a guide RNA sequence specifically, a sequence completely complementary to the crRNA sequence or some complementary sequence in which some bases are mismatched can be designed.
  • the stgRNA sequence having the properties of the guide RNA and the target sequence can be designed.
  • the oligonucleotide may further include any one or more selected from the group consisting of a direct repeat sequence, poly T sequence, barcode sequence, constant region sequence, promoter sequence, and scaffold sequence, but is not limited thereto.
  • the oligonucleotide may have a length as described above, specifically 100 to 200 nucleotide sequences, but is not limited thereto, and is appropriately adjusted by a person skilled in the art according to the type of RNA-guide nuclease used, an analysis purpose, and the like. Can be.
  • the above-described oligonucleotide may include a target sequence and a guide RNA coding sequence in 5 'to 3' order, and conversely, may be designed to include a guide RNA and target sequence in 5 'to 3' order.
  • the oligonucleotide includes a target sequence and a guide RNA coding sequence, and may specifically include a barcode sequence, a PAM sequence, a poly T sequence, a direct repeat sequence, and a constant region sequence, and the sequence of each sequence is limited. Does not work.
  • the oligonucleotide includes a stgRNA coding sequence, and may specifically include a barcode sequence, a PAM sequence, a poly T sequence, a direct repeat sequence, and a constant region sequence, and the sequence of each sequence is not limited.
  • the oligonucleotide may further include a scaffold sequence that helps the RNA-guide nuclease to bind adjacent to the guide RNA coding sequence or stgRNA coding sequence.
  • a promoter sequence may be included at the 5 'end site for expression.
  • a U6 promoter known to be able to maintain constant expression of non-coding RNA for a long time was used.
  • the oligonucleotide may further include primer attachment sequences that enable PCR amplification at the 5 'and 3' ends in addition to the above-described components.
  • primer attachment sequences that enable PCR amplification at the 5 'and 3' ends in addition to the above-described components.
  • the target sequence of the present invention may have a length of 10 to 100 bp, specifically 20 to 50 bp, and more specifically 23 to 34 bp, but is not particularly limited thereto.
  • the guide RNA coding sequence may have a length of 10 to 100 bp, specifically 15 to 50 bp, and more specifically 20 to 30 bp, but is not particularly limited thereto.
  • the stgRNA coding sequence may have a length of 10 to 200 bp, specifically 80 to 180 bp, but is not particularly limited thereto.
  • the barcode sequence means a nucleotide sequence for identifying each oligonucleotide.
  • the barcode sequence herein may not include two or more repeating nucleotides (AA, TT, CC, and GG), but is not particularly limited as long as it is designed to identify each oligonucleotide.
  • the barcode sequence may be designed such that at least two bases are different so that each oligonucleotide can be identified.
  • the barcode sequence may have a length of 5 to 50 bp, but is not particularly limited thereto.
  • a vector library (eg, viral vector) may be prepared using the oligonucleotide library.
  • a viral library can be introduced into a cell, and then a virus can be produced therefrom to obtain a virus, which can be used to infect the cell. Can be done properly.
  • the vector may include oligonucleotides each comprising a guide RNA coding sequence and a target sequence, or a stgRNA coding sequence.
  • the vector may be a viral vector or a plasmid vector, and specifically, a lentiviral vector or a retroviral vector may be used as the viral vector.
  • the present invention is not limited thereto, and a person skilled in the art can freely use a known vector as long as it can achieve the object of the present invention.
  • the vector refers to a medium capable of delivering the oligonucleotide into the cell, such as a genetic agent.
  • the vector may include an essential regulatory element operably linked to the insert so that the oligonucleotide can be expressed when present in the individual's cells.
  • the vector can be prepared and purified using standard recombinant DNA techniques.
  • the type of the vector is not particularly limited as long as it can act on desired cells such as prokaryotic and eukaryotic cells.
  • Vectors can include promoters, initiation codons, and termination codon terminators.
  • DNA encoding the signal peptide, and / or enhancer sequences, and / or untranslated regions on the 5 'and 3' sides of the desired gene, and / or selectable marker regions, and / or replicable units, etc., are appropriate. It may include.
  • stgRNAs self-targeting guide RNAs
  • oligonucleotide library including the same was prepared.
  • Each oligonucleotide constituting the oligonucleotide library has a total length of 138 nt (Library 1 and 2), or 150 nt (Library 3), with different stgRNAs.
  • each oligonucleotide of the oligonucleotide library was cloned into a lentiviral vector to prepare a lentiviral vector library, which was expressed in cells to obtain a virus.
  • the next step is a step of constructing a cell library comprising two or more cells, each of which transduced the vector of the present invention into a cell line into which the RNA-guide nuclease is inserted.
  • the method of delivering the vector to the cells for preparing the library can be achieved using various methods known in the art. For example, such fields as calcium phosphate-DNA coprecipitation, DEAE-dextran-mediated transfection, polybrene-mediated transfection, electroshock, microinjection, liposome fusion, lipofectamine and protoplast fusion. It can be carried out by a number of methods known in the.
  • the target object that is, the vector
  • the vectors can be delivered into the cell by using viral particles as a means of infection.
  • vectors can be introduced into cells by gene bombardment or the like.
  • the introduced vector may exist as a vector itself in a cell or may be integrated into a chromosome, but is not particularly limited thereto.
  • the cell library prepared herein refers to a population of cells into which oligonucleotides containing stgRNA coding sequences have been introduced.
  • each cell may be a vector, specifically, the type and / or number of viruses introduced differently.
  • the time measurement method through the indel frequency analysis of the present invention is performed using the entire cell library, and since the base sequence and the target sequence encoding the guide RNA are introduced in the form of stgRNA, cell infection efficiency, the number of copies of the oligonucleotide, etc.
  • the data can be interpreted independently of each stgRNA without being greatly affected by the deviation of.
  • nuclease activity may be exhibited by the introduced guide RNA-target sequence pair oligonucleotide (or stgRNA) and RNA-guided nuclease expressed in the cell. That is, DNA cleavage by the RNA-guide nuclease may occur with respect to the introduced target sequence (or stgRNA), and thus indel may appear.
  • stgRNA introduced guide RNA-target sequence pair oligonucleotide
  • indels in the present invention collectively refers to a mutation in which some bases are inserted or deleted in the base sequence of DNA.
  • indels are targeted to the target sequence during repair by a homologous recombination or non-homologous end-joining (NHEJ) mechanism. It may be introduced.
  • NHEJ non-homologous end-joining
  • the cells cultured in the above step can be transplanted into animals and cultured. In this case, the passage of time in live animals can be measured.
  • the method for measuring the elapsed time from a predetermined time point in a cell of the present invention is to harvest a portion of the cultured cell at any time point (t) elapsed from the predetermined time point and then sequence the target sequence from the cell genomic DNA. Step [(b) step].
  • the step may include obtaining a DNA sequence from cells in which the activity of the introduced RNA-guide nuclease has been shown.
  • the DNA can be obtained using various DNA separation methods known in the art.
  • sequencing of the base of the target sequence can be performed to obtain data accordingly. have.
  • the method for measuring the elapsed time from a predetermined time point in a cell of the present invention includes the step of measuring the indel frequency (IF) of the target sequence (step (c)).
  • each indel may occur dependent on each guide RNA-target sequence pair or stgRNA sequence, so that the indel frequency is guide RNA-target sequence pair or RNA-guided nuclease by stgRNA. It can be evaluated to the degree of activity.
  • the plurality of guide RNA-target sequence pairs or stgRNA sequences can be distinguished by inserting a specific sequence capable of distinguishing them into each oligonucleotide constituting the oligonucleotide library, so data is analyzed based on these distinct sequences in the data analysis step. It can be classified and analyzed.
  • each oligonucleotide does not contain two or more repeating nucleotides (i.e., AA, CC, TT, GG), and each is prepared by including a barcode sequence designed with at least two bases different from each other. .
  • the indel frequency of the target sequence is related to the frequency (F) of the intact target sequence copy number among the total copy numbers of the target sequence and the following formula:
  • the method of measuring the elapsed time from a predetermined time point in a cell of the present invention includes the step of calculating an arbitrary time point from the following formula [step (d)]:
  • F denotes the frequency of the intact target sequence copy number among the total copy number of the target sequence
  • IF denotes the indel frequency of the measured target sequence
  • is a positive constant indicating the indel generation probability of the target sequence per unit time.
  • the time measurement method of the present invention is based on the fact that the frequency of an intact target sequence decreases exponentially with time.
  • the lambda ( ⁇ ) is a value representing a probability of indel generation of a target sequence per unit time or a decrease in the number of copies of a complete target sequence per unit time, and the composition of the target sequence, the concentration of RNA-guide nuclease and guide RNA (stgRNA) It is a constant determined by.
  • the step (b) may further include estimating a lambda constant ( ⁇ ) including the following steps:
  • F represents the frequency of an intact target sequence copy number among the total number of copies of the target sequence
  • is a positive constant
  • t * is a positive constant representing a predetermined time point.
  • the ⁇ for a given target sequence can be calculated experimentally by measuring the complete copy frequency (F) of the target sequence at a specific time point. After determining ⁇ for a given target sequence, time can be calculated in a manner similar to radiometric dating by measuring the indel frequency (IF) of the target sequence at unknown time points.
  • the cell library in order to maintain a constant ⁇ value for a specific target sequence in a relationship between indel frequency and time, the cell library is configured to maintain a constant concentration of RNA-guided nuclease and an expression level of stgRNA. Built.
  • the cell library of the present invention expresses the correlation between the indel frequency value and time at any point in time as an exponential function from the point that the frequency of intact target cell copy number in vivo decreases exponentially with time, It provides a more accurate and predictable time measurement method.
  • Step (e) of the present invention can calculate any time point from the following formula:
  • F denotes the frequency of the intact target sequence copy number among the total copy number of the target sequence
  • IF denotes the indel frequency of the measured target sequence
  • is a positive constant representing the indel generation probability of the target sequence per unit time
  • t 0 is the incubation time for expression of the transgene transduced in the cell.
  • the indel formation process of the present invention includes the step of culturing the target gene-correcting composition after transduction in cells. At this time, after transducing the target gene-correcting composition containing the guide RNA and the target sequence into the cell, it takes a certain time to express the transgene. An error may occur in time measurement or prediction due to the presence of the incubation time t 0 . Therefore, the method of the present invention can calculate an arbitrary time point in consideration of the known latency time.
  • an indel generation unit in a cell containing a composition for target gene correction, an indel frequency measurement unit in a cell including sequencing of the target gene, and the measured indel frequency are randomly selected from a predetermined time point. It is a system for measuring the intracellular time, including a time prediction unit for calculating the time course of the time.
  • the composition for target gene correction may include guide RNA, a target sequencing targeted by the guide RNA, and an RNA-guide nuclease.
  • the guide RNA and the target nucleotide sequence desired by the guide RNA may be a nucleotide sequence encoding a self-target guide RNA.
  • the sequencing step of the indel frequency measurement unit of the present invention may be performed by deep sequencing.
  • the time prediction unit of the present invention may be to calculate an arbitrary time point from the following equation:
  • F denotes the frequency of the intact target sequence copy number among the total copy number of the target sequence
  • IF denotes the indel frequency of the measured target sequence
  • is a positive constant indicating the indel generation probability of the target sequence per unit time.
  • the time prediction unit of the present invention may be to calculate an arbitrary time point from the following equation:
  • F denotes the frequency of the intact target sequence copy number among the total copy number of the target sequence
  • IF denotes the indel frequency of the measured target sequence
  • is a positive constant representing the indel generation probability of the target sequence per unit time
  • t 0 is the incubation time for expression of the transgene transduced in the cell.
  • the method of the present invention is a new synthetic biological clock that enables accurate measurement of the time elapsed from a defined time point to any time point in vivo .
  • the system of the present invention it is possible to accurately record time information ranging from hours to weeks in DNA of in vitro or in vivo animal cells and living animals.
  • DNA sequence analysis it is possible to measure the time elapsed from the time of recording at an unknown time.
  • the synthetic DNA clock of the present invention it is possible to record and measure the remaining exposure time after starting the first exposure time, exposure time, and time recording in a living animal to a specific chemical of a cultured cell.
  • the synthetic DNA clock of the present invention can be used to record and decode temporal information related to various signal transduction in cells.
  • FIG. 1 is a schematic diagram showing a recombinant vector structure for producing Cas9-inserted cells (knockin cells) according to the present invention.
  • FIG. 3 shows the structure of self-targeting guide RNA (stgRNAs) according to an embodiment of the present invention. Bar code sequences were used to recognize each target sequence.
  • stgRNAs self-targeting guide RNA
  • Figure 4 is a schematic diagram of the time prediction experiment method of the present invention using Cas9-inserted cells.
  • 5 is a schematic diagram showing sampling times of the lentiviral library replication groups A to H.
  • FIG. 6 is the distribution of t 0 values predicted from intact target sequence frequencies at all analysis time points in replication groups A to H.
  • FIG. 7 is data comparing the suitability of a candidate model that describes intact target sequence frequency or indel changes over time using replication groups A-F.
  • FIG. 9 is a dot graph showing the intact target sequence frequency measured continuously for 60 days for some stgRNAs.
  • the dotted line represents the exponential decay curve fitted to the data, and the half-life of the stgRNA-encoding sequence (target sequence) on the graph.
  • FIG. 10 shows a result of a leave-one-out cross-validation (LOOCV), and (B) shows a relative absolute error for time estimation in (A).
  • C shows mean relative absolute errors for time estimates calculated from all time points or time data after 4 days (> 4 days).
  • D-E It shows the nps-weighted average effect of the time value predicted from the average relative absolute error calculated from the data (D) at all time points and the time point data (E) after 4 days.
  • indel frequency correlation between replication groups in library 1 (a) indel frequency correlation between replication groups in library 1, (b) indel between replication groups in library 2 Frequency correlation, (c) correlation of gamma values calculated from different replication groups in library 1, (d) correlation of gamma values calculated from different replication groups in library 2, (e) different from library 1 Correlation of half-life calculated from clones, (f) correlation of half-life calculated from different clones in library 2, (g) correlation of indel frequencies between different libraries, (h) half-life between different libraries correlation.
  • FIG. 13 is a comparison of the nps-weighted mean (left) and the equivalent-weighted mean (right) of the intact target sequence frequency between the replicates.
  • Figure 17 shows the structure of the sgRNA-encoding and target sequence pair according to an embodiment of the present invention. Bar code sequences were used to recognize each target sequence.
  • (B) is a schematic diagram of the time prediction experiment method of the present invention using ciCas9-inserted cells.
  • FIG. 18 is a dot graph showing the intact target sequence frequency measured continuously for 60 days for some target sequences in the elapsed time of compound exposure in the cell.
  • the dotted line represents the exponential decay curve fitted to the data, and the half-life of the stgRNA-encoding sequence (target sequence) on the graph.
  • (A) is a result of performing LOOCV (leave-one-out cross-validation) using library 3, and (B) is a relative absolute error of time prediction shown in (A).
  • FIG. 21 is a result of comparing the nps-weighted average of the intact target sequence frequencies of replication groups G and H.
  • (B) is a schematic diagram showing an experimental method for predicting the time course in a living mouse.
  • 24 is a result of predicting elapsed time by measuring the frequency of an intact target sequence.
  • FIG. 25 is a Western blot result (left) showing the Cas9 nuclease expression level after infection with the library 2 lentivirus in Cas9-inserted cells (left) and a graph quantifying it (right).
  • 26 is a graph showing the concentration of self-targeting guide RNA in library 2 cells.
  • 27 is a graph showing the relative absolute error value of the time prediction value according to the number of cell assays per self-target guide RNA.
  • FIG. 28 is a schematic diagram showing the selection process of guide RNAs having low genotoxicity (left) and a graph comparing the half-life distribution of each guide RNA set (right).
  • FIG. 29 is a schematic diagram showing a plasmid (top) incorporating the FLEx switch concept and a plasmid (bottom) using a reactive promoter reactive to a specific life phenomenon.
  • FIG. 30 is a schematic diagram showing the FLEx recombination process.
  • 31 is a result of confirming the expression of a fluorescent protein according to Wnt signaling, inflammatory response, and heat induction as a specific life phenomenon.
  • 33 is a graph showing the indel frequency of self-targeting guide RNA after Wnt signal induction in Wnt-reactive FLEx DNA clock library cells.
  • the rate at which indels are generated or the decrease in the number of intact target sequence copies in the whole cell population ( ⁇ ) is linearly proportional to the number of intact target sequence copies (N t ) at time t, and can be expressed by the following equation.
  • the probability of a decrease in the number of copies of a complete target sequence per unit cell is determined by the sequence composition of the target sequence and the concentration of Cas9 and guide RNA when introducing the target sequence using lentiviral transduction. Therefore, if the expression levels of Cas9 and sgRNA are kept constant, ⁇ is determined by the composition of the target sequence.
  • SpCas9 (Cas9 from Streptococcus pyogenes ) -knock-in cell line was used.
  • This cell line was prepared by injecting the CMV promoter-Cas9-E2A-mRFP sequence into the transcriptional active region of HEK293 cells (Flp-In TM T-REx TM cells) modified using FLP recombinase (FIG. 1).
  • the lambda ( ⁇ ) of a given target sequence can be determined experimentally by measuring the frequency of the complete copy number of the target sequence at a known time point. Determining ⁇ for a given target sequence allows the elapsed time to be calculated by measuring the indel frequency (IF) at the target sequence at an unknown time in a manner similar to radiometric dating.
  • the present inventors have developed a method of determining the indel frequency in thousands of synthetic target sequences fused using lentivirus (Korean Patent Publication No. 10-2017-0123581).
  • a guide RNA coding sequence, a target sequence and a barcode set for analysis were delivered to 293T cells using a lentiviral vector.
  • a homing guide RNA (stgRNA) or self-targeting guide RNA (stgRNA) system that can be both a guide RNA coding sequence and a target sequence has been reported.
  • a self-targeting guide RNA coding system and a barcode sequence pair for analysis were used (FIG. 3).
  • Another advantage of using stgRNAs is that their activity is reduced compared to normal guide RNAs, allowing time measurements over long periods of time.
  • lentiviral library 1 was prepared, which contains 24,000 stgRNA-encoding sequences selected at random and corresponding barcode sequences.
  • a cell library was prepared by transducing a lentiviral library encoding 24,000 sgtRNAs into Cas9-inserted cells, and 3 cell library clones were prepared, each transduced and maintained independently (replication groups A and B). , C).
  • a portion of the cultured cells was harvested at a defined time point to isolate genomic DNA (FIG. 5).
  • indel frequency (IF) 61% of the stgRNA-encoding sequence showed very low activity of 10% or less.
  • a separate oligonucleotide pool was prepared to create another lentiviral library (Library 2).
  • Library 2 was designed to contain 2,000 stgRNAs rich in stgRNAs having a relatively high activity compared to library 1.
  • Three replicates were made by transducing lentivirus to library 2 independently (replication group D, E, F). The three replication groups were subcultured independently, and the average number of cells per library was maintained at least 12,000 times the number of stgRNAs (ie, 24 million cells) (FIGS. 4 and 5).
  • Binomial distribution B (n, P) can approximate a normal distribution if nP and n (1-P) are sufficiently large. Since the variance of the estimator for the true value (parameter) P of frequency is calculated as P (1-P) / n, when n is large and P is the median value (i.e. nP and n (1-P) When all are large), the accuracy of estimating the parameter P can be improved. From this, it can be seen that the minimum values of np and n (1-p) can be used as an index for estimation accuracy of the true frequency P based on the observed frequency p and the total number of times n.
  • the number of intact target sequences measured at a given time point t for a given specific expression sequence i Is binomial distribution
  • nps the smaller value is defined as nps, and this parameter is the observed value. Based on true value was used as an indicator for the accuracy of estimating.
  • the latent time (t 0 ) was statistically calculated using data from replica groups A to F based on the exponential model.
  • parameters representing the latency time (t 0 ) were added as follows, and ⁇ and t using a nonlinear least squares method to minimize the weighted residual sum of squares (RSS) with nps for the frequency (F). 0 was determined.
  • the intact target sequence frequency F did not decrease below 85% for 60 days. Therefore, if the intact target sequence frequency measured for a specific stgRNA is 85% or more at all measurement time points, the stgRNA-encoding sequence was excluded from the analysis.
  • the distribution of the calculated latency period is shown in FIG. 6.
  • the nps-weighted average of t 0 cut by 5% in all replicates A to F was 1.021 days, which was used in subsequent analyzes.
  • the exponential model was compared with the linear model, the Gompertz model and the logistic model to confirm whether the intact target sequence frequency F decreased along with the exponential decay.
  • Akaike information criterion (AIC) and Bayesian information criterion (BIC) were calculated.
  • LOOCV Leave-One-Out Cross-Validation
  • equation (2) can be expressed as follows:
  • the half-life for each stgRNA-encoding sequence was determined from the intact sequence frequency of all measurement time points.
  • the nps-weighted average half-life calculated from the half-lives of the clones was chosen as the closest estimate to the true half-life.
  • the half-life associated with stgRNA in libraries 1 and 2 ranges from 2.3 to 747 days for library 1 (median: 91.5 days, average: 113 days), and for 2.7 to 642 days for library 2 (median: 34.7 days, average: 56.6 days) (Fig. 11).
  • Example 8 Recording elapsed time between different replication groups and libraries and confirming reproducibility of measurement
  • Libraries 1 and 2 share 1,200 stgRNAs, and half-life for 889 of 1,200 targets was determined in all replicates A, B, C, D, E and F.
  • the indel frequency was highly correlated between the replication groups of different libraries (FIG. 12G), and the nps-weighted and equal-weighted averages of the intact target sequence frequency (Fs) were comparable in all 6 replication groups (FIG. 13). From this, it can be seen that the rate at which the intact sequence frequency decreases for a given stgRNA-encoding sequence is almost the same for each library batch and is independent.
  • Example 9 Effect of reducing the number of target sequences on time measurement accuracy
  • ciCas9 chemically-inducible Cas9
  • A-1155463 Rose et al., 2017 ; Rose et al., 2018
  • ciCas9-inserted cells were prepared in a similar way to making Cas9-inserted cells (FIG. 16).
  • stgRNA exhibits too weak activity compared to sgRNA
  • a normal sgRNA-encoding sequence and a corresponding target sequence are separately included to record a relatively short time, such as a few hours unit. Library pairs were used (FIG. 17A).
  • ciCas9-inserted cells were transduced with sgRNA-encoded and target sequence paired library 3.
  • the transduced cells were treated with 10 ⁇ M A-1155463 and the intact sequence frequency was measured over time (FIGS. 17B and 5).
  • the intact target sequence frequency decreased exponentially with time (Figure 18).
  • the half-life calculated in the presence of A-1155463 was found to be 47.9 to 442 hours (average: 219 hours, median: 214 hours) (FIG. 19).
  • LOOCV leave-one-out cross-validation
  • the time prediction accuracy of the present invention is very high (FIG. 20A), after 50 minutes
  • the relative absolute error was less than 30% (Fig. 20B). From this, it was possible to record and measure the elapsed time of exposure to chemicals, and it was found that the recording was more accurate after 50 minutes.
  • the nps-weighted average of the intact target sequence frequency was similar to both the replication groups G and H (FIG. 21), from which it was possible to know the comparable rate of ciCas9-induced indel formation between replication groups.
  • the replication group H predicts the time even though it includes only two time points (48 hours, 120 hours). The errors were similar, and the average of the errors fell below 30% (Fig. 22). From this, it was found that there was high reproducibility between different replication groups.
  • Example 11 Record elapsed time in living mice
  • the present inventors will analyze the intact target sequence frequency after delivery into a mouse at a time when a Cas9-inserted cell transduced with a stgRNA-encoding sequence library is known, so that the animal can predict the time in the living state after cell delivery. I assumed.
  • Cas9-inserted cells were first transduced into library 2 and the transduced cells were planted in a porous polystyrene scaffold at a concentration of 1 million cells / scaffold. Two days after sowing the cells, it was confirmed that the cells were well attached to the scaffold by a fluorescence microscope (Fig. 23A).
  • scaffold containing these cells was implanted subcutaneously in NOG-SCID mice.
  • mice were euthanized, scaffolds were removed and stored at -20 ° C until analysis (FIG. 23B).
  • FIG. 23B As an in vitro control of the same conditions, scaffolds containing the cells were cultured in vitro.
  • relative absolute errors in lifespan after scaffold transplantation measured based on the intact target sequence frequency were 12%, 8.8%, 3.1%, and 6.4%, respectively, on the 4th, 8th, 14th, and 21st days (all four time points).
  • RNA-guided nuclease and self-targeting assuming that the probability of reduction of the intact target sequence copy number per cell ( ⁇ ) is determined by the concentration of the target sequence, RNA-guide nuclease and guide RNA It was confirmed whether the expression concentration of the guide RNA was kept constant.
  • a sufficient number of cells must be analyzed for different self-targeting guide RNAs to ensure the reliability of the indel frequency data.
  • the accuracy of time prediction can be improved only by analyzing the data with high reliability. Therefore, in order to confirm the minimum number of cells required to obtain a time prediction accuracy of a certain level or more, a time prediction error value according to the observed number of cells was measured.
  • a guide RNA having a sequence similar to a gene essential for survival (Hart T et al., EMBO molecular systems biology (2014), Hart T et al., Cell (2015)) for the remaining 90 guide RNAs after the first filtering was performed. Removed.
  • the filter conditions used are completely the same when compared with the essential sequence for survival in the library 20nt guide sequence, or have 1, 2, 3 bp mismatch based on the NRG PAM sequence, or the DNA bulge and RNA bulge 1, 2 bp conditions are completely the same. Genomic off-target counts with sequences or mismatches of 1, 2 bp were analyzed.
  • 20 self-target guide RNAs (Guide set 2) were extracted in the order of the smallest sum of off-targets, and the final 20 guide RNAs were 3 or less in addition to the survival essential genes. It was.
  • the vector used in the FLEx DNA clock library system was newly designed based on the Sleeping Beauty (SB) transposon. This is because polyA sequences cannot be used in libraries using lentivirus like the existing libraries 1, 2, and 3, and are inadequate for encoding large cassettes larger than 8 kb. Therefore, ITR sequences required for SB transposition are present at both ends of the cassette, so that they can be inserted into intracellular genomic sequences by SB transposase.
  • the ins (insulator) sequence located inside the ITR sequence was added to match the expression level of Cas9 nuclease to each cell after the DNA clock was activated.
  • the triangle between ins and PuroR and the triangle between U6 and polyA are lox2272 sequences, between PuroR and EF1a.
  • the triangle and the triangle between polyA and Cas9 refer to the loxP sequence and polyA to the SV40 polyA sequence.
  • the library was constructed by cloning the stgRNA portion of the FLEx DNA library using 11 of the 20 guide RNAs selected in the above 18.
  • the Cre protein acts on the FLEx DNA clock library vector
  • the FLEx switch is activated by Cre-dependent recombination, resulting in expression of the Cas9 nuclease, which has been turned off.
  • this Cas9 nuclease expression starts, indels are induced in the self-target guide RNA sequence, and as a result, time can be predicted by measuring the frequency of indels formed in the library's self-target guide RNA sequence (FIG. 30).
  • recombination occurs in one pair of lox2272 and one pair of loxP by the Cre protein
  • Cas9 and mClover3 fluorescent proteins are expressed by the EF1a promoter in any order, and indels are continuously formed in the stgRNA region.
  • Example 16 Establishment of cell lines that are responsive to specific life phenomena
  • lentiviral vectors with various synthetic promoters in which transcription is induced by specific stimuli were constructed.
  • TCF-LEF synthetic promoter responsive to Wnt signaling (Tang W et al., Science (2018)), NF-kBR synthetic promoter activated by inflammatory response (Perli SD et al., Science (2016)), heat induction
  • HSE synthetic promoter (Ortner V et al., Cell Stress and Chaperones (2015)).
  • Each was cloned to encode the Cre protein and mRuby3 fluorescence protein sequence under the corresponding synthetic promoter (FIG. 31).
  • a lentivirus that expresses the Cre protein in response to the above three life phenomena was prepared, infected with HEK293T cells, and a monoclonal cell line was established. Wnt (25 mM LiCl treatment), inflammatory response (10 ng / ml hTNFa treatment), and heat induction (cultured in 42C heat-shock) were performed on the cell lines, respectively, and it was confirmed that mRuby3 fluorescent protein was expressed in all.
  • the FLEx DNA clock library was introduced into a cell line that responds to Wnt signaling to construct a DNA clock system that works by Wnt signaling.
  • the FLEx DNA clock library vector and the SB transposase vector were simultaneously transfected into a Wnt-reactive cell line, and then selectively cultured with furomycin, and then treated with LiCl to induce Cre-dependent recombination in the FLEx DNA clock library (FIG. 32).
  • the FLEx DNA clock library was introduced into a HEK293T monoclonal cell line that responds to Wnt signaling, and Cre protein and mRuby3 fluorescent protein were expressed by Wnt (25.6mM, 51.2mM LiCl treatment). It was confirmed that Cas9 nuclease and mClover3 expression were induced by this Cre protein, and it was confirmed that a DNA clock system capable of measuring the time point of Wnt signaling occurred.
  • Wnt-reactive FLEx DNA clock library cells were induced with LiCl for 2 days at various starting time points (0, 4, 8 days), and cells were collected at the indicated time points to analyze the indel frequency of 11 self-target guide RNAs. (Figure 33).
  • the half-life of self-targeting guide RNA contained in the library was estimated using one replicate indel frequency data.
  • the corresponding sample is taken at the time when the circle is indicated, and the empty circle is a control (bg) that does not induce Wnt signal, and the circle indicated by color or pattern represents a sample inducing Wnt signal during a period corresponding to a dark line.
  • the graph on the right side of FIG. 33 shows time prediction values using indel frequency data of each sample. As can be seen from the graph, it was confirmed that the time elapsed at the start time of each Wnt signal is well predicted when the time of one replication group is estimated with the estimated half-life. Therefore, it was verified that the FLEx DNA clock system, which can measure the time point at which a specific biological phenomenon was induced, works well.
  • the lentiviral plasmid framework for building libraries 1 and 2 was constructed by transforming the sgRNA scaffold into a stgRNA scaffold via position-specific mutagenesis from Lenti_gRNA-Puro plasmid (Addgene; # 84752). Specifically, the position-specific mutagenesis replaced U23 and U24 positions with guanine, and A48 and A49 positions with cytosine (Perli et al., 2016).
  • the constructed vector was transformed into E.coli strain Stbl3 (Thermo Fisher, Waltham, MA), and then selected in the presence of 100 ⁇ g / ml ampicillin.
  • pcDNA a cassette (cassettes), respectively TM 5 / FRT expression vector (Thermo Fisher, Waltham, MA) subcloning, the pcDNA TM 5 / FRT / CMV_promoter- Cas9 -E2A-mRFP and pcDNA TM 5 / FRT / CMV_promoter in -ciCas9 -E2A-mRFP vector was made (Fig. 1, Fig. 16A). This vector was transformed into E.coli strain DH5 ⁇ (Thermo Fisher), and then selected in the presence of 100 ⁇ g / ml ampicillin.
  • the Flp-In TM T-REx TM cell line (Thermo Fisher) was stored in DMEM medium supplemented with 10% FBS (Gibco, Waltham MA). The cells were transfected with an insert vector comprising the Flp recombinant vector (pOG44 Expression Vector; Thermo Fisher) and Cas9-E2A-mRFP or ciCas9-E2A-mRFP sequences according to the instructions. After 48 hours, Cas9- or ciCas9-inserted cells were selected by culturing for 1 week in the presence of 100 ⁇ g / ml hygromycin B Gold (InvivoGen, Pak Shek Kok, Hong Kong).
  • Each colony was picked up using a pipette while looking through a phase contrast microscope. Under the fluorescence microscope, living cell colonies that evenly express mRFP were selected, and incubated in the presence of 20 ⁇ g / ml hygromycin B gold, each cell line was stored frozen. All experiments in this specification were used by dissolving this frozen cell line and incubating it in a medium containing 20 ⁇ g / ml hygromycin B gold.
  • Cell lysis buffer 50 mM Tris-HCl, pH 7.5, 1% Triton X-100, 150 mM NaCl, 0.1% sodium dodecyl sulfate, and 1% sodium deoxycholate
  • a protease inhibitor mixture Merck, Darmstadt, Germany
  • the whole cell eluate of Cas9-E2A-mRFP inserted cells was prepared.
  • the eluate was centrifuged at 13,000 ⁇ g, 4 ° C for 20 minutes and the supernatant protein extract was stored at -80 ° C until use. After loading 30 ⁇ g of total protein per sample into an 8% acrylamide gel, electrophoresis was performed along a nitrocellulose membrane.
  • the target sequence used in the subsequent deep sequencing analysis consisted of a 20 nt guide sequence and a 3 nt PAM sequence.
  • the barcode sequence includes any sequence except a mononucleotide repeat sequence of 2 nt or more.
  • the remaining 140 sequences were made by combining the previously used stgRNA-encoding sequence (Kalhor et al., 2016; Perli et al., 2016) with 10 different barcode and extension sequence sets. Since 4 of the stgRNA-encoding sequences reported in the previous paper contain an extension sequence of 10 nt or 20 nt, this extension sequence was used as an additional extension sequence. When the above extension sequence was 20 nt, the 5'- and 3'- constant region sequences were reduced to 20 nt and 22 nt, respectively.
  • stgRNA-encoding sequences from library 1 were selected on day 3 according to the indel frequency ranking measured in replication group A of library 1.
  • target sequence a sequence having a minimum sequence read depth of 50 and a background indel frequency of 5% or less was selected.
  • the top 1,800 sequences and the bottom 200 sequences were selected.
  • the 20 nt guide sequence for the stgRNA-encoding sequence from positions 1201 to 1800 was replaced with a guide sequence showing high activity against SpCas9.
  • the target sequence for constructing library 3 was selected according to the indel-generating activity profile obtained by experimenting with SpCas9 and sgRNA activity levels in thousands of target sequences.
  • the guide RNA-encoding sequence of library 3 is related to the more common sgRNA scaffold than stgRNA.
  • a replication group up to 10 of guide sequences with good activity was combined with a uniquely defined barcode sequence.
  • Skeletal plasmids to be used in libraries 1 and 2 were made linear by reacting with BsmBI restriction enzyme (Enzynomics, Daejeon, Korea) at 55 ° C. for 3 hours. After the restriction enzyme reaction, the skeleton was treated with 1 ⁇ l of calf intestinal alkaline phosphatase (NEB) at 37 ° C. for 30 minutes. Oligonucleotides were PCR amplified with Phusion Polymerase (NEB) using the OligoAmp_pF1, pR1 (SEQ ID NO: 1, 2) primer set, and the amplification product was MEGAquick-spin TM total fragment DNA purification kit (iNtRON Biotechnology, Seongnam, South Korea). It was purified by gel.
  • BsmBI restriction enzyme Enzynomics, Daejeon, Korea
  • NEBuiderHiFi DNA assembly kit (NEB) at 50 ° C for 40 minutes, the combined products were electrocompetent using MicroPulser (Bio-Rad, Hercules, CA). It was transformed with bacteria (Lucigen, Middleton, WI). The transformed bacteria were placed on LB agar plates containing 50 ⁇ g / ml carbenicillin and incubated at 37 ° C. for 16 hours. Next, the plasmid was extracted from colonies cultured using Plasmid Maxiprep kit (Qiagen, Hilden, Germany). Plasmid library coverage was calculated according to '(total number of bacterial colonies) / (total number of oligonucleotides in the library)'. The final libraries 1 and 2 had coverage of 3.83x and 20.6x, respectively.
  • library 3 was constructed by a two-step cloning method of restriction enzyme cleavage and binding step and Gibson assembly step.
  • This multi-step method effectively prevents uncoupling between the guide RNA and the target sequence pair in the PCR-amplification process of the oligonucleotide pool.
  • the specific method is as follows.
  • Step 1 Create an initial plasmid library containing guide sequences and target sequence pairs
  • Lenti-gRNA-Puro plasmid (Addgene; # 84752) was made linear by reacting with BsmBI enzyme (Enzynomics) at 55 ° C. for 6 hours. After the restriction enzyme reaction, the vector was treated with 1 ⁇ l calf intestinal alkaline phosphatase (NEB) at 37 ° C. for 30 minutes. Oligonucleotides were PCR amplified with Phusion Polymerase (NEB) using the OligoAmp_pF1, pR2 (SEQ ID NOs: 1 and 3) primer set, and the amplified products were gel purified and then assembled with a linear framework using the NEBuilder HiFi DNA assembly kit (NEB). Did. After the granulated product was purified, it was transformed into electrocompetent cells in the same manner as described above.
  • BsmBI enzyme Enzynomics
  • the primer set used for oligonucleotide amplification of the present invention is shown in [Table 3].
  • OligoAmp_pF1 TTGAAAGTATTTCGATTTCTTGGCTTTATATATCTTGTGGAAAGGACGAAACACC
  • OligoAmp_pR1 TTTCAAGTTGATAACGGACTAGCCTTAGGTTAACTTGCTATTTCTAGCTCTAAC 2
  • OligoAmp_pR2 GAGTAAGCTGACCGCTGAAGTACAAGTGGTAGAGTAGAGATCTAGTTACGCCAAGCT 3
  • the initial plasmid library prepared in step 1 was digested with BsmBI for 12 hours, and 2 ⁇ l calf intestinal alkaline phosphatase (NEB) was treated at 37 ° C. for 30 minutes.
  • the enzyme reaction product was size-selected through 0.8% agarose gel electrophoresis, and then purified using a MEGAquick-spin total fragment DNA purification kit (iNtRON Biotechnology).
  • synthetic insertion fragments comprising the sgRNA scaffold (SEQ ID NO: 4; CGTCTCT GTTT TAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTT TTT GGGACG ) were cloned in a TOPO vector (T-blunt vector; Solgent, Daejeon, South Korea).
  • the sgRNA scaffold in this insertion segment contains a poly T sequence (bold) and a BsmBI cleavage site ( underline ).
  • the TOPO vector containing the insert fragment was cut with BsmBI and the 83 nt insert fragment was gel purified on a 4% agarose gel.
  • Four ligation reactions were performed using 90 ng of purified insert sections and 200 ng of the initial plasmid library vector. After reacting at 16 ° C overnight, the reaction product was thermally inactivated at 65 ° C for 10 minutes and purified on a column. The purified product was transformed into electrocompetent cells in the manner described above. As a result, a final plasmid library with 3,990x coverage for the initial oligonucleotide number as library 3 was obtained. Colonies were harvested using the Plasmid Maxiprep kit (Qiagen) and plasmids were extracted.
  • HEK293T cells (ATCC) were stored in DMEM medium supplemented with 10% FBS and penicillin-streptomycin (pen-strep).
  • pen-strep penicillin-streptomycin
  • a transfer plasmid containing the gene of interest, psPAX2 (Addgene; # 12260), and pMD2.G (Addgene; # 12259) were mixed at a weight ratio of 4: 3: 1 to make a total mixture of plasmids of 60 ⁇ g Then, it was transferred to 70-80% confluent HEK293T cells using Lipofectamine 2000 (Invitrogen, Carlsbad, CA). At 24 hours after transfection, it was changed to 20 ml growth medium.
  • the supernatant containing the virus was harvested 72 hours after the initial transfection, filtered through a Millex-HV 0.45 ⁇ m low-protein-binding membrane (Merck, Darmstadt, Germany), divided into aliquots and used Stored frozen at -80 ° C until just before.
  • viral aliquots were serially diluted and transduced into HEK293T cells in the presence of 10 ⁇ g / ml polybrene.
  • Non-transduced cells and cells treated with serially diluted virus were cultured in the presence of 2 ⁇ g / ml puromycin.
  • the virus titer was estimated by counting the number of live virus treated populations.
  • the cell batch was transduced with a lentiviral library 1 or 2 in MOI 0.3 in the presence of 10 ⁇ g / ml polybrene, and then cultured for 24 hours. To remove untransduced cells, the cells were cultured for 3 days in the presence of 2 ⁇ g / ml puromycin and 20 ⁇ g / ml hygromycin B gold.
  • the cell library was maintained with a minimum cell count of 2.4 ⁇ 10 7 cells in the presence of 1 ⁇ g / ml puromycin and 20 ⁇ g / ml hygromycin B gold.
  • At each sampling time point (FIG. 5) at least 2.4 x 10 7 (1,000x for library 1, 12,000x for library 2) cells were harvested for genomic DNA isolation, and 8.0 x 10 6 cells (333x for library 1, 4,000x) for library 2), 80 ⁇ g of genomic DNA was used for deep sequencing analysis.
  • 2.4 ⁇ 10 7 HEK293T cells were transduced with lentiviral libraries 1 and 2, and genomic DNA was isolated after 3 days, followed by 1.6 ⁇ 10 7 cells (667x for library 1; 8,000x) for library 2), the amount of genomic DNA 160 ⁇ g was PCR-amplified, followed by deep sequencing.
  • ciCas9-E2A-mRFP inserted cells were transduced with lentivirus 3, and after 3 days, 240 ⁇ g of genomic DNA in an amount corresponding to 2.4 ⁇ 10 7 cells (12,000x) was analyzed.
  • Genomic DNA was extracted from cell pellets using a Wizard Genomic DNA purification kit (Promega, Fitchburg, WI). Next, the target sequence was amplified by PCR using a 2X Taq PCR Smart mix (Solgent).
  • the first PCR reaction set for deep sequencing analysis uses 3 pairs of forward and reverse primer sets (NGS1st_stgRNA_pF1,2,3 and pR1,2,3, SEQ ID NOs: 5-10) and 3/4 of the extracted genomic DNA. It was prepared.
  • the second set of PCR reactions were prepared with a quarter of the remaining genomic DNA and a pair of primer sets (NGS1st_stgRNA_pF1r, pR1r, SEQ ID NOs: 11 and 12). PCR reactions were performed on samples at all time points for libraries 1 and 2.
  • the first PCR amplification products were combined into one pool, followed by primary purification using a MEGAquick-spin Total Fragment DNA Purification Kit (iNtRON Biotechnology), followed by gel purification with the same kit.
  • the purified product was PCR amplified using primers (NGS2nd_pF1, pR1, SEQ ID NOs: 19 and 20) containing Illumina adaptors.
  • the amplification products were analyzed using HiSeq or MiniSeq (Illumina, San Diego, CA).
  • Deep sequencing data was analyzed using a Python script developed in this lab (Kim et al., 2017).
  • the target sequences of libraries 1, 2 and 3 were identified using a unique sequence of 19 nt, including a barcode sequence (4 nt upstream sequence + 15 nt barcode).
  • the insertion or deletion site located in the region corresponding to 4 nt up and 4 nt down from the expected cleavage site (3 nt up from the PAM sequence) was thought to be a modification induced by SpCas9 (Kim et al., 2018; Kim et al., 2017).
  • the observed indel frequency was normalized to the background indel frequency.
  • F is the relative frequency (%) of the intact target sequence copy number
  • k is the total copy analysis number per target sequence at each time point (read count)
  • mutk means the number of mutation copy analysis per target sequence at each time point.
  • F, mutk and nps values were calculated for the background data, and expressed as Back_F, Back_mutk, and Back_nps , respectively.
  • AIC Akaike information criterion
  • BIC Bayesian information criterion
  • means the parameter set of each model.
  • means the parameter set of each model.
  • a closed-form solution was included, but in other models, numerical algorithms were used for parameter estimation.
  • AIC and BIC values were calculated according to the following equation.
  • ⁇ AIC or ⁇ BIC was calculated by subtracting the AIC and BIC values of each target sequence from the values of the other three models.
  • the incubation period (t 0 ) was assumed to be 0 or 1.021.
  • the half-life and latency period (t 0 ) associated with each guide sequence was estimated.
  • the most appropriate (minimizing RRS) half-life and latency periods (t 0 ) were estimated using the individual t 0 values determined for replicates A-F at all time points. Target sequences with intact target frequencies higher than 85% at all time points were excluded from the analysis. Also 2% ⁇ All data satisfying ⁇ 95% condition were used for calculation.
  • t 0 values of the top 5% and bottom 5% were excluded, and the nps-weighted average was calculated as the final t 0 .
  • a total of 39,138 individual t 0 values were used, and the final calculated t 0 value was 1.021 days.
  • the half life of the target sequence was recalculated from all replicates in libraries 1 and 2 by fixing the t 0 value to 1.021 days. Unless otherwise noted, all analyzes using libraries 1 and 2 were performed with t 0 values at 1.021 days. However, for library 3, the t 0 value was analyzed at 0 hours because the chemically inducible Cas9 was immediately activated.
  • the half-life of each target sequence was first calculated using an R code that minimizes the RRS of the exponential model by setting the t 0 value to 1.021 days.
  • the final half-life of each target sequence was calculated from the weighted average of each half-life from all replicates. The final half-life was weighted according to the sum of nps values at all time points for each target sequence.
  • Cas9-E2A-mRFP inserted cells were transduced with MOI 0.5 with lentiviral library 2. 24 hours after transduction, cells that were not transduced were removed by incubation for 3 days in the presence of 2 ⁇ g / ml puromycin and 20 ⁇ g / ml hygromycin B gold.
  • 1.0 x 10 6 cells were planted in a non-degradable polystyrene 48-well pore scaffold (3D Biotek, Bridgewater, NJ) at a concentration of 1.0 x 10 6 cells / scaffold and cultured in the culture medium for 24 hours.
  • Cells planted in the scaffold were injected into different quadrants at a concentration of 4 scaffolds per mouse subcutaneously, such as male NOG mice (NOD / Shi-scid / IL-2R ⁇ null).
  • NOG mice NOD / Shi-scid / IL-2R ⁇ null
  • Scaffolds were harvested on days 8, 14, and 21 after transduction of library 2.
  • the first PCR reaction for deep sequencing was performed using 48 ⁇ g genomic DNA (2,400x) and a pair of primer sets (NGS1st_stgRNA_pF1,2,3 and pR1,2,3, SEQ ID NOs: 5-10).

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Plant Pathology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Cell Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 세포의 DNA에 시간의 흐름을 기록하는 방법에 관한 것으로서, 보다 구체적으로 본 발명은 표적 유전자 교정 시스템을 이용하여 세포 내에서 소정의 시점으로부터 경과 시간을 측정하는 방법 및 세포 내 시간 측정용 시스템에 관한 것이다. 본 발명의 방법은 인 비보( in vivo) 내에서 정해진 시점으로부터 임의의 시점으로 경과된 시간을 정확하게 측정할 수 있도록 하는 새로운 합성 생물학적 시계이다. 본 발명의 시스템을 통해 인 비트로( in vitro) 또는 인 비보( in vivo) 동물 세포, 및 살아 있는 동물의 DNA에 수 시간(hours)에서 수 주(weeks)에 이르는 시간 정보를 정확하게 기록할 수 있으며, DNA 서열 분석을 통해 모르는 시점에 기록시점부터 경과된 시간을 측정할 수 있다. 또한, 본 발명의 합성 DNA 시계를 이용하면 배양 세포의 화학물질에 대한 노출 시간 및 살아 있는 동물에서 시간 기록을 시작한 이후 남은 수명을 정확하게 기록하고 측정할 수 있다. 또한, 본 발명의 합성 DNA 시계를 이용하여 세포 내 다양한 신호 전달에 관련된 시간적 정보를 세포 내 DNA에 기록하고 해독할 수 있다.

Description

세포의 DNA에 시간의 흐름을 기록하는 방법
본 발명은 세포의 DNA에 시간의 흐름을 기록하는 방법에 관한 것으로서, 보다 구체적으로 본 발명은 표적 유전자 교정 시스템을 이용하여 세포 내에서 소정의 시점으로부터 경과 시간을 측정하는 방법 및 세포 내 시간 측정용 시스템에 관한 것이다.
대부분의 과학 분야에서 생체 내 시간을 정확하게 측정하는 것은 매우 중요하다. 특히 대부분의 생물학적 현상들이 역동적이라는 점에서 생물학 분야에서 시간을 기록하고 측정하는 것은 매우 중요하다.
물리학에서는 방사성 동위원소 붕괴를 이용하여 시간의 경과를 측정해왔다. 이 방사성 연대측정법은 개별 방사성 동위원소 원자가 붕괴 산물로 변환되는 속도가 일정하다는 것과 모든 변환 반응은 서로 독립적이라는 두 가지 원리에 의존한다. 따라서 특정 물질에 남아 있는 방사성 동위원소 원자의 개수는 시간이 지남에 따라 지수함수적으로 감소하며, 물질 내의 방사성 동위 원소와 붕괴 산물의 양을 측정함으로써 방사성 동위원소의 반감기로부터 경과된 시간을 계산할 수 있는 것이다. 이와 같은 연대측정 방식은 암석 또는 화석과 같은 물질의 나이를 결정하는 데 사용되고 있다.
현대 생명과학에서는 아직까지 시간 측정에 전기적 또는 기계적 방법이 사용되고 있다. 그러나, 현재 주(week) 단위와 같은 상대적으로 긴 시간을 측정할 수 있는 합성 생물학적 시스템은 아직 개발되지 않았다.
유전 물질인 DNA는 최근 정보를 저장하는 매개체로 알려졌다. 특정 대사물질의 효용 가능성뿐만 아니라 화학적인 노출, 염증 반응, 신호 전달 활성, 및 RNA 전사와 같은 생물학적 사건들이 CRISPR-Cas 뉴클레아제 시스템 등과 같은 DNA-공학적 도구를 이용하여 DNA에 기록된다는 것이 알려졌다. 그러나 화학 물질에 대한 노출 경과 시간이나 동물의 수명과 같은 시간적 정보를 세포 내 DNA에 정확히 기록하는 것에 대해서는 알려진 바가 없다.
위치-특이적 재조합효소(site-specific recombinases), Cas1-Cas2-매개 올리고뉴클레오티드 취득(Cas1-Cas2-mediated oligonucleotide acquisition), 및 염기 편집(base editing)과 같은 방법을 이용하여 DNA 서열에 제한적인 시간 정보가 기록될 수 있음에도 불구하고, 이와 같은 방법의 해상도 및 기록 가능한 시간 범위에 한계가 있어서 "DNA 시계" 수준에까지 이르지 못했다.
이에, 본 발명자들은 살아 있는 동물 세포 및 동물에서 정확하게 시간을 측정하는 방법을 개발하기 위해 예의 노력한 결과, CRISPR-Cas9 시스템을 이용하여 세포 내 표적 서열에 인델을 형성시킬 때 온전한 표적 서열의 빈도가 시간에 따라 지수함수형으로 감소한다는 것을 발견하고, 표적 서열의 인델 빈도와 시간의 상관관계를 나타내는 식을 유도함으로써 수 시간에서부터 주 단위까지의 시간을 정확하게 측정할 수 있는 합성 생물학적 시스템을 개발하여 본 발명을 완성하였다.
따라서 본 발명의 목적은 (a) 표적 유전자 교정용 조성물을 세포 내에 형질도입한 후 배양하는 단계, (b) 소정의 시점으로부터 경과된 임의의 시점(t)에 배양된 세포의 일부를 수확한 후, 세포 유전체 DNA로부터 표적 서열을 서열분석하는 단계, (c) 상기 표적 서열의 인델 빈도(IF, indel frequency)를 측정하는 단계 및 (d) 하기 식으로부터 임의의 시점을 계산하는 단계:
Figure PCTKR2019015372-appb-img-000001
(상기 식에서 F는 임의의 시점에 표적 서열의 전체 카피수 중에서 온전한 표적 서열 카피수의 상대빈도(비율)를 나타내며, IF는 임의의 시점에 측정된 표적 서열의 인델 빈도를 나타내며, λ는 단위 시간 당 표적 서열의 인델 생성 속도를 나타내는 양의 상수이며, t 0은 세포 내에 형질도입된 전이유전자가 발현되는 데 걸리는 잠복 시간임)를 포함하는 세포 내에서 소정의 시점으로부터 경과 시간을 측정하는 방법을 제공하고자 하는 것이다.
본 발명의 또 다른 목적은 표적 유전자 교정용 조성물을 포함하는 세포 내 인델 생성부, 상기 표적 유전자의 서열분석을 포함하는 세포 내 인델 빈도 측정부 및 상기 측정된 인델 빈도를 이용하여 소정의 시점으로부터 임의의 시점의 시간 경과를 계산하는 시간 예측부를 포함하는 세포 내 시간 측정용 시스템을 제공하고자 하는 것이다.
본 발명은 상술한 문제점을 해결하기 위한 것으로, CRISPR/Cas9 시스템을 통해 표적 내 인델을 생성하였을 때 표적 세포의 온전한 서열 빈도가 방사성연대측정에서와 같이 지수함수형으로 감소한다는 점에 기초하여 세포 내 임의의 시간 경과를 정확하게 측정할 수 있는 방법 및 시스템을 제공한다.
본 발명은 세포 내에서 소정의 시점으로부터 경과 시간을 측정하는 방법을 제공한다. 이하 상기 방법의 각 단계에 대해서 상세히 설명한다.
본 발명의 세포 내에서 소정의 시점으로부터 경과 시간을 측정하는 방법은 표적 유전자 교정용 조성물을 세포 내에 형질도입한 후 배양하는 단계[(a) 단계]를 포함한다.
본 발명의 상기 표적 유전자 교정용 조성물은 가이드 RNA(guide RNA), 상기 가이드 RNA가 목적하는 표적 염기서열 및 RNA-가이드 뉴클레아제(RNA-guide nuclease)를 포함할 수 있다.
본 발명에서 용어 "가이드 RNA(guide RNA)"는 표적 DNA 특이적인 RNA를 의미하며, 표적 서열과 전부 또는 일부 상보적으로 결합하여 RNA-가이드 뉴클레아제가 표적 서열을 절단할 수 있다.
통상적으로 가이드 RNA는 두 개의 RNA, 즉, crRNA(CRISPR RNA) 및 tracrRNA(trans-activating crRNA)를 구성 요소로 포함하는 이중 RNA(dual RNA); 또는 표적 DNA 내 서열과 전부 또는 일부 상보적인 서열을 포함하는 제1부위 및 RNA-가이드 뉴클레아제와 상호작용하는 서열을 포함하는 제2 부위를 포함하는 형태를 말하나, RNA-가이드 뉴클레아제가 표적 서열에서 활성을 가질 수 있는 형태라면 제한 없이 본 발명의 범위에 포함될 수 있다. 일례로, 상기 가이드 RNA를 Cpf1에 적용할 경우 가이드 RNA는 crRNA일 수 있고, Cas, 특히 Cas9에 적용할 경우에는 crRNA 및 tracrRNA를 구성요소로 포함하는 이중 RNA 형태 또는 crRNA 및 tracrRNA의 주요 부분이 융합된 형태인 단일-사슬 가이드 RNA(single-chain guide RNA; sgRNA) 형태일 수 있다. 상기 sgRNA는 표적 DNA 내 서열과 상보적인 서열을 가지는 부분(이를 Spacer region, Target DNA recognition sequence, base pairing region 등으로도 명명함) 및 Cas, 특히 Cas9 단백질 결합을 위한 헤어핀 (hairpin) 구조를 포함할 수 있다. 보다 구체적으로, 표적 DNA 내 서열과 전부 또는 일부 상보적인 서열을 가지는 부분, Cas, 특히 Cas9 단백질 결합을 위한 헤어핀 구조 및 터미네이터(Terminator) 서열을 포함할 수 있다. 상기 기술된 구조는 5'에서 3' 순으로 순차적으로 존재하는 것일 수 있다. 그러나, 이에 제한되는 것은 아니며, 상기 가이드 RNA가 crRNA의 주요 부분 또는 표적 DNA의 전부 또는 일부 상보적인 부분을 포함하는 경우라면 어떠한 형태의 가이드 RNA도 본 발명에서 사용될 수 있다.
상기 가이드 RNA, 구체적으로 crRNA 또는 sgRNA는 표적 DNA 내 서열과 전부 또는 일부 상보적인 서열을 포함하며, crRNA 또는 sgRNA의 업스트림 부위, 구체적으로 sgRNA 또는 crRNA의 5' 말단에 하나 이상의 추가의 뉴클레오티드를 포함할 수 있다. 상기 추가의 뉴클레오티드는 구아닌(guanine, G)일 수 있으나, 이에 제한되는 것은 아니다.
또한, 상기 가이드 RNA는 RNA-가이드 뉴클레아제가 부착되는 것을 돕는 스캐폴드 서열을 포함할 수 있다.
본 발명에서 용어, "표적 염기서열" 또는 "타겟 서열(target sequence)"은 RNA-가이드 뉴클레아제가 표적으로 할 것으로 예상되는 염기서열을 말하며, 본 발명에서는 더 나아가 본 발명의 방법에서 인델 빈도를 분석하고자 하는 목적 서열을 포함한다. 본 발명에서 상기 올리고뉴클레오티드 라이브러리 및 벡터 라이브러리를 이루는 각각의 올리고뉴클레오티드 및 벡터에는 가이드 RNA와 표적 서열이 페어(pair) 형태로 존재하므로, 하나의 올리고뉴클레오티드 또는 벡터에 존재하는 가이드 RNA는 그 표적 서열에 대응된다.
본 발명에서 사용된 "표적 서열(target sequence)"은 페어 형태로 존재하는 가이드 RNA에 의해 발생하는 RNA-가이드 뉴클레아제의 활성이 작용하는지 여부를 분석하고자 하는 서열을 말한다. 즉, 이는 본 발명의 올리고뉴클레오티드 라이브러리를 구성하는 각각의 올리고뉴클레오티드 설계(design) 또는 제조 단계에서 실시자에 의해 결정될 수 있는 것으로, 실시자는 상기 설계 단계에서 그 실시 목적에 따라 페어 가이드 RNA에 대해 표적 활성을 기대하는 서열 및 비표적 활성을 기대하는 서열을 선택하여 표적 서열로 설계할 수 있다. 상기 표적 서열은 RNA-가이드 뉴클레아제가 인식하는 PAM(protospacer-adjacent motif) 서열을 포함할 수 있으나, 이에 제한되지 않는다.
본 발명에서 상기 가이드 RNA 및 상기 가이드 RNA가 목적하는 표적 염기서열은 자가-표적 가이드 RNA(stgRNA, self-targeting guide RNA)일 수 있다.
본 발명의 용어 "자가-표적 가이드 RNA(self-targeting guide RNA)" 또는 "stgRNA"는 하나의 핵산 서열에 가이드 RNA 서열과 표적 서열을 모두 포함하고 있는 것으로서, 표적 서열 및 이에 상보적으로 결합하는 가이드 RNA를 각각 설계하여야 하는 일반적인 CRISPR 시스템에 비해 단순화된 것이다. stgRNA는 일반적인 가이드 RNA에 비해 활성이 감소되어, 오랜 시간에 걸쳐 인델 빈도 및 활성 측정이 가능하다는 특징이 있다. 본 발명의 일실시예에서는 상기 목적 서열의 인델 분석 단계를 보다 단순화하고 상대적으로 장기간 동안 시간 측정의 가능성을 확인하기 위해 stgRNA 서열을 사용하였다.
본 발명의 용어 "RNA-가이드 뉴클레아제(RNA-guide nuclease)"는 목적하는 유전체 상의 특정 위치를 인식하여 절단할 수 있는 뉴클레아제로서, 특히 가이드 RNA(guide RNA)에 의해 표적 특이성을 갖는 뉴클레아제를 말한다. 상기 RNA-가이드 뉴클레아제는 구체적으로 미생물 면역체계인 CRISPR에서 유래한 Cas9 단백질(CRISPR-Associated Protein 9), Cpf1(CRISPR-associated endonuclease in Prevotella and Francisella 1), 또는 화학물질에 의해 활성이 유도되는 뉴클레아제를 포함할 수 있으나, 이에 한정되지 않는다.
상기 RNA-가이드 뉴클레아제는 인간 세포를 비롯한 동식물 세포의 유전체에서 특정 염기서열을 인식해 이중나선 절단(double strand break, DSB)을 일으킬 수 있으며, 닉(nick)을 형성할 수 있다(nickase 활성). 상기 이중나선 절단은 DNA의 이중 나선을 잘라 둔단(blunt end) 또는 점착종단(cohesive end)을 만드는 것을 모두 포함한다. DSB는 세포 내에서 상동재조합(homologous recombination) 또는 비상동재접합(non-homologous end-joining, NHEJ) 기작에 의해 효율적으로 수선되는데 이 과정에 연구자가 원하는 변이를 표적 장소에 도입할 수 있다. 상기 RNA-가이드 뉴클레아제는 인공적인, 혹은 조작된 비자연적으로 발생된(non-naturally occurring)것일 수 있다.
본 발명에서 용어, "Cas 단백질" 또는 "Cas9 단백질"은 CRISPR/Cas 시스템의 주요 단백질 구성 요소로, 활성화된 엔도뉴클레아제 또는 니카아제(nickase)로 작용할 수 있는 단백질이다. 상기 Cas 단백질은 crRNA(CRISPR RNA) 및 tracrRNA(trans-activating crRNA)와 복합체를 형성하여 이의 활성을 나타낼 수 있다.
Cas 단백질 또는 유전자 정보는 NCBI(National Center for Biotechnology Information)의 GenBank와 같은 공지의 데이터 베이스에서 얻을 수 있다. 구체적으로, 상기 Cas 단백질은 Cas9 단백질일 수 있다. 또한, 상기 Cas 단백질은 스트렙토코커스( Streptococcus) 속, 네이세리아( Neisseria) 속, 파스테우렐라( Pasteurella) 속, 프란시셀라( Francisella) 속, 캄필로박터 속( Campylobacter) 속 유래의 Cas 단백질일 수 있고, 구체적으로, 스트렙토코서스 피요젠스( Streptococcus pyogenes)유래 Cas9 단백질일 수 있다. 그러나, 상술한 RNA-가이드 뉴클레아제의 활성을 갖는 한, 상기 기술된 예에 본 발명이 제한되는 것은 아니다. 본 발명에서 상기 Cas 단백질은 재조합 단백질일 수 있다.
본 발명에서 용어 "Cpf1" 또는 "Cpf1 단백질"은 상기 CRISPR/Cas 시스템과는 구별되는 새로운 CRISPR 시스템의 뉴클레아제로서, Cpf1의 유전자 가위로서의 역할은 비교적 최근에서야 보고되었다(Cell, 2015, 163(3): 759-71). 상기 Cpf1은 단일 RNA에 의해 구동되는 뉴클레아제로, tracrRNA가 필요 없고 Cas9에 비해 상대적으로 크기가 작은 특징을 가진다. 또한, 티민(thymine)이 풍부한 PAM(protospacer-adjacent motif) 서열을 이용하며 DNA의 이중 사슬을 잘라 점착종단(cohesive end)을 만드는 것으로 알려져 있다. 상기 Cpf1은 캔디다투스 파세이박터( Candidatus Paceibacter), 라치노스피라( Lachnospira) 속, 뷰티리비브리오( Butyrivibrio) 속, 페레그리니박테리아( Peregrinibacteria) 속, 액시도미노코쿠스( Acidominococcus) 속, 포르파이로모나스( Porphyromonas) 속, 프레보텔라( Prevotella) 속, 프란시셀라( Francisella) 속, 캔디다투스 메타노플라스마( Candidatus Methanoplasma), 또는 유박테리움( Eubacterium) 속 유래일 수 있다. 그러나, 상술한 RNA-가이드 뉴클레아제의 활성을 갖는 한, 상기 기술된 예에 본 발명이 제한되는 것은 아니다. 본 발명에서 상기 Cpf1 단백질은 재조합 단백질일 수 있다.
상기 용어 "재조합"은, 예컨대 세포, 핵산, 단백질 또는 벡터 등을 언급하며 사용될 때, 이종(heterologous) 핵산 또는 단백질의 도입 또는 천연형(native) 핵산 또는 단백질의 변경, 또는 변형된 세포로부터 유래한 세포에 의해 변형된 세포, 핵산, 단백질, 또는 벡터를 나타낸다. 따라서, 예컨대, 재조합 Cas9 또는 재조합 Cpf1 단백질은 인간 코돈 표(human codon table)를 이용하여 Cas9 또는 Cpf1 단백질을 암호화하는 서열을 재구성함으로써 만들 수 있다.
상기 Cas9 또는 Cpf1 단백질은 상기 단백질이 핵 내에서 작용할 수 있게 하는 형태일 수 있고, 세포 내로 도입되기에 용이한 형태일 수 있다. 그 예로 Cas9 또는 Cpf1 단백질은 세포 침투 펩타이드 또는 단백질 전달 도메인(protein transduction domain)과 연결될 수 있다. 상기 단백질 전달 도메인은 폴리-아르기닌 또는 HIV 유래의 TAT 단백질일 수 있으나, 이에 제한되지 않는다. 세포 침투 펩타이드 또는 단백질 전달 도메인은 상기 기술된 예 외에도 다양한 종류가 당업계에 공지되어 있으므로, 당업자는 상기 예에 제한되지 않고 다양한 예를 본 발명에 적용할 수 있다.
또한, 상기 Cas9 또는 Cpf1 단백질을 코딩하는 핵산은 추가적으로 핵 위치 신호(nuclear localization signal, NLS) 서열을 포함할 수 있다. 따라서, 상기 Cas9 또는 Cpf1 단백질을 코딩하는 핵산을 포함하는 발현 카세트는 상기 Cas9 또는 Cpf1 단백질을 발현시키기 위한 프로모터 서열 등 조절 서열 외에도 NLS 서열을 포함할 수 있으나 이에 제한되지 않는다.
본 발명의 Cas9 또는 Cpf1 단백질은 분리 및/또는 정제에 유리한 태그와 연결될 수 있다. 그 예로, His 태그, Flag 태그, S 태그 등과 같은 작은 펩타이드 태그, 또는 GST(Glutathione S-transferase) 태그, MBP(Maltose binding protein) 태그 등을 목적에 따라 연결할 수 있으나, 이에 제한되지 않는다.
본 발명의 구체적인 일 실시예에서 상기 단계 (a)는 (i) RNA-가이드 뉴클레아제(RNA-guide nuclease)를 코딩하는 서열이 삽입(knock-in)된 세포주를 제조하는 단계, (ii) 가이드 RNA(guide RNA)를 코딩하는 염기서열 및 상기 가이드 RNA가 목적하는 표적 염기서열(target sequence)을 포함하는 올리고뉴클레오티드를 포함하는 벡터를 제조하는 단계, (iii) 상기 벡터를 상기 세포주에 형질도입시켜 형질도입 세포를 제조하는 단계, 및 (iv) 상기 형질도입된 세포를 배양하는 단계를 포함하여 수행될 수 있다.
본 발명의 세포 내 시간 측정 방법에 따르면, 표적 서열의 인델 형성 단계에서 단위 세포당 온전한 표적 서열 카피수의 감소 확률(λ)은 표적 서열의 조성, RNA-가이드 뉴클레아제의 농도 및 가이드 RNA의 농도에 의해 결정된다. 이에 RNA-가이드 뉴클레아제를 코딩하는 서열이 삽입된 세포주를 제조함으로써, 세포주 내에서RNA-가이드 뉴클레아제의 발현 농도를 일정하게 유지시킬 수 있다.
상기 뉴클레아제는 도입된 세포가 가지고 있는 가이드 RNA-표적 서열 페어 또는 stgRNA 서열의 종류 및/또는 수에 따라 그 활성 정도가 다르게 나타날 수 있다. 상기 RNA-가이드 뉴클레아제는 플라스미드 벡터 또는 바이러스 벡터를 통해 세포에 전달되거나, RNA-가이드 뉴클레아제 단백질 그 자체로 세포 내에 전달될 수 있으며, 세포 내에서 RNA-가이드 뉴클레아제가 활성을 나타낼 수 있는 한 그 도입 방법에 특별히 제한되지 않는다. 한 예로, 단백질 전달 도메인과 연결된 형태로 RNA-가이드 뉴클레아제(예, Cas 단백질, Cpf1 단백질) 등이 전달될 수 있으나, 이에 제한되는 것은 아니다. 단백질 전달 도메인은 당업계에 공지된 다양한 종류가 사용될 수 있으며, 상기한 바와 같이 폴리-아르기닌이나 HIV 유래의 TAT 단백질을 들 수 있다. 그러나, 특별히 이에 제한되는 것은 아니다.
상기 세포의 종류는, 벡터의 종류 및/또는 목적하는 세포의 종류에 따라 적절하게 당업자가 선택할 수 있다. 구체적으로, 대장균, 스트렙토미세스, 살모넬라 티피뮤리움 등의 박테리아 세포; 효모 세포; 피치아 파스토리스 등의 균류세포; 드로조필라, 스포도프테라 Sf9 세포 등의 곤충 세포; CHO(중국 햄스터 난소 세포, chinese hamster ovary cells), SP2/0(마우스 골수종), 인간 림프아구(human lymphoblastoid), COS, NSO(마우스 골수종), 293T, 보우 멜라노마 세포, HT-1080, BHK(베이비 햄스터 신장세포, baby hamster kidney cells), HEK(인간 배아신장 세포, human embryonic kidney cells), PERC.6(인간망막세포) 등의 동물 세포; 또는 식물 세포 중에서 선택될 수 있으나, 이에 한정되지 않는다.
본 발명의 일실시예에서는, HEK293 세포의 전사 활성 영역에 FLP 재조합효소를 사용하여 SpCas9 서열을 삽입함으로써 Cas9이 삽입된 세포주를 제조하였다.
다음으로, 가이드 RNA를 코딩하는 염기서열 및 상기 가이드 RNA가 목적하는 표적 염기서열을 포함하는 올리고뉴클레오티드를 포함하는 벡터를 제조할 수 있다. 본 발명의 일실시예에 따르면, 가이드 RNA를 코딩하는 염기서열 및 상기 가이드 RNA가 목적하는 표적 염기서열을 포함하는 벡터를 제작할 수 있다. 상기 가이드 RNA는 2종 이상의 서로 상이한 것일 수 있으며, 이러한 경우 2종 이상의 가이드 RNA를 코딩하는 염기서열 및 상기 가이드 RNA가 목적하는 표적 염기서열을 포함하는 2종 이상의 벡터를 포함하는 벡터 라이브러리를 제작할 수 있다.
본 발명에서 용어 "라이브러리"는 특성이 다른 동종의 물질이 2 종 이상 포함된 집단(pool or population)을 의미한다. 따라서, 올리고뉴클레오티드 라이브러리는 염기서열이 다른 2 종 이상의 올리고뉴클레오티드, 예컨대 가이드 RNA, PAM 서열, 및/또는 표적 서열이 다른 2종의 올리고뉴클레오티드를 포함하는 집단일 수 있고, 벡터 라이브러리(예, 바이러스 벡터 라이브러리)는 서열 또는 구성요소를 달리하는 2 종 이상의 벡터를 포함하는 집단일 수 있으며, 예컨대, 상기 올리고뉴클레오티드 라이브러리의 각각의 올리고뉴클레오티드에 대한 벡터들의 집단으로, 해당 벡터를 구성하는 올리고뉴클레오티드에 차이가 있는 2 이상의 벡터들의 집단일 수 있다. 세포 라이브러리는 특성이 다른 2 종 이상의 세포, 구체적으로 본 발명의 목적상 각각의 세포가 포함하는 올리고뉴클레오티드가 다른, 예컨대 도입된 벡터의 수 및/또는 종류, 특히 종류가 다른 세포들의 집단일 수 있다. 본 발명에서는 유전자 교정용 조성물이 형질도입된 세포 라이브러리를 이용하여 세포 내 시간 경과를 측정하는 방법을 제공하는 것을 목적으로 하므로, 상기 각각의 라이브러리를 구성하는 올리고뉴클레오티드, 벡터(예, 바이러스 벡터) 및 세포의 종류는 적어도 2 이상일 수 있으며, 그 상한은 상기 시간 측정 방법이 정상적으로 작동하는 한 제한되지 않을 수 있으나, 예를 들어 10,000개일 수 있다.
본 발명에서 용어 "올리고뉴클레오티드(oligonucleotide)"는 수 내지 수백 개의 뉴클레오티드가 포스포다이에스터 결합으로 연결된 물질을 말하며, 본 발명의 목적상 상기 올리고뉴클레오티드는 이중나선 DNA일 수 있다. 본 발명에서 사용되는 상기 올리고뉴클레오티드는 20 내지 300 bp, 구체적으로, 50 내지 200 bp, 보다 구체적으로, 100 내지 180 bp의 길이를 가질 수 있다. 본 발명에서 상기 올리고뉴클레오티드는 가이드 RNA 코딩 염기서열 및 표적 염기서열을 포함할 수 있다. 본 발명의 상기 올리고뉴클레오티드는 자가-표적 가이드 RNA 코딩 서열을 포함할 수 있다. 또한, 상기 올리고뉴클레오티드는 PCR 증폭될 수 있도록 프라이머가 결합될 수 있는 추가의 서열을 포함할 수 있다.
구체적으로 단일 올리고뉴클레오티드에서 가이드 RNA는 이와 인접하게 존재하는 표적 염기서열에 Cis-acting 할 수 있다. 즉, 상기 가이드 RNA는 인접한 표적 염기서열의 절단 여부를 확인하기 위해 설계된 것일 수 있다.
상기 올리고뉴클레오티드는 세포에 도입되어 염색체 내에 통합(integration)되는 것일 수 있다.
올리고뉴클레오티드의 설계는 표적 서열의 인델 빈도를 측정하고 이로부터 시간을 예측하기 위한 목적 하에 당업자가 자유롭게 수행할 수 있다. 예컨대, 특정 가이드 RNA 서열에 대해서 표적 활성을 가지는 서열로 페어를 구성할 수 있고, 또한 상기 가이드 RNA 서열에 대해서 비표적 활성을 가지는 서열로 페어를 구성할 수 있다. 예컨대, 가이드 RNA 서열, 구체적으로, crRNA 서열과 완전히 상보적인 서열 또는 일부 염기가 불일치하는 일부 상보적인 서열을 설계할 수 있다. 또는 상기 가이드 RNA와 표적 서열의 성질을 동시에 갖는 stgRNA 서열을 설계할 수 있다.
또한, 당업자는 본 발명의 시간 측정을 위한 인델 분석 단계를 수행하기 위해 올리고뉴클레오티드에 추가적인 구성요소를 포함시킬 수 있다. 예컨대, 상기 올리고뉴클레오티드는 직접 반복 서열, 폴리 T 서열, 바코드 서열, 불변부 서열, 프로모터 서열, 및 스캐폴드 서열로 이루어진 군에서 선택되는 어느 하나 이상을 추가로 포함할 수 있으나, 이에 제한되지 않는다.
상기 올리고뉴클레오티드는 상술한 바와 같은 길이, 구체적으로 100 내지 200 개의 염기서열로 이루어진 것일 수 있으나, 이에 제한되는 것은 아니고, 사용되는 RNA-가이드 뉴클레아제의 종류, 분석 목적 등에 따라 당업자에 의해 적절히 조절될 수 있다.
한편, 상술한 올리고뉴클레오티드는, 5'에서 3' 순으로 표적서열 및 가이드 RNA 코딩 서열을 포함할 수 있고, 반대로 5'에서 3' 순으로 가이드 RNA 및 표적서열을 포함하도록 설계될 수 있다.
예컨대, 상기 올리고뉴클레오티드는 표적서열 및 가이드 RNA 코딩 서열을 포함하며, 구체적으로 바코드 서열, PAM 서열, 폴리 T 서열, 직접 반복 서열, 불변부 서열을 추가로 포함할 수 있으며, 각 서열의 순서는 제한되지 않는다.
또한, 상기 올리고뉴클레오티드는 stgRNA 코딩 서열을 포함하며, 구체적으로 바코드 서열, PAM 서열, 폴리 T 서열, 직접 반복 서열, 불변부 서열을 추가로 포함할 수 있으며, 각 서열의 순서는 제한되지 않는다.
또한, 상기 올리고뉴클레오티드는 가이드 RNA 코딩 서열 또는 stgRNA 코딩 서열에 인접하여 RNA-가이드 뉴클레아제가 결합하는 것을 돕는 스캐폴드 서열을 더 포함할 수 있다.
또한, 발현을 위하여 5' 말단 부위에 프로모터 서열을 포함할 수 있다. 본원의 실시예에서는 가이드 RNA 또는 stgRNA의 발현을 일정하게 유지하기 위해, 장기간 비암호화 RNA 발현을 일정하게 유지할 수 있는 것으로 알려진U6 프로모터를 사용하였다.
또한, 상술한 바와 같이, 상기 올리고뉴클레오티드는 상술한 구성요소 외에도 5' 및 3' 말단에 PCR 증폭이 가능하도록 하는 프라이머 부착 서열을 더 포함할 수 있다. 그러나, 특별히 이에 제한되는 것은 아니다.
본 발명의 상기 표적 서열은 10 내지 100 bp, 구체적으로는 20 내지 50 bp, 보다 더 구체적으로는 23 내지 34 bp의 길이를 가질 수 있으나, 특별히 이에 제한되는 것은 아니다.
또한, 상기 가이드 RNA 코딩 서열은 10 내지 100 bp, 구체적으로는 15 내지 50 bp, 보다 더 구체적으로는 20 내지 30 bp의 길이를 가질 수 있으나, 특별히 이에 제한되는 것은 아니다.
또한, 상기 stgRNA 코딩 서열은10 내지 200 bp, 구체적으로는 80 내지 180 bp의 길이를 가질 수 있으나, 특별히 이에 제한되는 것은 아니다.
또한, 상기 바코드 서열은 각 올리고뉴클레오티드를 식별하도록 하기 위한 뉴클레오티드 서열을 의미한다. 본원에서 상기 바코드 서열은 2 이상의 반복 뉴클레오티드(AA, TT, CC, GG)를 포함하지 않는 것일 수 있으나, 각 올리고뉴클레오티드를 식별하도록 설계된 것이라면 특별히 이에 제한되는 것은 아니다. 복수의 올리고뉴클레오티드들에 있어, 상기 바코드 서열은 각 올리고뉴클레오티드가 식별될 수 있도록 적어도 2 개의 염기가 다르도록 설계된 것일 수 있다. 상기 바코드 서열은 5 내지 50 bp의 길이를 가질 수 있으나, 특별히 이에 제한되지 않는다.
다음으로, 상기 올리고뉴클레오티드 라이브러리를 이용하여 벡터 라이브러리(예, 바이러스 벡터)를 제조할 수 있다.
상기 벡터가 바이러스인 경우, 바이러스 라이브러리를 세포에 도입한 뒤, 이로부터 바이러스를 생산하여 수득할 수 있으며, 이를 이용하여 세포를 감염시킬 수 있으며, 이러한 과정은 당업계에 공지된 방법을 사용하여 당업자가 적절히 수행할 수 있다.
본 발명에서 벡터는 각각의 가이드 RNA 코딩 염기서열 및 표적 염기서열, 또는 stgRNA 코딩 염기서열을 포함하는 올리고뉴클레오티드를 포함할 수 있다. 상기 벡터는 바이러스 벡터 또는 플라스미드 벡터일 수 있고, 바이러스 벡터는 구체적으로 렌티바이러스 벡터 또는 레트로바이러스 벡터 등이 사용될 수 있다. 그러나, 이에 제한되는 것은 아니고 당업자는 본 발명의 목적을 달성할 수 있는 한 공지된 벡터를 자유롭게 사용할 수 있다.
상기 벡터는 상기 올리고뉴클레오티드를 세포 내에 전달할 수 있도록 하는매개체, 예컨대 유전적 적제물을 의미한다. 구체적으로, 상기 벡터는 개체의 세포 내에 존재하는 경우 삽입물, 즉 올리고뉴클레오티드가 발현될 수 있도록 삽입물에 작동가능하게 연결된 필수적인 조절 요소를 포함할 수 있다.
상기 벡터는 표준적인 재조합 DNA 기술을 이용하여 제조 및 정제될 수 있다. 상기 벡터의 종류는 원핵세포 및 진핵세포 등 목적하는 세포에서 작용할 수 있도록 하는 한, 특별히 한정되지 않는다. 벡터는 프로모터, 개시코돈, 및 종결코돈 터미네이터를 포함할 수 있다. 그 외에 시그널 펩타이드를 코드하는 DNA, 및/또는 인핸서 서열, 및/또는 원하는 유전자의 5'측 및 3'측의 비번역 영역, 및/또는 선택마커 영역, 및/또는 복제가능단위 등을 적절하게 포함할 수도 있다.
본 발명의 구체적인 일 실시예에서는 준무작위 추출에 의해 24,000개의 자가-표적 가이드 RNA(stgRNA)를 설계하였고, 이를 포함하는 올리고뉴클레오티드 라이브러리를 제조하였다. 상기 올리고뉴클레오티드 라이브러리를 구성하는 각각의 올리고뉴클레오티드는 총 138 nt (라이브러리 1 및 2), 또는 150 nt (라이브러리 3)의 염기 길이로, 각기 다른 stgRNA를 포함한다. 다음으로 렌티바이러스 벡터에 상기 올리고뉴클레오티드 라이브러리의 각각의 올리고뉴클레오티드를 클로닝하여 렌티바이러스 벡터 라이브러리를 제조하였고, 이를 세포에서 발현시켜 바이러스를 수득하였다.
다음 단계는, 본 발명의 상기 벡터를 각각 상기 RNA-가이드 뉴클레아제가 삽입된 세포주에 형질도입시킨 2종 이상의 세포를 포함하는 세포 라이브러리를 제작하는 단계이다.
구체적으로, 상기 벡터를 라이브러리를 제조하기 위한 세포에 전달하는 방법은 당업계에 공지된 다양한 방법을 이용하여 달성될 수 있다. 예컨대, 칼슘 포스페이트-DNA 공침전법, DEAE-덱스트란-매개 트랜스펙션법, 폴리브렌-매개 형질감염법, 전기충격법, 미세주사법, 리포좀 융합법, 리포펙타민 및 원형질체 융합법 등의 당 분야에 공지된 여러 방법에 의해 수행될 수 있다. 또한, 바이러스 벡터를 이용하는 경우, 감염(infection)을 수단으로 하여 바이러스 입자를 사용하여 목적물, 즉 벡터를 세포 내로 전달시킬 수 있다. 아울러, 유전자 밤바드먼트 등에 의해 벡터를 세포 내로 도입할 수 있다.
상기 도입된 벡터는 세포 내에서 벡터 자체로 존재하거나, 염색체 내에 통합될 수 있으나, 특별히 이에 제한되는 것은 아니다.
본원에서 제조된 세포 라이브러리는 stgRNA 코딩 서열을 포함하는 올리고뉴클레오티드가 도입된 세포 집단을 말한다. 이때 각각의 세포들은 벡터, 구체적으로 바이러스의 종류 및/또는 수가 다르게 도입된 것일 수 있다. 다만, 본 발명의 인델 빈도 분석을 통한 시간 측정 방법은 세포 라이브러리 전체를 이용하여 수행되고, 가이드 RNA를 코딩하는 염기서열 및 표적 서열이 stgRNA 형태로 도입되기 때문에 세포 감염 효율, 올리고뉴클레오티드의 카피 수 등의 편차에 크게 영향을 받지 않고 각 stgRNA에 의존적으로 데이터 해석이 가능하다.
상기 세포 라이브러리에서는 도입된 가이드 RNA-표적 서열 페어 올리고뉴클레오티드(또는 stgRNA) 및 세포 내에서 발현되는 RNA-가이드 뉴클레아제에 의해 뉴클레아제 활성이 나타날 수 있다. 즉, 도입된 표적 서열(또는 stgRNA)에 대하여 RNA-가이드 뉴클레아제에 의한 DNA 절단이 일어날 수 있으며, 이에 따라 인델(indel)이 나타날 수 있다.
본 발명에서 용어 "인델(indel)"은 DNA의 염기 배열에서 일부 염기가 중간에 삽입(insertion) 되거나 결실(deletion) 된 변이를 총칭한다. 인델은 상술한 바와 같이 RNA-가이드 뉴클레아제가 DNA의 이중 나선을 절단하는 경우 상동재조합(homologous recombination) 또는 비상동재접합(non-homologous end-joining, NHEJ) 기작에 의해 수선되는 과정에서 표적 서열에 도입되는 것일 수 있다.
상기 단계에서 배양된 세포를 동물에 이식하여 배양할 수 있다. 이 경우 살아 있는 동물 내에서 시간의 경과를 측정할 수 있다.
본 발명의 세포 내에서 소정의 시점으로부터 경과 시간을 측정하는 방법은 소정의 시점으로부터 경과된 임의의 시점(t)에 배양된 세포의 일부를 수확한 후, 세포 유전체 DNA로부터 표적 서열을 서열분석하는 단계[(b) 단계]를 포함한다.
상기 단계는 도입된 RNA-가이드 뉴클레아제의 활성이 나타난 세포로부터 DNA 서열을 수득하는 것을 포함할 수 있다. 이러한 DNA 수득은 당업계에 공지된 다양한 DNA 분리방법을 이용하여 수행될 수 있다.
세포 라이브러리를 구성하는 각각의 세포들은 도입된 표적 서열에서 인델이 발생한 것으로 예상되므로 표적 서열의 염기를 서열 분석, 예컨대 딥 시퀀싱 (deep sequencing), 또는 RNA-시퀀싱을 수행하여 이에 따른 데이터를 수득할 수 있다.
본 발명의 세포 내에서 소정의 시점으로부터 경과 시간을 측정하는 방법은 상기 표적 서열의 인델 빈도(IF, indel frequency)를 측정하는 단계[(c) 단계]를 포함한다.
상술한 바와 같이 각각의 인델은 각 가이드 RNA-표적 서열 페어(pair) 또는 stgRNA 서열에 의존적으로 발생할 수 있으며, 이에 따라 상기 인델 빈도는 가이드 RNA-표적 서열 페어 또는 stgRNA에 의한 RNA-가이드 뉴클레아제의 활성 정도로 평가될 수 있다.
복수의 가이드 RNA-표적 서열 페어 또는 stgRNA 서열은 상기 올리고뉴클레오티드 라이브러리를 구성하는 각각의 올리고뉴클레오티드에 이를 구별할 수 있는 특정 서열을 삽입하여 구별될 수 있으므로 데이터 분석 단계에서 이러한 구별 서열을 기준으로 데이터를 분류하여 분석이 가능하다. 일례로, 본 발명에서는 각 올리고뉴클레오타이드에 2 이상의 반복 뉴클레오티드(즉, AA, CC, TT, GG)를 포함하지 않고, 각각이 서로 적어도 2 개의 염기가 다르게 설계된 바코드(barcode) 서열을 포함시켜 제작하였다.
상기 표적 서열의 인델 빈도는 표적 서열의 전체 카피수 중에서 온전한 표적 서열 카피수의 빈도(F)와 하기 식의 관계를 갖는다:
Figure PCTKR2019015372-appb-img-000002
본 발명의 세포 내에서 소정의 시점으로부터 경과 시간을 측정하는 방법은하기 식으로부터 임의의 시점을 계산하는 단계[(d) 단계]를 포함한다:
Figure PCTKR2019015372-appb-img-000003
상기 식에서 F는 표적 서열의 전체 카피수 중에서 온전한 표적 서열 카피수의 빈도를 나타내며, IF는 측정된 표적 서열의 인델 빈도를 나타내며, λ는 단위 시간 당 표적 서열의 인델 생성 확률을 나타내는 양의 상수이다.
본 발명의 시간 측정 방법은 온전한 표적 서열의 빈도가 시간에 따라 지수함수형으로 감소한다는 사실에 기초한다.
상기 람다(λ)는 단위 시간 당 표적 서열의 인델 생성 확률 또는 단위 시간당 온전한 표적 서열 카피수의 감소 확률을 나타내는 값으로서, 표적 서열의 조성, RNA-가이드 뉴클레아제 및 가이드 RNA(stgRNA)의 농도에 의해 결정되는 상수이다.
본 발명에서는 상기 (b) 단계 이전에 하기 단계를 포함하는 람다 상수(λ)를 추정하는 단계를 더 포함할 수 있다:
(i) 소정의 시점( t *)에 상기 배양된 세포의 일부를 수확하는 단계;
(ii) 세포 유전체 DNA로부터 표적 서열을 시퀀싱하는 단계;
(iii) 표적 서열의 전체 카피수 중 온전한 서열의 카피수 빈도(F, frequency of intact sequence)를 측정하는 단계; 및
하기 식을 이용하여 주어진 표적 서열에 대하여 단위 시간 당 표적 서열의 인델 생성 확률(λ)을 계산하는 단계:
Figure PCTKR2019015372-appb-img-000004
상기 식에서 F는 표적 서열의 전체 카피수 중에서 온전한 표적 서열 카피수의 빈도를 나타내며, λ는 양의 상수, t*는 소정의 시점을 나타내는 양의 상수이다.
RNA-가이드 뉴클레아제의 농도와 가이드 RNA(또는 stgRNA)의 농도가 알려져 있다면, 특정 시점에 표적 서열의 온전한 카피수 빈도(F)를 측정함으로써 주어진 표적 서열에 대한 λ를 실험적으로 계산할 수 있다. 주어진 표적 서열에 대한 λ를 결정한 다음에는, 모르는 시점에서 표적 서열의 인델 빈도(IF)를 측정함으로써 방사성연대측정과 비슷한 방법으로 시간을 계산할 수 있다.
본 발명의 일실시예에서는 인델 빈도와 시간과의 관계식에서 특정 표적 서열에 대한 λ 값을 일정하게 하기 위하여, RNA-가이드 뉴클레아제의 농도 및 stgRNA의 발현 농도를 일정하게 유지할 수 있도록 세포 라이브러리를 구축하였다.
본 발명의 세포 라이브러리는 인 비보( in vivo) 상에서 온전한 표적 세포 카피수의 빈도가 시간에 따라 지수함수형으로 감소한다는 점으로부터 임의의 시점에 인델 빈도 값과 시간의 상관 관계를 지수함수식으로 나타냄으로써, 보다 정확하고 예측 가능성이 높은 시간 측정 방법을 제공한다.
본 발명의 상기 (e) 단계는 하기 식으로부터 임의의 시점을 계산할 수 있다:
Figure PCTKR2019015372-appb-img-000005
상기 식에서 F는 표적 서열의 전체 카피수 중에서 온전한 표적 서열 카피수의 빈도를 나타내며, IF는 측정된 표적 서열의 인델 빈도를 나타내며, λ는 단위 시간 당 표적 서열의 인델 생성 확률을 나타내는 양의 상수이며, t 0은 세포 내에 형질도입된 전이 유전자가 발현되는 데 걸리는 잠복 시간이다.
본 발명의 인델 형성 과정은 표적 유전자 교정용 조성물을 세포 내에 형질도입한 후 배양하는 단계를 포함한다. 이 때 가이드 RNA 및 표적 서열을 포함하는 표적 유전자 교정용 조성물을 세포 내에 형질도입한 후 전이 유전자가 발현되는 데까지 일정한 시간이 소요된다. 이와 같은 잠복 시간(t 0)이 존재함으로 인해 시간 측정 또는 예측에 오차가 발생할 수 있다. 따라서 본 발명의 방법은 이미 알고 있는 잠복 시간을 고려하여 임의의 시점을 계산할 수 있다.
본 발명의 다른 양태는, 표적 유전자 교정용 조성물을 포함하는 세포 내 인델 생성부, 상기 표적 유전자의 서열분석을 포함하는 세포 내 인델 빈도 측정부 및 상기 측정된 인델 빈도를 이용하여 소정의 시점으로부터 임의의 시점의 시간 경과를 계산하는 시간 예측부를 포함하는 세포 내 시간 측정용 시스템이다.
한편, 상술한 바와 같이 상기에서 기술한 용어들의 정의 및 양태는 하기에도 적용됨이 분명하다.
본 발명의 세포 내 시간 측정용 시스템에 있어서, 상기 표적 유전자 교정용 조성물은 가이드 RNA, 상기 가이드 RNA가 목적하는 표적 염기서열 및 RNA-가이드 뉴클레아제를 포함할 수 있다.
본 발명의 일실시예에 있어서, 상기 가이드 RNA 및 상기 가이드 RNA가 목적하는 표적 염기서열은 자가-표적 가이드 RNA를 코딩하는 염기서열일 수 있다.
본 발명의 상기 인델 빈도 측정부의 서열분석 단계는 딥 시퀀싱(deep sequencing)으로 수행되는 것일 수 있다.
본 발명의 상기 시간 예측부는 하기 식으로부터 임의의 시점을 계산하는 것일 수 있다:
Figure PCTKR2019015372-appb-img-000006
상기 식에서 F는 표적 서열의 전체 카피수 중에서 온전한 표적 서열 카피수의 빈도를 나타내며, IF는 측정된 표적 서열의 인델 빈도를 나타내며, λ는 단위 시간 당 표적 서열의 인델 생성 확률을 나타내는 양의 상수이다.
본 발명의 상기 시간 예측부는 하기 식으로부터 임의의 시점을 계산하는 것일 수 있다:
Figure PCTKR2019015372-appb-img-000007
상기 식에서 F는 표적 서열의 전체 카피수 중에서 온전한 표적 서열 카피수의 빈도를 나타내며, IF는 측정된 표적 서열의 인델 빈도를 나타내며, λ는 단위 시간 당 표적 서열의 인델 생성 확률을 나타내는 양의 상수이며, t 0은 세포 내에 형질도입된 전이 유전자가 발현되는 데 걸리는 잠복 시간이다.
본 발명의 방법은 인 비보( in vivo) 내에서 정해진 시점으로부터 임의의 시점으로 경과된 시간을 정확하게 측정할 수 있도록 하는 새로운 합성 생물학적 시계이다. 본 발명의 시스템을 통해 인 비트로( in vitro) 또는 인 비보( in vivo) 동물 세포, 및 살아 있는 동물의 DNA에 수 시간(hours)에서 수 주(weeks)에 이르는 시간 정보를 정확하게 기록할 수 있으며, DNA 서열 분석을 통해 모르는 시점에 기록시점부터 경과된 시간을 측정할 수 있다.
또한, 본 발명의 합성 DNA 시계를 이용하면 배양 세포의 특정 화학물질에 대한 최초 노출 시각, 노출 시간 및 살아 있는 동물에서 시간 기록을 시작한 후 남은 수명을 기록하고 측정할 수 있다.
또한, 본 발명의 합성 DNA 시계를 이용하여 세포 내 다양한 신호 전달에 관련된 시간적 정보를 세포 내 DNA에 기록하고 해독할 수 있다.
도 1은 본 발명에 따른 Cas9-삽입 세포(knockin cells) 제조를 위한 재조합 벡터 구조를 나타낸 모식도이다.
도 2 (A)는 Cas9-삽입 세포를 60일 동안 배양하면서 Cas9 단백질 발현양을 웨스턴 블럿으로 확인한 결과이고, (B)는 Cas9-삽입 세포의 형광현미경 관찰 사진이다 (Scale bar = 50 μm).
도 3은 본 발명의 일실시예에 따른 자가-표적 가이드 RNA(stgRNAs)의 구조를 나타낸 것이다. 각 표적 서열을 인식하기 위해 바코드 서열이 사용되었다.
도 4는 Cas9-삽입 세포를 이용한 본 발명의 시간 예측 실험 방법의 모식도이다.
도 5는 렌티바이러스 라이브러리 복제군 A 내지 H의 샘플링 시점을 나타낸 모식도이다.
도 6은 복제군 A 내지 H에서 모든 분석 시점의 온전한 표적 서열 빈도로부터 예측된 t 0 값의 분포이다.
도 7은 복제군 A 내지 F를 사용하여 시간에 따른 온전한 표적 서열 빈도 또는 인델 변화를 설명하는 후보 모델의 적합성을 비교한 데이터이다.
도 8 (a - c)는 시간에 따른 온전한 표적 서열 빈도 또는 인델 빈도의 변화에 대해 후보 모델 적합성을 비교한 데이터이다. 모든 복제군 데이터(A) 또는 각각의 복제군 데이터(C, D)를 이용해 계산한 AIC 및 BIC 값을 나타낸 것이다.
도 9는 일부 stgRNA에 대해 60일 동안 연속적으로 측정한 온전한 표적 서열 빈도를 점 그래프로 나타낸 것이다. 점선은 데이터에 적합된 지수함수형 붕괴 곡선을 나타내며, 그래프 위에 stgRNA-인코딩 서열(표적 서열)의 반감기를 나타내었다.
도 10 (A)는 LOOCV(Leave-one-out cross-validation) 결과, (B)는 (A)에서 시간 추정에 대한 상대절대오차(relative absolute errors)를 나타낸다. (C)는 모든 시점의 데이터(All time points) 또는 4일 이후 시점 데이터(> 4 days)으로부터 계산한 시간 추정에 대한 평균상대절대오차(mean relative absolute errors) 를 나타낸다. (D-E) 모든 시점의 데이터(D), 및 4일 이후 시점 데이터(E)로부터 계산한 평균상대절대오차에서 예측된 시간 값의 nps-가중 평균 효과를 나타낸다.
도 11은 라이브러리 1 및 2에서 계산된 stg-인코딩 서열의 반감기를 나타낸다.
도 12는 복제군 및 라이브러리 사이의 인델 빈도, 감마 값, 및 반감기의 상관관계를 나타낸 것이다: (a) 라이브러리 1 내 복제군 사이의 인델 빈도 상관관계, (b) 라이브러리 2 내 복제군 사이의 인델 빈도 상관관계, (c) 라이브러리 1 내 서로 다른 복제군으로부터 계산된 감마 값의 상관관계, (d) 라이브러리 2 내 서로 다른 복제군으로부터 계산된 감마 값의 상관관계, (e) 라이브러리 1 내 서로 다른 복제군으로부터 계산된 반감기의 상관관계, (f) 라이브러리 2 내 서로 다른 복제군으로부터 계산된 반감기의 상관관계, (g) 서로 다른 라이브러리 사이의 인델 빈도 상관관계, (h) 서로 다른 라이브러리 사이의 반감기 상관관계.
도 13은 복제군들 사이에 온전한 표적 서열 빈도의 nps-가중 평균(왼쪽)과 동등-가중 평균(오른쪽)을 비교한 결과이다.
도 14 (A)는 각 복제군에서 각 관찰 시점에 경과 시간 예측에 대한 평균 상대절대오차를 나타낸 것이고, (B)는 시간 예측에 대한 상대절대오차를 나타낸 것이다.
도 15는 stgRNA-인코딩 서열 개수가 온전한 표적 빈도에 기초한 시간 예측에 대한 평균 상대절대오차에 미치는 영향을 무작위 서브샘플링(n = 10)으로 분석한 결과이다.
도 16 (A)는 본 발명에 따른 ciCas9-삽입 세포( chemically inducible Cas9-knockin cells) 제조를 위한 재조합 벡터 구조를 나타낸 모식도이고, (B)는 ciCas9-삽입 세포의 형광현미경 관찰 사진이다 (Scale bar = 50 μm)
도 17 (A)는 본 발명의 일실시예에 따른 sgRNA-인코딩 및 표적 서열 쌍의 구조를 나타낸 것이다. 각 표적 서열을 인식하기 위해 바코드 서열이 사용되었다. (B)는 ciCas9-삽입 세포를 이용한 본 발명의 시간 예측 실험 방법의 모식도이다.
도 18은 세포 내 화합물 노출 경과 시간 기록에서 일부 표적 서열에 대해 60일 동안 연속적으로 측정한 온전한 표적 서열 빈도를 점 그래프로 나타낸 것이다. 점선은 데이터에 적합된 지수함수형 붕괴 곡선을 나타내며, 그래프 위에 stgRNA-인코딩 서열(표적 서열)의 반감기를 나타내었다.
도 19는 라이브러리 1 내지 3에 대한 반감기 분포를 나타낸다.
도 20 (A)는 라이브러리 3을 이용하여 LOOCV(leave-one-out cross-validation)을 수행한 결과이고, (B)는 (A)에 나타난 시간 예측의 상대절대오차이다.
도 21은 복제군 G와 H의 온전한 표적 서열 빈도의 nps-가중 평균을 비교한 결과이다.
도 22는 각 복제군에서 각 시점에 경과 시간을 예측할 때 평균 상대절대오차를 나타낸 것이다.
도 23 (A)는 다공성 폴리스티렌 스캐폴드에 심은 Cas9-삽입 라이브러리 2 세포를 현미경(왼쪽) 및 형광 현미경(오른쪽)으로 관찰한 결과이다 (Scale bar = 50 μm). (B)는 살아 있는 마우스에서 시간 경과를 예측하기 위한 실험 방법을 나타낸 모식도이다.
도 24는 온전한 표적 서열 빈도를 측정하여 경과 시간을 예측한 결과이다.
도 25는 Cas9-삽입 세포에 라이브러리 2 렌티바이러스로 감염시킨 후의 Cas9 뉴클레아제 발현량을 나타낸 웨스턴 블럿 결과(왼쪽)와 이를 정량화한 그래프(오른쪽)이다.
도 26은 라이브러리 2 세포에서 자가-표적 가이드 RNA의 농도를 나타낸 그래프이다.
도 27은 자가-표적 가이드 RNA당 세포 분석수에 따른 시간 예측 값의 상대절대오차값을 나타낸 그래프이다.
도 28은 낮은 유전 독성을 갖는 가이드 RNA의 선별 과정을 나타낸 모식도(왼쪽)와 각 가이드 RNA 세트별 반감기 분포를 비교한 그래프(오른쪽)이다.
도 29는 FLEx 스위치 개념을 도입한 플라스미드(위쪽)와 특정 생명현상에 반응성이 있는 반응성 프로모터를 이용하는 플라스미드(아래쪽)를 나타낸 모식도이다.
도 30은 FLEx 재조합 과정을 나타낸 모식도이다.
도 31은 특정 생명현상으로 Wnt 신호전달, 염증반응, heat induction에 따른 형광단백질의 발현을 확인한 결과이다.
도 32는 농도별 LiCl 주입에 의한 형광단백질의 발현을 확인한 결과이다.
도 33은 Wnt 반응성 FLEx DNA 시계 라이브러리 세포에서 Wnt 신호 유도 후 자가-표적 가이드 RNA의 인델 빈도를 나타낸 그래프이다.
이하, 실시예를 통하여 본 발명을 더욱 상세하게 설명하고자 한다. 이들 실시예는 오로지 본 발명을 예시하기 위한 것으로서, 본 발명의 범위가 이들 실시예에 의해 제한되는 것으로 해석되지 않는 것은 당업계에서 통상의 지식을 가 진 자에게 있어서 자명할 것이다.
실시예 1. CRISPR-Cas9 뉴클레아제로 유도된 온전한 표적 서열의 지수함수형 붕괴
인 비보( in vivo) 세포에서 시간의 경과를 기록하기 위해, Cas9 및 단일-가이드 RNA(sgRNA)로 구성된 CRISPR-Cas9 시스템에 의한 인델 형성을 활용하였다. Cas9 및 sgDNA 농도가 일정하게 유지된다면, 개별 세포에서 단위 시간당 표적 서열의 인델 생성 속도(rate)는 일정하다고 가정하였으며, 본 명세서에서 람다(λ)로 표기하였다. 세포 하나 당 표적 서열 하나를 도입하면, 개별 세포에서 인델 생성 반응은 개별적으로 일어나며, 표적 서열에서 각각의 인델 생성은 서로 독립적인 사건이다.
이 경우, 인델이 생성되는 속도 또는 전체 세포 군에서 온전한 표적 서열 카피수의 감소 속도(λ)는 시간 t에 온전한 표적 서열의 카피수(N t)에 선형으로 비례하며, 하기 식으로 표현될 수 있다:
Figure PCTKR2019015372-appb-img-000008
………………………………………………식 (1)
상기 식 (1)의 시간 t에 대한 정적분 식은 다음과 같다:
Figure PCTKR2019015372-appb-img-000009
………………………………………………………식 (2)
여기서,
Figure PCTKR2019015372-appb-img-000010
는 t 시점에 총 표적 서열 카피 수 중에서 온전한 표적 서열 카피수의 비율 또는 상대 빈도(이하에서, 빈도라 함)를 나타내며,
Figure PCTKR2019015372-appb-img-000011
는 온전한 표적 서열의 최초(0 시점의) 카피수를 나타낸다. 상기 식 (2)에 나타난 바와 같이,
Figure PCTKR2019015372-appb-img-000012
는 방사성 연대측정에 사용되는 지수함수형 붕괴를 따른다.
단위 세포당 온전한 표적 서열 카피수의 감소 확률(λ)은 렌티바이러스 형질도입을 이용하여 표적 서열을 도입할 때 표적 서열의 서열 조성, 및 Cas9과 가이드 RNA의 농도에 의해 결정된다. 따라서 Cas9 및 sgRNA의 발현 수준을 일정하게 유지한다면, λ는 표적 서열의 조성에 의해 결정된다.
실시예 2. 세포 내에서 Cas9 및 가이드 RNA 농도의 안정적인 유지
세포 내의 Cas9 농도를 일정하게 유지하기 위해, SpCas9 ( Streptococcus pyogenes 유래 Cas9)-삽입(knock-in) 세포주를 사용하였다. 이 세포주는 CMV 프로모터-Cas9-E2A-mRFP 서열을 FLP 재조합효소를 사용하여 변형된 HEK293 세포(Flp-In™ T-REx™ cells)의 전사 활성 영역에 주입하여 제조하였다(도 1).
히그로마이신(hygromycin) 존재 하에서 2개월 동안 배양하면서 상기 Cas9 삽입 세포에서 Cas9 단백질 발현 농도가 장기간 일정하게 유지되는지 확인하였다. 웨스턴 블럿 분석 결과 상기 세포에서 최대 60일 동안 동일한 양의 Cas9 단백질이 발현된다는 것을 확인하였고 (도 2A), 형광 현미경으로 관찰한 결과 세포군의 모든 세포에서 Cas9과 함께 번역되는 mRFP가 균일하게 발현된다는 것을 확인하였다 (도 2B). 이로부터 상기 Cas9 삽입 세포에서 오랜 시간 동안 SpCas9 발현양이 일정하게 유지된다는 것을 알 수 있었다.
한편, 가이드 RNA의 발현을 일정하게 유지하기 위해서는 장기간(수 개월간) 비암호화 RNA 발현을 일정하게 유지할 수 있는 것으로 알려진 U6 프로모터를 사용하였다.
실시예 3. stgRNA-인코딩 서열의 렌티바이러스 라이브러리 생성
Cas9 및 가이드 RNA 농도가 일정한 경우, 알려진 시점에 표적 서열의 온전한 카피수 빈도를 측정함으로써 실험적으로 주어진 표적 서열의 람다(λ)를 결정할 수 있다. 주어진 표적 서열에 대해 λ를 결정하면, 방사성 연대측정과 유사한 방법으로 모르는 시점에 표적 서열에서 인델 빈도(indel frequency, IF)를 측정함으로써 경과된 시간을 계산할 수 있다. 온전한 표적 서열 빈도 (F)는 F = 1 - IF로 계산된다.
그러나, 하나의 가이드 RNA만 사용할 경우 시간 예측의 정확성과 효과적으로 측정 가능한 시간의 범위가 제한된다. 따라서 본 발명에서는 높은 정확도로 다양한 기간에 대한 시간 측정을 위해서, 복수 개의 가이드 RNA와 이에 상응하는 표적 서열을 사용하였다.
본 발명자들은 렌티바이러스를 이용하여 융합된 수 천 개의 합성 표적 서열에서 인델 빈도를 결정하는 방법을 개발한 바 있다(한국공개특허 제10-2017-0123581호). 이 고효율 인델 빈도 평가 방법에서는 렌티바이러스 벡터를 이용하여 가이드 RNA 코딩 서열, 표적 서열 및 분석용 바코드 세트를 293T 세포에 전달하였다. 최근에, 가이드 RNA 코딩 서열이면서 동시에 표적 서열이 될 수 있는 홈잉 가이드 RNA(homing guide RNA) 또는 자가-표적RNA(stgRNA, self-targeting guide RNA) 시스템이 보고되었다. 본 발명에서는 고효율 인델 빈도 분석 시스템을 보다 단순화하기 위하여, 자가-표적 가이드 RNA 코딩 시스템 및 분석용 바코드 서열 쌍을 사용하였다(도 3). stgRNA를 사용하는 또 다른 이점은 이들의 활성이 보통의 가이드 RNA에 비해 감소되어, 오랜 시간에 걸쳐 시간 측정이 가능하다는 점이다.
먼저, 렌티바이러스 라이브러리 1을 준비하였고, 이는 준무작위로 선택된 24,000개의 stgRNA-인코딩 서열 및 이에 상응하는 바코드 서열을 포함한다. 다음으로, 24,000개의 sgtRNA를 암호화하는 렌티바이러스 라이브러리를 Cas9-삽입 세포에 형질도입시켜서 세포 라이브러리를 제조하였고, 각각 독립적으로 형질도입되고 유지되는 3개의 세포 라이브러리 복제군을 제조하였다 (복제군 A, B, C). 이 세포 라이브러리를 계대배양하였고, 라이브러리마다 평균 세포수가 stgRNA 수의 최소 1,000배를 유지하도록 하였다 (즉, 평균 1,000 cells/stgRNA x 24,000 stgRNA = 24 million cells) (도 4). 유전체 DNA를 분리하기 위해 정해진 시점에 배양된 세포의 일부를 수확하였다 (도 5). 유전체 DNA에서 표적 서열을 PCR 증폭한 후 인델 빈도 평가를 위해 딥 시퀀싱(deep-sequencing) 하였다. 11일째에 라이브러리 1의 복제군 A에서 평균 인델 빈도를 측정했을 때, stgRNA-인코딩 서열의 61%의 인델 빈도(IF)가 10% 이하의 매우 낮은 활성을 나타내었다.
따라서, 다른 렌티바이러스 라이브러리(라이브러리 2)를 만들기 위해 별도의 올리고뉴클레오티드 풀(pool)을 준비하였다. 라이브러리 2는 라이브러리 1에 비해 상대적으로 높은 활성을 가지는 stgRNA가 풍부한 2,000개의 stgRNA를 포함하도록 하였다. 라이브러리 2에 렌티바이러스를 각각 독립적으로 형질도입시켜서 3개의 복제군을 만들었다(복제군 D, E, F). 상기 3개의 복제군을 독립적으로 계대배양하였고, 라이브러리마다 평균 세포수가 stgRNA 수의 최소 12,000배를 유지하도록 하였다 (즉, 24 million cells) (도 4 및 5).
실시예 4. 잠복 기간의 계산
이항분포 B(n, P)는 nP 및 n(1 - P)가 충분히 큰 경우 대략적으로 정규분포에 근접할 수 있다. 빈도의 참값(모수) P에 대한 추정량(estimator)의 분산이 P(1 - P)/n으로 계산되기 때문에, n이 크고, P가 중간 값일 때(즉, nP 및 n(1 - P)가 모두 클 때) 모수 P를 추정하는 정확도가 향상될 수 있다. 이로부터 관찰된 빈도 p와 총 실시 횟수 n에 기초하여 참값 빈도 P의 추정 정확도에 대한 지표로 np 및 n(1-p)의 최소값을 사용할 수 있다는 것을 알 수 있다.
본 실시예에서, 주어진 특정 표정 서열 i에 대하여 주어진 시점 t에 측정된 온전한 타겟 서열 수
Figure PCTKR2019015372-appb-img-000013
는 이항분포
Figure PCTKR2019015372-appb-img-000014
를 따르며, 이 때
Figure PCTKR2019015372-appb-img-000015
는 타겟 서열 i에 대해 주어진 시점 t에서 서열 분석 심도(sequencing read depth)를 나타내고,
Figure PCTKR2019015372-appb-img-000016
는 빈도의 참값을 나타낸다. 따라서,
Figure PCTKR2019015372-appb-img-000017
Figure PCTKR2019015372-appb-img-000018
가 모두 클 때, 측정된 온전한 타겟 서열 빈도(
Figure PCTKR2019015372-appb-img-000019
)는 참값
Figure PCTKR2019015372-appb-img-000020
에 가까워질 수 있다.
Figure PCTKR2019015372-appb-img-000021
Figure PCTKR2019015372-appb-img-000022
에서 참값
Figure PCTKR2019015372-appb-img-000023
가 알려져 있지 않기 때문에,
Figure PCTKR2019015372-appb-img-000024
를 추정하기 위해
Figure PCTKR2019015372-appb-img-000025
를 사용할 수 있다.
본 명세서에서는,
Figure PCTKR2019015372-appb-img-000026
Figure PCTKR2019015372-appb-img-000027
중에서 더 작은 값을 nps로 정의하였으며, 이 파라미터는 관찰값
Figure PCTKR2019015372-appb-img-000028
에 기초하여 참값
Figure PCTKR2019015372-appb-img-000029
을 추정하는 정확도에 대한 지표로서 사용되었다.
세포를 렌티바이러스로 처리한 후에, 렌티바이러스의 전이유전자(transgene)가 역전사되고, 숙주 유전체로 삽입되어서 발현되는 데 일정한 시간이 필요하다. 이와 같은 잠복 시간(t 0)을 추정하기 위해, 지수함수형 모델에 기초하여 복제군 A 내지 F로부터 얻은 데이터를 이용하여 통계적으로 계산하였다. 상기 식 (2)에 하기와 같이 잠복 시간(t 0)을 나타내는 파라미터를 추가하였고, 빈도(F)에 대한 nps로 가중된 잔차제곱합(RSS)을 최소화 하기 위한 비선형 최소자승법을 사용하여 λ와 t 0를 결정하였다.
Figure PCTKR2019015372-appb-img-000030
………………………………………………식 (3)
모델 적합을 위해, 2% <
Figure PCTKR2019015372-appb-img-000031
< 95% 범위의 데이터를 사용하였다. 극단적으로 낮은 활성을 나타내는 몇몇 stgRNA의 경우, 온전한 표적 서열 빈도 F는 60일 동안 85% 이하로 감소하지 않았다. 따라서, 특정 stgRNA에 대하여 측정된 온전한 표적 서열 빈도가 모든 측정 시점에서 85% 이상이면, 상기 stgRNA-인코딩 서열을 분석에서 제외하였다.
계산된 잠복 기간의 분포를 도 6에 나타내었다. 모든 복제군 A 내지 F에서 5% 절단한 t 0의 nps-가중 평균은 1.021일(days)이었으며, 이후 분석에서 이 값을 사용하였다.
실시예 5. 지수함수 모델의 검증
상기에서 가정한 바와 같이, 온전한 표적 서열 빈도 F가 지수함수형 붕괴를 따라 감소하는지 여부를 확인하기 위하여, 지수함수 모델을 선형 모델, 곰페르츠 모델(Gompertz) 및 로지스틱(logistic) 모델과 비교하였으며, 이를 위해 AIC(Akaike information criterion) 및 BIC(Bayesian information criterion)를 계산하였다. 모델 적합을 용이하게 하기 위하여 곰페르츠 모델 및 로지스틱 모델에서는 온전한 표적 빈도 F 대신 인델 빈도(IF = 1 - F)를 사용하였다.
그 결과 잠복 기간 t 0를 1.021일 또는 0일로 가정하는지 여부와 관계 없이, 복제군 A 내지 F에서 모두 지수함수 모델의 AIC 및 BIC 값 대부분이 나머지 세 가지 모델의 값보다 작게 나타났다 (도 7, 도 8a-c). 이로부터 온전한 표적 서열 빈도가 지수함수형 붕괴 모델을 따라 감소한다는 것을 알 수 있었다. 몇몇 stgRNA에 대한 적합된 지수함수 모델을 도 9에 예시로서 나타내었다.
실시예 6. LOOCV(Leave-One-Out Cross-Validation)을 이용한 경과 시간 측정
본 발명의 지수함수형 붕괴 모델을 이용하여 시간을 측정할 수 있는지 확인하기 위하여, LOOCV(Leave-One-Out Cross-Validation)을 수행하였다. 구체적으로, 실험을 통해 측정된 시점 중 하나를 선택하고 그 시점에서 온전한 서열 빈도를 이용하여 경과 시간을 예측하였다. 이 예측에 있어서, 빈도에 대한 nps-가중 RSS를 최소화하기 위한 비선형 최소자승법을 사용하여 다른 시점의 온전한 서열 빈도로부터 λ를 계산하였다. 잠복 기간 추정 시에, 온전한 서열 빈도가 극단치인 경우(
Figure PCTKR2019015372-appb-img-000032
< 2% 또는
Figure PCTKR2019015372-appb-img-000033
> 95%) 및 stgRNA 활성이 극단적으로 낮은 경우(60일 동안 측정된 모든 시점에서
Figure PCTKR2019015372-appb-img-000034
가 85% 이상)는 분석에서 제외시켰다. 다음으로, 걸러지고 남은 수 천 개의
Figure PCTKR2019015372-appb-img-000035
값으로부터 특정 시점에서 수 천 개의 추정 시간
Figure PCTKR2019015372-appb-img-000036
값을 추정하였다. 모르는 시점에 경과 시간
Figure PCTKR2019015372-appb-img-000037
을 예측하기 위해 상기 수 천 개의
Figure PCTKR2019015372-appb-img-000038
값의 사분위수(25% 절단치) nps-가중 평균을 구하였다. 이로부터 복제군 A 내지 F에 대한 시간 예측은 매우 정확한 것을 알 수 있었다 (도 10A). 모든 복제군에 있어서 4일 후에 상대절대오차(relative absolute errors)는 20% 이하로 나타났다 (도 10B). 또한 이 시간 예측은 4일 후에 안정화되었으며, 4일 후 평균상대절대오차(MRAE, mean relative absolute error)는 복제군 A 내지 F에서 3.1% 내지 5.2% 범위로 나타났다 (도 10C). 상기 MRAE는 모든 시점에 대하여 4.5% 내지 8.7% 범위로 확인되었다 (평균 5.9%, 중간값 5.5%). 또한, 추정 시간
Figure PCTKR2019015372-appb-img-000039
값의 nps-가중 RSS 및 nps-가중 평균 계산에 기초한 시간 예측의 정확성을 추정 시간
Figure PCTKR2019015372-appb-img-000040
값의 동일-가중 RSS 및 동일-가중 평균 계산에 기초한 것과 비교하였을 때, nps-가중 접근법을 사용한 경우에서 모든 시점의 MRAE 및 4일 후의 MRAE가 모두 더 낮게 나타나는 것을 확인하였고 (도 10D-10E), 이로부터 nps-가중 평균법이 시간 예측의 정확성을 더 높인다는 것을 알 수 있었다.
실시예 7. 표적 서열의 반감기
방사성연대측정에 있어서 λ 대신에 반감기(t 1/2, half-life)가 더 널리 사용되기 때문에, 상기 식 (2)는 하기와 같이 표현될 수 있다:
Figure PCTKR2019015372-appb-img-000041
…………식 (4)
상기한 바와 같은 비선형 최소자승법을 사용하여, 모든 측정 시점의 온전한 서열 빈도로부터 각각의 stgRNA-인코딩 서열에 대한 반감기를 결정하였다. 하나 이상의 복제군에 대해 특정 stgRNA 서열이 사용될 때, 복제군들의 반감기로부터 계산한 nps-가중 평균 반감기가 진짜 반감기에 가장 근접한 추정값으로 선택되었다. 라이브러리 1 및 2에서 stgRNA와 관련된 반감기는, 라이브러리 1의 경우 2.3 ~ 747일 (중간값: 91.5일, 평균: 113일) 범위, 라이브러리 2의 경우 2.7 ~ 642일 (중간값: 34.7일, 평균: 56.6일)로 나타났다 (도 11).
실시예 8. 서로 다른 복제군 및 라이브러리 사이의 경과 시간 기록 및 측정의 재현성(Reproducibility) 확인
F 또는 IF 값을 시계로 사용하기 위해서는 복제군 사이의 재현성 및 높은 상관관계가 필수적이다. 라이브러리 1 및 라이브러리 2에서 복제군 사이의 인델 빈도에 높은 관련성이 있었다 (도 12a, 12b). 두 라이브러리에서 서로 다른 복제군의 온전한 서열 빈도 Fs (= 1 - IF)로부터 계산된 반감기 및 λ값 역시 비교가능하였다 (도 12c-12f).
다음으로 서로 다른 라이브러리 사이의 재현성을 평가하였다. 라이브러리 1 및 2는 1,200개의 stgRNA를 공유하며, 1,200개의 표적 중에서 889개에 대한 반감기는 모든 복제군 A, B, C, D, E 및 F에서 결정되었다. 인델 빈도는 서로 다른 라이브러리의 복제군 사이에서도 높은 상관관계가 있었고 (도 12g), 온전한 표적 서열 빈도(Fs)의 nps-가중 평균 및 동등-가중 평균은 모든 6개 복제군에서 비교가능하였다 (도 13). 이로부터 주어진 stgRNA-인코딩 서열에 대한 온전한 서열 빈도가 감소하는 속도는 라이브러리 배치마다 거의 동일하며 독립적이라는 것을 알 수 있었다. 또한, 복제군 E에서는 3가지 시점(4.0일, 10.9일, 15.1일)에서만 온전한 서열빈도 F를 측정하였음에도 불구하고, 서로 다른 라이브러리의 복제군에서 계산된 반감기 및 λ 값 사이에서도 높은 상관관계가 확인되었다 (도 12h).
마지막으로, 889개의 공유 stgRNA를 사용하여 시간 예측이 재현 가능한지 평가하였다. 어떤 복제군에 대해 모르는 시점에서 경과된 시간을 추정할 때 다른 복제군에서 계산된 반감기를 이용하는 경우, 시간 예측 오차는 비슷했고, 오차의 평균은 4일차 이후에 10% 이하로 떨어졌다 (도 14A-14B). 이로부터 본 발명의 시스템은 라이브러리 배치 또는 복제군과 무관하게 높은 재현성 및 정확성을 나타냄을 알 수 있었다.
실시예 9. 표적 서열의 개수 감소가 시간 측정 정확성에 미치는 영향
다음으로, 시간 측정에 있어서 더 적은 수의 stgRNA를 사용할 수 있는지 알아보았다. 구체적으로 복제군 A 내지 F에서 무작위 추출로 stgRNA 개수를 줄이고 각 복제군에 대한 MRAE 값을 계산하였다. MRAE 값은 거의 100 또는 200개의 stgRNA에 대새 비교 가능했으며, 그 후로 MRAE는 stgRNA 수가 감소함에 따라 급격하게 변동하고 증가하였다 (도 15). 이로부터 상대적으로 정확한 시간 측정을 위해서는 적어도 100 또는 200개의 stgRNA를 포함한 작은 규모의 라이브러리를 이용할 수 있음을 알 수 있었다.
실시예 10. 세포 내 화학 물질 노출의 경과 시간 기록
DNA 서열 안으로 화학 물질 노출 측정을 기록하기 위해, 화학적으로 유도 가능한 Cas9 (chemically-inducible Cas9, ciCas9)을 사용하였으며, 이 ciCas9은 화합물 A-1155463의 존재 하에 빠르게 활성화되는 것이다 (Rose et al., 2017; Rose et al., 2018). 먼저, Cas9-삽입 세포를 만드는 것과 유사한 방법으로 ciCas9-삽입 세포를 제조하였다 (도 16). 또한, stgRNA는 sgRNA에 비해 너무 약한 활성을 나타내기 때문에, 몇 시간 단위와 같이 상대적으로 짧은 시간을 기록하기 위해 stgRNA-인코딩 서열 대신에 보통의 sgRNA-인코딩 서열과 이에 상응하는 표적 서열을 따로 포함하는 라이브러리 쌍을 사용하였다 (도 17A). ciCas9-삽입 세포를 sgRNA-인코딩 및 표적 서열이 짝지어진 라이브러리 3으로 형질도입시켰다. 형질도입된 세포는 10 μM A-1155463으로 처리한 후 시간에 따라 온전한 서열 빈도를 측정하였다 (도 17B, 도 5). 온전한 표적 서열 빈도는 시간에 따라 지수함수형으로 감소하였다 (도 18). A-1155463 존재 하에서 계산된 반감기는 47.9시간 내지 442시간 (평균: 219시간, 중간값: 214시간)으로 나타났다 (도 19). 상기 라이브러리 1 및 2를 이용하여 수행한 바와 같이 라이브러리 3을 이용하여 LOOCV(leave-one-out cross-validation)을 수행한 결과, 본 발명의 시간 예측 정확도가 매우 높고 (도 20A), 50분 이후 상대절대오차는 30% 이하로 나타났다 (도 20B). 이로부터 화학 물질에 대한 노출 시간 경과를 기록하고 측정할 수 있으며, 이 기록은 50분 이후에 보다 정확하다는 것을 알 수 있었다.
A-1155463을 처리하지 않은 경우, A-1155463 존재 하에서 결정된 반감기를 이용하여 계산한 4일째(= 96시간)에 대한 추정 시간은 2.1시간으로, A-1155463 존재 하에서 추정된 경과 시간인 96시간에 비해 46배 짧았다.
또한, 온전한 표적 서열 빈도의 nps-가중 평균은 복제군 G 및 H 모두 비슷하게 나타났으며 (도 21), 이로부터 복제군 사이에 ciCas9-유도 인델 형성의 비교가능한 속도를 알 수 있었다. 어떤 복제군에 대해 모르는 시점에서 A-1155463 노출 시간을 추정할 때 다른 복제군에서 계산된 반감기를 이용하는 경우, 복제군 H는 2가지 시점(48시간, 120시간)만 포함하였음에도 불구하고, 시간 예측 오차는 비슷했고, 오차의 평균은 30% 이하로 떨어졌다 (도 22). 이로부터 서로 다른 복제군 사이에 높은 재현성이 있음을 알 수 있었다.
또한, 50분과 그 이후에 시점을 계산할 때, 모든 시점의 평균 값과 비교하여 MRAE는 더 낮게 나타났다. 이 결과는 본 발명의 시간 예측 시스템이 높은 재현성 및 정확성을 가진다는 것을 뒷받침하며, 결과적으로 A-1155463 화합물 노출 시간 경과를 기록할 수 있음을 알 수 있었다.
실시예 11. 살아 있는 마우스 내 경과 시간 기록
다음으로, 인 비보( in vivo) 동물 모델 내에서 시간 경과를 기록할 수 있는지 확인하였다. 먼저, 본 발명자들은 stgRNA-인코딩 서열 라이브러리로 형질도입된 Cas9-삽입 세포를 알고 있는 시점에 마우스 내로 전달한 후 온전한 표적 서열 빈도를 분석하면 세포 전달 후 동물이 살아 있는 상태에서 시간을 예측할 수 있게 할 것이라고 가정하였다. 마우스 내로 세포를 효과적으로 전달하기 위해, 먼저 Cas9-삽입 세포를 라이브러리 2로 형질도입하고 형질도입된 세포를 다공성 폴리스티렌 스캐폴드에 1 million cells/scaffold 농도로 심었다. 세포를 파종한지 2일 후, 형광현미경으로 세포가 스캐폴드에 잘 부착된 것을 확인하였다 (도 23A). 다음으로 이 세포가 포함된 스캐폴드를 NOG-SCID 마우스의 피하에 이식하였다. 다음으로 세포 이식 후 4일, 8일, 14일 및 21일째 되는 날 마우스를 안락사시키고 스케폴드를 제거한 후 분석 시까지 -20℃에 보관하였다 (도 23B). 동일 조건의 인 비트로( in vitro) 대조군으로서, 상기 세포를 포함한 스캐폴드를 인 비트로에서 배양하였다.
스캐폴드로부터 유전체 DNA를 분리하고, 온전한 표적 서열 빈도를 평가하여 상기한 바와 같이 독립적인 인 비트로 실험에서 복제군 D 내지 F 분석으로 결정된 반감기를 이용하여 경과 시간을 추정하였다. 그 결과 온전한 표적 서열 빈도를 기초로 측정한 스캐폴드 이식 후 수명의 상대절대오차는 4일, 8일, 14일 및 21일째에 각각 12%, 8.8%, 3.1%, 및 6.4% (네 시점 전체의 평균 오차: 7.6%)에 불과했다 (도 24의 Replicate D-F). 이로부터 마우스 내에서 정확한 방법으로 경과 시간을 기록할 수 있음을 알 수 있었다.
또한, 이 오차는 대조군 실험으로 결정된 반감기를 사용했을 때 비교가능하였고 (도 24의 In vitro parallel), 이로부터 본 발명의 시간 기록 시스템의 재현성이 복제군마다 독립적이며, 인 비트로나 인 비보 조건 사이의 미세한 환경 차이에 거의 영향을 받지 않는다는 것을 알 수 있었다. 이는, 동물이 죽을 때 Cas9-유도 인델 생성이 멈춘다면, 정해진 시점에 시간 기록 세포를 동물에 이식하면 수명을 기록할 수 있다는 것을 의미한다.
실시예 12. 세포 내 RNA-가이드 뉴클레아제와 자가-표적 가이드 RNA의 농도 유지 확인
단위 세포당 온전한 표적 서열 카피수의 감소 확률(λ)이 표적 서열의 서열, RNA-가이드 뉴클레아제 및 가이드 RNA의 농도에 의해 결정되는 것으로 가정하였을 때, RNA-가이드 뉴클라아제와 자가-표적 가이드 RNA의 발현 농도가 일정하게 유지되는지 여부를 확인하였다.
먼저, RNA-가이드 뉴클레아제의 발현 농도를 확인하기 위하여 Cas9-삽입 라이브러리 2 세포를 85.5일까지 배양하면서 웨스턴 블럿을 통해 발현량을 확인하였다 (도 25). 웨스턴 블럿에서 Flp-In 은 Flp-In™ T-REx™ 세포를 사용하였으며, Cas9 KI는 Cas9-삽입 세포를 사용하였다. D11.5, D42.5, D85.5는 각각 Cas9-삽입 세포에 라이브러리 2 렌티바이러스로 감염시킨 후 경과일을 나타낸 것 (Flp-In 샘플 n=2, 나머지 샘플 n=4)이다. 정량화 그래프에 나타난 것과 같이 Cas9 뉴클레아제 발현량이 일정하게 유지되는 것을 확인하였다.
세포 라이브러리에서 자가-표적 가이드 RNA의 농도를 확인하기 위하여 Flp-In 세포, Cas9-삽입 세포, 라이브러리 2 세포 (11.5, 35.5, 42.5, 59.5일 샘플)에서 각각 small RNA (miRNeasy Mini Kit, QIAGEN)를 추출하여 Cdna로 합성한 뒤 qPCR (SYBR™ Green PCR Master Mix, ThermoFisher)을 통해 정량하였다 (도 26). 각각의 샘플에서 small RNA를 추출하여 RT-qPCR로 자가-표적 RNA 농도를 측정(샘플 당 n=2)하였으며, 내생 대조군으로는 U6 snRNA를 사용하였다. qPCR에 사용한 프라이머는 다음 [표 1]에 나타내었다. 정량화 그래프에 나타난 것과 같이 라이브러리 2 세포에서 59.5일까지 자가-표적 가이드 RNA의 농도가 일정한 것을 확인하였다.
Usage Name Sequence 서열번호
stgRNA expression quantification stgRNA_scaffold_pF1 GGGTTAGAGCTAGAAATAGCAAGTTAACC 21
stgRNA_scaffold_pR1 CCGACTCGGTGCCACTTTTTC 22
U6_endogenous_ctrl_pF1 CTCGCTTCGGCAGCACA 23
U6_endogenous_ctrl_pR1 AACGCTTCACGAATTTGCGT 24
실시예 13. 관찰한 세포 개수와 시간 예측 정확도의 관계성 확인
세포 라이브러리를 이용하여 시간을 측정할 때에는, 서로 다른 자가-표적 가이드 RNA별로 충분한 개수의 세포가 분석되어야 인델 빈도 데이터의 신빙성을 확보할 수 있다. 또한, 신빙성이 높은 인델 빈도 데이터로 분석하여야 시간 예측 정확도를 높일 수 있다. 따라서, 일정 수준 이상의 시간 예측 정확도를 얻기 위해 필요한 최소 세포 수를 확인하기 위해, 관찰한 세포 개수에 따른 시간 예측 에러값을 측정하였다.
Cas9-삽입 세포에 라이브러리 2 렌티바이러스를 감염시킨 뒤 14.5일이 지난 샘플을 분석하였다. 최종 반감기 리스트의 반감기 정보를 이용하여 시간 예측 에러값을 측정하였다 (도 27). Library coverage (x)는 자가-표적 가이드 RNA당 분석한 세포 개수를 의미한다. 최소 세포수인, 자가-표적 가이드 RNA당 0.12개의 세포 분석 시 상대절대오차값은 552.0%로 매우 높게 나타났다. 최대 세포수인, 자가-표적 가이드 RNA당 120,000개의 세포 분석 시 상대절대오차값은 8.2%로 나타나 시간 예측 정확도가 우수한 것을 확인하였다. 한편, 자가-표적 가이드 RNA당 1,200개의 세포 분석 시 상대절대오차값이 16%로 나타나 유의미하게 정확한 시간 예측 값을 도출할 수 있음을 확인하였다.
실시예 14. 세포 독성이 낮은 자가-표적 가이드 RNA의 선별
세포 라이브러리를 이용하여 시간을 측정할 때에는, 세포 내에서 일정한 속도로 행해지는 이중나선 절단을 통한 인델 형성이 필수적이다. 그러나, 지속적인 이중나선 절단은 각각의 자가-표적 가이드 RNA의 서열과 비슷한 다른 유전체 서열을 망가뜨릴 수 있는 오프-타겟 (off-target) 효과를 유발할 위험이 있다. 이러한 유전 독성을 최소화하고 안정성을 극대화 하기 위해 실험에 사용한 자가-표적 가이드 RNA에 대한 선별 작업을 수행하였다.
먼저, 염기서열을 기반으로 Cas9의 잠재적 오프-타겟 사이트를 찾아주는 Cas9-OFFinder (Bae S et al., Bioinformatics (2014)) 웹툴의 코드를 이용하여, 라이브러리 1과 2에 공통적인 가이드 RNA에서 인간 유전체 상에서 존재하는 서열과 비슷한 서열을 갖는 자가-표적 가이드 RNA를 제거하는 필터링을 수행하였다. 사용한 필터 조건으로 라이브러리 염기서열 구성 성분 중 20nt 가이드 염기서열에서 인간 유전체 서열과 비교 하였을 때에 완전히 같거나, NRG PAM 시퀀스를 기준으로 1, 2bp 미스매치를 갖는 유전체 오프-타겟 개수를 분석하였다. 또한, DNA bulge와 RNA bulge 1, 2bp 조건에서도 완전히 같은 서열을 갖거나 1bp의 미스매치를 갖는 유전체 오프-타겟 개수를 도출하였다. 첫번째 필터링 조건에서 분석된 오프-타겟 개수의 합산이 적은 순으로 자가-표적 가이드 RNA 90개 (Guide set 1)만 다음 필터링 과정에 사용하였다 (도 28).
이어서, 첫번째 필터링 후 남은 90개 가이드 RNA에 대해 생존에 필수적인 유전자 (Hart T et al., EMBO molecular systems biology (2014), Hart T et al., Cell (2015)) 와 비슷한 시퀀스를 갖는 가이드 RNA를 제거하였다. 사용한 필터 조건으로 라이브러리 20nt 가이드 염기서열에서 생존 필수 유전자 염기서열과 비교 하였을 때에 완전히 같거나, NRG PAM 시퀀스 기준으로 1, 2, 3bp 미스매치를 갖거나 DNA bulge와 RNA bulge 1, 2bp 조건에서도 완전히 같은 서열을 갖거나 1, 2bp의 미스매치를 갖는 유전체 오프-타겟 개수를 분석하였다. 두번째 필터링 조건의 오프-타겟 개수 합산이 적은 순으로 자가-표적 가이드 RNA를 20개 (Guide set 2)를 뽑아내었고, 최종 20개 가이드 RNA는 생존 필수 유전자 외 오프-타겟의 개수는 3개 이하였다.
라이브러리 2, Guide set 1, 2에 속하는 자가-표적 가이드 RNA의 반감기 분포 비교 결과 서로 크게 차이가 없었으므로, 최종적으로 높은 안정성을 가지는 RNA가 선별되었음을 확인하였다.
실시예 15. DNA 시계의 일반화를 위한 FLEx DNA 시계 라이브러리 시스템 구축
DNA 시계로서 세포 라이브러리의 적용 가능성을 넓히기 위해, Cas9-삽입 세포나 ciCas9-삽입 세포를 이용하지 않고 다른 다양한 생물학적 현상을 측정할 수 있는 일반화된 시스템을 구축하였다. 특정 생명현상에 반응하여 Cas9 뉴클레아제의 발현을 유도하기 위해 Cre-mediated recombination을 이용한 FLEx 스위치 개념을 도입하였다 (도 29). (Schnutgen F et al., Nature Biotech (2003), Andersson-Rolf A et al., Nature Biotech (2017))
FLEx DNA 시계 라이브러리 시스템에 이용한 벡터는 Sleeping Beauty (SB) transposon에 기초하여 벡터를 새롭게 고안하였다. 기존 라이브러리 1, 2, 3과 같이 렌티바이러스를 이용한 라이브러리에서는 polyA 시퀀스를 사용할 수 없고, 8kb 이상의 큰 카세트를 인코딩하기에는 부적절하기 때문이다. 따라서 SB transposition에 필요한 ITR 염기서열이 카세트 양 말단에 존재하여, SB transposase에 의해 세포 내 유전체 염기서열에 삽입될 수 있도록 한다. ITR 염기서열 안쪽에 위치한 ins (insulator) 시퀀스는, DNA 시계가 작동한 뒤 Cas9 뉴클레아제의 발현량을 세포마다 비슷하게 맞춰주기 위해 첨가하였다. (Loveless TB et al., BioRxiv (2019), Liu M et al., Nature Biotech (2015)) 도 29에서 ins와 PuroR 사이의 삼각형 및 U6와 polyA 사이의 삼각형은 lox2272 서열이고, PuroR와 EF1a 사이의 삼각형 및 polyA와 Cas9 사이의 삼각형은 loxP 서열, polyA는 SV40 polyA 서열을 의미한다.
세포 독성이 낮고 안정성이 높은 자가-표적 가이드 RNA를 이용하기 위해 위 18에서 선별해낸 가이드 RNA 20개 중 11개를 이용하여 FLEx DNA 라이브러리의 stgRNA 부분에 클로닝하여 라이브러리를 제작하였다.
FLEx DNA 시계 라이브러리 벡터에 Cre 단백질이 작용하면 Cre-dependent recombination에 의해 FLEx 스위치가 작동하고, 그 결과로 꺼져있던 Cas9 뉴클레아제의 발현이 유도된다. 이 Cas9 뉴클레아제 발현이 시작되면 자가-표적 가이드 RNA 서열에 인델을 유도하고, 그 결과로 라이브러리의 자가-표적 가이드 RNA 서열에 형성된 인델 빈도를 측정하여 시간을 예측할 수 있다 (도 30). Cre 단백질에 의해 lox2272 1쌍, loxP 1쌍에 재조합이 일어나면 순서에 상관없이 EF1a 프로모터에 의해 Cas9과 mClover3 형광단백질이 발현되고, stgRNA 부분에 인델이 지속적으로 형성된다.
이처럼, 특정 생명현상에 반응성이 있는 프로모터에 의해 Cre 단백의 발현이 조절되도록 고안하면 특정 생명현상이 일어난 시간을 측정하는 것이 가능해진다.
실시예 16. 특정 생명현상에 반응성을 갖는 세포주의 수립
Cas9-삽입 세포나 ciCas9-삽입 세포의 사용에 국한되지 않고 다른 다양한 생물 현상의 시간적 정보를 측정하기 위해, 특정 자극에 의해 전사가 유도되는 다양한 합성 프로모터 가진 렌티바이러스 벡터를 제작하였다. Wnt 신호 전달에 반응하는 TCF-LEF 합성 프로모터 (Tang W et al., Science (2018)), 염증반응에 의해 활성화되는 NF-kBR 합성 프로모터 (Perli SD et al., Science (2016)), heat induction에 반응하는 HSE 합성 프로모터 (Ortner V et al., Cell Stress and Chaperones (2015))에 대한 렌티바이러스 벡터를 고안하였다. 각각 해당 합성 프로모터 하에 Cre 단백질과 mRuby3 형광단백질 염기서열을 인코딩하도록 클로닝하였다 (도 31).
위 세가지 생명현상에 반응하여 Cre 단백질을 발현하게 하는 렌티바이러스를 제작하여 HEK293T 세포에 각각 감염시킨 뒤, 단일 클론 세포주를 수립하였다. 이 세포주에 각각 Wnt (25mM LiCl 처리), 염증반응 (10ng/ml hTNFa 처리), heat induction (42C heat-shock에서 배양)하여, 모두에서 mRuby3 형광단백질이 발현되는 것을 확인하였다.
실시예 17. Wnt 신호전달에 반응하여 작동하는 DNA 시계 시스템 검증
기 수립한 생명현상에 반응성을 갖는 세포주 중에서 Wnt 신호전달에 반응하는 세포주에 FLEx DNA 시계 라이브러리를 도입하여 Wnt 신호전달에 의해 작동하는 DNA 시계 시스템을 구축하였다. FLEx DNA 시계 라이브러리 벡터와 SB transposase 벡터를 동시에 Wnt 반응성 세포주에 트랜스펙션하여 푸로마이신으로 선택적 배양을 한 뒤, LiCl을 처리하여 FLEx DNA 시계 라이브러리에 Cre-dependent recombination을 유도하였다 (도 32).
Wnt 신호전달에 반응하는 HEK293T 단일 클론 세포주에 FLEx DNA 시계 라이브러리를 도입하였으며, Wnt (25.6mM, 51.2mM LiCl 처리)에 의해 Cre 단백질과 mRuby3 형광단백질이 발현되었다. 이 Cre 단백질에 의해 Cas9 뉴클레아제와 mClover3 발현이 유도되는 것을 확인하여, Wnt 신호전달이 일어난 시점을 측정할 수 있는 DNA 시계 시스템이 작동하는 것을 확인하였다.
Wnt 반응성 FLEx DNA 시계 라이브러리 세포에 여러가지 시작 시점에서 (0, 4, 8일) LiCl로 Wnt 신호를 이틀간 유도하고, 표시된 시점에서 각각 세포를 채취하여 11개의 자가-표적 가이드 RNA의 인델 빈도를 분석하였다 (도 33).
샘플 당 두 개의 복제군이 존재하며, 하나의 복제군 인델 빈도 데이터를 이용해 라이브러리에 포함된 자가-표적 가이드 RNA의 반감기를 추정하였다. 도 33에서 원이 표시된 시점에서 해당 샘플을 채취하고, 빈 원은 Wnt 신호 유도를 하지 않은 대조군 (bg), 색 또는 패턴으로 표시된 원은 진한 선에 해당하는 기간 동안 Wnt 신호를 유도한 샘플을 나타낸 것이다. 도 33의 우측 그래프는 각 샘플의 인델 빈도 데이터를 이용한 시간 예측값을 나타낸 것이다. 상기 그래프에서 확인되는 바와 같이, 추정된 반감기로 다른 하나의 복제군의 시간을 예측하였을 때 각각 다른 Wnt 신호 시작 시점에서 경과된 시간을 잘 예측되는 것이 확인되었다. 따라서, 특정 생물학적 현상이 유도된 시점을 측정할 수 있는 FLEx DNA 시계 시스템이 잘 작동하는 것을 검증하였다.
[실험 재료]
본 발명의 실시예에 사용된 물질 및 데이터의 출처를 하기 표에 나타내었다.
REAGENT or RESOURCE SOURCE IDENTIFIER
항체
Anti-CRISPR-Cas9 antibody [7A9-3A3] Abcam Cat#ab191468
β-Actin antibody (C4) Santa Cruz Biotechnology Cat#sc-47778
박테리아 및 바이러스
One Shot Stbl3 Chemically Competent E.coli Thermo Fisher Cat#C737303
Subcloning Efficiency™ DH5α™ Competent Cells Thermo Fisher Cat#18265017
Endura™ ElectroCompetent Cells Lucigen Cat#60242-2
화합물, 펩티드 및 재조합 단백질
BsmBI restriction enzyme enzynomics Cat#R075L
Alkaline Phosphatase, Calf Intestinal (CIP) NEB Cat#M0290L
NEBuilder® HiFi DNA Assembly Master Mix NEB Cat#E2621L
Phusion® High-Fidelity DNA Polymerase NEB Cat#M0530L
2X Taq PCR Smart mix Solgent Cat#STD02-M50h
Fetal bovine serum (FBS) Thermo Fisher Cat#16000-044
DMEM Thermo Fisher Cat#11995-065
Penicillin-Streptomycin (10,000 U/mL) Thermo Fisher Cat#15140-122
Lipofectamine 2000 transfection Reagent Thermo Fisher Cat#11668-019
A-1155463 BioVision Cat#B1821
Hygromycin B Gold™ InvivoGen Cat#ant-hg-5
Puromycin Dihydrochloride Thermo Fisher Cat#A1113803
Zeocin™ InvivoGen Cat#ant-zn-1p
Protease Inhibitor Cocktail Merck Cat#P8340
어세이(Assay)
MEGAquick-spin™ total fragment DNA purification kit iNtRON Biotechnology Cat#17290
Wizard® Genomic DNA Purification Kit Promega Cat#A1620
데이터
Deep sequencing data NCBI
실험 세포주(Cell Lines)
Flp-In™ T-REx™ Cell Line Thermo Fisher Cat#R780-07
HEK293T cells ATCC Cat#CRL-1573
Cas9-E2A-mRFP knockin cell line This paper N/A
ciCas9-E2A-mRFP knockin cell line This paper N/A
모델 마우스(Organisms/Strains)
Mouse (NOG): NOD.Cg- Prkdc scid  Il2rg tm1Sug/JicTac Central Institute for Experimental Animals N/A
올리고뉴클레오티드
All oligonucleotide pools used in library construction TwistBioscience N/A
Primers used for library construction (서열번호 1 ~ 3) This paper N/A
Primers used for deep sequencing preparation (서열번호 5 ~ 20) This paper N/A
Primers used for stgRNA expression quantification (서열번호 21~24) This paper N/A
재조합 DNA
Lenti_gRNA-Puro plasmid Addgene Cat#84752
Lenti_stgRNA-Puro plasmid This paper N/A
pRGEN-Cas9-CMV/T7-Puro-RFP Toolgen Cat#TGEN_OP1
ciCas9_pcDNA5 Addgene Cat #100550
pcDNA™5/FRT Expression Vector Thermo Fisher Cat#V6010-20
pOG44 Expression Vector Thermo Fisher Cat#V6005-20
pcDNA™5/FRT/CMV_promoter-Cas9-E2A-mRFP This paper N/A
pcDNA™5/FRT/CMV_promoter-ciCas9-E2A-mRFP This paper N/A
psPAX2 Addgene Cat#12260
pMD2.G Addgene Cat#12259
소프트웨어 및 알고리즘
EMBOSS Rice, Longden, and Bleasby, 2000 emboss.sourceforge.net
R R Core Team, 2018 https://www.r-project.org/
doSNOW Microsoft Corporation and Stephen Weston, 2017 https://cran.r-project.org/web/packages/doSNOW/index.html
Indel searcher, model comparison, t 0 and half-life calculation algorithms This paper and available on GitHub https://github.com/hkimlab/SupplementalCodes
기타
MicroPulser™ Electroporator Bio-Rad Cat#1652100
QIAGEN Plasmid Maxi Kit QIAGEN Cat#12165
Millex-GV Syringe Filter Unit, 0.22 μm, PVDF, 33 mm, gamma sterilized Merck Cat#SLGV033RS
48-well PS scaffold 3D Biotek Cat#PS152048-16
[실험 방법]
1. 벡터 구축
라이브러리 1 및 2를 구축하기 위한 렌티바이러스 플라스미드 뼈대는 Lenti_gRNA-Puro plasmid (Addgene; #84752)로부터 위치-특이적 돌연변이 유도를 통해 sgRNA 스캐폴드를 stgRNA 스캐폴드로 변형시킴으로써 구축하였다. 구체적으로, 상기 위치-특이적 돌연변이 유도는 U23 및 U24 위치를 구아닌으로 대체하고, A48 및 A49 위치를 시토신으로 대체하였다 (Perli et al., 2016). 구축한 벡터는 E.coli 균주 Stbl3 (Thermo Fisher, Waltham, MA)에 형질전환시킨 후, 100 μg/ml 암피실린(ampicillin) 존재 하에서 선별하였다.
Cas9- 및 ciCas9-삽입(knockin) 세포 제작을 위한 통합 벡터를 만들기 위해, pRGEN-Cas9-CMV/T7-Puro-RFP (Toolgen, Seoul, Korea) 및 ciCas9_pcDNA5 (Addgene; #100550)(Rose et al., 2017) 카세트(cassettes)를 각각 pcDNA™5/FRT 발현 벡터 (Thermo Fisher, Waltham, MA)에 서브클로닝하고, pcDNA™5/FRT/CMV_promoter- Cas9-E2A-mRFP 및 pcDNA™5/FRT/CMV_promoter- ciCas9-E2A-mRFP 벡터를 만들었다 (도 1, 도 16A). 이 벡터를 E.coli 균주 DH5α (Thermo Fisher)에 형질전환한 후, 100 μg/ml 암피실린 존재 하에서 선별하였다.
2. Cas9 - 또는 ciCas9 -발현 세포 제작
Flp-In™ T-REx™ 세포주 (Thermo Fisher)는 10% FBS (Gibco, Waltham MA)가 보충된 DMEM 배지에 보관하였다. 상기 세포를 설명서에 따라 Flp 재조합 벡터 (pOG44 Expression Vector; Thermo Fisher) 및 Cas9-E2A-mRFP 또는 ciCas9-E2A-mRFP 서열을 포함하는 삽입 벡터로 형질주입시켰다. 48시간 후에 Cas9- 또는 ciCas9-삽입 세포를 100 μg/ml 히그로마이신 B 골드(hygromycin B Gold; InvivoGen, Pak Shek Kok, Hong Kong)의 존재 하에 1주일 동안 배양함으로써 선별하였다. 각각의 콜로니를 위상차현미경으로 보면서 피펫을 이용하여 집어 내었다. 형광현미경 하에서 mRFP를 고르게 발현시키는 살아 있는 세포 콜로니를 선별하였고, 20 μg/ml 히그로마이신 B 골드 존재 하에서 배양하다가 각각의 세포주를 냉동 저장하였다. 이 명세서의 모든 실험은 이 냉동 세포주를 녹여 20 μg/ml 히그로마이신 B 골드를 포함하는 배지에 배양하여 사용하였다.
3. 웨스턴 블럿
프로테아제 저해제 혼합물(Merck, Darmstadt, Germany)이 포함된 세포 용해 버퍼(50 mM Tris-HCl, pH 7.5, 1% Triton X-100, 150 mM NaCl, 0.1% sodium dodecyl sulfate, and 1% sodium deoxycholate)를 이용하여 Cas9-E2A-mRFP 삽입 세포의 전체 세포 용출물을 준비하였다. 상기 용출물을 13,000 ×g, 4℃에서 20분간 원심분리한 후 상층액 단백질 추출물을 사용 전까지 -80℃에서 보관하였다. 시료 당 총 단백질30 μg을 8% 아크릴아마이드 겔에 로딩한 후 니트로셀룰로오스 멤브레인을 따라 전기영동하였다. 멤브레인을 항-CRISPR-Cas9 항체에 대한 1차 항체(1:1,000) (Abcam, Cambridge, UK) 또는 β-actin (1:1,000) (Santa Cruz Biotechnology, Dallas, Texas)과 함께 4℃에서 하룻밤 동안 반응시켰다. 웨스턴 블럿 결과는 ImageQuant™ LAS 4000 (GE Healthcare, Velizy-Villacoublay, France)로 얻었다 (도 2A).
4. 올리고뉴클레오티드 풀(pool) 설계
라이브러리 1을 구축하기 위해, 각각 23 nt의 5'-불변부(constant region) 서열, 15 nt의 바코드(barcode) 서열, 50 nt의 연장 서열(extension sequence), 20 nt의 가이드 서열(guide sequence), 3 nt의 PAM 서열, 및 27 nt의 3'-불변부(constant region) 서열을 포함하여 총 138 nt 길이를 갖는 (도 3), 23,940개의 올리고뉴클레오티드를 주문 제작하였다 (TwistBioscience, San Francisco, CA). 이후의 딥 시퀀싱 분석에 사용된 표적 서열은 20 nt의 가이드 서열과 3 nt의 PAM 서열로 구성되어 있다. 바코드 서열은 2 nt 이상의 모노뉴클레오티드 반복 서열을 제외한 임의의 서열을 포함한다. 50 nt의 연장 서열을 생성하기 위해, 먼저 2 nt 이상의 모노뉴클레오티드 반복 서열이 없는 25 nt의 임의 서열 2개를 생성하였고, 다음으로 이 두 서열을 임의로 조합하였다. 23,940개의 stgRNA-인코딩 서열 중에서, 14,000개의 가이드 서열은 모노뉴클레오티드 반복 서열을 포함하지 않으면서, 40% ≤ GC contents ≤ 60%를 나타내도록 임의로 설계되었고, 9,800개의 가이드 서열은 모노뉴클레오티드 서열의 길이가 ≤ 10 nt인 조건에서 임의로 선택되었다. 남은 140개의 서열은 이전에 사용된 stgRNA-인코딩 서열 (Kalhor et al., 2016; Perli et al., 2016)과 서로 다른 바코드 및 연장 서열 세트 10개를 조합하여 만들었다. 이전 논문에서 보고된 stgRNA-인코딩 서열 중 4개는 10 nt 또는 20 nt의 연장 서열을 포함하기 때문에 이 연장 서열은 추가적인 연장 서열로 사용되었다. 위의 연장 서열이 20 nt짜리인 경우에 5'- 및 3'- 불변부 서열을 각각 20 nt 및 22 nt로 줄였다.
라이브러리 2를 구축하기 위해, 3일째에 라이브러리 1의 복제군 A에서 측정된 인델 빈도 순위에 따라 라이브러리 1로부터 2,000개의 stgRNA-인코딩 서열을 선택하였다. 표적 서열은 최소 서열 분석 심도(sequence read depth)가 50이고 5% 이하의 배경 인델 빈도를 나타내는 서열을 선별하였다. 상위 1,800개 서열 및 하위 200개 서열을 선별하였다. 서열 1201위부터 1800위의 stgRNA-인코딩 서열에 대해 20 nt 가이드 서열을 SpCas9에 대해 높은 활성을 나타내는 가이드 서열과 맞게 바꿨다.
라이브러리 3을 구축하기 위한 표적 서열은 수 천 개의 표적 서열에서 SpCas9 및 sgRNA 활성 수준을 실험하여 얻은 인델-생성 활성 프로파일에 따라 선별하였다. 라이브러리 3의 가이드 RNA-인코딩 서열은 stgRNA 보다 보통의 sgRNA 스캐폴드와 관련이 있다. 라이브러리 3에서 활성이 뛰어난 가이드의 비율을 증가시키기 위해, 활성이 좋은 가이드 서열의 복제군(최대 10개)을 독특하게 정의된 바코드 서열과 조합하였다. 라이브러리 3의 어레이 합성을 위해, 각각 20 nt의 5'-불변부, 20 nt의 가이드 서열, 11 nt의 첫 번째 BsmBI 절단 부위, 20 nt의 바코드 1 서열, 11 nt의 두 번째 BsmBI 절단 부위, 15 nt의 바코드 2 서열, 3 nt의 임의 서열(without mononucleotide repeats ≥ 2 nt), 30 nt의 PAM 서열을 포함하는 상응 표적 서열, 및 20 nt의 3'-불변부 서열을 포함하여, 총 150 nt 길이를 갖는 1,993개의 올리고뉴클레오티드 풀을 주문 제작하였다 (TwistBioscience, San Francisco, CA).
5. 플라스미드 라이브러리 준비
라이브러리 1 및 2에 사용될 뼈대 플라스미드는 BsmBI 제한 효소 (Enzynomics, Daejeon, Korea)로 55℃에서 3시간 동안 반응시켜 선형으로 만들었다. 제한 효소 반응 후, 뼈대를 1 μl of calf intestinal alkaline phosphatase (NEB)으로 37℃에서 30분 동안 처리하였다. 올리고뉴클레오티드는 OligoAmp_pF1, pR1(서열번호 1, 2) 프라이머 세트를 이용하여 Phusion Polymerase (NEB)으로 PCR 증폭시켰고, 증폭산물은 MEGAquick-spin™ total fragment DNA purification kit (iNtRON Biotechnology, Seongnam, South Korea)를 이용하여 겔 정제시켰다. 상기 선형 뼈대 플라스미드 및 올리고뉴클레오티드의 정제된 PCR 증폭산물을 NEBuiderHiFi DNA assembly kit (NEB)로 50℃에서 40분 간 결합시킨 후, 결합된 산물을 MicroPulser (Bio-Rad, Hercules, CA)을 이용하여 electrocompetent 박테리아 (Lucigen, Middleton, WI)로 형질전환시켰다. 형질전환된 박테리아를 50 μg/ml 카르베니실린(carbenicillin)이 포함된 LB 아가 플레이트에 놓고 37℃에서 16시간 동안 배양하였다. 다음으로 Plasmid Maxiprep kit (Qiagen, Hilden, Germany)를 이용하여 배양시킨 콜로니로부터 플라스미드를 추출하였다. 플라스미드 라이브러리 커버리지(coverage)는'(총 박테리아 콜로니 수)/(라이브러리 내 총 올리고뉴클레오티드 수)'에 따라 계산하였다. 최종 라이브러리 1 및 2의 커버리지는 각각 3.83x 및 20.6x로 나타났다.
특별히, 라이브러리 3은 제한 효소 절단 및 결합 단계 및 깁슨 조립(Gibson assembly) 단계의 2단계 클로닝 방법으로 구축하였다. 이와 같은 다단계 방법은 올리고뉴클레오티드 풀의 PCR-증폭 과정에서 가이드 RNA와 표적 서열 쌍 사이의 짝풀림(uncoupling)을 효과적으로 방지한다. 구체적인 방법은 하기와 같다.
1 단계: 가이드 서열 및 표적 서열 쌍을 포함하는 초기 플라스미드 라이브러리 생성
Lenti-gRNA-Puro plasmid (Addgene; #84752)를 BsmBI 효소(Enzynomics)로 55℃에서 6시간 동안 반응시켜 선형으로 만들었다. 제한 효소 반응 후, 벡터를 1 μl calf intestinal alkaline phosphatase (NEB)로 37℃에서 30분 간 처리하였다. 올리고뉴클레오티드는 OligoAmp_pF1, pR2(서열번호 1, 3) 프라이머 세트를 이용하여 Phusion Polymerase (NEB)으로 PCR 증폭시켰고, 증폭산물은 겔 정제시킨 후 NEBuilder HiFi DNA assembly kit (NEB)를 이용하여 선형 뼈대와 조립하였다. 조립 산물을 정제한 후 상기한 바와 같은 방법으로 electrocompetent 세포에 형질전환하였다.
본 발명의 올리고뉴클레오티드 증폭에 사용된 프라이머 세트를 하기 [표 3]에 나타내었다.
Name Sequence 서열번호
OligoAmp_pF1 TTGAAAGTATTTCGATTTCTTGGCTTTATATATCTTGTGGAAAGGACGAAACACC 1
OligoAmp_pR1 TTTCAAGTTGATAACGGACTAGCCTTAGGTTAACTTGCTATTTCTAGCTCTAAC 2
OligoAmp_pR2 GAGTAAGCTGACCGCTGAAGTACAAGTGGTAGAGTAGAGATCTAGTTACGCCAAGCT 3
2 단계 : sgRNA 스캐폴드 삽입
상기 1단계에서 제조한 초기 플라스미드 라이브러리를 BsmBI로 12시간 동안 분해시키고, 2 μl calf intestinal alkaline phosphatase (NEB)을 37℃에서 30분 간 처리하였다. 효소 반응 산물을 0.8% 아가로스 겔 전기영동을 통해 크기 선별한 후 MEGAquick-spin total fragment DNA purification kit (iNtRON Biotechnology)를 이용하여 정제하였다.
별도로, sgRNA 스캐폴드를 포함하는 합성 삽입 절편(서열번호 4; CGTCTCT GTTT TAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTT TTT GGGAGACG)을 TOPO vector (T-blunt vector; Solgent, Daejeon, South Korea)에 클로닝하였다. 이 삽입 절편 내의 sgRNA 스캐폴드는 폴리 T 서열(bold) 및 BsmBI 절단 부위( underline)를 포함한다.
그 다음으로, 삽입 절편을 포함하는 TOPO 벡터를 BsmBI으로 절단시키고 83 nt의 삽입 절편을 4% 아가로스 겔에서 겔 정제하였다. 90 ng의 정제된 삽입 절편 및 200 ng의 초기 플라스미드 라이브러리 벡터를 사용하여 4가지 라이게이션 반응을 수행하였다. 16℃에서 하룻밤 동안 반응시킨 후 반응 산물을 65℃에서 10분 간 열비활성화 시키고 컬럼에서 정제하였다. 정제된 산물을 상기한 방법으로 electrocompetent 세포에 형질전환하였다. 결과적으로, 라이브러리 3으로서 초기 올리고뉴클레오티드 수에 대해 커버리지가 3,990x인 최종 플라스미드 라이브러리를 얻었다. Plasmid Maxiprep kit (Qiagen)를 이용하여 콜로니를 수확하고 플라스미드를 추출하였다.
6. 렌티바이러스 생산
HEK293T cells (ATCC)을10% FBS 및 페니실린-스트렙토마이신(pen-strep)이 보충된 DMEM 배지에서 보관하였다. 렌티바이러스 생산을 위해 목적하는 유전자가 포함된 트랜스퍼 플라스미드, psPAX2 (Addgene; #12260), 및 pMD2.G (Addgene; #12259)를 4:3:1 중량비로 혼합하여 총 60 μg의 플라스미드 혼합물을 만든 후, Lipofectamine 2000 (Invitrogen, Carlsbad, CA)를 이용하여 70 ~ 80% confluent HEK293T 세포에 전달하였다. 트랜스펙션 후 24시간 시점에, 20 ml 성장 배지로 갈아 주었다. 바이러스가 포함된 상등액을 최초 트랜스펙션 후 72시간이 지났을 때 수확하였고, Millex-HV 0.45 μm low-protein-binding membrane (Merck, Darmstadt, Germany)으로 여과시킨 후, 부분 표본(aliquots)으로 나누고 사용 직전까지 -80℃에서 냉동 보관하였다.
바이러스 역가를 측정하기 위해, 바이러스 부분 표본을 연속 희석하고 10 μg/ml 폴리브렌(polybrene) 존재 하에서 HEK293T 세포에 형질도입하였다. 형질도입되지 않은 세포와 연속 희석된 바이러스로 처리한 세포를 2 μg/ml 푸로마이신(puromycin) 존재 하에서 배양하였다. 형질도입되지 않은 세포가 거의 모두 죽었을 때, 살아 있는 바이러스 처리된 개체수룰 계수하여 바이러스 역가를 추정하였다.
7. 라이브러리 1, 2 및 3의 형질도입
총 세포수 1.0 x 10 8 (library 1) 또는 4.8 x 10 7 (library 2)의 Cas9-E2A-mRFP 삽입 세포를 1.0 Х 10 7 cells/dish (library 1) 또는 1.2 Х 10 7 cells/dish (library 2)로 150 mm 조직 배양 디쉬에 심고, 하룻밤 동안 배양하였다. 상기 세포 배치(batch)를 10 μg/ml 폴리브렌 존재 하에 MOI 0.3에서 각각 렌티바이러스 라이브러리 1 또는 2로 형질도입시킨 후 24시간 동안 배양하였다. 형질도입되지 않은 세포를 제거하기 위해, 세포를 2 μg/ml 푸로마이신 및 20 μg/ml 히그로마이신 B 골드 존재 하에 3일 동안 배양하였다. 세포 라이브러리의 다양성을 보존하기 위해, 세포 라이브러리를 1 μg/ml 푸로마이신 및 20 μg/ml 히그로마이신 B 골드 존재 하에 최소 세포수 2.4 Х 10 7 cells가 유지되도록 하였다. 각 샘플링 시점마다(도 5), 최소 2.4 Х 10 7 (1,000x for library 1, 12,000x for library 2) 세포를 유전체 DNA 분리를 위해 수확하였고, 8.0 Х 10 6 cells (333x for library 1, 4,000x for library 2)에 상당한 80 μg의 유전체 DNA를 딥 시퀀싱 분석에 사용하였다.
렌티바이러스 3의 형질도입을 위해서, 6.0 Х 10 8 ciCas9-E2A-mRFP 삽입 세포를 1.2 Х 10 7 cells/dish 농도로 150 mm 조직 배양 디쉬 5개에 심었다. 형질도입 24시간 후, 배양 배지에 1 μg/ml 푸로마이신을 첨가하였다. 24시간 동안 배양한 후 100 mm 조직 배양 디쉬로 계대시켰다. 다음날 세포를 10 μM A-1155463 (BioVision, Milpitas, CA)로 처리하여 ciCas9을 활성화시켰다. 각 시점에 최소 8.0 Х 10 6 cells (4,000x)를 수확하고, 0.8 ~ 1.2 Х 10 7 cells (4,000 ~ 6,000x)에 상당한 80 ~ 120 μg의 유전체 DNA를 PCR-증폭 및 딥 시퀀싱에 사용하였다.
8. 배경 인델 빈도 (background indel frequencies) 측정
표적 서열의 배경 인델 빈도를 측정하기 위해 2.4 Х 10 7 HEK293T 세포를 렌티바이러스 라이브러리 1 및 2로 형질도입시키고, 3일 후에 유전체 DNA를 분리한 후 1.6 Х 10 7 cells (667x for library 1; 8,000x for library 2)에 상응하는 양의 유전체 DNA 160 μg를 PCR-증폭시킨 후 딥 시퀀싱하였다.
라이브러리 2의 경우, ciCas9-E2A-mRFP 삽입 세포를 렌티바이러스 3으로 형질도입시키고, 3일 후에 2.4 Х 10 7 cells (12,000x)에 상응하는 양의 유전체 DNA 240 μg를 분석하였다.
9. 딥 시퀀싱
Wizard Genomic DNA purification kit (Promega, Fitchburg, WI)를 이용하여 세포 펠릿으로부터 유전체 DNA를 추출하였다. 다음으로 2X Taq PCR Smart mix (Solgent)를 이용하여 표적 서열을 PCR 증폭시켰다.
충분한 라이브러리 다양성을 구축하고 딥 시퀀싱 결과의 질을 개선하기 위해, 2개의 독립적인 PCR 반응을 수행하였다. 딥 시퀀싱 분석을 위한 첫 번째 PCR 반응 세트는 3쌍의 정방향 및 역방향 프라이머 세트(NGS1st_stgRNA_pF1,2,3 및 pR1,2,3, 서열번호 5 내지 10)와 추출된 유전체 DNA의 3/4를 이용하여 제조하였다. PCR 반응의 두 번째 세트는 남은 유전체 DNA의 1/4과 프라이머 세트 한 쌍(NGS1st_stgRNA_pF1r, pR1r, 서열번호 11, 12)으로 제조하였다. 라이브러리 1 및 2에 관한 모든 시점의 시료에 대해 PCR 반응을 수행하였다. 라이브러리 3에 대해서는, 모든 시점의 시료의 유전체 DNA에 포함된 표적을 증폭하고 딥 시퀀싱 하는 데에 동일하게 혼합된 세 쌍의 정방향 및 역방향 프라이머 세트(NGS1st_sgRNA_pF1,2,3 and pR1,2,3, 서열번호 13 내지 18)가 사용되었다.
첫 번째 PCR 증폭 산물을 하나의 풀(pool)에 합친 후 MEGAquick-spin Total Fragment DNA Purification Kit (iNtRON Biotechnology)을 이용하여 1차 정제하고, 동일한 키트로 겔 정제하였다. 정제된 산물을 Illumina adaptors가 포함된 프라이머(NGS2nd_pF1, pR1, 서열번호 19, 20)를 이용하여 PCR 증폭시켰다. 다음으로 증폭 산물을 HiSeq 또는 MiniSeq (Illumina, San Diego, CA)를 이용하여 분석하였다.
본 발명의 딥 시퀀싱 분석을 위한 PCR 반응에 사용된 프라이머 서열을 하기 [표 4]에 나타내었다.
Usage Name Sequence 서열번호
1 st PCR reaction (library 1 and 2) NGS1st_stgRNA_pF1 ACACTCTTTCCCTACACGACGCTCTTCCGATCTTGGCTTTATATATCTTGTGGAAAGGACG 5
NGS1st_stgRNA_pF2 ACACTCTTTCCCTACACGACGCTCTTCCGATCTATGGCTTTATATATCTTGTGGAAAGGACG 6
NGS1st_stgRNA_pF3 ACACTCTTTCCCTACACGACGCTCTTCCGATCTCCTGGCTTTATATATCTTGTGGAAAGGACG 7
NGS1st_stgRNA_pR1 GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGCCTTAGGTTAACTTGCTATTTCTAGCTCTA 8
NGS1st_stgRNA_pR2 GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTGCCTTAGGTTAACTTGCTATTTCTAGCTCTA 9
NGS1st_stgRNA_pR3 GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTATGCCTTAGGTTAACTTGCTATTTCTAGCTCTA 10
1 st PCR reaction (reverse)(library 1 and 2) NGS1st_stgRNA_pF1r GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTGGCTTTATATATCTTGTGGAAAGGACG 11
NGS1st_stgRNA_pR1r ACACTCTTTCCCTACACGACGCTCTTCCGATCTGCCTTAGGTTAACTTGCTATTTCTAGCTCTA 12
1 st PCR reaction (library 3) NGS1st_sgRNA_pF1 ACACTCTTTCCCTACACGACGCTCTTCCGATCTCTTGAAAAAGTGGCACCGAGTCG 13
NGS1st_sgRNA_pF2 ACACTCTTTCCCTACACGACGCTCTTCCGATCTTCTTGAAAAAGTGGCACCGAGTCG 14
NGS1st_sgRNA_pF3 ACACTCTTTCCCTACACGACGCTCTTCCGATCTCGCTTGAAAAAGTGGCACCGAGTCG 15
NGS1st_sgRNA_pR1 GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTTAAGTCGAGTAAGCTGACCGCTGAAG 16
NGS1st_sgRNA_pR2 GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTATTAAGTCGAGTAAGCTGACCGCTGAAG 17
NGS1st_sgRNA_pR3 GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTATTAAGTCGAGTAAGCTGACCGCTGAAG 18
2 nd PCR reaction NGS2nd_pF1 AATGATACGGCGACCACCGAGATCTACACNNNNNNNNACACTCTTTCCCTACACGAC 19
NGS2nd_pR1 CAAGCAGAAGACGGCATACGAGATNNNNNNNNGTGACTGGAGTTCAGACGTGT 20
10. 인델 빈도 분석
딥 시퀀싱 데이터는 본 연구실에서 개발한 파이썬(Python) 스크립트를 이용하여 분석하였다(Kim et al., 2017). 라이브러리 1, 2 및 3의 표적 서열은 바코드 서열(4 nt의 상류 서열 + 15 nt의 바코드)을 포함하는 19 nt의 독특한 서열을 이용하여 확인하였다. 예상되는 절단 부위(PAM 서열로부터 3 nt 위쪽)로부터 4 nt 위쪽 및 4 nt 아래쪽에 해당하는 영역에 위치하는 삽입 또는 결실 부위가SpCas9에 의해 유도된 변형으로 생각되었다 (Kim et al., 2018; Kim et al., 2017).
올리고 풀(oligo pool) 합성 및 PCR 증폭 과정에서 생기는 배경 인델 빈도를 배제하기 위해, 관찰된 인델 빈도를 배경 인델 빈도로 정규화시켰다.
Figure PCTKR2019015372-appb-img-000042
보다 정확한 분석을 위해, 배경 인델 빈도와 5% 이상인 가이드 서열을 배제시켰고, 0% 이하인 인델 빈도는 임의로 0%로 놓았다. 본 발명에서 시간 추정을 위한 다른 주요 값은 아래와 같이 계산하였다.
Figure PCTKR2019015372-appb-img-000043
Figure PCTKR2019015372-appb-img-000044
Figure PCTKR2019015372-appb-img-000045
여기서, F는 온전한 표적 서열 카피수의 상대 빈도(%), k는 각 시점의 표적 서열 당 총 카피 분석 개수(read count), mutk는 각 시점의 표적 서열 당 돌연변이 카피 분석 개수를 의미한다.
같은 방법으로, 배경 데이터에 대해 F, mutknps 값을 계산하였고, 각각 Back_F, Back_mutkBack_nps로 표시하였다.
11. 수학적 모델 비교
최적 모델을 결정하기 위해 R 코드를 이용하여 선형, 지수함수형, 곰페르츠(Gompertz) 및 로지스틱(logistic) 모델의 적합도를 비교하였다.
Figure PCTKR2019015372-appb-img-000046
Figure PCTKR2019015372-appb-img-000047
Figure PCTKR2019015372-appb-img-000048
Figure PCTKR2019015372-appb-img-000049
Figure PCTKR2019015372-appb-img-000050
서로 다른 파라미터를 갖는 각 모델의 상대적인 적합도를 추정하는 추정량(estimator)으로서 AIC(Akaike information criterion) 및 BIC(Bayesian information criterion)를 사용하였다. 공정한 비교를 위해 계산하는 데 복제군 A 내지 F에서 각 측정 시점에 얻은 모든 데이터 값을 제한 없이 사용하였다. 하기 식에 따라 잔차 제곱합(RSS, residual sum of squares)이 최소가 되는 최소 제곱법(least square method)를 사용하여 모수(parameter)를 추정하였다.
Figure PCTKR2019015372-appb-img-000051
여기서 θ는 각 모델의 파라미터 세트를 의미한다. 선형 모델에서는 closed-form solution를 포함하지만, 다른 모델에서는 모수 추정에 수치로 나타낸 알고리즘(numerical algorithms)을 사용하였다.
AIC 및 BIC 값은 하기 식에 따라 계산하였다.
Figure PCTKR2019015372-appb-img-000052
Figure PCTKR2019015372-appb-img-000053
여기에서, p는 수학적 모델에 사용된 파라미터의 총 수를 나타내고, n은 각 가이드 서열에 대한 관찰된 시점의 수를 나타낸다. 지수함수 모델에서 각 표적 서열의 AIC 및 BIC 값을 다른 세 가지 모델의 값에서 빼서 ΔAIC 또는 ΔBIC를 계산하였다. 지수함수 모델에 대하여, 잠복 기간(t 0)은 0 또는 1.021로 가정하였다.
12. 잠복 기간 추정
상기한 R 코드를 사용하여, 각각의 가이드 서열과 관련된 반감기 및 잠복 기간(t 0)을 추정하였다. 모든 시점의 복제군 A - F에 대해 결정된 개별 t 0 값을 사용하여 가장 적합한(RRS를 최소화하는) 반감기 및 잠복 기간(t 0)을 추정하였다. 모든 분석 시점에 온전한 표적 빈도가 85% 보다 높은 표적 서열은 분석에서 제외하였다. 또한 2% <
Figure PCTKR2019015372-appb-img-000054
< 95% 조건을 만족하는 모든 데이터를 계산에 사용하였다.
이상치(outlier)를 제거하기 위해 상위 5% 및 하위 5%의 t 0 값은 제외하였고, 최종 t 0으로서 nps-가중 평균을 계산하였다. 총 39,138개의 개별 t 0 값이 사용되었고, 최종 계산된 t 0 값은 1.021일(days)이었다.
t 0 값이 결정된 후, t 0 값을 1.021일로 고침으로써 라이브러리 1 및 2의 모든 복제군으로부터 표적 서열의 반감기를 다시 계산하였다. 다른 언급이 없다면, 라이브러리 1 및 2를 이용한 모든 분석은 t 0 값을 1.021일로 놓고 수행하였다. 그러나, 라이브러리 3에 대해서는 화학적으로 유도가능한 Cas9이 즉각적으로 활성화되기 때문에 t 0 값을 0시간으로 놓고 분석하였다.
13. 시간 추정
시간
Figure PCTKR2019015372-appb-img-000055
의 정확한 추정을 위해, t 0 값을 1.021일로 놓고 지수함수 모델의 RRS를 최소화시키는 R 코드를 사용하여 각 표적 서열의 반감기를 먼저 계산하였다. 다음으로 모든 복제군으로부터 각 반감기의 가중 평균값으로 각 표적 서열의 최종 반감기를 계산하였다. 최종 반감기는 각 표적 서열에 대한 모든 관찰 시점에서 nps 값의 합에 따라 가중치를 더하였다.
다음으로, 계산된
Figure PCTKR2019015372-appb-img-000056
을 지수함수 모델 식의 역함수
Figure PCTKR2019015372-appb-img-000057
에 대입하여, 주어진 시점 t에서 각 표적 서열의
Figure PCTKR2019015372-appb-img-000058
값을 계산하였다. 이 때 라이브러리 1 및 2에서는 t 0 값을 1.021일로, 라이브러리 3에서는 0으로 놓고 계산하였다. 다음으로, 각 시점의
Figure PCTKR2019015372-appb-img-000059
값 풀(pool) 중에서 사분위수 범위(spanning the 25th ~ 75th percentiles)에 포함되는
Figure PCTKR2019015372-appb-img-000060
값을 선별하고, 이 선별된
Figure PCTKR2019015372-appb-img-000061
값의 nps-가중 평균(
Figure PCTKR2019015372-appb-img-000062
)을 아래와 같이 계산하였다.
Figure PCTKR2019015372-appb-img-000063
여기에서
Figure PCTKR2019015372-appb-img-000064
Figure PCTKR2019015372-appb-img-000065
는 각각 주어신 시점 t에서 25퍼센타일 및 75퍼센타일
Figure PCTKR2019015372-appb-img-000066
값이다. 추정된
Figure PCTKR2019015372-appb-img-000067
값의 진짜 시점(true time)에 대한 오차는 아래와 같이 계산된다.
Figure PCTKR2019015372-appb-img-000068
시간 추정의 정확성을 위한 모수(parameter)로 모든 시점에서
Figure PCTKR2019015372-appb-img-000069
의 평균값(mean RAE, MRAE)을 사용하였다.
14. 표적 서열의 서브-샘플링
표적 서열의 개수가 시간 추정의 정확성에 얼마나 많은 영향을 미치는지 확인하기 위해, 라이브러리 1 및 2로부터 임의로 서브-샘플을 추출하였다 (도 15). MS Excel의 "RAND()" 함수를 이용하여 표적 서열의 개수와 복제군마다 10개의 서로 다른 바코드 서열을 가지는 라이브러리 서브-샘플을 선별하였다.
15. 라이브러리 2로 형질도입된 Cas9 삽입 세포의 인 비보( in vivo ) 이식
본 실시예의 모든 동물 실험은 연세대학교 의과대학 실험동물운영위회(the (Institutional Animal Care and Use Committee, IACUC)의 규정을 준수하였다.
먼저 Cas9-E2A-mRFP 삽입 세포를 렌티바이러스 라이브러리 2로 MOI 0.5에서 형질도입하였다. 형질도입 24시간 후, 2 μg/ml 푸로마이신 및 20 μg/ml 히그로마이신 B 골드 존재 하에 3일 동안 배양하여 형질도입되지 않은 세포를 제거하였다. 다음으로 1.0 Х 10 6 cells를 비분해성 폴리스티렌 48-웰 기공 스캐폴드 (3D Biotek, Bridgewater, NJ)에 1.0 Х 10 6 cells/scaffold 농도로 심고 24시간 동안 배양 배지에서 배양하였다. 스캐폴드에 심긴 세포를 수컷 NOG 마우스(NOD/Shi-scid/IL-2Rγnull) 등 피하에 마우스 당 4 스캐폴드 농도로, 각각 다른 사분면에 주입하였다. 인 비트로( in vitro) 대조군으로서 스캐폴드에 심긴 세포 중 일부를 배양 배지에서 배양하였다. 라이브러리 2의 형질도입 후 8일, 14일 및 21일째에 스캐폴드를 수확하였다.
스캐폴드의 세포로부터 유전체 DNA를 분리하기 위해, 각각의 스캐폴드를 포함하는 세포를 2 ml DNA 용출 버퍼(Wizard Genomic DNA purification kit; Promega)를 포함하는 2 ml 에펜도르프 튜브에 넣고, 하룻밤 동안 흔들면서 배양하였다. 세포 용출액으로부터 유전체 DNA를 분리한 후 상기한 방법으로 딥 시퀀싱하였다.
딥 시퀀싱을 위한 첫 번째 PCR 반응은 48 μg 유전체 DNA(2,400x)와 3쌍의 프라이머 세트(NGS1st_stgRNA_pF1,2,3 and pR1,2,3, 서열번호 5 내지 10)를 사용하여 수행하였다.

Claims (20)

  1. (a) 표적 유전자 교정용 조성물을 세포 내에 형질도입한 후 배양하는 단계;
    (b) 소정의 시점으로부터 경과된 임의의 시점(t)에 배양된 세포의 일부를 수확한 후, 세포 유전체 DNA로부터 표적 서열을 서열분석하는 단계;
    (c) 상기 표적 서열의 인델 빈도(IF, indel frequency)를 측정하는 단계; 및
    (d) 하기 식으로부터 임의의 시점을 계산하는 단계:
    Figure PCTKR2019015372-appb-img-000070
    (상기 식에서 F는 임의의 시점에 표적 서열의 전체 카피수 중에서 온전한 표적 서열 카피수의 상대빈도(비율)를 나타내며, IF는 임의의 시점에 측정된 표적 서열의 인델 빈도를 나타내며, λ는 단위 시간 당 표적 서열의 인델 생성 속도를 나타내는 양의 상수이며, t 0은 세포 내에 형질도입된 전이유전자가 발현되는 데 걸리는 잠복 시간임)
    를 포함하는 세포 내에서 소정의 시점으로부터 경과 시간을 측정하는 방법.
  2. 제1항에 있어서,
    상기 (b) 단계 이전에 하기
    (i) 소정의 시점( t *)에 상기 배양된 세포의 일부를 수확하는 단계;
    (ii) 세포 유전체 DNA로부터 표적 서열을 시퀀싱하는 단계;
    (iii) 표적 서열의 전체 카피수 중 온전한 서열의 카피수 빈도(F, frequency of intact sequence)를 측정하는 단계; 및
    하기 식을 이용하여 주어진 표적 서열에 대하여 단위 시간 당 표적 서열의 인델 생성 속도 상수(λ)를 계산하는 단계:
    Figure PCTKR2019015372-appb-img-000071
    (상기 식에서 F는 표적 서열의 전체 카피수 중에서 온전한 표적 서열 카피수의 빈도를 나타내며, λ는 양의 상수, t *는 소정의 시점을 나타내는 양의 상수임)
    를 포함하는 람다 상수(λ)를 추정하는 단계를 더 포함하는, 방법.
  3. 제1항에 있어서,
    상기 단계 (a)의 표적 유전자 교정용 조성물은 가이드 RNA(guide RNA), 상기 가이드 RNA가 목적하는 표적 염기서열 및 RNA-가이드 뉴클레아제(RNA-guide nuclease)를 포함하는 것인, 방법.
  4. 제1항에 있어서,
    상기 단계 (a)의 표적 유전자 교정용 조성물은 가이드 RNA 및 상기 가이드 RNA가 목적하는 표적 염기서열을 포함하는 자가-표적 가이드 RNA(stgRNA, self-targeting guide RNA) 및 RNA-가이드 뉴클레아제(RNA-guide nuclease)를 포함하는 것인, 방법.
  5. 제1항에 있어서,
    상기 단계 (a)는 하기
    (i) RNA-가이드 뉴클레아제(RNA-guide nuclease)를 코딩하는 서열이 삽입(knock-in)된 세포주를 제조하는 단계;
    (ii) 가이드 RNA(guide RNA)를 코딩하는 염기서열 및 상기 가이드 RNA가 목적하는 표적 염기서열(target sequence)을 포함하는 벡터를 제조하는 단계;
    (iii) 상기 벡터를 상기 세포주에 형질도입시켜 형질도입 세포를 제조하는 단계; 및
    (iv) 상기 형질도입된 세포를 배양하는 단계를 포함하는 것인, 방법.
  6. 제3항 내지 제5항 중 어느 한 항에 있어서,
    상기 RNA-가이드 뉴클레아제는 Cas9 단백질, Cpf1 단백질 또는 화학물질에 의해 활성이 유도되는 Cas9 단백질인, 방법.
  7. 제6항에 있어서,
    상기 Cas9 단백질은 스트렙토코커스(Streptococcus) 속, 네이세리아(Neisseria) 속, 파스테우렐라(Pasteurella) 속, 프란시셀라(Francisella) 속 및 캄필로박터(Campylobacter) 속으로 이루어진 군에서 선택되는 하나 이상으로부터 유래된 것인, 방법.
  8. 제6항에 있어서,
    상기 Cpf1 단백질은 캔디다투스 파세이박터(Candidatus Paceibacter), 라치노스피라(Lachnospira) 속, 뷰티리비브리오(Butyrivibrio) 속, 페레그리니박테리아(Peregrinibacteria), 액시도미노코쿠스(Acidominococcus) 속, 포르파이로모나스(Porphyromonas) 속, 프레보텔라(Prevotella) 속, 프란시셀라(Francisella) 속, 캔디다투스 메타노플라스마(Candidatus Methanoplasma), 또는 유박테리움(Eubacterium) 속으로 이루어진 군에서 선택되는 하나 이상으로부터 유래된 것인, 방법.
  9. 제5항에 있어서,
    가이드 RNA를 코딩하는 염기서열 및 상기 가이드 RNA가 목적하는 표적 염기서열은 서로 다른 2종 이상의 서열을 포함하는 것인, 방법.
  10. 제5항에 있어서,
    상기 가이드 RNA를 코딩하는 염기서열 및 상기 가이드 RNA가 목적하는 표적 염기서열은 자가-표적 가이드 RNA(stgRNA, self-targeting guide RNA)를 코딩하는 염기서열인, 방법.
  11. 제10항에 있어서,
    상기 자가-표적 가이드 RNA는 서로 다른 2종 이상의 서열을 포함하는 것인, 방법.
  12. 제5항에 있어서,
    상기 벡터는 바이러스 벡터인, 방법.
  13. 제12항에 있어서,
    상기 벡터는 렌티바이러스 벡터 또는 레트로바이러스 벡터 및 플라스미드 벡터로 이루어진 군에서 선택되는 하나 이상인, 방법.
  14. 제5항에 있어서,
    2종 이상의 가이드 RNA를 코딩하는 염기서열 및 각각의 가이드 RNA가 목적하는 표적 염기서열을 포함하는 2종 이상의 벡터를 포함하는 벡터 라이브러리를 제작하는 단계; 및
    상기 벡터를 각각 서로 다른 세포주에 형질도입시킨 2종 이상의 세포를 포함하는 세포 라이브러리를 제작하는 단계를 포함하는 것인, 방법.
  15. 제1항에 있어서,
    상기 서열분석 단계는 딥 시퀀싱(deep sequencing)으로 수행되는 것인, 방법.
  16. 표적 유전자 교정용 조성물을 포함하는 세포 내 인델 생성부;
    상기 표적 유전자의 서열분석을 포함하는 세포 내 인델 빈도 측정부; 및
    상기 측정된 인델 빈도를 이용하여 소정의 시점으로부터 임의의 시점의 시간 경과를 계산하는 시간 예측부
    를 포함하는 세포 내 시간 측정용 시스템.
  17. 제16항에 있어서,
    상기 표적 유전자 교정용 조성물은 가이드 RNA, 상기 가이드 RNA가 목적하는 표적 염기서열 및 RNA-가이드 뉴클레아제를 포함하는 것인, 시스템.
  18. 제17항에 있어서,
    상기 가이드 RNA 및 상기 가이드 RNA가 목적하는 표적 염기서열은 자가-표적 가이드 RNA를 코딩하는 염기서열인, 시스템.
  19. 제16항에 있어서,
    상기 인델 빈도 측정부의 서열분석 단계는 딥 시퀀싱(deep sequencing)으로 수행되는 것인, 시스템.
  20. 제16항에 있어서,
    상기 시간 예측부는 하기 식으로부터 임의의 시점을 계산하는 것인, 시스템:
    Figure PCTKR2019015372-appb-img-000072
    (상기 식에서 F는 임의의 시점에 표적 서열의 전체 카피수 중에서 온전한 표적 서열 카피수의 상대빈도(비율)를 나타내며, IF는 임의의 시점에 측정된 표적 서열의 인델 빈도를 나타내며, λ는 단위 시간 당 표적 서열의 인델 생성 속도를 나타내는 양의 상수이며, t 0은 세포 내에 형질도입된 전이유전자가 발현되는 데 걸리는 잠복 시간임).
PCT/KR2019/015372 2018-11-15 2019-11-12 세포의 dna에 시간의 흐름을 기록하는 방법 WO2020101329A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/290,657 US20220251634A1 (en) 2018-11-15 2019-11-12 Method for recording elapsed time in dna of cells

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2018-0141093 2018-11-15
KR20180141093 2018-11-15

Publications (1)

Publication Number Publication Date
WO2020101329A1 true WO2020101329A1 (ko) 2020-05-22

Family

ID=70732188

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/015372 WO2020101329A1 (ko) 2018-11-15 2019-11-12 세포의 dna에 시간의 흐름을 기록하는 방법

Country Status (3)

Country Link
US (1) US20220251634A1 (ko)
KR (1) KR102209608B1 (ko)
WO (1) WO2020101329A1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014093852A1 (en) * 2012-12-13 2014-06-19 Massachusetts Institute Of Technology Recombinase-based logic and memory systems
KR20170123581A (ko) * 2016-04-28 2017-11-08 연세대학교 산학협력단 in vivo에서 RNA-가이드 뉴클레아제의 활성을 고처리량 방식으로 평가하는 방법
US20180291372A1 (en) * 2015-05-14 2018-10-11 Massachusetts Institute Of Technology Self-targeting genome editing system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014093852A1 (en) * 2012-12-13 2014-06-19 Massachusetts Institute Of Technology Recombinase-based logic and memory systems
US20180291372A1 (en) * 2015-05-14 2018-10-11 Massachusetts Institute Of Technology Self-targeting genome editing system
KR20170123581A (ko) * 2016-04-28 2017-11-08 연세대학교 산학협력단 in vivo에서 RNA-가이드 뉴클레아제의 활성을 고처리량 방식으로 평가하는 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BRINKMAN, EVA K.: "Kinetics and fidelity of the repair of Cas9-induced double-strand DNA breaks", MOLECULAR CELL, vol. 70, 7 June 2018 (2018-06-07), pages 801 - 813, XP055708492 *
C HAN, SIMON K: "Relationship between insertion/deletion (indel) frequency of proteins and essentiality", BMC BIOINFORMATICS, vol. 8, no. 227, 2007, pages 1 - 13, XP021027554 *

Also Published As

Publication number Publication date
KR102209608B1 (ko) 2021-02-01
KR20200056937A (ko) 2020-05-25
US20220251634A1 (en) 2022-08-11

Similar Documents

Publication Publication Date Title
Matasci et al. The PiggyBac transposon enhances the frequency of CHO stable cell line generation and yields recombinant lines with superior productivity and stability
WO2017188797A1 (ko) In vivo에서 rna-가이드 뉴클레아제의 활성을 고처리량 방식으로 평가하는 방법
WO2016111546A9 (ko) 혈액 응고인자 viii 유전자를 타겟으로 하는 엔도뉴클레아제 및 이를 포함하는 혈우병 치료용 조성물
Holkers et al. Differential integrity of TALE nuclease genes following adenoviral and lentiviral vector gene transfer into human cells
Berman et al. An adaptable platform for directed evolution in human cells
CN105492608B (zh) CRISPR-Cas9特异性敲除猪PDX1基因的方法及用于特异性靶向PDX1基因的sgRNA
WO2016021973A1 (ko) 캄필로박터 제주니 crispr/cas 시스템 유래 rgen을 이용한 유전체 교정
WO2017217768A1 (ko) 온타겟 및 오프타겟의 다중 타겟 시스템을 이용하는, 표적 특이적 유전자 가위 스크리닝 방법 및 이의 용도
WO2015053523A1 (ko) 항체 발현용 바이시스트로닉 발현벡터 및 이를 이용한 항체의 생산 방법
WO2016161207A1 (en) Cas 9 retroviral integrase and cas 9 recombinase systems for targeted incorporation of a dna sequence into a genome of a cell or organism
WO2018217064A2 (ko) 형질전환된 t세포를 이용한 자연살해세포의 배양방법
US11396664B2 (en) Replicative transposon system
WO2018208067A1 (ko) 인위적으로 조작된 조작면역세포
WO2019009682A2 (ko) 표적 특이적 crispr 변이체
WO2018030874A1 (ko) 조작된 면역조절요소 및 이에 의해 변형된 면역 활성
WO2018231018A2 (ko) 간에서 목적하는 단백질 발현하기 위한 플랫폼
WO2013137583A1 (en) An expression vector comprising a polynucleotide encoding a modified glutamine synthetase and a method for preparing a target protein employing the same
JP2019193659A (ja) 発現カセット
JP7002454B2 (ja) 遺伝子修飾アッセイ
Budge et al. A proline metabolism selection system and its application to the engineering of lipid biosynthesis in Chinese hamster ovary cells
Orimoto et al. Primary and immortalized cell lines derived from the Amami rabbit (Pentalagus furnessi) and evolutionally conserved cell cycle control with CDK4 and Cyclin D1
Kesselring et al. A single amino acid switch converts the Sleeping Beauty transposase into an efficient unidirectional excisionase with utility in stem cell reprogramming
WO2020101329A1 (ko) 세포의 dna에 시간의 흐름을 기록하는 방법
WO2020235974A9 (ko) 단일염기 치환 단백질 및 이를 포함하는 조성물
Wieser et al. CD46 knock-out using CRISPR/Cas9 editing of hTERT immortalized human cells modulates complement activation

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19883518

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19883518

Country of ref document: EP

Kind code of ref document: A1