WO2022216133A1 - 간소화된 차세대 염기서열 분석 라이브러리 전처리 방법 - Google Patents

간소화된 차세대 염기서열 분석 라이브러리 전처리 방법 Download PDF

Info

Publication number
WO2022216133A1
WO2022216133A1 PCT/KR2022/005202 KR2022005202W WO2022216133A1 WO 2022216133 A1 WO2022216133 A1 WO 2022216133A1 KR 2022005202 W KR2022005202 W KR 2022005202W WO 2022216133 A1 WO2022216133 A1 WO 2022216133A1
Authority
WO
WIPO (PCT)
Prior art keywords
nucleic acid
sequence
dna
nucleotide sequence
acid molecule
Prior art date
Application number
PCT/KR2022/005202
Other languages
English (en)
French (fr)
Inventor
류태훈
김옥주
정유신
이상협
Original Assignee
주식회사 셀레믹스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 셀레믹스 filed Critical 주식회사 셀레믹스
Publication of WO2022216133A1 publication Critical patent/WO2022216133A1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1082Preparation or screening gene libraries by chromosomal integration of polynucleotide sequences, HR-, site-specific-recombination, transposons, viral vectors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Definitions

  • the technology disclosed herein relates to a simplified next-generation sequencing library preprocessing method, which does not require a separate DNA pretreatment process and maximizes the effect of saving time, labor and cost by processing a large number of samples in parallel It relates to a simplified next-generation sequencing library pretreatment method that can be performed.
  • Sanger sequencing technology has been widely used in biology and biotechnology as a standard technology for analyzing unknown sequences for about 40 years.
  • NGS next-generation sequencing
  • NGS cost is largely composed of assay reagent (kit) cost and library pretreatment (prep, abbreviation) cost.
  • library pretreatment cost has been maintained at a similar level in recent years.
  • Library pretreatment means changing any nucleic acid into a dsDNA or ssDNA form to which at least one end is attached with an adapter suitable for NGS use in order to analyze the nucleotide sequence using NGS technology.
  • General library pretreatment requires fragmentation of nucleic acid molecules to fit the NGS read length.
  • the end of the fragmented nucleic acid is changed to a form suitable for ligation through end-repair and A-tailing, and then an adapter is attached by ligation.
  • a process of selectively selecting only molecules that have undergone a ligation reaction is sometimes included.
  • PCR polymerase chain reaction
  • library pretreatment requires various enzymes and experimental procedures, so even if the cost associated with a specific enzyme or experiment is greatly reduced, the effectiveness is not great in terms of overall cost. Therefore, in order to reduce library preprocessing cost, it is essential to develop and introduce a new concept technology that will innovatively change the library preprocessing method.
  • the method comprising: providing a nucleic acid molecule; generating a transposom by combining a transposase with an external DNA having only one type of nucleotide sequence; mixing the nucleic acid molecule and the transposome to generate a fragmented nucleic acid molecule having both ends composed of the one type of nucleotide sequence; and generating a next-generation sequencing library by enriching the fragmented nucleic acid molecules with primers of different sequences.
  • transposome in which a transferase and an external DNA having only one type of nucleotide sequence are coupled; two different types of primers containing only one type of nucleotide sequence and having different nucleotide sequences in the 5' direction; And a simplified next-generation sequencing library pretreatment kit consisting of DNA polymerase is provided.
  • the present invention relates to a method for preparing (pre-processing) an NGS library for analyzing the nucleotide sequence of a nucleic acid.
  • the task of confirming the nucleotide sequence of a nucleic acid has been traditionally performed by the Sanger sequencing method.
  • NGS has been used in biology and biotechnology-related academia and industry.
  • the simplified next-generation sequencing library pretreatment method presented in the present invention has the effect of minimizing the cost incurred in the corresponding step by reducing the types of enzymes used for library production and saving time and labor at the same time.
  • the reagent (production) cost can be further reduced by reducing the type of transposom used, and the barcode or barcode desired by the experimenter is not considered in the step of attaching a different barcode to each sample without considering the type of the end of the fragmented nucleic acid molecule. It becomes possible to attach by selecting a combination of By replacing the Sanger sequencing analysis with NGS even for nucleic acids with a length of about 20 kbp or less through the method presented above, it is possible to significantly reduce the cost consumed for sequencing and also significantly reduce the time required for analysis. Therefore, the method presented in the present invention makes it possible to use NGS regardless of the length and type of nucleic acid to be analyzed, so it is expected that general researchers in the fields of biology and biotechnology will greatly contribute to creating an environment using NGS. .
  • FIG. 1 is a process flow diagram illustrating a method for pre-processing an NGS library according to an embodiment of the technology disclosed herein.
  • Figure 2 is a schematic diagram of the sample nucleic acid form after using the transposom.
  • FIG. 4 is an illustration of a method that may increase priming efficiency.
  • FIG. 9 shows the results of measuring the length and concentration of library molecules in a solution after library production is completed and immediately before performing NGS using Agilent's Tapestation equipment.
  • NGS library pretreatment includes the steps of 1) fragmenting the nucleic acid molecule to fit the length of the NGS readability, 2) making the end of the fragmented nucleic acid molecule blunt through end-repair, 3) It consists of a step of adding A to the 3' end through A-tailing, 4) attaching an adapter through a ligation reaction, and 5) performing PCR to increase the proportion of molecules that have undergone a ligation reaction.
  • the method comprising the steps of providing a nucleic acid molecule; generating a transposome by combining a transferase with an external DNA having only one type of nucleotide sequence; mixing the nucleic acid molecule and the transposome to produce a fragmented nucleic acid molecule having both ends composed of the one type of DNA;
  • a simplified method for pre-processing a next-generation sequencing library is provided, which includes generating a next-generation sequencing library by enriching the fragmented nucleic acid molecules with primers of different sequences.
  • the 'enrichment' is a concept of increasing the ratio of target molecules in a solution in which target and non-target molecules are mixed, and includes target amplification and positive selection.
  • FIG. 1 is a process flow diagram illustrating a method for pre-processing an NGS library according to an embodiment of the technology disclosed herein.
  • the nucleic acid molecule may be composed of a single strand or a double strand.
  • the chemical reaction in the subsequent step may be most efficient.
  • a reaction may occur even when 1) a nick from which the backbone is cut or 2) a gap in which several nts are removed exists in at least one strand, but without such a nick or gap.
  • the chemical reaction at a later stage is the most efficient. Therefore, it is desirable to prepare double-stranded nucleic acid molecules without gaps or nicks.
  • transferase it is recommended that one of the double strands of the double-stranded nucleic acid molecule is DNA.
  • Most transferase application cases have been reported for DNA:DNA duplex, but recently, there is a case showing that transferase can be used for DNA:RNA heteroduplex.
  • transferase has the potential to work not only on DNA:DNA duplex and DNA:RNA heteroduplex, but also on synthetic nucleic acid analogues such as PNA, LNA, TNA, and XNA. It also means that there is a possibility that the transferase can work on any combination of two strands of DNA, RNA, or synthetic nucleic acid analogues.
  • a gap occurs after the transferase operates and a DNA polymerase is used in the process of filling this gap, it is suitable for library pretreatment to provide the nucleic acid molecule in a form in which one strand is preferably DNA. .
  • the amount of nucleic acid can be adjusted within the range of 0.001 ng ⁇ 1 ug based on dsDNA.
  • the nucleic acid is 1) in the cell in the culture medium, 2) in the culture medium, 3) in the biochemical reaction solution such as polymerase, ligase, restriction enzyme, 4) gel dye , in a chemical reaction solution such as ethylenediaminetetraacetic acid (EDTA), polyethylene glycol (PEG), tris-EDTA (TE) buffer, ethanol 5) Bead, agarose gel ), in a mixture in which microstructures, etc. are mixed, or 6) in a mixture in which cells are mixed.
  • EDTA ethylenediaminetetraacetic acid
  • PEG polyethylene glycol
  • TE tris-EDTA
  • the transposase is an enzyme that cuts nucleic acids and attaches external DNA. It cuts the nucleic acid molecule to be pretreated and attaches external DNA of a desired or arbitrary nucleotide sequence to prepare a form suitable for NGS pretreatment.
  • the transferase may be a Class I transposase or a Class II transposase, and preferably may be included in the Class I transposase.
  • the Class I transposase may include Tn5, Tn7, and Tn10.
  • a transposome is generated by combining the transferase with an external DNA having only one type of nucleotide sequence, and the transposom serves to cut a nucleic acid molecule to be pretreated and add external DNA having a desired nucleotide sequence.
  • a desired nucleotide sequence can be added at the same time as amplification or amplification by targeting one type of nucleotide sequence.
  • a phosphate group is bonded to the 3' end of one strand of the double-stranded external DNA.
  • the primers of the different sequences include a sequence similar to the single type of nucleotide sequence (the nucleotide sequence of an external DNA) and may include different sequences of at least 1 nt or more in the 5' direction of the sequence.
  • the different sequences added are used as targets to facilitate later experimental procedures, or have the advantage of being used as barcoding or molecular barcoding of samples subjected to NGS pretreatment.
  • the similarity of the similar sequence may be 80% or more, preferably 94% or more, based on the single type of nucleotide sequence. In the above range, the primer can efficiently bind to the template and minimize the amplification bias due to the difference in efficiency.
  • the primers of the different sequences may include the similar sequence and may additionally include 1 nt or more of bases in the 3' direction while including at least 1 nt or more different sequences in the 5' direction of the sequence.
  • the added base of 1 nt or more may be a mixture of at least two or more of A, G, T, C, U, I, and base analogues.
  • a template nucleic acid molecule consists of only one type of identical nucleotide sequence at the 5' and 3' ends of the nucleic acid molecule to form a hairpin structure. Since there are more bases that can be bound, it has the advantage of being more dominant in competition with the hairpin structure and increasing the amplification efficiency.
  • the added base of 2 nt or more may be a base in which at least two or more of A, G, T, C, U, I, and base analogues are mixed.
  • the amplification efficiency is increased more than when 1 nt is added, so that the amplification result can be checked even with a small number of cycles.
  • the primers of the different sequences may include a sequence similar to the single type of nucleotide sequence and may additionally include 1 nt or more of a base in the 3' direction of the similar sequence.
  • the added base of 1 nt or more may be a base in which at least two or more of A, G, T, C, U, I, and base analogues are mixed.
  • the method may further include inactivating the transferase.
  • the inactivation can increase the reactivity of various enzymatic reactions including an amplification step that can be added later.
  • the step of inactivating the transferase may be performed through a surfactant (detergent) or a protease (protease).
  • the surfactant may be an anionic detergent such as sodium dodecyl sulfate (SDS).
  • a method of removing impurities by chemical and biochemical methods to improve the quality of analysis, gap filling using a special polymerase, end-repair, ligation ), a step of strand displacement, and the like can be added.
  • the step of performing amplification may be added.
  • the method used in the step of performing the amplification may be one or more amplification methods, and the method used for the amplification is a polymerase chain reaction (PCR), a strand-displacement amplification reaction, a rolling ring.
  • PCR polymerase chain reaction
  • the amplification method may be PCR in that the entire reaction can be simplified by omitting the purification process to be performed after inactivation, and the transferase can be additionally inactivated even though the efficiency of inactivation is somewhat low.
  • the polymerase used for the PCR may have a 5' to 3' exonuclease activity, a strand displacement function, or a proof read function. .
  • the NGS next-generation sequencing library may be analyzed by a parallel sequencing method.
  • the parallel sequencing method may be one using sequencing by synthesis, sequencing by ligation, nanopore, or the like.
  • the method may include determining the nucleotide sequence of the nucleic acid molecule by de novo assembly of NGS raw data. Since the NGS raw data of the transferase-treated nucleic acid molecule is in the form of random fragments of the target molecule, in most cases it is difficult to determine the nucleotide sequence of the original nucleic acid molecule by itself. In addition, in most cases, a molecule of unknown sequence is analyzed, so reference-based analysis is also often impossible. Therefore, it is desirable to apply a de novo assembly technique that can estimate the entire sequence by software-based sequences with high similarity through similar sequences between NGS raw data.
  • the method may further include processing NGS raw data before calculating the original nucleotide sequence by concatenating nucleotide sequence information resulting from the parallel sequencing method.
  • the steps of processing NGS raw data include filtering according to the quality score, removal of a sequence suspected as a side product, removal of duplicates, error correction method and A step of setting an optimal condition using machine learning may be included.
  • the DNA barcoding and analysis method presented in the present invention does not require a separate DNA pre-processing process.
  • a transposome By attaching barcoded DNA using a transposome, a large amount of samples are processed in parallel to save time, labor, and cost. Savings can be maximized. This is possible by adding chemical and biochemical steps that improve the quality of the analysis or processing the analyzed NGS raw data.
  • additional time and labor can be effectively reduced.
  • a transfer enzyme and only one type of transposome in which an external DNA having only one type of nucleotide sequence is bound; two different types of primers containing only one type of nucleotide sequence, but having different nucleotide sequences in the 5' direction; And a simplified next-generation sequencing library pretreatment kit consisting of DNA polymerase is provided.
  • the kit may further include software for determining the nucleotide sequence of the nucleic acid molecule by de novo assembly of NGS raw data.
  • the kit can increase the continuity and efficiency of the process by allowing the buffer composition of the corresponding step to achieve optimal conditions when the reactants of each step are mixed with the reagents for the next step, and can have the following advantages.
  • it is necessary to use a buffer in which several components are mixed in a certain ratio. And when the ratio of these components has a difference of more than a certain level from the optimum value, the desired reaction does not occur.
  • various enzymes each have an optimal buffer composition and are generally different from each other, in order to continuously perform various enzymatic reactions, it is generally necessary to add a purification process between enzymatic reactions, which is the biggest factor hindering the efficiency of the process.
  • the buffer of the N+1th enzyme reaction can be constructed and prepared so that the composition of the buffer becomes the optimal condition when the product of the Nth step enzymatic reaction is added to the N+1th step enzyme reaction reagent, it exists between the enzymatic reactions It is possible to increase the continuity and efficiency of the process by omitting the purification process.
  • a simplified method for pre-processing a next-generation sequencing library is provided.
  • water and TE buffer may be included. Except for special purposes, it is advantageous to use water or a solution optimized for barcoding to control the amount of nucleic acid.
  • the amount of the nucleic acid may have a concentration of 0.001 ng to 1 ug, preferably 0.01 ng to 100 ng, more preferably 0.1 ng to 10 ng based on dsDNA.
  • the control of the amount of nucleic acid is because the range of the amount that can be barcoded by the pre-bound transposase and the external DNA complex used is limited. can
  • the solution containing the nucleic acid to be analyzed is 1) a solution capable of culturing cells (DMEM, RPMI, IMDM, etc.) and a solution capable of culturing bacteria (LB, SOC, SB, etc.), 2) a biochemical reaction occurs Solutions (PCR, ligase, restriction enzyme, TOPO, gibson assembly, DNase, RNase, etc.), 3) Chemical solutions (EtOH, EDTA, agarose gel dye, PEG, TE, etc.), 4) Microstructures Solutions (beads, agarose gels, microstructures, etc.), 5) solutions containing live cells and bacteria, etc. may include solutions used in general biological experiments.
  • dNTPs various bases, EDTA, primers, polymerases, as well as enhancers that help PCR efficiently occur ( PEG, helper, etc.), solutions that facilitate loading into gel after PCR (sucrose and dye, etc.), various similar amplification methods such as RCA (rolling circular amplification), MDA (multiple displacement amplification), and PCA (polymerase cycling assembly) Enzymes and sub-components may be included.
  • the all-in-one-mix buffer can be used as a method of fragmenting samples and attaching adapters to various types of samples without pretreatment.
  • the buffer includes a buffer composition serving as a buffer capable of maintaining the fragmentation and adapter attachment reaction of the sample using a transposome at the rear end even when a solution present in various types of samples is added.
  • the role of the corresponding buffer buffer composition enabling the fragmentation and adapter attachment reaction of the rear end can be largely divided into 1) pH control and 2) removal of factors that interfere with fragmentation and adapter attachment reactions.
  • the composition of the buffer that can control the pH is citric acid, acetic acid, KH 2 PO 4 , CHES, borate, Na 2 HPO 4 , TAPS ([Tris(hydroxymethyl)methylamino]propanesulfonic acid) , Bicine (2-(Bis(2-hydroxyethyl)amino)acetic acid), Tris (Tris(hydroxymethyl)aminomethane) or, (2-Amino-2-(hydroxymethyl)propane-1,3-diol), Tricine (3 -[N-Tris(hydroxymethyl)methylamino]-2-hydroxypropanesulfonic acid), TAPSO (3-[N-Tris(hydroxymethyl)methylamino]-2-hydroxypropanesulfonic acid), HEPES (4-(2-hydroxyethyl)-1-piperazineethanesulfonic acid), TES (2-[[1,3-dihydroxy-2-(hydroxymethyl)propan-2-yl]amino]ethanesulfonic acid),
  • a customized all-in-one-mix buffer can be configured according to the sample type by changing the composition or adding or reducing additives.
  • an excess of protease present in the solution may degrade the transposon.
  • a protease inhibitor added to the all-in-one-mix buffer, fragmentation of the sample and the adapter attachment reaction can be optimized without pretreatment of the sample in the cell culture solution.
  • the reaction efficiency of the transposome passing through the cell membrane must be increased in order for the transposome, a type of nucleic acid in the nucleus of the cell, to meet and react. do.
  • a surfactant or protease that can help pass through the cell membrane can be added to the all-in-one-mix buffer.
  • a reagent for dissolving the membrane constituting the cell can be added to the all-in-one-mix buffer to increase the efficiency of the transposome and DNA fragmentation and adapter attachment reaction, which is a type of nucleic acid inside the cell.
  • a transposon naturally present in an organism is called a jumping gene that can move a DNA location to another within the genome.
  • Transposons are broadly classified into two types according to their mechanism of action.
  • a transposon classified as Class I known as a cut-and-paste mechanism, cuts both the 3' and 5' parts of both ends of DNA, a type of target nucleic acid, and then inserts external DNA
  • Class ll known as the mechanism, does not cut the 5' part, but cuts the 3' part, hangs the external DNA, and then inserts it through the replication process.
  • the transposon used in the present invention corresponds to Class I, and the transposon belonging to the Class I classification includes Tn3, Tn5, Tn7, Tn10, and the like.
  • Table 1 below shows the Genebank accession no. of the transposon used in the present invention.
  • DNA barcodes are chemically linked by adding a transferase, foreign DNA, or a complex thereof to a sample nucleic acid.
  • a method of forming a transferase and foreign DNA or a complex thereof is performed using a transferase recognition site (Mosaic End, ME).
  • the annealed dsDNA can be assembled with a transferase to form a complex transposome.
  • the transposom is bound to the sample nucleic acid, the sample nucleic acid and the 5' transferred strand are connected and the transposom is attached, and the fragmentation and adapter attachment reaction proceeds with a 9 bp gap in the 3' non-transferred strand.
  • the 5' transferred strand refers to the strand where the sample nucleic acid and the backbone are connected, and the 3' non-transferred strand is not connected to the sample nucleic acid due to a nick or gap and is attached to the 5' transferred strand by hydrogen bonding.
  • the sample nucleic acid should maintain the double-stranded DNA form until it meets the foreign DNA and the transposome.
  • the foreign DNA of the complex is randomly or sequence-specifically inserted into the sample nucleic acid, and the foreign DNA is tagged at the 5'-end and 3'-end to form fragmented nucleic acid molecules.
  • the nucleic acid molecules fragmented by the insertion of the foreign DNA may be tagged by inserting one or more types of foreign DNA into the 5'-end and the 3'-end.
  • the foreign DNA includes a universal sequence that can be amplified using one or two or more primers.
  • the foreign DNA may have one or two or more barcode sequences that can identify fragmented sample nucleic acids.
  • Corresponding barcode sequences may have different sequences and different lengths. Combinations of barcode sequences with different lengths and different sequences may be most advantageous in terms of multiplex analysis to process a large number of samples.
  • oligonucleotides are required when multiple barcodes are used from the transposomal formation stage. This can cause cost increases in several steps, such as oligonucleotide synthesis, transposomal formation, and transposomal binding to sample DNA. Therefore, it may be most effective for parallel processing to preferably use only one ME sequence and only one type of transposom without a separate barcode or adapter sequence.
  • the transferase (transposase) bound to the sample nucleic acid maintains the form of a complex in which the nucleic acid and the transferase are linked until a separate additional chemical reaction occurs.
  • a detergent chemical sample that can induce protein denaturation is added or an enzyme that decomposes proteins because the primer cannot bind in order to perform the PCR amplification process later.
  • the transferase can be separated from the nucleic acid using a protease.
  • Detergents used for chemical purposes of crushing cell walls are divided into ionic and non-ionic detergents depending on whether the hydrophilic head is charged. In more detail, those having a negative charge are classified as anionic, those having a positive charge are classified as cationic, and those having both are classified as zwitterionic.
  • the degree of pulverization of the cell wall varies depending on the charge. In general, non-ionic detergents are mild, so they are mainly used for the purpose of extracting proteins by pulverizing the cell wall. Strongly destructive anionic detergents are often used.
  • a representative anionic detergent is sodium dodecyl sulphate (SDS). [Mohammed Shehadul Islam et al, A review on macroscale and microscale cell lysis method, micromachines 2017, 8, 83]
  • a step of attaching an identification tag to each sample is required.
  • a dog tag refers to a DNA barcode, which is also called a name such as an index.
  • the process of attaching a barcode is performed using a polymerase, and a typical example is PCR, but other methods such as MDA can also be used.
  • FIG. 2 is a schematic diagram of the sample nucleic acid form after using the transposom.
  • a primer annealing to the ME sequence is amplified by PCR method.
  • the genetic material fragmented with Tn5 forms a hairpin between the ME sequence on both sides and the ME sequence in the reverse complemented state, so a general primer preferentially priming ( priming), and thus the PCR amplification efficiency is very low.
  • 3 shows a decrease in priming efficiency due to the hairpin structure.
  • the PCR amplification efficiency was dramatically improved by modifying the primer attaching the NGS adapter sequence and priming it to predominate over the corresponding hairpin structure.
  • N sequence was added 3' following the ME sequence of the primer to which the NGS adapter sequence was attached. This additional N sequence binds to a random inert sequence to generate a region to which the primer can additionally bind in addition to the ME sequence of the template. This generates a higher binding force between the primer and the template than the hairpin structure, so that the primer breaks the hairpin structure and is primed to the template to proceed with elongation.
  • 4 is an illustration of a method that may increase priming efficiency. Referring to FIG. 4 , it is shown that the priming efficiency of the primer can be increased by adding more than 0 N sequences to the primer. The N sequence is more than 0 for the purpose of binding to the random sequence of the insert, so that the PCR efficiency increase effect can be confirmed.
  • N sequences As the number of N sequences increases, the number of types of nucleotide sequences increases and the amount of primers having a specific nucleotide sequence decreases by 4 to the power of N, so it is preferable to select the number of N according to the purpose of use.
  • the addition of the N sequence can dramatically increase the PCR amplification efficiency.
  • the template nucleic acid fragmented with Tn5 was subjected to PCR with 9 different indices.
  • the cycle was a total of 30 times, denaturation temperature - 95 °C, annealing temperature - 60 °C, elongation temperature - 72 °C.
  • FIG. 5 shows PCR amplification efficiency and NGS read uniformity according to the number of N sequences.
  • the PCR amplification efficiency increases as the number of N sequences is increased.
  • the difference in amplification efficiency between indices is also reduced.
  • the minimum reads must be met to be used for analysis. The larger the difference in amplification efficiency between indices, the more unnecessary sequencing is required to meet the minimum reads of the index showing the least amplification efficiency. There are cases where additional work is required.
  • Nucleic acid samples must be individually fragmented and adapters attached, and the PCR step, which is an experiment at the back stage, is also the most common method for individual amplification. However, whereas fragmentation and adapter attachment of nucleic acid samples must be performed in individual units, the PCR step, an experiment at the rear stage, pools a large number of fragmented and adapter-attached samples and can be amplified using the PCR step at the same time. . By pooling fragmented and adapter-attached samples using a transposom, PCR amplification can be performed, but amplifying each fragment or sample individually prevents amplification bias in the PCR step and prevents chimera sequences. sequence) is advantageous in terms of suppression of generation.
  • the space of an individual reaction in the corresponding microcavity is suitably at the level of sub-nanoliter at least, and the size can range from sub-picoliter to sub-microliter as small as possible.
  • various types of polymerases can be used, and various types of polymerases can be used without being limited to a specific type of polymerase such as Taq DNA polymerase, Pfu DNA polymerase, and isothermal DNA polymerase.
  • the PCR protocol in the PCR step can be divided into single-stage, multi-stage, and the like.
  • the cycle is repeated and amplified using one stage consisting of three steps of denaturing, annealing, and extension.
  • the reason for using one stage in this general PCR protocol is that the annealing temperature (T a ) is set based on the temperature at which all regions of the primers used can bind to the target DNA intact.
  • T a the annealing temperature
  • the nucleotide sequence of the nucleic acid molecule to which the DNA barcode is linked is analyzed by a parallel sequencing method.
  • parallel sequencing include HiSeq and MiSeq of Illumina, Ion Torrent of Life Techonology, 454 of Roche, etc., and sequencing by synthesis, sequencing by ligation, and nanopore sequencing can be generally used.
  • Fragmented nucleic acid molecules processed by the parallel sequencing method can be reclassified as DNA barcodes and restored to their original nucleotide sequence structure before fragmentation using specific software.
  • This new assembly of the sequenced reads with overlapping sequences is called de novo assembly, and for this purpose, commercialized software can be used, and various computer languages can be used for analysis while changing various conditions.
  • the external DNA of the transpososome uses the transposase translocation enzyme recognition site (Mosaic End, Me) and consists of only an oligonucleotide containing a transposase recognition site sequence of 19 bp length, a universal sequence, and a DNA barcode sequence, and a transposase recognition site sequence only. It is composed of double-stranded DNA formed by annealing oligonucleotides.
  • the transposome binds to the sample DNA and is attached to the 5' transferred strand, and fragmentation and adapter attachment reactions proceed with a 9 bp gap in the 3' non-transferred strand.
  • the fragmented and adapter-attached sample produced at this time has a universal sequence at both 5'-ends as an overhang structure, and a 9bp gap is formed on both strands.
  • a complementary sequence to the overhang structure of both 5'-ends.
  • the process involves the 5'-3' exonuclease activity or strand-displacement activity of various types of polymerase such as Taq-type DNA polymerase, Pfu-type polymerase, and phi29 DNA polymerase. displacement) function to remove or push the ME sequence of the non-transferred strand and attach a complementary sequence to the overhang structure of both 5'-ends.
  • ligase and oligo a pre-work can be performed to attach a complementary sequence to the 9bp gap and the 5'-end overhang structure. If the prior work is not performed or the efficiency of the prior work is low, there is a disadvantage in that the PCR efficiency is reduced and a chimera material is generated in the PCR step.
  • DNA polymerase having strand-displacement activity, DNA polymerase having 5'-3' exonuclease activity, DNA ligase, nuclease, etc. can be used.
  • the processing of the NGS raw data includes recognizing the transposase translocation enzyme recognition site in the front part of the NGS raw data, recognizing the transposase translocation enzyme recognition site in the rear part, fragmentation of the sample nucleic acid and external used for adapter attachment reaction Recognizing the DNA barcode may include removing the recognized external DNA nucleotide sequences. Thereafter, the steps of collecting the nucleotide sequence information of the fragmented nucleic acid from the same sample nucleic acid using an external DNA barcode, and restoring the nucleotide sequence information of the existing sample nucleic acid by linking the nucleotide sequence information of several fragmented nucleic acids. may include
  • the step of collecting the sequence information only high-scoring NGS raw data is used based on the sequence analysis score (quality score), or it may interfere with the restoration process, such as homopolymer or DNA sequences with repetitive patterns. It is desirable to include the process of removing NGS raw data or selecting an appropriate amount of NGS raw data at random or using a specific rule.
  • the criterion of analysis score for selecting the high-scoring NGS raw data, the degree of removing the NGS raw data having a repeating pattern with the homopolymer, and the amount of the NGS raw data to be selected include sample nucleic acids It can be adjusted depending on the solution present.
  • the method may include quantifying the total nucleotide sequence of the restored nucleic acid or the degree of restoration of each oligonucleotide, and selecting a nucleotide sequence most similar to the sample nucleic acid using the quantified value.
  • All the numerical values used in the step of processing the nucleotide sequence information of the nucleic acid from the NGS raw data can be optimized for each sample using machine learning, which is a solution containing the sample nucleic acid, the length of the sample nucleic acid, and the sample nucleic acid. It is desirable to optimize according to the state of the nucleic acid (linear DNA, circular DNA, etc.) and the amount of sample nucleic acid.
  • the present inventors tried to confirm the existence of a nucleic acid molecule to be subjected to nucleotide sequence analysis prior to an experiment for verifying whether the NGS library can be prepared.
  • 6 is a result of performing electrophoresis on a total of 24 samples using agarose 1% gel. Referring to FIG. 6 , it can be confirmed from the electrophoresis results that all 24 samples have a length of 1 kbp or more and exist in a certain amount or more.
  • nucleic acid molecule By mixing the nucleic acid molecule and the transposome, a fragmented nucleic acid molecule having both ends composed of the one type of nucleotide sequence was generated.
  • the fragmented nucleic acid molecules were enriched with primers of different sequences to generate a next-generation sequencing library.
  • FIG. 9 shows the results of measuring the length and concentration of library molecules in a solution after library production is completed and immediately before performing NGS using Agilent's Tapestation equipment. From the results of FIG. 9 , it can be confirmed that only library molecules of a desired length were successfully purified.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Plant Pathology (AREA)
  • Virology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 명세서에 개시된 기술은 두 가지 효소만을 사용하는 간소화된 차세대 염기서열 분석 라이브러리 전처리 방법에 관한 것으로서, 핵산 분자를 제공하는 단계; 전이효소(transposase)와 단 한 종류의 염기서열을 갖는 외부 DNA를 결합하여 트랜스포좀을 생성하는 단계; 상기 핵산 분자와 상기 트랜스포좀을 혼합하여 양 말단이 상기 한 종류의 염기서열로 구성된 파편화된 핵산 분자를 생성하는 단계; 및 상기 파편화된 핵산 분자를 서로 다른 서열의 프라이머(primer)로 부유화(enrichment)하여 차세대 염기서열 분석 라이브러리를 생성하는 단계를 포함하는 간소화된 차세대 염기서열 분석 라이브러리 전처리 방법이 제공된다.

Description

간소화된 차세대 염기서열 분석 라이브러리 전처리 방법
본 명세서에 개시된 기술은 간소화된 차세대 염기서열 분석 라이브러리 전처리 방법에 관한 것으로서, 별도의 DNA 전처리 과정이 필요하지 않고 대량의 샘플을 병렬적으로 처리하여 시간과 노동력 및 비용을 절약할 수 있는 효과를 최대화시킬 수 있는 간소화된 차세대 염기서열 분석 라이브러리 전처리 방법에 관한 것이다.
생어 염기서열 분석(Sanger sequencing) 기술은 약 40년간 미지의 염기서열을 분석하는 표준 기술로 생물학과 생명공학 분야에서 널리 사용되고 있다. 하지만 2005년 이후 다양한 차세대 염기서열 분석(Next-generation sequencing, 이하 NGS)기술의 등장으로 단위 길이 당 염기서열 분석 단가가 낮아지면서 NGS가 기존의 생어 염기서열 분석 시장을 대체하고 있는 추세이다. 시장의 대체는 분석 대상의 길이가 길고 분석 대상의 복잡도(diversity 혹은 complexity)가 높은 시장에서부터 시작되었으나, 최근 NGS 기술의 발전에 기인하여 분석 대상의 길이가 짧거나 분석 대상의 복잡도가 낮은 시장에서도 NGS를 도입하는 비율이 높아지고 있다.
하지만 분석 대상의 길이가 약 20kbp 이하이고 복잡도가 낮은(예를 들면, 단일 세포로부터 유래한 클론성 물질인) 경우, NGS의 비용의 구조적 한계로 인해 여전히 생어 염기서열 분석이 활용되는 경우가 대부분이다. NGS 비용은 크게 분석 시약(키트) 비용과 라이브러리(library) 전처리(prep, preparation의 약어) 비용으로 구성되는데 이 중 분석 시약 비용은 분석 기술의 발전에 기인하여 시간이 지남에 따라 기하급수적으로 감소하고 있으나 라이브러리 전처리 비용은 최근 몇 년간 유사한 수준으로 유지되고 있다. 라이브러리 전처리는 NGS 기술을 이용하여 염기서열을 분석하기 위해서 임의의 핵산을 최소 한쪽 말단이 NGS 이용에 적합한 어댑터(adapter)가 부착된 dsDNA 혹은 ssDNA 형태로 변화시키는 것을 의미한다. 이 과정에서 다양한 효소들이 사용되면서 전처리 시약 비용을 높이고 여러 실험 과정을 거치면서 필요로 하는 시간과 노동력이 부가적인 비용이 발생하는데, NGS 자체의 기술 발전에 비해 전처리 기술의 발전이 매우 더뎌 NGS 시약 비용이 0에 수렴하더라도 전처리 비용으로 인해 일정 수준 이하로 분석 비용을 낮추기 어려운 것이 현재의 상황이다. 이러한 가격 구조는 분석 대상의 길이가 짧아질수록 더욱 극명해지며 분석 대상의 길이가 20kbp 이하인 경우 라이브러리 전처리 비용이 생어 염기서열 분석 비용보다 크거나 유사하기에 NGS가 생어 시장을 대체하는데 어려움을 겪고 있다.
일반적인 라이브러리 전처리는 핵산 분자를 NGS 가독 길이(read length)에 맞춰 파편화(fragmentation)하는 과정을 필요로 한다. 파편화된 핵산의 말단은 end-repair와 A-tailing을 거쳐 라이게이션(ligation)에 적합한 형태로 변경되며, 이후 어댑터가 라이게이션으로 붙여지게 된다. 이후 라이게이션 반응이 일어난 분자들만 선택적으로 골라내는 과정이 포함되기도 하는데, 일반적으로는 라이게이션 반응이 일어난 분자들의 비율을 증가시키기 위해 PCR(polymerase chain reaction, 중합효소 연쇄 반응)을 수행한다. 이처럼 라이브러리 전처리는 다양한 효소와 실험 과정을 요구하므로 특정 효소나 실험 관련 비용을 대폭 줄이더라도 전체 비용 측면에서는 그 효과성이 크지 않다. 따라서 라이브러리 전처리 비용을 절감하기 위해선 라이브러리 전처리 방법을 혁신적으로 변화시킬 새로운 개념의 기술의 개발과 도입이 필수적이다.
본 발명의 일 측면에 의하면, 핵산 분자를 제공하는 단계; 전이효소(transposase)와 단 한 종류의 염기서열을 갖는 외부 DNA를 결합하여 트랜스포좀을 생성하는 단계; 상기 핵산 분자와 상기 트랜스포좀을 혼합하여 양 말단이 상기 한 종류의 염기서열로 구성된 파편화된 핵산 분자를 생성하는 단계; 및 상기 파편화된 핵산 분자를 서로 다른 서열의 프라이머(primer)로 부유화(enrichment)하여 차세대 염기서열 분석 라이브러리를 생성하는 단계를 포함하는 간소화된 차세대 염기서열 분석 라이브러리 전처리 방법이 제공된다.
본 발명의 다른 측면에 의하면, 전이효소와 단 한 종류의 염기서열을 갖는 외부 DNA가 결합된 단 한 종류의 트랜스포좀; 상기 단 한 종류의 염기서열을 포함하되, 그 5' 방향에는 서로 다른 염기서열을 갖는 서로 다른 두 종류의 프라이머; 및 DNA 중합효소로 구성된 간소화된 차세대 염기서열 분석 라이브러리 전처리 키트가 제공된다.
본 발명은 핵산의 염기서열을 분석하기 위한 NGS 라이브러리 제작(전처리) 방법에 관한 것이다. 핵산의 염기서열을 확인하는 작업은 전통적으로 생어 염기서열 분석 방법에 의해 수행되어 왔다. 최근 NGS가 생물학과 생명공학 관련 학계 및 산업계 전반에 사용되고 있으나, 염기서열 분석 시약 단가의 지속적 하락에도 불구하고 라이브러리 전처리 비용 절감에 어려움을 겪으면서 분석 대상의 길이가 약 20kbp 이하인 핵산에 대해서는 NGS가 적용되는 사례를 찾아보기 어렵다. 본 발명에서 제시된 간소화된 차세대 염기서열 분석 라이브러리 전처리 방법은 라이브러리 제작에 사용되는 효소의 종류를 줄임으로써 해당 단계에서 발생하는 비용을 최소화함과 동시에 시간과 노동력을 절감할 수 있는 효과를 지닌다. 즉 다양한 효소가 사용되고 여러 단계를 거치는 라이브러리 전처리 과정을, 예를 들어 두 가지 효소만을 사용하는 라이브러리 전처리 과정으로 혁신할 수 있다.
이와 더불어 사용하는 트랜스포좀의 종류를 줄임으로써 시약 (생산) 비용을 보다 절감할 수 있으며, 샘플별로 서로 다른 바코드를 부착하는 단계에서 파편화된 핵산 분자의 말단 종류를 고려하지 않고 실험자가 원하는 바코드 혹은 바코드의 조합을 선택하여 부착하는 것이 가능해진다. 상기 제시된 방법을 통해 약 20kbp 이하 길이의 핵산에 대해서도 생어 염기서열 분석을 NGS로 대체함으로써 염기서열 분석을 위해 소모되던 비용을 크게 절감함과 동시에 분석에 소요되는 시간을 크게 단축 가능하다. 따라서 본 발명에서 제시된 방법은 분석 대상 핵산의 길이 및 종류에 관계없이 NGS를 사용하는 것이 가능하게 함으로써, 생물학과 생명공학 분야의 일반적인 연구자들도 NGS를 사용하는 환경을 조성하는데 크게 기여할 수 있을 것으로 기대된다.
도 1은 본 명세서에 개시된 기술의 일 구현예에 따른 NGS 라이브러리 전처리 방법을 나타낸 공정흐름도이다.
도 2는 트랜스포좀을 사용한 후 샘플 핵산 형태의 모식도이다.
도 3은 헤어핀 구조에 의한 프라이밍(priming) 효율 저하를 나타낸 것이다.
도 4는 프라이밍 효율을 증가할 수 있는 방법의 예시이다.
도 5는 N sequence의 개수에 따른 PCR 증폭 효율과 NGS 리드(read)의 균일도를 나타낸다.
도 6은 아가로즈(agarose) 1% 젤(gel)을 사용하여 총 24개 샘플에 대해 전기영동을 수행한 결과이다.
도 7은 상기 대상 핵산 분자 총 24개의 차세대 염기서열 분석 라이브러리를 아가로즈(agarose) 1% 젤(gel)을 사용하여 전기영동을 수행한 결과이다.
도 8은 총 24개의 차세대 염기서열 분석 라이브러리를 하나 혹은 두 개로 모아(pooling) 동일한 조건으로 전기영동을 수행 후 크기 선별(size selection)을 위한 겔 추출(gel extraction)을 수행한 결과이다.
도 9는 라이브러리 제작이 완료되고 NGS를 수행하기 직전의 용액 내 라이브러리 분자들의 길이와 농도를 Agilent사 Tapestation 장비로 측정한 결과이다.
일반적으로 NGS 라이브러리 전처리는 1) 핵산 분자를 NGS 가독 길이에 맞춰 파편화하는 단계, 2) 파편화된 핵산 분자의 말단을 말단 수선(end-repair)을 통해 평활 말단(blunt end)로 만드는 단계, 3) A-tailing을 통해 3' 말단에 A를 추가하는 단계, 4) 어댑터를 라이게이션 반응으로 붙이는 단계, 5) 라이게이션 반응이 일어난 분자들의 비율을 증가시키기 위해 PCR을 수행하는 단계로 이루어진다.
반면 본 명세서에 개시할 기술의 일 측면에 의하면, 핵산 분자를 제공하는 단계; 전이효소와 단 한 종류의 염기서열을 갖는 외부 DNA를 결합하여 트랜스포좀을 생성하는 단계; 상기 핵산 분자와 상기 트랜스포좀을 혼합하여 양 말단이 상기 한 종류의 DNA로 구성된 파편화된 핵산 분자를 생성하는 단계; 상기 파편화된 핵산 분자를 서로 다른 서열의 프라이머로 부유화(enrichment)하여 차세대 염기서열 분석 라이브러리를 생성하는 단계를 포함하는 간소화된 차세대 염기서열 분석 라이브러리 전처리 방법이 제공된다.
상기 '부유화'는 표적이 되는 분자와 아닌 분자가 섞여 있는 용액에서 표적이 되는 분자의 비율을 늘리는 개념으로서, 표적의 증폭(amplification) 및 양성 선별(positive selection)을 포함한다..
도 1은 본 명세서에 개시된 기술의 일 구현예에 따른 NGS 라이브러리 전처리 방법을 나타낸 공정흐름도이다.
상기 핵산 분자는 단일 가닥(single strand) 혹은 이중 가닥(double strand)으로 이루어질 수 있다. 특히 상기 핵산 분자는 전이효소와의 반응이 가장 높다는 면에서 이중 가닥(double strand) 핵산 분자인 경우가 이후 단계에서의 화학 반응이 가장 효율적일 수 있다. 또한, 최소 한 가닥 이상에 1) 백본(backbone)이 절단된 닉(nick)이나 2) 수 nt 정도가 제거된 갭(gap)이 존재하는 경우에도 반응이 일어날 수 있으나, 이러한 nick이나 gap이 없는 경우에 이후 단계에서의 화학 반응이 가장 효율적이다. 그러므로 gap이나 nick이 없는 이중 가닥 핵산 분자를 준비하는 것이 바람직하다.
상기 이중 가닥 핵산 분자의 이중 가닥 중 한 가닥은 DNA인 경우가 권장된다. 대부분의 전이효소 응용 사례는 DNA:DNA duplex에 대해 보고되었으나, 최근 DNA:RNA heteroduplex에 대해서도 전이효소를 활용 가능함을 보인 사례가 있다. 이는 DNA:DNA duplex, DNA:RNA heteroduplex 뿐만 아니라 PNA, LNA, TNA, XNA 등 합성 핵산 유사체(synthetic nucleic acid analogues)에도 전이효소가 동작할 수 있는 가능성이 있음을 의미한다. 뿐만 아니라 DNA, RNA, 합성 핵산 유사체 중 어떠한 두 가닥의 조합에도 전이효소가 동작할 수 있는 가능성이 있음을 의미하기도 한다. 하지만, 전이효소가 동작한 이후 갭(gap)이 발생하고 이 gap을 메우는 과정에서 DNA 중합효소가 사용되기 때문에, 바람직하게는 한쪽 가닥은 DNA인 형태로 핵산 분자를 제공하는 것이 라이브러리 전처리에 적합하다.
일반적인 NGS 전처리의 용도(10 ng ~ 1 ug)와 굉장히 적은 양의 샘플을 위한 NGS 전처리 용도(1 pg ~ 10 ng)를 위해 상기 핵산의 양은 dsDNA를 기준으로 0.001 ng ~ 1 ug 범위 내에서 조절될 수 있다.
상기 핵산은 1) 배양액 내 세포 안, 2) 배양액 내, 3) 중합효소(polymerase), 리가제(ligase), 제한효소(restriction enzyme) 등의 생화학 반응액 내, 4) 겔 다이(gel dye), 에틸렌디아민테트라아세트산(ethylenediaminetetraacetic acid, EDTA), 폴리에틸렌 글리콜(polyethylene glycol, PEG), tris-EDTA (TE) 버퍼, 에탄올 등의 화학 반응액 내, 5) 비드(bead), 아가로즈 겔(agarose gel), 미세구조체(microstructure) 등이 섞여 있는 혼합물 내, 또는 6) 세포가 섞여 있는 혼합물 내 등에 존재하는 상태일 수 있다.
상기 전이효소(transposase)는 핵산을 절단하고 외부 DNA를 부착하는 효소로서, 전처리하고자 하는 핵산 분자를 절단하고 원하는 혹은 임의의 염기서열의 외부 DNA를 부착하여 NGS 전처리에 적합한 형태로 제작하는 역할을 한다. 이때 상기 전이효소(transposase)는 Class I transposase 혹은 Class II transposase일 수 있으며, 바람직하게는 Class I transposase에 포함될 수 있다. 상기 Class I transposase에는 Tn5, Tn7, Tn10이 포함될 수 있다.
상기 전이효소와 단 한 종류의 염기서열을 갖는 외부 DNA를 결합하여 트랜스포좀이 생성되는데, 상기 트랜스포좀은 전처리하고자 하는 핵산 분자를 자르고 원하는 염기서열의 외부 DNA를 추가하는 역할을 한다. 이때 전이효소에 단 한 종류의 염기서열을 갖는 외부 DNA가 결합됨으로써 한 종류의 염기서열을 표적하여 증폭 혹은 증폭과 동시에 원하는 염기서열을 추가할 수 있다.
상기 단 한 종류의 염기서열을 갖는 외부 DNA는 이중 가닥 DNA인 경우가 반응성의 향상을 위해 권장된다. 이때 반응성의 향상을 위해 상기 이중 가닥의 외부 DNA 중 한 가닥의 DNA는 3' 말단에 인산기가 결합된 것이 바람직하다.
상기 서로 다른 서열의 프라이머는 상기 단 한 종류의 염기서열(외부 DNA의 염기서열)과 유사한 서열을 포함하며 그 서열의 5' 방향에 최소 1nt 이상의 서로 다른 서열을 포함할 수 있다. 그 결과 추가된 서로 다른 서열은 표적으로 사용되어 훗단의 실험 과정을 더 용이하게 하거나 NGS 전처리하는 샘플의 바코딩 혹은 분자 수준의 바코딩으로 사용될 수 있는 장점이 있다. 이때 상기 유사한 서열의 유사도는 상기 단 한 종류의 염기서열 기준 80% 이상, 바람직하게는 94% 이상일 수 있다. 상기 범위에서 프라이머는 주형에 효율적으로 결합(binding)할 수 있으며 효율성 차이로 인한 증폭 편향(amplification bias)를 최소화할 수 있다.
상기 서로 다른 서열의 프라이머는 상기 유사한 서열을 포함하고 그 서열의 5' 방향에 최소 1nt 이상의 서로 다른 서열을 포함하면서 3' 방향에 1nt 이상의 염기를 추가적으로 포함할 수 있다. 이때 상기 추가된 1nt 이상의 염기는 A, G, T, C, U, I, 염기 유사체(base analogues) 중 최소 두 개 이상이 혼합된 것일 수 있다. 주형 핵산 분자는 5'과 3'의 말단이 단 한 종류의 동일한 염기서열로 구성되어 hairpin 구조를 형성하고 있고 이로 인해 일반적인 프라이머는 주형과의 결합이 어려우나, 3'에 1nt 이상이 추가된 프라이머는 결합 가능한 염기수가 보다 많기에 hairpin 구조와의 경쟁에서 보다 우세하고 증폭 효율을 증가시킬 수 있다는 장점이 있다. 바람직하게는 상기 유사한 서열의 3' 방향에 2nt 이상의 염기를 추가적으로 포함할 수 있다. 이때 상기 추가된 2nt 이상의 염기는 A, G, T, C, U, I, 염기 유사체(base analogues) 중 최소 두 개 이상이 혼합된 염기일 수 있다. 2nt 이상이 추가되는 경우 1nt가 추가되는 경우 보다 증폭 효율이 보다 증가하여 적은 사이클(cycle) 수로도 증폭 결과물을 확인 가능하다.
상기 서로 다른 서열의 프라이머는 상기 단 한 종류의 염기서열과 유사한 서열을 포함하며 유사한 서열의 3' 방향에 1nt 이상의 염기를 추가적으로 포함할 수 있다. 상기 추가된 1nt 이상의 염기는 A, G, T, C, U, I, 염기 유사체(base analogues) 중 최소 두 개 이상이 혼합된 염기일 수 있다.
일 구현예에 있어서, 상기 전이효소를 비활성화시키는 단계를 더 포함할 수 있다. 상기 비활성화에 의해 이후에 추가될 수 있는 증폭 단계를 포함한 다양한 효소 반응들의 반응성을 증가시킬 수 있다.
상기 전이효소를 비활성화시키는 단계는 계면활성제(detergent), 프로테아제(protease)를 통해 수행될 수 있다. 상기 계면활성제는 도데실황산나트륨(SDS)과 같은 음이온계 계면활성제(anionic detergent)일 수 있다.
상기 전이효소를 비활성화시키는 단계 이후 분석의 질을 높이기 위해 화학적, 생화학적 방법으로 불순물을 제거하는 방법, 특수한 중합효소를 이용해 갭 필링(gap filling), 말단수선(end-repair), 라이게이션(ligation), 가닥 변위(strand displacement)를 하는 단계 등을 추가할 수 있다.
일 구현예에 있어서, 상기 전이효소(transposase)를 비활성화시키는 단계 이후 증폭을 수행하는 단계를 추가할 수 있다.
상기 증폭을 수행하는 단계에서 사용되는 방법은 한 개 또는 이상의 증폭 방법일 수 있으며, 해당 증폭에 사용되는 방법은 중합효소 연쇄반응(PCR), 가닥 변위 증폭반응(srand-displacement amplification reaction), 회전환 증폭반응(rolling circle amplification reaction), 전사매개 증폭반응(transcription-mediated amplification reaction) 또는 루프매개 증폭반응(loop-mediated amplification reaction) 등이 있다. 바람직하게는 비활성화 이후에 수행해야 하는 정제 과정을 생략하여 전체 반응을 간소화가능하며 비활성화의 효율이 다소 낮더라도 전이효소를 추가적으로 비활성화 시킬 수 있다는 측면에서 상기 증폭 방법은 PCR일 수 있다. 이때 상기 PCR에 사용되는 중합효소는 5' to 3' 핵산 외부 가수분해효소 활성(5' to 3' exonuclease activity), 가닥 변위 이동(strand displacement) 기능 또는 프루프 리드(proof read) 기능을 가질 수 있다.
일 구현예에 있어서, 상기 NGS 차세대 염기서열 분석 라이브러리를 병렬적 염기서열 분석 방법으로 분석할 수 있다. 상기 병렬적 염기서열 분석 방법은 sequencing by synthesis, sequencing by ligation, nanopore 등을 이용한 것일 수 있다. 이때 NGS 로데이터(raw data)를 드 노보 어셈블리(de novo assembly)하여 상기 핵산 분자의 염기서열을 결정하는 단계를 포함할 수 있다. 전이효소 처리된 핵산 분자의 NGS 로데이터는 대상 분자가 무작위로 파편화 되어있는 형태이기에 그 자체로만은 원래 핵산 분자의 염기서열을 파악하기가 어려운 경우가 대부분이다. 또한 일반적으로 서열을 알지 못하는 분자를 분석하는 경우가 대부분이어서 레퍼런스(reference) 기반의 분석 역시 불가능한 경우가 많다. 따라서 NGS 로데이터들 사이의 유사한 서열을 매개로 유사도 높은 서열들을 소프트웨어적으로 이어서 전체 서열을 추정할 수 있는 드 노보 어셈블리 기법을 적용하는 것이 바람직하다.
상기 병렬적 염기서열 분석 방법의 결과인 염기서열 정보들을 서로 이어 붙여 원래의 염기서열을 계산하는 단계 이전에 NGS 로데이터(raw data)를 가공하는 단계를 더 포함할 수 있다. NGS 로데이터를 가공하는 단계는 품질 점수(quality score)에 따른 필터링(filtering), 부산물(side product)로 의심되는 서열(sequence)의 제거, 중복(duplicate) 제거, 오류 정정(error correction) 방법과 기계학습(machine learning)을 이용한 최적의 조건 설정하는 단계가 포함될 수 있다.
본 발명에서 제시된 DNA 바코딩 및 분석 방법은 별도의 DNA 전처리 과정이 필요하지 않은 방법으로서, 트랜스포좀(transposome)을 이용해 바코드 DNA를 부착하여 대량의 샘플을 병렬적으로 처리하여 시간과 노동력 및 비용을 절약할 수 있는 효과를 최대화시킬 수 있다. 이는 분석의 질을 높이는 화학적, 생화학적 단계를 추가하거나 분석된 NGS 로데이터를 가공하는 단계를 추가함으로써 가능하다. 또한, 트랜스포좀(transposome)이 활성화될 수 있는 용액과 기혼합한 상태로 사용할 수 있어 추가적인 시간과 노동력을 효과적으로 단축시킬 수 있다.
또한 본 발명의 다른 측면에 의하면, 전이효소와 단 한 종류의 염기서열을 갖는 외부 DNA가 결합된 단 한 종류의 트랜스포좀; 상기 단 한 종류의 염기서열을 포함하되 그 5' 방향에는 서로 다른 염기서열을 갖는 서로 다른 두 종류의 프라이머; 및 DNA 중합효소로 구성된 간소화된 차세대 염기서열 분석 라이브러리 전처리 키트가 제공된다.
일 구현예에 따르면, 상기 키트는 NGS 로데이터(raw data)를 드 노보 어셈블리(de novo assembly)하여 상기 핵산 분자의 염기서열을 결정하는 소프트웨어를 더 포함할 수 있다.
상기 키트는 각 단계 반응물을 다음 단계 시약과 혼합하였을 때 해당 단계의 버퍼 조성이 최적의 조건을 이루도록 함으로써, 공정의 연속성 및 효율성을 증대할 수 있으며, 다음과 같은 장점을 가질 수 있다. 일반적으로 효소의 반응 효율을 최적화하기 위해서는 여러 성분을 일정한 비율로 배합한 버퍼를 사용해야 한다. 그리고 이러한 성분 배합의 비율이 최적값으로부터 일정 수준 이상의 차이를 갖게 되면 원하는 반응이 일어나지 않게 된다. 다양한 효소들은 각각 최적의 버퍼 조성을 가지고 있고 이는 일반적으로 서로 다르기에, 다양한 효소 반응을 연속적으로 수행하기 위해선 일반적으로 효소 반응 사이에 정제 과정을 추가해야하며 이는 공정의 효율성을 저해하는 가장 큰 요인이다. 만약 N번째 단계 효소 반응의 결과물을 N+1번째 단계 효소 반응 시약에 더했을 때 버퍼의 조성이 최적의 조건이 되도록 N+1번째 효소 반응의 버퍼를 구성 및 준비해둘 수 있다면, 효소 반응 사이에 존재하는 정제 과정을 생략하여 공정의 연속성 및 효율성을 높일 수 있다.
이하 본 발명의 다양한 구현예들에 대하여 보다 상세히 설명하고자 한다.
본 발명의 일 구현예에 따르면 간소화된 차세대 염기서열 분석 라이브러리 전처리 방법이 제공된다.
먼저 핵산 양의 조절에 필요한 용액으로는 물, TE buffer를 포함할 수 있다. 특별한 목적을 제외하고는 핵산 양의 조절은 물 혹은 바코딩에 최적화된 용액을 사용하는 것이 유리하다.
상기 핵산의 양은 dsDNA를 기준으로 0.001 ng 내지 1 ug, 바람직하게는 0.01 ng 내지 100 ng, 더욱 바람직하게는 0.1 ng 내지 10ng의 농도를 가질 수 있다. 핵산 양의 조절은 사용하는 기결합되어 있는 전이효소(transposase)와 외부 DNA 복합체가 바코딩할 수 있는 양의 범위가 제한되어 있기 때문인데, 복합체의 양을 추가 혹은 감소시켜 최적의 조건을 별도로 구할 수 있다.
상기 분석하고자 하는 핵산이 들어있는 용액은 1) 세포를 배양할 수 있는 용액(DMEM, RPMI, IMDM 등)과 박테리아를 배양할 수 있는 용액(LB, SOC, SB 등), 2) 생화학 반응이 일어나는 용액(PCR, ligase, restriction enzyme, TOPO, gibson assembly, DNase, RNase 등), 3) 화학물질이 들어있는 용액(EtOH, EDTA, agarose gel dye, PEG, TE 등), 4) 미세 구조물이 섞여 있는 용액(bead, agarose gel, microstructure 등), 5) 살아 있는 세포 및 박테리아가 들어있는 용액 등 일반적인 생물학적인 실험에 사용되는 용액 등을 포함할 수 있다.
상기 생화학 반응이 일어나는 용액 중 PCR이 진행된 용액의 경우 일반적인 PCR에 필요한 dNTP, 각종 염기, EDTA, 프라이머(primer), 중합효소(polymerase) 뿐만 아니라 PCR이 효율적으로 일어날 수 있게 도와주는 인핸서(enhancer) (PEG, helper 등), PCR 후 gel에 로딩하기 쉽게 도와주는 용액(sucrose 와 dye 등), 각종 유사한 증폭 방법인 RCA(rolling circular amplification), MDA(multiple displacement amplification), PCA(polymerase cycling assembly)에서 사용된 효소(enzyme)과 세부요소들을 포함할 수 있다.
다양한 종류의 샘플에 전처리 없이 샘플의 파편화 및 어댑터를 부착하는 방법으로 all-in-one-mix 버퍼를 이용할 수 있다. 해당 버퍼는 다양한 종류의 샘플에 존재하는 용액이 첨가되더라도 뒷단의 트랜스포좀(transposome)을 이용한 샘플의 파편화 및 어댑터 부착 반응을 유지시킬 수 있는 완충제 역할을 하는 버퍼 조성을 포함한다. 뒷단의 파편화 및 어댑터 부착 반응을 가능케 하는 해당 완충 버퍼 조성의 역할은 크게 1) pH 조절과 2) 파편화 및 어댑터 부착 반응을 방해하는 인자들의 제거로 구분 지을 수 있다. pH를 조절할 수 있는 버퍼(buffer)를 구성할 수 있는 버퍼의 조성으로 citric acid, acetic acid, KH2PO4, CHES, borate, Na2HPO4, TAPS ([Tris(hydroxymethyl)methylamino]propanesulfonic acid), Bicine (2-(Bis(2-hydroxyethyl)amino)acetic acid), Tris (Tris(hydroxymethyl)aminomethane) or, (2-Amino-2-(hydroxymethyl)propane-1,3-diol), Tricine (3-[N-Tris(hydroxymethyl)methylamino]-2-hydroxypropanesulfonic acid), TAPSO (3-[N-Tris(hydroxymethyl)methylamino]-2-hydroxypropanesulfonic acid), HEPES (4-(2-hydroxyethyl)-1-piperazineethanesulfonic acid), TES (2-[[1,3-dihydroxy-2-(hydroxymethyl)propan-2-yl]amino]ethanesulfonic acid), MOPS (3-(N-morpholino)propanesulfonic acid), PIPES (Piperazine-N,N'-bis(2-ethanesulfonic acid)), Cacodylate (Dimethylarsenic acid), MES (2-(N-morpholino)ethanesulfonic acid) 등이 있으며, 해당 조성 중 한가지 혹은 그 이상의 조합으로 구성이 가능하다. 핵산 샘플과 파편화 및 어댑터 부착반응에 유리한 pH 범위인 pH 7.5~9 사이에 들어올 수 있도록 해야하며, 최적의 결과가 나올 수 있도록 pH 8.5의 all-in-on-mix 버퍼를 구성하는 것이 유리하다.
샘플 종류 및 샘플을 구성하는 용액의 종류에 상관없이 샘플의 파편화 및 어댑터 부착반응이 진행되는 한 종류의 all-in-one-mix 버퍼의 구성이 가장 바람직하나, 예외적으로 샘플을 구성하는 용액이 해당반응을 방해하는 경우 조성을 달리하거나 첨가물을 추가하거나 감소시켜 샘플 종류에 따른 맞춤형 all-in-one-mix 버퍼를 구성할 수 있다.
예를 들어 세포 배양 용액이 첨가된 샘플의 경우, 용액 내 존재하는 과량의 protease가 트랜스포존(transposon)을 degradation시킬 수 있다. 이 때 all-in-one-mix 버퍼에 적정량의 단백질 분해효소 저해인자(protease inhibitor)를 첨가함으로써 세포 배양 용액 내 샘플의 전처리 과정없이 샘플의 파편화 및 어댑터 부착반응을 최적화시킬 수 있다. 또 다른 예시로 세포 내부에 존재하는 지놈을 분석하고자 하는 경우, 세포의 핵 안의 핵산의 한 종류인 DNA와 트랜스포좀(transposome)이 만나서 반응을 하기 위해서는 세포막을 통과하는 트랜스포좀의 반응 효율이 증가하여야 한다. 이 경우 all-in-one-mix 버퍼에 세포막을 통과하는데 도움을 줄 수 있는 계면활성제제(detergent) 혹은 프로테아제(protease) 등을 첨가할 수 있다. 혹은 세포를 구성하는 막을 용해시키기 위한 시약(reagent)을 all-in-one-mix 버퍼에 추가하여 transposome과 세포 내부의 핵산의 한 종류인 DNA의 파편화 및 어댑터 부착반응의 효율을 증가시킬 수 있다.
생물체에 자연적으로 존재하는 트랜스포존(transposon)은 유전체 내에서 DNA 위치를 다른 곳으로 이동시킬 수 있는 일명 점핑 유전자(jumping gene)으로 불린다. 트랜스포존은 작용기작에 따라 크게 두 가지로 분류된다. 잘라내기-붙여넣기 작용 기작으로 알려진 Class I으로 분류되는 transposon은 타겟하는 핵산의 한 종류인 DNA의 양 말 단의 3'와 5' 부분을 모두 잘라낸 후 외부 DNA를 삽입하며, 복사-붙여넣기 작용 기작으로 알려진 Class ll는 5' 부분은 잘라내지 않고 3' 부분만 끊어내어 외부 DNA를 매달고 있다가 복제 과정을 통해 삽입한다.
본 발명에서 사용하는 트랜스포존(transposon)은 Class I에 해당되며 Class I분류에 속하는 transposon으로는 Tn3, Tn5, Tn7, Tn10 등이 있다. 아래 표 1에 본 발명에서 사용한 트랜스포존의 Genebank accession no.를 나타내었다.
TYPE Genebank accession no.
Tn5_WT QED79438.1
Tn5_mut ADY68344.1
Tn5_plas HQ908071.1
Tn10 QSX26046.1
Tn7_TnsA QKN75220.1
Tn7_TnsB QKN75219.1
Tn7_TnsC QKN75218.1
Tn10 AAG48301.1
일반적으로 이들의 작용기작은 같은 분류에 속하기에 어느 것을 사용하여도 무방하나 무작위적으로 핵산의 한 종류인 타겟 DNA를 파편화하며 DNA 바코드를 부착하도록 엔지니어링되어 있는 트랜스포존을 사용하는 것이 적합하다. [Reznikoff WS et al, Transposon Tn5, Annu Rev Genet 2008, 42:269-286]샘플 핵산에 전이효소와 외부 DNA, 혹은 그 복합체를 추가하여 DNA 바코드를 화학적으로 연결한다. 일반적으로 전이효소와 외부 DNA, 혹은 그 복합체를 형성하는 방법은 전이효소 인식 부위(Mosaic End, ME)를 이용하여 이루어지는데 19bp 길이의 전이효소 인식 부위 염기서열로 이루어진 올리고뉴클레오티드와 그 상보적인 올리고뉴클레오티드를 어닐링(annealing)한 뒤 어닐링된 dsDNA를 전이효소에 조립(assemble)시켜 복합체인 트랜스포좀(transposome)을 형성할 수 있다. 트랜스포좀이 샘플 핵산에 바인딩하면 샘플 핵산과 5' transferred strand이 연결되면서 트랜스포좀이 붙어 있고, 3' non transferred strand에는 9bp gap이 만들어진 채로 파편화 및 어댑터 부착 반응이 진행된다. 상기 5' transferred strand는 샘플 핵산과 백본(backbone)이 연결된 가닥(strand)을 의미하며 3' non transferred strand는 nick이나 gap 등으로 인해 샘플 핵산과 연결되지 않은 채 5' transferred strand에 수소결합으로 붙어 있는 가닥을 의미한다. 샘플 핵산은 외부 DNA와 트랜스포좀과 만나기 전까지 double-stranded DNA 형태를 유지하여야 한다. 복합체의 외부 DNA가 샘플 핵산에 랜덤하게 혹은 시퀀스 특이적으로 삽입되며 5'-말단과 3'-말단에 외부 DNA가 태그되어 파편화된 핵산 분자들이 형성된다. 상기 외부 DNA가 삽입에 의해 파편화된 핵산 분자들은 5'-말단과 3'-말단에 한 종류 혹은 두 종류 이상의 외부 DNA가 삽입되어 태그될 수 있다. 상기 외부 DNA는 한 가지 또는 두 가지 이상의 프라이머(primer)를 이용해 증폭할 수 있는 범용 서열(universal sequence)을 포함한다. 상기 universal sequence를 이용하는 경우 해당 영역을 타겟하는 primer를 이용하여 5'-말단과 3'-말단에 태그된 파편화된 샘플들을 증폭을 하는 데 용이하다. 또한 다양한 NGS 장비 호환이 가능한 primer 디자인을 적용할 수 있으며 이런 경우 NGS 라이브러리 준비 단계를 단순화시킬 수 있는 장점을 갖는다.
외부 DNA는 파편화된 샘플 핵산을 동정할 수 있는 바코드 서열(barcode sequence)을 한 개 혹은 2 이상을 가질 수 있다. 해당 바코드 서열의 경우 서로 다른 서열 및 서로 다른 길이를 가질 수 있다. 서로 다른 길이와 다른 서열을 갖는 바코드 서열의 조합이 많은 수의 샘플을 처리하기 위한 다중분석 측면에서는 가장 유리할 수 있다.
하지만 여러 개의 바코드를 트랜스포좀 형성 단계부터 사용하는 경우 많은 수의 올리고뉴클레오타이드를 필요로 한다는 단점이 존재한다. 이는 올리고뉴클레오타이드 합성, 트랜스포좀 형성, 트랜스포좀과 샘플 DNA의 결합 등 여러 단계에서 비용 증가의 원인이 될 수 있다. 따라서 바람직하게는 별도의 바코드나 어댑터 서열 없이 단 한가지 ME 서열만을 사용하고 한 종류의 트랜스포좀만을 사용하는 것이 병렬처리를 위해서는 가장 효과적일 수 있다.
샘플 핵산과 바인딩한 전이효소(transposase)는 별도의 추가적인 화학반응이 일어나기 전까지 핵산과 전이효소가 연결된 복합체(complex)형태를 유지한다. 전이효소가 바인딩되어 있는 복합체 상태에서는 추후 PCR 증폭과정을 수행하기 위해 프라이머가 바인딩할 수 없음으로 단백질 변성(protein denature)을 유도할 수 있는 세정제(detergent) 화학 시료를 추가하거나 단백질을 분해하는 효소인 프로테아제(protease)를 이용하여 전이효소를 핵산으로부터 분리할 수 있다.
세포벽을 분쇄하는 화학적 용도로 사용되는 세정제(detergent)는 친수성 머리(hydrophilic head)의 전하(charge) 여부에 따라 이온성(ionic)과 비이온성 세정제(non-ionic detergent)로 나뉜다. 보다 자세하게는 음전하(negative charge)를 띠는 것은 음이온(anionic), 양전하(positive charge)를 띠는 것은 양이온(cationic), 그리고 두 가지 모두를 가지는 것은 양쪽성 이온(zwitterionic)으로 구분된다. 전하(charge)에 따라서 세포벽을 분쇄하는 정도가 다른데 일반적으로 비이온성 세정제(non-ionic detergent)는 마일드(mild)하기 때문에 세포벽을 분쇄하여 단백질을 추출하고자 하는 목적에 주로 사용되고 그렇지 않은 경우에는 세포벽을 강력히 파괴하는 음이온 세정제(anionic detergent)가 흔히 사용된다. 대표적인 음이온 세정제(anionic detergent)로는 Sodium dodecyl sulphate (SDS)가 있다. [Mohammed Shehadul Islam et al, A review on macroscale and microscale cell lysis method, micromachines 2017, 8, 83]
트랜스포좀의 반응은 중단시키면 이후 각 샘플별로 인식표를 붙여주는 단계를 필요로 한다. 일반적으로 인식표는 DNA 바코드를 의미하며 이는 인덱스(index) 등의 명칭으로 불리기도 한다. 바코드를 붙이는 과정은 중합효소를 이용하여 진행되며 대표적으로 PCR을 예로 들 수 있으나, MDA 등의 다른 방법도 사용 가능하다.
상기 과정이 시작되기 이전의 핵산의 염기서열 구조는 도 2와 같다. 도 2는 트랜스포좀을 사용한 후 샘플 핵산 형태의 모식도이다.
일반적으로 ME 서열(ME sequence)에 어닐링(annealing)하는 프라이머를 이용해 PCR방식으로 증폭하게 된다. 하지만, Tn5로 파편화된 유전물질은 양쪽의 ME 서열(ME seqeunce)과 역상보적인 상태(reverse complement된 상태)의 ME sequence끼리 헤어핀(hairpin)을 이루고 있어 일반적인 프라이머는 이 헤어핀 구조보다 우세하게 프라이밍(priming)할 수 없고, 이에 PCR 증폭 효율이 매우 낮다. 도 3은 헤어핀 구조에 의한 프라이밍 효율 저하를 나타낸 것이다. 본 발명에서는 NGS 어댑터 서열(adapter sequence)을 부착하는 primer를 변형시켜 해당 hairpin 구조보다 우세하게 프라이밍함으로써 PCR 증폭 효율을 극적으로 향상시켰다.
NGS 어댑터 서열(adapter sequence)을 부착하는 프라이머의 ME sequence 다음 3'에 N sequence를 추가하였다. 이 추가적인 N sequence는 랜덤(random)한 불활성 서열(inert sequence)에 바인딩(binding)하여 프라이머가 템플릿(template)의 ME sequence 외에 추가적으로 더 바인딩할 수 있는 영역을 발생시킨다. 이는 헤어핀 구조보다 더 높은 결합력(binding force)을 프라이머와 템플릿 사이에 발생시켜 프라이머가 헤어핀 구조를 파훼하고 템플릿에 프라이밍되어 신장(elongation)을 진행할 수 있다. 도 4는 프라이밍(priming) 효율을 증가할 수 있는 방법의 예시이다. 도 4를 참조하면, 프라이머에 0보다 많은 N 서열을 추가하여 프라이머의 프라이밍 효율을 증가시킬 수 있음을 나타낸다. N sequence는 인서트(insert)의 랜덤 서열(random sequence)에 바인딩(binding)되는 것을 목적으로 하여 0개보다 더 많아야 PCR 효율 증가효과를 확인할 수 있다. 단, N sequence의 수가 증가하면 염기서열 종류의 경우의 수가 증가하며 특정 염기서열을 갖는 프라이머의 양이 4의 N제곱만큼 감소하기 때문에 사용 목적에 맞춰 N의 개수를 선택하는 것이 바람직하다.
다음의 실험을 통해 N sequence의 추가가 PCR 증폭 효율을 극적으로 높일 수 있음을 확인하였다. N sequence의 개수가 0, 1, 2개인 primer를 각각 이용해 Tn5로 동일하게 파편화된 템플릿 핵산을 9가지의 서로 다른 index로 PCR 하였다. 사이클은 총 30회였고 변성 온도(denaturation temperature) - 95℃, 어닐링 온도(annealing temperature) - 60℃, 신장 온도(elongation temperature) - 72℃이다.
도 5는 N sequence의 개수에 따른 PCR 증폭 효율과 NGS 리드(read)의 균일도를 나타낸다. 도 5를 참조하면, N sequence의 개수를 증가시킴에 따라 PCR 증폭 효율이 증가하는 것을 확인할 수 있다. 또한, 같은 N sequence 개수인 PCR 증폭물을 동량 풀링(pooling)하여 NGS를 수행하면, 인덱스(index) 간 증폭 효율 차이도 감소하는 것을 확인할 수 있다. NGS 분석 결과를 활용하는 대부분의 분야에는 최소한의 read를 충족해야 분석에 사용할 수 있는데 index 간 증폭 효율 차이가 클수록 가장 적은 증폭 효율을 보이는 index의 최소한의 리드를 충족하기 위해 시퀀싱(sequencing)을 불필요하게 추가적으로 수행해야 하는 경우가 발생한다. 또는, 개별 샘플별로 농도 측정을 수행한 후 증폭 효율에 맞춰 pooling하는 방법이 있는데, 이 방법 역시 추가적인 노동력이 발생하기 때문에 비효율적이다. 본 발명의 방법을 사용해 NGS adapter sequence를 부착하면 불필요한 sequencing 혹은 샘플 별 농도 측정을 수행을 줄일 수 있다.
핵산 샘플들은 개별적으로 파편화 및 어댑터가 부착이 되어야 하며, 뒷 단의 실험인 PCR 단계도 개별적으로 증폭이 진행하는 가장 일반적인 방법이다. 그러나 핵산 샘플들을 개별 단위로 파편화 및 어댑터 부착을 필수적으로 진행해야 하는 것에 반해 뒷 단의 실험인 PCR 단계는 많은 수의 파편화 및 어댑터가 부착된 샘플들을 풀링하여 동시에 PCR 단계를 이용하여 증폭할 수 있다. 트랜스포좀을 이용하여 파편화 및 어댑터가 부착된 샘플들을 풀링하여, PCR 증폭 단계를 거칠 수 있지만 각 파편들 혹은 샘플들을 개별적으로 증폭하는 것이 PCR 단계에서의 증폭 바이어스(bias) 발생 방지 및 키메라 서열(chimera sequence) 생성 억제 측면에서 유리하다. 그러나 트랜스포좀을 이용한 파편화 및 어댑터 부착 반응을 진행해야 하는 핵산 샘플들의 수가 증가하거나 개별 핵산의 샘플의 길이가 길어지는 경우, 각 샘플을 개별 반응을 하는 것이 비용과 노동력 및 시간 측면에서 비효율적이다. 다양한 파편화된 샘플들을 증폭하는 PCR 과정에서 PCR 증폭 bias 및 chimera sequence 생성 억제를 하기 위해서 방법으로 개별 파편화된 샘플들이 독립적인 공간에서 PCR 반응을 진행하는 방법을 적용할 수 있다. 개별 파편화된 샘플들을 독립적인 공간에서 증폭시키기 위해 각 샘플들을 미세 공간으로 분리하여 개별 반응을 진행시키는 방법이 있으며, 예로는 미세구조물을 이용하는 방식 또는 에멀젼(emulsion)을 이용한 방식 등이 있다. 해당 미세 공간에서의 개별 반응의 공간은 작게는 적절하게는 서브 나노리터(sub nanoliter) 수준이며 작게는 서브 피코리터(sub picoliter)에서 크기는 서브 마이크로리터(sub microliter)까지 가능하다. PCR 단계에서 다양한 종류의 중합효소(plymerase)가 사용될 수 있으며 Taq DNA polymerase, Pfu DNA polymerase, isothermal DNA polymerase 등 특정 계열의 polymerase에 국한되지 않고 다양한 계열의 polymerase 사용이 가능하다. PCR 단계에서 PCR 단계에서의 PCR 프로토콜은 단일 스테이지, 멀티 스테이지 등으로 구분될 수 있다. 일반적인 PCR 프로토콜의 경우, 변성(denaturing), 어닐링(annealing), 연장(extension)의 세 스텝으로 구성된 하나의 스테이지를 이용하여 해당 싸이클을 반복하여 증폭한다. 해당 일반적인 PCR 프로토콜에서 하나의 스테이지를 이용하는 이유는 사용되는 프라이머가 온전하게 모든 영역이 타겟 DNA에 바인딩할 수 있는 온도를 기반으로 하여 annealing 온도(Ta)를 설정하기 때문이다. 반면 바코드 서열이 추가된 primer를 사용하는 경우, 증폭을 위한 초기 싸이클에서 바코드 서열을 포함한 primer의 모든 영역이 타깃 DNA에 바인딩 하는 것이 아닌 바코드 서열을 제외한 primer의 일부 영역만 바인딩 하기에 primer 바인딩을 위한 Ta가 다르게 된다. 고로 바코드 서열이 추가된 primer를 사용하여 파편화 및 어댑터가 부착된 샘플들을 증폭하는 경우, 하나의 Ta 값을 갖는 단일 스테이지가 아닌 여러 Ta 값을 갖는 멀티 스테이지의 PCR 프로토콜을 이용하여 증폭하는 것이 높은 PCR 증폭 효율을 얻는데 바람직하다.
상기 DNA 바코드가 연결된 핵산 분자의 염기서열은 병렬적 염기서열 분석 방법으로 분석한다. 병렬적 염기서열 분석의 예는 Illumina 사의 HiSeq, MiSeq, Life Techonology 사의 Ion Torrent, Roche 사의 454 등으로, sequencing by synthesis, sequencing by ligation, nanopore sequencing 등이 전반적으로 사용 가능하다.
병렬적 염기서열 분석 방법으로 데이터 처리된 파편화된 핵산 분자들은 다시 DNA 바코드로 분류를 하고 특정 소프트웨어를 사용하여 파편화되기 전 본래의 염기서열 구조로 복구될 수 있다. 이와 같이 시퀀싱한 리드들이 중첩되는 서열로 새롭게 어셈블리를 진행하는 것을 de novo assembly로 불리며 이를 위해 상용화된 소프트웨어를 사용할 수도 있으며 여러 컴퓨터 언어를 이용하여 다양한 조건을 변화시키며 분석할 수도 있다.
트랜스포좀의 외부 DNA는 transposase 전위 효소 인식 부위(Mosaic End, Me)를 이용하며 19bp 길이의 전위 효소 인식 부위 염기서열, universal sequence, DNA barcode sequence가 포함된 올리고뉴클레오티드와 전위 효소 인식 부위 염기서열만으로 구성된 올리고뉴클레오티드를 어닐링시킨 이중가닥 DNA 형태로 구성되어 있다. 트랜스포좀은 샘플 DNA에 바인딩하여 5' transferred strand에 붙어 있고, 3' non transferred strand에는 9bp gap이 만들어진 채로 파편화 및 어댑터 부착 반응이 진행된다. 이 때 만들어지는 파편화 및 어댑터가 부착된 샘플은 양쪽 5'-끝단에 범용 서열(universal sequence)를 오버행(overhang) 구조로 가지며 양쪽 가닥(strand)에 9bp gap을 형성한다. 양 끝에 달린 universal sequence를 이용하여 PCR 증폭을 하기 위해선 양쪽 5'-끝단의 overhang 구조에 상보적인 시퀀스를 달아주는 과정을 필요로 한다. 해당 과정은 Taq 계열의 DNA polymerase, Pfu 계열의 polymerase, phi29 DNA polymerase 등 다양한 종류의 polymerase의 5'-3' 핵산 외부 가수분해효소 활성(5'-3' exonuclease activity) 혹은 가닥 변위 이동(strand-displacement) 기능을 이용하여 non transferred strand의 ME 시퀀스를 제거 혹은 밀어내며 양 쪽 5'-끝단의 overhang 구조에 상보적인 시퀀스를 달아줄 수 있다. 또는 리가제(ligase)와 올리고(oligo)를 이용하여 9bp gap과 5'-끝단의 overhang 구조에 상보적인 시퀀스를 달아주는 사전 작업을 진행할 수 있다. 해당 사전 작업을 진행하지 않거나 사전 작업의 효율이 낮은 경우 PCR 단계에서 PCR 효율의 감소 및 키메라(chimera) 물질이 생성된다는 단점을 갖는다. 이를 해결할 수 있는 방법으로 strand-displacement activity를 갖는 DNA polymerase, 5'-3' exonuclease activity를 갖는 DNA polymerase, DNA ligase, 핵산 분해 효소(nuclease) 등을 사용할 수 있다.
상기 NGS 로데이터를 가공하는 단계는 NGS 로데이터 중 앞 부분에서 transposase 전위 효소 인식 부위를 인식하는 단계, 뒷 부분에서 transposase 전위 효소 인식 부위를 인식하는 단계, 샘플 핵산의 파편화 및 어댑터 부착반응에 사용한 외부 DNA 바코드를 인식하는 단계, 상기 인식한 외부 DNA 염기서열들을 제거하는 단계를 포함할 수 있다. 이 후 외부 DNA 바코드를 이용해 같은 샘플 핵산에서 나온 파편화된 핵산의 염기서열 정보를 수집하는 단계, 수집된 여러 개의 파편화된 핵산의 염기서열 정보를 연결하여 기존 샘플 핵산의 염기서열 정보를 복원하는 단계를 포함할 수 있다.
상기 염기서열 정보를 수집하는 단계에서 염기서열 분석 점수(quality score)를 기준으로 높은 점수의 NGS 로데이터만 사용하거나, homopolymer 혹은 반복적인 pattern을 갖는 DNA 염기서열 등과 같이 복원 과정에 방해가 될 수 있는 NGS 로데이터를 제거하거나, 적절한 양의 NGS 로데이터를 랜덤 혹은 특정 규칙으로 선별하는 과정을 포함하는 것이 바람직하다. 상기 높은 점수의 NGS 로데이터를 선택하는 분석 점수의 기준, 상기 호모폴리머(homopolymer)와 반복적인 패턴(pattern)을 갖는 NGS 로데이터를 제거하는 정도, 상기 선별하는 NGS 로데이터의 양은 샘플 핵산이 들어있는 용액에 따라 조절될 수 있다. 또한, 복원된 핵산의 전체 염기서열 혹은 각 올리고뉴클레이타이드에 복원된 정도를 수치화 하는 단계, 상기 수치화 된 값을 이용해 샘플 핵산과 가장 유사한 염기서열을 선택하는 단계를 포함할 수 있다.
상기 NGS 로데이터로부터 핵산의 염기서열 정보를 가공하는 단계에 사용되는 모든 수치들은 기계학습(machine learning)을 이용해 샘플별로 최적화시킬 수 있으며, 이는 샘플 핵산이 들어있는 용액, 샘플 핵산의 길이, 샘플 핵산의 상태(linear DNA, circular DNA 등), 샘플 핵산의 양에 따라 최적화시키는 것이 바람직하다.
상술한 방법에 따르면, 트랜스포좀(transposome)을 이용해 바코드 DNA를 부착하여 대량의 샘플을 병렬적으로 처리하여 시간과 노동력 및 비용을 절약할 수 있다.
실시예
본 발명의 방법에 따라 간소화된 NGS 라이브러리의 제조
(1) 핵산 분자 제공 및 품질 검증
본 발명자들은 NGS 라이브러리 제조가 가능한지 검증을 하기 위한 실험에 앞서 염기서열 분석 대상이 되는 핵산 분자의 존재 여부를 확인하고자 하였다. 도 6은 아가로즈(agarose) 1% 젤(gel)을 사용하여 총 24개 샘플에 대해 전기영동을 수행한 결과이다. 도 6을 참조하면, 전기영동 결과로부터 24개의 샘플 모두 1kbp 이상의 길이를 가지며 일정량 이상 존재하는 것을 확인할 수 있다.
(2) 파편화된 핵산 분자의 생성
상기 핵산 분자와 트랜스포좀을 혼합하여 양 말단이 상기 한 종류의 염기서열로 구성된 파편화된 핵산 분자를 생성하였다. 상기 파편화된 핵산 분자를 서로 다른 서열의 프라이머로 부유화(enrichment)하여 차세대 염기서열 분석 라이브러리를 생성하였다.
도 7은 상기 대상 핵산 분자 총 24개의 차세대 염기서열 분석 라이브러리를 아가로즈(agarose) 1% 젤(gel)을 사용하여 전기영동을 수행한 결과이다. 도 7을 참조하면, 최초 핵산 분자의 길이와 관계없이 모두 유사한 형태의 라이브러리가 제작되었으며 NGS 로데이터 상에 품질 문제나 데이터 양 편차 문제를 야기할 수 있는 증폭 편향(bias) 등의 문제가 발생하지 않았음을 확인할 수 있다.
도 8은 총 24개의 차세대 염기서열 분석 라이브러리를 하나 혹은 두 개로 모아(pooling) 동일한 조건으로 전기영동을 수행 후 크기 선별(size selection)을 위한 겔 추출(gel extraction)을 수행한 결과이다. 크기 선별은 약 350~600bp의 길이에 대해 수행하였으며, 선택한 길이는 NGS 라이브러리의 제작 목적에 따라 달라질 수 있다. 각각의 차세대 염기서열 분석 라이브러리의 형태가 모두 유사하므로 이를 하나 혹은 두 개의 반응 용기에 모아 다루는 것이 가능하며, 라이브러리의 형태에 차이가 있는 경우(예를 들어 증폭 편향이나 길이 편향이 발생한 경우) 각각의 라이브러리를 모두 별도로 처리해주어야하기 때문에 이후의 정제 과정이 번거로워진다. 반면 제안된 방법을 사용하는 경우 겔 추출(gel extraction), 비드 정제(bead purification) 등의 정제 과정을 하나 혹은 두 개의 반응으로 간소하게 수행할 수 있다는 장점이 있다.
도 9는 라이브러리 제작이 완료되고 NGS를 수행하기 직전의 용액 내 라이브러리 분자들의 길이와 농도를 Agilent사 Tapestation 장비로 측정한 결과이다. 도 9의 결과로부터, 원하는 길이의 라이브러리 분자들만이 성공적으로 정제되었음을 확인할 수 있다.

Claims (20)

  1. 핵산 분자를 제공하는 단계;
    전이효소와 단 한 종류의 염기서열을 갖는 외부 DNA를 결합하여 트랜스포좀을 생성하는 단계;
    상기 핵산 분자와 상기 트랜스포좀을 혼합하여 양 말단이 상기 한 종류의 염기서열로 구성된 파편화된 핵산 분자를 생성하는 단계; 및
    상기 파편화된 핵산 분자를 서로 다른 서열의 프라이머로 부유화(enrichment)하여 차세대 염기서열 분석 라이브러리를 생성하는 단계를 포함하는 간소화된 차세대 염기서열 분석 라이브러리 전처리 방법.
  2. 제1 항에 있어서,
    상기 핵산 분자는 이중 가닥 핵산 분자인 방법.
  3. 제2 항에 있어서,
    상기 이중 가닥 핵산의 이중 가닥 중 한 가닥은 DNA인 방법.
  4. 제1 항에 있어서,
    상기 단 한 종류의 염기서열을 갖는 외부 DNA는 이중 가닥 DNA인 방법.
  5. 제4 항에 있어서,
    상기 이중 가닥 DNA 중 한 가닥의 DNA는 3' 말단에 인산기가 결합된 방법.
  6. 제1 항에 있어서,
    상기 서로 다른 서열의 프라이머는 상기 단 한 종류의 염기서열과 유사한 서열을 포함하며 그 서열의 5' 방향에 최소 1nt 이상의 서로 다른 서열을 포함하는 방법.
  7. 제6 항에 있어서,
    상기 유사한 서열의 유사도는 상기 단 한 종류의 염기서열 기준 80% 이상인 방법.
  8. 제7 항에 있어서,
    상기 유사한 서열의 3' 방향에 1nt 이상의 염기를 추가적으로 포함하는 방법.
  9. 제8 항에 있어서,
    상기 추가된 1nt 이상의 염기는 A, G, T, C, U, I, 염기 유사체(base analogues) 중 최소 두 개 이상이 혼합된 염기인 방법.
  10. 제7 항에 있어서,
    상기 유사한 서열의 3' 방향에 2nt 이상의 염기를 추가적으로 포함하는 방법.
  11. 제10 항에 있어서,
    상기 추가된 2nt 이상의 염기는 A, G, T, C, U, I, 염기 유사체(base analogues) 중 최소 두 개 이상이 혼합된 염기인 방법.
  12. 제1 항에 있어서,
    상기 서로 다른 서열의 프라이머는 상기 단 한 종류의 염기서열과 유사한 서열을 포함하며 유사한 서열의 3' 방향에 1nt 이상의 염기를 추가적으로 포함하는 방법.
  13. 제12 항에 있어서,
    상기 추가된 1nt 이상의 염기는 A, G, T, C, U, I, 염기 유사체(base analogues) 중 최소 두 개 이상이 혼합된 염기인 방법.
  14. 제1 항에 있어서,
    상기 전이효소를 비활성화시키는 단계를 더 포함하는 방법.
  15. 제1 항에 있어서,
    상기 단 한 종류의 염기서열을 갖는 외부 DNA는 단 한 가지 ME 서열만을 포함하는 것인 방법.
  16. 제1 항에 있어서,
    상기 파편화된 핵산 분자를 생성하는 단계에서 무작위적으로 상기 핵산 분자를 파편화하며 DNA 바코드를 부착하도록 엔지니어링되어 있는 트랜스포존을 사용하는 것인 방법.
  17. 제1 항 내지 제16 항 중 어느 한 항에 따른 방법으로 얻어진 상기 차세대 염기서열 분석 라이브러리를 젤 전기영동 또는 비드를 사용하여 정제하는 단계가 더 추가되는 것인 방법.
  18. 제1 항 내지 제16 항 중 어느 한 항에 따른 방법으로 얻어진 상기 차세대 염기서열 분석 라이브러리를 병렬적 염기서열 분석 방법으로 분석하되, NGS 로데이터(raw data)를 드 노보 어셈블리(de novo assembly)하여 상기 핵산 분자의 염기서열을 결정하는 단계를 포함하는 병렬적 염기서열 분석 방법.
  19. 전이효소와 단 한 종류의 염기서열을 갖는 외부 DNA가 결합된 단 한 종류의 트랜스포좀;
    상기 단 한 종류의 염기서열을 포함하되 그 5' 방향에는 서로 다른 염기서열을 갖는 서로 다른 두 종류의 프라이머; 및
    DNA 중합효소로 구성된 간소화된 차세대 염기서열 분석 라이브러리 전처리 키트.
  20. 제19 항에 있어서,
    NGS 로데이터(raw data)를 드 노보 어셈블리(de novo assembly)하여 상기 핵산 분자의 염기서열을 결정하는 소프트웨어를 더 포함하는 키트.
PCT/KR2022/005202 2021-04-09 2022-04-11 간소화된 차세대 염기서열 분석 라이브러리 전처리 방법 WO2022216133A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20210046397 2021-04-09
KR10-2021-0046397 2021-04-09

Publications (1)

Publication Number Publication Date
WO2022216133A1 true WO2022216133A1 (ko) 2022-10-13

Family

ID=83546538

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/005202 WO2022216133A1 (ko) 2021-04-09 2022-04-11 간소화된 차세대 염기서열 분석 라이브러리 전처리 방법

Country Status (2)

Country Link
KR (1) KR20220141246A (ko)
WO (1) WO2022216133A1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160141680A (ko) * 2015-06-01 2016-12-09 연세대학교 산학협력단 바코드 서열을 포함하는 어댑터를 이용한 차세대 염기서열 분석 방법
KR20170133270A (ko) * 2016-05-25 2017-12-05 주식회사 셀레믹스 분자 바코딩을 이용한 초병렬 시퀀싱을 위한 라이브러리 제조방법 및 그의 용도
KR20200066648A (ko) * 2017-09-25 2020-06-10 프레드 헛친슨 켄서 리서치 센터 고효율의 표적화된 원위치 게놈 전체 프로파일링
US20200224246A1 (en) * 2019-01-11 2020-07-16 Illumina Cambridge Limited Complex surface-bound transposome complexes

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160141680A (ko) * 2015-06-01 2016-12-09 연세대학교 산학협력단 바코드 서열을 포함하는 어댑터를 이용한 차세대 염기서열 분석 방법
KR20170133270A (ko) * 2016-05-25 2017-12-05 주식회사 셀레믹스 분자 바코딩을 이용한 초병렬 시퀀싱을 위한 라이브러리 제조방법 및 그의 용도
KR20200066648A (ko) * 2017-09-25 2020-06-10 프레드 헛친슨 켄서 리서치 센터 고효율의 표적화된 원위치 게놈 전체 프로파일링
US20200224246A1 (en) * 2019-01-11 2020-07-16 Illumina Cambridge Limited Complex surface-bound transposome complexes

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
AMIRALI KIA, CHRISTIAN GLOECKNER, TRINA OSOTHPRAROP, NIALL GORMLEY, ERIN BOMATI, MICHELLE STEPHENSON, IGOR GORYSHIN, MOLLY MIN HE: "Improved genome sequencing using an engineered transposase", BMC BIOTECHNOLOGY, vol. 17, no. 1, 1 December 2017 (2017-12-01), XP055521632, DOI: 10.1186/s12896-016-0326-1 *

Also Published As

Publication number Publication date
KR20220141246A (ko) 2022-10-19

Similar Documents

Publication Publication Date Title
CN107109401B (zh) 使用crispr-cas系统的多核苷酸富集
US11339431B2 (en) Methods and compositions for enrichment of target polynucleotides
US20230056763A1 (en) Methods of targeted sequencing
US20150284769A1 (en) Reduced representation bisulfite sequencing with diversity adaptors
US20210180050A1 (en) Methods and Compositions for Enrichment of Target Polynucleotides
US20220259646A1 (en) Compositions and methods of labeling nucleic acids and sequencing and analysis thereof
EP3702457A1 (en) Reagents, kits and methods for molecular barcoding
CN108707635B (zh) 用于核苷酸序列修饰的组合物、方法与应用
US20240117343A1 (en) Methods and compositions for preparing nucleic acid sequencing libraries
WO2005075643A1 (en) Method for preparing single-stranded dna
EP4083205A1 (en) Double-stranded nucleic acid molecules and method for removing glass adaptor in dna library by means of same
JP2022535029A (ja) 標的遺伝子領域の柔軟かつハイスループット配列決定
WO2022216133A1 (ko) 간소화된 차세대 염기서열 분석 라이브러리 전처리 방법
US20180100180A1 (en) Methods of single dna/rna molecule counting
US20240271126A1 (en) Oligo-modified nucleotide analogues for nucleic acid preparation
US20200291465A1 (en) Methods for rna sequencing
US20210381027A1 (en) Barcoding of nucleic acids
US20240336913A1 (en) Method for producing a population of symmetrically barcoded transposomes
US20230287396A1 (en) Methods and compositions of nucleic acid enrichment
US20220282398A1 (en) Universal blocking oligonucleotides for reduced off-target hybridization in hybridization capture methods
WO2023215524A2 (en) Primary template-directed amplification and methods thereof
WO2021156295A1 (en) Methods for amplification of genomic dna and preparation of sequencing libraries
CN118064555A (zh) 用于提高多样本文库均一性的方法及应用

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22785041

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22785041

Country of ref document: EP

Kind code of ref document: A1