WO2022107814A1 - 変異プロファイリングのためのrnaプローブ及びその使用 - Google Patents

変異プロファイリングのためのrnaプローブ及びその使用 Download PDF

Info

Publication number
WO2022107814A1
WO2022107814A1 PCT/JP2021/042250 JP2021042250W WO2022107814A1 WO 2022107814 A1 WO2022107814 A1 WO 2022107814A1 JP 2021042250 W JP2021042250 W JP 2021042250W WO 2022107814 A1 WO2022107814 A1 WO 2022107814A1
Authority
WO
WIPO (PCT)
Prior art keywords
rna
sequence
barcode
library
probe
Prior art date
Application number
PCT/JP2021/042250
Other languages
English (en)
French (fr)
Inventor
リチャード 馨 小松
ゲオルグ クリスティアン ウルテル
エフゲニイア エデレヴァ
Original Assignee
株式会社イクスフォレストセラピューティクス
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社イクスフォレストセラピューティクス filed Critical 株式会社イクスフォレストセラピューティクス
Priority to EP21894688.7A priority Critical patent/EP4202056A4/en
Priority to CA3200114A priority patent/CA3200114C/en
Priority to CN202180064091.3A priority patent/CN116234903B/zh
Priority to IL301876A priority patent/IL301876B2/en
Priority to JP2022530711A priority patent/JP7141165B1/ja
Publication of WO2022107814A1 publication Critical patent/WO2022107814A1/ja
Priority to JP2022139711A priority patent/JP2022177068A/ja
Priority to US18/296,375 priority patent/US20240052339A1/en

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures
    • C40B40/04Libraries containing only organic compounds
    • C40B40/06Libraries containing nucleotides or polynucleotides, or derivatives thereof
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1096Processes for the isolation, preparation or purification of DNA or RNA cDNA Synthesis; Subtracted cDNA library construction, e.g. RT, RT-PCR
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Definitions

  • the present invention relates to an RNA probe for mutation profiling, and more particularly to an RNA probe in which a structured barcode sequence is added to an RNA to be analyzed, and a method for analyzing the higher-order structure of RNA using the probe.
  • RNA is a biomolecule that functions as a template for protein synthesis, but on the other hand, RNA itself forms a tightly folded higher-order structure and controls gene expression, intracellular localization of transcripts, and splicing mechanism. ing. Most of these functional RNAs are defined by the fact that the base as a primary sequence has a sterically specific arrangement in structure formation.
  • This RNA higher-order structure includes stem (STEM), stem loop (STEM-LOOP), kissing loop (KISSING-LOOP), multijunction (MULTI-JUNCTION), kink turn (KINK-TURN), pseudoknot (PSEUDOKNOT), 4 It is formed from a combination of various structural motifs such as heavy chain (QUADRUPLEX).
  • mutations such as the SHAPE-MaP method (see Patent Document 1) that selectively modifies the carbon at the 2-position of the sugar of nucleic acid, and the DMS-MaPseq method (see Non-Patent Document 1) using dimethyl sulfate (DMS).
  • Mutational Profiling (MaP) is used to estimate the secondary structure of RNA. The distribution of chemical modifications correlates with the secondary structure of RNA and is recorded as mutations due to position-specific reverse transcription termination, substitution, insertion or deletion in determining the base sequence of complementary DNA.
  • Mutation profiling can simultaneously analyze a wider variety of RNAs by integrating with next-generation sequencing. For example, in the DMS-MaPseq method and the SHAPE-MaP method, a DNA fragment derived from RNA into which a mutation has been introduced is mapped to the reference genome on a computer. By this operation, sequences are sorted under the condition that a plurality of types are mixed, and structure-specific mutations can be simultaneously counted for RNAs of a plurality of regions or different molecules.
  • a plurality of types of mutations in the same molecule can be counted by detecting a direct change in potential given by a modified species by a nanopore sequencer (see, for example, Non-Patent Document 2).
  • a mapping operation for the reference genome to sort the sequences there is a drawback that it is not possible to know which genome position they are derived from when similar sequences are present.
  • gene families, allyl-specific RNA, and the like are examples of genes, allyl-specific RNA, and the like.
  • mutagenesis with RNA modification reagents increases the diversity of similar sequences, thus enhancing this effect.
  • the present invention aims to improve the detection accuracy of mutations, insertions, deletions, etc. of introduced bases without affecting the RNA higher-order structure to be analyzed when performing mutation profiling using an RNA library. Make it an issue.
  • the present invention has been made to solve such a problem, and when performing mutation profiling, each RNA contained in the RNA library has a different unique sequence and suppresses the reaction with a chemical modification agent. A bar code array having such a structure is added.
  • the method for analyzing the higher-order structure of RNA is (a) a step of preparing one or more RNA probes to which a barcode sequence is added to the RNA to be analyzed, (b). ) Includes a step of contacting the RNA probe with the RNA modifier and (c) detecting the position and frequency of the modified base in the sequence of the RNA probe obtained in step (b).
  • This barcode sequence is characterized by having a structure in which the reaction with the RNA modifier is suppressed and not forming a higher-order structure with the RNA to be analyzed.
  • the detection step (c) preferably includes the following steps.
  • step (C1) A step of synthesizing complementary DNA with reverse transcriptase using the mixture of RNA probes obtained in step (b) as a template, (c2) determining the base sequence of the complementary DNA and aligning the base sequence including the barcode sequence. And (c3) a step of detecting the position and frequency of mutations occurring in the aligned base sequence.
  • an RNA probe containing an RNA to be analyzed to which a barcode sequence forming a structure containing a plurality of base pairs is added, and an RNA probe library containing a plurality of the RNA probes are provided.
  • an RNA probe library group consisting of two or more replicas of this RNA probe library is provided. All replicated RNA probes further contain a second barcode sequence, which is all identical in one library but distinguishable from other libraries. ..
  • the detection accuracy of mutations, insertions, deletions, etc. of introduced bases is improved without affecting the RNA higher-order structure to be analyzed. be able to.
  • FIG. 1 is a flow chart showing a method for analyzing a higher-order structure of RNA in one embodiment.
  • FIG. 2 is a flow chart showing a method for analyzing a higher-order structure of RNA in another embodiment.
  • FIG. 3 is a schematic diagram showing an outline (b) of the barcode sequence (a) and the library structure used for producing the first library.
  • FIG. 4 is a schematic diagram showing an outline of a library structure produced by using 37 types of first barcode sequences and 4 types of second barcode sequences (batch barcodes).
  • FIG. 5 is a base sequence of two samples (ID1 and ID32) synthesized as individual strands among RNA probes contained in the first library.
  • FIG. 6 is a schematic diagram showing the flow of the mutation profiling operation performed using the second library.
  • FIG. 7 shows the absolute value of the delta mutation rate of all nucleotides in the barcode of a sample chemically modified with NAI or DMS. The results are shown separately for structured barcodes (ID 1-28) and unstructured barcodes (ID 29-37) in RNA probes in the first library.
  • FIG. 8 shows the delta mutation rate for each nucleotide when each library was chemically modified with NAI or DMS. The X-axis shows the sequence of the target RNA of ID1 and the estimated structure in dot-bracket notation. (A) is the result when the first library and four kinds of the second library were processed by NAI, and (b) is the result when the first library and four kinds of the second library were processed by DMS.
  • FIG. 9 shows the delta mutation rates of each ID when the second library is individually or pooled and chemically modified with NAI or DMS, in which the base pairing region (black portion) and the non-base pairing region (gray) are formed. It is a violin plot showing the kernel density distribution of the delta mutation rate of nucleotides predicted to be part of).
  • A) is a sample treated with NAI
  • B) is a sample treated with DMS.
  • FIG. 11 shows all reads obtained in the next generation sequence of the RNA probe library with ID2, which were subjected to mutation profiling by DMS using the RNA probe library group to which the structured batch barcode was added, from ID1 to 96. It is a graph which plotted the read number at the time of mapping about the file of the RNA probe library group to which the bar code of.
  • FIG. 12 shows the results of performing mutation profiling without a modifier using an RNA probe library group to which a structured batch barcode was added, and plotting the percentage of each RNA determined to have the correct ID.
  • FIG. 13 shows the results of performing mutation profiling by DMS using the RNA probe library group to which the structured batch barcode was added, and plotting the ratio of each RNA determined to have the correct ID.
  • FIG. 12 shows the results of performing mutation profiling without a modifier using an RNA probe library group to which a structured batch barcode was added, and plotting the percentage of each RNA determined to have the correct ID.
  • FIG. 13 shows the results of performing mutation profil
  • FIG. 14 shows that after mutation profiling using structured batch barcodes, next-generation sequencing was performed in combination with multiple indexes, and all reads obtained from the RNA probe library with ID7 were subjected to ID1. It is a graph which plotted the read number at the time of mapping about the RNA probe library group to which the barcode of 96 was given, for each ID.
  • FIG. 15 plots the number of reads of the structured batch barcode ID mapped to the index ID as a result of next-generation sequencing performed by assigning a one-to-one corresponding index to the structured batch barcode. It is a graph.
  • FIG. 16 is a graph in which the number of RNA types (RNA IDs) misdetermined in the RNA probe library to which each structured batch barcode ID is assigned is plotted in FIG. 15.
  • FIG. 17 is a result of assigning a one-to-one corresponding index to a structured batch barcode, performing next-generation sequencing, and plotting the accuracy in determining the ID of the structured batch barcode for each index.
  • FIG. 18 is a diagram showing an example of a structured batch barcode array (ID12 and ID28) used in Example 4.
  • RNA to be analyzed or "target RNA” means an RNA molecule having a compatible meaning and having a sequence that may interact with a small molecule compound or protein in vivo.
  • the RNA to be analyzed may be a biological sample extracted from a living body as it is, or may be an artificially synthesized RNA. In the case of artificial synthesis, it is preferable to include a motif region, which is a functional structural unit of RNA, extracted based on the sequence information of RNA.
  • “Motif region” means a functional structural unit for RNA to interact with a substance of interest.
  • RNA probes and pseudoknots which are the constituent elements of this RNA motif, are called structural motifs, and the combination of these structural motifs forms a higher-order structure of RNA.
  • the motif region contained in the RNA probe of the present invention may consist of a single stem-loop structure (hairpin loop structure) or may include a plurality of stem-loop structures (multi-branched loop structure). It may also include one or more kink-turns, pseudoknots, guanine quadruplexes (G-quadruplex) and the like.
  • structural motifs can be composed not only by Watson-Crick base pairs but also by Hoogsteen base pairs.
  • RNA probe refers to a nucleic acid molecule containing RNA to be analyzed, preferably a nucleic acid molecule composed of RNA, to which a primer binding site for amplification, a barcode sequence, or the like is added.
  • library refers to a set of a plurality (two or more) types of different molecules (for example, a plurality of different DNA molecules or a plurality of different RNA molecules). In the method according to the present embodiment, analysis can be performed using a large number of RNA probes as needed. Therefore, the term “library” is preferably 10 or more, more preferably 10 2 or more, and 10 It may contain 3 or more, or 104 or more, more preferably 106 or more different RNA molecules.
  • RNA refers to a partial double-strand formation (also referred to as a stem structure) based on the formation of base pairs in a molecule and a portion without the base pair formation in a solution. It refers to a single-stranded structure, an annular single-stranded structure (referred to as a loop structure), or a combination thereof. Such a structure is in a specific equilibrium state depending on the state of the solution (temperature, salt concentration, etc.) and fluctuates with the movement of RNA molecules.
  • stem structure means a double helix structure formed by an arbitrary nucleic acid sequence contained in RNA and a sequence complementary to the nucleic acid sequence.
  • complementary means the ability of two nucleic acid sequences to hybridize, and since the two sequences need only hybridize, the two nucleic acid sequences constituting the stem structure are at least 50. It may have%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 99%, or 100% sequence complementarity.
  • the "barcode sequence” is a tag having a unique sequence added to each nucleic acid molecule for each type or for each molecule. It is also called “index” or “unique molecular identifier (UMI)". UMI typically aims to improve quantification by reducing amplification bias by assigning a random sequence to each molecule in solution.
  • UMI unique molecular identifier
  • a barcode sequence having a unique sequence different for each type of RNA is added to a plurality of RNAs to be analyzed, the added barcodes are added after the plurality of RNAs are simultaneously modified and amplified. Each RNA can be identified and analyzed based on the type of RNA.
  • multiple experimental data can be separated and obtained from the same next-generation sequence data, enabling efficient data analysis. ..
  • the barcode sequence can be provided, for example, as a group of nucleic acids having a random base. Barcode arrays are randomly synthesized (so that the sequences are diverse and do not need to be aware of the contents of the array) because the number of array types is important. good. Alternatively, the barcode sequence may be a set of known sequence nucleic acids designed to provide sufficient diversity.
  • FIG. 1 is a flow chart showing a method for analyzing a higher-order structure of RNA in one embodiment of the present invention.
  • This method is obtained in a step of preparing one or more RNA probes to which a barcode sequence is added to the RNA to be analyzed (S10), a step of contacting the RNA probe with an RNA modifier (S20), and a step S20.
  • This includes a step of detecting the position and frequency of the modified base in the sequence of the RNA probe (S30), and further, if necessary, a step of displaying the detection result (S40).
  • the barcode sequence is characterized by having a structure in which the reaction with the RNA modifier is suppressed.
  • the detection step (S30) uses a reverse transcriptase as a template for the mixture of RNA probes obtained in the step S20.
  • the step of synthesizing complementary DNA (S31), the step of determining the base sequence of complementary DNA and aligning the base sequence including the barcode sequence (S32), and the position and frequency of mutations occurring in the aligned base sequence are determined. It preferably comprises a step of detecting (S33).
  • the RNA to be analyzed preferably contains a motif region for exerting a function in the living body.
  • This motif region may consist of a single stem-loop structure (hairpin loop structure) or may include multiple stem-loop structures (multi-branched loop structure).
  • it is preferable to extract the motif region based on the stem structure see, for example, WO2018 / 003809). This makes it possible to prepare an RNA probe that reflects the functional structural units existing in RNA without dividing the motif region.
  • the motif region may have any sequence length as long as its function is maintained, and may be, for example, 1000 bases or less, 900 bases or less, 800 bases or less, 700 bases or less, 600 bases or less, 500 bases or less, It may be 400 bases or less, 300 bases or less, 200 bases or less, 150 bases or less, 100 bases or less, and 50 bases or less.
  • the stem structure in the RNA is, for example, CentroidFold (Hamada, M. et al., Bioinformatics, Vol. 25, pp465-473, 2009) or IPknot (Sato, K. et al.). It can be recognized using RNA secondary structure prediction software such as et al., Methods Biochem. Anal., Vol. 27, pp. I85-i93, 2011). Further, any RNA sequence information can be used, for example, UTRdb (Grillo, G. et al., Nucl. Acids Res., Vol. 38, D75-D80, 2010), IRESite (Mokrejs).
  • RNA sequence information may be obtained from a database containing not only RNA sequence information but also structural information. For example, Rfam (Nawrocki, EP et al., Nucl. Acids Res., Vol. 43, D130-D137, 2015), Structure Surfer (Berkowitz, N.D.
  • RNA RNA determined by various methods may be used, and for example, those downloaded from Protein Data bank (https://www.rcsb.org/) can be used. Further, it may be an RNA higher-order structure designed by itself, and for example, data designed by software such as RNA invoke may be used.
  • RNA to be analyzed is structured.
  • Structured means that RNA is folded in solution to form secondary or tertiary structure, or remains in primary structure (sequence), thereby suppressing reaction with RNA modifiers.
  • the barcode sequence contains multiple base pairs that are less susceptible to such modifications. It can be designed to form a structure. Multiple base pairs mean that two or more bases that are continuous or separated form hydrogen bonds with other bases in the barcode sequence, such as Watson-Crick base pairs or Hoogsteen bases. It may be equal.
  • a stable structure can be formed at least temporarily, but in order to form a more stable structure, three or more base pairs are preferable. Four or more base pairs are even more preferred, and five or more base pairs are even more preferred.
  • the upper limit of the number of base pairs is not particularly limited, but since a sufficiently stable structure can be obtained if there are about 10 base pairs, 30 or less base pairs are preferable, and 20 or less base pairs are preferable from the viewpoint of cost. Pairs are more preferred, and 15 or less base pairs are even more preferred.
  • the barcode sequence is a non-base paired sequence, i.e., a single strand structure. It is preferably designed to be maintained. Furthermore, it is preferable that the barcode sequence having this structure is computer-optimized so as not to affect the RNA to be analyzed. This is to avoid the problem that the addition of the barcode sequence itself forms a structure far from the original RNA structure due to the intramolecular interaction with the RNA to be analyzed, or the stability of the structure is affected. .. Computerized sequence optimization can be performed using known programs such as the Vienna RNA package.
  • RNA probe modification step (S20) causes an RNA probe modification reaction by contacting the RNA probe prepared in the previous step (S10) with a desired RNA modifying agent.
  • the RNA modifier includes compounds that selectively modify unconstrained nucleotides, such as single-stranded regions in RNA probes.
  • Such compounds are typically isatoic acid anhydride derivatives that react with the ribose-2'-hydroxy group, known as SHAPE reagents, such as 1-methyl-7-nitroisatoic acid anhydride (1M7), 1 Includes, but is not limited to, methyl-6-nitroisatoic acid anhydride (1M6), NMIA (N-methylisatoic acid anhydride) and 2-methylnicotinic acid imidazolide (NAI).
  • SHAPE reagents such as 1-methyl-7-nitroisatoic acid anhydride (1M7)
  • dimethyl sulfate can be used as an RNA modifier because it forms adducts at the N1 position of adenosine, the N3 position of cytosine, and the N3 position of uridine and the N1 position of guanosine.
  • NAI generally reacts with all four nucleotides and DMS reacts only with adenine and cytosine.
  • DMS can also react with guanine and uridine under conditions of a fundamentally biased pH (eg pH 8.0).
  • the RNA modifier may selectively modify a constrained nucleotide that forms a double strand in the RNA probe.
  • the RNA modifying agent includes, but is not limited to, for example, RNASEV1, which is an enzyme that degrades double-stranded RNA, DICER of the RNASEIII family, or a fusion protein of a double-stranded binding protein and an RNA-modifying protein.
  • the solution may be a biological solution containing different concentrations and amounts of proteins, cells, viruses, lipids, monosaccharides and polysaccharides, amino acids, nucleotides, DNA, as well as various salts and metabolites. Further, it may be a solution containing a small molecule or medium molecule drug having a different concentration and amount. It may also contain various surfactants, polymers and ozmolite. The concentration of the RNA modifier can be adjusted to achieve the desired degree of modification of the RNA.
  • RNA to be analyzed can be modified in the presence of proteins or other small and high molecular weight biological ligands. If the reactivity of the RNA modifier depends on the pH, the pH may be maintained, for example, in the range of 7.5 to 9.0, but not limited to. The functional range that distinguishes between the most reactive and the least reactive nucleotides typically ranges from 20 to 50 times.
  • RNA can be replaced at the desired pH (eg, about pH 8) by any procedure that folds into the desired conformation. This RNA can be heated first and then hurriedly cooled in a low ionic strength buffer to eliminate multimeric morphology. Folding solutions can then be added to prepare the RNA for accurate conformation and for exploration with structurally sensitive RNA modifiers. In some embodiments, RNA is not naturally folded prior to modification. Modifications can be made while the RNA is denatured by heat and / or low salt conditions.
  • This step is a step of detecting the position and frequency of the modified base in the sequence of the RNA probe obtained in the modification step (S20).
  • the method is not particularly limited as long as it reads the modified base in the RNA sequence, and may be, for example, a pull-down method using an antibody specific to the modified base or a nanopore sequencing method for directly reading the potential of RNA.
  • This direct RNA nanopore sequencing method is a technique for detecting RNA modification sites at the single molecule level.
  • the direct RNA sequencing platform developed and marketed by Oxford Nanopore Technologies migrates RNA bound to motor proteins via membrane-suspended biological nanopores.
  • the modified base detection step (S30) is mutation profiling involving the conversion of RNA to complementary DNA (cDNA), as shown in FIG.
  • cDNA is synthesized by reverse transcriptase or another polymerase using the mixture of RNA probes obtained in step S20 as a template (S31).
  • the reverse transcriptase is an enzyme that synthesizes cDNA from RNA, and examples thereof include, but are not limited to, thermostable enzymes such as mouse or bird reverse transcriptase. Alternatively, it may be a reverse transcriptase TGIRT (Thermostable Group II intron reverse transcriptase) present in a retrotransposon such as a prokaryote or a fungus.
  • TGIRT Thermostable Group II intron reverse transcriptase
  • InGex's TGIRT-III is superior in thermal stability, processability, and accuracy to conventional retrovirus-derived reverse transcriptase. Further, it is known that a mutation is induced at the site modified by DMS during reverse transcription (DMS-MaPseq method).
  • These enzymes include a method of detecting a chemical modification in RNA by skipping the nucleotide containing the adduct and incorporating an inaccurate (non-complementary) nucleotide at the site of the chemical modification.
  • "inaccurate” with respect to nucleotide uptake refers to the incorporation of non-complementary nucleotides (nucleotides that violate the Watson-Crick rule) into the nucleotides present in the original sequence. Say. It contains a small number of deletions in the sequence.
  • cDNA can efficiently detect chemical modifications in nucleic acids such as RNA by using massively parallel sequencing (MPS).
  • MPS massively parallel sequencing
  • the 5'end side is fixed on the flow cell via adapters at both ends of tens of millions to hundreds of millions of DNA fragments.
  • the adapter on the 5'end side fixed in advance on the flow cell and the adapter sequence on the 3'end side of the DNA fragment are annealed to form a bridge-shaped DNA fragment.
  • next-generation sequencer By performing a nucleic acid amplification reaction with DNA polymerase in this state, a large number of single-stranded DNA fragments can be locally amplified and fixed. Then, in the next-generation sequencer, by performing sequencing using the obtained single-stranded DNA as a template, as of 2020, a huge amount of sequence information of about 3 Tb can be obtained in one analysis.
  • NGS Next-Generation Sequencing
  • Massively Parallel Sequencing and “Ultra-High-Throughput Sequencing”. Or “massively parallel sequencing”.
  • the sequence data (reads) obtained by the next-generation sequencer are aligned in a form including a barcode sequence.
  • sequence data for each barcode sequence samples containing multiple types of RNA probes can be sequenced at the same time. Further, even when the RNA to be analyzed contains similar sequences such as gene families and single nucleotide polymorphisms, it is possible to identify and analyze them.
  • the alignment may be evaluated by adding the mutation information of the barcode for the unreliable alignment.
  • the accuracy of the sequence information can be improved by aligning the RNA sequence to be analyzed together with the barcode sequence.
  • the mutation rate at a given nucleotide is simply the number of mutations (mismatch, deletion and insertion) at that location divided by the number of reads.
  • the data for calculating the raw reactivity for each nucleotide can be normalized using various criteria. Data quality control is possible by considering the reading depth and standard error of the sequence.
  • ⁇ Display of detection result (S40)> The location and frequency of mutations detected in the above steps can be illustrated by methods known to those of skill in the art, such as mutation histograms, sequence depths and reactivity profiles.
  • alignment software alignment software
  • BWA and STAR alignment software
  • These data are quantified and vectorized as mutation counts, and various operations can be performed.
  • mutations that show statistically superior reactivity can be annotated.
  • RNA samples in this step can be performed using a computer program product stored on a computer readable medium.
  • exemplary computer-readable media suitable for carrying out the present invention include chip memory devices, disk storage devices, programmable logic devices, and application-specific integrated circuits.
  • the computer program products that carry out this process can be installed on a single device or computing platform, or distributed among multiple devices or computing platforms. Therefore, the higher-order structure of RNA obtained by the method of this embodiment can be displayed on a display connected to a computer.
  • the structured barcode disclosed in this embodiment has some advantageous effects. First, it is unlikely that the barcode sequence will be modified in the reaction with the RNA modifier, and it will be possible to correctly identify the barcode as a barcode. In addition, the bar code portion is suppressed from interacting with the RNA to be analyzed or other RNA molecules. This allows structured barcode arrays to not only distinguish from similar sequences in a library, but also to distinguish between different batches of the same library.
  • FIG. 4 shows a method of creating a library group using 37 types of first barcode sequences and 4 types of second barcode sequences. A second bar with the same sequence in one library but different sequences in different batches of libraries by amplifying the initially prepared library of 37 DNAs with 4 different primers. A code array is added. By performing an in vitro transcription reaction using these, an RNA library group to which two types of barcode sequences are added can be prepared.
  • RNA probe and RNA probe library As another embodiment of the present invention, an RNA probe containing a structured barcode sequence and an RNA probe library containing a plurality of the RNA probes are provided.
  • the structured bar code sequence is a bar code sequence that forms a structure containing a plurality of base pairs.
  • the barcode sequence of the present embodiment include a complementary double-chain structure, triple-chain structure, or quadruple-chain structure, and specific examples thereof include a stem-loop structure and a pseudoknot structure. ..
  • the stem moieties form complementary double strands, but to increase sequence diversity, GU, I-U, I-, which have comparable thermodynamic stability to Watson-click base pairs. It may contain wobble base pair of A and IC.
  • I represents inosine, and its base, hypoxanthine, can base pair with uracil, adenine, and cytosine. Uracil can be paired with two bases, guanine and adenine.
  • the structure containing a plurality of base pairs is a stem-loop structure, having one or more bulges and / or internal loop structures at the stem site.
  • a base that serves as a negative control and a positive control for structure-specific mutations can be loaded at the same time.
  • the structured barcode functions as a control for molecular species that modify the terminal loop but not the bulge or internal loop.
  • the structure containing a plurality of base pairs is an RNA structure registered in PDB (Protein Data Bank) or a variant thereof.
  • PDB Protein Data Bank
  • the position of the structured barcode sequence in the RNA probe of this embodiment is not particularly limited and can be placed at any position. For example, it may be on the 5'end side or the 3'end side of the RNA to be analyzed. Alternatively, one strand of the barcode sequence forming the complementary strand is located on the 5'end side of the RNA to be analyzed, and the other strand is located on the 3'end side so that they sandwich the RNA to be analyzed. Chains may be formed. Further, the number of structured barcode sequences is not particularly limited, and a plurality of structured barcodes having the same or different sequences may exist.
  • the RNA probe of the present embodiment contains an RNA motif containing at least one structural motif as the RNA to be analyzed.
  • this motif region one extracted from arbitrary RNA sequence information can be used.
  • the motif region contained in the RNA probe of the present invention may be selected from any RNA secondary structure data already identified by the RNA structure study.
  • this RNA probe may be labeled with a fluorescent dye (eg, FITC, PE, Cy3, Cy5, etc.), a radioisotope, digoxigenin (DIG), biotin, etc. for detection.
  • Labeling can be performed by incorporating a pre-labeled nucleic acid at the time of probe synthesis, and for example, an artificial nucleic acid labeled on the 5'side can be incorporated.
  • the artificial nucleic acid labeled on the entire length of RNA can be incorporated.
  • An artificial nucleic acid labeled with, for example, T4 RNA ligase1 can be labeled on the 3'side.
  • the labeling may be performed in multiple stages by a click reaction or the like.
  • a fluorescent dye or biotin can be incorporated into RNA by reacting DBCO-biotin and DBCO-Cy3 with RNA in which pCp-N3 is added to the 3'end using T4 RNA ligase1.
  • the proportions of these labels may be 10, 20, 30, 40, 50, 60, 70, 80, 90, 99, 100%.
  • the RNA probe of this embodiment can be synthesized by any conventionally known genetic engineering method.
  • the RNA probe can be made by transcribing the synthesized template DNA outsourced to a synthetic contractor.
  • the DNA containing the sequence of the RNA probe may have a promoter sequence.
  • a T7 promoter sequence is exemplified as a preferable promoter sequence.
  • RNA can be transcribed from DNA having a desired RNA probe sequence using MEGAshortscript TM T7 Transcription Kit provided by Life Technologies.
  • the RNA may be a modified RNA as well as adenine, guanine, cytosine, and uracil.
  • Modified RNAs are exemplified by, for example, pseudouridine, 5-methylcytosine, 5-methyluridine, 2'-O-methyluridine, 2-thiouridine, and N6-methyladenosine.
  • an RNA probe library containing a plurality of RNA probes containing RNAs to be analyzed having different sequences is provided.
  • oligonucleic acid library synthesis Oligonucleic acid library synthesis
  • the oligo library can then be redissolved, amplified, and then subjected to an in vitro transcription reaction to prepare an RNA probe library.
  • the Oligonucleotide Library Synthesis can be produced by outsourcing to Agilent Technologies and Twist Bioscience.
  • the RNA probe library of this embodiment containing a plurality of RNA probes is amplified with a plurality of primers containing a second barcode sequence to form an RNA probe consisting of two or more replicas.
  • Libraries can be prepared. All replicated RNA probes contain first and second barcode sequences, which are all identical sequences within one library but distinguishable from other libraries. Is. According to the examples described later, even when mutation profiling was performed by mixing a plurality of RNA probe libraries, the same results as those performed using each RNA probe library were obtained. Therefore, each RNA probe library was used. After performing different mutation profiling using each of them, it is considered that each mutation profiling can be identified by using a second bar code sequence after mixing them for next-generation sequencing.
  • RNA library of this embodiment can be used as a kit for analyzing chemical modification of RNA and / or RNA structure analysis.
  • a method of using such a kit a method for higher-order structural analysis of RNA according to the present invention is included.
  • Example 1 Materials and methods (barcode array design) The barcode sequences in this example used stems and loops of different lengths. Stems of length 6, 7 or 8 base pairs (bp) containing normal base pairs and GU wobble base pairs were randomly generated. Three different length loops were used for each stem length. For each barcode, any one of the four tetraloops (UUCG, GAGA, GCUU, GUAA), or a sequence of 3 or 5 base lengths (UCG, AGA, CUU, UAA, UUACG, GAAGA, GCUAU, AGUAA). ) was selected. The Vienna RNA package was used to control the barcode to fold correctly. As a control, unstructured 10, 15 and 21 base length barcodes were generated.
  • Target RNA sequence 5'-GUGUAUGAUGAAACUACAUUAAGUUAACUCGUGCAC-3'(SEQ ID NO: 1) was used. From this sequence, 12 positions that did not form base pairs were selected, and at each position, point mutants in which all the other three bases were changed were created to obtain 36 point mutants. As a result, a total of 37 sequences were obtained. Any pair of the 37 sequences differ only in one or two bases.
  • FIG. 3 shows an outline of the barcode sequence and library structure used in the first library.
  • FIG. 3 (a) is a barcode sequence of one RNA probe (ID1), which is composed of a 7 bp stem and a 4-nucleotide loop.
  • the first library sequence has the following four parts in the direction of 5'to 3': i) 5'cassettes required for RNA library generation by in vitro transcription (IVT) and preparation of sequencing libraries (dashed line on the 5'side in FIG. 3B); ii) Different barcode sequences for each sequence (IDs 1-28 containing structured barcodes and IDs 29-37 containing unstructured barcodes in FIG.
  • RNA sequence in which two-base spacers are adjacent on both sides solid line in FIG. 3 (b), point mutations in the sequence are indicated by triangles
  • iv) 3'cassette required for RNA library generation by in vitro transcription (IVT), reverse transcription and preparation of sequencing library dashed line on the 3'side in FIG. 3B.
  • FIG. 4 shows an outline of the barcode sequence and library structure used in the second library.
  • RNA by this design contains two barcodes, an in-library barcode (first barcode) and a batch barcode (second barcode). It can be divided into the following four parts in the direction of 5'to 3': i) The same 5'cassette used in the first library design; ii) The same barcode sequence used in the first library design; iii) Target RNA sequence with two base spacers adjacent to each other; iv) A 12-base linker sequence that enhances primer binding.
  • the base sequence of the primer used for the amplification of the second library is as follows.
  • RNA polymerase promoter sequence (IVT recognition site: 5'-TAATACGACTCACTATAG-3'(SEQ ID NO: 6)).
  • a forward primer with a cassette sequence and a reverse primer with a sequence complementary to the 3'cassette sequence were used.
  • Pr_d2a SEQ ID NO: 2
  • Pr_d2b SEQ ID NO: 3
  • Pr_d2c SEQ ID NO: 4
  • Pr_d2d SEQ ID NO: 5
  • the prepared double-stranded DNA was used as a template for an IVT reaction using the MEGAshortscript TM T7 transcription kit (Thermo Fisher Scientific Co., Ltd.).
  • the reaction was prepared according to the manual.
  • the reaction volume is 20 ⁇ L and the template concentration is 100 nM.
  • the reaction was incubated at 37 ° C. for 6 hours and then treated with TURBO DNase (included in the kit) at 37 ° C. for 15 minutes.
  • RNA was purified with RNA Clean & Concentrator-25 from Zymo Research.
  • RNA probes contained in the first library synthesized by the in vitro transcription reaction the nucleotide sequences of ID1 (SEQ ID NO: 7) and ID32 (SEQ ID NO: 8) synthesized as individual strands are shown in FIG. In FIG. 5, each barcode sequence portion is surrounded by a square, and the target RNA sequence is underlined.
  • RNA modification Two different chemical modifiers were used for RNA modification.
  • DMS dimethyl sulfate
  • NAI imidazolide 2-methylnicotinate
  • RNA preparation was used in experiments with both modifiers. 250 ng of RNA (single strand or pool) dissolved in 6 ⁇ L of water was incubated at 95 ° C. for 2 minutes and quenched on ice for at least 2 minutes. Next, 3 ⁇ L of 3.3 ⁇ folding buffer was added and the sample was incubated at 37 ° C. for 20 minutes (1 ⁇ folding buffer is composed of 100 mM HEPES (pH 8.0), 100 mM NaCl, 10 mM MgCl 2 ). ..
  • control samples were prepared in the same manner using 1 ⁇ L DMSO instead of NAI.
  • the modified RNA sample was reverse transcribed using a reverse primer with a sequence complementary to the 3'cassette sequence.
  • the enzyme SuperScript TM II reverse transcriptase (Thermo Fisher Scientific Co., Ltd.) was used in the presence of manganese.
  • TGIRT TM -III enzyme (InGex) was used.
  • 1 ⁇ L of 2 ⁇ M reverse primer was mixed with 2 ⁇ L of 10 mM dNTPs (New England Biolabs) and 7 ⁇ L of previously modified RNA. Samples were annealed with the Thermo Fisher Scientific, Inc.
  • ProFlex TM PCR system (held at 85 ° C., 1 min ⁇ 65 ° C., 10 min ⁇ 4 ° C.), which was also used in the reverse transcription step.
  • 9 ⁇ L of 2.22 ⁇ MaP buffer was added, incubated for 2 minutes at room temperature, 1 ⁇ L of enzyme was added, and the sample was placed in a cycler and reverse transcribed (see Table 2).
  • index PCR was performed using 1 ng of amplicon PCR product with a reaction volume of 25 ⁇ L.
  • Other reaction components are 1xPlatinum TM SuperFi TM PCR Master Mix and Nextera XT Index Kit v2 (Illumina) 1 ⁇ M index primers.
  • Samples were transferred to the ProFlex TM PCR system. After first heating to 98 ° C. for 30 seconds, 6 cycles of 3-cycle PCR were performed at 98 ° C. for 10 seconds, 55 ° C. for 10 seconds, and 72 ° C. for 20 seconds. After the last cycle, the temperature was maintained at 72 ° C. for 5 minutes and then cooled to 4 ° C.
  • AMPure XP manufactured by Beckman Coulter
  • AMPure XP 13 ⁇ L of water was added to the dried beads, mixed well and incubated at room temperature for 10 minutes to recover 12 ⁇ L of supernatant. The samples were then mixed together for next generation sequencing.
  • Next-generation sequencing NextSeq500 / 550 mid-output kit v2.5 (Illumina, 150 cycles) using paired-end reads and standard read primers was used for sequencing.
  • the FASTQ file adapter is first trimmed and then the read of the FASTQ file generated using the alignment software is mapped to the file containing the reference sequence (reference file) using the alignment software. gone. In this analysis, mapping was performed using STAR aligner software. Mutations, deletions and insertions were counted for further analysis.
  • FIG. 6 is a schematic diagram showing the flow of the mutation profiling operation performed using the second library.
  • the four libraries each of which had been chemically modified separately, were combined into one tube and subjected to a reverse transcription reaction.
  • four tubes in which the reverse transcription reaction was separately performed on the above four libraries were prepared.
  • FIG. 7 (a) is a boxplot showing the absolute delta mutation rate for all nucleotides in the barcode sequence of the first library modified with NAI.
  • FIG. 7B is the result of similar analysis of the sample treated with DMS.
  • the notch indicates the median and the box indicates the interquartile range.
  • the whiskers move up and down from the edge of the box to the maximum or minimum within a span of 1.5 times the height of the box.
  • Outliers are shown in yen.
  • FIGS. 8 (a) and 8 (b) These delta mutation rates are shown in FIGS. 8 (a) and 8 (b) in which the target sequence of ID1 is plotted on the X-axis.
  • Delta mutagenesis showed all four groups of first and second libraries (data are from pooled samples).
  • the delta mutage rates of the first library and the second library are slightly different, but the mutage rates of both libraries are high in the unconstrained nucleotide region, and the structural probing is secondary. It shows that it reflects information about the structure. The Vienna RNA package was used for prediction.
  • DMS FIGS. 8 (a) and 8 (b) in which the target sequence of ID1 is plotted on the X-axis.
  • FIG. 8 shows only a single ID mutation profile. Mutation profiles for all IDs were then analyzed and compared to the secondary structure predicted by the Vienna RNA package.
  • FIG. 9 is predicted to be unbound to the regions predicted to form base pairs (black regions in FIG. 9) when the second library was chemically modified with NAI or DMS, either alone or pooled, respectively. It is a violin plot which plotted the absolute value of the delta mutation rate of a region (the gray region of FIG. 9) separately.
  • 9 (a) is a sample processed by NAI
  • FIG. 9 (b) is a sample processed by DMS, and among the IDs shown on the respective x-axis, IDs 1 to 28 are structured barcode sequences.
  • IDs 29-37 include unstructured barcode sequences. The results also show that the distributions of the four individual samples (on the left side of the "violin” in FIG. 9) and the pooled samples (on the right side of the "violin” in FIG. 9) are very similar. For DMS, only the positions of bases A and C are considered.
  • RNA probe library RNA probe library
  • 96 types of structured batch bars are used for a multiplexed library (RNA probe library) in which 54 types of RNA structures are mixed in total. I prepared the code. After that, for mapping, different barcodes were given to all 54 types of RNA structures contained in the library, and 96 ⁇ 54 types of reference files were created.
  • an RNA probe library to which two types of batch barcodes with different IDs were added was synthesized in vitro, and a mutation profile experiment using DMS was performed.
  • Next-generation sequencing analysis was performed by assigning corresponding indexes to different structured batch barcodes for verification experiments. After that, all the obtained reads were mapped to the reference file. In this analysis, mapping was performed using STAR aligner software. The results are shown in FIGS. 10 and 11.
  • FIG. 10 is an experiment using a structured batch barcode 1, and the horizontal axis shows the ID actually determined by the sequence and mapping, and the vertical axis shows the total number of reads (Dept_sum).
  • the mutation profile reaction system using the structured batch barcode 1 no modifier is used, and there is no effect of RNA structure-selective mutation introduction.
  • most of the structured batch barcodes 1 have been correctly determined to be ID1. It has been determined that mapping was performed incorrectly for 18 types of IDs, but the number of reads for other IDs is very small, 1/1000 to 1/10000 or less, compared to the correct ID1, so the mutation profile. Does not affect the interpretation of the data in.
  • FIG. 11 is an experiment using a structured batch barcode 2, and the horizontal axis shows the ID actually determined by the sequence and mapping, and the vertical axis shows the total number of reads (Dept_sum).
  • a modifier is used, and the mutation is selectively introduced into the higher-order structure of RNA.
  • FIG. 10 in FIG. 11, it was confirmed that the number of IDs for which a certain number of reads was detected increased due to the introduction of the mutation, but the majority of the number of reads was ID2, which was the correct answer as in FIG. I received a judgment.
  • the total number of reads of IDs that are erroneously determined is very small, 1/100 to 10,000 or less, compared to the correct IDs (those that are determined to be ID2). It does not affect the interpretation of mutation profile data.
  • the accuracy (percentage determined to be the correct ID) was confirmed for each of the 54 types of RNA in the library (Figs. 12 and 13).
  • the accuracy under the unmodified condition was 99.91% on average and 99.44% on average under the mutagenesis condition, and high accuracy was maintained even under the mutagenesis condition.
  • the structured batch barcode can clearly distinguish the correct barcode ID from other incorrect IDs in the mutation profile without impairing the accuracy of mapping, so it is possible to create a multiplex that mixes multiple different conditions at the same time. It is useful.
  • Example 3 Effect of multiplexing by combining a barcode with another barcode (index)
  • a commercially available index primer eg, Nextera XT Index
  • Kit ⁇ Illumina> Kit ⁇ Illumina>
  • FIG. 14 shows an index primer (functioning as a barcode) based on Illumina's sequence on the vertical axis, and the ID determined when the sample of structured RNA ID 7 prepared in Example 2 is mapped on the horizontal axis.
  • the color scale shows the average value of the number of reads.
  • the structured batch barcode (ID) can be identified with high accuracy in any index primer. That is, it can be said that the number of samples can be expanded on a large scale by combining a plurality of forms of DNA barcodes in addition to the batch barcodes. For example, by using 10 kinds of index primers and 96 kinds of structured barcodes, 960 kinds of conditions of 10 ⁇ 96 can be set.
  • RNA probe library multiplexed library
  • index IDs indexes
  • index ID1 contains the RNA probe library with the structured batch barcode ID1. After that, all the obtained reads were mapped to the reference file. In this analysis, mapping was performed using STAR aligner software.
  • the horizontal axis shows the correct index (Index ID), and the vertical axis shows the structured batch barcode ID (Batch Barcode ID) actually determined by the sequence and mapping.
  • the color of the heat map indicates the average value (Dept_mean) of the mapped read numbers in the RNA probe library.
  • Dept_mean the average value of the mapped read numbers in the RNA probe library.
  • FIG. 16 it was found that most of the erroneous determinations occur for 1500 types of RNA in the library for 0 or less than 10 types, and the effect on the RNA of the entire library is very small.
  • the number of reads for these erroneously determined RNA types is approximately 1/100 to 10000 or less compared to the correct ID, so the effect is even smaller, and the erroneous determination affects the interpretation of the profile results. Can be said not to be given (Fig. 17). Therefore, it can be said that the structured batch barcode has high orthogonality as intended, indicating that it functions as a barcode.
  • FIG. 16 there are some data points in which about 800 types and 130 types are mixed, but they occur continuously between adjacent tubes and there is no similarity in barcodes. Therefore, it is judged to be contamination due to human error, and it is not a problem due to a specific structured barcode.
  • the structured barcode RNA of ID12 has a 22 base length: 5'-GCUAGAAGAUUUGUCUUCUGGU-3'(SEQ ID NO: 9) and contains a 4-base loop structure.
  • the structured barcode RNA of ID28 has a 19-base length: 5'-UUGCGAGAUAUUCUCGCGA-3' (SEQ ID NO: 10) and contains a 3-base loop structure. In this way, the structured barcode can change not only the base sequence but also the length and higher-order structure, so that the combination can be further expanded.
  • structured barcodes can be multiplexed (multiplexed) in structural probing tests under multiple reaction conditions.
  • a structural probing test can be performed with a plurality of different reaction compositions and experimental environmental conditions, and the effect of these different conditions on RNA structure can be screened on a large scale.

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Microbiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • Plant Pathology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Chemical & Material Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Saccharide Compounds (AREA)

Abstract

(a)解析対象RNAにバーコード配列を付加した1又は複数のRNAプローブを調製する工程、(b)RNAプローブとRNA修飾剤とを接触させる工程、及び(c)工程(b)で得られたRNAプローブの配列中で修飾を受けた塩基の位置と頻度を検出する工程、を含み、バーコード配列はRNA修飾剤との反応が抑制される構造を有する、RNAの高次構造を解析するための方法を提供する。この方法は、RNAライブラリを用いて変異プロファイリングを行う場合に、導入された塩基の変異、挿入及び欠失等の検出精度を改善する。

Description

変異プロファイリングのためのRNAプローブ及びその使用 クロスリファレンス
 本出願は、日本国において、2020年11月18日に出願された特願2020-191550号に基づく優先権を主張するものであり、当該出願に記載された内容は全て、参照によりそのまま本明細書に援用される。また、本願において引用した全ての特許、特許出願及び文献に記載された内容は全て、参照によりそのまま本明細書に援用される。
 本発明は、変異プロファイリングのためのRNAプローブに関し、より詳細には、解析対象RNAに構造化バーコード配列を付加したRNAプローブ及びそれを用いてRNAの高次構造を解析する方法に関する。
 RNAはタンパク質合成の鋳型として機能する生体分子であるが、一方で、RNA自身が密に折りたたまれた高次構造を形成し、遺伝子発現、転写産物の細胞内局在及びスプライシング機構などを制御している。これらの機能性RNAの多くは、一次配列としての塩基が構造形成にて立体的に特定の配置をとることで規定されている。このRNA高次構造は、ステム(STEM)、ステムループ(STEM-LOOP)、キッシングループ(KISSING-LOOP)、マルチジャンクション(MULTI-JUNCTION)、キンクターン(KINK-TURN)、シュードノット(PSEUDOKNOT)、4重鎖(QUADRUPLEX)などの多様な構造モチーフの組み合わせから形成される。これらの構造モチーフの種類と組み合わせの数は膨大である上に、複数の平衡状態をとり得るため予測が困難である。これに対し、特定の塩基に対する化学的な修飾反応と、次世代シーケンシングによって得られた配列データを組み合わせてRNA高次構造を決定する技術が開発されている。
 例えば、選択的に核酸の糖の2位の炭素に修飾を加えるSHAPE-MaP法(特許文献1参照)や、硫酸ジメチル(DMS)を用いるDMS-MaPseq法(非特許文献1参照)などの変異プロファイリング(Mutational Profiling:MaP)が、RNAの二次構造を推定するために使用されている。化学修飾の分布はRNAの二次構造と相関しており、相補DNAの塩基配列を決定する際に、位置特異的な逆転写終結、置換、挿入又は欠失による変異として記録される。
 変異プロファイリングは次世代シーケンシングとの統合によって、より広範な種類のRNAを同時解析可能である。例えばDMS-MaPseq法やSHAPE-MaP法においては、変異が導入されたRNA由来のDNA断片をコンピュータ上にてリファレンスゲノムに対してマッピングする。この操作によって複数種類が混合された条件において配列が仕分けされ、複数領域や異なる分子のRNAに対して構造特異的な変異を同時カウントできる。またPORE-cupine法などにおいてはナノポアシーケンサーによって修飾種が与える直接的な電位の変化の検出により、同一分子内の変異を複数種類カウントできる(例えば、非特許文献2参照)。しかしながら、これらは配列の仕分けにリファレンスゲノムに対するマッピング操作を使用しているため、類似する配列が存在している場合にどのゲノム位置由来かどうかわからなくなる欠点が存在する。例えば、遺伝子ファミリー、アリル特異的なRNAなどがあげられる。さらに、RNA修飾試薬による変異導入は類似する配列の多様性を増加させるため、この効果を増長する。
Megan Zubradt et al.DMS-Mapseq for genome-wide or targeted RNA structure probing in vivo.Nat Methods. 14,75-82(2017) Aw,J.G.A.,Lim,S.W.,Wang,J.X.et al.Determination of isoform-specific RNA structure with nanopore long reads.Nat Biotechnol(2020).https://doi.org/10.1038/s41587-020-0712-z
特許第6612220号公報
 多種類のRNAを含むRNAライブラリを用いて上述した化学修飾による変異プロファイリングを行う場合、1つ又は数個の塩基のみが異なる配列からなるRNAについては、化学修飾により生じた変異と、ライブラリ中に含まれ得る天然の多様な配列とを相補DNAの整列により識別することが難しいという問題があった。
 本発明は、RNAライブラリを用いて変異プロファイリングを行う場合に、解析対象のRNA高次構造に影響を与えることなく、導入された塩基の変異、挿入及び欠失等の検出精度を改善することを課題とする。
 本発明は、かかる課題を解決するためになされたものであって、変異プロファイリングを行う際に、RNAライブラリに含まれるそれぞれのRNAに、異なる固有の配列であって化学修飾剤との反応が抑制されるような構造を有するバーコード配列を付加するようにした。
 すなわち、本発明の第一の視点において、RNAの高次構造を解析するための方法は、(a)解析対象RNAにバーコード配列を付加した1又は複数のRNAプローブを調製する工程、(b)RNAプローブとRNA修飾剤とを接触させる工程、及び(c)工程(b)で得られたRNAプローブの配列中で修飾を受けた塩基の位置と頻度を検出する工程、を含む。このバーコード配列はRNA修飾剤との反応が抑制される構造を有することと解析対象RNAと高次構造を形成しないことを特徴とする。上記検出工程(c)は、以下の工程を含むことが好ましい。
 (c1)工程(b)で得られたRNAプローブの混合物を鋳型として逆転写酵素により相補DNAを合成する工程、(c2)相補DNAの塩基配列を決定し、バーコード配列を含む塩基配列を整列させる工程、及び(c3)整列させた塩基配列に生じた変異の位置と頻度を検出する工程。
 本発明の他の視点では、複数の塩基対を含む構造を形成するバーコード配列が付加された解析対象RNAを含むRNAプローブ及び、このRNAプローブの複数を含むRNAプローブライブラリが提供される。さらなる実施形態では、このRNAプローブライブラリの2以上の複製物からなるRNAプローブライブラリ群が提供される。複製されたすべてのRNAプローブは、さらに第2のバーコード配列を含み、この第2のバーコード配列は、1つのライブラリ内ではすべて同一配列であるが他のライブラリとの間では識別可能である。
 本発明によれば、RNAライブラリを用いて変異プロファイリングを行う場合に、解析対象のRNA高次構造に影響を与えることなく、導入された塩基の変異、挿入及び欠失等の検出精度を改善することができる。
図1は、一実施形態におけるRNAの高次構造の解析方法を示すフロー図である。 図2は、別の実施形態におけるRNAの高次構造の解析方法を示すフロー図である。 図3は、第1のライブラリの作製に用いたバーコード配列(a)及びライブラリ構造の概要(b)を表した模式図である。 図4は、37種類の第1のバーコード配列と、4種類の第2のバーコード配列(バッチバーコード)を用いて作製したライブラリ構造の概要を表した模式図である。 図5は、第1のライブラリに含まれるRNAプローブのうち、個別のストランドとして合成した2つのサンプル(ID1及びID32)の塩基配列である。 図6は、第2のライブラリを用いて行った変異プロファイリング操作の流れを示す模式図である。 図7は、NAI又はDMSで化学修飾されたサンプルのバーコード内のすべてのヌクレオチドのデルタ変異率の絶対値を示す。結果は、第1のライブラリにおけるRNAプローブ中の構造化バーコード(ID1-28)と非構造化バーコード(ID29-37)に分けて示した。 図8は、各ライブラリをNAI又はDMSで化学修飾したときの、各ヌクレオチドについてのデルタ変異率を示した結果である。X軸は、ID1の目的RNAの配列及びドット・ブラケット表記法による推定構造を示す。(a)は、第1のライブラリ及び4種類の第2のライブラリをNAIで処理したときの結果であり、(b)は、第1のライブラリ及び4種類の第2のライブラリをDMSで処理したときの結果であり、(c)は、第2のライブラリをそれぞれ個別に又はプールしてNAIで処理したときの結果であり、(d)は、第2のライブラリをそれぞれ単独で又はプールしてDMSで処理したときの結果である。 図9は、第2のライブラリをそれぞれ個別に又はプールしてNAI又はDMSで化学修飾したときの、各IDのデルタ変異率を、塩基対を形成する領域(黒い部分)及び形成しない領域(灰色の部分)と予測されるヌクレオチドのデルタ変異率のカーネル密度分布を示すバイオリンプロットである。(a)は、NAIで処理したサンプル、(b)は、DMSで処理したサンプルである。それぞれの「バイオリン」の左側は、一緒に取得された4つの個別のサンプルの分布、右側はプールされたサンプルの分布である。DMSで処理したサンプルの場合、数値計算ではCとAのみの変異を考慮した。 図10は、構造化バッチバーコードを付加したRNAプローブライブラリ群を用いて修飾剤なしで変異プロファイリングを行い、ID1が付与されたRNAプローブライブラリの次世代シーケンスで得られたすべてのリードを、ID1から96のバーコードが付与されたRNAプローブライブラリ群のファイルについてマッピングしたときのリード数を各IDについてプロットしたグラフである。 図11は、構造化バッチバーコードを付加したRNAプローブライブラリ群を用いてDMSによる変異プロファイリングを行い、ID2が付与されたRNAプローブライブラリの次世代シーケンスで得られたすべてのリードを、ID1から96のバーコードが付与されたRNAプローブライブラリ群のファイルについてマッピングしたときのリード数を各IDについてプロットしたグラフである。 図12は、構造化バッチバーコードを付加したRNAプローブライブラリ群を用いて修飾剤なしで変異プロファイリングを行い、夫々のRNAごとに正しいIDと判定された割合をプロットした結果を示す。 図13は、構造化バッチバーコードを付加したRNAプローブライブラリ群を用いてDMSによる変異プロファイルリングを行い、夫々のRNAごとに正しいIDと判定された割合をプロットした結果を示す。 図14は、構造化バッチバーコードを用いて変異プロファイリングを行った後、複数のインデックスと組み合わせて次世代シーケンシングを行い、ID7が付与されたRNAプローブライブラリから得られたすべてのリードを、ID1から96のバーコードが付与されたRNAプローブライブラリ群についてマッピングしたときのリード数を各IDについてプロットしたグラフである。 図15は、構造化バッチバーコードに1対1で対応するインデックスを付与して行った次世代シーケンシングの結果、インデックスIDに対してマッピングされた構造化バッチバーコードIDのリード数をプロットしたグラフである。 図16は、図15において、各構造化バッチバーコードIDが付与されたRNAプローブライブラリの中で誤判定されたRNAの種類(RNA ID)数をプロットしたグラフである。 図17は、構造化バッチバーコードに1対1で対応するインデックスを付与して次世代シーケンシングを行い、構造化バッチバーコードのIDの判定における正確性をインデックスごとにプロットした結果である。 図18は、実施例4で用いた構造化バッチバーコード配列の例(ID12及びID28)を示す図である。
 次に、本発明の各実施形態について、図面を参照して説明する。なお、以下に説明する各実施形態は、特許請求の範囲に係る発明を限定するものではなく、また、各実施形態の中で説明されている諸要素及びその組み合わせの全てが本発明の解決手段に必須であるとは限らない。
(定義)
 本明細書において、「解析対象RNA」又は「目的RNA」とは、互換的な意味を有し、生体内で低分子化合物やタンパク質と相互作用する可能性がある配列を有するRNA分子をいう。この解析対象RNAは、生体から抽出して得られた生物学的試料をそのまま用いてもよく、あるいは人工的に合成したRNAであってもよい。人工的に合成する場合は、RNAの配列情報に基づいて抽出した、RNAの機能構造単位であるモチーフ領域を含むことが好ましい。「モチーフ領域」とは、RNAが対象となる物質と相互作用するための機能構造単位を意味する。このRNAモチーフの構成要素であるステム-ループやシュードノットなどを構造モチーフと称し、この構造モチーフの組み合わせによってRNAの高次構造が形成される。本発明のRNAプローブに含まれるモチーフ領域は、単一のステム-ループ構造(ヘアピンループ構造)からなる場合もあれば、複数のステム-ループ構造(多分岐ループ構造)を含む場合もある。また1つ以上のキンクターン(kink-turn)、シュードノット(pseudoknot)、グアニン4重鎖(G-quadruplex)などを含む場合もある。また構造モチーフはワトソンクリック塩基対だけでなくフーグスティーン塩基対によっても構成され得る。
 「RNAプローブ」とは、解析対象RNAを含む核酸分子、好ましくは、RNAからなる核酸分子であって、増幅のためのプライマー結合部位やバーコード配列などが付加された核酸分子をいう。また、「ライブラリ」とは、複数(2つ以上)種類の異なる分子(例えば、複数の異なるDNA分子又は複数の異なるRNA分子など)の集合を指す。本実施形態に係る方法では、必要に応じて、多数のRNAプローブを用いて解析を行うことができるため、用語、「ライブラリ」は、好ましくは10個以上、より好ましくは10個以上、10個以上、又は10個以上、さらに好ましくは10個以上の異なるRNA分子を含み得る。
 「RNAの高次構造」とは、溶液中において、主に、分子内での塩基対の形成に基づく部分的な二本鎖形成(ステム構造ともいう)と、該塩基対形成のない部分の1本鎖構造、又は環状1本鎖構造(ループ構造という)と、またはそれらの組み合わせをいうものとする。このような構造は、溶液の状態(温度、塩濃度等)により特定の平衡状態にありRNA分子の運動とともに変動するものである。「ステム構造」とは、RNAに含まれる任意の核酸配列と当該核酸配列に対して相補的な配列とにより形成される二重らせん構造を意味する。本明細書において、「相補的」とは、2つの核酸配列がハイブリダイズする能力を意味し、2つの配列がハイブリダイズすればよいことから、ステム構造を構成する2つの核酸配列は、少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、99%、または100%の配列相補性を有していればよい。
 「バーコード配列」とは、核酸分子に対して1種類毎に又は1分子毎に付加される固有の配列を有するタグである。「インデックス」又は「固有分子識別子(Unique Molecular Identifier:UMI)」などとも呼ばれる。UMIは、典型的には溶液中の各分子にランダム配列を割り当てることで増幅バイアスの軽減による定量性の向上を目的としている。複数の解析対象RNAに対して、1種類のRNA毎に異なる固有の配列を有するバーコード配列が付加されるようにすると、複数のRNAを同時に修飾処理及び増幅処理した後に、付加されたバーコードの種類に基づいて、夫々のRNAを識別して解析することができることとなる。また、反応溶液、反応条件毎に異なるバーコードに基づいて各実験系列を識別することで、同一の次世代シーケンスデータから複数の実験データを分別して得られ、効率的なデータ解析が可能となる。
 バーコード配列は、例えば、ランダムな塩基を有する核酸群として提供しうる。バーコード配列は、その配列の種類の数が重要なため、配列がランダム(配列が多様であり、かつ、配列の内容を認識する必要がないように)に合成されたものであったとしてもよい。あるいは、バーコード配列は、十分な多様性が得られるように設計された配列既知の核酸群であってもよい。
(RNAの高次構造を解析する方法)
 図1は、本発明の一実施形態における、RNAの高次構造の解析方法を示すフロー図である。この方法は、解析対象RNAにバーコード配列を付加した1又は複数のRNAプローブを調製する工程(S10)と、RNAプローブとRNA修飾剤とを接触させる工程(S20)と、工程S20で得られたRNAプローブの配列中で修飾を受けた塩基の位置と頻度を検出する工程(S30)と、さらに必要に応じて、検出結果を表示する工程(S40)と、を含む。ここで、バーコード配列は、RNA修飾剤との反応が抑制される構造を有することを特徴とする。
 また、別の実施形態におけるRNAの高次構造を解析する方法は、図2に示すように、上記検出工程(S30)が、工程S20で得られたRNAプローブの混合物を鋳型として逆転写酵素により相補DNAを合成する工程(S31)と、相補DNAの塩基配列を決定し、バーコード配列を含む塩基配列を整列させる工程(S32)と、整列させた塩基配列に生じた変異の位置と頻度を検出する工程(S33)と、からなることが好ましい。以下、これらの各工程について詳細に説明する。
<RNAプローブの調製工程(S10)>
 解析対象RNAは、生体内での機能を発揮するためのモチーフ領域を含むことが好ましい。このモチーフ領域は、単一のステム-ループ構造(ヘアピンループ構造)からなる場合もあれば、複数のステム-ループ構造(多分岐ループ構造)を含む場合もある。本実施形態では、ステム構造を基準としてモチーフ領域を抽出することが好ましい(例えば、WO2018/003809明細書参照)。これにより、モチーフ領域を分断することなく、RNA中に実在する機能構造単位を反映したRNAプローブを調製することができる。モチーフ領域は、その機能が維持されていることを限度として、任意の配列長であってよく、例えば1000塩基以下、900塩基以下、800塩基以下、700塩基以下、600塩基以下、500塩基以下、400塩基以下、300塩基以下、200塩基以下、150塩基以下、100塩基以下、50塩基以下であってよい。
 上記解析対象RNAを含むRNAプローブの調製方法において、RNA中のステム構造は、例えばCentroidFold(Hamada,M.et al.,Bioinformatics,Vol.25,pp465-473,2009)やIPknot(Sato,K.et al.,Methods Biochem. Anal.,Vol.27,pp.i85-i93,2011)などのRNA二次構造予測ソフトを用いて認識することができる。また、RNAの配列情報には任意のものを使用することができ、例えば、UTRdb(Grillo,G.et al.,Nucl. Acids Res.,Vol.38,D75-D80,2010)、IRESite(Mokrejs,M.et al.,Nucl. Acids Res.,Vol.38,D131-D136,2010)、GenBank(Benson,D.et al.,Nucl. Acids Res.,Vol.41,D36-D42,2013)、RNAcentral(RNAcentral Consortium,Nucl. Acids Res.,Vol.43,D123-D129,2015)などのRNA配列データベースからダウンロードしたものを使用することができる。また、RNAの配列情報だけでなく構造情報も含むデータベースからRNAの配列情報を入手してもよく、例えば、Rfam(Nawrocki,E.P.et al.,Nucl. Acids Res.,Vol.43,D130-D137,2015)、Structure Surfer(Berkowitz,N.D.et al.,BMC Bioinformatics,Vol.17,p.215,2016)などからダウンロードしたものを使用することができる。また種々の手法によって決定されたRNAの三次元構造データを使用してもよく、例えば、Protein Data bank(https://www.rcsb.org/)などからダウンロードしたものを使用することができる。また自身で設計をしたRNA高次構造でもよく、例えば、RNAinverseなどのソフトウェアで設計されたデータを使用しても良い。
 本工程では、解析対象RNAに付加されるバーコード配列が構造化されていることを特徴とする。「構造化」とは、RNAが溶液中で折りたたまれて二次、三次構造を形成するか、あるいは一次構造(配列)の状態に留めることをいい、それによりRNA修飾剤との反応が抑制される。例えば、RNA修飾剤が、RNAプローブ中の一本鎖領域のような非拘束ヌクレオチドを選択的に修飾する化合物であるとき、バーコード配列は、このような修飾を受けにくい複数の塩基対を含む構造を形成するように設計することができる。複数の塩基対とは、連続又は離間する2以上の塩基がバーコード配列内の他の塩基との間で水素結合を形成することを意味し、ワトソン-クリック型塩基対又はフーグスティーン型塩基対等のいずれでもよい。ワトソン-クリック型塩基対と同程度の熱力学的安定性を有するG-Uゆらぎ塩基対でもよい。生体内と同様の環境又は条件において、2以上の塩基対があれば少なくとも一時的には安定な構造を形成しうるが、より安定な構造を形成するためには3個以上の塩基対が好ましく、4個以上の塩基対がさらに好ましく、5個以上の塩基対がさらになお好ましい。塩基対の個数の上限は特に制限されないが、10個程度の塩基対があれば十分に安定な構造が得られるため、コスト的な観点から30個以下の塩基対が好ましく、20個以下の塩基対がより好ましく、15個以下の塩基対がさらに好ましい。一方、RNA修飾剤が、RNAプローブ中で二本鎖を形成するような拘束ヌクレオチドを選択的に修飾するときは、バーコード配列は、塩基対を形成しない配列、すなわち、一本鎖の構造を維持するように設計されていることが好ましい。さらに、この構造を有するバーコード配列は解析対象のRNAに影響を与えないように計算機的に配列を最適化することが好ましい。これはバーコード配列の付与自体が解析対象のRNAと分子内相互作用により元来のRNA構造とはかけ離れた構造を形成するか、あるいは構造の安定性に影響がある問題を回避するためである。計算機的な配列最適化は、ViennaRNAパッケージ等の公知のプログラムを用いて行うことができる。
<RNAプローブの修飾工程(S20)>
 本工程(S20)におけるRNAの修飾反応は、前工程(S10)で調製したRNAプローブと、所望のRNA修飾剤とを接触させることでRNAプローブの修飾反応を起こさせるものである。1つの実施形態として、このRNA修飾剤は、RNAプローブ中の一本鎖領域のような非拘束ヌクレオチドを選択的に修飾する化合物が挙げられる。このような化合物は、典型的には、SHAPE試薬として知られる、リボース-2’-ヒドロキシ基と反応するイサト酸無水物誘導体、例えば、1-メチル-7-ニトロイサト酸無水物(1M7)、1-メチル-6-ニトロイサト酸無水物(1M6)、NMIA(N-メチルイサト酸無水物)及び2-メチルニコチン酸イミダゾリド(NAI)を含むがこれらに限定されない。SHAPE試薬の他に、硫酸ジメチル(DMS)は、アデノシンのN1位置、シトシンのN3位置、及びウリジンのN3位置、グアノシンのN1位置で付加物を形成するため、RNA修飾剤として用いることができる。一例として、NAIは一般的に4つ全てのヌクレオチドと反応し、DMSは、アデニンとシトシンのみと反応する。一方で、DMSは塩基性に偏ったpH(例えばpH8.0)条件下にてグアニンとウリジンにも反応できる。
 他の実施形態として、RNA修飾剤は、RNAプローブ中で二本鎖を形成するような拘束ヌクレオチドを選択的に修飾するものであってもよい。このRNA修飾剤は、例えば、二本鎖RNAを分解する酵素であるRNASEV1や、RNASEIIIファミリーのDICER、または二本鎖結合タンパク質とRNA修飾タンパク質との融合タンパク質などが含まれるがこれらに限定されない。
 このようなRNA修飾剤を含む溶媒溶液を、RNAプローブを含む溶液に添加して、RNAプローブとRNA修飾剤とを接触させる。この溶液は、異なる濃度及び量のタンパク質、細胞、ウイルス、脂質、単糖及び多糖類、アミノ酸、ヌクレオチド、DNA、並びに種々の塩及び代謝産物を含有する生体溶液であってもよい。また異なる濃度及び量の低分子、中分子薬剤を含有する溶液であっても良い。また種々の界面活性剤、ポリマー、オズモライトを含有しても良い。RNA修飾剤の濃度は、RNAに所望の修飾の程度を達成するように調整することができる。
 さらに、解析対象RNAは、タンパク質又は他の低分子及び高分子の生物学的リガンドの存在下で修飾することができる。RNA修飾剤の反応性がpHに依存する場合には、そのpHを、例えば、7.5~9.0の範囲、但しこれに限定されない、に維持してもよい。最大の反応性と最小の反応性ヌクレオチドを区別する機能範囲は、典型的には20~50倍に及ぶ。RNAを所望のpH(例えば、約pH8)で所望の立体配座に折り畳む任意の手順で置換することができる。このRNAを、多量体形態を排除するために、まず加熱し、続いて急いで低イオン強度緩衝液中で冷却することができる。続いて、フォールディング溶液を加えて、RNAが正確な立体配座を達成し、構造に感度が良いRNA修飾剤で探るための準備とすることができる。いくつかの実施態様において、RNAは、修飾前には自然には折り畳まれていない。RNAが熱及び/又は低塩条件により変性されている間に、修飾が行われ得る。
<修飾塩基の検出工程(S30)>
 本工程は、上記修飾工程(S20)で得られたRNAプローブの配列中で、修飾を受けた塩基の位置と頻度を検出する工程である。RNA配列中における修飾塩基を読み取る方法であれば特に限定されず、例えば、修飾塩基に特異的な抗体を用いるプルダウン法や直接RNAの電位を読み取るナノポアシーケンス法であってもよい。この直接RNAナノポアシーケンス法は、単一分子レベルでRNAの修飾部位を検出するための技術である。現在、Oxford Nanopore Technologiesが開発及び市販している直接RNAシーケンシングプラットフォームでは、膜に懸濁された生物学的ナノポアを介してモータータンパク質と結合したRNAが移動する。RNAが電圧バイアス下で細孔を通過するとき、細孔狭窄部を通過する短い配列(5ヌクレオチド)の化学的同一性(つまりシーケンス)に依存して、ピコアンペアのイオン電流の変化が観察される(Garalde,D.R.,et al.(2018)Highly parallel direct RNA sequencing on an array of nanopores. Nat. Methods,及びWorkman,R.E.,et al.(2019)Nanopore native RNA sequencing of a human poly(A) transcriptome.Nat. Methods,16,1297-1305.参照)。SHAPE試薬の1つである、1-アセチルイミダゾール(Aclm)により修飾されたヌクレオチドを、この方法で検出しうることが報告されている(William Stephenson et al., Direct detection of RNA modifications and structure using single molecule nanopore sequencing.bioRxiv doi:https://doi.org/10.1101/2020.05.31.126763,Posted June 01, 2020)。
 好ましい実施形態において、修飾塩基の検出工程(S30)は、図2に示すように、RNAから相補DNA(cDNA)への変換を含む変異プロファイリングである。この実施形態では、最初に、工程S20で得られたRNAプローブの混合物を鋳型として、逆転写酵素又は他のポリメラーゼによりcDNAを合成する(S31)。逆転写酵素とは、RNAからcDNAを合成する酵素であり、例えば、マウス又は鳥類の逆転写酵素のような熱安定性酵素が挙げられるが、これらに限定されない。あるいは、原核生物や真菌などのレトロトランスポゾン内に存在する逆転写酵素TGIRT(Thermostable Group II intron reverse transcriptase)であってもよい。InGex社のTGIRT-IIIは,従来のレトロウィルス由来の逆転写酵素に比べて,熱安定性や処理性,正確性が優れている。またDMSによる修飾箇所において逆転写時に変異を誘発する性質が知られている(DMS-MaPseq法)。
 これらの酵素は、付加物を含むヌクレオチドを読み飛ばし、化学修飾の部位に不正確な(非相補的な)ヌクレオチドを組み込ませることにより、RNA中の化学的修飾を検出する方法が含まれる。本明細書で使用される、ヌクレオチドの取り込みに関する、「不正確な」とは、元の配列中に存在するヌクレオチドに、非相補的なヌクレオチド(ワトソン-クリックの規則に反するヌクレオチド)を組み込むことをいう。これは配列内の少数の欠失を含む。
 続いて、cDNAの塩基配列を決定し、バーコード配列を含む塩基配列を整列させる(S32)。cDNAは、多種類のRNAプローブの混合物に由来するライブラリを用いることにより、超並列配列決定法(MPS)を使用して、RNAなどの核酸中の化学修飾を効率よく検出することができる。一例として、イルミナ社の次世代シーケンサーでは、数千万~数億のDNA断片の両端部のアダプターを介して5’末端側をフローセル上に固定させる。次に、フローセル上に予め固定された5’末端側のアダプターと、DNA断片の3’末端側のアダプター配列とをアニールさせて、ブリッジ状のDNA断片を形成させる。この状態でDNAポリメラーゼによる核酸増幅反応を行うことで、多数の1本鎖DNA断片を局所的に増幅して固定することができる。そして、次世代シーケンサーでは、得られた1本鎖DNAを鋳型として、シーケンシングを行うことで、2020年現在、1回の解析において約3Tbという膨大な配列情報を得ることができる。核酸を高速かつ並列に判読するこれらの技術は「次世代シーケンシング(Next-Generation Sequencing (NGS)」、「超並列シーケンシング」、「超高処理量遺伝子シーケンシング(Ultra-High-Throughput Sequencing)」又は「大規模並列シーケンシング」などとも呼ばれる。
 1つの実施形態では、次世代シーケンサーによって得られた配列データ(リード)を、バーコード配列を含んだ形で整列させる。個々のバーコード配列ごとに配列データを整列させることにより、多種類のRNAプローブを含むサンプルを同時にシーケンスすることができるからである。また、解析対象RNAが類似する配列、例えば、遺伝子ファミリー、一塩基多型などを含む場合であっても、それらを識別して解析することが可能となる。
 あるいは、すべてのcDNAを一緒に整列させた後、信頼度の低い整列物に関して、バーコードの変異情報を加味することでその整列を評価しても良い。いずれの方法においても、バーコード配列とともに解析対象RNA配列を整列させることで配列情報の正確性を向上することができる。
 このように整列させた塩基配列に基づいて、生じた変異の位置と頻度を検出する(S33)。所定のヌクレオチドにおける変異率は、単純にその場所において、変異数(ミスマッチ、欠失及び挿入)を読み取り回数で割ったものである。各ヌクレオチドについて生の反応性を算出したデータは、種々の基準を用いて正規化することができる。シーケンスの読み取り深度や標準誤差を考慮することでデータの品質管理が可能である。
<検出結果の表示(S40)>
 上記工程で検出された変異の位置と頻度は、変異ヒストグラム、シーケンスの深さ及び反応性プロファイルなどの当業者に既知の方法で図示することができる。変異位置と頻度の解析はBWA、STARなどの整列用ソフトウェア(アラインメントソフトウェア)を使用することができる。それらのデータは変異カウントとして数値化、ベクトル化され種々の演算を実施できる。また、統計的優位な反応性を示した変異に対してアノテーションをつけることができる。
 本工程におけるこれらの解析は、コンピュータ読取り可能媒体に保存されたコンピュータプログラム製品を用いて実施することができる。本発明を実施するために適当な例示的コンピュータ読取り可能媒体には、チップメモリデバイス、ディスク記憶装置、プログラマブルロジックデバイス、及び特定用途向け集積回路が含まれる。更に、本工程を実施するコンピュータプログラム製品は、単一のデバイス又はコンピューティングプラットフォーム上に設置することができ、又は複数のデバイス又はコンピューティングプラットフォーム間に分散させることができる。従って、本実施形態の方法により取得したRNAの高次構造をコンピュータと接続されたディスプレイ上に表示することができる。
(作用効果)
 本実施形態で開示した構造化バーコードは、いくつかの有利な作用効果を有する。1つは、RNA修飾剤との反応において、バーコード配列が修飾される可能性が低く、バーコードとして正しく識別することが可能となる。またバーコード部分が解析対象RNA又は他のRNA分子と相互作用することが抑制される。これにより、構造化バーコード配列は、ライブラリ内の類似配列と識別できるだけでなく、同じライブラリの異なるバッチを区別することも可能である。例えば、図4は、37種類の第1のバーコード配列と、4種類の第2のバーコード配列を用いてライブラリ群を作製する方法を表す。最初に作製された37種類のDNAからなるライブラリを4種類の異なるプライマーを用いて増幅することで、1つのライブラリ内では同じ配列であるが、異なるバッチのライブラリでは異なる配列を有する第2のバーコード配列が付加される。これらを用いてインビトロ転写反応を行うことで、2種類のバーコード配列が付加されたRNAライブラリ群を作製することができる。
(RNAプローブ及びRNAプローブライブラリ)
 本発明の他の実施形態としては、構造化されたバーコード配列を含むRNAプローブ及び複数の当該RNAプローブを含むRNAプローブライブラリが提供される。1つの実施形態において、構造化バーコード配列とは、複数の塩基対を含む構造を形成するバーコード配列である。本実施形態のバーコード配列としては、例えば、相補的な二本鎖構造、三重鎖構造又は四重鎖構造を含み、具体的には、ステム-ループ構造、シュードノット構造などを挙げることができる。ステム部分は相補的な二本鎖を形成するが、配列の多様性を増やすために、ワトソン-クリック型塩基対と同程度の熱力学的安定性を有するG-U、I-U、I-A及びI-Cのゆらぎ塩基対(wobble base pair)を含んでいてもよい。Iは、イノシンを表し、その塩基であるヒポキサンチンはウラシル、アデニン、シトシンと塩基対形成が可能である。ウラシルはグアニンとアデニンという2種類の塩基と対合することが可能である。
 他の実施形態では、複数の塩基対を含む構造が、ステム-ループ構造であり、ステム部位に1つ以上のバルジ及び/又は内部ループ構造を有する。これにより構造化バーコードがとり得る高次構造の多様性、種類を向上させることができる。また、構造特異的な変異のネガティブコントロール、ポジティブコントロールとなる塩基を同時に搭載することができる。また1本鎖RNA修飾剤のうち、末端ループには修飾を行うが、バルジや内部ループには修飾をしない分子種に対して構造化バーコードがコントロールとして機能する。
 いくつかの実施形態としては、複数の塩基対を含む構造が、PDB(Protein Data Bank)に登録されているRNA構造又はその改変体である。これによりワトソン-クリック型ではないRNA高次構造をバーコード化することができる。例えば、これにより非ワトソン-クリック型塩基対でないRNA高次構造に対する修飾剤に対する構造化バーコードとして有用である。
 本実施形態のRNAプローブ中における構造化バーコード配列の位置は特に制限されず任意の位置に配置することができる。例えば、解析対象RNAの5’末端側であっても3’末端側であってもよい。あるいは、相補鎖を形成するバーコード配列の一方の鎖が解析対象RNAの5’末端側に位置し、他方の鎖が3’末端側に位置してこれらが解析対象RNAを挟むように二本鎖を形成してもよい。また、構造化バーコード配列の数も特に限定されず、同一又は異なる配列の構造化バーコードが複数個存在してもよい。
 本実施形態のRNAプローブには、解析対象RNAとして少なくとも1つの構造モチーフを含むRNAモチーフが含まれる。このモチーフ領域には、任意のRNA配列情報から抽出したものを用いることができる。または、本発明のRNAプローブに含まれるモチーフ領域には、RNAストラクチュローム研究によりすでに特定された任意のRNA二次構造データから選択されたものを用いてもよい。
 さらに、このRNAプローブは、検出のために、蛍光色素(例えば、FITC、PE、Cy3、Cy5など)、放射性同位体、ジゴキシゲニン(DIG)、ビオチンなどにより標識されてよい。標識は、予め標識した核酸をプローブ合成時に取り込ませることによって行うことができ、例えば、5’側に標識された人工核酸を取り込ませることができる。またRNA全長に標識された人工核酸を取り込ませることができる。3’側には例えばT4 RNA ligase1を用いて標識された人工核酸を標識することができる。標識は、クリック反応などによって多段階的に行われてもよい。例えば、pCp-N3をT4 RNA ligase1を用いて3‘末端に付与したRNAに対して、DBCO-biotin、DBCO-Cy3を反応させることでRNAに蛍光色素やビオチンを取り込ませることができる。これら標識の割合は10,20,30,40,50,60,70,80,90,99,100%でも良い。
 本実施形態のRNAプローブは、従来公知の任意の遺伝子工学的方法により合成することができる。好ましくは、RNAプローブは、合成の受託業者に委託して合成された鋳型DNAを転写することによって作製することができる。DNAからのRNAへの転写を行うため、RNAプローブの配列を含むDNAは、プロモーター配列を有していても良い。特に限定されないが、好ましいプロモーター配列として、T7プロモーター配列が例示される。T7プロモーター配列を用いた場合、例えば、ライフテクノロジーズ社より提供されるMEGAshortscript(商標)T7 Transcription Kitを用いて所望のRNAプローブ配列を有するDNAよりRNAを転写行うことができる。本発明において、RNAは、アデニン、グアニン、シトシン、ウラシルのみならず、修飾RNAであってもよい。修飾RNAは、例えば、プソイドウリジン、5-メチルシトシン、5-メチルウリジン、2’-O-メチルウリジン、2-チオウリジン、およびN6-メチルアデノシンが例示される。
 1つの実施形態において、それぞれ異なる配列の解析対象RNAを含む複数のRNAプローブを含むRNAプローブライブラリを提供する。本実施形態では、多種類のRNAプローブを同時に用意することが好ましく、効率的にRNAプローブの鋳型を含有するオリゴ核酸ライブラリ合成(Oligonucleotide Library Synthesis)技術を用いて行うことが好ましい。これは、スライド上の規定した位置に個々の塩基をプリントするインクジェット技術を用いて、一度に1塩基ずつ合成して、指定の長さの鋳型DNAを伸長させる。次に、構築されたオリゴはスライドから切断され、プール化された後、乾燥し、1本のチューブに入れて保存される。オリゴライブラリは、その後、再溶解、増幅後、インビトロ転写反応によりRNAプローブライブラリを調製することができる。本発明において特に限定されないが、Oligonucleotide Library Synthesisは、アジレントテクノロジー社やツイスト・バイオサイエンス社に委託することによって作製することができる。
 さらに他の実施形態では、複数のRNAプローブを含む本実施形態のRNAプローブライブラリを、第2のバーコード配列を含む複数のプライマーを用いて増幅することにより、2以上の複製物からなるRNAプローブライブラリ群を調製することができる。複製されたすべてのRNAプローブは、第1及び第2のバーコード配列を含み、この第2のバーコード配列は、1つのライブラリ内ではすべて同一配列であるが他のライブラリとの間では識別可能である。後述する実施例によれば、複数のRNAプローブライブラリを混合して変異プロファイリングを行った場合でもそれぞれのRNAプローブライブラリを用いて行った場合と同じ結果が得られたことから、各RNAプローブライブラリを用いてそれぞれ異なる変異プロファイリングを行った後、これらを混合して次世代シーケンシングを行った後、第2のバーコード配列を用いてそれぞれの変異プロファイリングを識別することができると考えられる。したがって、第2のバーコード配列を付与することで、反応条件の異なる変異プロファイリングを行った場合でも同一条件で次世代シーケンシング用ライブラリを調製することができ、変異のプロファイリング工程の格段の効率化が可能となる。この第1及び第2のバーコード配列を含むRNAプローブライブラリ群に、さらに異なるバーコード配列を付加することで3種類又はそれ以上のバーコード配列を含むRNAプローブライブラリ群を作製することも可能である。
 本実施形態のRNAライブラリは、RNAの化学修飾の分析及び/又はRNA構造分析を行うためのキットとして使用することができる。このようなキットの使用方法として、本発明に係るRNAの高次構造解析方法が含まれる。次に実施例を挙げ、本発明を更に詳しく説明するが、本発明はこれら実施例に何ら制約されるものではない。
[実施例1]
材料と方法
(バーコード配列の設計)
 本実施例におけるバーコード配列は、異なる長さのステムとループを使用した。正規の塩基対とGUゆらぎ塩基対を含む、長さ6、7又は8塩基対(bp)のステムをランダムに生成した。ステムの長さごとに、3つの異なる長さのループを使用した。各バーコードに対して、4つのテトラループ(UUCG、GAGA、GCUU、GUAA)のいずれか1つ、又は3もしくは5塩基長の配列(UCG、AGA、CUU、UAA、UUACG、GAAGA、GCUAU、AGUAA)のいずれか1つを選択した。ViennaRNAパッケージを使用して、バーコードを正しく折りたたむように制御した。コントロールとして、構造化されていない10、15及び21塩基長のバーコードを生成した。
(目的RNA配列)
 構造化バーコードの有用性を実証するために、目的RNAとして以下の配列:
5’-GUGUAUGAUGAAACUACAUUAAGUUAACUCGUGCAC-3’(配列番号1)を用いた。この配列から、塩基対を形成しない12カ所の位置を選択し、各位置において、他の3つすべての塩基に変えた点変異体を作成することにより、36個の点変異体を得た。これにより、合計37個の配列が得られた。この37個の配列の任意のペアは、1又は2塩基のみが相違する。
(第1のライブラリ設計)
 第1のライブラリに用いたバーコード配列及びライブラリ構造の概要を図3に示す。図3(a)は、1つのRNAプローブ(ID1)のバーコード配列であり、7bpのステムと4ヌクレオチドのループで構成されている。第1のライブラリ配列は、5’から3’の方向に以下の4つの部分を有する:
i)インビトロ転写(IVT)によるRNAライブラリの生成と、シーケンス用ライブラリの調製に必要な5’カセット(図3(b)における5’側の破線);
ii)個々の配列ごとに異なるバーコード配列(図3(b)の構造化バーコードを含むID1~28及び非構造化バーコードを含むID29~37);
iii)両側に2塩基のスペーサーが隣接する目的RNA配列(図3(b)の実線、なお、配列中の点変異を三角形で示す。);
iv)インビトロ転写(IVT)によるRNAライブラリの生成、逆転写及びシーケンス用ライブラリの調製に必要な3’カセット(図3(b)における3‘側の破線)。
(第2のライブラリ設計)
 第2のライブラリに用いたバーコード配列及びライブラリ構造の概要を図4に示す。この設計によるRNAは、ライブラリ内バーコード(第1のバーコード)とバッチバーコード(第2のバーコード)の2つのバーコードを含む。5’から3’の方向に以下の4つの部分に分けることができる:
i)第1のライブラリ設計で用いたものと同じ5’カセット;
ii)第1のライブラリ設計で用いたものと同じバーコード配列;
iii)両側に2塩基のスペーサーが隣接する目的RNA配列;
iv)プライマー結合を強化する12塩基のリンカー配列。
 インビトロ転写(IVT)を行う前に、さらに以下の2つの部分をポリメラーゼ連鎖反応(PCR)によって取り付けた。
v)4種類のバッチバーコード。このバーコードは、1つのバッチ内のすべての目的RNAで同じ配列である。
vi)第1のライブラリ設計で用いたものと同じ3’カセット。
 第2のライブラリの増幅のために用いたプライマーの塩基配列は以下のとおりである。
Figure JPOXMLDOC01-appb-T000001
(DNA鎖の合成)
 上述したライブラリ及びプライマーは、DNAの形でIntegrated DNA Technologies,Inc.(IDT社)に依頼して合成した。コントロールとして、第1のライブラリで設計した構造化又は非構造化バーコード配列を持つ2つの個別のRNAプローブ(それぞれID1及びID32)を合成した。
(DNAからRNAの合成)
 まず、PlatinumTMSuperFiTMPCR Master Mix(サーモフィッシャーサイエンティフィック株式会社製)を使用して、ライブラリをPCRで増幅した。第1のライブラリと、このライブラリ中の2つの個別の一本鎖RNA用には、T7RNAポリメラーゼプロモーター配列(IVTの認識サイト:5’-TAATACGACTCACTATAG-3’(配列番号6))の下流に5’カセット配列を有するフォワードプライマーと、3’カセット配列に相補的な配列を有するリバースプライマーを使用した。第2のライブラリを調製するためのリバースプライマーとしては、Pr_d2a(配列番号2)、Pr_d2b(配列番号3)、Pr_d2c(配列番号4)及びPr_d2d(配列番号5)を使用して4つの異なるバッチを作成し、バーコードを付加した。すべての反応において、各プライマーは、最終濃度500nMになるように添加し、テンプレートは総濃度0.4nMで提供した。反応容量は25μLであった。すべてのPCRはサーモフィッシャーサイエンティフィック株式会社のProFlexTMPCRシステムで行った。
 30秒間98℃に最初に加熱した後、98℃で10秒間、68℃で10秒間、72℃で15秒間の3ステップPCRを行った。最後のサイクルの後、温度は72℃で5分間保持され、その後4℃に冷却した。2.5μLのエキソヌクレアーゼI(New England Biolabs Inc.)を各チューブに加え、37℃で15分間インキュベートした後、再び4℃に冷却した。精製には、Monarch(登録商標)PCR&DNA Cleanup Kit(5μg)(New England Biolabs Inc.)のDNAクリーンアップおよび濃縮プロトコルを使用した。最終溶出には、10μLのDNA溶出バッファーを使用した。サーモフィッシャーサイエンティフィック株式会社のNanoDropTMOneを使用して、最終濃度を測定した。
 調製された二本鎖DNAは、MEGAshortscripTMT7転写キット(サーモフィッシャーサイエンティフィック株式会社)を使用したIVT反応のテンプレートとして使用した。反応はマニュアルに従って調製した。反応容量は20μL、テンプレート濃度は100nMである。反応物を37℃で6時間インキュベートした後、TURBO DNase(キットに付属)で、37℃で15分間処理した。次に、RNAをZymo ResearchのRNA Clean&Concentrator-25で精製した。
 インビトロ転写反応により合成した第1のライブラリに含まれるRNAプローブのうち、個別のストランドとして合成したID1(配列番号7)及びID32(配列番号8)の塩基配列を図5に示す。図5において、それぞれのバーコード配列部分を四角で囲み、目的RNA配列には下線を付した。
(構造プロファイリング用のRNAの調製)
 RNA修飾には2つの異なる化学修飾剤を使用した。シグマアルドリッチから購入したメチル化剤の硫酸ジメチル(DMS)、及びSHAPE試薬2-メチルニコチン酸イミダゾリド(NAI)である。両方の修飾剤を用いた実験では、同じRNA調製物を使用した。6μLの水に溶解した250ngのRNA(一本鎖またはプール)を95℃で2分間インキュベートし、氷上で少なくとも2分間急冷した。次に、3μLの3.3×フォールディングバッファーを加え、サンプルを37℃で20分間インキュベートした(1×フォールディングバッファーは、100mM HEPES(pH8.0),100mM NaCl,10mM MgClで構成されている)。
(NAIによる構造プロファイリング修飾)
 1000mMのNAI溶液1μLを、空の0.2mLのPCRチューブに加えた。RNAを加える直前まで、チューブを氷上で維持した。37℃で、RNAを含む9μLのサンプルをNAIに加え、溶液を上下にピペッティングして混合した。サンプルは37℃で10分間放置した。
 反応停止後、RNAをZymo Research社のRNA Clean and Concentrator-5キットで精製し、最終溶出量を15μLにした。NAIで修飾された各RNAサンプルについて、NAIの代わりに1μLのDMSOを使用して同じ方法で処理したコントロールサンプルを調製した。
(DMSによる構造プロファイリング修飾)
 37℃で、エタノールを含む1μLの50%DMSを、先に調製したRNAを含む9μLのサンプルに加えた。サンプルを37℃で6分間放置した。5μLのβ-メルカプトエタノールで反応を停止し、完全に混合した後、37℃で2分間インキュベートした。次に、RNAをZymo ResearchのRNA Clean and Concentrator-5キットで精製し、最終溶出量を15μLにした。DMSで修飾された各RNAサンプルについて、DMSの代わりに1μLの50%エタノール水溶液を用いて同じ方法で処理したコントロールサンプルを調製した。
(変異プロファイリングのための逆転写)
 修飾されたRNAサンプルは、3’カセット配列に相補的な配列を有するリバースプライマーを使用して逆転写反応を行った。NAI修飾RNAの場合、マンガンの存在下で酵素SuperScriptTMII逆転写酵素(サーモフィッシャーサイエンティフィック株式会社)を使用した。DMS修飾RNAの場合、TGIRTTM-III酵素(InGex)を使用した。どちらの場合も、1μLの2μMリバースプライマーを2μLの10mMdNTP(New England Biolabs)と7μLの先に修飾したRNAと混合した。サンプルは、サーモフィッシャーサイエンティフィック株式会社のProFlexTMPCRシステムでアニールされ(85℃、1分→65℃、10分→4℃で保持)、これは逆転写ステップにも使用した。次に、9μLの2.22×MaPバッファーを添加して、室温で2分間インキュベートし、1μLの酵素を加え、サンプルをサイクラーに入れて逆転写した(表2を参照)。
Figure JPOXMLDOC01-appb-T000002
 逆転写が終了したら、1μLのRNaseHを加え、サンプルを37℃で20分間インキュベートした。精製には、AMPure XP(Beckman Coulter製)、使用してプロトコルに従って精製した。溶出のために、乾燥したビーズに14μLの水を加え、十分に混合し、室温で10分間インキュベートし、12.5μLの上澄みを回収した。
(次世代シーケンシング用ライブラリの調製)
 ライブラリの準備には、アンプリコンPCRとインデックスPCRの2つのPCRを行った。アンプリコンPCR用1ngの逆転写生成物は、25μLの反応容量で使用した。その他の反応コンポーネントは、1xPlatinumTMSuperFiTMPCR Master Mixと1×SuperFi GC Enhancer(どちらもサーモフィッシャーサイエンティフィック株式会社製)、500nMのフォワードプライマー及びリバースプライマーを用いた。サンプルをProFlexTMPCRシステムに移した。最初に、30秒間98℃に加熱した後、98℃で10秒間、64℃で10秒間、72℃で20秒間の3ステップPCRを行った。最後のサイクルの後、温度は72℃で5分間保持され、その後4℃に冷却した。精製には、Monarch(登録商標)PCR&DNA Cleanup Kit(5μg)(New England Biolabs Inc.)のDNAクリーンアップおよび濃縮プロトコルを使用した。最終溶出には、8μLのDNA溶出バッファーを使用した。これで、次世代シーケンシング用のインデックスを付ける準備ができた。
 次に、25μLの反応容量で1ngのアンプリコンPCR産物を用いてインデックスPCRを行った。その他の反応コンポーネントは、1xPlatinumTMSuperFiTMPCR Master MixとNextera XT Index Kit v2(Illumina)の1μMインデックスプライマーである。サンプルをProFlexTMPCRシステムに移した。30秒間98℃に最初に加熱した後、98℃で10秒間、55℃で10秒間、72℃で20秒間の3サイクルPCRを6サイクル行った。最後のサイクルの後、温度は72℃で5分間保持され、その後4℃に冷却した。精製には、AMPure XP(Beckman Coulter製)を使用してクリーンアップした。溶出のために、乾燥したビーズに13μLの水を加え、十分に混合し、室温で10分間インキュベートし、12μLの上澄みを回収した。その後、サンプルは次世代シーケンシングのために一緒に混合した。
(次世代シーケンシング)
 シーケンシングには、ペアエンドリードと標準リードプライマーを使用したNextSeq500/550ミッドアウトプットキットv2.5(イルミナ社、150サイクル)を使用した。
(アラインメントとデータ分析)
 FASTQファイルのアダプターは最初にトリミングされ、次に、アラインメントソフトウェアを使用して生成されたFASTQファイルのリードを、アラインメントソフトウェアを使用して参照配列が含まれたファイル (リファレンスファイル)に対してマッピングを行った。本解析ではSTARアライナーソフトウェアを用いてマッピングした。さらなる分析のために、変異、欠失および挿入をカウントした。
 図6は、第2のライブラリを用いて行った変異プロファイリング操作の流れを示す模式図である。それぞれ別々に化学修飾を行った4つのライブラリを1本のチューブにまとめて逆転写反応を行った。一方で比較対照用のサンプルとして前記4つのライブラリに対して別々に逆転写反応を行った4本のチューブを用意した。
結果と考察
(RNAライブラリ内の配列を区別するためのバーコード)
 バーコードが変異プロファイリング実験で類似の配列を区別するのに役立つかどうかをテストするために、第1の設計によるライブラリを使用した。文字列の類似度を測る指標としてレーベンシュタイン距離を使用して、2つの配列の類似性を測定した。この距離は、ある配列を別の配列に変換するための挿入、削除、変異の最小数を示す。バーコードを付加しなければ、ライブラリ内の配列の任意のペアに対して、この数は1又は2となる。バーコードを付加すると、レーベンシュタイン距離は7以上である。したがって、変異プロファイリング実験で予想される変異率の増加があっても、シーケンスを正しく識別することができる。完全なライブラリに加えて、ライブラリの2つの単一シーケンス(ID1とID32)をコントロールとして用いた。ID1は構造化バーコードを含むが、ID32は非構造化バーコードを含む(図5参照)。
 3つのRNAサンプル(ライブラリ及び2つコントロール)を、上述したようにNAI又はDMSで修飾した。NAI/DMSで処理しないコントロール実験を含め、合計12サンプルとなる。単一配列を含め上記サンプルを第1のライブラリのすべての配列に整列させた。データは、それぞれのIDについて、各ヌクレオチドの変異(M)、削除(D)及び挿入(I)をカウントすることによって分析した。変異率(mut)は、M、D、Iを合計し、ある塩基位置での読み取りの総数で割ることによって計算した。配列固有の変異によるノイズを減らすために、未修飾サンプルの変異率をNAI/DMS修飾サンプルの変異率から差し引いて、下記式(1)のデルタ変異率を求めた。
   デルタ変異率=修飾変異率-未修飾変異率   (1)
 その結果を図7に示す。図7(a)は、NAIで修飾した第1のライブラリのバーコード配列中のすべてのヌクレオチドに関するデルタ変異率絶対値を示す箱ひげ図である。図7(b)は、DMSで処理したサンプルを同様に分析した結果である。図7において、ノッチは中央値を示し、ボックスは四分位範囲を示す。また、ひげは、ボックスの端からボックスの高さの1.5倍のスパン内にある最大値又は最小値まで上下する。外れ値は円で示した。これらの結果は、NAI又はDMSのいずれの修飾剤で処理した場合でも、構造化バーコード配列(ID1~28)のデルタ変異率の絶対値が、非構造化バーコード配列(ID29~37)のデルタ変異率の絶対値よりも有意に低いことを示している。つまりバーコードの構造化によって変異を防ぐことができることを示している。
(異なるRNAライブラリを区別するためのバーコード)
 第2のライブラリを使用して、バーコードがすべてのバージョンの共通プール内のRNAライブラリの異なるバージョンを区別するのに役立つかどうかを実験した。このため、第2のライブラリは、インビトロ転写の前にプライマーPr_d2a、Pr_d2b、Pr_d2c、Pr_d2dを使用してバッチバーコード(第2のバーコード)をRNAに付与し4つの異なるバージョンに区別した。図6に示したように、RNAライブラリの4つの異なるバージョンが、NAI又はDMSで修飾されるか、又はそれぞれのコントロールとして取り扱われた。精製ステップの後、ライブラリの4つのバージョンの等量を混合することにより、プールされたサンプルが各処理条件に対して作成された。ライブラリの4つの異なるバージョンとプールされたサンプルのそれぞれは、連続したステップで同じ方法で処理された。
 これらのデルタ変異率を、ID1の対象シーケンスをX軸としてプロットした図8(a)及び図8(b)に示す。デルタ変異率は、第1のライブラリ及び第2のライブラリの4つの群すべてを示した(データはプールされたサンプルからのデータである。)。NAI(図8(a))の場合、第1のライブラリと第2のライブラリのデルタ変異率はわずかに異なるが、いずれのライブラリについても非拘束ヌクレオチド領域では変異率が高く、構造プロービングが二次構造に関する情報を反映していることを示している。予測には、ViennaRNAパッケージを使用した。DMS(図8(b))の場合、ライブラリ間の違いはそれほど顕著ではないが、NAIと同様に、構造情報は、拘束されていないことが予測される領域のデルタ変異率がより高い値を示している。実験を行った条件ではDMSは塩基GおよびUの修飾効率が低いため、塩基CおよびAのみがより高い変異率を示す。プールされたサンプルの結果と個別に処理されたサンプルの結果を比較すると、グラフの曲線間に良好なオーバーラップが見られる(図8(c)及び図8(d))。したがって、プーリングは実験の結果に大きな影響を与えないと考えられ、バーコードとしての機能を果たしている。
(第2の設計によるRNAライブラリの2次構造情報)
 図8は、単一IDの変異プロファイルのみを示している。次にすべてのIDの変異プロファイルを分析し、ViennaRNAパッケージで予測した二次構造と比較した。図9は、第2のライブラリをそれぞれ単独で又はプールしてNAI又はDMSで化学修飾したときの、塩基対を形成すると予測された領域(図9の黒い領域)と非結合であると予測された領域(図9の灰色の領域)のデルタ変異率の絶対値を別々にプロットしたバイオリンプロットである。図9(a)は、NAIで処理したサンプル、図9(b)は、DMSで処理したサンプルであり、それぞれのx軸に示したIDのうち、ID1~28は構造化バーコード配列を、ID29~37は非構造化バーコード配列を含む。この結果は、4つの個別のサンプル(図9の「バイオリン」の左側)とプールされたサンプル(図9の「バイオリン」の右側)の分布が非常に似ていることも示している。DMSの場合、塩基AとCの位置のみが考慮される。
 この結果は、各IDのサンプルについて、NAI(図9(a))又はDMS(図9(b))を使用すると、非結合領域のデルタ変異率の絶対値が高くなることを示しており、ライブラリ内の各シーケンスについて、二次構造情報を取得できることを示している。さらに、プールされたサンプルとプールされていないサンプルでは、平均値と分布の幅(標準偏差)に大きな違いは認められなかった。DMSで修飾した場合は、S/N比が向上し、修飾されたRNAと修飾されていないRNAの分布のオーバーラップは少なくなることを示している。一方で構造化バーコード(ID1~28)に対して非構造化バーコード(ID29~37)においては分布の顕著なオーバーラップが観察されることが多い。これは非構造化バーコードにおいてRNA構造予測によるデータと一致しないことを意味しており、非構造化バーコードが解析対象のRNAの構造に影響を与えたことを示している。
[実施例2]構造化バーコードの使用によるバーコード識別の正確性
 全体で54種類のRNA構造が混在するマルチプレックス化されたライブラリ(RNAプローブライブラリ)に対して、96種類の構造化バッチバーコードを用意した。その後マッピングのために、ライブラリに含まれる54種類すべてのRNA構造に異なるバーコードを付与し、96×54種類のリファレンスファイルを作成した。実際にそのうちIDが異なる2種類のバッチバーコードを付加したRNAプローブライブラリを試験管内合成し、DMSによる変異プロファイル実験を行った。検証実験のために異なる構造化バッチバーコードに対して対応したインデックスを付与し、次世代シーケンシング解析を行った。その後、得られたすべてのリードをリファレンスファイルにマッピングをした。本解析ではSTARアライナーソフトウェアを用いてマッピングした。その結果を図10及び図11に示す。
 図10は構造化バッチバーコード1を用いた実験であり、横軸にシーケンスとマッピングにより実際に判定されたID、縦軸にリード数の合計(Depth_sum)を示す。構造化バッチバーコード1を用いた変異プロファイル反応系では修飾剤を用いておらず、RNA構造選択的な変異導入の効果がない。実際に構造化バッチバーコード1のほとんどはID1と正しい判定を受けている。18種類のIDにマッピングが間違って行われたという判定がされているが、正解のID1に対して、その他のIDのリード数では1/1000~1/10000以下と非常に小さいため、変異プロファイルのデータの解釈に影響を与えない。
 図11は構造化バッチバーコード2を用いた実験であり、横軸にシーケンスとマッピングにより実際に判定されたID、縦軸にリード数の合計(Depth_sum)を示す。構造化バッチバーコード2を用いた変異プロファイル反応系では修飾剤を用いており、RNAの高次構造選択的に変異導入が行われる。図10に対して図11では、変異導入のため一定以上のリード数の検出が行われたIDが増えた現象が確認されたものの、図10と同様に大多数のリード数はID2と正解の判定を受けた。加えて、正しいID(ID2と判定されたもの)に比して間違って判定されたID(ID2以外と判定されたもの)のリード数の総和は1/100~10000以下と非常に小さいため、変異プロファイルのデータの解釈に影響を与えない。
 実際にライブラリ中の54種類のRNAごとに正確性(正しいIDと判定された割合)を確認した(図12、13)。その結果、非修飾条件における正確性は平均99.91%、変異導入条件では平均99.44%であり、変異導入条件においても高い正確性を維持していた。
 以上より、構造化バッチバーコードは変異プロファイルにおいて、マッピングの正確性を損なわずに正解のバーコードIDを他の間違ったIDと明確に区別できるため、複数の異なる条件を同時に混ぜるマルチプレックス化に有用である。
[実施例3]バーコードと他のバーコード(インデックス)との組み合わせによるマルチプレックス化の効果
 RNAを用いた変異プロファイル反応を終え、DNAに変換したのちに市販のインデックスプライマー(例、Nextera XT Index Kit <イルミナ社>)などと組み合わせることで、サンプルの由来や条件の複雑性を上げることができる。図14は縦軸にイルミナ社の配列に基づいたインデックスプライマー(バーコードとして機能する)、横軸に実施例2で調製した構造化RNA ID7のサンプルをマッピングした際に判定されたIDを示す。カラースケールはリード数の平均値を示す。
 上記より、どのインデックスプライマーにおいても構造化バッチバーコード(ID)は高い正確性を保って識別可能であることがわかった。つまり、バッチバーコードに加え、複数の形態のDNAバーコードを組み合わせることで検体数を大規模に拡張可能と言える。例えば、10種類のインデックスプライマーと96種類の構造化バーコードを使用することで10×96の960通りの条件を設定できる。
[実施例4]構造化バーコードを用いた次世代シーケンス解析における直交性
 全体で異なる1500種類のRNAプローブが混在するマルチプレックス化されたライブラリ(RNAプローブライブラリ)に対して、32種類の構造化バッチバーコードを用意した。その後マッピングのために、1500種類すべてのRNAに異なるバッチバーコードを付与し、32×1500種類(48000種類)のリファレンスファイルとともに実際にRNAプローブライブラリを試験管内合成した。次に、構造化バッチバーコードが付与されたRNAプローブライブラリ群を用いたプロファイル解析を行った。検証実験のために32の異なる構造化バッチバーコードに対してすべて32種類異なるインデックスプライマーを用いてインデックス(Index ID)を付与し、次世代シーケンサー(MiSeq<イルミナ社>)によるシーケンシング解析を行った。その後、インデックスにより32種類のファイルに分配した。バーコードが正しく機能すれば、インデックスID1に相当するファイルには構造化バッチバーコードID1が付与されたRNAプローブライブラリが含まれる。その後、得られたすべてのリードをリファレンスファイルにマッピングをした。本解析ではSTARアライナーソフトウェアを用いてマッピングした。
 図15では、横軸に正しいインデックス(Index ID)、縦軸に実際にシーケンスとマッピングにより判定された構造化バッチバーコードID(Batch BarcodeID)を示す。ヒートマップの色はマッピングされたリード数のRNAプローブライブラリ内での平均値(Depth_mean)を示す。図15に示す通り、すべての構造化バーコードについて、正しいIDへと割り振られることを確認した。さらに、図16に示す通り、誤判定はライブラリ中の1500種類RNAに対してほとんどが0または10種類未満に対して発生することがわかり、ライブラリ全体のRNAに対して影響はごく小さい。
 加えてこれらの誤判定されたRNA種類に対してのリード数は正しいIDに比しておよそ1/100~10000以下であるため、さらに影響が小さく、誤判定がプロファイルの結果への解釈に影響を与えないと言える(図17)。このため、構造化バッチバーコードは意図した通り高い直交性を有していると言え、バーコードとして機能したことを示す。なお、図16にて、一部800種類、130種類程度の混在が確認されたデータ点があるが、それは隣り合ったチューブ間で連続して発生していることやバーコードにおける類似性がないため、人為的ミスによるコンタミネーションと判断され、特定の構造化バーコードによる問題ではない。
 なお、本実施例で用いた構造化バーコード配列の例(ID12及びID28)を図18に示す。ID12の構造化バーコードRNAは、22塩基長:5’-GCUAGAAGAUUUGUCUUCUGGU-3’(配列番号9)で4塩基のループ構造を含む。一方、ID28の構造化バーコードRNAは、19塩基長:5’-UUGCGAGAUAUUCUCGCGA-3’(配列番号10)で3塩基のループ構造を含む。このように、構造化バーコードは塩基配列のみならず長さと高次構造を変更することもできるため、その組み合わせをさらに拡大することが可能である。
 以上のように、構造化バーコードは複数の反応条件での構造プロービング試験の多重化(マルチプレックス化)が可能である。応用としては異なる反応組成、実験環境条件を複数揃えた上で構造プロービング試験を行うことができ、それらの異なる条件がRNA構造に与える影響を大規模にスクリーニングすることができる。例えば、以下の参考文献[1]~[3]に例示される方法などを用いて、構造変化をきたすことが知られている分子や条件の評価を一度に複数種類行うスクリーニングへと拡張することができる。
参考文献
[1] Komatsu, K. R., Taya, T., Matsumoto, S., Miyashita, E., Kashida, S., & Saito, H. (2020). RNA structure-wide discovery of functional interactions with multiplexed RNA motif library. Nature communications, 11(1), 1-14.
[2] Tapsin, S., Sun, M., Shen, Y., Zhang, H., Lim, X. N., Susanto, T. T., ... & Wan, Y. (2018). Genome-wide identification of natural RNA aptamers in prokaryotes and eukaryotes. Nature communications, 9(1), 1-10.
[3] Corley, M., Flynn, R. A., Lee, B., Blue, S. M., Chang, H. Y., & Yeo, G. W. (2020). Footprinting SHAPE-eCLIP Reveals Transcriptome-wide Hydrogen Bonds at RNA-Protein Interfaces. Molecular Cell, 80(5), 903-914.

Claims (14)

  1.  RNAの高次構造を解析するための方法であって、
    (a)解析対象RNAにバーコード配列を付加した1又は複数のRNAプローブを調製する工程、
    (b)前記RNAプローブとRNA修飾剤とを接触させる工程、及び
    (c)工程(b)で得られたRNAプローブの配列中で、修飾を受けた塩基の位置と頻度を検出する工程、を含み、前記バーコード配列は前記RNA修飾剤との反応が抑制される構造を有する、方法。
  2.  前記工程(c)が以下の工程:
    (c1)工程(b)で得られたRNAプローブの混合物を鋳型として逆転写酵素により相補DNAを合成する工程、
    (c2)前記相補DNAの塩基配列を決定し、前記バーコード配列を含む塩基配列を整列させる工程、及び
    (c3)前記整列させた塩基配列に生じた変異の位置と頻度を検出する工程、
    を含む、請求項1に記載の方法。
  3.  前記RNA修飾剤が、前記RNAプローブ中の拘束ヌクレオチドを選択的に修飾するとき、前記バーコード配列が塩基対を形成しない配列である請求項1又は2に記載の方法。
  4.  前記RNA修飾剤が、前記RNAプローブ中の非拘束ヌクレオチドを選択的に修飾するとき、前記バーコード配列が複数の塩基対を含む構造を形成する請求項1又は2に記載の方法。
  5.  前記複数の塩基対を含む構造が、相補的な二本鎖構造、三重鎖構造又は四重鎖構造である請求項4に記載の方法。
  6.  前記複数の塩基対が、ステム-ループ構造又はシュードノット構造のステム部位に存在する請求項4又は5に記載の方法。
  7.  前記複数の塩基対を含む構造が、ステム-ループ構造であり、ステム部位に1つ以上のバルジ及び/又は内部ループ構造を有する請求項4~6のいずれか一項に記載の方法。
  8.  前記複数の塩基対を含む構造が、PDB(Protein Data Bank)に登録されているRNA構造又はその改変体である請求項4~7のいずれか一項に記載の方法。
  9.  前記解析対象RNAが、少なくとも1つのRNAモチーフを含む、請求項1~8のいずれか一項に記載の方法。
  10.  複数の塩基対を含む構造を形成するバーコード配列が付加された解析対象RNAを含むRNAプローブ。
  11.  前記複数の塩基対を含む構造が、相補的な二本鎖構造、三重鎖構造又は四重鎖構造である請求項10に記載のRNAプローブ。
  12.  前記複数の塩基対が、ステム-ループ構造又はシュードノット構造のステム部位に存在する請求項10又は11に記載のRNAプローブ。
  13.  複数の塩基対を含む構造を形成するバーコード配列がそれぞれの解析対象RNAに付加された複数のRNAプローブを含むRNAプローブライブラリ。
  14.  請求項13に記載のRNAプローブライブラリの2以上の複製物からなるRNAプローブライブラリ群であって、複製されたすべてのRNAプローブは、さらに第2のバーコード配列を含み、前記第2のバーコード配列は、1つのライブラリ内ではすべて同一配列であるが他のライブラリとの間では識別可能である、RNAプローブライブラリ群。

     
PCT/JP2021/042250 2020-11-18 2021-11-17 変異プロファイリングのためのrnaプローブ及びその使用 WO2022107814A1 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
EP21894688.7A EP4202056A4 (en) 2020-11-18 2021-11-17 RNA PROBE FOR MUTATION PROFILING AND ITS USE
CA3200114A CA3200114C (en) 2020-11-18 2021-11-17 Rna probe for mutation profiling and use thereof
CN202180064091.3A CN116234903B (zh) 2020-11-18 2021-11-17 用于突变谱分析的rna探针及其用途
IL301876A IL301876B2 (en) 2020-11-18 2021-11-17 RNA testing for mutation profiling and its use
JP2022530711A JP7141165B1 (ja) 2020-11-18 2021-11-17 変異プロファイリングのためのrnaプローブ及びその使用
JP2022139711A JP2022177068A (ja) 2020-11-18 2022-09-02 変異プロファイリングのためのrnaプローブ及びその使用
US18/296,375 US20240052339A1 (en) 2020-11-18 2023-04-06 Rna probe for mutation profiling and use thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-191550 2020-11-18
JP2020191550 2020-11-18

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/296,375 Continuation US20240052339A1 (en) 2020-11-18 2023-04-06 Rna probe for mutation profiling and use thereof

Publications (1)

Publication Number Publication Date
WO2022107814A1 true WO2022107814A1 (ja) 2022-05-27

Family

ID=81708923

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/042250 WO2022107814A1 (ja) 2020-11-18 2021-11-17 変異プロファイリングのためのrnaプローブ及びその使用

Country Status (7)

Country Link
US (1) US20240052339A1 (ja)
EP (1) EP4202056A4 (ja)
JP (2) JP7141165B1 (ja)
CN (1) CN116234903B (ja)
CA (1) CA3200114C (ja)
IL (1) IL301876B2 (ja)
WO (1) WO2022107814A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0312220B2 (ja) 1985-05-08 1991-02-19 Honda Motor Co Ltd
WO2018003809A1 (ja) 2016-06-27 2018-01-04 国立大学法人京都大学 Rna構造ライブラリ
JP6612220B2 (ja) * 2013-10-07 2019-11-27 ザ ユニバーシティ オブ ノース カロライナ アット チャペル ヒル 核酸における化学修飾の検出

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101622363B (zh) * 2007-07-13 2012-09-05 爱科来株式会社 用于检测jak2基因的突变的探针及其用途
CN101586150B (zh) * 2008-05-23 2016-09-28 陕西佰美基因股份有限公司 检测探针、通用寡核苷酸芯片及核酸检测方法及其用途
US9175338B2 (en) * 2008-12-11 2015-11-03 Pacific Biosciences Of California, Inc. Methods for identifying nucleic acid modifications
WO2011140510A2 (en) * 2010-05-06 2011-11-10 Bioo Scientific Corporation Oligonucleotide ligation, barcoding and methods and compositions for improving data quality and throughput using massively parallel sequencing
ES2927412T3 (es) * 2018-11-08 2022-11-04 Siemens Healthcare Gmbh Secuenciación directa de nanoporos de ARN con la ayuda de un polinucleótido de horquilla

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0312220B2 (ja) 1985-05-08 1991-02-19 Honda Motor Co Ltd
JP6612220B2 (ja) * 2013-10-07 2019-11-27 ザ ユニバーシティ オブ ノース カロライナ アット チャペル ヒル 核酸における化学修飾の検出
WO2018003809A1 (ja) 2016-06-27 2018-01-04 国立大学法人京都大学 Rna構造ライブラリ

Non-Patent Citations (18)

* Cited by examiner, † Cited by third party
Title
AW, J.G.A.LIM, S.W.WANG, J.X. ET AL.: "Determination of isoform-specific RNA structure with nanopore long reads", NAT BIOTECHNOL, 2020
BENSON, D. ET AL., NUCL. ACIDS RES., vol. 41, 2013, pages D36 - D42
BERKOWITZ, N. D. ET AL., BMC BIOINFORMATICS, vol. 17, 2016, pages 215
CORLEY, M.FLYNN, R. A.LEE, B.BLUE, S. M.CHANG, H. Y.YEO, G. W.: "Footprinting SHAPE-eCLIP Reveals Transcriptome-wide Hydrogen Bonds at RNA-Protein Interface", MOLECULAR CELL, vol. 80, no. 5, 2020, pages 903 - 914, XP086383987, DOI: 10.1016/j.molcel.2020.11.014
GARALDE, D. R. ET AL.: "Highly parallel direct RNA sequencing on an array of nanopores", NAT. METHODS, 2018
HAMADA, M. ET AL., BIOINFORMATICS, vol. 25, 2009, pages 465 - 473
KOMATSU, K. R.TAYA, T.MATSUMOTO, S.MIYASHITA, E.KASHIDA, S.SAITO, H.: "RNA structure-wide discovery of functional interactions with multiplexed RNA motif library", NATURE COMMUNICATIONS, vol. 11, no. 1, 2020, pages 1 - 14
KWOK CHUN KIT, TANG YIN, ASSMANN SARAH M., BEVILACQUA PHILIP C.: "The RNA structurome: transcriptome-wide structure probing with next-generation sequencing", TRENDS IN BIOCHEMICAL SCIENCES, vol. 40, no. 4, 1 April 2015 (2015-04-01), AMSTERDAM, NL , pages 221 - 232, XP055931788, ISSN: 0968-0004, DOI: 10.1016/j.tibs.2015.02.005 *
MEGAN ZUBRADT ET AL.: "DMS-Mapseq for genome-wide or targeted RNA structure probing in vivo", NAT METHODS, vol. 14, 2017, pages 75 - 82, XP055931783, DOI: 10.1038/nmeth.4057
MOKREJS, M. ET AL., NUCL. ACIDS RES., vol. 38, 2010, pages D131 - D136
NAWROCKI, E. P. ET AL., NUCL. ACIDS RES., vol. 43, 2015, pages D130 - D137
SATO, K. ET AL., METHODS BIOCHEM. ANAL., vol. 27, 2011, pages i85 - i93
See also references of EP4202056A4
STROBEL ERIC J; WATTERS KYLE E; LOUGHREY DAVID; LUCKS JULIUS B: "RNA systems biology: uniting functional discoveries and structural tools to understand global roles of RNAs", CURRENT OPINION IN BIOTECHNOLOGY, vol. 39, 30 April 2016 (2016-04-30), GB , pages 182 - 191, XP029569342, ISSN: 0958-1669, DOI: 10.1016/j.copbio.2016.03.019 *
TAPSIN, S.SUN, M.SHEN, Y.ZHANG, H.LIM, X. N.SUSANTO, T. TWAN. Y.: "Genome-wide identification of natural RNA aptamers in prokaryotes and eukaryotes", NATURE COMMUNICATIONS, vol. 9, no. 1, 2018, pages 1 - 10
WILLIAM STEPHENSON ET AL.: "Direct detection of RNA modifications and structure using single molecule nanopore", BIORXIV DOI: HTTPS://DOI.ORG/10.1101/2020.05.31.126763, 1 June 2020 (2020-06-01)
WORKMAN, R.E. ET AL.: "Nanopore native RNA sequencing of a human poly(A) transcriptome", NAT. METHODS, vol. 16, 2019, pages 1297 - 1305, XP036953641, DOI: 10.1038/s41592-019-0617-2
ZUBRADT MEGHAN, GUPTA PAROMITA, PERSAD SITARA, LAMBOWITZ ALAN M, WEISSMAN JONATHAN S, ROUSKIN SILVI: "DMS-MaPseq for genome-wide or targeted RNA structure probing in vivo", NATURE METHODS, vol. 14, no. 1, 1 January 2017 (2017-01-01), New York, pages 75 - 82, XP055931783, ISSN: 1548-7091, DOI: 10.1038/nmeth.4057 *

Also Published As

Publication number Publication date
JP2022177068A (ja) 2022-11-30
CA3200114C (en) 2024-06-04
IL301876B2 (en) 2024-05-01
US20240052339A1 (en) 2024-02-15
JP7141165B1 (ja) 2022-09-22
EP4202056A1 (en) 2023-06-28
IL301876A (en) 2023-06-01
CN116234903A (zh) 2023-06-06
CA3200114A1 (en) 2022-05-27
CN116234903B (zh) 2024-06-11
JPWO2022107814A1 (ja) 2022-05-27
IL301876B1 (en) 2024-01-01
EP4202056A4 (en) 2024-05-29

Similar Documents

Publication Publication Date Title
US11676682B1 (en) Methods for accurate sequence data and modified base position determination
RU2698125C2 (ru) Библиотеки для секвенирования нового поколения
CN109154013B (zh) 转座酶和y衔接子用于片段化和标签化dna的用途
CN102648295B (zh) 用于多重基因分型的多样品索引
CN109844137B (zh) 用于鉴定嵌合产物的条形码化环状文库构建
JP2017508471A (ja) 次世代シークエンシングにおける稀な遺伝子変異の正確な検出
US10385476B2 (en) Methods and compositions for the selection and optimization of oligonucleotide tag sequences
US20220364169A1 (en) Sequencing method for genomic rearrangement detection
CN108138175A (zh) 用于分子条形码编码的试剂、试剂盒和方法
JP2022160425A (ja) 次世代配列決定法を用いた標的タンパク質の集団的定量方法とその用途
WO2022107814A1 (ja) 変異プロファイリングのためのrnaプローブ及びその使用
TWI771847B (zh) 擴增和確定目標核苷酸序列的方法
WO2023201487A1 (zh) 接头、接头连接试剂及试剂盒和文库构建方法

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2022530711

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21894688

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021894688

Country of ref document: EP

Effective date: 20230322

ENP Entry into the national phase

Ref document number: 3200114

Country of ref document: CA

NENP Non-entry into the national phase

Ref country code: DE