WO2019004080A1 - 融合遺伝子及び/又はエクソンスキッピングにより生ずる転写産物を検出するためのプローブ及び方法 - Google Patents

融合遺伝子及び/又はエクソンスキッピングにより生ずる転写産物を検出するためのプローブ及び方法 Download PDF

Info

Publication number
WO2019004080A1
WO2019004080A1 PCT/JP2018/023799 JP2018023799W WO2019004080A1 WO 2019004080 A1 WO2019004080 A1 WO 2019004080A1 JP 2018023799 W JP2018023799 W JP 2018023799W WO 2019004080 A1 WO2019004080 A1 WO 2019004080A1
Authority
WO
WIPO (PCT)
Prior art keywords
probe
transcript
gene
cdna
exon
Prior art date
Application number
PCT/JP2018/023799
Other languages
English (en)
French (fr)
Inventor
博行 間野
真路 高阪
敏秀 上野
Original Assignee
国立大学法人東京大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人東京大学 filed Critical 国立大学法人東京大学
Priority to CN201880043242.5A priority Critical patent/CN110832076B/zh
Priority to JP2019526862A priority patent/JPWO2019004080A1/ja
Priority to KR1020197038272A priority patent/KR102604001B1/ko
Priority to US16/625,301 priority patent/US20200165687A1/en
Priority to EP18823127.8A priority patent/EP3647420B1/en
Priority to EP23181081.3A priority patent/EP4269610A3/en
Publication of WO2019004080A1 publication Critical patent/WO2019004080A1/ja
Priority to JP2023024770A priority patent/JP2023054163A/ja

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/111General methods applicable to biologically active non-coding nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/52Predicting or monitoring the response to treatment, e.g. for selection of therapy based on assay results in personalised medicine; Prognosis

Definitions

  • the present invention provides a probe for determining the presence or expression level of a fusion gene transcript on a genome, a probe for determining the presence or expression level of a transcript produced by exon skipping, a kit comprising the probe,
  • the present invention relates to a method of determining the presence or expression level of a fusion gene transcript on a genome using the probe, and a method of determining the presence or expression level of a transcript produced by exon skipping.
  • Fusion genes are known to contribute to somatic cancer mutations, and so far several treatments have been developed for cancers resulting from fusion genes. For example, for a patient having a cancer mutation such as a BCR-ABL1 fusion gene (non-patent document 1) in chronic myeloid leukemia and an EML4-ALK fusion gene (non-patent document 2) in non-small cell lung cancer First choice therapy using This improved the outcome of cancer treatment due to the fusion gene.
  • a cancer mutation such as a BCR-ABL1 fusion gene (non-patent document 1) in chronic myeloid leukemia and an EML4-ALK fusion gene (non-patent document 2) in non-small cell lung cancer
  • Target sequencing of cancer related genes by target gene enrichment of gDNA by amplicon PCR or hybridization capture is an example of a method used for detection of mutations such as fusion genes.
  • junctions such as fusion genes are often widely distributed in introns of each gene. Therefore, in the conventional hybridization capture method, in order to capture a junction of a fusion gene and exon skipping, it is necessary to create a probe without bias to introns, and a large number of probes are required.
  • RNA sequencing has been proposed as an alternative to detect fusion transcripts from fresh frozen samples or cell lines.
  • samples with low RNA quality low quality RNA samples
  • FFPE formalin fixed paraffin embedded
  • RNA-seq has been reported to be useful based on cDNA capture or uncarded multiplex PCR, but these types of methods use a large number of target genes. The clinical usefulness is low because it is limited to Therefore, there has been a need for a method that can easily detect a large number of target genes for low quality RNA samples.
  • the present invention aims to provide a method that can conveniently detect transcripts generated by fusion gene and / or exon skipping.
  • the present inventor creates a probe that can be used to detect a fusion gene on the genome or a transcript generated by exon skipping in massively parallel sequencing, and this probe is used to generate a fusion gene or exon skipping on the genome. We have found that transcripts can be detected efficiently.
  • the present invention includes the following aspects.
  • a probe for determining the presence of the transcript of a fusion gene on the genome or the expression level thereof in large scale parallel sequencing The fusion gene expresses a transcript in which a part of the gene A on the 5 'side and a part of the gene B on the 3' side are linked at a virtual junction. Said probe hybridizes to a region derived from either gene A or B of cDNA prepared from said transcript; When the probe is hybridized to the cDNA, the shortest base length from the end of the probe to the virtual connection point is x, and in the probe, the base length of the region to be hybridized with the cDNA is y.
  • Lead for large scale parallel sequencing Probe with zzx + y, where z is the length.
  • the fusion gene expresses a transcript in which a part of the gene A on the 5 'side and a part of the gene B on the 3' side are linked at a virtual junction.
  • the shortest base length from the end of each of the probes to the virtual connection point is x, and in each of the probes, the base length of the region that hybridizes with cDNA is y, large scale parallel sequencing
  • a probe set in which zxx + y, where z is a lead length of (3) A probe for determining the presence or the amount of expression of a transcript produced by exon skipping in massively parallel sequencing, In the transcript, the 5 'exon A' and the 3 'exon B' are linked at a hypothetical junction, Said probe hybridizes to a region derived from either exon A 'or B' of cDNA prepared from said transcript;
  • the shortest base length from the end of the probe to the virtual connection point is x, and in the probe, the base length of the region to be hybridized with
  • a probe set for determining the presence of the transcript produced by exon skipping or the expression level thereof in large scale parallel sequencing In the transcript, the 5 'exon A' and the 3 'exon B' are linked at a hypothetical junction, Comprising at least two different probes which hybridize to a region from either exon A 'or B' of cDNA prepared from said transcript, When the probe is hybridized to the cDNA, the shortest base length from the end of each of the probes to the virtual connection point is x, and in each of the probes, the base length of the region that hybridizes with cDNA is y, large scale parallel sequencing A probe set in which zxx + y, where z is a lead length of (5) The probe or probe set according to any one of (1) to (4), wherein x is 0 to 140, y is 30 to 140, and z is 100 to 300.
  • the probe set according to any one of (2) and (4) to (7), which is (9) A probe for determining the presence or the amount of expression of a transcript of a fusion gene on the genome in massively parallel sequencing,
  • the fusion gene expresses a transcript in which a part of the gene A on the 5 'side and a part of the gene B on the 3' side are linked at a virtual junction.
  • a probe set for determining the presence of a transcript of a fusion gene on the genome or the expression level thereof in large scale parallel sequencing The fusion gene expresses a transcript in which a part of the gene A on the 5 'side and a part of the gene B on the 3' side are linked at a virtual junction.
  • a probe set comprising at least two different probes that hybridize to a region containing the virtual ligation point of cDNA prepared from the transcript.
  • a probe for determining the presence of a transcript produced by exon skipping or the expression level thereof in large scale parallel sequencing In the transcript, the 5 'exon A' and the 3 'exon B' are linked at a hypothetical junction, A probe that hybridizes to a region containing the virtual connection point where exon skipping can occur in cDNA prepared from the transcript.
  • a combined probe set comprising a plurality of different probes or probe sets according to any of (1) to (12).
  • a kit comprising the probe, the probe set or the combined probe set according to any one of (1) to (15).
  • preparing a transcript from a sample derived from a subject Preparing a cDNA from the transcript; (10) concentrating target cDNA hybridized to the probe of any one of (1) to (15), the probe set or the combined probe set,
  • a method of determining the presence or the amount of expression of a transcript containing a transcript of a fusion gene on a genome comprising (18) In the determination, the following steps: Assuming that the fusion gene expresses a transcript in which a part of the gene A on the 5 'side and a part of the gene B on the 3' side are linked at a virtual junction.
  • a method of determining the presence or the expression level of a transcript including a transcript produced by exon skipping comprising: (20) Judgment is the following steps: In the transcript, when it is assumed that the 5 'exon A' and the 3 'exon B' are linked at a hypothetical junction, The read number of cDNA from exon A 'where gene fusion does not occur at the virtual junction is ⁇ ', the read number of cDNA from exon B 'is ⁇ ', and the number of cDNA reads from transcripts generated by exon skipping is If ⁇ ' If 0 ⁇ ′ or ⁇ ′ ⁇ ⁇ ′, it is determined that a transcript resulting from exon skipping is present, If 0 ⁇ ′ ⁇ ′ or ⁇ ′, it is determined that a transcript produced by exon skipping is present at a low expression level, The method according to (19), which is carried out by the step of determining that there is no transcript generated by exon skipping if ⁇ ′
  • the method includes correcting the expression amount of a transcript based on the number of the plurality of probes, (17) to (20) The method described in any of the above. (22) The method according to any one of (17) to (21), which comprises correcting the expression level of the transcript based on the expression level of the housekeeping gene in the determination step.
  • a method of determining the presence or the risk of having a disease in a subject, identifying the type of cancer, or determining the prognosis of cancer, comprising (24) The method according to (23), wherein the identification of the type of cancer comprises clustering a sample from a subject based on the presence and / or the amount of expression of a plurality of transcripts.
  • the present specification includes the disclosure content of Japanese Patent Application No. 2017-125074 based on which the priority of the present application is based.
  • a method can be provided which can conveniently detect a fusion gene and / or a transcript generated by exon skipping.
  • FIG. 1A is a conceptual view of a probe according to an embodiment of the present invention.
  • the illustrated probe has a 5 'end at the right end and a 3' end at the left end. Determine the shortest base length x from the end of the probe to the virtual connection point based on the read length z and the base length y of the region that hybridizes to the cDNA in the probe so that a ligation support lead containing the virtual connection point can be obtained be able to.
  • FIG. 1B shows an example of a method of detecting a fusion gene and / or a transcript generated by exon skipping from the result of sequencing in the method of one embodiment of the present invention. As shown in FIG.
  • the number of cDNAs derived from gene A at which gene mutations (gene fusion or exon skipping) have not occurred at the virtual junctions
  • the number of cDNAs derived from gene B at the virtual junctions.
  • FIG. 2A shows the number of ligated supported reads per 10 M (10 million) raw reads in each method shown (Pancancer panel shows total exon capture of synthetic cDNA from FFPE).
  • the number of probes is shown in FIG. 2B and the target capture size in FIG. 2C using the junction capture method of one embodiment of the present invention and the conventional coding exon capture method.
  • V1, V2 and V3 in FIG. 2B and FIG. 2C show the results in the gene panels (TOP RNA V1, TOP RNA V2 and TOP RNA V3) described in the examples.
  • FIG. 3A shows three different methods: poly A selection (poly A capture) of RNA extracted from fresh frozen samples, whole exon capture of synthetic cDNA from FFPE (Pancancer panel), or junction of synthetic cDNA from FFPE The capture is used to show the result of mapping the sequence reads to MET transcripts in the case of MET exon 14 skipping positive cases by RNA-seq.
  • the region sandwiched by two vertical lines indicates the region corresponding to MET exon 14, and the absence of a read in this region indicates that exon skipping is positive.
  • FIG. 3B shows the number of linked (exon skipping) supported reads of MET exon 13 and MET exon 15 per 10 million low reads in each method.
  • FIG. 4A is a representative picture of hematoxylin and eosin stained bone marrow aspirates (200 ⁇ magnification, scale bar 100 ⁇ m).
  • FIG. 4B is a representative photograph of hematoxylin and eosin stained TBLB specimens (left, 40 ⁇ magnification, scale bar 1 mm, right, 400 ⁇ magnification, scale bar 100 ⁇ m).
  • FIG. 5 is a view showing the correlation between the RPKM of RNA-seq and the RPKM corrected based on the number of tilings in the junction capture method. The results of the expression amount measurement gene group are shown in A, and the results of the fusion gene analysis gene group are shown in B. A correlation was seen in all seven samples.
  • FIG. 5 is a view showing the correlation between the RPKM of RNA-seq and the RPKM corrected based on the number of tilings in the junction capture method. The results of the expression amount measurement gene group are shown in A,
  • FIG. 6 shows the results of clustering samples based on gene expression levels.
  • the vertical axis represents each gene, and clustering was performed according to the expression intensity.
  • the horizontal axis indicates each sample, and it can be seen that the samples were clustered according to cancer types such as LUAD, SARC, MUCA, and LUSC.
  • the present invention determines the presence or expression of a transcript of fusion gene on genome in massively parallel sequencing. Related to the probe to
  • massively parallel sequencing refers to a method for performing DNA sequencing in a large scale and in parallel, and in large scale parallel sequencing, typically 10 2 , 10 3 , 10 4 , 10 5 or more molecules are sequenced simultaneously.
  • Large scale parallel sequencing includes, for example, next-generation sequences.
  • Next-generation sequencing is a method of acquiring sequence information using a next-generation sequencer, and is characterized in that a vast number of sequencing reactions can be performed in parallel as compared with the Sanger method (for example, Rick Kamps et al. See, Int. J. Mol. Sci., 2017, 18 (2), p. 308 and Int. Neurourol. J., 2016, 20 (Suppl. 2), S76-83).
  • a variety of systems for next-generation sequencing are provided, including, but not limited to, the Genome Sequencer (GS) FLX System from Roche, HiSeq from Illumina, or Genome Analyzer (GA), Life technologies. Support Oligonucleotide Ligation Detection (SOLiD) system, Polonator's G. 007 system, Helicos BioSciences' HeliScope Gene Sequencing system, etc. can be used.
  • next generation sequence sample preparation is performed first.
  • the nucleic acid to be analyzed is fragmented enzymatically or mechanically according to the read length of the next-generation sequencer.
  • adapter sequences necessary for the next sequence step are added.
  • the specific gene region may be enriched by PCR or the like, or a region having a specific sequence may be concentrated using a probe or the like. Enrichment of the gene region can be performed by, for example, 4 to 12 cycles of amplification steps, and concentration using a probe can be performed using a label attached to the probe (for example, biotin etc.).
  • sequencing is performed.
  • the details of this process vary depending on the type of next-generation sequencer, but are typically linked to a substrate via an adapter sequence, and a sequencing reaction is performed using the adapter sequence as a priming site. See, eg, Rick Kamps et al., Supra, for details of sequencing reactions.
  • data output is performed.
  • a collection of sequence information (reads) obtained by the sequencing reaction is obtained.
  • the output data can be further analyzed to derive more meaningful results, such as the number of leads, eg, the number of coupled support leads per row lead.
  • the number of reads refers to the amount of amplification of an amplification product having a specific sequence. Since the number of reads is usually proportional to the amount of nucleic acid before sequencing, the number of reads can be used to estimate the amount of gene expression.
  • linked support read refers to a read that includes a connection point in a transcript produced by gene fusion or exon skipping, or a linkage point on the genome generated by gene fusion or exon skipping, “link support read”.
  • Numberer means the number of connected support leads.
  • raw read refers to the total number of leads obtained by the next-generation sequence, and evaluating the frequency of linked support leads by calculating the number of linked support leads per row lead. Can.
  • a fusion gene on the genome refers to a mutant gene produced by linking a plurality of genes as a result of chromosomal rearrangement caused by deletion, insertion, inversion, translocation and the like.
  • fusion genes give rise to RNA molecules by transcription as their expression product.
  • examples of RNA molecules include transcripts such as mRNA encoding fusion proteins.
  • the type of fusion gene is not limited, but, for example, a fusion gene having oncogenicity such as EML4-ALK, BCR-ABL1, KIF5B-RET, SLC34A2-ROS1, CD74-ROS1, SS18-SSX1, SS18-SSX2 And NAB2-STAT6, EWSR1-FLI1, SYT-SSX1, FUS-CREB3L2, TPM3-ROS1, CD74-NRG1, and EWSR1-FLI1.
  • oncogenicity such as EML4-ALK, BCR-ABL1, KIF5B-RET, SLC34A2-ROS1, CD74-ROS1, SS18-SSX1, SS18-SSX2 And NAB2-STAT6, EWSR1-FLI1, SYT-SSX1, FUS-CREB3L2, TPM3-ROS1, CD74-NRG1, and EWSR1-FLI1.
  • the “presence” of the transcript of the fusion gene on the genome refers to the presence or absence on the genome of the fusion gene
  • the “expression amount” of the transcript of the fusion gene is mRNA, rRNA derived from the fusion gene, And transcripts such as tRNA, preferably mRNA.
  • the fusion gene expresses a transcript in which a part of gene 5 'on the 5' side and a part of gene B on the 3 'side are linked at a virtual junction. It hybridizes to a region derived from either gene A or B of cDNA prepared from the transcript.
  • Each gene that can form a fusion gene, and a virtual connection point can be determined with reference to scientific articles, patent documents, and databases such as COSMIC.
  • exon refers to the region of the base sequence of a gene that remains in the mature transcript.
  • a gene is transcribed as a primary transcript, then splicing is performed to remove an intervening region called intron, and exons are linked to form a mature transcript.
  • intron an intervening region
  • exons are linked to form a mature transcript.
  • a mature miRNA composed of exons in which introns are removed by pre-miRNA splicing from the pre-mRNA (pre-miRNA) generated by transcription is generated.
  • the shortest base length from the 5 'or 3' end of each probe to the virtual connection point when the probe is hybridized to the cDNA prepared from the RNA molecule of the transcript is x
  • the probe is designed such that z x x + y, where y is the base length of the region that hybridizes to cDNA in each of the probes, and z is the read length for large-scale parallel sequencing.
  • a probe that hybridizes to a nucleic acid region not containing such a hypothetical connection point will also be described as a “virtual connection point-free probe”.
  • Virtual junction-free probes have the advantage of being able to detect multiple fusion partners and novel fusion genes.
  • FIG. 1A The design of the probe of this embodiment is shown in FIG. 1A to facilitate understanding of the present invention.
  • FIG. 1A the shortest base length x from the end of the probe to the virtual connection point, the base length y of the region of the probe that hybridizes to cDNA in the probe, and the read length z are shown. Indicates that a lead can be obtained.
  • the read length z is determined by the equipment and methods used for massively parallel sequencing. Also, if the nucleic acid from the sample is fragmented and / or fragmentation of the nucleic acid is performed prior to sequencing, the length of these fragments may define the read length.
  • the length of the lead length z is not limited, but may be, for example, 50 or more, 75 or more, 100 or more, 150 or more, or 160 or more, and 500 or less, 400 or less, 300 or less, 200 or less, or 180 or less It may be, for example, 50 to 500, 100 to 300, or 150 to 200.
  • the read length z is preferably the read length at the pair end.
  • the base length y of the region that hybridizes with cDNA in the probe can be appropriately determined by those skilled in the art. y may be, for example, 20 or more, 30 or more, 40 or more, preferably 50 or more, 60 or more, or 80 or more, and 220 or less, 200 or less, 180 or less, preferably 160 or less, 140 or less, or 120 or less It may be, for example, 20 to 220, 50 to 160, or 60 to 140.
  • the probe hybridizes with cDNA in a region continuous from the end near the virtual junction. In one embodiment, the probe hybridizes to the cDNA in its entire length, where y is identical to the length of the probe.
  • the base length of the probe is not limited, and may be, for example, 20 or more, 40 or more, 60 or more, 80 or more, 100 or more, 110 or more, or 115 or more, 220 or less, 200 or less, 180 or less, 160 or less, 140 It may be 130 or less or 125 or less, for example, 20 to 220, 60 to 180, 100 to 140, 110 to 130, 115 to 125, or 120.
  • the shortest base length x from the end of the probe to the virtual connection point can be appropriately determined based on the read length z and the base length y of the region of the probe that hybridizes with cDNA.
  • the lower limit of the shortest base length x from the end of the probe to the virtual connection point is 0, which means that the probe is designed for the region adjacent to the virtual connection point.
  • the upper limit of x is not limited, and may be, for example, 300 or less, 250 or less, 200 or less, 150 or less, 140 or less, 130 or less, 125 or less, 120 or less.
  • x is, for example, 0 to 300, 0 to 200, 0 to It may be 140, 0 to 125, or 0 to 120.
  • z x x + y + a (a 0 0) indicates that a read that includes a sequence of a base or more can be obtained beyond the virtual connection point, and thus a plurality of probes may be present near the virtual connection point.
  • this probe can be used to efficiently enrich different types of transcripts for the fusion gene.
  • the value of a is not particularly limited as long as it is 0 or more, but if it is large, specificity will increase and detection sensitivity will decrease, so those skilled in the art can appropriately determine the value with reference to the contents of this specification.
  • the value of a may be, for example, 5 or more, 10 or more, preferably 15 or more, 20 or more, 30 or more, 50 or more, or 100 or more, 500 or less, 400 or less, preferably 300 or less, 200 or less, or 150 It may be the following.
  • Probes can be easily designed by those skilled in the art based on the sequences of target genes.
  • target gene refers to a gene that can be captured by the probe of the present invention, such as a gene that can form a fusion gene, a gene that can produce exon skipping, and the like.
  • such a probe for example, (a) at least 20, 40, 60, 80, 100, 110, 115, or 120 consecutive base sequences of the complementary sequence of the target gene, (b) (a) In the base sequence of (c) (a), for example, 70% or more, 80% or more, preferably a base sequence in which one or more bases are added, deleted and / or substituted. Base sequences having an identity of 90% or more, 95% or more, 97% or more, 98% or more, or 99% or more, and (d) at least 20, 40, 60, 80, 100, 110, consecutive target genes.
  • a probe containing the base sequence of a nucleic acid that hybridizes under stringent conditions to the 115 or 120 sequence can be mentioned.
  • the range of “one or more” is 1 to 10, preferably 1 to 7, more preferably 1 to 5, particularly preferably 1 to 3, or 1 or 2 is there.
  • the value of identity with respect to a nucleotide sequence indicates a value calculated with default settings using software (eg, FASTA, DANASYS, and BLAST) for calculating the identity between a plurality of sequences. For details of how to determine identity see, for example, Altschul et al, Nuc. Acids. Res. 25, 3389-3402, 1977 and Altschul et al, J. Mol. Biol. 215, 403-410, 1990. .
  • stringent conditions mean conditions under which so-called specific hybrids are formed and non-specific hybrids are not formed.
  • Stringent conditions can utilize the conditions of a well-known hybridization method. For example, it may be determined appropriately with reference to Green and Sambrook, Molecular Cloning, 4th Ed (2012), Cold Spring Harbor Laboratory Press.
  • stringent conditions may be set according to the temperature of the hybridization method, the concentration of salts contained in the solution, the temperature in the washing step of the hybridization method, and the concentration of salts contained in the solution. More stringent conditions include, for example, a sodium concentration of 25 to 500 mM, preferably 25 to 300 mM, and a temperature of 42 to 68 ° C., preferably 42 to 65 ° C. More specifically, 5 ⁇ SSC (83 mM NaCl, 83 mM sodium citrate) and a temperature of 42 ° C. can be mentioned.
  • the probes can be prepared by known methods known to those skilled in the art based on the above sequences, and can be prepared by, for example, but not limited to, chemical synthesis.
  • the invention relates to a probe set comprising at least two different said probes.
  • the number of the probes is not particularly limited as long as it is two or more, but if the number is too small, the detection sensitivity decreases, and if the number is too large, the cost increases. It may be determined accordingly.
  • the number of the probes that can be included in the probe set is, for example, 3 or more, 4 or more, 5 or more, 6 or more, 8 or more, 10 or more, 11 or more, 30 or less, 25 or less 20 or less, 15 or less, 14 or less, 13 or less, or 12 or less.
  • the shortest base lengths x from the end of each probe contained in the probe set to the virtual connection point are not identical to each other, and are preferably dispersed. This is because various nucleic acid fragments can be captured.
  • the probe set includes n probes, and the shortest base lengths of the respective probes are x 1 , x 2 , x 3 , ... x n (where x 1 ⁇ x 2 ⁇ x 3 ... ⁇ x n ) ,
  • the shortest base length of each probe can be determined.
  • b is a constant, and when b is 0, this means that the shortest base lengths x of each probe are evenly distributed from the virtual connection point, and the distribution from the virtual connection point is not good as the value of b increases. It means to be equal.
  • b is, for example, 50 or less, 40 or less, 30 or less, 25 or less, 20 or less, 15 or less, 10 or less, preferably 5 or less, 4 or less, 3 or less, 2 or less, 1 or less, or 0.
  • x n may be any value, for example, 20 to 500, 30 to 400, 40 to 300, 60 to 200, 80 to 180, preferably 100 to 140, 110 to 130, 115 to 125, or It may be 120.
  • n of probes When the number n of probes is 3 or more, m probes may be removed from the probe set after designing the probes according to the above equation (where m is an integer of 1 or more, for example, 1 to 5, 1 to 4, 1 to 3, 1 to 2, preferably 1, and nm ⁇ 2.
  • the probes of the invention can be used to enrich specific nucleic acid sequences prior to the sequencing step of next generation sequencing.
  • a probe of the invention hybridizes to a nucleic acid region comprising a virtual junction.
  • a probe that hybridizes to a nucleic acid region containing such a virtual connection point is hereinafter also referred to as a “virtual connection point-containing probe”).
  • the virtual connection point-containing probe, or a set thereof has a configuration other than that including the probe that hybridizes to the nucleic acid region including the virtual connection point, for example, the base length y of the region that hybridizes to cDNA in the probe and the probe The number is similar to that of the above-mentioned "virtual connection point-free probe".
  • the hypothetical connection point-containing probe detects only one fusion gene generated by the fusion of a part of gene A and a part of gene B, it has high specificity but can not detect various fusion partners. .
  • the hypothetical connection point-containing probe is 10 bases or more and 15 bases or more of a region derived from both the gene A at the 5 'side and the gene B at the 3' side of cDNA prepared from the transcript of the fusion gene. , Hybridise to at least 20 bases, at least 30 bases, at least 40 bases, at least 50 bases, or at least 60 bases.
  • the probe set of the present invention may be designed for the 5 'end and 3' end of the exons of all target genes to be evaluated, but gene fusion of genes known to form fusion genes. It is preferable to design a probe only for the 5 'end and / or the 3' end of the exon involved.
  • the probe or probe set of the present invention further comprises at least one gene expression probe.
  • the gene expression level measurement probe is a probe used to measure the gene expression level in large scale parallel sequencing.
  • the probe for measuring the gene expression level can be designed uniformly with respect to the gene whose expression level is to be measured, for example, at a density of 2 ⁇ tiling or more.
  • the base length of the gene expression probe is not limited, and may be, for example, 20 or more, 40 or more, 60 or more, 80 or more, 100 or more, 110 or more, or 115 or more, 220 or less, 200 or less, 180 or less 160 or less, 140 or less, 130 or less, or 125 or less, and may be, for example, 20 to 220, 60 to 180, 100 to 140, 110 to 130, 115 to 125, or 120.
  • the number of probes for measuring the gene expression amount to one gene is not limited, for example, 3 or more, 4 or more, 5 or more, 6 or more, 8 or more, 10 or more, 11 or more, 30 or more
  • the number may be 25 or less, 20 or less, 15 or less, 14 or less, 13 or less, or 12 or less.
  • the probe for measuring the gene expression level is a “plurality of” genes, for example, 2 or more, 5 or more, 10 or more, 50 or more, 100 or more, 150 or more, 200 or more, 250 or more, preferably 300 or more, 400 or more, or 500 or more And may be a probe for a gene of 2000 or less, 1000 or less, 900 or less, preferably 800 or less, 700 or less, or 600 or less.
  • target genes whose expression levels are to be measured include oncogenes (eg, ALK, EGFR, ERBB2, MET), and housekeeping genes.
  • a nucleic acid capable of binding to at least a part of these genes can be used as a probe. By including the expression level measurement probe, it becomes possible to more accurately measure the expression level of the gene.
  • the invention relates to a combination or probe set comprising a plurality of different above mentioned probes or probe sets.
  • the combination probe set preferably includes probe sets for a plurality of different fusion genes, which can simultaneously detect the presence of transcripts of the plurality of fusion genes or their expression amount.
  • the lower limit and the upper limit of "plurality" are not particularly limited, but for example, 2 or more, 5 or more, 10 or more, 50 or more, 100 or more, 150 or more, 200 or more, 250 or more, preferably 300 or more, 400 or more, or 500 or more It may be 2000 or less, 1000 or less, 900 or less, preferably 800 or less, 700 or less, or 600 or less.
  • the probe set of the present invention is used for cDNA prepared from transcripts such as mRNA, and since the probe set can be concentrated near virtual junctions, intron portion of genomic DNA It may have the advantage of requiring fewer probes than the intron capture method of capturing and the coding exon capture method of capturing all exons. Also, in one embodiment, the probe set of the present invention includes probes concentrated near the virtual connection point, so that various nucleic acid fragments including virtual connection points can be obtained. Since Ryan Tewhey et al (Genome Biology, 2009, 10, R116) show that coverage does not improve even if the density of the probe is 2 ⁇ or more, the probe is concentrated around the virtual connection point It has been surprising that the inclusion of B.
  • tilting means the density at which a probe is designed for a target gene, and the value of tiling multiple n is w / n if the length of the probe is w. It means that the probes are designed at intervals.
  • the probe of the present invention does not require the poly A sequence contained in mRNA for transcription or concentration, and therefore, it is possible to efficiently detect a fusion gene, particularly in a sample in which RNA has been degraded or degraded.
  • the present invention provides a probe for determining the presence or expression of transcript produced by exon skipping in massively parallel sequencing. Or a probe set including at least two different present probes. In the transcript, in the case where the 5 ′ exon A ′ and the 3 ′ exon B ′ are linked at a hypothetical junction, the probe of this embodiment is the exon A ′ of cDNA prepared from the transcript.
  • the shortest base length from the end of each probe to the virtual connection point when the probe is hybridized to cDNA prepared from the transcript is x, and the base of the region of each probe that hybridizes with cDNA Assuming that the length y and the read length of large-scale parallel sequencing are z, z ⁇ x + y.
  • a probe for determining the presence or the amount of expression of a transcript produced by exon skipping in massively parallel sequencing comprising: 5 ′ exon A ′ and 3 ′ exon in the transcript
  • the present invention relates to a probe set in which B ′ is linked at a virtual junction and which hybridizes to a region containing a virtual junction where exon skipping can occur in cDNA prepared from the transcript, or at least two different present probes.
  • exon skipping refers to a phenomenon in which a part of exons is removed together with introns due to a splicing error, resulting in abnormal exon linkage. For example, if the wild-type gene contains exons A ', B' and C ', then exon B' is skipped out due to a splicing error where exons A ', B' and C 'should be linked originally The case where exon A 'and exon C' are linked corresponds.
  • the products resulting from exon skipping are often the products that cause disease. For example, skipping of exon 14 of MET (mesenchymal-epithelial transition) is known to be associated with the prevalence of non-small cell lung cancer.
  • the configuration of the probe of this embodiment other than one for determining the presence of the transcript produced by exon skipping or the expression level thereof eg, the number of probes, the shortest base length x from the end of each probe to the virtual connection point, For the base length y of the region that hybridizes with the cDNA in each probe, the read length z for large-scale parallel sequencing, the sequence of each probe, design, etc., see 1. above, the presence of the transcript of the fusion gene on the genome or its expression
  • the point of being able to further include a probe for measuring the amount of gene expression is also the same as “1. Probe for determining presence of transcript of fusion gene on genome or amount of expression thereof”.
  • the effect of the probe of this aspect conforms to the above-mentioned "2. Effect of the probe of the present invention”.
  • the present invention provides the above-mentioned "1. Probe for determining the presence of the transcript of the fusion gene on the genome or the expression level thereof" and the “presence of the transcript resulting from exon skipping or the expression amount thereof according to this aspect.
  • the present invention relates to a probe set including both “probes for determining By using this probe set, both the fusion gene and exon skipping can be detected simultaneously.
  • Kits Comprising Probes In one aspect, the present invention provides the above-mentioned "1. Probe for determining the presence of the transcript of the fusion gene on the genome or the expression level thereof" and / or the above-mentioned "3. transcript produced by exon skipping"
  • the present invention relates to a kit comprising the probe, the probe set, or the combination probe set described in the “probe for determining the presence of or the expression level of
  • the kit may include, for example, a buffer, an enzyme, and instructions for use, in addition to the above-described probe.
  • This kit can be used to determine the presence of the transcript of the fusion gene or the amount of expression thereof and / or the presence of the transcript resulting from exon skipping or the amount of expression thereof. 5.
  • Method for Determining the Presence of or Expression of a Transcript Containing a Transcript of a Fusion Gene In one aspect, the present invention relates to a method for determining the presence of a Transcript containing a transcript of a fusion gene on a genome or its expression .
  • the method of this embodiment comprises the steps of: preparing a transcript from a sample derived from a subject (transcript preparation step); preparing a cDNA from the transcript (cDNA preparation step); Step of concentrating target cDNA hybridized to the probe of “probe for determining the presence of the product or its expression amount”, probe set, or probe of combination probe set (enrichment step), large scale against the concentrated target cDNA A step of performing sequencing by parallel sequencing (sequencing step), and a step of determining the presence of the transcript including the transcript of the fusion gene on the genome or the expression level thereof based on the result of the sequencing (determination step) , In this order.
  • transcript Preparation Step a transcript is prepared from a sample derived from a subject.
  • the biological species of the subject is not limited, but preferably, mammals, for example, primates such as humans and chimpanzees, laboratory animals such as rats and mice, domestic animals such as pigs, cattle, horses, sheep, and goats Animals and companion animals such as dogs and cats, preferably humans.
  • sample refers to a biological sample to be subjected to the method of the present invention.
  • Samples usable in the present invention include, but are not limited to, for example, bodily fluids, cells or tissues isolated from living organisms. Examples of body fluids include blood, sweat, saliva, milk, and urine, and examples of cells include peripheral blood cells, lymph and fluid containing cells, hair matrix cells, oral cells, nasal cells, intestinal cells, vagina, etc. There may be mentioned inner cells, mucous cells, sputum (which may include alveolar cells or pneumocytes, etc.).
  • a lesion site of cancer for example, brain, pharynx, thyroid, lung, breast, esophagus, stomach, liver, pancreas, kidney, small intestine, large intestine, large intestine, bladder, prostate, uterus, ovary, preferably lung etc.
  • biopsy samples of these tissues can be used.
  • histopathological diagnosis and detection of the fusion gene by the method of the present invention can be performed simultaneously, so that the pathological condition of the subject can be identified more accurately.
  • a sample in which the contained RNA is degraded or degraded for example, a biological sample subjected to processing, is used as the sample.
  • processing include heat treatment, freezing, acid treatment, base treatment, and preferably fixation such as FFPE (formalin fixed paraffin embedding).
  • Total RNA may include rRNA, tRNA, and mRNA, but is preferably mRNA.
  • Preparation of transcripts from samples can be performed using any known method.
  • a sample is mixed with a solubilization solution containing guanidine thiocyanate and a surfactant, and the resulting mixture is subjected to physical treatment (stirring, homogenization, sonication, etc.) to extract a transcript.
  • physical treatment stirring, homogenization, sonication, etc.
  • RNA-Bee Tel-Test Inc.
  • TRIZOL Thermo Fisher Scientific
  • cDNA Preparation Step The production of cDNA from the transcript obtained in the transcript preparation step can be carried out by a reverse transcription reaction using a reverse transcriptase.
  • target nucleic acid fragment is concentrated by the concentration step described below, it is not necessary to reverse transcribe only mRNA using poly A sequence, for example, total RNA may be used using a random primer etc. It may be reverse transcribed.
  • concentration step target cDNAs hybridized to the probes, probe sets or combination probe sets described herein are concentrated. The concentration can be performed using any method known to one skilled in the art.
  • the probe can be labeled, and the target cDNA hybridized to the probe can be enriched by the interaction between the label and another substance.
  • the probe may be attached with biotin and the cDNA hybridized to the probe may be concentrated by interaction with avidin, or may be concentrated by affinity chromatography using a substrate or antigen-antibody reaction, or the probe
  • the magnetic beads may be attached to magnetic beads to concentrate the cDNA hybridized to the probe.
  • the cDNA Before or after the enrichment step with the probe set, the cDNA may be enzymatically or mechanically fragmented according to the read length in massively parallel sequencing.
  • an adapter sequence necessary for the later sequencing step may be added.
  • Specific gene regions may be enriched by PCR or the like in order to analyze specific gene regions before or after the enrichment step. Enrichment of the gene region can be performed by, for example, 4 to 12 cycles of amplification steps.
  • Sequencing Step In the sequencing step, sequencing by massively parallel sequencing is performed on the concentrated target cDNA.
  • the details of the sequencing step vary depending on the type of instrument used for massively parallel sequencing, etc., but are typically linked to a substrate via an adapter sequence, and a sequencing reaction is performed using the adapter sequence as a priming site. See, eg, Rick Kamps et al., Supra, for details of sequencing reactions.
  • a collection of sequence information (reads) obtained by the sequencing reaction is obtained.
  • the output data can be further analyzed to derive more meaningful results, such as the number of leads, eg, the number of coupled support leads per row lead.
  • Equipment for large scale parallel sequencing is commercially available from each manufacturer and can be used.
  • the Roche Genome Sequencer (GS) FLX System, Illumina HiSeq, or Genome Analyzer (GA), Life Technologies Support Oligonucleotide Lidation Detection (SOLiD) system, Polonator G. 007 system, and Helicos Gene Sequencing system of Helicos BioSciences etc. can be used.
  • Determination Step based on the result of the sequencing step, the presence of a transcript including the transcript of the fusion gene on the genome or the expression level thereof is determined.
  • An example of the determination process is shown in FIG. 1B.
  • the specific method of a determination process is not limited, For example, it can carry out by the following references
  • the fusion gene expresses a transcript in which a part of the gene A on the 5 'side and a part of the gene B on the 3' side are linked at the virtual junction, a gene in which no gene fusion occurs at the virtual junction Assuming that the number of reads of cDNA derived from A is ⁇ , the number of reads of cDNA derived from gene B is ⁇ , and the number of reads of cDNA derived from a fusion gene in which gene fusion is occurring at a hypothetical connection point is ⁇ .
  • the amount of expression can be determined based on the number of reads of the gene.
  • the expression level can be determined as a relative value, for example, by comparing the number of reads with a wild-type gene, comparing with the number of reads in a healthy subject, etc. You can also.
  • the determining step includes correcting the expression level of the transcript based on the number of the plurality of probes when there are a plurality of probes hybridizing to the same region. Since the probe set of the present invention includes the probes intensively near the virtual connection point, the probes can be designed to overlap in the same region. Along with this, the number of reads of transcripts corresponding to the region can be calculated to be high depending on the number of probes. Therefore, in order to more accurately determine the expression level based on the number of reads, it is preferable to correct the number of reads by the number of probes that hybridize to the same region.
  • the method of correcting the number of leads by the number of probes is not limited, for example, the number of leads can be corrected by dividing the number of leads by the number of tilings of the probe (for example, in the case of 5 ⁇ tiling, the number of leads is Divide by 5 and divide the number of leads by 10 if it is 10x tiling).
  • the determination step comprises correcting the expression level of a transcript based on the expression level of at least one housekeeping gene. Correction based on housekeeping genes is particularly preferred in comparing expression levels more accurately when using different probe sets and / or using different samples.
  • Housekeeping genes may be those known in the art, for example, at least one of ACTB, B2M, GAPDH, GUSB, H3F3A, HPRT1, HSP90AB1, NPM1, PPIA, RPLP0, TFRC, and UBC, or at least two of them. , At least three, at least five, or all may be used.
  • the method of correcting the number of reads by the housekeeping gene is not limited, for example, the number of reads of the transcript whose expression level is to be measured can be corrected by dividing it by the number of leads of the housekeeping gene.
  • a disease can be diagnosed by determining the presence of the fusion gene on the genome or the expression level thereof.
  • appropriate therapeutic agents such as drugs can be selected on the basis of the genetic background of the subject such as the presence of the fusion gene on the genome or the information on the expression level thereof.
  • the method of this embodiment comprises the steps of preparing a transcript from a sample derived from a subject (transcript preparation step), preparing a cDNA from the transcript (cDNA preparation step), and the above-mentioned “3.
  • a step of performing sequencing by parallel sequencing sequence determination step
  • a step of determining the presence or the expression level of a transcript including a transcript produced by exon skipping based on the result of the sequencing (determination step); Include in this order.
  • the concentration step, the sequencing step, and the determination step are based on the above-mentioned "5. Method for Determining the Presence of a Transcript of a Fusion Gene or Its Expression Amount”. Therefore, the differences from the above-mentioned “5. Method for Determining the Presence of the Transcript of Fusion Gene or Its Expression Amount” will be mainly described below.
  • the present invention provides the above-mentioned "1. Probe for determining the presence of the transcript of the fusion gene on the genome or the expression level thereof", and the above “3. the presence or the expression of the transcript produced by exon skipping”.
  • the invention relates to a method of performing a cDNA enrichment step using both "probes to determine the amount”. This allows both fusion gene and exon skipping to be detected simultaneously.
  • the determination step can be performed as described in the above-mentioned "5. Method for Determining Presence of Transcript of Fusion Gene or Its Expression Amount". That is, in the transcript, assuming that the 5 ′ exon A ′ and the 3 ′ exon B ′ are linked at the virtual junction, gene fusion is not generated at the virtual junction. Assuming that the number of reads of cDNA is ⁇ ′, the number of reads of cDNA derived from exon B ′ is ⁇ ′, and the number of reads of cDNA derived from transcripts generated by exon skipping is ⁇ ′.
  • the present invention provides genomic fusion according to the methods described herein Determining the presence or the risk of a disease in a subject, including the step of determining the presence or the expression level of a transcript of a gene and / or a transcript including a transcript generated by exon skipping
  • the present invention relates to a method of identifying the type of cancer (eg, primary cancer) or determining the prognosis of cancer (or cancer patients). The determination step is described in the above-mentioned "5. Method of Determining Presence of Transcript of Fusion Gene or Its Expression Amount" and / or "6.
  • the method according to this aspect is to determine the presence or absence of a disease or the risk thereof, to identify the type of cancer, or to determine the prognosis of cancer. It differs from the method described in the method of determining the expression level or “6. Method of determining the presence of the transcript produced by exon skipping or the expression level thereof”.
  • the type of the disease is not limited as long as the disease status can be determined by fusion gene or exon skipping, or the risk thereof, but, for example, cancer such as brain tumor, pharyngeal cancer, thyroid cancer, lung cancer, breast cancer Esophagus cancer, stomach cancer, liver cancer, pancreas cancer, kidney cancer, small intestine cancer, large intestine cancer, bladder cancer, prostate cancer, cervical cancer, ovarian cancer, sarcoma, lymphoma, or black Tumors, preferably lung cancer or sarcomas.
  • cancer such as brain tumor, pharyngeal cancer, thyroid cancer, lung cancer, breast cancer Esophagus cancer, stomach cancer, liver cancer, pancreas cancer, kidney cancer, small intestine cancer, large intestine cancer, bladder cancer, prostate cancer, cervical cancer, ovarian cancer, sarcoma, lymphoma, or black Tumors, preferably lung cancer or sarcomas.
  • the method of the present embodiment includes the disease in the subject based on the presence of the transcript of the fusion gene on the genome or the amount of expression thereof and / or the presence of the transcript produced by exon skipping or the amount of expression thereof in addition to the determination step.
  • the method may include the steps of: evaluating the presence or absence of the disease or risk thereof (assessing step), identifying the type of cancer (a identifying step), or determining the prognosis of the cancer (assessing step). Evaluation Step
  • the evaluation step can be performed using fusion gene or exon skipping and the known association of disease.
  • EML4 echinoderm microtubule associated protein like 4
  • ABL1 Abelson murine leukemia viral oncogene homolog 1
  • TAF 15 TATA-box binding protein associated factor 15-NR4A3 (nuclear receptor subfamily 4 group A member 3)
  • AHRR aryl-hydrocarbon receptor repressor
  • NCOA2 nuclear receptor coactivator 2
  • Skipping of exon 14 of MET can be used to determine the presence or risk of non-small cell lung cancer.
  • the evaluation step when the presence of a transcript of the fusion gene or the presence of a transcript produced by exon skipping is detected, or the expression amount of the fusion gene or the expression amount of a transcript produced by exon skipping is compared with, for example, a healthy subject. If it is high, it can be assessed that you are suffering from the disease or that the risk is high.
  • Specific process and determination process Identification of cancer type and determination of prognosis of cancer utilize the association between the transcript of the fusion gene on the genome and / or the transcript including the transcript generated by exon skipping and the disease Can be done. The association between the above-mentioned transcript and disease may use known ones or unknown ones.
  • prognosis means, for example, reduction of tumor mass, suppression of tumor growth, progression of disease or outcome (eg, presence or absence of relapse, survival, etc.) after therapeutic treatment such as chemotherapy. Preferably, it means the length of survival time, high or low risk of recurrence.
  • the determination of prognosis may be, for example, prediction of survival time or survival rate after a certain period of time after therapeutic treatment.
  • the identifying and determining step comprises clustering a sample from the subject based on the presence and / or expression level of a plurality of transcripts.
  • This embodiment is particularly advantageous when the association between the transcript and the disease is unknown.
  • the number of the plurality of transcripts in this embodiment is not limited, for example, 2 or more, 5 or more, 10 or more, 20 or more, 30 or more, 50 or more, 100 or more, 200 or more, 300 or more, 400 or more, or 500 or more It may be 20000 or less, 10000 or less, 5000 or less, preferably 3000 or less, 2000 or less, or 1000 or less.
  • clustering samples based on the presence and / or expression levels of multiple transcripts When clustering samples based on the presence and / or expression levels of multiple transcripts, standard samples from subjects with identified cancer types or predicted prognosis can be added. This enables more accurate clustering based on cancer type or prognosis.
  • the method of clustering is not limited, for example, using heatmap. 3 of statistical analysis software R, clustering of samples can be performed based on the gene expression amount.
  • cancer in the specific process is not limited, for example, brain cancer, pharyngeal cancer, thyroid cancer, lung cancer (eg lung adenocarcinoma), breast cancer, esophagus cancer, stomach cancer, liver cancer, pancreas cancer, kidney Cancer, small intestine cancer, colon cancer, bladder cancer, prostate cancer, cervical cancer, ovarian cancer, sarcoma, lymphoma, or melanoma, preferably lung cancer (eg, lung adenocarcinoma) or sarcoma Good.
  • lung cancer eg lung adenocarcinoma
  • breast cancer e.g., breast cancer, esophagus cancer
  • stomach cancer liver cancer, pancreas cancer
  • kidney Cancer small intestine cancer
  • colon cancer bladder cancer
  • prostate cancer cervical cancer
  • ovarian cancer sarcoma
  • sarcoma lymphoma
  • melanoma preferably lung cancer (eg, lung adenocarcinoma) or sar
  • the method of determining the morbidity or the risk judgment of the disease of the present embodiment, identifying the type of cancer, or determining the prognosis of cancer may be performed by other methods such as histopathological diagnosis, FISH, RT- It may be performed in combination with image diagnosis such as detection of a biomarker by PCR and immunohistochemistry or the like, CT, MRI, and nuclear medicine examination.
  • image diagnosis such as detection of a biomarker by PCR and immunohistochemistry or the like, CT, MRI, and nuclear medicine examination.
  • the detection accuracy of the disease can be enhanced by combination with other methods.
  • Genomic DNA 500 ng was isolated from FFPE samples by GeneRead DNA FFPE Kit (Qiagen) and target fragments enriched using SureSelect XT Custom Kit (Agilent). Tailor-made probes were designed to hybridize to and capture the gDNA of the target gene. Massively Parallel Sequencing of the isolated fragments was performed using the HiSeq 2500 platform (Illumina) with paired end options. From a large data set, select only sequence reads of Q value 20 20 for each base and reference human genome sequence (hg19) using bowtie 2 algorithm (http://bowtie-bio.sourceforge.net/bowtie2/index.shtml) Mapped to).
  • RNA-seq by poly A selection Total RNA is extracted from fresh frozen samples using RNA-Bee (Tel-Test Inc., # CS-104B), treated with DNase I (Life Technology) and subjected to poly A-RNA selection, which is then cDNA synthesized Used for Library preparation of RNA-seq was performed using NEB Next Ultra Directional RNA Library Prep Kit (New England Bio Labs) according to the manufacturer's protocol. NGS sequencing was performed from both ends of each cluster using HiSeq 2500 platform (Illumina). RNA-seq by cDNA capture Total RNA was extracted from FFPE samples by RNeasy FFPE Kit (Qiagen) and treated with DNase I (Life Technology). CDNA synthesis for coding exon capture, capture with probe, and library preparation were performed using TruSight RNA Pan-Cancer Panel (Illumina) according to the manufacturer's protocol.
  • CDNA synthesis and library preparation for junction capture were performed using the SureSelect RNA Capture kit (Agilent technologies) according to the manufacturer's protocol.
  • Custom probes for junction capture were designed to hybridize to and capture sequences near the virtual junctions of the target gene. Specifically, considering that the read length of the large-scale parallel sequencing used is 170 bp, if the base length of the region that hybridizes with cDNA in the probe is 50 or more, a read including a virtual connection point is obtained The probes were designed such that the shortest base length from the end of each probe to the virtual connection point when the probe was hybridized to cDNA was 120 or less, assuming that it could be The length of each probe was 120 bp.
  • probes were designed with 5 ⁇ or 10 ⁇ tiling. NGS sequencing was performed from both ends of each cluster using HiSeq 2500 platform (Illumina). As an example, SEQ ID NOs of probe sets used to identify the fusion gene of exon 13 of EML4, exon 20 of ALK, and EML4-ALK are shown in Table 1 below.
  • Example 1 Results of detection of fusion gene by junction capture method In analysis of sequence data, the number of sequence reads supporting the presence of junctions of fusion transcripts is counted and compared with transcripts of wild-type gene, fusion transcription It was examined whether the product was significantly expressed.
  • each gene transcript is present and fusion gene transcript is not present, it is indicated that no fusion transcript is present, but when the number of reads of each gene is 0, mRNA is expressed. Were carefully evaluated if they were not or were derived from mRNA degradation based on sample quality.
  • TOP RNA V1 is a panel obtained by the intron capture method (TOP DNA) for detecting connection points in the genome of the fusion gene, which is a conventional method, or TruSight RNA Pan-Cancer Panel (illumina) based on the coding exon capture method. Compared.
  • junction capture is an excellent method for detecting fusion genes.
  • RNA integrity score (RIN) of the FFPE preservation sample from which the RNA was extracted was 1.1 to 2.3 indicating that the degradation was highly advanced, but all fusion transcripts were detectable (Table 3).
  • both the expected number of probes and the target capture size are significantly less than when the panel was designed by coding exon capture ( Figures 2B and 2C). This implies that junction capture is very cost effective.
  • RNA-seq The quality of RNA-seq can be assessed by calculating housekeeping gene coverage and coverage. The following criteria were taken to be excellent quality of RNA-seq: average coverage of housekeeping genes> 500X and 100X, and coverage of housekeeping genes> 70%. In the absence of the ligation support lead, there is also the possibility that the ligation support lead will not be detected due to the progress of degradation of the FFPE-derived RNA. Therefore, in order to ensure that the fusion gene is truly negative, we developed a pipeline that counts the ligation-directed reads of the wild type transcripts of both genes of the putative fusion gene reported in the COSMIC database.
  • Example 4 Clinical utility of junction capture method
  • FFPE obtained by surgical removal of 40 cases of stage II or III NSCLC which are negative for KRAS and EGFR mutations
  • the clinical usefulness of this method was evaluated.
  • MET exon 14 skipping, EML4-ALK fusion gene, and RET fusion gene were detected in 3 cases, 2 cases, and 1 case, respectively (data not shown).
  • One case (# 44) was diagnosed as mucofibrosarcoma because of the proliferation of spindle cells with atypical nuclei near the mucinous stroma. However, this case was revealed to be soft tissue hemangiofibroma because the AHRR-NCO2A gene, which is a fusion gene specific to hemangiofibroma, was detected by the junction capture method.
  • Another case (# 48) is TAF15-NR4A3 positive, which is consistent with the diagnosis of extraosseous chondrosarcoma.
  • Example 5 Measurement of Gene Expression
  • measurement of gene expression was performed using a junction capture method.
  • Measurement of Gene Expression For 11 kinds of housekeeping genes (ACTB, B2M, GAPDH, GUSB, H3F3A, HPRT1, HSP90AB1, PPIA, RPLP0, TFRC, and UBC), total RNA is extracted from the FFPE sample according to Example 1; RNA-seq was performed by cDNA capture (junction capture) according to Example 1. For comparison, total RNA was also extracted from fresh frozen samples according to Example 1 and RNA-Seq with poly A selection was performed.
  • a probe for measuring the gene expression level was added and concentration was performed.
  • a probe for measuring the gene expression level a probe designed by 2 ⁇ tiling for 125 genes including oncogenes such as ERBB2 was used. The probe lengths were all 120 bases. Correcting the Number of Leads Based on the Number of Tilings As described in Example 1, in order to obtain as many types of leads as possible in the junction capture method, design of a probe with 5 ⁇ or 10 ⁇ tiling concentrated around the virtual connection point Did.
  • the lead number is corrected by dividing the lead number by the tiling number of the probe (for example, in the case of 5 ⁇ tiling, the lead number is divided by 5 and in the 10 ⁇ tiling, the lead number Divided by 10). Correction of number of reads based on housekeeping gene Since junction capture method uses FFPE samples (group A) and RNA-Seq by poly A selection uses fresh frozen samples (group B), the difference in quality between samples is The expression level of the housekeeping gene was corrected to be equal.
  • the coefficients for correcting the expression level of group B are calculated so that the log 2 average of the ratio of group A and group B of the expression levels of 11 types of housekeeping genes is equal, and using these coefficients The gene expression level was corrected. (result) For seven samples from lung cancer patients, eleven housekeeping genes (ACTB, B2M, GAPDH, GUSB, H3F3A, HPRT1, HSP90AB1, NPM1, PPIA, etc.) using RNA-Seq and junction capture with poly A selection The expression levels of RPLP0, TFRC, and UBC were measured.
  • the correlation coefficient was calculated for the expression amount measurement gene group and the fusion gene analysis gene group.
  • the gene group for expression level measurement is a gene group whose expression was measured by a probe for gene expression level measurement
  • the gene group for fusion gene analysis is an expression measured by a custom probe for the junction capture method. Group of genes.
  • results of the expression amount measurement gene group are shown in FIG. 5A and Table 6, and the results of the fusion gene analysis gene group are shown in FIG. 5B and Table 7.
  • the correlation between RPKM of RNA-seq and RPKM of junction capture method was observed in both the gene group for expression level measurement and the gene group for fusion gene analysis, and a stronger correlation was observed especially for the gene group for expression level measurement .
  • These results indicate that although a probe for gene expression level measurement is more suitable for measuring the expression level, a custom probe for the junction capture method can also be used for measuring the expression level.
  • these results show that even when a custom probe for junction capture method is included in addition to the probe for gene expression level measurement, the gene expression level can be accurately measured.
  • Example 6 Clustering of cancer based on gene expression level Samples from patients with LUAD (lung adenocarcinoma), SARC (sarcoma), MUCA (multiple cancers), and LUSC (lung squamous cell carcinoma), Example According to 5, the probe for gene expression level measurement was also added, and the gene expression measurement was performed by the junction capture method. Specifically, for a total of 467 genes of both genes for expression level measurement and fusion gene analysis, the correction of the number of reads based on the number of tilings according to the method described in Example 5 and the number of reads based on a housekeeping gene The correction was made to obtain the expression value.
  • LUAD, SARC, MUCA, and LUSC were clustered based on the gene expression level. This indicates that the type of primary cancer can be identified by measuring the gene expression level by the method of the present invention.
  • a method is provided which allows convenient detection of transcripts generated by fusion gene and / or exon skipping. Since this makes it possible to select a suitable drug based on the diagnosis of a disease and the genetic background of the subject, the industrial applicability is large.

Abstract

本発明は、融合遺伝子及び/又はエクソンスキッピングにより生じる転写産物を簡便に検出可能な方法を提供すること等を課題とする。 一実施形態において、本発明は、ゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブセット、エクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのプローブセット、該プローブセットを含むキット、該プローブセットを用いてゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定する方法、及びエクソンスキッピングにより生じる転写産物の存在又はその発現量を判定する方法等に関する。

Description

融合遺伝子及び/又はエクソンスキッピングにより生ずる転写産物を検出するためのプローブ及び方法
 本発明は、ゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブ、エクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのプローブ、該プローブを含むキット、該プローブを用いてゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定する方法、及びエクソンスキッピングにより生じる転写産物の存在又はその発現量を判定する方法等に関する。
 融合遺伝子は、体細胞がん変異の一因として知られており、これまでに融合遺伝子に起因するがんに対して幾つかの治療法が開発されている。例えば、慢性骨髄白血病におけるBCR-ABL1融合遺伝子(非特許文献1)、非小細胞肺がんにおけるEML4-ALK融合遺伝子(非特許文献2)等のがん変異を有する患者に対して、チロシンキナーゼ阻害剤を用いる第一選択療法が挙げられる。これにより融合遺伝子に起因するがんの治療成績が改善された。
 近年のシーケンシング技術の進歩によって、がんゲノム及びトランスクリプトームにおける染色体再構成の網羅的な検出が可能となり、RET、ROS1、NTRK1、NRG1、又はFGRF1/2/3遺伝子等の融合遺伝子が発見され(非特許文献3~8)、これらの融合遺伝子は、がんの診断にも応用されている。また、近年では融合遺伝子に加えてMET14エクソンスキッピング等のエクソンスキッピングもがんの原因となり得ることが示唆されている。
 しかしながら、これらの融合遺伝子及びエキクソンスキッピングの発生は比較的低頻度であり、その種類も多様であることから、標的遺伝子となる複数の融合遺伝子を同時に検出するのは困難であった。また、FISH、免疫組織化学、及び逆転写PCR等の従来法は、診断に専門的技術を要することから、臨床応用のために、簡便に多数の標的遺伝子を検出可能な方法が切望されている。
 アンプリコンPCR又はハイブリダイゼーションキャプチャーによるgDNAの標的遺伝子富化によるがん関連遺伝子のターゲットシーケンシングは、融合遺伝子等の変異の検出に用いられる方法の一例である。しかしながら、融合遺伝子等の連結点は、多くの場合各遺伝子のイントロンに広く分布している。そのため、通常のハイブリダイゼーションキャプチャー法では、融合遺伝子及びエクソンスキッピングの連結点を捕捉するためにイントロンに偏りなくプローブを作製する必要があり、多数のプローブを必要とする。
 また、新鮮な凍結サンプル又は細胞株から融合転写物を検出するための代替法として、RNAシーケンス(RNA-seq)が提案されている。しかし、ホルマリン固定パラフィン包埋(FFPE)等のRNAの質が低いサンプル(低質RNAサンプル)では、mRNA濃縮に通常用いられるポリA選択等によって信頼できるライブラリーを作製するのが困難なため、適用が難しい。また、低質RNAサンプルを用いる場合、RNA-seqには、cDNAキャプチャー法又はアンカードマルチプレックスPCRベースの方法が有用であるとの報告もあるが、これらの方法では対象となる遺伝子の種類が非常に限定的であるため、臨床的な有用性が低い。したがって、低質RNAサンプルについても簡便に多数の標的遺伝子を検出可能な方法が求められていた。
J. Erikson et al., Proc. Natl. Acad. Sci., USA 83, 1807-1811, 1986 M. Soda et al., Nature, 448, 561-566, 2007 T. Kohno et al., Nat. Med. 18, 375-377, 2012 K. Takeuchi et al., Nat. Med. 18, 378-381, 2012 D. Lipson et al., Nat. Med. 18, 382-384, 2012 L. Fernandez-Cuesta et al., Cancer Discov. 4, 415-422, 2014 A. Vaishnavi et al., Nat. Med., 19, 1469-1472, 2013 R. Wang, L et al., Clin. Cancer Res. 20,, 4107-4114, 2014
 一実施形態において、本発明は、融合遺伝子及び/又はエクソンスキッピングにより生ずる転写産物を簡便に検出可能な方法を提供することを課題とする。
 本発明者は、大規模並列配列決定においてゲノム上の融合遺伝子又はエクソンスキッピングにより生ずる転写産物を検出するために用い得るプローブを作製し、本プローブを用いてゲノム上の融合遺伝子又はエクソンスキッピングにより生ずる転写産物を効率的に検出できることを見出した。
 本願発明は、以下の態様を包含する。
(1)大規模並列配列決定においてゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブであって、
 前記融合遺伝子が、5'側の遺伝子Aの一部と3'側の遺伝子Bの一部が仮想連結点において連結した転写産物を発現し、
 前記プローブが前記転写産物から調製したcDNAの遺伝子A又はBのいずれかに由来する領域にハイブリダイズし、
 前記cDNAにプローブがハイブリダイズした時の前記プローブの末端部から前記仮想連結点までの最短塩基長をx、前記プローブにおいてcDNAとハイブリダイズする領域の塩基長をy、大規模並列配列決定のリード長をzとした場合に、z≧x+yである、プローブ。
(2)大規模並列配列決定においてゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブセットであって、
 前記融合遺伝子が、5'側の遺伝子Aの一部と3'側の遺伝子Bの一部が仮想連結点において連結した転写産物を発現し、
 前記転写産物から調製したcDNAの遺伝子A又はBのいずれかに由来する領域にハイブリダイズする少なくとも2個の異なるプローブを含み、
 前記cDNAにプローブがハイブリダイズした時の各前記プローブの末端部から前記仮想連結点までの最短塩基長をx、各前記プローブにおいてcDNAとハイブリダイズする領域の塩基長をy、大規模並列配列決定のリード長をzとした場合に、z≧x+yである、プローブセット。
(3)大規模並列配列決定においてエクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのプローブであって、
 前記転写産物において、5'側のエクソンA'と3'側のエクソンB'が仮想連結点において連結されており、
 前記プローブが前記転写産物から調製したcDNAのエクソンA'又はB'のいずれかに由来する領域にハイブリダイズし、
 前記cDNAにプローブがハイブリダイズした時の前記プローブの末端部から前記仮想連結点までの最短塩基長をx、前記プローブにおいてcDNAとハイブリダイズする領域の塩基長をy、大規模並列配列決定のリード長をzとした場合に、z≧x+yである、プローブ。
(4)大規模並列配列決定においてエクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのプローブセットであって、
 前記転写産物において、5'側のエクソンA'と3'側のエクソンB'が仮想連結点において連結されており、
 前記転写産物から調製したcDNAのエクソンA'又はB'のいずれかに由来する領域にハイブリダイズする少なくとも2個の異なるプローブを含み、
 前記cDNAにプローブがハイブリダイズした時の各前記プローブの末端部から前記仮想連結点までの最短塩基長をx、各前記プローブにおいてcDNAとハイブリダイズする領域の塩基長をy、大規模並列配列決定のリード長をzとした場合に、z≧x+yである、プローブセット。
(5)xが0~140、yが30~140、zが100~300である、(1)~(4)のいずれかに記載のプローブ又はプローブセット。
(6)前記プローブを少なくとも6個含む、(2)、(4)、及び(5)のいずれかに記載のプローブセット。
(7)z≧x+yを満たすプローブのみからなる、(2)及び(4)~(6)のいずれかに記載のプローブセット。
(8)プローブセットがn個のプローブを含み、各プローブの前記最短塩基長をそれぞれx1、x2、x3、…xn(ただし、x1<x2<x3…<xn)とした場合に、
 x1=0、x2=xn×1/(n-1)、x3=xn×2/(n-1)、…xn= xn×(n-1)/(n-1)
である、(2)及び(4)~(7)のいずれかに記載のプローブセット。
(9)大規模並列配列決定においてゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブであって、
 前記融合遺伝子が、5'側の遺伝子Aの一部と3'側の遺伝子Bの一部が仮想連結点において連結した転写産物を発現し、
 前記転写産物から調製したcDNAの前記仮想連結点を含む領域にハイブリダイズする、プローブ。
(10)大規模並列配列決定においてゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブセットであって、
 前記融合遺伝子が、5'側の遺伝子Aの一部と3'側の遺伝子Bの一部が仮想連結点において連結した転写産物を発現し、
 前記転写産物から調製したcDNAの前記仮想連結点を含む領域にハイブリダイズする少なくとも2個の異なるプローブを含む、プローブセット。
(11)大規模並列配列決定においてエクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのプローブであって、
 前記転写産物において、5'側のエクソンA'と3'側のエクソンB'が仮想連結点において連結されており、
 前記転写産物から調製したcDNAにおけるエクソンスキッピングが生じ得る前記仮想連結点を含む領域にハイブリダイズする、プローブ。
(12)大規模並列配列決定においてエクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのプローブセットであって、
 前記転写産物において、5'側のエクソンA'と3'側のエクソンB'が仮想連結点において連結されており、
 前記転写産物から調製したcDNAにおけるエクソンスキッピングが生じ得る前記仮想連結点を含む領域にハイブリダイズする、少なくとも2個の異なるプローブを含む、プローブセット。
(13)(1)~(12)のいずれかに記載の異なる複数のプローブ又はプローブセットを含む、組み合わせプローブセット。
(14)少なくとも1個の遺伝子発現量測定用プローブをさらに含む、(1)~(12)のいずれかに記載のプローブ又はプローブセット又は(13)に記載の組み合わせプローブセット。
(15)加工処理した生体サンプル由来の転写産物に対して用いるための、(1)~(14)のいずれかに記載のプローブ、プローブセット又は組み合わせプローブセット。
(16)(1)~(15)のいずれかに記載のプローブ、プローブセット又は組み合わせプローブセットを含む、キット。
(17)被験体由来のサンプルから転写産物を調製する工程、
 前記転写産物からcDNAを調製する工程、
 (1)~(15)のいずれかに記載のプローブ、プローブセット又は組み合わせプローブセットのプローブにハイブリダイズした標的cDNAを濃縮する工程、
 濃縮された前記標的cDNAに対し、大規模並列配列決定による配列解析を行う工程、及び
 前記配列解析の結果に基づいて、ゲノム上の融合遺伝子の転写産物を含む転写産物の存在又はその発現量を判定する工程、
を含む、ゲノム上の融合遺伝子の転写産物を含む転写産物の存在又はその発現量を判定する方法。
(18)前記判定が、以下の工程:
 前記融合遺伝子が、5'側の遺伝子Aの一部と3'側の遺伝子Bの一部が仮想連結点において連結した転写産物を発現するとしたときに、
 仮想連結点において遺伝子融合が生じていない遺伝子A由来のcDNAのリード数をα、遺伝子B由来のcDNAのリード数をβとし、仮想連結点において遺伝子融合が生じている融合遺伝子由来のcDNAのリード数をγとした場合に、
 0<α又はβ≦γである場合、融合遺伝子が存在すると判定し、
 0<γ<α又はβである場合、低い発現量で融合遺伝子が存在すると判定し、
 α又はβ>0、γ=0である場合、融合遺伝子が存在しないと判定する工程によって行われる、(17)に記載の方法。
(19)被験体由来のサンプルから転写産物を調製する工程、
 前記転写産物からcDNAを調製する工程、
 (1)~(15)のいずれかに記載のプローブ、プローブセット又は組み合わせプローブセットのプローブにハイブリダイズした標的cDNAを濃縮する工程、
 濃縮された前記標的cDNAに対し、大規模並列配列決定による配列解析を行う工程、及び
 前記配列解析の結果に基づいて、エクソンスキッピングにより生じる転写産物を含む転写産物の存在又はその発現量を判定する工程、
を含む、エクソンスキッピングにより生じる転写産物を含む転写産物の存在又はその発現量を判定する方法。
(20)判定が、以下の工程:
 前記転写産物において、5'側のエクソンA'と3'側のエクソンB'が仮想連結点において連結されているとしたときに、
 仮想連結点において遺伝子融合が生じていないエクソンA'由来のcDNAのリード数をα'、エクソンB'由来のcDNAのリード数をβ'とし、エクソンスキッピングにより生じる転写産物由来のcDNAのリード数をγ'とした場合に、
 0<α'又はβ'≦γ'である場合、エクソンスキッピングにより生じる転写産物が存在すると判定し、
 0<γ'<α'又はβ'である場合、低い発現量でエクソンスキッピングにより生じる転写産物が存在すると判定し、
 α'又はβ'>0、γ'=0である場合、エクソンスキッピングにより生じる転写産物が存在しないと判定する工程によって行われる、(19)に記載の方法。
(21)前記判定工程において、同じ領域にハイブリダイズする複数のプローブが存在する場合、該複数のプローブの数に基づいて転写産物の発現量を補正することを含む、(17)~(20)のいずれかに記載の方法。
(22)前記判定工程において、ハウスキーピング遺伝子の発現量に基づいて、転写産物の発現量を補正することを含む、(17)~(21)のいずれかに記載の方法。
(23)(17)~(22)のいずれかに記載の方法に従って、ゲノム上の融合遺伝子の転写産物、及び/又はエクソンスキッピングにより生じる転写産物を含む転写産物存在又はその発現量を判定する工程、
を含む、被験体における疾患の罹患有無又はそのリスクを判定する、がんの種類を特定する、又はがんの予後を判定する方法。
(24)がんの種類の特定が、複数の転写産物の存在及び/又は発現量に基づいて、被験体由来のサンプルをクラスタリングすることを含む、(23)に記載の方法。
 本明細書は本願の優先権の基礎となる日本国特許出願番号2017-125074号の開示内容を包含する。
 本発明により、融合遺伝子及び/又はエクソンスキッピングにより生じる転写産物を簡便に検出できる方法が提供され得る。
図1Aは、本発明の一実施形態のプローブの概念図である。図示したプローブはいずれも右側末端部が5'末端、左側末端部が3'末端である。仮想連結点を含む連結支持リードが得られる様に、リード長z及びプローブにおいてcDNAとハイブリダイズする領域の塩基長yに基づいて、プローブの末端部から仮想連結点までの最短塩基長xを定めることができる。図1Bは、本発明の一実施形態の方法において、配列決定の結果から融合遺伝子及び/又はエクソンスキッピングにより生ずる転写産物を検出する方法の一例を示す。図1Bに示す様に、仮想連結点において遺伝子変異(遺伝子融合又はエクソンスキッピング)が生じていない遺伝子A由来のcDNAのリード数をα、遺伝子B由来のcDNAのリード数をβとし、仮想連結点において遺伝子変異が生じている融合遺伝子由来のcDNAのリード数をγとした場合に、0<α又はβ≦γである場合、変異遺伝子が存在すると判定し、0<γ<α又はβである場合、低い発現量で変異遺伝子が存在すると判定し、α又はβ>0、γ=0である場合、変異遺伝子が存在しないと判定することができる。 図2Aは、示した各方法における、10M(1000万)ローリード(raw read)あたりの連結支持リードの数を示す(Pancancer panelは、FFPE由来の合成cDNAの全エクソンキャプチャーを示す)。本発明の一実施形態のジャンクションキャプチャー法と、従来のコーディングエクソンキャプチャー法を用いた場合の、プローブ数を図2Bに、標的キャプチャーサイズを図2Cに示す。図2B及び図2CにおけるV1、V2、及びV3は、実施例において記載した遺伝子パネル(TOP RNA V1、TOP RNA V2、及びTOP RNA V3)における結果を示している。 図3Aは、3つの異なる方法:すなわち、新鮮凍結サンプルから抽出したRNAのポリA選択(ポリAキャプチャー)、FFPE由来の合成cDNAの全エクソンキャプチャー(Pancancer panel)、又はFFPE由来の合成cDNAのジャンクションキャプチャーを用いて、RNA-seqによってMETエクソン14スキッピング陽性の症例において、MET転写産物にシーケンスリードをマッピングした結果を示す。図中、2本の縦線で挟まれた領域は、METエクソン14に相当する領域を示し、この領域にリードがないことがエクソンスキッピング陽性であることを示す。図3Bは、各方法における、1000万ローリードあたりのMETエクソン13及びMETエクソン15の連結(エクソンスキッピング)支持リードの数を示す。 図4Aは、ヘマトキシリン及びエオシン染色した骨髄吸引標本の代表的な写真である(200×倍率、スケールバー100μm)。図4Bは、ヘマトキシリン及びエオシン染色したTBLB標本の代表的な写真である(左、40×倍率、スケールバー1mm。右、400×倍率、スケールバー100μm)。 図5は、RNA-seqのRPKMと、ジャンクションキャプチャー法におけるタイリング数に基づく補正を行ったRPKMの相関を示す図である。発現量測定用遺伝子群の結果をAに、融合遺伝子解析用遺伝子群の結果をBに示す。7つのサンプル全てにおいて相関がみられた。 図6は、遺伝子の発現量に基づいてサンプルをクラスタリングした結果を示す。縦軸は各遺伝子を示し、発現強度に応じてクラスタリングを行った。横軸は各サンプルを示し、LUAD、SARC、MUCA、及びLUSC等のがん種に応じてサンプルがクラスタリングされたことがわかる。
1.ゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブ
 一態様において、本発明は、大規模並列配列決定においてゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブに関する。
 本明細書において、「大規模並列配列決定(Massively Parallel Sequencing)」は、DNAの配列決定を大規模かつ並列に実施する方法を意味し、大規模並列配列決定では通常、102、103、104、105又はそれ以上の分子が同時にシーケンシングされる。大規模並列配列決定には、例えば次世代シーケンスが含まれる。
 次世代シーケンスとは、次世代シーケンサーを用いた配列情報の取得法であり、Sanger法に比べて膨大な数のシーケンシング反応を同時並行して実行できることを特徴とする(例えば、Rick Kamps et al., Int. J. Mol. Sci., 2017, 18(2), p. 308及びInt. Neurourol. J., 2016, 20(Suppl. 2), S76-83を参照されたい)。次世代シーケンスのためのシステムには様々なものが提供されており、限定するものではないが、例えばRocheのGenome Sequencer(GS)FLX System、IlluminaのHiSeq、又はGenome Analyzer(GA)、Life technologiesのSupport Oligonucleotide Ligation Detection(SOLiD)システム、PolonatorのG.007システム、及びHelicos BioSciencesのHeliScope Gene Sequencingシステム等を用いることができる。
 限定するものではないが、次世代シーケンスの一般的な工程を以下に示す。次世代シーケンスではまず初めに、サンプル調製を行う。この工程では、解析対象となる核酸を、次世代シーケンサーのリード長に合わせて酵素的又は機械的に断片化する。続いて、多くの場合、次のシーケンス工程に必要なアダプター配列を付加する。また、特定の遺伝子領域を解析するために、PCR等により特定の遺伝子領域を富化してもよいし、又はプローブ等を用いて特定の配列を有する領域を濃縮してもよい。遺伝子領域の富化は、例えば4~12サイクルの増幅ステップにより行うことができ、プローブを用いた濃縮はプローブに付した標識子(例えばビオチン等)を利用して行うことができる。
 続いて、シーケンシングが行われる。この工程の詳細は、次世代シーケンサーの種類により異なるが、典型的にはアダプター配列を介して基板に連結させ、またアダプター配列をプライミング部位としてシーケンシング反応が行われる。シーケンス反応の詳細については、例えばRick Kamps et al.(上掲)を参照されたい。
 最後に、データ出力が行われる。この工程では、シーケンシング反応により得られた配列情報(リード)を集めたものが得られる。出力されたデータをさらに解析して、リード数、例えばローリード当たり連結支持リード数等のより意味のある結果を導くことができる。
 本明細書において、「リード数」とは、特定の配列を有する増幅産物の増幅量を指す。リード数は、通常シーケンシング前の核酸の量に比例することから、リード数を利用して遺伝子の発現量を推定し得る。
 本明細書において、「連結支持リード」とは、遺伝子融合又はエクソンスキッピングにより生ずる転写産物における連結点、又は遺伝子融合又はエクソンスキッピングにより生ずるゲノム上の連結点を含むリードを意味し、「連結支持リード数」は、連結支持リードの数を意味する。本明細書において、「ローリード(raw read)」とは、次世代シーケンスによって得られたリードの総数を示し、ローリード当たりの連結支持リード数を算出することによって、連結支持リードの頻度を評価することができる。
 本明細書において、「ゲノム上の融合遺伝子」とは、欠失、挿入、逆位、及び転座等によって生じる染色体再構成の結果、複数の遺伝子が連結されて生じる変異遺伝子を指す。通常、融合遺伝子は、その発現産物として転写によりRNA分子を生じる。例えば、RNA分子の例として融合タンパク質をコードするmRNA等の転写産物が挙げられる。本明細書において、融合遺伝子の種類は限定しないが、例えば発癌性を有する融合遺伝子、例えばEML4-ALK、BCR-ABL1、KIF5B-RET、SLC34A2-ROS1、CD74-ROS1、SS18-SSX1、SS18-SSX2、NAB2-STAT6、EWSR1-FLI1、SYT-SSX1、FUS-CREB3L2、TPM3-ROS1、CD74-NRG1、及びEWSR1-FLI1等が挙げられる。
 本発明において、ゲノム上の融合遺伝子の転写産物の「存在」とは、融合遺伝子のゲノム上の有無を指し、融合遺伝子の転写産物の「発現量」は、融合遺伝子に由来するmRNA、rRNA、及びtRNA等の転写産物、好ましくはmRNAの発現量を指す。
 一実施形態において、本発明のプローブは、融合遺伝子が、5'側の遺伝子Aの一部と3'側の遺伝子Bの一部が仮想連結点において連結した転写産物を発現するとした場合、前記転写産物から調製したcDNAの遺伝子A又はBのいずれかに由来する領域にハイブリダイズする。融合遺伝子を形成し得る各遺伝子、及び仮想連結点については科学論文、特許文献、及びCOSMIC等のデータベースを参照して、決定することができる。
 本明細書において、「エクソン」とは、遺伝子の塩基配列のうち、成熟転写産物中に残る領域を意味する。一般に、真核生物では、遺伝子は一次転写産物として転写された後、スプライシングによりイントロンと呼ばれる介在領域が除去され、エクソン同士が連結されて成熟転写産物が形成される。例えば、タンパク質をコードする遺伝子の場合、転写によって生じたmRNA前駆体(pre-miRNA)からpre-miRNAスプライシングによってイントロンが除去されて連結されたエクソンで構成される成熟miRNAが生じる。
 一実施形態において、転写産物のRNA分子から調製したcDNAにプローブがハイブリダイズした時の各プローブの5'側又は3'側のいずれかの末端部から前記仮想連結点までの最短塩基長をx、各前記プローブにおいてcDNAとハイブリダイズする領域の塩基長をy、大規模並列配列決定のリード長をzとした場合に、z≧x+yとなるように、プローブを設計する。このような仮想連結点を含まない核酸領域にハイブリダイズするプローブを、以下「仮想連結点非含有プローブ」とも記載する。仮想連結点非含有プローブは、複数の融合パートナー、及び新規な融合遺伝子を検出し得るという利点を有する。
 本発明の理解を容易にするために、本実施形態のプローブの設計を図1Aに示す。図1Aでは、プローブの末端部から仮想連結点までの最短塩基長x、前記プローブにおけるcDNAとハイブリダイズする領域の塩基長y、及びリード長zが示され、大規模並列配列決定によって仮想連結点を含むリードが得られ得ることを示している。
 一実施形態において、リード長zは、大規模並列配列決定に用いる機器及び方法等により定まる。また、サンプル由来の核酸が断片化されている場合及び/又はシーケンス前に核酸の断片化を行う場合、これらの断片の長さによりリード長が規定されることがあり得る。リード長zの長さは限定しないが、例えば50以上、75以上、100以上、150以上、又は160以上であってよく、500以下、400以下、300以下、200以下、又は180以下であってよく、例えば50~500、100~300、又は150~200であってよい。なお、大規模並列配列決定では、核酸の片側からのみシーケンスを行うシングルリードと、核酸の両側からシーケンスを行うペアエンドが存在するが、上記リード長zは好ましくはペアエンドにおけるリード長である。
 プローブにおいてcDNAとハイブリダイズする領域の塩基長yは、当業者であれば適宜定めることができる。yは、例えば20以上、30以上、40以上、好ましくは50以上、60以上、又は80以上であってよく、220以下、200以下、180以下、好ましくは160以下、140以下、又は120以下であってよく、例えば20~220、50~160、又は60~140であってよい。好ましくは、プローブは仮想連結点に近い末端部から連続する領域においてcDNAとハイブリダイズする。一実施形態において、プローブはその全長においてcDNAとハイブリダイズし、この場合、yはプローブの長さと同一となる。
 プローブの塩基長は、限定しないが、例えば20以上、40以上、60以上、80以上、100以上、110以上、又は115以上であってよく、220以下、200以下、180以下、160以下、140以下、130以下、又は125以下であってよく、例えば20~220、60~180、100~140、110~130、115~125、又は120であってよい。
 プローブの末端部から仮想連結点までの最短塩基長xは、上記リード長z及びプローブにおいてcDNAとハイブリダイズする領域の塩基長yに基づいて適宜定めることができる。例えば、プローブの末端部から仮想連結点までの最短塩基長xの下限は0であり、これは仮想連結点に隣接する領域に対してプローブが設計されていることを意味する。xの上限は限定されず、例えば300以下、250以下、200以下、150以下、140以下、130以下、125以下、120以下であってよく、xは例えば0~300、0~200、0~140、0~125、又は0~120であってよい。
 z≧x+y+a(a≧0)は、仮想連結点を超えてa塩基以上の配列を含むリードが得られ得ることを示しており、このように仮想連結点の付近にプローブを複数設計することによって、このプローブを用いて、融合遺伝子に関する様々な種類の転写産物を効率的に濃縮し得る。aの値は0以上であれば特に限定しないが、大きくすると特異性が高まる一方検出感度が下がるため、当業者であれば本明細書の内容を参照して適宜定めることができる。aの値は、例えば5以上、10以上、好ましくは15以上、20以上、30以上、50以上、又は100以上であってよく、500以下、400以下、好ましくは300以下、200以下、又は150以下であってよい。
 プローブは、標的遺伝子の配列に基づいて当業者であれば容易に設計することができる。本明細書において、「標的遺伝子」とは、本発明のプローブによって捕捉され得る遺伝子、例えば融合遺伝子を形成し得る遺伝子、及びエクソンスキッピングを生じ得る遺伝子等を指す。
 そのようなプローブの例として、例えば、(a)標的遺伝子の相補的な配列の連続する少なくとも20、40、60、80、100、110、115、又は120の塩基配列、(b)(a)の塩基配列において、1若しくは複数個の塩基が付加、欠失、及び/若しくは置換された塩基配列、(c)(a)の塩基配列に対して、例えば70%以上、80%以上、好ましくは90%以上、95%以上、97%以上、98%以上、若しくは99%以上の同一性を有する塩基配列、及び(d)標的遺伝子の連続する少なくとも20、40、60、80、100、110、115、又は120の配列に対して、ストリンジェントな条件でハイブリダイズする核酸の塩基配列を含むプローブが挙げられる。
 本明細書において、「1若しくは複数個」の範囲は、1から10個、好ましくは1から7個、さらに好ましくは1から5個、特に好ましくは1から3個、あるいは1個又は2個である。また、本明細書において、塩基配列に関する同一性の値は、複数の配列間の同一性を演算するソフトウェア(例えば、FASTA、DANASYS、及びBLAST)を用いてデフォルトの設定で算出した値を示す。同一性の決定方法の詳細については、例えばAltschul et al, Nuc. Acids. Res. 25, 3389-3402, 1977及びAltschul et al, J. Mol. Biol. 215, 403-410, 1990を参照されたい。
 本明細書において、「ストリンジェントな条件」とは、いわゆる特異的なハイブリッドが形成され、非特異的なハイブリッドが形成されない条件を意味する。ストリンジェントな条件は、公知のハイブリダイゼーション法の条件を利用することができる。例えばGreen and Sambrook, Molecular Cloning, 4th Ed (2012), Cold Spring Harbor Laboratory Press を参照して適宜決定すればよい。具体的には、ハイブリダイゼーション法温度や溶液に含まれる塩濃度、及びハイブリダイゼーション法の洗浄工程における温度や溶液に含まれる塩濃度によりストリンジェントな条件を設定すればよい。より詳細なストリンジェントな条件としては、例えば、ナトリウム濃度が25~500mM、好ましくは25~300mMであり、温度が42~68℃、好ましくは42~65℃が挙げられる。より具体的には、5×SSC (83mM NaCl、83mMクエン酸ナトリウム)、温度42℃が挙げられる。
 プローブは、上記配列に基づいて当業者に知られる公知の方法により調製することができ、限定されるものではないが、例えば化学合成法によって調製することができる。
 一実施形態において、本発明は、異なる前記プローブを少なくとも2個含むプローブセットに関する。前記プローブの数は2個以上であれば特に限定しないが、少なすぎれば検出感度が低下し、多すぎるとコストが増加することから、感度及びコスト等を勘案し、本明細書の内容を参照して適宜定めればよい。プローブセットに含まれ得る前記プローブの数は、例えば3個以上、4個以上、5個以上、6個以上、8個以上、10個以上、又は11個以上、また30個以下、25個以下、20個以下、15個以下、14個以下、13個以下、又は12個以下であってよい。
 プローブセットに含まれる各プローブの末端部から前記仮想連結点までの最短塩基長xは、それぞれの値が同一でなく、また分散していることが好ましい。これにより、様々な核酸断片を捕捉し得るからである。例えば、プローブセットがn個のプローブを含み、各プローブの最短塩基長をそれぞれx1、x2、x3、…xn(ただし、x1<x2<x3…<xn)とした場合、
Figure JPOXMLDOC01-appb-M000001
となるように、各プローブの最短塩基長を定めることができる。bは定数で、bが0である場合、各プローブの最短塩基長xが、仮想連結点から均等に分布していることを意味し、bの値が大きくなるほど仮想連結点からの分布が不均等になることを意味する。bは、例えば50以下、40以下、30以下、25以下、20以下、15以下、10以下、好ましくは5以下、4以下、3以下、2以下、1以下、又は0である。また、xnは、任意の値であってよく、例えば20~500、30~400、40~300、60~200、80~180、好ましくは100~140、110~130、115~125、又は120であってよい。
 また、プローブの数nが3以上である場合、上記式にしたがってプローブを設計した後、m個のプローブをプローブセットから除いてもよい(ただし、mは1以上の整数、例えば1~5、1~4、1~3、1~2、好ましくは1で、n-m≧2である)。
 一実施形態において、本発明のプローブは、次世代シーケンスのシーケンシング工程の前に特定の核酸配列を濃縮するために用いることができる。
 一態様において、本発明のプローブは、仮想連結点を含む核酸領域にハイブリダイズする。このような仮想連結点を含む核酸領域にハイブリダイズするプローブを、以下「仮想連結点含有プローブ」とも記載する)。仮想連結点含有プローブ、又はそのセットについて、仮想連結点を含む核酸領域にハイブリダイズするプローブを含む以外の構成、例えばプローブにおいてcDNAとハイブリダイズする領域の塩基長y及びプローブセットに含まれるプローブの数は、上述の「仮想連結点非含有プローブ」と同様である。ただし、仮想連結点含有プローブは、遺伝子Aの一部と遺伝子Bの一部の融合により生じる一つの融合遺伝子のみを検出するため、特異性が高いが、様々な融合パートナーを検出することができない。
 一実施形態において、仮想連結点含有プローブは、前記融合遺伝子の転写産物から調製したcDNAの5'側の遺伝子Aと3'側の遺伝子Bの双方に由来する領域の10塩基以上、15塩基以上、20塩基以上、30塩基以上、40塩基以上、50塩基以上、又は60塩基以上にハイブリダイズする。
 一実施形態において、本発明のプローブセットは、上記「仮想連結点非含有プローブ」に加えて、「仮想連結点含有プローブ」を含む。両方のプローブを含むことで、検出特異性をさらに高め得る。一実施形態において、本発明のプローブセットは、z≧x+yを満たすプローブ、及び前記仮想連結点含有プローブのみからなる。また別の一実施形態において、本発明のプローブセットは、z≧x+yを満たすプローブのみからなる。
 本発明のプローブセットは評価対象となる全ての標的遺伝子のエクソンの5'末端側及び3'末端側について設計されてもよいが、融合遺伝子を形成することが知られている遺伝子の、遺伝子融合に関わるエクソンの5'末端側及び/又は3'末端側についてのみプローブを設計することが好ましい。
 一実施形態において、本発明のプローブ又はプローブセットは、少なくとも1個の遺伝子発現量測定用プローブをさらに含む。遺伝子発現量測定用プローブとは、大規模並列配列決定において遺伝子発現量を測定するために用いられるプローブである。遺伝子発現量測定用プローブは、発現量を測定しようとする遺伝子に対して万遍なく、また、例えば2×タイリング以上の密度で設計することができる。遺伝子発現量測定用プローブの塩基長は、限定しないが、例えば20以上、40以上、60以上、80以上、100以上、110以上、又は115以上であってよく、220以下、200以下、180以下、160以下、140以下、130以下、又は125以下であってよく、例えば20~220、60~180、100~140、110~130、115~125、又は120であってよい。一つの遺伝子に対する遺伝子発現量測定用プローブの数は限定しないが、例えば3個以上、4個以上、5個以上、6個以上、8個以上、10個以上、又は11個以上、また30個以下、25個以下、20個以下、15個以下、14個以下、13個以下、又は12個以下であってよい。遺伝子発現量測定用プローブは、「複数」の遺伝子、例えば2以上、5以上、10以上、50以上、100以上、150以上、200以上、250以上、好ましくは300以上、400以上、又は500以上であってよく、2000以下、1000以下、900以下、好ましくは800以下、700以下、又は600以下の遺伝子に対するプローブであってよい。発現量を測定する標的遺伝子の例として、がん遺伝子(例えば、ALK、EGFR、ERBB2、MET)、及びハウスキーピング遺伝子が挙げられる。これらの遺伝子の少なくとも一部に結合可能な核酸を、プローブとして用いることができる。発現量測定用プローブを含むことで、より正確に遺伝子の発現量を測定することが可能となる。
 一実施形態において、本発明は、異なる複数の上記プローブ又はプローブセットを含む、組み合わせ又はプローブセットに関する。ここで、組み合わせプローブセットは、複数の異なる融合遺伝子に対するプローブセットを含むことが好ましく、これにより複数の融合遺伝子の転写産物存在又はその発現量を同時に検出し得る。「複数」の下限及び上限は特に限定しないが、例えば2以上、5以上、10以上、50以上、100以上、150以上、200以上、250以上、好ましくは300以上、400以上、又は500以上であってよく、2000以下、1000以下、900以下、好ましくは800以下、700以下、又は600以下であってよい。
 一実施形態において、本明細書に記載のプローブ、プローブセット又は組み合わせプローブセットは、含まれるRNAが分解又は劣化したサンプル、例えば加工処理を行った生体サンプル由来の転写産物に対して好適に用いられる。加工処理の種類としては、熱処理、凍結処理、酸処理、塩基処理、好ましくはFFPE(ホルマリン固定パラフィン包埋)等の固定処理等が挙げられる。
2.本発明のプローブの効果
 上記の通り、本発明のプローブは、大規模並列配列決定によって仮想連結点を含むリードが得られるような核酸断片を捕捉し、濃縮することができるため、濃縮を行ったサンプルに対して大規模並列配列決定を行うことにより、効率的に融合遺伝子を検出し得る。また、一実施形態において、本発明のプローブセットは、mRNA等の転写産物から調製したcDNAに対して用いられ、また仮想連結点付近に集中的にプローブを含み得るため、ゲノムDNAのイントロン部分を捕捉するイントロンキャプチャー法、及び全てのエクソン部分を捕捉するコーディングエクソンキャプチャー法よりも、必要となるプローブの数が少ないという利点を有し得る。また、一実施形態において、本発明のプローブセットは、仮想連結点付近に集中的にプローブを含むため、仮想連結点を含む様々な核酸断片が得られ得る。Ryan Tewhey et al(Genome Biology, 2009, 10, R116)によって、プローブを2×タイリング以上の密度にしてもcoverageが向上しないことが示されていることから、仮想連結点付近に集中的にプローブを含むことによって、融合遺伝子又はエクソンスキッピングの検出効率が向上することは驚くべきことであった。なお、本明細書において「タイリング」とは、標的遺伝子に対してプローブが設計される密度を意味し、タイリングの倍数の値nは、プローブの長さをwとすると、w/nずつ間隔を開けてプローブが設計されていることを意味する。
 また、一実施形態において、本発明のプローブは、mRNAに含まれるポリA配列を転写又は濃縮に必要としない為、特にRNAが分解又は劣化したサンプルにおいて効率的に融合遺伝子を検出し得る。
3.エクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのプローブ
 一態様において、本発明は、大規模並列配列決定においてエクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのプローブ、又は異なる本プローブを少なくとも2個含むプローブセットに関する。前記転写産物において、5'側のエクソンA'と3'側のエクソンB'が仮想連結点において連結されているとした場合、本態様のプローブは、前記転写産物から調製したcDNAのエクソンA'又はB'のいずれかに由来する領域にハイブリダイズする。一実施形態において、プローブが前記転写産物から調製したcDNAにハイブリダイズした時の各プローブの末端部から前記仮想連結点までの最短塩基長をx、各前記プローブにおいてcDNAとハイブリダイズする領域の塩基長y、大規模並列配列決定のリード長をzとした場合に、z≧x+yである。
 一態様において、大規模並列配列決定においてエクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのプローブであって、前記転写産物において、5'側のエクソンA'と3'側のエクソンB'が仮想連結点において連結されており、前記転写産物から調製したcDNAにおけるエクソンスキッピングが生じ得る仮想連結点を含む領域にハイブリダイズするプローブ、又は異なる本プローブを少なくとも2個含むプローブセットに関する。
 本明細書において、「エクソンスキッピング」とは、スプライシングミスにより、一部のエクソンがイントロンと共に除去される結果、異常なエクソン連結を生じる現象をいう。例えば、野生型遺伝子がエクソンA'、B'、及びC'を含む場合、本来エクソンA'、B'、及びC'が連結されるべきところをスプライシングのミスによりエクソンB'がスキップアウトされてエクソンA'とエクソンC'が連結される場合が該当する。エクソンスキッピングにより生じる産物は以上産物であるため、疾患の原因となることが多い。例えばMET(mesenchymal-epithelial transition)のエクソン14のスキッピングは、非小細胞肺がんの罹患率と関連があることが知られている。
 エクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのものである以外の本態様のプローブの構成、例えばプローブの数、各プローブの末端部から仮想連結点までの最短塩基長x、各プローブにおけるcDNAとハイブリダイズする領域の塩基長y、大規模並列配列決定のリード長z、各プローブの配列、設計等は、上記「1.ゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブ」に準ずる。遺伝子発現量測定用プロープをさらに含み得る点についても、「1.ゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブ」と同様である。また、本態様のプローブの効果は、上記「2.本発明のプローブの効果」に準ずる。
 一態様において、本発明は、上記「1.ゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブ」及び本態様の「エクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのプローブ」の両方を含むプローブセットに関する。このプローブセットを用いることにより、融合遺伝子とエクソンスキッピングの両方を同時に検出し得る。
4.プローブを含むキット
 一態様において、本発明は、上記「1.ゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブ」及び/又は上記「3.エクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのプローブ」に記載のプローブ、プローブセット、又は組み合わせプローブセットを含む、キットに関する。
 本キットは、上記プローブに加えて、例えば、バッファー、酵素、及び使用説明書等を含んでもよい。
 本キットは、融合遺伝子の転写産物の存在又はその発現量、及び/又はエクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するために用いられ得る。
5.融合遺伝子の転写産物を含む転写産物の存在又はその発現量を判定する方法
 一態様において、本発明は、ゲノム上の融合遺伝子の転写産物を含む転写産物の存在又はその発現量を判定する方法に関する。本態様の方法は、被験体由来のサンプルから転写産物を調製する工程(転写産物調製工程)、転写産物からcDNAを調製する工程(cDNA調製工程)、上記「1.ゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブ」のプローブ、プローブセット又は組み合わせプローブセットのプローブにハイブリダイズした標的cDNAを濃縮する工程(濃縮工程)、濃縮された標的cDNAに対し、大規模並列配列決定による配列決定を行う工程(配列決定工程)、及び配列決定の結果に基づいて、ゲノム上の融合遺伝子の転写産物を含む転写産物の存在又はその発現量を判定する工程(判定工程)、をこの順序で含む。
 本方法を構成する各工程について、以下詳細に説明する。
(1)転写産物調製工程
 転写産物調製工程では、被験体由来のサンプルから転写産物を調製する。本明細書において、被験体の生物種は限定しないが、好ましくは哺乳動物、例えばヒト及びチンパンジー等の霊長類、ラット及びマウス等の実験動物、ブタ、ウシ、ウマ、ヒツジ、及びヤギ等の家畜動物、並びにイヌ及びネコ等の愛玩動物、好ましくはヒトである。
 本明細書において、「サンプル」とは、本発明の方法に供される生体試料を意味する。本発明において使用可能なサンプルとしては、限定するものではないが、例えば生体から単離した体液、細胞又は組織が挙げられる。体液の例として、血液、汗、唾液、乳、及び尿等が挙げられ、細胞の例として、例えば末梢血細胞、細胞を含むリンパ液及び組織液、毛母細胞、口腔細胞、鼻腔細胞、腸管細胞、膣内細胞、粘膜細胞、喀痰(肺胞細胞又は気肝細胞等を含み得る)が挙げられる。組織の例として、がんの病変部位、例えば、脳、咽頭、甲状腺、肺、乳房、食道、胃、肝臓、膵臓、腎臓、小腸、大腸、膀胱、前立腺、子宮、卵巣、好ましくは肺等が挙げられ、例えばこれらの組織の生検サンプルを用いることができる。生検サンプルを用いる場合、組織学的な病理診断と本発明の方法による融合遺伝子の検出を同時に行うことができるため、被験体の病理学的症状をより正確に特定できる。
 また、一実施形態では、サンプルとして、含まれるRNAが分解又は劣化したサンプル、例えば加工処理を行った生体サンプルが用いられる。加工処理の種類としては、熱処理、凍結処理、酸処理、塩基処理、好ましくはFFPE(ホルマリン固定パラフィン包埋)等の固定処理等が挙げられる。
 転写産物(total RNA)には、rRNA、tRNA、及びmRNAが含まれ得るが、好ましくはmRNAである。
 サンプルからの転写産物の調製は、公知の任意の方法を用いて行うことができる。例えば、サンプルと、チオシアン酸グアニジン及び界面活性剤を含む可溶化液とを混合し、得られた混合液に物理的処理(撹拌、ホモジナイズ、超音波破砕など)を施して、転写産物を抽出することができる。好ましくは、さらに、フェノール及びクロロホルムを添加して撹拌し、これを遠心分離することで、転写産物を含む水層を回収する方法(AGPC法)を利用することもできる。続いて、該水層からアルコール沈殿法などにより転写産物を得ることができる。また、RNAの抽出には、RNA-Bee(Tel-Test Inc.)、及びTRIZOL(Thermo Fisher Scientific)等の市販のキットを用いることもできる。これらの具体的な手順などについては、当該分野のプロトコル、例えば、Green and Sambrook, Molecular Cloning, 4th Ed (2012), Cold Spring Harbor Laboratory Pressを参照すればよい。本明細書に記載の他の生物学的な手法、例えば以下のcDNA調製工程、及び濃縮工程についても、Green and Sambrook(上掲)を参照することができる。
(2)cDNA調製工程
 転写産物調製工程で得られた転写産物からのcDNAの製造は、逆転写酵素を用いる逆転写反応によって行うことができる。逆転写反応を行う際に使用するプライマー、逆転写酵素、及び反応条件等は、当業者であれば、公知のものを適宜選択することができる。本発明の方法では、以下で記載する濃縮工程によって目的の核酸断片が濃縮されるため、ポリA配列を利用してmRNAのみを逆転写する必要がなく、例えばランダムプライマー等を用いてtotal RNAを逆転写してもよい。
(3)濃縮工程
 濃縮工程では、本明細書に記載のプローブ、プローブセット又は組み合わせプローブセットにハイブリダイズした標的cDNAを濃縮する。濃縮は当業者に知られる任意の方法を用いて行うことができる。例えば、プローブに標識子を付し、標識子と他の物質との相互作用によりプローブにハイブリダイズした標的cDNAを濃縮することができる。例えば、プローブにビオチンを付してアビジンとの相互作用によりプローブにハイブリダイズしたcDNAを濃縮してもよいし、基質または抗原抗体反応を利用したアフィニティークロマトグラフィーにより濃縮を行ってもよいし、プローブに磁性ビーズを付して磁気によりプローブにハイブリダイズしたcDNAを濃縮してもよい。
 プローブセットによる濃縮工程の前又は後に、大規模並列配列決定におけるリード長に合わせてcDNAを酵素的又は機械的に断片化してもよい。また、後のシーケンス工程に必要なアダプター配列を付加してもよい。濃縮工程の前又は後に特定の遺伝子領域を解析するために、PCR等により特定の遺伝子領域を富化してもよい。遺伝子領域の富化は、例えば4~12サイクルの増幅ステップにより行うことができる。
(4)配列決定工程
 配列決定工程では、濃縮された標的cDNAに対し、大規模並列配列決定による配列決定が行われる。シーケンシング工程の詳細は、大規模並列配列決定に用いる機器の種類等により異なるが、典型的にはアダプター配列を介して基板に連結させ、またアダプター配列をプライミング部位としてシーケンシング反応が行われる。シーケンス反応の詳細については、例えばRick Kamps et al.(上掲)を参照されたい。
 本工程では、シーケンシング反応により得られた配列情報(リード)を集めたものが得られる。出力されたデータをさらに解析して、リード数、例えばローリード当たり連結支持リード数等のより意味のある結果を導くことができる。大規模並列配列決定のための装置は各メーカーで市販されており、それらを利用することができる。例えば、限定するものではないが、RocheのGenome Sequencer(GS)FLX System、IlluminaのHiSeq、又はGenome Analyzer(GA)、Life technologiesのSupport Oligonucleotide Ligation Detection(SOLiD)システム、PolonatorのG.007システム、及びHelicos BioSciencesのHeliScope Gene Sequencingシステム等を用いることができる。
(5)判定工程
 判定工程では、配列決定工程の結果に基づいて、ゲノム上の融合遺伝子の転写産物を含む転写産物の存在又はその発現量が判定される。判定工程の一例を、図1Bに示す。判定工程の具体的な方法は、限定されるものではないが、例えば以下の基準により行うことができる。
 融合遺伝子が、5'側の遺伝子Aの一部と3'側の遺伝子Bの一部が仮想連結点において連結した転写産物を発現するとしたときに、仮想連結点において遺伝子融合が生じていない遺伝子A由来のcDNAのリード数をα、遺伝子B由来のcDNAのリード数をβとし、仮想連結点において遺伝子融合が生じている融合遺伝子由来のcDNAのリード数をγとした場合に、
 0<α又はβ≦γである場合、融合遺伝子が存在すると判定し、
 0<γ<α又はβである場合、低い発現量で融合遺伝子が存在すると判定し、
 α又はβ>0、γ=0である場合、融合遺伝子が存在しないと判定することができる。
 α及び/又はβ=0、並びにγ=0である場合には、融合遺伝子の転写産物が存在しないか、又はサンプルの質が悪いことにより転写産物が分解されているかのいずれかであると考えられる。この場合、推定融合遺伝子の両方の遺伝子の野生型転写産物の仮想連結点付近のリードをより詳細に数えることによって、いずれが正しいのかを正確に判断することが可能である。
 リード数は、通常シーケンシング前の核酸の量に比例することから、遺伝子のリード数に基づいて発現量を判定することができる。発現量は、例えば野生型遺伝子とのリード数の比較、健常体におけるリード数との比較等により相対値で定めることができるし、特定の条件におけるリード数等の測定値を絶対値として定めることもできる。
 一実施形態において、前記判定工程は、同じ領域にハイブリダイズする複数のプローブが存在する場合、該複数のプローブの数に基づいて転写産物の発現量を補正することを含む。本発明のプローブセットは、仮想連結点付近に集中的にプローブを含むため、同じ領域に重複してプローブが設計され得る。これに伴って、プローブの数に応じて当該領域に相当する転写産物のリード数が高く算出され得る。したがって、より正確にリード数に基づいて発現量を判定するには、同じ領域にハイブリダイズするプローブの数でリード数を補正することが好ましい。プローブの数によるリード数の補正方法は限定しないが、例えば、リード数をプローブのタイリング数によって割ることによって、リード数を補正することができる(例えば、5×タイリングであればリード数を5で割り、10×タイリングであればリード数を10で割ることができる)。
 一実施形態において、前記判定工程は、少なくとも1つのハウスキーピング遺伝子の発現量に基づいて、転写産物の発現量を補正することを含む。ハウスキーピング遺伝子に基づく補正は、異なるプローブセットを用いる場合、及び/又は異なるサンプルを用いる場合に、より正確に発現量を比較する際に特に好ましい。ハウスキーピング遺伝子は本分野で公知のものを使用することができ、例えばACTB、B2M、GAPDH、GUSB、H3F3A、HPRT1、HSP90AB1、NPM1、PPIA、RPLP0、TFRC、及びUBCの少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも5つ、又は全てを使用することができる。ハウスキーピング遺伝子によるリード数の補正方法は限定しないが、例えば、発現量を測定しようとする転写産物のリード数を、ハウスキーピング遺伝子のリード数によって割ることによって、リード数を補正することができる。
 本態様の方法によって、ゲノム上の融合遺伝子存在又はその発現量を判定することにより疾患を診断し得る。また、ゲノム上の融合遺伝子存在又はその発現量の情報等の被験体の遺伝的背景を踏まえて適切な薬剤等の療法を選択し得る。
6.エクソンスキッピングにより生じる転写産物を含む転写産物の存在又はその発現量を判定する方法
 一態様において、本発明は、エクソンスキッピングにより生じる転写産物を含む転写産物の存在又はその発現量を判定する方法に関する。本態様の方法は、被験体由来のサンプルから転写産物を調製する工程(転写産物調製工程)、転写産物からcDNAを調製する工程(cDNA調製工程)、上記「3.エクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのプローブ」に記載のプローブ、プローブセット又は組み合わせプローブセットのプローブにハイブリダイズした標的cDNAを濃縮する工程(濃縮工程)、濃縮された標的cDNAに対し、大規模並列配列決定による配列決定を行う工程(配列決定工程)、及び配列決定の結果に基づいて、エクソンスキッピングにより生じる転写産物を含む転写産物の存在又はその発現量を判定する工程(判定工程)、をこの順序で含む。
 エクソンスキッピングにより生じる転写産物を含む転写産物の存在又はその発現量を判定するためのものである点、及び用いるプローブが異なる点以外の本態様の方法の構成、例えば転写産物調製工程、cDNA調製工程、濃縮工程、配列決定工程、判定工程は、上記「5.融合遺伝子の転写産物の存在又はその発現量を判定する方法」に準ずる。したがって、ここでは上記「5.融合遺伝子の転写産物の存在又はその発現量を判定する方法」と異なる点を中心に以下で説明する。
 一態様において、本発明は、上記「1.ゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブ」、及び上記「3.エクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのプローブ」の両方を用いてcDNA濃縮工程を行う方法に関する。これにより、融合遺伝子とエクソンスキッピングの両方を同時に検出し得る。
 判定工程は、上記「5.融合遺伝子の転写産物の存在又はその発現量を判定する方法」において記載した通りに行うことができる。すなわち、転写産物において、5'側のエクソンA'と3'側のエクソンB'が仮想連結点において連結されているとしたときに、仮想連結点において遺伝子融合が生じていないエクソンA'由来のcDNAのリード数をα'、エクソンB'由来のcDNAのリード数をβ'とし、エクソンスキッピングにより生じる転写産物由来のcDNAのリード数をγ'とした場合に、
 0<α'又はβ'≦γ'である場合、エクソンスキッピングにより生じる転写産物が存在すると判定し、
 0<γ'<α'又はβ'である場合、低い発現量でエクソンスキッピングにより生じる転写産物が存在すると判定し、
 α'又はβ'>0、γ'=0である場合、エクソンスキッピングにより生じる転写産物が存在しないと判定する工程によって行うことができる。
7.疾患の罹患有無又はそのリスク判定を判定する、がんの種類を特定する、又はがんの予後を判定する方法
 一態様において、本発明は、本明細書に記載の方法に従って、ゲノム上の融合遺伝子の転写産物、及び/又はエクソンスキッピングにより生じる転写産物を含む転写産物の存在又はその発現量を判定する工程(判定工程)を含む、被験体における疾患の罹患有無又はそのリスクを判定する、がん(例えば原発がん)の種類を特定する、又はがん(又はがん患者)の予後を判定する方法に関する。判定工程は、上記「5.融合遺伝子の転写産物の存在又はその発現量を判定する方法」及び/又は上記「6.エクソンスキッピングにより生じる転写産物の存在又はその発現量を判定する方法」において記載した通りに行うことができる。本態様の方法は、罹患有無又はそのリスクを判定する、がんの種類を特定する、又はがんの予後を判定するものである点で、上記「5.融合遺伝子の転写産物の存在又はその発現量を判定する方法」又は「6.エクソンスキッピングにより生じる転写産物の存在又はその発現量を判定する方法」に記載の方法と異なる。
 本態様の方法において、疾患の種類は融合遺伝子又はエクソンスキッピングによって罹患有無又はそのリスクを判定できるものであれば限定しないが、例えばがん、例えば脳腫瘍、咽頭がん、甲状腺がん、肺がん、乳がん、食道がん、胃がん、肝臓がん、膵臓がん、腎臓がん、小腸がん、大腸がん、膀胱がん、前立腺がん、子宮頸がん、卵巣がん、肉腫、リンパ腫、若しくは黒色腫、好ましくは肺がん又は肉腫が挙げられる。
 本態様の方法は、判定工程に加えて、ゲノム上の融合遺伝子の転写産物の存在又はその発現量、及び/又はエクソンスキッピングにより生じる転写産物の存在又はその発現量に基づいて、被験体における疾患の罹患有無又はそのリスクを評価する工程(評価工程)、がんの種類を特定する工程(特定工程)、又はがんの予後を判定する工程(判定工程)を含み得る。
評価工程
 評価工程は、融合遺伝子又はエクソンスキッピングと疾患の公知の関連性を利用して行うことができる。例えば、EML4(echinoderm microtubule associated protein like 4)-ALK(Anaplastic lymphoma kinase)は非小細胞肺癌の、BCR(B cell receptor)-ABL1(Abelson murine leukemia viral oncogene homolog 1)は慢性骨髄白血病の、TAF15(TATA-box binding protein associated factor 15)-NR4A3(nuclear receptor subfamily 4 group A member 3)は骨外性軟骨肉腫の、AHRR(aryl-hydrocarbon receptor repressor)-NCOA2(nuclear receptor coactivator 2)は血管線維腫の、METのエクソン14のスキッピングは、非小細胞肺がんの罹患有無又はそのリスクを判定するために用いることができる。
 評価工程では、融合遺伝子の転写産物の存在又はエクソンスキッピングにより生じる転写産物の存在が検出された場合に、又は融合遺伝子の発現量又はエクソンスキッピングにより生じる転写産物の発現量が、例えば健常体と比べて高い場合に、その疾患に罹患しているか、又はそのリスクが高いと評価することができる。
特定工程及び判定工程
 がんの種類の特定及びがんの予後の判定は、ゲノム上の融合遺伝子の転写産物、及び/又はエクソンスキッピングにより生じる転写産物を含む転写産物と疾患の関連性を利用して行うことができる。上記転写産物と疾患の関連性は公知のものを利用してもよいし、未知のものを利用してもよい。
 本明細書において、「予後」とは、例えば化学療法等の治療処置を行った後の、腫瘍量の低減、腫瘍増殖の抑制、疾患の経過又は結末(例えば、再発の有無、生死等)、好ましくは生存期間の長さ、再発のリスクの高低を意味する。予後の判定は、例えば治療処置を行った後の、生存期間又は一定期間後の生存率の予測であってもよい。
 一実施形態において、特定及び判定工程は、複数の転写産物の存在及び/又は発現量に基づいて、被験体由来のサンプルをクラスタリングすることを含む。この実施形態は、上記転写産物と疾患の関連性が未知である場合に特に有利である。この実施形態における複数の転写産物の数は限定しないが、例えば2以上、5以上、10以上、20以上、30以上、50以上、100以上、200以上、300以上、400以上、又は500以上であってよく、20000以下、10000以下、5000以下、好ましくは3000以下、2000以下、又は1000以下であってよい。複数の転写産物の存在及び/又は発現量に基づいてサンプルをクラスタリングする際には、がん種が特定されている又は予後が予測されている被験体由来の標準サンプルを加えることができる。これにより、より正確にがん種に基づく又は予後に基づくクラスタリングが可能となる。クラスタリングの方法は限定しないが、例えば統計解析ソフトRのheatmap.3を用いて、遺伝子発現量を基にサンプルのクラスタリングを行うことができる。
 特定工程におけるがんの種類は限定しないが、例えば脳腫瘍、咽頭がん、甲状腺がん、肺がん(例えば肺腺がん)、乳がん、食道がん、胃がん、肝臓がん、膵臓がん、腎臓がん、小腸がん、大腸がん、膀胱がん、前立腺がん、子宮頸がん、卵巣がん、肉腫、リンパ腫、若しくは黒色腫、好ましくは肺がん(例えば肺腺がん)又は肉腫であってよい。
 本態様の疾患の罹患有無又はそのリスク判定を判定する、がんの種類を特定する、又はがんの予後を判定する方法は、他の方法、例えば組織学的な病理診断、FISH、RT-PCR、及び免疫組織化学等によるバイオマーカーの検出、CT、MRI、及び核医学検査等の画像診断と組み合わせて行ってもよい。他の方法との組み合わせによって、疾患の検出精度を高めることができる。
材料と方法
gDNA標的シーケンシング
 FFPEサンプルからゲノムDNA(500ng)をGeneRead DNA FFPE Kit(Qiagen)によって単離し、SureSelectXT Custom Kit(Agilent)を用いて標的断片を富化した。オーダーメードのプローブは、標的遺伝子のgDNAにハイブリダイズし、キャプチャーするように設計した。単離した断片の大規模並列シーケンシング(Massively Parallel Sequencing)を、ペアエンドオプションでHiSeq2500 platform(Illumina)を用いて行った。大きなデータセットから、各塩基についてQ値≧20のシーケンスリードのみを選択し、bowtie 2アルゴリズム(http://bowtie-bio.sourceforge.net/bowtie2/index.shtml)を用いて参照ヒトゲノムシーケンス(hg19)にマッピングした。体細胞変異は、MuTect(http://www.broadinstitute.org/cancer/cga/mutect)によって特定した。また、以下の判断基準:judgment = KEEP(KEEPは、mutectによる体細胞変異陽性を示す)、腫瘍リード深度≧20×、変異率≧10%、及び正常リード深度≧10×によって変異候補を選択した。
ポリA選択によるRNA-seq
 RNA-Bee(Tel-Test Inc., # CS-104B)を用いて全RNAを新鮮凍結サンプルから抽出し、DNase I(Life Technology)で処理した後にポリA-RNA選択に供し、これをcDNA合成に用いた。RNA-seqのライブラリー調製をNEBNext Ultra Directional RNA Library Prep Kit (New England Bio Labs)を用いて、製造業者のプロトコルに従って行った。NGSシーケンシングを、HiSeq2500 platform(Illumina)を用いて、各クラスターの両端から行った。
cDNAキャプチャーによるRNA-seq
 全RNAを、RNeasy FFPE Kit(Qiagen)によってFFPEサンプルから抽出し、DNase I(Life Technology)で処理した。コーディングエクソンキャプチャーのためのcDNA合成、プローブによるキャプチャー、及びライブラリー調製は、TruSight RNA Pan-Cancer Panel(Illumina)を用いて、製造業者のプロトコルに従って行った。
 ジャンクションキャプチャーのためのcDNA合成及びライブラリー調製は、SureSelect RNA Capture kit(Agilent technologies)を用いて、製造業者のプロトコルに従って行った。ジャンクションキャプチャー法のためのカスタムプローブは、標的遺伝子の仮想連結点付近配列にハイブリダイズし、キャプチャーするように設計した。具体的には、用いた大規模並列配列決定のリード長が170bpであることを考慮し、またプローブにおいてcDNAとハイブリダイズする領域の塩基長が50以上であれば仮想連結点を含むリードが得られ得ると想定して、cDNAにプローブがハイブリダイズした時の各プローブの末端部から仮想連結点までの最短塩基長を120以下となるようにプローブを設計した。なお、プローブの長さはいずれも120bpとした。また、ジャンクションキャプチャー法ではできるだけ多くの種類のリードを得るため、5×又は10×タイリングでプローブの設計を行った。NGSシーケンシングは、HiSeq2500 platform(Illumina)を用いて、各クラスターの両端から行った。一例として、EML4のエクソン13、ALKのエクソン20、及びEML4-ALKの融合遺伝子を同定するために用いたプローブセットの配列番号を以下の表1に示す。
Figure JPOXMLDOC01-appb-T000002
実施例1:ジャンクションキャプチャー法による融合遺伝子の検出
結果
 シーケンスデータの解析では、融合転写産物の連結点の存在を支持するシーケンスリードの数を数え、野生型遺伝子の転写産物と比較して、融合転写産物が有意に発現しているかどうかを調べた。
 また、各遺伝子転写産物が存在し、融合遺伝子転写産物が存在しない場合には、融合転写産物が存在しないことが示されるが、各遺伝子のリード数が0である場合には、mRNAが発現していないか、又はサンプルの質に基づくmRNA分解に由来するものであるのかを慎重に評価した。
 パイロット実験として、ジャンクションキャプチャー法に基づいて67個の融合遺伝子を標的とする小さなターゲットパネル(TOP RNA V1)を作製した。そして、TOP RNA V1を、従来法である融合遺伝子のゲノムにおける連結点を検出するイントロンキャプチャー法(TOP DNA)により得られるパネル、又はコーディングエクソンキャプチャー法に基づくTruSight RNA Pan-Cancer Panel(illumina)と比較した。
 その結果、ジャンクションキャプチャー法により得られたTOP RNA V1パネルは、イントロンキャプチャー法により得られたTOP DNAパネルよりも融合遺伝子を正確に検出でき、また連結支持リード/1000万ローリードの値も多かった(表2、図2A)。この結果は、ジャンクションキャプチャー法が融合遺伝子を検出する優れた方法であることを示唆している。
Figure JPOXMLDOC01-appb-T000003
 続いて、ジャンクションキャプチャー法について、肉腫の融合遺伝子をカバーするより大きなターゲットパネル(TOP RNA V2)、及びデータベースCOSMICにおいて報告された全ての融合遺伝子をカバーするパネル(TOP RNA V3)を設計した。RNAを抽出したFFPE保存サンプルのRNA integrity score(RIN)は、高度に分解が進んでいることを示す1.1~2.3であったが、全ての融合転写産物が検出可能であった(表3)。また、ジャンクションキャプチャー法では、コーディングエクソンキャプチャー法によってパネルを設計した場合に比べて、予想されるプローブの数及び標的キャプチャーサイズ(プローブにより捕捉される核酸配列の長さ)の両方が、顕著に少ない(図2B、及び図2C)。これは、ジャンクションキャプチャー法が非常に費用対効果が高いことを示唆している。
 ハウスキーピング遺伝子カバー度及びカバー率を計算することによって、RNA-seqの質を評価することができる。以下の基準を、RNA-seqの質が優れているとした:ハウスキーピング遺伝子の平均カバー度>500X及び100X、及びハウスキーピング遺伝子のカバー率>70%。連結支持リードが存在しない場合には、FFPE由来のRNAの分解が進んでいることにより連結支持リードが検出されないという可能性もある。そこで、融合遺伝子が真に陰性であることを確実にするため、COSMICのデータベースにおいて報告されている推定融合遺伝子の両方の遺伝子の野生型転写産物の連結指示リードをカウントするパイプラインを開発した。症例#31(EML4-ALK陽性肺腺癌)に対するこの分析の結果により、この腫瘍が分析した融合転写産物について真に陰性であることが確かめられた(データ示さず)。
実施例2:ジャンクションキャプチャー法によるエクソンスキッピングの検出
 続いて、ジャンクションキャプチャー法が、肺腺癌において発癌性であることが報告されているMETエクソン14スキッピング等の転写産物も検出可能か調べた。新鮮な凍結サンプルを用いるRNA-seqによってMETエクソン14スキッピングを有することが特定された肺腺癌の症例の5個のFFPEからRNAを抽出した。エクソン13からエクソン15への連結、即ちエクソン14のスキッピングを支持する連結支持リードの数を数えた。ジャンクションキャプチャー法では、エクソンスキッピングを有する5個のFFPEサンプルの全てにおいてMETエクソン14スキッピングが同定できたが、METエクソンスキッピングを有さない他の34の症例では全て、連結支持リードが認められなかった(図3、表3)。これは、ジャンクションキャプチャー法がエクソンスキッピングも検出可能であることを示している。
Figure JPOXMLDOC01-appb-T000004
実施例3:生検サンプルに対するジャンクションキャプチャー法の適用
 また、ジャンクションキャプチャー法が、小さな生検サンプルに適用可能であるかを評価した。針生検(core needle bipsy)、微細針吸引生検(fine needle aspiration)、及び経気管支肺生検(transbronchial lung biopsy、TBLB)をはじめとする融合遺伝子陽性のFFPE標本からRNAを調製した。驚くべきことに、全てのRNA-seqにおいて、各標本に特異的な正しい融合転写産物を支持する多数の連結支持リードを検出した(図4、表4)。
Figure JPOXMLDOC01-appb-T000005
実施例4:ジャンクションキャプチャー法の臨床的な有用性
 KRAS及びEGFR変異陰性である、ステージII又はIIIのNSCLCの40の症例の外科的切除によって得られたFFPEについて、ジャンクションキャプチャー法で試験することによって、この方法の臨床的な有用性を評価した。METエクソン14スキッピング、EML4-ALK融合遺伝子、RET融合遺伝子がそれぞれ3症例、2症例、及び1症例で検出された(データ示さず)。また、ジャンクションキャプチャー法の肉腫の診断への臨床的有用性を評価するために、前向き研究において肉腫患者についてジャンクションキャプチャー法を実施した。結果を以下の表5に示す。
Figure JPOXMLDOC01-appb-T000006
 一つの症例(#44)は、粘液性間質の付近での非定型の核を有する紡錘細胞の増殖のため、粘液線維肉腫と診断されていた。しかしながら、本症例は、ジャンクションキャプチャー法によって、血管線維腫に特異的な融合遺伝子であるAHRR-NCO2A遺伝子が検出されたことから、軟組織血管線維腫であることが明らかとなった。別の症例(#48)はTAF15-NR4A3陽性であり、これは骨外性軟骨肉腫の診断結果と一致する。
 これらの結果は、ジャンクションキャプチャー法が疾患の診断に用いられ得ることを示している。
実施例5:遺伝子発現量の測定
 本実施例では、ジャンクションキャプチャー法を用いて遺伝子発現量の測定を行った。
(材料と方法)
遺伝子発現量測定
 11種類のハウスキーピング遺伝子(ACTB、B2M、GAPDH、GUSB、H3F3A、HPRT1、HSP90AB1、PPIA、RPLP0、TFRC、及びUBC)について、実施例1に従い、全RNAをFFPEサンプルから抽出し、実施例1に従ってcDNAキャプチャー(ジャンクションキャプチャー)によるRNA-seqを行った。比較のために、実施例1に従って全RNAを新鮮凍結サンプルからも抽出し、ポリA選択によるRNA-Seqを行った。
 ただし、本実施例では、実施例1で示したジャンクションキャプチャー法のためのカスタムプローブ(TOP RNA V3)に加えて、遺伝子発現量測定用のプローブを加えて濃縮を行った。遺伝子発現量測定用プローブとしては、ERBB2等のがん遺伝子を含む125遺伝子に2×タイリングでデザインしたプローブを使用した。プローブ長は全て120塩基とした。
タイリング数に基づくリード数の補正
 実施例1で記載の通り、ジャンクションキャプチャー法ではできるだけ多くの種類のリードを得るため、仮想連結点付近に集中して5×又は10×タイリングでプローブの設計を行った。したがって、リード数に基づいて遺伝子の発現量を推定する場合、プローブの数に応じて発現量が多く算出される恐れがある。そこで、ジャンクションキャプチャー法ではリード数をプローブのタイリング数によって割ることで、リード数を補正した(例えば、5×タイリングであればリード数を5で割り、10×タイリングであればリード数を10で割った)。
ハウスキーピング遺伝子に基づくリード数の補正
 ジャンクションキャプチャー法ではFFPEサンプル(A群)を用い、ポリA選択によるRNA-Seqでは新鮮凍結サンプル(B群)を用いたため、サンプル間の質の差異を両者のハウスキーピング遺伝子の発現量が等しくなるように補正した。具体的には、11種類のハウスキーピング遺伝子の発現量のA群とB群の比のlog_2平均が等しくなるようにB群の発現量を補正する係数を計算し、これらの係数を用いて全遺伝子の発現量を補正した。
(結果)
 肺がん患者由来の7個のサンプルについて、ポリA選択によるRNA-Seq及びジャンクションキャプチャー法を用いて、11種類のハウスキーピング遺伝子(ACTB、B2M、GAPDH、GUSB、H3F3A、HPRT1、HSP90AB1、NPM1、PPIA、RPLP0、TFRC、及びUBC)の発現量を測定した。
 その結果、ハウスキーピング遺伝子については、ポリA選択によるRNA-Seqとジャンクションキャプチャー法では、RPKM(Reads Per Kilobase of exon model per Million mapped reads)の値に相関が認められた(データ示さず)。
 続いて、RNA-seqのRPKMと、ジャンクションキャプチャー法におけるタイリング数に基づいて補正を行ったRPKMについて、発現量測定用遺伝子群と融合遺伝子解析用遺伝子群について相関係数を計算した。ここで、発現量測定用遺伝子群とは遺伝子発現量測定用のプローブにより発現測定を行った遺伝子群であり、融合遺伝子解析用遺伝子群とはジャンクションキャプチャー法のためのカスタムプローブにより発現測定を行った遺伝子群である。
 発現量測定用遺伝子群の結果を図5A及び表6に、融合遺伝子解析用遺伝子群の結果を図5B及び表7に示す。発現量測定用遺伝子群及び融合遺伝子解析用遺伝子群の両方でRNA-seqのRPKMと、ジャンクションキャプチャー法のRPKMの相関が認められ、特に発現量測定用遺伝子群について、より強い相関が認められた。これらの結果は、遺伝子発現量測定用のプローブの方が発現量の測定に適しているが、ジャンクションキャプチャー法のためのカスタムプローブも発現量の測定に用い得ることを示している。また、これらの結果は、遺伝子発現量測定用のプローブに加えてジャンクションキャプチャー法のためのカスタムプローブを含む場合であっても、正確に遺伝子発現量を測定することができることを示している。
Figure JPOXMLDOC01-appb-T000007
Figure JPOXMLDOC01-appb-T000008
実施例6:遺伝子発現量に基づくがんのクラスタリング
 LUAD(肺腺がん)、SARC(肉腫)、MUCA(多発がん)、及びLUSC(肺扁平上皮がん)の患者由来のサンプルを、実施例5に従って、遺伝子発現量測定用のプローブも加えてジャンクションキャプチャー法により遺伝子発現測定を行った。具体的には、発現量測定用、融合遺伝子解析用の両方の遺伝子の合計467遺伝子について、実施例5に記載の方法に従ってタイリング数に基づくリード数の補正及びハウスキーピング遺伝子に基づくリード数の補正を行い発現値を求めた。求めた発現値(xn, n=1,...,N, Nは遺伝子数)を対数変換(log_2(xn+1))し、その値に基づいて統計解析ソフトRのheatmap.3を用いてクラスタリングを行った。
 その結果、図6に示す様に、遺伝子の発現量に基づいてLUAD、SARC、MUCA、及びLUSCがクラスタリングされた。これは、本発明の方法によって遺伝子発現量を測定することによって、原発がんの種類を特定し得ることを示している。
 本発明により、融合遺伝子及び/又はエクソンスキッピングにより生じる転写産物を簡便に検出可能な方法が提供される。これにより疾患の診断や、被験体の遺伝的背景を踏まえて適切な薬剤を選択することが可能となることから、産業上の利用可能性は大きい。
 本明細書で引用した全ての刊行物、特許及び特許出願はそのまま引用により本明細書に組み入れられるものとする。

Claims (15)

  1.  大規模並列配列決定においてゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブであって、
     前記融合遺伝子が、5'側の遺伝子Aの一部と3'側の遺伝子Bの一部が仮想連結点において連結した転写産物を発現し、
     前記プローブが前記転写産物から調製したcDNAの遺伝子A又はBのいずれかに由来する領域にハイブリダイズし、
     前記cDNAにプローブがハイブリダイズした時の前記プローブの末端部から前記仮想連結点までの最短塩基長をx、前記プローブにおいてcDNAとハイブリダイズする領域の塩基長をy、大規模並列配列決定のリード長をzとした場合に、z≧x+yである、プローブ。
  2.  大規模並列配列決定においてゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブセットであって、
     前記融合遺伝子が、5'側の遺伝子Aの一部と3'側の遺伝子Bの一部が仮想連結点において連結した転写産物を発現し、
     前記転写産物から調製したcDNAの遺伝子A又はBのいずれかに由来する領域にハイブリダイズする少なくとも2個の異なるプローブを含み、
     前記cDNAにプローブがハイブリダイズした時の各前記プローブの末端部から前記仮想連結点までの最短塩基長をx、各前記プローブにおいてcDNAとハイブリダイズする領域の塩基長をy、大規模並列配列決定のリード長をzとした場合に、z≧x+yである、プローブセット。
  3.  大規模並列配列決定においてエクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのプローブであって、
     前記転写産物において、5'側のエクソンA'と3'側のエクソンB'が仮想連結点において連結されており、
     前記プローブが前記転写産物から調製したcDNAのエクソンA'又はB'のいずれかに由来する領域にハイブリダイズし、
     前記cDNAにプローブがハイブリダイズした時の前記プローブの末端部から前記仮想連結点までの最短塩基長をx、前記プローブにおいてcDNAとハイブリダイズする領域の塩基長をy、大規模並列配列決定のリード長をzとした場合に、z≧x+yである、プローブ。
  4.  大規模並列配列決定においてエクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのプローブセットであって、
     前記転写産物において、5'側のエクソンA'と3'側のエクソンB'が仮想連結点において連結されており、
     前記転写産物から調製したcDNAのエクソンA'又はB'のいずれかに由来する領域にハイブリダイズする少なくとも2個の異なるプローブを含み、
     前記cDNAにプローブがハイブリダイズした時の各前記プローブの末端部から前記仮想連結点までの最短塩基長をx、各前記プローブにおいてcDNAとハイブリダイズする領域の塩基長をy、大規模並列配列決定のリード長をzとした場合に、z≧x+yである、プローブセット。
  5.  xが0~140、yが30~140、zが100~300である、請求項1~4のいずれか一項に記載のプローブ又はプローブセット。
  6.  大規模並列配列決定においてゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブであって、
     前記融合遺伝子が、5'側の遺伝子Aの一部と3'側の遺伝子Bの一部が仮想連結点において連結した転写産物を発現し、
     前記転写産物から調製したcDNAの前記仮想連結点を含む領域にハイブリダイズする、プローブ。
  7.  大規模並列配列決定においてゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブセットであって、
     前記融合遺伝子が、5'側の遺伝子Aの一部と3'側の遺伝子Bの一部が仮想連結点において連結した転写産物を発現し、
     前記転写産物から調製したcDNAの前記仮想連結点を含む領域にハイブリダイズする少なくとも2個の異なるプローブを含む、プローブセット。
  8.  大規模並列配列決定においてエクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのプローブであって、
     前記転写産物において、5'側のエクソンA'と3'側のエクソンB'が仮想連結点において連結されており、
     前記転写産物から調製したcDNAにおけるエクソンスキッピングが生じ得る前記仮想連結点を含む領域にハイブリダイズする、プローブ。
  9.  大規模並列配列決定においてエクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのプローブセットであって、
     前記転写産物において、5'側のエクソンA'と3'側のエクソンB'が仮想連結点において連結されており、
     前記転写産物から調製したcDNAにおけるエクソンスキッピングが生じ得る前記仮想連結点を含む領域にハイブリダイズする、少なくとも2個の異なるプローブを含む、プローブセット。
  10.  請求項1~9のいずれか一項に記載の異なる複数のプローブ又はプローブセットを含む、組み合わせプローブセット。
  11.  少なくとも1個の遺伝子発現量測定用プローブをさらに含む、請求項1~9のいずれか一項に記載のプローブ又はプローブセット又は請求項10に記載の組み合わせプローブセット。
  12.  加工処理した生体サンプル由来の転写産物に対して用いるための、請求項1~11のいずれか一項に記載のプローブ、プローブセット又は組み合わせプローブセット。
  13.  請求項1~12のいずれか一項に記載のプローブ、プローブセット又は組み合わせプローブセットを含む、キット。
  14.  被験体由来のサンプルから転写産物を調製する工程、
     前記転写産物からcDNAを調製する工程、
     請求項1~12のいずれか一項に記載のプローブ、プローブセット又は組み合わせプローブセットのプローブにハイブリダイズした標的cDNAを濃縮する工程、
     濃縮された前記標的cDNAに対し、大規模並列配列決定による配列解析を行う工程、及び
     前記配列解析の結果に基づいて、ゲノム上の融合遺伝子の転写産物及び/又はエクソンスキッピングにより生じる転写産物を含む転写産物の存在又はその発現量を判定する工程、
    を含む、ゲノム上の融合遺伝子の転写産物及び/又はエクソンスキッピングにより生じる転写産物を含む転写産物の存在又はその発現量を判定する方法。
  15.  請求項14に記載の方法に従って、ゲノム上の融合遺伝子の転写産物、及び/又はエクソンスキッピングにより生じる転写産物を含む転写産物の存在又はその発現量を判定する工程、
    を含む、被験体における疾患の罹患有無又はそのリスクを判定する、がんの種類を特定する、又はがんの予後を判定する方法。
PCT/JP2018/023799 2017-06-27 2018-06-22 融合遺伝子及び/又はエクソンスキッピングにより生ずる転写産物を検出するためのプローブ及び方法 WO2019004080A1 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN201880043242.5A CN110832076B (zh) 2017-06-27 2018-06-22 用于检测由融合基因和/或外显子跳跃产生的转录产物的探针以及方法
JP2019526862A JPWO2019004080A1 (ja) 2017-06-27 2018-06-22 融合遺伝子及び/又はエクソンスキッピングにより生ずる転写産物を検出するためのプローブ及び方法
KR1020197038272A KR102604001B1 (ko) 2017-06-27 2018-06-22 융합 유전자 및/또는 엑손 스키핑에 의해 생기는 전사 산물을 검출하기 위한 프로브 및 방법
US16/625,301 US20200165687A1 (en) 2017-06-27 2018-06-22 Probe and method for detecting transcript resulting from fusion gene and/or exon skipping
EP18823127.8A EP3647420B1 (en) 2017-06-27 2018-06-22 Probe and method for detecting transcript resulting from fusion gene and/or exon skipping
EP23181081.3A EP4269610A3 (en) 2017-06-27 2018-06-22 Probe and method for detecting transcript resulting from fusion gene and/or exon skipping
JP2023024770A JP2023054163A (ja) 2017-06-27 2023-02-21 融合遺伝子及び/又はエクソンスキッピングにより生ずる転写産物を検出するためのプローブ及び方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-125074 2017-06-27
JP2017125074 2017-06-27

Publications (1)

Publication Number Publication Date
WO2019004080A1 true WO2019004080A1 (ja) 2019-01-03

Family

ID=64740682

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/023799 WO2019004080A1 (ja) 2017-06-27 2018-06-22 融合遺伝子及び/又はエクソンスキッピングにより生ずる転写産物を検出するためのプローブ及び方法

Country Status (5)

Country Link
US (1) US20200165687A1 (ja)
EP (2) EP3647420B1 (ja)
JP (2) JPWO2019004080A1 (ja)
KR (1) KR102604001B1 (ja)
WO (1) WO2019004080A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113005200A (zh) * 2021-04-14 2021-06-22 深圳乐土生物科技有限公司 一种检测肉瘤融合基因突变的引物组合物、试剂盒及应用

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111979307B (zh) * 2020-08-31 2022-07-08 伯科生物科技有限公司 用于检测基因融合的靶向测序方法
EP4092136B8 (en) 2021-05-20 2024-03-13 Sophia Genetics S.A. Capture probes and uses thereof
CN117402976B (zh) * 2023-12-15 2024-03-12 首都医科大学附属北京儿童医院 横纹肌肉瘤检测引物探针组、试剂盒及其应用

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015516814A (ja) * 2012-04-30 2015-06-18 キアゲン ゲーエムベーハー 標的化されたdnaの濃縮および配列決定
JP2016510992A (ja) * 2013-03-11 2016-04-14 エリム バイオファーマシューティカルズ, インコーポレイテッド ゲノムDNAおよびcDANの両方を含む全核酸の濃縮および次世代シークエンシング
JP2016515384A (ja) * 2013-03-19 2016-05-30 ディレクティド・ジェノミクス・エル・エル・シー 標的配列の濃縮
WO2017015513A1 (en) * 2015-07-21 2017-01-26 Guardant Health, Inc. Locked nucleic acids for capturing fusion genes
JP2017125074A (ja) 2010-01-21 2017-07-20 アラーガン、インコーポレイテッドAllergan,Incorporated 長時間の眼圧低下効果を有するアルファ−2アドレナリンアゴニスト

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9926601B2 (en) * 2011-02-24 2018-03-27 Massachusetts Institute Of Technology Alternatively spliced mRNA isoforms as prognostic indicators for metastatic cancer
US20130096021A1 (en) * 2011-09-27 2013-04-18 Arul M. Chinnaiyan Recurrent gene fusions in breast cancer
US20160010068A1 (en) * 2013-02-22 2016-01-14 Boris C. Bastian Fusion polynucleotides and fusion polypeptides associated with cancer and particularly melanoma and their uses as therapeutic and diagnostic targets
US9657350B2 (en) * 2013-06-05 2017-05-23 The Regents Of The University Of Michigan RNA chimeras in human leukemia and lymphoma
US10724092B2 (en) * 2014-06-10 2020-07-28 Erasmus University Medical Center Rotterdam Methods for characterizing alternatively or aberrantly spliced mRNA isoforms
WO2017044993A2 (en) * 2015-09-08 2017-03-16 Affymetrix, Inc. Nucleic acid analysis by joining barcoded polynucleotide probes
CN109715802A (zh) * 2016-03-18 2019-05-03 卡里斯科学公司 寡核苷酸探针及其用途

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017125074A (ja) 2010-01-21 2017-07-20 アラーガン、インコーポレイテッドAllergan,Incorporated 長時間の眼圧低下効果を有するアルファ−2アドレナリンアゴニスト
JP2015516814A (ja) * 2012-04-30 2015-06-18 キアゲン ゲーエムベーハー 標的化されたdnaの濃縮および配列決定
JP2016510992A (ja) * 2013-03-11 2016-04-14 エリム バイオファーマシューティカルズ, インコーポレイテッド ゲノムDNAおよびcDANの両方を含む全核酸の濃縮および次世代シークエンシング
JP2016515384A (ja) * 2013-03-19 2016-05-30 ディレクティド・ジェノミクス・エル・エル・シー 標的配列の濃縮
WO2017015513A1 (en) * 2015-07-21 2017-01-26 Guardant Health, Inc. Locked nucleic acids for capturing fusion genes

Non-Patent Citations (14)

* Cited by examiner, † Cited by third party
Title
A. VAISHNAVI ET AL., NAT. MED., vol. 19, 2013, pages 1469 - 1472
ALTSCHUL ET AL., J. MOL. BIOL., vol. 215, 1990, pages 403 - 410
ALTSCHUL ET AL., NUC. ACIDS. RES., vol. 25, 1977, pages 3389 - 3402
DUNCAVAGE, E.J. ET AL.: "Targeted next generation sequencing of clinically significant gene mutations and translocations in leukemia", MODERN PATHOLOGY, vol. 25, no. 6, 16 March 2012 (2012-03-16), pages 795 - 804, XP055235397, DOI: 10.1038/modpathol.2012.29 *
GREENSAMBROOK: "Molecular Cloning", 2012, COLD SPRING HARBOR LABORATORY PRESS
INT. NEUROUROL. J., vol. 20, no. 2, 2016, pages 76 - 83
J. ERIKSON ET AL., PROC. NATL. ACAD. SCI., vol. 83, 1986, pages 1807 - 1811
K. TAKEUCHI ET AL., NAT. MED., vol. 18, 2012, pages 382 - 384
KORAZOWA: "Overview of Target Enrichment Strategies", CURRENT PROTOCOLS IN MOLECULAR BIOLOGY, vol. 112, no. 1, pages 7.21.1 - 7.21.23, XP055581262, DOI: 10.1002/0471142727.mb0721s112 *
L. FERNANDEZ-CUESTA ET AL., CANCER DISCOV., vol. 4, 2014, pages 415 - 422
M. SODA ET AL., NATURE, vol. 448, 2007, pages 561 - 566
R. WANG, L ET AL., CLIN. CANCER RES., vol. 20, 2014, pages 4107 - 4114
RICK KAMPS ET AL., INT. J. MOL. SCI., vol. 18, no. 2, 2017, pages 308
RYAN TEWHEY ET AL., GENOME BIOLOGY, vol. 10, 2009, pages R116

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113005200A (zh) * 2021-04-14 2021-06-22 深圳乐土生物科技有限公司 一种检测肉瘤融合基因突变的引物组合物、试剂盒及应用
CN113005200B (zh) * 2021-04-14 2023-07-04 深圳乐土生物科技有限公司 一种检测肉瘤融合基因突变的引物组合物、试剂盒及应用

Also Published As

Publication number Publication date
EP3647420A1 (en) 2020-05-06
JPWO2019004080A1 (ja) 2020-04-23
EP3647420A4 (en) 2021-05-19
EP4269610A3 (en) 2023-12-06
KR102604001B1 (ko) 2023-11-17
CN110832076A (zh) 2020-02-21
JP2023054163A (ja) 2023-04-13
KR20200020728A (ko) 2020-02-26
US20200165687A1 (en) 2020-05-28
EP4269610A2 (en) 2023-11-01
EP3647420B1 (en) 2023-08-23

Similar Documents

Publication Publication Date Title
US20220205045A1 (en) Raf1 fusions
US20220213553A1 (en) Prkc fusions
EP2740742B1 (en) Fusion gene of kif5b gene and ret gene, and method for determining effectiveness of cancer treatment targeting fusion gene
Qin et al. Angiomyolipoma have common mutations in TSC2 but no other common genetic events
JP2023054163A (ja) 融合遺伝子及び/又はエクソンスキッピングにより生ずる転写産物を検出するためのプローブ及び方法
CN114774520A (zh) 检测肿瘤发展的系统和方法
US10844436B2 (en) Use of double-stranded DNA in exosomes: a novel biomarker in cancer detection
CN107075730A (zh) 循环核酸的鉴定及用途
US20170198353A1 (en) Kras mutations and resistance to anti-egfr treatment
US20150299796A1 (en) Prediction of treatment response to jak/stat inhibitor
JP2004535771A (ja) Ercc1及びts発現に基づく化学療法剤投与計画の決定方法
US10519507B2 (en) Method for detecting T-cell lymphoma
CN110832076B (zh) 用于检测由融合基因和/或外显子跳跃产生的转录产物的探针以及方法
JP2022547520A (ja) 肺がんリスクについて検査するためのキットおよび方法
KR101766005B1 (ko) 폐암 환자의 생존기간 예측용 키트와 생존기간 예측을 위한 정보 제공 방법
KR101864331B1 (ko) 폐암 환자의 생존기간 예측용 키트와 생존기간 예측을 위한 정보 제공 방법
KR101805977B1 (ko) 폐암 환자의 생존기간 예측용 키트와 생존기간 예측을 위한 정보 제공 방법
Fujita et al. Detection of multiple druggable mutations of lung cancer from cytology specimens by MINtS: An advanced medicine A trial
CN110964835A (zh) 一种jak1插入突变基因及其检测方法
CN111118163A (zh) 一种jak1缺失突变基因及其应用
Zhang The integrated genomic analyses of human cancers

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18823127

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019526862

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 20197038272

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018823127

Country of ref document: EP

Effective date: 20200127