WO2019054326A1 - コピー数計測装置、コピー数計測プログラム、コピー数計測方法および遺伝子パネル - Google Patents

コピー数計測装置、コピー数計測プログラム、コピー数計測方法および遺伝子パネル Download PDF

Info

Publication number
WO2019054326A1
WO2019054326A1 PCT/JP2018/033424 JP2018033424W WO2019054326A1 WO 2019054326 A1 WO2019054326 A1 WO 2019054326A1 JP 2018033424 W JP2018033424 W JP 2018033424W WO 2019054326 A1 WO2019054326 A1 WO 2019054326A1
Authority
WO
WIPO (PCT)
Prior art keywords
copy number
target gene
gene
calculation unit
target
Prior art date
Application number
PCT/JP2018/033424
Other languages
English (en)
French (fr)
Inventor
成樹 谷嶋
涼 毛利
圭佑 酒寄
広史 西原
明夏 湯澤
Original Assignee
三菱スペース・ソフトウエア株式会社
国立大学法人北海道大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱スペース・ソフトウエア株式会社, 国立大学法人北海道大学 filed Critical 三菱スペース・ソフトウエア株式会社
Priority to US16/645,746 priority Critical patent/US20200286583A1/en
Priority to SG11202001768WA priority patent/SG11202001768WA/en
Publication of WO2019054326A1 publication Critical patent/WO2019054326A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection

Definitions

  • the present invention relates to a technique for measuring an accurate copy number in a target sequence.
  • the sequence is to read a base of genetic material and to know a sequence indicating genetic information of the genetic material.
  • the types of sequencing include whole genome sequencing, whole exome sequencing and target sequencing.
  • Whole genome sequencing is a sequence that is performed on the entire genome, including regions without genes.
  • the entire exome sequence is a sequence performed on a gene region.
  • the target sequence is a sequence performed on some genes. Specifically, target sequencing is performed on genes associated with cancer.
  • target sequences which are sequences that can be performed on a daily basis. This can reduce time and cost.
  • non-cancerous normal samples and tumor samples are used. Specifically, blood is used as a noncancer normal sample, and a surgical sample is used as a tumor sample. Then, based on the difference between the gene sequence of a normal sample and the gene sequence of a tumor sample, SNV (Single Nucleotide Variant) and CNV (Copy Number Variation) derived from cancer are detected. By comparing the gene sequence of the tumor sample with the gene sequence of the normal sample, it is possible to know only the mutations derived from the cancer, excluding the mutations associated with individual differences. Comparative analysis is also called differential analysis.
  • the copy number of chromosomes in cells can be estimated.
  • the copy number of human gene is 2 copies. Therefore, when a read at a ratio of 1.5 times the standard is mapped to the region of a gene, it is determined that the copy number of that gene is 3 copies.
  • Non-Patent Document 1 and Non-Patent Document 2 are documents relating to microarray analysis, and disclose the correlation between LRR (Log R Ratio) and BAF (B Allele Frequency).
  • Non-Patent Document 3 discloses that the phenomenon in which the copy number of both the short arm of chromosome 1 and the long arm of chromosome 19 are both reduced is an important factor that influences the prognosis of brain tumors. There is.
  • the detection of CNV in the target sequence has the following problems.
  • the ratio of the number of gene read in cancer cells to the number of gene reads in normal cells in each region (hereinafter referred to as “read number ratio”) is the most frequent read number ratio of 2 copies It is treated as a lead number ratio mapped to the area of.
  • the copy number of a part is increased or decreased, the copy number of other genes is 2 copies, so the average copy number is 2 copies. That is, in the case of whole genome sequencing performed on the entire genome, the frequency of the read ratio mapped to the region of 2 copies is the highest.
  • detection of normal CNV can yield an accurate copy number.
  • genes associated with cancer are likely to be amplified or decreased.
  • the average of the copy number may not be 2 copies. That is, in the case of the target sequence, the frequency of the read number ratio mapped to the area of 2 copies is not necessarily the highest. Thus, normal CNV detection may not be able to obtain an accurate copy number.
  • An object of the present invention is to make it possible to obtain an accurate copy number in a target sequence.
  • the copy number measuring device of the present invention is A target position that is a genomic position of a base that changes with respect to human genome sequence by mapping multiple tumor sample leads that are multiple leads obtained from a tumor sample containing cancer cells to human genome sequences A position identification unit for identifying A frequency calculation unit that calculates a mutation allele frequency for each target position of each target gene; For each target gene, the number of tumor readings mapped to each target position in the target gene, the number of mapping reads, and the density relative to the mutant allele frequency.
  • a distance calculating unit that calculates a feature distance corresponding to a difference from the mutation allele frequency;
  • a coefficient calculation unit that calculates a correction coefficient for correcting the copy number for each target gene in the tumor sample using the feature distance for each target gene;
  • a copy number calculation unit that calculates the copy number for each target gene in the cancer cell using the copy number for each target gene in the tumor sample and the correction coefficient.
  • the distance calculation unit generates a scatter graph indicating the relationship between the mutation allele frequency for each target position and the number of mapping leads for each target position, converts the scatter graph into a density distribution graph, and selects one of the density distribution graphs. Generate a correlation graph showing a correlation between the lower region which is a region below the reference mutation allele frequency and the upper region which is a region above the reference mutation allele frequency among the density distribution graph, and a peak in the correlation graph The absolute value of the difference between the mutation allele frequency corresponding to the correlation value and the reference mutation allele frequency is calculated as the feature distance.
  • the correlation graph shows the correlation between the densities of mutant allele frequencies where the absolute value of the difference between the reference mutant allele frequency in the lower region and the upper region is equal.
  • the coefficient calculation unit is a relationship graph showing a relationship between a characteristic distance and a logarithmic value of a ratio of a copy number of a gene copy number in a cancer cell to a copy number of a gene in a normal cell, and the tumor relative to a copy number of a target gene in a normal sample A value corresponding to the amount of deviation between the logarithmic value of the ratio of the copy number of the target gene in the sample and the measurement point indicating the feature distance of the target gene is calculated as the correction coefficient.
  • a content rate calculation unit is provided that calculates the content rate of the cancer cell in the tumor sample based on the copy number for each target gene in the cancer cell.
  • the content rate calculation unit calculates a content rate candidate using the copy number in the cancer cell for each target gene, and the content rate of the cancer cell in the tumor sample based on the content rate candidate for each target gene Decide.
  • the tumor sample is a brain tumor sample
  • the target genes are at least one of ATRX, IDH1, IDH2, TP53, TERT, BRAF, PDGFRA, MET, EGFR, BRSK1, EHD2, AKT2, TP73, NMNAT1, TGFBR3 and PTEN.
  • the copy number measurement program of the present invention is A target position that is a genomic position of a base that changes with respect to human genome sequence by mapping multiple tumor sample leads that are multiple leads obtained from a tumor sample containing cancer cells to human genome sequences A position identification unit for identifying A frequency calculation unit that calculates a mutation allele frequency for each target position of each target gene; For each target gene, the number of tumor readings mapped to each target position in the target gene, the number of mapping reads, and the density relative to the mutant allele frequency.
  • a distance calculating unit that calculates a feature distance corresponding to a difference from the mutation allele frequency;
  • a coefficient calculation unit that calculates a correction coefficient for correcting the copy number for each target gene in the tumor sample using the feature distance for each target gene;
  • the computer functions as a copy number calculation unit that calculates the copy number for each target gene in the cancer cell using the copy number for each target gene in the tumor sample and the correction coefficient.
  • the distance calculation unit generates a scatter graph indicating the relationship between the mutation allele frequency for each target position and the number of mapping leads for each target position, converts the scatter graph into a density distribution graph, and selects one of the density distribution graphs. Generate a correlation graph showing a correlation between the lower region which is a region below the reference mutation allele frequency and the upper region which is a region above the reference mutation allele frequency among the density distribution graph, and a peak in the correlation graph The absolute value of the difference between the mutation allele frequency corresponding to the correlation value and the reference mutation allele frequency is calculated as the feature distance.
  • the correlation graph shows the correlation between the densities of mutant allele frequencies where the absolute value of the difference between the reference mutant allele frequency in the lower region and the upper region is equal.
  • the coefficient calculation unit is a relationship graph showing a relationship between a characteristic distance and a logarithmic value of a ratio of a copy number of a gene copy number in a cancer cell to a copy number of a gene in a normal cell, and the tumor relative to a copy number of a target gene in a normal sample A value corresponding to the amount of deviation between the logarithmic value of the ratio of the copy number of the target gene in the sample and the measurement point indicating the feature distance of the target gene is calculated as the correction coefficient.
  • a content rate calculation unit is provided that calculates the content rate of the cancer cell in the tumor sample based on the copy number for each target gene in the cancer cell.
  • the content rate calculation unit calculates a content rate candidate using the copy number in the cancer cell for each target gene, and the content rate of the cancer cell in the tumor sample based on the content rate candidate for each target gene Decide.
  • the tumor sample is a brain tumor sample
  • the target genes are at least one of ATRX, IDH1, IDH2, TP53, TERT, BRAF, PDGFRA, MET, EGFR, BRSK1, EHD2, AKT2, TP73, NMNAT1, TGFBR3 and PTEN.
  • the localization unit maps a plurality of tumor sample leads, which are a plurality of leads obtained from a tumor sample containing cancer cells, to a human genome sequence, and changes the human genome sequence of the target genome of the base Identify the target position that is the position,
  • the frequency calculation unit calculates the mutation allele frequency for each target position of each target gene, A mutation corresponding to a peak density in a density distribution indicating that the distance calculation unit is the number of mapping reads, which is the number of tumor sample reads mapped to each target position in the target gene, for each target gene.
  • the coefficient calculation unit calculates a correction coefficient for correcting the copy number for each target gene in the tumor sample, using the feature distance for each target gene,
  • the copy number calculation unit calculates the copy number for each target gene in the cancer cell using the copy number for each target gene in the tumor sample and the correction coefficient.
  • the gene panel of the present invention is It contains a gene set including all of ATRX, IDH1, IDH2, TP53, TERT, BRAF, PDGFRA, MET, EGFR, BRSK1, EHD2, AKT2, TP73, NMNAT1, TGFBR3 and PTEN.
  • the gene panel of the present invention is It contains a gene set consisting of ATRX, IDH1, IDH2, TP53, TERT, BRAF, PDGFRA, MET, EGFR, BRSK1, EHD2, AKT2, TP73, NMNAT1, TGFBR3 and PTEN.
  • the gene panel of the present invention is The gene set includes ATRX, IDH1, IDH2, TP53, TERT, BRAF, PDGFRA, METRA, EGFR, BRSK1, EHD2, AKT2, TP73, NMNAT1, TGFBR3 and / or PTEN.
  • an accurate copy number can be obtained in a target sequence.
  • FIG. 2 is a block diagram of a copy number measuring device 100 according to the first embodiment.
  • 6 is a flowchart of a copy number measurement method according to Embodiment 1.
  • 6 is a flowchart of position identification processing (S110) according to the first embodiment.
  • FIG. 6 shows an example of mutation positions in Embodiment 1.
  • 6 is a flowchart of frequency calculation processing (S120) in the first embodiment.
  • 10 is a flowchart of distance calculation processing (S130) in the first embodiment.
  • 6 is a flowchart of model generation processing (S132) according to the first embodiment.
  • FIG. 2 shows a scatter graph 201 according to the first embodiment.
  • FIG. 2 shows a density distribution graph 202 according to Embodiment 1.
  • FIG. 6 shows a correlation graph 203 in the first embodiment.
  • FIG. 6 shows feature distances of the correlation graph 203 in the first embodiment.
  • FIG. 2 shows a relation model 210 according to the first embodiment.
  • FIG. 6 shows measurement point groups that match the relationship model 210 according to the first embodiment.
  • FIG. 7 shows measurement point groups that do not match the relationship model 210 according to the first embodiment.
  • 10 is a flowchart of coefficient calculation processing (S140) according to the first embodiment.
  • 10 is a flowchart of coefficient calculation processing (S140) according to the first embodiment.
  • 10 is a flowchart of a score calculation process (S 144) according to the first embodiment.
  • 10 is a flowchart of copy number calculation processing (S150) in the first embodiment. The figure which shows the example of the copy number of the whole genome.
  • FIG. 8 is a block diagram of a copy number measuring device 100 according to a second embodiment.
  • 6 is a flowchart of a copy number measurement method according to Embodiment 2.
  • 10 is a flowchart of content rate calculation processing (S160) according to the second embodiment.
  • Embodiment 1 An embodiment for obtaining an accurate copy number in a target sequence will be described based on FIGS. 1 to 18.
  • the configuration of the copy number measurement apparatus 100 is a computer including hardware such as a processor 901, a memory 902, and an auxiliary storage device 903. These pieces of hardware are connected to each other via signal lines.
  • the processor 901 is an integrated circuit (IC) that performs arithmetic processing, and controls other hardware.
  • the processor 901 is a central processing unit (CPU), a digital signal processor (DSP), or a graphics processing unit (GPU).
  • the memory 902 is a volatile storage device.
  • the memory 902 is also referred to as a main storage device or a main memory.
  • the memory 902 is a random access memory (RAM).
  • the data stored in the memory 902 is stored in the auxiliary storage device 903 as needed.
  • the auxiliary storage device 903 is a non-volatile storage device.
  • the auxiliary storage device 903 is a read only memory (ROM), a hard disk drive (HDD), or a flash memory. The data stored in the auxiliary storage device 903 is loaded into the memory 902 as needed.
  • the copy number measurement apparatus 100 includes software elements such as a position specification unit 110, a frequency calculation unit 120, a distance calculation unit 130, a coefficient calculation unit 140, a copy number calculation unit 150, and a content ratio calculation unit 160.
  • Software elements are elements implemented by software.
  • the auxiliary storage device 903 has a copy number measurement program for causing a computer to function as the position specification unit 110, the frequency calculation unit 120, the distance calculation unit 130, the coefficient calculation unit 140, the copy number calculation unit 150, and the content ratio calculation unit 160. It is memorized.
  • the copy number measurement program is loaded into the memory 902 and executed by the processor 901.
  • an OS Operating System
  • At least a portion of the OS is loaded into the memory 902 and executed by the processor 901. That is, the processor 901 executes the copy number measurement program while executing the OS.
  • Data obtained by executing the copy number measurement program is stored in a storage device such as the memory 902, the auxiliary storage device 903, a register in the processor 901 or a cache memory in the processor 901.
  • the memory 902 functions as a storage unit 191 that stores data.
  • another storage device may function as the storage unit 191 instead of the memory 902 or together with the memory 902.
  • the copy number measurement apparatus 100 may include a plurality of processors replacing the processor 901.
  • the multiple processors share the role of the processor 901.
  • the copy number measurement program can be computer-readably stored on a non-volatile storage medium such as a magnetic disk, an optical disk, or a flash memory.
  • Nonvolatile storage media are tangible media that are not temporary.
  • the operation of the copy number measurement apparatus 100 corresponds to the copy number measurement method.
  • the procedure of the copy number measurement method corresponds to the procedure of the copy number measurement program.
  • the copy number measurement method is a method of measuring the copy number of a target gene in cancer cells.
  • the target gene is a gene specialized for predicting the prognosis of brain tumors.
  • the genes specialized for predicting the prognosis of brain tumors are, among the genes present in a region where it can be determined whether the copy number of both the short arm of chromosome 1 and the long arm of chromosome 19 is decreased, Is a gene known to be related to Specifically, the target genes are ATRX, IDH1, IDH2, TP53, TERT, BRAF, PDGFRA, MET, EGFR, BRSK1, EHD2, AKT2, TP73, NMNAT1, TGFBR3 and PTEN. Alternatively, the target gene is a part of these genes.
  • the gene panel in the first embodiment includes a gene set including at least one of the target genes described above. Specifically, the gene set includes all of the target genes described above. In particular, the gene set consists of the target genes described above. Gene panels are tools for analyzing gene mutations. The gene panel is also referred to as a sequence panel.
  • the position specifying unit 110 specifies a target position for each target gene.
  • the position of interest is the genomic position of the base that is altered relative to the human genomic sequence. In particular, genome positions that are significantly changed are target positions.
  • the genomic position is the position of the base in the human genomic sequence.
  • the localization unit 110 maps a plurality of tumor sample leads to human genome sequences. Then, the position specifying unit 110 specifies, for each target gene, the target position by comparing the tumor sample lead mapped to the region of the target gene in the human genome sequence with the region of the target gene in the human genome sequence. Multiple tumor sample leads are multiple leads obtained from the tumor sample. Tumor samples are part of a tumor. A specific tumor is a brain tumor. Tumor samples include cancer cells and normal cells. The lead is a fragmented gene sequence, and is represented by a character string (base sequence) indicating a sequence of bases.
  • step S111 the localization unit 110 maps a plurality of tumor sample leads to human genome sequences.
  • a plurality of tumor sample leads are obtained from the tumor sample by the DNA sequencer and stored in the storage unit 191.
  • the number of reads obtained by the DNA sequencer is hundreds of thousands.
  • the length of the read is about 100 bases.
  • step S112 the localization unit 110 maps a plurality of normal sample leads to human genome sequences. Normal samples are parts other than tumors. The plurality of normal sample reads are obtained from the normal sample by the DNA sequencer and stored in the storage unit 191.
  • step S113 the position specifying unit 110 selects one unselected target gene.
  • step S114 to step S116 The processing from step S114 to step S116 is performed on the target gene selected in step S113.
  • the region where the gene of interest is present in the human genome sequence is called the region of interest.
  • step S114 the localization unit 110 compares the base of the tumor sample read mapped to the target region with the base of the target region in the human genome sequence. Then, the position specifying unit 110 specifies a plurality of mutation positions in the tumor sample based on the comparison result.
  • the mutation position is the genomic position of the base that is altered relative to the human genomic sequence. That is, the mutation position is the genome position of the base of SNV (Single Nucleotide Variant).
  • the method of specifying the mutation position is the same as the conventional method of specifying the position of the SNV base.
  • FIG. 4 shows how four reads are mapped to human genome sequences.
  • Base “A” in the mapped lead differs from base “T” in the human genomic sequence. That is, the mapped read base is changed to "A” with respect to the base “T” in the human genome sequence.
  • the genomic position of base “T” in the human genomic sequence is a mutated position.
  • step S115 the position identifying unit 110 compares the base of the normal sample read mapped to the target region with the base of the target region in the human genome sequence. Then, the position specifying unit 110 specifies a plurality of mutation positions in the normal sample based on the comparison result.
  • the method of specifying the mutation position is the same as the conventional method of specifying the position of the SNV base.
  • step S116 the localization unit 110 compares the plurality of mutation positions in the tumor sample with the plurality of mutation positions in the normal sample. Then, the localization unit 110 selects a significant mutation position from a plurality of mutation positions in the tumor sample based on the comparison result.
  • the significant mutation position is the position of the base that is significantly changed, and is treated as the target position. Specifically, the localization unit 110 performs Fisher's test or other test.
  • step S117 the position specifying unit 110 determines whether there is an unselected target gene. If there is an unselected target gene, the process proceeds to step S111. If there is no unselected target gene, the position specifying process (S110) ends.
  • step S120 the frequency calculation unit 120 calculates VAF (mutated allyl frequency) for each target position of each target gene.
  • VAF mutated allyl frequency
  • step S121 the frequency calculation unit 120 selects one unselected target gene.
  • step S122 to step S126 are performed on the target gene selected in step S121.
  • step S122 the frequency calculation unit 120 selects one unselected target position.
  • the target gene means the target gene selected in step S121
  • the target position means the target position selected in step S122.
  • step S123 the frequency calculation unit 120 counts the number of mapping leads.
  • the number of mapping leads is the number of leads mapped to the region including the target position among the plurality of tumor sample leads.
  • the number of mapping reads is called sequence depth.
  • step S124 the frequency calculation unit 120 counts the number of mutation reads.
  • the number of mutation reads is the number of reads in which the base at the target position is different from the bases in the human genome sequence among the reads mapped to the target position.
  • step S125 the frequency calculation unit 120 calculates the ratio of the number of mutation reads to the number of mapping reads.
  • the calculated rate is VAF.
  • step S126 the frequency calculation unit 120 determines whether there is an unselected target position. If there is an unselected target position, the process proceeds to step S122. If there is no unselected target position, the process proceeds to step S127.
  • step S127 the frequency calculation unit 120 determines whether there is an unselected target gene. If there is an unselected target gene, the process proceeds to step S121. If there is no unselected target gene, the frequency calculation process (S120) ends.
  • step S130 the distance calculation unit 130 calculates the feature distance for each target gene.
  • the feature distance corresponds to
  • the number of mapping reads means the number of tumor sample reads mapped to each target position in the target gene.
  • step S131 the distance calculation unit 130 selects one unselected target gene.
  • the target gene means the target gene selected in step S131.
  • step S132 the distance calculation unit 130 generates a VAF model.
  • the VAF model is a graph for identifying a VAF corresponding to a peak density.
  • step S1321 the distance calculation unit 130 generates a scatter graph indicating the relationship between the VAF for each target position and the number of mapping leads for each target position.
  • a scatter graph 201 is shown in FIG.
  • the scatter graph 201 is an example of a scatter graph.
  • the horizontal axis indicates VAF
  • the vertical axis indicates the number of mapping leads.
  • the scatter graph 201 shows that many tumor sample leads were mapped to the target position corresponding to a VAF close to 0.4.
  • the scatter graph 201 also shows that a certain number of tumor sample leads were mapped to the target position corresponding to the VAF close to 0.6.
  • step S1322 the distance calculation unit 130 converts the scatter graph into a density distribution graph.
  • the density distribution graph shows the relationship between VAF and mapping density.
  • the mapping density is the density of the number of mapping leads for VAF.
  • the density distribution graph 202 is shown in FIG.
  • the density distribution graph 202 is a density distribution graph obtained by converting the scatter graph 201 of FIG.
  • the horizontal axis indicates VAF
  • the vertical axis indicates mapping density.
  • the density distribution graph 202 shows that the mapping density corresponding to VAF close to 0.4 is high.
  • the density distribution graph 202 also shows that the mapping density corresponding to a VAF close to 0.6 is also somewhat high.
  • the distance calculation unit 130 generates a correlation graph using the density distribution graph.
  • the generated correlation graph is a VAF model.
  • the correlation graph shows the correlation between the lower region of the density distribution graph and the upper region of the density distribution graph.
  • the upper area is an area larger than the reference VAF.
  • the correlation graph indicates the correlation of the densities of VAFs having equal absolute values of difference with the reference VAF in the lower area and the upper area.
  • a correlation graph 203 is shown in FIG.
  • the correlation graph 203 is a correlation graph (VAF model) generated using the density distribution graph 202 of FIG.
  • VAF model a correlation graph generated using the density distribution graph 202 of FIG.
  • the horizontal axis indicates VAF
  • the vertical axis indicates the correlation value.
  • the correlation graph 203 indicates that the correlation value corresponding to the VAF close to 0.4 and the correlation value corresponding to the VAF close to 0.6 are the peaks of the correlation values.
  • the peak correlation value is the peak of the correlation value in the VAF model. When there are a plurality of peak correlation values, the distance calculation unit 130 obtains the feature distance using the VAF corresponding to the maximum peak correlation value.
  • the distance calculation unit 130 specifies the VAF corresponding to the peak correlation value as follows.
  • the distance calculation unit 130 performs the following processing for each set of the target VAF, the low VAF, and the high VAF while changing the target VAF.
  • the low VAF is a VAF smaller by a fixed value than the target VAF
  • the high VAF is a VAF larger by a fixed value than the target VAF.
  • the distance calculation unit 130 obtains a first straight line connecting the correlation value of the low VAF and the correlation value of the target VAF.
  • the distance calculation unit 130 obtains a second straight line connecting the correlation value of the target VAF and the correlation value of the high VAF.
  • the distance calculation unit 130 obtains the inclination of the first straight line and the inclination of the second straight line.
  • the distance calculation unit 130 compares the sign of the slope of the first straight line with the sign of the slope of the second straight line. Then, when the sign of the slope of the first straight line is different from the sign of the slope of the second straight line, the distance calculation unit 130 selects the target VAF.
  • the target VAF to be selected is the VAF corresponding to the peak correlation value.
  • the feature distance in the correlation graph 203 is shown in FIG.
  • VAFs corresponding to peak correlation values are about 0.4 and about 0.6.
  • the feature distance is about 0.1.
  • step S134 the distance calculation unit 130 determines whether there is an unselected target gene. If there is an unselected target gene, the process proceeds to step S131. If there is no unselected target gene, the process proceeds to step S135.
  • step S135 the distance calculation unit 130 calculates the feature distance for each target chromosome.
  • the target chromosomes are chromosomes 1, 10 and 19.
  • the method of calculating the feature distance of the target chromosome is the same as the method of calculating the feature distance of the target gene.
  • step S140 the coefficient calculation unit 140 calculates a correction coefficient using the feature distance for each target gene.
  • the correction factor is a factor for correcting the copy number of the target gene (and target chromosome) in the tumor sample.
  • the copy number of the target gene (and target chromosome) in the cancer cell can be obtained by correcting the copy number of the target gene (and target chromosome) in the tumor sample using the correction coefficient.
  • the relationship model 210 is shown in FIG.
  • the relationship model 210 shows the relationship between the feature distance and the LRR (Log R Ratio) of the copy number.
  • LRR is a value representing the ratio of the copy number of the gene in cancer cells to the copy number of the gene in normal cells in logarithm.
  • LRR log 2 (tumor / normal) Tumor is the copy number of the gene in cancer cells, and normal is the copy number of the gene in normal cells. The value of normal is 2.
  • LRR log 2 (tumor / normal)
  • Tumor is the copy number of the gene in cancer cells
  • normal is the copy number of the gene in normal cells. The value of normal is 2.
  • the state of the gene may be UPD (Uniparental disomy). In UPD, only mother-derived or father-derived genes have two copies, and heterogeneity is lost.
  • LRR is a negative value
  • the gene status is LOSS. LOSS is in a state of reduced gene.
  • LRR is a positive value
  • the gene status is AMP.
  • AMP is a state in which a gene is amplified.
  • Non-Patent Document 1 it is known that the feature distance and the LRR of the copy number match the relationship model 210. If the characteristic distance of the gene in the cancer cell and the LRR of the gene in the cancer cell are measured, a graph as shown in FIG. 13 is obtained. Each cross indicates a measurement point.
  • a graph as shown in FIG. 14 is obtained as a result of measuring the feature distance of the target gene in the tumor sample and the LRR of the target gene in the tumor sample.
  • the LRR of the gene of interest in the tumor sample is a logarithmic value of the ratio of the copy number of the gene of interest in the tumor sample to the copy number of the gene of interest in the normal sample.
  • the correction coefficient corresponds to the shift amount of the measurement point group with respect to the relationship model 210. That is, when the measurement point group is corrected using the correction coefficient, the measurement point group matches the relation model 210 as shown in FIG.
  • step S141-1 the coefficient calculation unit 140 calculates LRR for each target gene. Furthermore, the coefficient calculation unit 140 calculates LRR for each target chromosome.
  • the calculated LRR is a logarithmic value of the ratio of the copy number of the target gene (or target chromosome) in the tumor sample to the copy number of the target gene (or target chromosome) in the normal sample.
  • the LRR of the target gene is calculated based on the ratio of the number of tumor sample reads to the number of normal sample reads mapped to the region of the target gene (or target chromosome) in the human genome sequence.
  • the method of calculating LRR is prior art.
  • step S141-2 the coefficient calculation unit 140 calculates a temporary copy number for each target gene. Furthermore, the coefficient calculation unit 140 calculates the temporary copy number for each target chromosome.
  • the provisional copy number corresponds to the copy number of the target gene (or target chromosome) in the tumor sample.
  • the coefficient calculation unit 140 selects a temporary copy formula based on the LRR of the target gene (or target chromosome), and uses the feature distance of the target gene (or target chromosome) for the selected temporary copy formula. calculate. Thereby, the provisional copy number of the target gene (or target chromosome) is calculated.
  • the provisional copy equation is an equation for obtaining the provisional copy number.
  • CN t is the temporary copy number of the target gene (or target chromosome)
  • is the feature distance of the target gene (or target chromosome).
  • step S142 the coefficient calculation unit 140 selects one unselected target gene.
  • step S143 to step S145-2 is performed on the target gene selected in step S142.
  • step S144 the coefficient calculation unit 140 calculates a distance score.
  • step S144-1 the coefficient calculation unit 140 selects one unselected target chromosome from the three target chromosomes of chromosome 1, chromosome 10, and chromosome 19.
  • step S144-2 to step S144-5 are performed on the target chromosome selected in step S144-1.
  • step S144-2 the coefficient calculation unit 140 selects a coordinate formula based on the LRR of the target chromosome.
  • the coordinate equation is an equation for obtaining coordinate values.
  • AMP means amplification of a gene.
  • UPD means uniparental disomy of a gene.
  • LOSS means a gene defect.
  • the coefficient calculation unit 140 selects the coordinate formula as follows. If the LRR of the target chromosome is a positive value, the coefficient calculation unit 140 selects an expression for AMP. If the LRR of the target chromosome is zero, the coefficient calculation unit 140 selects an equation for UPD. If the LRR of the target chromosome is a negative value, the coefficient calculation unit 140 selects an expression for LOSS.
  • step S144-3 the coefficient calculation unit 140 calculates coordinate values by calculating the selected coordinate equation. Specifically, the coefficient calculation unit 140 calculates a coordinate equation using the temporary coefficient and the temporary copy number of the target chromosome.
  • CN t is a temporary copy number of the target chromosome
  • C t is a temporary coefficient
  • is a feature distance of the target chromosome.
  • (x, y) is a coordinate value.
  • step S144-4 the coefficient calculation unit 140 calculates the distance value in the X direction and the distance value in the Y direction using the calculated coordinate values.
  • the coefficient calculation unit 140 calculates the distance value X% in the X direction and the distance value Y% in the Y direction by calculating the following equation.
  • X%
  • / x Y%
  • X%
  • / x Y%
  • step S144-5 the coefficient calculation unit 140 calculates an individual score using the distance value in the X direction and the distance value in the Y direction.
  • the coefficient calculation unit 140 calculates the individual score Score n by calculating the following equation.
  • m ⁇ 2 means the square of m.
  • Score n X% ⁇ 2 + Y% ⁇ 2
  • step S144-6 the coefficient calculation unit 140 determines whether there is an unselected target chromosome. If there is an unselected target chromosome, the process proceeds to step S144-1. If there is no unselected target chromosome, the process proceeds to step S144-7.
  • step S144-7 the coefficient calculation unit 140 calculates the sum of the individual scores.
  • the sum of the individual scores is the distance score.
  • the coefficient calculation unit 140 calculates the distance score Score by calculating the following equation.
  • Score n is the individual score of chromosome n.
  • Score Score 1 + Score 10 + Score 19
  • step S145-1 the coefficient calculation unit 140 compares the distance score with the minimum score.
  • the initial value of the minimum score is the maximum value of the variable for the minimum score. If the distance score is smaller than the minimum score, the process proceeds to step S145-2. If the distance score is equal to or greater than the minimum score, the process proceeds to step S146.
  • step S145-2 the coefficient calculation unit 140 updates the value of the reference coefficient to the value of the temporary coefficient.
  • the initial value of the reference coefficient is one. Furthermore, the coefficient calculation unit 140 updates the value of the minimum score to the value of the distance score.
  • step S146 the coefficient calculation unit 140 determines whether there is an unselected target gene. If there is an unselected target gene, the process proceeds to step S142. If there is no unselected target gene, the process proceeds to step S147 (see FIG. 16).
  • step S147 the coefficient calculation unit 140 selects one unselected target gene.
  • step S148-1 to step S148-5 The processing from step S148-1 to step S148-5 is performed on the target gene selected in step S147.
  • step S148-1 the coefficient calculation unit 140 adjusts the reference coefficient. Specifically, the coefficient calculation unit 140 selects one unselected adjustment coefficient from the adjustment range, and applies the selected adjustment coefficient to the reference coefficient.
  • the adjustment range is a predetermined range and includes a plurality of adjustment factors. For example, the adjustment range is from 0.80 to 1.20 and includes 41 adjustment factors in 0.01 increments.
  • the coefficient obtained by adjusting the reference coefficient is called the adjusted reference coefficient.
  • step S148-2 the coefficient calculation unit 140 calculates a distance score using the adjusted reference coefficient.
  • the method of calculating the distance score is the same as the method in step S144 (see FIG. 17). However, the adjusted reference coefficient is used instead of the temporary coefficient.
  • step S148-3 the coefficient calculation unit 140 compares the distance score with the minimum score. If the distance score is smaller than the minimum score, the process proceeds to step S148-4. If the distance score is equal to or greater than the minimum score, the process proceeds to step S148-5.
  • step S148-4 the coefficient calculation unit 140 updates the value of the correction coefficient to the value of the reference coefficient after adjustment.
  • the initial value of the correction coefficient is one. Furthermore, the coefficient calculation unit 140 updates the value of the minimum score to the value of the distance score.
  • step S148-5 the coefficient calculation unit 140 determines whether to finish adjusting the reference coefficient. Specifically, the coefficient calculation unit 140 determines whether there is an unselected adjustment coefficient in the adjustment range. If there is no unselected adjustment factor, the factor calculation unit 140 ends the adjustment of the reference factor. When the adjustment of the reference coefficient is completed, the process proceeds to step S149. If the adjustment of the reference coefficient is not completed, the process proceeds to processing step S148-1.
  • step S149 the coefficient calculation unit 140 determines whether there is an unselected target gene. If there is an unselected target gene, the process proceeds to step S147. If there is no unselected target gene, the coefficient calculation process (S140) ends.
  • step S150 the copy number calculation unit 150 calculates the copy number for each target gene in the cancer cell, using the copy number for each target gene in the tumor sample and the correction coefficient.
  • step S151 the copy number calculation unit 150 selects one unselected target gene.
  • step S152 the copy number calculation unit 150 multiplies the temporary copy number of the target gene by the correction coefficient.
  • the provisional copy number of the target gene is calculated in step S141-2 (see FIG. 15).
  • the copy number obtained by multiplying the provisional copy number of the target gene by the correction factor is the copy number of the target gene in the cancer cell, that is, the correct copy number of the target gene.
  • the copy number calculation unit 150 calculates the copy number CN by calculating the following equation.
  • C best is a correction coefficient.
  • CNt is a temporary copy number.
  • CN C best ⁇ CN t
  • step S153 the copy number calculation unit 150 determines whether there is an unselected target gene. If there is an unselected target gene, the process proceeds to step S151. If there is no unselected target gene, the process proceeds to step S154.
  • step S154 the copy number calculation unit 150 calculates the correct copy number for each target chromosome.
  • the method of calculating the correct copy number of the target chromosome is the same as the method of calculating the correct copy number of the target gene.
  • FIG. 19 shows the copy number of the entire genome.
  • FIG. 20 shows copy numbers of chromosomes 1, 10 and 19. In the whole genome (see FIG. 19), the average number of copies is 2 copies. However, the average copy number is not 2 copies on chromosomes 1, 10 and 19 (see FIG. 20) in which the gene related to cancer is included. Since normal CNV detection is performed assuming that the average of the copy number is 2 copies, normal CNV detection can not obtain an accurate copy number in the target sequence. On the other hand, in the first embodiment, the correct copy number can be obtained in the target sequence by correcting the copy number.
  • the lower region and the upper region are correlated in the density distribution graph 202 obtained from the scatter graph 201. Thereby, VAF in the area
  • the correct copy number that is, the copy number of each target gene in cancer cells is calculated. This makes it possible to determine the content of cancer cells in a tumor sample.
  • Second Embodiment A mode in which the content rate of cancer cells in a tumor sample is determined is mainly described on the points different from the first embodiment with reference to FIG. 21 to FIG.
  • the copy number measurement apparatus 100 further includes a content ratio calculation unit 160 as a software element.
  • the copy number measurement program further causes the computer to function as the content ratio calculation unit 160.
  • step S110 to step S150 are as described in the first embodiment (see FIG. 2).
  • step S160 the content calculation unit 160 calculates the cancer content based on the copy number for each target gene in the cancer cell.
  • the cancer content is the content of cancer cells in a tumor sample.
  • step S161 the content rate calculation unit 160 selects one unselected target gene.
  • the target gene means the target gene selected in step S161.
  • the content rate calculation unit 160 selects a content rate equation based on the copy number of the target gene.
  • the copy number of the target gene is the copy number of the target gene calculated in step S150, that is, the copy number of the target gene in the cancer cell.
  • the content rate formula is a formula for determining the cancer content rate.
  • LOSS means a deletion of a gene.
  • AMP means amplification of a gene.
  • the content calculation unit 160 selects the content formula as follows. If the copy number of the target gene is less than 2, the content rate calculation unit 160 selects a formula for LOSS. If the copy number of the target gene is greater than 2, the content calculation unit 160 selects an AMP expression.
  • step S163 the content rate calculation unit 160 calculates the cancer content rate by calculating the selected content rate equation.
  • the calculated cancer content rate becomes a content rate candidate.
  • the content rate calculation unit 160 calculates the content rate equation using the copy number of the target gene.
  • CR is a cancer content rate
  • CN is a copy number.
  • n is a value estimated as the copy number in cancer cells. If n can not be estimated, the cancer content can not be calculated using the formula for AMP.
  • CR (CN-2) / (n-2)
  • the equation for AMP is based on the following equation showing the relationship between CN, CR and n.
  • step S164 the content rate calculation unit 160 determines whether there is an unselected target gene. If there is an unselected target gene, the process proceeds to step S161. If there is no unselected target gene, the process proceeds to step S165.
  • step S165 the content rate calculation unit 160 calculates content rate candidates for each target chromosome.
  • the method of calculating the content rate candidate of the target chromosome is the same as the method of calculating the content rate candidate of the target gene.
  • step S166 the content calculation unit 160 determines the cancer content based on the content candidates for each target gene and the content candidates for each target chromosome. For example, the content rate calculation unit 160 calculates the average of the content rate candidate for each target gene and the content rate candidate for each target chromosome. The calculated average is the cancer content rate.
  • Embodiment 2 the content of cancer cells in a tumor sample can be determined. As a result, it is possible to select a treatment suitable for the patient according to the content of cancer cells in the tumor sample.
  • the copy number measurement apparatus 100 may include dedicated hardware instead of general-purpose hardware such as the processor 901. Those hardwares are collectively called processing circuit.
  • the processing circuit implements the position specifying unit 110, the frequency calculation unit 120, the distance calculation unit 130, the coefficient calculation unit 140, the copy number calculation unit 150, and the content ratio calculation unit 160.
  • some functions may be implemented in hardware, and the remaining functions may be implemented in software or firmware.
  • the number of processing circuits may be one or more.
  • the embodiments are exemplifications of preferred embodiments, and are not intended to limit the technical scope of the present invention.
  • the embodiment may be partially implemented or may be implemented in combination with other embodiments.
  • the procedure described using the flowchart and the like may be changed as appropriate.
  • 100 copy number measurement device 110 position specification unit, 120 frequency calculation unit, 130 distance calculation unit, 140 coefficient calculation unit, 150 copy number calculation unit, 160 content ratio calculation unit, 191 Storage unit, 201 scatter graph, 202 density distribution graph, 203 correlation graph, 210 Relationship model, 901 processor, 902 memory, 903 auxiliary storage.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • General Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

位置特定部(110)は、複数の腫瘍サンプルリードをヒトゲノム配列にマッピングし、対象遺伝子毎にヒトゲノム配列に対して変化している塩基のゲノム位置である対象位置を特定する。頻度算出部(120)は、それぞれの対象遺伝子の対象位置毎に変異アリル頻度を算出する。距離算出部(130)は、対象遺伝子毎に、マッピングリード数の変異アリル頻度に対する密度を示す密度分布においてピーク密度に対応する変異アリル頻度と基準の変異アリル頻度との差に相当する特徴距離を算出する。係数算出部(140)は、対象遺伝子毎の特徴距離を用いて補正係数を算出する。コピー数算出部(150)は、腫瘍サンプルにおける対象遺伝子毎のコピー数と補正係数とを用いて、がん細胞における対象遺伝子毎のコピー数を算出する。

Description

コピー数計測装置、コピー数計測プログラム、コピー数計測方法および遺伝子パネル
 本発明は、ターゲットシークエンスにおいて正確なコピー数を計測するための技術に関するものである。
 がん患者の遺伝子の変異を調べて最適な治療を行うクリニカルシークエンスというサービスが存在する。
 シークエンスとは、遺伝物質の塩基を読み取り、遺伝物質の遺伝情報を示す配列を知ることである。
 シークエンスの種類には、全ゲノムシークエンス、全エクソームシークエンスおよびターゲットシークエンスが存在する。
 全ゲノムシークエンスは、遺伝子が無い領域も含めてゲノム全体に対して行うシークエンスである。
 全エクソームシークエンスは、遺伝子領域に対して行うシークエンスである。
 ターゲットシークエンスは、一部の遺伝子に対して行うシークエンスである。具体的には、ターゲットシークエンスは、がんに関連する遺伝子に対して行われる。
 がん患者の状態は悪化するので、検査結果が短期間に得られることが望ましい。また、クリニカルシークエンスは保険収載されていないので、費用の全額が患者の自費負担となる。
 そのため、クリニカルシークエンスでは、日常的に行えるシークエンスであるターゲットシークエンスによる比較解析が行われる。これにより、時間の短縮および費用の削減を図ることができる。
 比較解析では、がんでない正常サンプルと腫瘍サンプルが用いられる。具体的には、がんでない正常サンプルとして血液が用いられ、腫瘍サンプルとして手術検体が用いられる。そして、正常サンプルの遺伝子配列と腫瘍サンプルの遺伝子配列との差異に基づいて、がん由来のSNV(Single Nucleotide Variant)およびCNV(Copy Number Variation)が検出される。腫瘍サンプルの遺伝子配列を正常サンプルの遺伝子配列と比較することで、個人差に伴う変異を除外してがん由来の変異だけを知ることができる。比較解析は差分解析とも呼ばれる。
 CNVの検出が行われる前に、各サンプルから多数のリードが得られ、それぞれのリードがヒトゲノム配列にマッピングされる。
 ヒトゲノム配列において対象遺伝子の領域にマッピングされたリードの数は、実際の細胞において対象遺伝子を含んだ染色体の数と近似する。そのため、マッピングされたリードの数に基づいて、細胞内での染色体のコピー数を推定することができる。
 CNVの検出では、がん細胞における遺伝子の正規化されたリード数が正常細胞における遺伝子の正規化されたリード数よりも多い場合、その遺伝子ががん細胞内で増幅していると判断される。また、がん細胞における遺伝子のリード数が正常細胞における遺伝子のリード数よりも少ない場合、その遺伝子ががん細胞において減少していると判断される。
 通常、人の遺伝子のコピー数は2コピーである。そのため、基準の1.5倍の比率のリードが遺伝子の領域にマッピングされた場合、その遺伝子のコピー数が3コピーであると判断される。
 非特許文献1および非特許文献2は、マイクロアレイ解析に関する文献であり、LRR(Log R Ratio)とBAF(B Allele Frequency)との相関を開示している。
 非特許文献3は、1番染色体の短腕と19番染色体の長腕とのそれぞれのコピー数が共に減少しているという現象が脳腫瘍の予後を左右する重要なファクターであることを開示している。
Cathy C.L、et al. Detectable clonal mosaicism from birth to old age and its relationship to cancer、Nature Genetics Volume 44、June 2012、pp.642-650 C Alkan、et al. Genome Structural variation discovery and genotyping、Nature Reviews Genetics 12、May 2011、pp.363-376 Louis DN、et al. Acta Neuropathol. June 2016、131(6):803-20.doi:10.1007/s00401-016-1545-1.
 ターゲットシークエンスにおけるCNVの検出には以下のような課題がある。
 通常、CNVの検出では、それぞれの領域の正常細胞における遺伝子のリード数に対するがん細胞における遺伝子のリード数の比(以下「リード数比」という)のうち最も頻度が高いリード数比が2コピーの領域にマッピングされるリード数比として扱われる。
 ゲノム全体では、一部のコピー数が増減していても、その他の遺伝子のコピー数が2コピーであるため、コピー数の平均は2コピーである。つまり、ゲノム全体に対して行われる全ゲノムシークエンスの場合、2コピーの領域にマッピングされるリード数比の頻度が最も高い。したがって、通常のCNVの検出によって、正確なコピー数を得ることができる。
 一方、がんに関連する遺伝子は増幅または減少しやすい。そのため、がんに関連する遺伝子に対して行われるターゲットシークエンスにおいては、コピー数の平均が2コピーでない可能性がある。つまり、ターゲットシークエンスの場合、2コピーの領域にマッピングされるリード数比の頻度が最も高いとは限らない。したがって、通常のCNVの検出によって、正確なコピー数を得ることができない可能性がある。
 本発明は、ターゲットシークエンスにおいて正確なコピー数を得ることができるようにすることを目的とする。
 本発明のコピー数計測装置は、
 がん細胞を含んだ腫瘍サンプルから得られた複数のリードである複数の腫瘍サンプルリードをヒトゲノム配列にマッピングし、対象遺伝子毎にヒトゲノム配列に対して変化している塩基のゲノム位置である対象位置を特定する位置特定部と、
 それぞれの対象遺伝子の対象位置毎に変異アリル頻度を算出する頻度算出部と、
 対象遺伝子毎に、対象遺伝子の中のそれぞれの対象位置にマッピングされた腫瘍サンプルリードの数であるマッピングリード数の変異アリル頻度に対する密度を示す密度分布においてピーク密度に対応する変異アリル頻度と基準の変異アリル頻度との差に相当する特徴距離を算出する距離算出部と、
 対象遺伝子毎の特徴距離を用いて、前記腫瘍サンプルにおける対象遺伝子毎のコピー数を補正するための補正係数を算出する係数算出部と、
 前記腫瘍サンプルにおける対象遺伝子毎のコピー数と前記補正係数とを用いて、前記がん細胞における対象遺伝子毎のコピー数を算出するコピー数算出部とを備える。
 前記距離算出部は、対象位置毎の変異アリル頻度と対象位置毎のマッピングリード数との関係を示す散布グラフを生成し、前記散布グラフを密度分布グラフに変換し、前記密度分布グラフのうちの前記基準の変異アリル頻度以下の領域である下位領域と前記密度分布グラフのうちの前記基準の変異アリル頻度以上の領域である上位領域との相関を示す相関グラフを生成し、前記相関グラフにおいてピーク相関値に対応する変異アリル頻度と前記基準の変異アリル頻度との差の絶対値を前記特徴距離として算出する。
 前記相関グラフは、前記下位領域と前記上位領域とにおいて前記基準の変異アリル頻度との差の絶対値が等しい変異アリル頻度同士の密度の相関を示す。
 前記係数算出部は、正常細胞における遺伝子のコピー数に対するがん細胞における遺伝子のコピー数の割合の対数値と特徴距離との関係を示す関係グラフと、正常サンプルにおける対象遺伝子のコピー数に対する前記腫瘍サンプルにおける対象遺伝子のコピー数の割合の対数値と対象遺伝子の特徴距離とを示す計測点とのずれ量に相当する値を、前記補正係数として算出する。
 前記がん細胞における対象遺伝子毎のコピー数に基づいて、前記腫瘍サンプルにおける前記がん細胞の含有率を算出する含有率算出部を備える。
 前記含有率算出部は、対象遺伝子毎に前記がん細胞におけるコピー数を用いて含有率候補を算出し、対象遺伝子毎の含有率候補に基づいて前記腫瘍サンプルにおける前記がん細胞の前記含有率を決定する。
 前記腫瘍サンプルが脳腫瘍のサンプルであり、
 前記対象遺伝子が、ATRXとIDH1とIDH2とTP53とTERTとBRAFとPDGFRAとMETとEGFRとBRSK1とEHD2とAKT2とTP73とNMNAT1とTGFBR3とPTENとの少なくともいずれかである。
 本発明のコピー数計測プログラムは、
 がん細胞を含んだ腫瘍サンプルから得られた複数のリードである複数の腫瘍サンプルリードをヒトゲノム配列にマッピングし、対象遺伝子毎にヒトゲノム配列に対して変化している塩基のゲノム位置である対象位置を特定する位置特定部と、
 それぞれの対象遺伝子の対象位置毎に変異アリル頻度を算出する頻度算出部と、
 対象遺伝子毎に、対象遺伝子の中のそれぞれの対象位置にマッピングされた腫瘍サンプルリードの数であるマッピングリード数の変異アリル頻度に対する密度を示す密度分布においてピーク密度に対応する変異アリル頻度と基準の変異アリル頻度との差に相当する特徴距離を算出する距離算出部と、
 対象遺伝子毎の特徴距離を用いて、前記腫瘍サンプルにおける対象遺伝子毎のコピー数を補正するための補正係数を算出する係数算出部と、
 前記腫瘍サンプルにおける対象遺伝子毎のコピー数と前記補正係数とを用いて、前記がん細胞における対象遺伝子毎のコピー数を算出するコピー数算出部としてコンピュータを機能させる。
 前記距離算出部は、対象位置毎の変異アリル頻度と対象位置毎のマッピングリード数との関係を示す散布グラフを生成し、前記散布グラフを密度分布グラフに変換し、前記密度分布グラフのうちの前記基準の変異アリル頻度以下の領域である下位領域と前記密度分布グラフのうちの前記基準の変異アリル頻度以上の領域である上位領域との相関を示す相関グラフを生成し、前記相関グラフにおいてピーク相関値に対応する変異アリル頻度と前記基準の変異アリル頻度との差の絶対値を前記特徴距離として算出する。
 前記相関グラフは、前記下位領域と前記上位領域とにおいて前記基準の変異アリル頻度との差の絶対値が等しい変異アリル頻度同士の密度の相関を示す。
 前記係数算出部は、正常細胞における遺伝子のコピー数に対するがん細胞における遺伝子のコピー数の割合の対数値と特徴距離との関係を示す関係グラフと、正常サンプルにおける対象遺伝子のコピー数に対する前記腫瘍サンプルにおける対象遺伝子のコピー数の割合の対数値と対象遺伝子の特徴距離とを示す計測点とのずれ量に相当する値を、前記補正係数として算出する。
 前記がん細胞における対象遺伝子毎のコピー数に基づいて、前記腫瘍サンプルにおける前記がん細胞の含有率を算出する含有率算出部を備える。
 前記含有率算出部は、対象遺伝子毎に前記がん細胞におけるコピー数を用いて含有率候補を算出し、対象遺伝子毎の含有率候補に基づいて前記腫瘍サンプルにおける前記がん細胞の前記含有率を決定する。
 前記腫瘍サンプルが脳腫瘍のサンプルであり、
 前記対象遺伝子が、ATRXとIDH1とIDH2とTP53とTERTとBRAFとPDGFRAとMETとEGFRとBRSK1とEHD2とAKT2とTP73とNMNAT1とTGFBR3とPTENとの少なくともいずれかである。
 本発明のコピー数計測方法において、
 位置特定部が、がん細胞を含んだ腫瘍サンプルから得られた複数のリードである複数の腫瘍サンプルリードをヒトゲノム配列にマッピングし、対象遺伝子毎にヒトゲノム配列に対して変化している塩基のゲノム位置である対象位置を特定し、
 頻度算出部が、それぞれの対象遺伝子の対象位置毎に変異アリル頻度を算出し、
 距離算出部が、対象遺伝子毎に、対象遺伝子の中のそれぞれの対象位置にマッピングされた腫瘍サンプルリードの数であるマッピングリード数の変異アリル頻度に対する密度を示す密度分布においてピーク密度に対応する変異アリル頻度と基準の変異アリル頻度との差に相当する特徴距離を算出し、
 係数算出部が、対象遺伝子毎の特徴距離を用いて、前記腫瘍サンプルにおける対象遺伝子毎のコピー数を補正するための補正係数を算出し、
 コピー数算出部が、前記腫瘍サンプルにおける対象遺伝子毎のコピー数と前記補正係数とを用いて、前記がん細胞における対象遺伝子毎のコピー数を算出する。
 本発明の遺伝子パネルは、
 ATRXとIDH1とIDH2とTP53とTERTとBRAFとPDGFRAとMETとEGFRとBRSK1とEHD2とAKT2とTP73とNMNAT1とTGFBR3とPTENとを全て含む遺伝子セットを含む。
 本発明の遺伝子パネルは、
 ATRXとIDH1とIDH2とTP53とTERTとBRAFとPDGFRAとMETとEGFRとBRSK1とEHD2とAKT2とTP73とNMNAT1とTGFBR3とPTENとから成る遺伝子セットを含む。
 本発明の遺伝子パネルは、
 ATRXとIDH1とIDH2とTP53とTERTとBRAFとPDGFRAとMETとEGFRとBRSK1とEHD2とAKT2とTP73とNMNAT1とTGFBR3とPTENとの少なくともいずれかを含む遺伝子セットを含む。
 本発明によれば、ターゲットシークエンスにおいて正確なコピー数を得ることができる。
実施の形態1におけるコピー数計測装置100の構成図。 実施の形態1におけるコピー数計測方法のフローチャート。 実施の形態1における位置特定処理(S110)のフローチャート。 実施の形態1における変異位置の例を示す図。 実施の形態1における頻度算出処理(S120)のフローチャート。 実施の形態1における距離算出処理(S130)のフローチャート。 実施の形態1におけるモデル生成処理(S132)のフローチャート。 実施の形態1における散布グラフ201を示す図。 実施の形態1における密度分布グラフ202を示す図。 実施の形態1における相関グラフ203を示す図。 実施の形態1における相関グラフ203の特徴距離を示す図。 実施の形態1における関係モデル210を示す図。 実施の形態1における関係モデル210に合致する計測点群を示す図。 実施の形態1における関係モデル210に合致しない計測点群を示す図。 実施の形態1における係数算出処理(S140)のフローチャート。 実施の形態1における係数算出処理(S140)のフローチャート。 実施の形態1におけるスコア算出処理(S144)のフローチャート。 実施の形態1におけるコピー数算出処理(S150)のフローチャート。 ゲノム全体のコピー数の例を示す図。 1番染色体、10番染色体および19番染色体のコピー数の例を示す図。 実施の形態2におけるコピー数計測装置100の構成図。 実施の形態2におけるコピー数計測方法のフローチャート。 実施の形態2における含有率算出処理(S160)のフローチャート。
 実施の形態および図面において、同じ要素および対応する要素には同じ符号を付している。同じ符号が付された要素の説明は適宜に省略または簡略化する。図中の矢印はデータの流れ又は処理の流れを主に示している。
 実施の形態1.
 ターゲットシークエンスにおいて正確なコピー数を得るための形態について、図1から図18に基づいて説明する。
***構成の説明***
 図1に基づいて、コピー数計測装置100の構成を説明する。
 コピー数計測装置100は、プロセッサ901とメモリ902と補助記憶装置903といったハードウェアを備えるコンピュータである。これらのハードウェアは、信号線を介して互いに接続されている。
 プロセッサ901は、演算処理を行うIC(Integrated Circuit)であり、他のハードウェアを制御する。例えば、プロセッサ901は、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、またはGPU(Graphics Processing Unit)である。
 メモリ902は揮発性の記憶装置である。メモリ902は、主記憶装置またはメインメモリとも呼ばれる。例えば、メモリ902はRAM(Random Access Memory)である。メモリ902に記憶されたデータは必要に応じて補助記憶装置903に保存される。
 補助記憶装置903は不揮発性の記憶装置である。例えば、補助記憶装置903は、ROM(Read Only Memory)、HDD(Hard Disk Drive)、またはフラッシュメモリである。補助記憶装置903に記憶されたデータは必要に応じてメモリ902にロードされる。
 コピー数計測装置100は、位置特定部110と頻度算出部120と距離算出部130と係数算出部140とコピー数算出部150と含有率算出部160といったソフトウェア要素を備える。ソフトウェア要素はソフトウェアで実現される要素である。
 補助記憶装置903には、位置特定部110と頻度算出部120と距離算出部130と係数算出部140とコピー数算出部150と含有率算出部160としてコンピュータを機能させるためのコピー数計測プログラムが記憶されている。コピー数計測プログラムは、メモリ902にロードされて、プロセッサ901によって実行される。
 さらに、補助記憶装置903にはOS(Operating System)が記憶されている。OSの少なくとも一部は、メモリ902にロードされて、プロセッサ901によって実行される。
 つまり、プロセッサ901は、OSを実行しながら、コピー数計測プログラムを実行する。
 コピー数計測プログラムを実行して得られるデータは、メモリ902、補助記憶装置903、プロセッサ901内のレジスタまたはプロセッサ901内のキャッシュメモリといった記憶装置に記憶される。
 メモリ902はデータを記憶する記憶部191として機能する。但し、他の記憶装置が、メモリ902の代わりに、又は、メモリ902と共に、記憶部191として機能してもよい。
 コピー数計測装置100は、プロセッサ901を代替する複数のプロセッサを備えてもよい。複数のプロセッサは、プロセッサ901の役割を分担する。
 コピー数計測プログラムは、磁気ディスク、光ディスクまたはフラッシュメモリ等の不揮発性の記憶媒体にコンピュータ読み取り可能に記憶することができる。不揮発性の記憶媒体は、一時的でない有形の媒体である。
***動作の説明***
 コピー数計測装置100の動作はコピー数計測方法に相当する。また、コピー数計測方法の手順はコピー数計測プログラムの手順に相当する。
 コピー数計測方法は、がん細胞における対象遺伝子のコピー数を計測する方法である。
 対象遺伝子は、脳腫瘍の予後の予測に特化した遺伝子である。脳腫瘍の予後の予測に特化した遺伝子とは、1番染色体の短腕と19番染色体の長腕とのそれぞれのコピー数が共に減少しているか判定できる領域に存在する遺伝子のうち、脳腫瘍との関連が知られている遺伝子である。
 具体的には、対象遺伝子は、ATRX、IDH1、IDH2、TP53、TERT、BRAF、PDGFRA、MET、EGFR、BRSK1、EHD2、AKT2、TP73、NMNAT1、TGFBR3およびPTENである。または、対象遺伝子はこれらの遺伝子のうちの一部である。
 実施の形態1における遺伝子パネルは、上記の対象遺伝子の少なくともいずれかを含む遺伝子セットを含む。
 具体的には、遺伝子セットは上記の対象遺伝子の全てを含む。特に、遺伝子セットは上記の対象遺伝子から成る。
 遺伝子パネルは、遺伝子の変異を解析するためのツールである。遺伝子パネルは、シーケンスパネルともいう。
 図2に基づいて、コピー数計測方法の手順を説明する。
 ステップS110において、位置特定部110は、対象遺伝子毎に対象位置を特定する。
 対象位置は、ヒトゲノム配列に対して変化している塩基のゲノム位置である。特に、有意に変化しているゲノム位置が対象位置となる。
 ゲノム位置は、ヒトゲノム配列における塩基の位置である。
 具体的には、位置特定部110は、複数の腫瘍サンプルリードをヒトゲノム配列にマッピングする。そして、位置特定部110は、対象遺伝子毎に、ヒトゲノム配列の中の対象遺伝子の領域にマッピングされた腫瘍サンプルリードをヒトゲノム配列の中の対象遺伝子の領域と比較して対象位置を特定する。
 複数の腫瘍サンプルリードは、腫瘍サンプルから得られた複数のリードである。
 腫瘍サンプルは腫瘍の一部である。具体的な腫瘍は脳腫瘍である。腫瘍サンプルには、がん細胞と正常な細胞とが含まれる。
 リードは、断片化された遺伝子配列であり、塩基の並びを示す文字列(塩基配列)で表される。
 図3に基づいて、位置特定処理(S110)の手順を説明する。
 ステップS111において、位置特定部110は、複数の腫瘍サンプルリードをヒトゲノム配列にマッピングする。
 複数の腫瘍サンプルリードは、DNAシークエンサーによって腫瘍サンプルから得られ、記憶部191に記憶されている。
 DNAシークエンサーによって得られるリードの数は数十万本である。リードの長さは100塩基程度である。
 ステップS112において、位置特定部110は、複数の正常サンプルリードをヒトゲノム配列にマッピングする。
 正常サンプルは腫瘍以外の部分である。
 複数の正常サンプルリードは、DNAシークエンサーによって正常サンプルから得られ、記憶部191に記憶されている。
 ステップS113において、位置特定部110は、未選択の対象遺伝子を1つ選択する。
 ステップS114からステップS116までの処理は、ステップS113で選択された対象遺伝子に対して行われる。ヒトゲノム配列において対象遺伝子が存在する領域を対象領域という。
 ステップS114において、位置特定部110は、対象領域にマッピングされた腫瘍サンプルリードの塩基をヒトゲノム配列の中の対象領域の塩基と比較する。
 そして、位置特定部110は、比較結果に基づいて、腫瘍サンプルにおける複数の変異位置を特定する。
 変異位置は、ヒトゲノム配列に対して変化している塩基のゲノム位置である。つまり、変異位置は、SNV(Single Nucleotide Variant)の塩基のゲノム位置である。
 変異位置を特定する方法は、SNVの塩基の位置を特定する従来の方法と同じである。
 図4に、ヒトゲノム配列に対して4つのリードがマッピングされた様子を示す。
 マッピングされたリードの中の塩基「A」は、ヒトゲノム配列における塩基「T」と異なる。つまり、ヒトゲノム配列における塩基「T」に対して、マッピングされたリードの塩基は「A」に変化している。
 したがって、ヒトゲノム配列における塩基「T」のゲノム位置は変異位置である。
 図3に戻り、ステップS115から説明を続ける。
 ステップS115において、位置特定部110は、対象領域にマッピングされた正常サンプルリードの塩基をヒトゲノム配列の中の対象領域の塩基と比較する。
 そして、位置特定部110は、比較結果に基づいて、正常サンプルにおける複数の変異位置を特定する。
 変異位置を特定する方法は、SNVの塩基の位置を特定する従来の方法と同じである。
 ステップS116において、位置特定部110は、腫瘍サンプルにおける複数の変異位置を正常サンプルにおける複数の変異位置と比較する。
 そして、位置特定部110は、比較結果に基づいて、腫瘍サンプルにおける複数の変異位置から有意な変異位置を選択する。有意な変異位置は、有意に変化している塩基の位置であり、対象位置として扱われる。
 具体的には、位置特定部110は、フィッシャー検定または他の検定を行う。
 ステップS117において、位置特定部110は、未選択の対象遺伝子が有るか判定する。
 未選択の対象遺伝子が有る場合、処理はステップS111に進む。
 未選択の対象遺伝子が無い場合、位置特定処理(S110)は終了する。
 図2に戻り、ステップS120を説明する。
 ステップS120において、頻度算出部120は、それぞれの対象遺伝子の対象位置毎にVAF(変異アリル頻度)を算出する。
 図5に基づいて、頻度算出処理(S120)の手順を説明する。
 ステップS121において、頻度算出部120は、未選択の対象遺伝子を1つ選択する。
 ステップS122からステップS126までの処理は、ステップS121で選択された対象遺伝子に対して行われる。
 ステップS122において、頻度算出部120は、未選択の対象位置を1つ選択する。
 ステップS123からステップS125において、対象遺伝子はステップS121で選択された対象遺伝子を意味し、対象位置はステップS122で選択された対象位置を意味する。
 ステップS123において、頻度算出部120は、マッピングリード数を数える。
 マッピングリード数は、複数の腫瘍サンプルリードのうち、対象位置を含む領域にマッピングされたリードの数である。
 マッピングリード数は、シークエンスdepthと呼ばれる。
 ステップS124において、頻度算出部120は、変異リード数を数える。
 変異リード数は、対象位置にマッピングされたリードのうち、対象位置の塩基がヒトゲノム配列における塩基と異なるリードの数である。
 ステップS125において、頻度算出部120は、マッピングリード数に対する変異リード数の割合を算出する。算出される割合がVAFである。
 ステップS126において、頻度算出部120は、未選択の対象位置が有るか判定する。
 未選択の対象位置が有る場合、処理はステップS122に進む。
 未選択の対象位置が無い場合、処理はステップS127に進む。
 ステップS127において、頻度算出部120は、未選択の対象遺伝子が有るか判定する。
 未選択の対象遺伝子が有る場合、処理はステップS121に進む。
 未選択の対象遺伝子が無い場合、頻度算出処理(S120)は終了する。
 図2に戻り、ステップS130を説明する。
 ステップS130において、距離算出部130は、対象遺伝子毎に特徴距離を算出する。
 特徴距離は、VAF(変異アリル頻度)に対するマッピングリード数の密度を示す密度分布においてピーク密度に対応するVAFと基準のVAF(=0.5)との差に相当する値である。また、特徴距離は、非特許文献1に記載されている|BAF deviation from 0.5|に相当する。
 マッピングリード数は、対象遺伝子の中のそれぞれの対象位置にマッピングされた腫瘍サンプルリードの数を意味する。
 図6に基づいて、距離算出処理(S130)の手順を説明する。
 ステップS131において、距離算出部130は、未選択の対象遺伝子を1つ選択する。
 ステップS132およびステップS133において、対象遺伝子はステップS131で選択された対象遺伝子を意味する。
 ステップS132において、距離算出部130は、VAFモデルを生成する。
 VAFモデルは、ピーク密度に対応するVAFを特定するためのグラフである。
 図7に基づいて、モデル生成処理(S132)の手順を説明する。
 ステップS1321において、距離算出部130は、対象位置毎のVAFと対象位置毎のマッピングリード数との関係を示す散布グラフを生成する。
 図8に、散布グラフ201を示す。散布グラフ201は散布グラフの一例である。
 散布グラフ201において、横軸はVAFを示し、縦軸はマッピングリード数を示す。
 散布グラフ201は、0.4に近いVAFに対応する対象位置に多くの腫瘍サンプルリードがマッピングされたことを示している。また、散布グラフ201は、0.6に近いVAFに対応する対象位置にも、ある程度の数の腫瘍サンプルリードがマッピングされたことを示している。
 ステップS1322において、距離算出部130は、散布グラフを密度分布グラフに変換する。密度分布グラフは、VAFとマッピング密度との関係を示す。
 マッピング密度は、VAFに対するマッピングリード数の密度である。
 図9に、密度分布グラフ202を示す。密度分布グラフ202は、図8の散布グラフ201を変換することによって得られる密度分布グラフである。
 密度分布グラフ202において、横軸はVAFを示し、縦軸はマッピング密度を示す。
 密度分布グラフ202は、0.4に近いVAFに対応するマッピング密度が高いことを示している。また、密度分布グラフ202は、0.6に近いVAFに対応するマッピング密度も、ある程度高いことを示している。
 ステップS1323において、距離算出部130は、密度分布グラフを用いて、相関グラフを生成する。生成される相関グラフがVAFモデルである。
 相関グラフは、密度分布グラフの下位領域と密度分布グラフの上位領域との相関を示す。下位領域は基準のVAF(=0.5)以下の領域であり、上位領域は基準のVAF以上の領域である。
 具体的には、相関グラフは、下位領域と上位領域とにおいて基準のVAFとの差の絶対値が等しいVAF同士の密度の相関を示す。
 距離算出部130は、以下のように相関グラフを生成する。
 まず、距離算出部130は、密度分布グラフにおいて基準のVAF(=0.5)を対象軸にして上位領域(VAF>0.5)のグラフを下位領域(VAF<0.5)のグラフに線対称に写像する。
 次に、距離算出部130は、下位領域において、元のグラフと写像されたグラフとの相関を示す相関値を求める。
 次に、距離算出部130は、下位領域において、VAFと相関値との関係を示す相関グラフを生成する。
 そして、距離算出部130は、基準のVAFを対象軸にして、下位領域を上位領域に線対称に写像する。
 図10に、相関グラフ203を示す。相関グラフ203は、図9の密度分布グラフ202を用いて生成される相関グラフ(VAFモデル)である。
 相関グラフ203において、横軸はVAFを示し、縦軸は相関値を示す。
 相関グラフ203は、0.4に近いVAFに対応する相関値および0.6に近いVAFに対応する相関値が相関値のピークであることを示している。
 図6に戻り、ステップS133から説明を続ける。
 ステップS133において、距離算出部130は、VAFモデルを用いて特徴距離を算出する。
 具体的には、距離算出部130は、VAFモデル(相関グラフ)においてピーク相関値に対応するVAF(変異アリル頻度)と基準のVAF(=0.5)との差の絶対値を算出する。算出される絶対値が特徴距離である。
 ピーク相関値は、VAFモデルにおける相関値のピークである。
 ピーク相関値が複数有る場合、距離算出部130は、最大のピーク相関値に対応するVAFを用いて特徴距離を求める。
 例えば、距離算出部130は、ピーク相関値に対応するVAFを以下のように特定する。
 距離算出部130は、対象VAFを変化させながら、対象VAFと低VAFと高VAFとの組毎に以下の処理を行う。低VAFは対象VAFより一定値だけ小さいVAFであり、高VAFは対象VAFより一定値だけ大きいVAFである。
 まず、距離算出部130は、低VAFの相関値と対象VAFの相関値とを結ぶ第1直線を求める。さらに、距離算出部130は、対象VAFの相関値と高VAFの相関値とを結ぶ第2直線を求める。
 次に、距離算出部130は、第1直線の傾きと第2直線の傾きとを求める。
 次に、距離算出部130は、第1直線の傾きの符号を第2直線の傾きの符号と比較する。
 そして、第1直線の傾きの符号が第2直線の傾きの符号と異なる場合、距離算出部130は、対象VAFを選択する。選択される対象VAFがピーク相関値に対応するVAFである。
 図11に、相関グラフ203における特徴距離を示す。|0.5-VAF|が特徴距離を示している。
 相関グラフ203において、ピーク相関値に対応するVAFは約0.4および約0.6である。したがって、特徴距離は約0.1である。
 ステップS134において、距離算出部130は、未選択の対象遺伝子が有るか判定する。
 未選択の対象遺伝子が有る場合、処理はステップS131に進む。
 未選択の対象遺伝子が無い場合、処理はステップS135に進む。
 ステップS135において、距離算出部130は、対象染色体毎に特徴距離を算出する。
 対象染色体は、1番染色体、10番染色体および19番染色体である。
 対象染色体の特徴距離を算出する方法は、対象遺伝子の特徴距離を算出する方法と同様である。
 図2に戻り、ステップS140を説明する。
 ステップS140において、係数算出部140は、対象遺伝子毎の特徴距離を用いて、補正係数を算出する。
 補正係数は、腫瘍サンプルにおける対象遺伝子(および対象染色体)のコピー数を補正するための係数である。
 腫瘍サンプルにおける対象遺伝子(および対象染色体)のコピー数を補正係数を用いて補正することにより、がん細胞における対象遺伝子(および対象染色体)のコピー数を得ることができる。
 図12に、関係モデル210を示す。
 関係モデル210は、特徴距離とコピー数のLRR(Log R Ratio)との関係を示す。|0.5-VAF|が特徴距離を示している。
 LRRは、正常細胞における遺伝子のコピー数に対するがん細胞における遺伝子のコピー数の割合を対数で表した値である。
 LRRは、以下の式で表すことができる。
 LRR=log(tumor/normal)
 tumorはがん細胞における遺伝子のコピー数であり、normalは正常細胞における遺伝子のコピー数である。normalの値は2である。
 tumorが2である場合、LRRは0であり、遺伝子の状態はUPD(Uniparental disomy)である可能性がある。UPDは、母親由来または父親由来の遺伝子のみが2コピーとなり、ヘテロ性が失われている状態である。
 tumorが2未満である場合、LRRは負の値であり、遺伝子の状態はLOSSである。LOSSは遺伝子が減少している状態である。
 tumorが2より大きい場合、LRRは正の値であり、遺伝子の状態はAMPである。AMPは遺伝子が増幅している状態である。
 非特許文献1に記載のように、特徴距離とコピー数のLRRとが関係モデル210に合致することが知られている。
 がん細胞における遺伝子の特徴距離とがん細胞における遺伝子のLRRとを計測すると、図13に示すようなグラフが得られる。各バツ印は計測点を示している。
 例えば、腫瘍サンプルにおける対象遺伝子の特徴距離と腫瘍サンプルにおける対象遺伝子のLRRとを計測した結果、図14に示すようなグラフが得られたものと仮定する。腫瘍サンプルにおける対象遺伝子のLRRは、正常サンプルにおける対象遺伝子のコピー数に対する腫瘍サンプルにおける対象遺伝子のコピー数の割合の対数値である。
 補正係数は、関係モデル210に対する計測点群のずれ量に相当する。つまり、補正係数を用いて計測点群を補正すると、図13に示すように計測点群が関係モデル210に合致する。
 図15および図16に基づいて、係数算出処理(S140)の手順を説明する。
 ステップS141-1(図15参照)において、係数算出部140は、対象遺伝子毎にLRRを算出する。さらに、係数算出部140は、対象染色体毎にLRRを算出する。
 算出されるLRRは、正常サンプルにおける対象遺伝子(または対象染色体)のコピー数に対する腫瘍サンプルにおける対象遺伝子(または対象染色体)のコピー数の割合の対数値である。
 対象遺伝子(または対象染色体)のLRRは、ヒトゲノム配列の中の対象遺伝子(または対象染色体)の領域にマッピングされた腫瘍サンプルリードと正常サンプルリードとの数の割合に基づいて算出される。LRRを算出する方法は従来技術である。
 ステップS141-2において、係数算出部140は、対象遺伝子毎に仮コピー数を算出する。さらに、係数算出部140は、対象染色体毎に仮コピー数を算出する。
 仮コピー数は、腫瘍サンプルにおける対象遺伝子(または対象染色体)のコピー数に相当する。
 具体的には、係数算出部140は、対象遺伝子(または対象染色体)のLRRに基づいて仮コピー数式を選択し、選択された仮コピー数式を対象遺伝子(または対象染色体)の特徴距離を用いて計算する。これにより、対象遺伝子(または対象染色体)の仮コピー数が算出される。仮コピー数式は仮コピー数を求めるための式である。
 以下に示す各仮コピー数式において、CNは対象遺伝子(または対象染色体)の仮コピー数であり、|0.5-VAF|は対象遺伝子(または対象染色体)の特徴距離である。
 LRRが正の値である場合の仮コピー数式は以下の通りである。
 CN=1/(0.5-|0.5-VAF|)
 LRRがゼロである場合の仮コピー数式は以下の通りである。
 CN=2.0
 LRRが負の値である場合の仮コピー数式は以下の通りである。
 CN=1/(0.5+|0.5-VAF|)
 ステップS142において、係数算出部140は、未選択の対象遺伝子を1つ選択する。
 ステップS143からステップS145-2までの処理は、ステップS142で選択された対象遺伝子に対して行われる。
 ステップS143において、係数算出部140は、対象遺伝子の仮コピー数を用いて、仮係数を算出する。
 具体的には、係数算出部140は、以下の式を計算することによって、対象遺伝子の仮係数Cを算出する。CNは対象遺伝子の仮コピー数である。
 C = 2.0 / CN
 ステップS144において、係数算出部140は距離スコアを算出する。
 図17に基づいて、スコア算出処理(S144)の手順を説明する。
 ステップS144-1において、係数算出部140は、1番染色体と10番染色体と19番染色体との3つの対象染色体から、未選択の対象染色体を1つ選択する。
 ステップS144-2からステップS144-5までの処理は、ステップS144-1で選択された対象染色体に対して行われる。
 ステップS144-2において、係数算出部140は、対象染色体のLRRに基づいて座標式を選択する。座標式は座標値を求めるための式である。
 AMP用の式とUPD用の式とLOSS用の式との3種類の座標式が有る。
 AMPは遺伝子の増幅を意味する。
 UPDは遺伝子の片親性ダイソミーを意味する。
 LOSSは遺伝子の欠損を意味する。
 具体的には、係数算出部140は座標式を以下のように選択する。
 対象染色体のLRRが正の値である場合、係数算出部140はAMP用の式を選択する。
 対象染色体のLRRがゼロである場合、係数算出部140はUPD用の式を選択する。
 対象染色体のLRRが負の値である場合、係数算出部140はLOSS用の式を選択する。
 ステップS144-3において、係数算出部140は、選択された座標式を計算することによって、座標値を算出する。
 具体的には、係数算出部140は、仮係数と対象染色体の仮コピー数とを用いて座標式を計算する。
 以下に示す各座標式において、CNは対象染色体の仮コピー数であり、Cは仮係数であり、|0.5-VAF|は対象染色体の特徴距離である。そして、(x,y)が座標値である。
 AMP用の式は以下の通りである。
 x=0.5-1/(CN×C
 y=1/(0.5-|0.5-VAF|)
 UPD用の式は以下の通りである。
 x=|0.5-VAF|
 y=CN×C
 LOSS用の式は以下の通りである。
 x=1/(CN×C)-0.5
 y=1/(0.5+|0.5-VAF|)
 ステップS144-4において、係数算出部140は、算出された座標値を用いて、X方向における距離値とY方向における距離値とを算出する。
 具体的には、係数算出部140は、以下の式を計算することによって、X方向における距離値X%とY方向における距離値Y%とを算出する。
 X%=||0.5-VAF|-x|/x
 Y%=|CNt×Ct-y|/|2-y|
 ステップS144-5において、係数算出部140は、X方向における距離値とY方向における距離値とを用いて、個別スコアを算出する。
 具体的には、係数算出部140は、以下の式を計算することによって、個別スコアScoreを算出する。m^2はmの二乗を意味する。
 Score=X%^2+Y%^2
 ステップS144-6において、係数算出部140は、未選択の対象染色体が有るか判定する。
 未選択の対象染色体が有る場合、処理はステップS144-1に進む。
 未選択の対象染色体が無い場合、処理はステップS144-7に進む。
 ステップS144-7において、係数算出部140は、個別スコアの合計を算出する。個別スコアの合計が距離スコアである。
 具体的には、係数算出部140は、以下の式を計算することによって、距離スコアScoreを算出する。Scoreはn番染色体の個別スコアである。
 Score=Score+Score10+Score19
 図15に戻り、ステップS145-1から説明を続ける。
 ステップS145-1において、係数算出部140は、距離スコアを最小スコアと比較する。なお、最小スコアの初期値は最小スコア用の変数における最大値である。
 距離スコアが最小スコアより小さい場合、処理はステップS145-2に進む。
 距離スコアが最小スコア以上である場合、処理はステップS146に進む。
 ステップS145-2において、係数算出部140は、基準係数の値を仮係数の値に更新する。基準係数の初期値は1である。
 さらに、係数算出部140は、最小スコアの値を距離スコアの値に更新する。
 ステップS146において、係数算出部140は、未選択の対象遺伝子が有るか判定する。
 未選択の対象遺伝子が有る場合、処理はステップS142に進む。
 未選択の対象遺伝子が無い場合、処理はステップS147(図16参照)に進む。
 ステップS147(図16参照)において、係数算出部140は、未選択の対象遺伝子を1つ選択する。
 ステップS148-1からステップS148-5までの処理は、ステップS147で選択された対象遺伝子に対して行われる。
 ステップS148-1において、係数算出部140は基準係数を調整する。
 具体的には、係数算出部140は、調整範囲から未選択の調整係数を1つ選択し、選択された調整係数を基準係数にかける。
 調整範囲は、予め決められた範囲であり、複数の調整係数を含む。例えば、調整範囲は、0.80から1.20までの範囲であり、0.01刻みで41個の調整係数を含む。
 基準係数を調整することによって得られる係数を調整後の基準係数という。
 ステップS148-2において、係数算出部140は、調整後の基準係数を用いて、距離スコアを算出する。距離スコアを算出する方法はステップS144(図17参照)における方法と同様である。但し、仮係数の代わりに、調整後の基準係数が用いられる。
 ステップS148-3において、係数算出部140は、距離スコアを最小スコアと比較する。
 距離スコアが最小スコアより小さい場合、処理はステップS148-4に進む。
 距離スコアが最小スコア以上である場合、処理はステップS148-5に進む。
 ステップS148-4において、係数算出部140は、補正係数の値を調整後の基準係数の値に更新する。補正係数の初期値は1である。
 さらに、係数算出部140は、最小スコアの値を距離スコアの値に更新する。
 ステップS148-5において、係数算出部140は、基準係数の調整を終了するか判定する。
 具体的には、係数算出部140は、調整範囲の中に未選択の調整係数が有るか判定する。未選択の調整係数が無い場合、係数算出部140は基準係数の調整を終了する。
 基準係数の調整を終了する場合、処理はステップS149に進む。
 基準係数の調整を終了しない場合、処理ステップS148-1に進む。
 ステップS149において、係数算出部140は、未選択の対象遺伝子が有るか判定する。
 未選択の対象遺伝子が有る場合、処理はステップS147に進む。
 未選択の対象遺伝子が無い場合、係数算出処理(S140)は終了する。
 図2に戻り、ステップS150を説明する。
 ステップS150において、コピー数算出部150は、腫瘍サンプルにおける対象遺伝子毎のコピー数と、補正係数とを用いて、がん細胞における対象遺伝子毎のコピー数を算出する。
 図18に基づいて、コピー数算出処理(S150)の手順を説明する。
 ステップS151において、コピー数算出部150は、未選択の対象遺伝子を1つ選択する。
 ステップS152において、コピー数算出部150は、対象遺伝子の仮コピー数に補正係数をかける。対象遺伝子の仮コピー数は、ステップS141-2(図15参照)で算出される。
 対象遺伝子の仮コピー数に補正係数をかけることによって得られるコピー数が、がん細胞における対象遺伝子のコピー数、すなわち、対象遺伝子の正確なコピー数である。
 具体的には、コピー数算出部150は、以下の式を計算することによって、コピー数CNを算出する。Cbestは補正係数である。CNtは仮コピー数である。
 CN=Cbest×CN
 ステップS153において、コピー数算出部150は、未選択の対象遺伝子が有るか判定する。
 未選択の対象遺伝子が有る場合、処理はステップS151に進む。
 未選択の対象遺伝子が無い場合、処理はステップS154に進む。
 ステップS154において、コピー数算出部150は、対象染色体毎に正確なコピー数を算出する。
 対象染色体の正確なコピー数を算出する方法は、対象遺伝子の正確なコピー数を算出する方法と同様である。
***実施の形態1の効果***
 図19は、ゲノム全体のコピー数を示している。
 図20は、1番染色体、10番染色体および19番染色体のコピー数を示している。
 ゲノム全体(図19参照)ではコピー数の平均が2コピーである。しかし、がんに関連する遺伝子が含まれる1番染色体、10番染色体および19番染色体(図20参照)においてはコピー数の平均が2コピーでない。
 通常のCNV検出はコピー数の平均が2コピーであると仮定して行われるため、通常のCNV検出では、ターゲットシークエンスにおいて正確なコピー数を得ることはできない。
 一方、実施の形態1では、コピー数を補正することにより、ターゲットシークエンスにおいて正確なコピー数を得ることができる。
 非特許文献2に記載のように、BAFの散布図は基準のBAF(=0.5)に対して線対称に分布するという性質が知られている。これはVAFにおいてもあてはまる。
 実施の形態1では、この性質を利用し、散布グラフ201から得られる密度分布グラフ202において下位領域と上位領域との相関を取る。これにより、本グラフが得られた領域におけるVAFが正確に求まる。そのため、正確な特徴距離が求まる。その結果、正確なコピー数を算出することができる。
 実施の形態1では、正確なコピー数、すなわち、がん細胞における対象遺伝子毎のコピー数が算出される。
 これにより、腫瘍サンプルにおけるがん細胞の含有率を求めることが可能となる。
 実施の形態2.
 腫瘍サンプルにおけるがん細胞の含有率を求める形態について、主に実施の形態1と異なる点を図21から図23に基づいて説明する。
***構成の説明***
 図21に基づいて、コピー数計測装置100の構成を説明する。
 コピー数計測装置100は、さらに、含有率算出部160をソフトウェア要素として備える。
 コピー数計測プログラムは、さらに、含有率算出部160としてコンピュータを機能させる。
***動作の説明***
 図22に基づいて、コピー数計測方法を説明する。
 ステップS110からステップS150までの処理は、実施の形態1(図2参照)で説明した通りである。
 ステップS160において、含有率算出部160は、がん細胞における対象遺伝子毎のコピー数に基づいて、がん含有率を算出する。
 がん含有率は、腫瘍サンプルにおけるがん細胞の含有率である。
 図23に基づいて、含有率算出処理(S160)の手順を説明する。
 ステップS161において、含有率算出部160は、未選択の対象遺伝子を1つ選択する。
 ステップS162およびステップS163において、対象遺伝子はステップS161で選択された対象遺伝子を意味する。
 ステップS162において、含有率算出部160は、対象遺伝子のコピー数に基づいて、含有率式を選択する。
 対象遺伝子のコピー数は、ステップS150で算出された対象遺伝子のコピー数、すなわち、がん細胞における対象遺伝子のコピー数である。
 含有率式はがん含有率を求めるための式である。LOSS用の式とAMP用の式との2種類の含有率式が有る。LOSSは遺伝子の欠失を意味する。AMPは遺伝子の増幅を意味する。
 具体的には、含有率算出部160は含有率式を以下のように選択する。
 対象遺伝子のコピー数が2未満である場合、含有率算出部160はLOSS用の式を選択する。
 対象遺伝子のコピー数が2より大きい場合、含有率算出部160はAMP用の式を選択する。
 ステップS163において、含有率算出部160は、選択された含有率式を計算することによって、がん含有率を算出する。算出されたがん含有率が含有率候補となる。
 具体的には、含有率算出部160は、対象遺伝子のコピー数を用いて、含有率式を計算する。
 以下に示す各含有率式において、CRはがん含有率であり、CNはコピー数である。
 LOSS用の式は以下の通りである。
 CR=2-CN
 LOSS用の式は、CNとCRとの関係を示す以下の式に基づいている。
 CN=2(1-CR)+1×CR=2-CR
 AMP用の式は以下の通りである。nは、がん細胞におけるコピー数として推定される値である。nを推定することができない場合、AMP用の式を用いてがん含有率を算出することはできない。
 CR=(CN-2)/(n-2)
 AMP用の式は、CNとCRとnとの関係を示す以下の式に基づいている。
 CN=2(1-CR)+n×CR=2+(n-2)×CR
 ステップS164において、含有率算出部160は、未選択の対象遺伝子が有るか判定する。
 未選択の対象遺伝子が有る場合、処理はステップS161に進む。
 未選択の対象遺伝子が無い場合、処理はステップS165に進む。
 ステップS165において、含有率算出部160は、対象染色体毎に含有率候補を算出する。
 対象染色体の含有率候補を算出する方法は、対象遺伝子の含有率候補を算出する方法と同様である。
 ステップS166において、含有率算出部160は、対象遺伝子毎の含有率候補と対象染色体毎の含有率候補とに基づいて、がん含有率を決定する。
 例えば、含有率算出部160は、対象遺伝子毎の含有率候補と対象染色体毎の含有率候補との平均を算出する。算出された平均ががん含有率である。
***実施の形態2の効果***
 実施の形態2により、腫瘍サンプルにおけるがん細胞の含有率を求めることができる。
 その結果、腫瘍サンプルにおけるがん細胞の含有率に応じて患者に適した治療を選択することが可能となる。
***実施の形態の補足***
 コピー数計測装置100は、プロセッサ901のような汎用のハードウェアの代わりに専用のハードウェアを備えてもよい。それらのハードウェアを総称して処理回路という。
 処理回路は、位置特定部110と頻度算出部120と距離算出部130と係数算出部140とコピー数算出部150と含有率算出部160とを実現する。
 処理回路において、一部の機能がハードウェアで実現されて、残りの機能がソフトウェアまたはファームウェアで実現されてもよい。処理回路の数は、1つであってもよいし、複数であってもよい。
 実施の形態は、好ましい形態の例示であり、本発明の技術的範囲を制限することを意図するものではない。実施の形態は、部分的に実施してもよいし、他の形態と組み合わせて実施してもよい。フローチャート等を用いて説明した手順は、適宜に変更してもよい。
 100 コピー数計測装置、110 位置特定部、120 頻度算出部、130 距離算出部、140 係数算出部、150 コピー数算出部、160 含有率算出部、191
 記憶部、201 散布グラフ、202 密度分布グラフ、203 相関グラフ、210
 関係モデル、901 プロセッサ、902 メモリ、903 補助記憶装置。

Claims (18)

  1.  がん細胞を含んだ腫瘍サンプルから得られた複数のリードである複数の腫瘍サンプルリードをヒトゲノム配列にマッピングし、対象遺伝子毎にヒトゲノム配列に対して変化している塩基のゲノム位置である対象位置を特定する位置特定部と、
     それぞれの対象遺伝子の対象位置毎に変異アリル頻度を算出する頻度算出部と、
     対象遺伝子毎に、対象遺伝子の中のそれぞれの対象位置にマッピングされた腫瘍サンプルリードの数であるマッピングリード数の変異アリル頻度に対する密度を示す密度分布においてピーク密度に対応する変異アリル頻度と基準の変異アリル頻度との差に相当する特徴距離を算出する距離算出部と、
     対象遺伝子毎の特徴距離を用いて、前記腫瘍サンプルにおける対象遺伝子毎のコピー数を補正するための補正係数を算出する係数算出部と、
     前記腫瘍サンプルにおける対象遺伝子毎のコピー数と前記補正係数とを用いて、前記がん細胞における対象遺伝子毎のコピー数を算出するコピー数算出部と
    を備えるコピー数計測装置。
  2.  前記距離算出部は、対象位置毎の変異アリル頻度と対象位置毎のマッピングリード数との関係を示す散布グラフを生成し、前記散布グラフを密度分布グラフに変換し、前記密度分布グラフのうちの前記基準の変異アリル頻度以下の領域である下位領域と前記密度分布グラフのうちの前記基準の変異アリル頻度以上の領域である上位領域との相関を示す相関グラフを生成し、前記相関グラフにおいてピーク相関値に対応する変異アリル頻度と前記基準の変異アリル頻度との差の絶対値を前記特徴距離として算出する
    請求項1に記載のコピー数計測装置。
  3.  前記相関グラフは、前記下位領域と前記上位領域とにおいて前記基準の変異アリル頻度との差の絶対値が等しい変異アリル頻度同士の密度の相関を示す
    請求項2に記載のコピー数計測装置。
  4.  前記係数算出部は、正常細胞における遺伝子のコピー数に対するがん細胞における遺伝子のコピー数の割合の対数値と特徴距離との関係を示す関係グラフと、正常サンプルにおける対象遺伝子のコピー数に対する前記腫瘍サンプルにおける対象遺伝子のコピー数の割合の対数値と対象遺伝子の特徴距離とを示す計測点とのずれ量に相当する値を、前記補正係数として算出する
    請求項1から請求項3のいずれか1項に記載のコピー数計測装置。
  5.  前記がん細胞における対象遺伝子毎のコピー数に基づいて、前記腫瘍サンプルにおける前記がん細胞の含有率を算出する含有率算出部を備える
    請求項1から請求項4のいずれか1項に記載のコピー数計測装置。
  6.  前記含有率算出部は、対象遺伝子毎に前記がん細胞におけるコピー数を用いて含有率候補を算出し、対象遺伝子毎の含有率候補に基づいて前記腫瘍サンプルにおける前記がん細胞の前記含有率を決定する
    請求項5に記載のコピー数計測装置。
  7.  前記腫瘍サンプルが脳腫瘍のサンプルであり、
     前記対象遺伝子が、ATRXとIDH1とIDH2とTP53とTERTとBRAFとPDGFRAとMETとEGFRとBRSK1とEHD2とAKT2とTP73とNMNAT1とTGFBR3とPTENとの少なくともいずれかである
    請求項1から請求項6のいずれか1項に記載のコピー数計測装置。
  8.  がん細胞を含んだ腫瘍サンプルから得られた複数のリードである複数の腫瘍サンプルリードをヒトゲノム配列にマッピングし、対象遺伝子毎にヒトゲノム配列に対して変化している塩基のゲノム位置である対象位置を特定する位置特定部と、
     それぞれの対象遺伝子の対象位置毎に変異アリル頻度を算出する頻度算出部と、
     対象遺伝子毎に、対象遺伝子の中のそれぞれの対象位置にマッピングされた腫瘍サンプルリードの数であるマッピングリード数の変異アリル頻度に対する密度を示す密度分布においてピーク密度に対応する変異アリル頻度と基準の変異アリル頻度との差に相当する特徴距離を算出する距離算出部と、
     対象遺伝子毎の特徴距離を用いて、前記腫瘍サンプルにおける対象遺伝子毎のコピー数を補正するための補正係数を算出する係数算出部と、
     前記腫瘍サンプルにおける対象遺伝子毎のコピー数と前記補正係数とを用いて、前記がん細胞における対象遺伝子毎のコピー数を算出するコピー数算出部
    としてコンピュータを機能させるためのコピー数計測プログラム。
  9.  前記距離算出部は、対象位置毎の変異アリル頻度と対象位置毎のマッピングリード数との関係を示す散布グラフを生成し、前記散布グラフを密度分布グラフに変換し、前記密度分布グラフのうちの前記基準の変異アリル頻度以下の領域である下位領域と前記密度分布グラフのうちの前記基準の変異アリル頻度以上の領域である上位領域との相関を示す相関グラフを生成し、前記相関グラフにおいてピーク相関値に対応する変異アリル頻度と前記基準の変異アリル頻度との差の絶対値を前記特徴距離として算出する
    請求項8に記載のコピー数計測プログラム。
  10.  前記相関グラフは、前記下位領域と前記上位領域とにおいて前記基準の変異アリル頻度との差の絶対値が等しい変異アリル頻度同士の密度の相関を示す
    請求項9に記載のコピー数計測プログラム。
  11.  前記係数算出部は、正常細胞における遺伝子のコピー数に対するがん細胞における遺伝子のコピー数の割合の対数値と特徴距離との関係を示す関係グラフと、正常サンプルにおける対象遺伝子のコピー数に対する前記腫瘍サンプルにおける対象遺伝子のコピー数の割合の対数値と対象遺伝子の特徴距離とを示す計測点とのずれ量に相当する値を、前記補正係数として算出する
    請求項8から請求項10のいずれか1項に記載のコピー数計測プログラム。
  12.  前記がん細胞における対象遺伝子毎のコピー数に基づいて、前記腫瘍サンプルにおける前記がん細胞の含有率を算出する含有率算出部を備える
    請求項8から請求項11のいずれか1項に記載のコピー数計測プログラム。
  13.  前記含有率算出部は、対象遺伝子毎に前記がん細胞におけるコピー数を用いて含有率候補を算出し、対象遺伝子毎の含有率候補に基づいて前記腫瘍サンプルにおける前記がん細胞の前記含有率を決定する
    請求項12に記載のコピー数計測プログラム。
  14.  前記腫瘍サンプルが脳腫瘍のサンプルであり、
     前記対象遺伝子が、ATRXとIDH1とIDH2とTP53とTERTとBRAFとPDGFRAとMETとEGFRとBRSK1とEHD2とAKT2とTP73とNMNAT1とTGFBR3とPTENとの少なくともいずれかである
    請求項8から請求項13のいずれか1項に記載のコピー数計測プログラム。
  15.  位置特定部が、がん細胞を含んだ腫瘍サンプルから得られた複数のリードである複数の腫瘍サンプルリードをヒトゲノム配列にマッピングし、対象遺伝子毎にヒトゲノム配列に対して変化している塩基のゲノム位置である対象位置を特定し、
     頻度算出部が、それぞれの対象遺伝子の対象位置毎に変異アリル頻度を算出し、
     距離算出部が、対象遺伝子毎に、対象遺伝子の中のそれぞれの対象位置にマッピングされた腫瘍サンプルリードの数であるマッピングリード数の変異アリル頻度に対する密度を示す密度分布においてピーク密度に対応する変異アリル頻度と基準の変異アリル頻度との差に相当する特徴距離を算出し、
     係数算出部が、対象遺伝子毎の特徴距離を用いて、前記腫瘍サンプルにおける対象遺伝子毎のコピー数を補正するための補正係数を算出し、
     コピー数算出部が、前記腫瘍サンプルにおける対象遺伝子毎のコピー数と前記補正係数とを用いて、前記がん細胞における対象遺伝子毎のコピー数を算出するコピー数計測方法。
  16.  ATRXとIDH1とIDH2とTP53とTERTとBRAFとPDGFRAとMETとEGFRとBRSK1とEHD2とAKT2とTP73とNMNAT1とTGFBR3とPTENとを全て含む遺伝子セットを含んだ遺伝子パネル。
  17.  ATRXとIDH1とIDH2とTP53とTERTとBRAFとPDGFRAとMETとEGFRとBRSK1とEHD2とAKT2とTP73とNMNAT1とTGFBR3とPTENとから成る遺伝子セットを含んだ遺伝子パネル。
  18.  ATRXとIDH1とIDH2とTP53とTERTとBRAFとPDGFRAとMETとEGFRとBRSK1とEHD2とAKT2とTP73とNMNAT1とTGFBR3とPTENとの少なくともいずれかを含む遺伝子セットを含んだ遺伝子パネル。
PCT/JP2018/033424 2017-09-13 2018-09-10 コピー数計測装置、コピー数計測プログラム、コピー数計測方法および遺伝子パネル WO2019054326A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US16/645,746 US20200286583A1 (en) 2017-09-13 2018-09-10 Copy number measurement device, computer readable medium, copy number measurement method and gene panel
SG11202001768WA SG11202001768WA (en) 2017-09-13 2018-09-10 Copy number measurement device, copy number measurement program,copy number measurement method and gene panel

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017175703A JP7072825B2 (ja) 2017-09-13 2017-09-13 コピー数計測装置、コピー数計測プログラムおよびコピー数計測方法
JP2017-175703 2017-09-13

Publications (1)

Publication Number Publication Date
WO2019054326A1 true WO2019054326A1 (ja) 2019-03-21

Family

ID=65723586

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/033424 WO2019054326A1 (ja) 2017-09-13 2018-09-10 コピー数計測装置、コピー数計測プログラム、コピー数計測方法および遺伝子パネル

Country Status (5)

Country Link
US (1) US20200286583A1 (ja)
JP (1) JP7072825B2 (ja)
SG (1) SG11202001768WA (ja)
TW (1) TWI694464B (ja)
WO (1) WO2019054326A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111100909A (zh) * 2020-01-10 2020-05-05 信华生物药业(广州)有限公司 一种肿瘤内遗传异质性的计算方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006014740A (ja) * 2004-06-30 2006-01-19 Agilent Technol Inc 血管移植片疾患の管理と治療のシステム及び方法
JP2008501343A (ja) * 2004-06-04 2008-01-24 ワシントン・ユニバーシティ 神経障害を治療するための方法および組成物
JP2008506407A (ja) * 2004-07-18 2008-03-06 エピゲノミクス アーゲー 乳房細胞増殖性疾患を検出するためのエピジェネティックな方法および核酸
JP2010239899A (ja) * 2009-04-06 2010-10-28 Teikyo Univ 潰瘍性大腸炎患者の癌化リスクを決定する方法
JP2013507987A (ja) * 2009-10-26 2013-03-07 アボット・ラボラトリーズ 非小細胞肺癌の予後を決定するための診断方法
US20140193819A1 (en) * 2012-10-31 2014-07-10 Becton, Dickinson And Company Methods and compositions for modulation of amplification efficiency
JP2016506760A (ja) * 2013-02-18 2016-03-07 デューク ユニバーシティー 神経膠腫および腫瘍のサブセットにおけるtertプロモーター変異
WO2016109452A1 (en) * 2014-12-31 2016-07-07 Guardant Health , Inc. Detection and treatment of disease exhibiting disease cell heterogeneity and systems and methods for communicating test results
WO2017042394A1 (en) * 2015-09-10 2017-03-16 Cancer Research Technology Limited "immune checkpoint intervention" in cancer
JP2017511330A (ja) * 2014-03-31 2017-04-20 天津市応世博科技発展有限公司 Ehd2抗体とその乳がん免疫組織化学的検出試薬の製造への応用

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1474530A4 (en) * 2002-01-18 2007-07-25 Syngenta Participations Ag CORRECTION OF PROBES FOR THE DETECTION OF GENE EXPRESSION LEVELS
US9646134B2 (en) * 2010-05-25 2017-05-09 The Regents Of The University Of California Bambam: parallel comparative analysis of high-throughput sequencing data
CN103384887B (zh) * 2010-05-25 2017-01-18 加利福尼亚大学董事会 Bambam:高通量测序数据的平行比较分析
WO2012031008A2 (en) * 2010-08-31 2012-03-08 The General Hospital Corporation Cancer-related biological materials in microvesicles
CA2892308A1 (en) * 2012-10-09 2014-04-17 Five3 Genomics, Llc Systems and methods for tumor clonality analysis
TWI695011B (zh) * 2014-06-18 2020-06-01 美商梅爾莎納醫療公司 抗her2表位之單株抗體及其使用之方法
CN104388542B (zh) * 2014-10-27 2016-08-17 中南大学 长链非编码rna loc401317原位杂交探针的应用方法
JP6413711B2 (ja) * 2014-12-02 2018-10-31 富士通株式会社 試験回路および試験回路の制御方法
CN105780129B (zh) * 2014-12-15 2019-06-11 天津华大基因科技有限公司 目标区域测序文库构建方法
GB201510771D0 (en) * 2015-06-19 2015-08-05 Immatics Biotechnologies Gmbh Novel peptides and combination of peptides for use in immunotherapy and methods for generating scaffolds for the use against pancreatic cancer

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008501343A (ja) * 2004-06-04 2008-01-24 ワシントン・ユニバーシティ 神経障害を治療するための方法および組成物
JP2006014740A (ja) * 2004-06-30 2006-01-19 Agilent Technol Inc 血管移植片疾患の管理と治療のシステム及び方法
JP2008506407A (ja) * 2004-07-18 2008-03-06 エピゲノミクス アーゲー 乳房細胞増殖性疾患を検出するためのエピジェネティックな方法および核酸
JP2010239899A (ja) * 2009-04-06 2010-10-28 Teikyo Univ 潰瘍性大腸炎患者の癌化リスクを決定する方法
JP2013507987A (ja) * 2009-10-26 2013-03-07 アボット・ラボラトリーズ 非小細胞肺癌の予後を決定するための診断方法
US20140193819A1 (en) * 2012-10-31 2014-07-10 Becton, Dickinson And Company Methods and compositions for modulation of amplification efficiency
JP2016506760A (ja) * 2013-02-18 2016-03-07 デューク ユニバーシティー 神経膠腫および腫瘍のサブセットにおけるtertプロモーター変異
JP2017511330A (ja) * 2014-03-31 2017-04-20 天津市応世博科技発展有限公司 Ehd2抗体とその乳がん免疫組織化学的検出試薬の製造への応用
WO2016109452A1 (en) * 2014-12-31 2016-07-07 Guardant Health , Inc. Detection and treatment of disease exhibiting disease cell heterogeneity and systems and methods for communicating test results
WO2017042394A1 (en) * 2015-09-10 2017-03-16 Cancer Research Technology Limited "immune checkpoint intervention" in cancer

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ICHIKAWA, HITOSHI: "Clinical sequencing using an original cancer gene panel in National Cancer Center", IGAKU NO AYUMI (SEPARATE VOLUME) - KNOWLEDGE FROM ADVANCED COMPREHENSIVE ANALYSIS OF CANCER GENOME RESEARCH, vol. 2015, 20 May 2015 (2015-05-20), pages 129 - 134 *
MORI, RYO ET AL.: "Introduction of the genome data analysis service", MSS TECHNICAL REVIEW, vol. 27, 10 February 2017 (2017-02-10), pages 1 - 4 *

Also Published As

Publication number Publication date
SG11202001768WA (en) 2020-03-30
JP7072825B2 (ja) 2022-05-23
US20200286583A1 (en) 2020-09-10
TWI694464B (zh) 2020-05-21
JP2019053395A (ja) 2019-04-04
TW201921276A (zh) 2019-06-01

Similar Documents

Publication Publication Date Title
JP6817259B2 (ja) 癌の検出のための血漿dna中のサイズ及び数異常の使用
CN108899091B (zh) 与癌症相关的遗传或分子畸变的检测
TWI636255B (zh) 癌症檢測之血漿dna突變分析
CN108733975B (zh) 基于二代测序的肿瘤克隆变异检测方法、装置和存储介质
Nersisyan et al. Computel: computation of mean telomere length from whole-genome next-generation sequencing data
ES2729504T3 (es) Análisis basado en el tamaño de la fracción de ADN fetal en el plasma materno
CN106676178B (zh) 一种评估肿瘤异质性的方法及系统
CN110910957A (zh) 一种基于单肿瘤样本高通量测序微卫星不稳定性探测位点筛选方法
CN114502744B (zh) 一种基于血液循环肿瘤dna的拷贝数变异检测方法和装置
Zhang et al. pTrimmer: an efficient tool to trim primers of multiplex deep sequencing data
WO2006028152A1 (ja) 遺伝子コピーの解析方法及び装置
KR20180060764A (ko) 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스
Siegmund et al. Deriving tumor purity from cancer next generation sequencing data: applications for quantitative ERBB2 (HER2) copy number analysis and germline inference of BRCA1 and BRCA2 mutations
Ivanov et al. Utility of cfDNA fragmentation patterns in designing the liquid biopsy profiling panels to improve their sensitivity
WO2019054326A1 (ja) コピー数計測装置、コピー数計測プログラム、コピー数計測方法および遺伝子パネル
JP7332695B2 (ja) 循環核酸からの全ゲノム配列データにおける包括的配列特徴の同定
CN117497056B (zh) 一种无对照hrd检测方法、系统及装置
Robertson et al. Profiling copy number alterations in cell-free tumour DNA using a single-reference
Yu et al. Tumour purity as an underlying key factor in tumour mutation detection in colorectal cancer
Pedersen et al. Building flexible and robust analysis frameworks for molecular subtyping of cancers
US20040063133A1 (en) Method of normalizing gene expression data
Papenfuss et al. Bioinformatics Analysis of Sequence Data
JP2004117326A (ja) 遺伝子発現データの正規化方法

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18855972

Country of ref document: EP

Kind code of ref document: A1