WO2006028152A1 - 遺伝子コピーの解析方法及び装置 - Google Patents

遺伝子コピーの解析方法及び装置 Download PDF

Info

Publication number
WO2006028152A1
WO2006028152A1 PCT/JP2005/016451 JP2005016451W WO2006028152A1 WO 2006028152 A1 WO2006028152 A1 WO 2006028152A1 JP 2005016451 W JP2005016451 W JP 2005016451W WO 2006028152 A1 WO2006028152 A1 WO 2006028152A1
Authority
WO
WIPO (PCT)
Prior art keywords
value
correction
gene
chromosome
gene copy
Prior art date
Application number
PCT/JP2005/016451
Other languages
English (en)
French (fr)
Inventor
Hiroyuki Aburatani
Kunihiro Nishimura
Shumpei Ishikawa
Daisuke Komura
Original Assignee
The University Of Tokyo
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by The University Of Tokyo filed Critical The University Of Tokyo
Publication of WO2006028152A1 publication Critical patent/WO2006028152A1/ja

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection

Definitions

  • the present invention relates to a method and apparatus for analyzing gene copies, and in particular, correction of measured values of genomic DNA amount and genomic DNA amount ratio of chromosomes of cells, identification of gene copy number of chromosomes, and haplotypes by the correction and detection methods.
  • This technology is related to the identification and identification of chromosomal gene defects and abnormal amplification results that are easy to understand visually. Background art
  • Non-Patent Document 1 Non-Patent Document 2
  • Non-Patent Document 3 Non-Patent Document 4
  • the amount of genomic DNA on a chromosome refers to the amount of genomic DNA at a specific site in the chromosomal gene and depends on the number of gene copies. In normal cells, genomic DNA usually has two copies of alleles derived from the parent, and there are 2 copies in total. In diseases such as cancer, the number of gene copies is increased or decreased in the genome.
  • Non-Patent Document 5 Non-Patent Document 6
  • Non-patent Document 7 a method using a genome typing microarray using oligonucleotide has been reported.
  • Non-Patent Document 1 Ishkanian, A.S. et al Nat Genet, 36, 299-303 (2004)
  • Non-Patent Document 2 Pinkel, D. et al. Nature Genetic 20, 207-211 (1998)
  • Non-Patent Document 3 Pollack, J.R. et al Nature Genetic 23, 41-46 (1999)
  • Non-Patent Document 4 Lucito, R. et al. Genome Research 13, 2291-2305 (2003)
  • Non-Patent Document 5 Robinson, W.P. Bioessays. 22, 452-9 (2000)
  • Non-Patent Document 6 Murthy, S.K.Mod Pathol. 15, 1241-50 (2002)
  • Non-Patent Document 7 Bignell, G.R. et al. Genome Resesrch 14, 287-295 (2004)
  • Non-Patent Document 8 Kennedy, G.C.Nature Biotechnology 21, 1233-7 (2003)
  • the present invention was created in view of the above background art, and it is intended to correct the measurement values related to the genomic DNA amount of a chromosome and the genomic DNA amount ratio by a suitable method, thereby improving the accuracy thereof.
  • the objective is to provide technologies that contribute to the analysis of gene copy number, such as identification of genomic DNA amount and gene copy number for each allele, and identification of haplotypes.
  • the present inventor As a result of diligent research to solve the above-mentioned problems, the present inventor, as a factor that makes the measurement result unstable due to the method of measuring the genomic DNA amount of a chromosome using a microarray or the like, We found specific experimental conditions such as DNA extraction conditions, chromosomal gene amplification, hybridization of amplified PCR products to probes on the array, and fluorescence signal scanning. . By correcting for these experimental conditions, we completed a correction method for measuring the amount of genomic DNA on a chromosome. We also found that the measurement results can be converted into chromosome gene copy number by correcting the genomic DNA content of the chromosome. The present invention has been completed based on this knowledge. That is, the present invention is as follows.
  • the invention according to claim 1 is characterized in that, in the gene copy analysis method, the genomic DNA amount of chromosome (hereinafter referred to as genomic DNA amount), or the genomic DNA amount of chromosomes of two different or identical cells.
  • genomic DNA amount ratio A method for correcting any one of the ratios (hereinafter referred to as the genomic DNA amount ratio) (hereinafter referred to as the measured value) is provided.
  • the correction tendency value calculating means performs a measurement value of the genome amount or the genome amount ratio for each correction parameter value, or A correction tendency value calculation step of calculating a correction tendency value related to a predetermined parameter relating to the measurement value by plotting a value obtained by performing predetermined arithmetic processing on the measurement value in the coordinate system and smoothing the plotted value. And a correction factor calculation step of calculating a correction factor from the correction tendency value by the correction factor calculation means, and a measurement value correction calculation step of correcting the measurement value by the correction factor by the measurement value correction calculation means.
  • the value obtained by subjecting the measured value to a predetermined calculation process is a factor other than a factor that makes the measurement result unstable, for example, a difference in the measured value due to a difference in the measured value force gene copy number. It means the value obtained by removing the element.
  • the treatment includes, for example, calculating a regional signal ratio or copy number estimate in the chromosome and thus dividing the signal ratio in the individual probes.
  • the measurement value is a genomic DNA amount or a genomic DNA amount ratio measured using a probe complementary to genomic DNA (hereinafter referred to as a probe)
  • a correction factor for each correction reference value is calculated.
  • the correction reference value refers to each correction parameter value corresponding to an arbitrary probe among the correction parameter values, and the correction tendency value force at the correction reference value can also calculate a correction factor.
  • the correction factor is a value for correcting the data of the measured genomic DNA amount.
  • the invention according to claim 3 is a measurement value for the length of each gene fragment obtained by cleaving a chromosomal gene with a specific restriction enzyme in the correction tendency value calculating step in the gene copy analysis method, or A value obtained by performing a predetermined calculation process on the measured value is plotted against each correction parameter value in the coordinate system, and the correction tendency value related to the length of the gene fragment is calculated by smoothing the plotted value. It is characterized by
  • the invention according to claim 4 is characterized in that, in the correction tendency value calculating step in the gene copy analysis method, the G and C bases contained in each gene fragment obtained by cleaving a chromosomal gene with a specific restriction enzyme. By plotting the measured value for the ratio or the value obtained by performing a predetermined calculation process on the measured value against each correction parameter value in the coordinate system and smoothing the plot value, the GC base content can be obtained. The correction tendency value is calculated.
  • each genetic fragment obtained by cleaving a chromosomal gene with a specific restriction enzyme is consecutive 20 Ratio of G and C bases contained in the gene fragment corresponding to the fixed frame obtained by moving a fixed frame having a specific length selected from the range of base to 220 bases from the end of the gene for each base.
  • the fixed frame It is characterized by calculating a correction tendency value related to the content of GC bases.
  • the ratio of G and C bases in the probe base sequence or the hybridization 'free energy' By plotting the measured value or a value obtained by performing predetermined arithmetic processing on the measured value with respect to each correction parameter value in the coordinate system, and smoothing the plotted value, it is related to the hybridization.
  • the correction tendency value is calculated.
  • an area having a wide position on the genome of the probe preferably a peripheral region 2000 is preferable. Plot the measured value against the ratio of G and C bases in the base sequence in the region of 1000000 bases from the base, or the value obtained by performing a predetermined calculation process on the measured value in the coordinate system, and smooth the plotted value
  • the correction tendency value related to the GC base content in the genome sequence around the probe is calculated.
  • the invention according to claim 8 is the gene copy analysis method, wherein in the correction tendency value calculating step, a probe set complementary to a completely complementary genomic DNA for detecting a specific site of each chromosome. By plotting the measured value for the intermediate value of the signal intensity or the value obtained by performing a predetermined calculation process on the measured value for each correction parameter value in the coordinate system, and smoothing the plotted value, A correction tendency value related to the signal intensity of the control sample is calculated.
  • the invention according to claim 9 is characterized in that, in the gene copy analysis method, the correction tendency value calculating step obtains an average curve of each plot using a least mean square method, and a polynomial is obtained for the average curve. It includes the step of calculating each correction tendency value by approximating with
  • the invention according to claim 10 is characterized in that the correction factor calculation step in the gene copy analysis method calculates the correction factor in each probe corresponding to each correction tendency value based on the following equation:
  • the method includes a step to be calculated.
  • the above polynomial is an arbitrary number of terms greater than or equal to the force first order term (B X) described up to the third order term
  • Non-Patent Document 9 Schwarz, G. The Annals of Statistics 6, 461-464 (1993)
  • the invention according to claim 11 is the gene copy analysis method, wherein the gene of the chromosome
  • the copy number identification method uses the correction calculation result values of the measurement values according to claims 1 to 10, and plots the correction calculation result values for the chromosome positions arranged in physical order in the coordinate system by the plotting means.
  • the present invention provides a method for analyzing gene copies characterized by identifying copy numbers.
  • the method for displaying the result of identifying the gene copy number of a chromosome in the gene copy analysis method is that the image processing means uses the first chromosome to the 22nd chromosome, the X chromosome.
  • the region where the number of chromosome gene copies is increased or decreased is associated with the reproduced image. And visually displaying that the gene copy number increases and decreases in the region.
  • the invention according to claim 13 is a method for identifying a haplotype in the method for analyzing a gene copy.
  • the plot means uses the correction calculation result value of the measured value according to claims 1 to 10, the plot means performs physical processing.
  • the extraction means extracts the data shown in a staircase pattern, and the haptic type identification means determines that the correction calculation result values are It is characterized by identifying a haplotype including a step of identifying a position of two or more consecutive chromosomes belonging to the same rank as a nodule protype.
  • the method for displaying the result of identifying the haplotype in the gene copy analysis method is that the first chromosome force chromosome 22, the X chromosome and the Y chromosome are all displayed by the image processing means.
  • a reproduction image having a chromosome shape is displayed on the image display means, and the specific haplotype is visually displayed on the reproduction image by associating the region where the specific haplotype exists. It is characterized by displaying what exists.
  • the invention according to claim 15 is a measurement value measurement method in the gene copy analysis method.
  • the probe is a genome typing microarray that can discriminate SNPs, and is characterized by measuring the amount of genomic DNA of a chromosome for each chromosome allele.
  • the invention according to claim 16 is the genomic DNA amount measured by amplifying the measured force gene in the gene copy analysis method, wherein a plurality of parameters are calculated in the correction factor calculation step. If there is a correction tendency value related to the above, the correction factor is calculated by adding them together.
  • the present invention can also provide an apparatus for analyzing gene copies. That is, the invention according to claim 17 is an apparatus for analyzing gene copies, which is one of values of a genomic DNA amount of a chromosome or a ratio of genomic DNA amounts of chromosomes of two different or identical cells (hereinafter referred to as a value). (Hereinafter referred to as “measured value”), the input means for inputting the measurement result, and the measured value or a value obtained by subjecting the measured value to a predetermined calculation process are plotted in a coordinate system, and the plotted value is smoothed.
  • a value a ratio of genomic DNA amounts of chromosomes of two different or identical cells
  • a correction tendency value calculating means for calculating a correction tendency value related to a predetermined parameter, a correction factor calculation means for calculating a correction factor from the correction tendency value, and a measurement for correcting the measurement value with the correction factor.
  • the measurement value is corrected by providing a value correction calculation means.
  • a method for correcting a measurement result in a method for analyzing gene copies particularly a method for measuring the genomic DNA amount of a chromosome using a microarray or the like, and detecting the gene copy number of a chromosome from the measurement result after the correction process
  • Methods and methods for displaying chromosomal gene deletions or abnormal amplifications in a visually comprehensible manner are provided.
  • the correction method according to the present invention shows that the bias of the measurement result of the genomic DNA amount of the chromosome using a microarray or the like is remarkably reduced and the stability of the measurement result is increased.
  • FIG. 1 A processing diagram of correction of measured values in a gene copy analysis method according to the present invention.
  • (2) A configuration diagram of a gene copy analysis apparatus according to the present invention.
  • FIG. 3 is a graph showing the ratio of signal intensity to the length of gene fragment (down syndrome chromosomal genomic DNA amount / normal chromosomal genomic DNA amount).
  • FIG. 4 is a graph showing the ratio of signal intensity to the length of a gene fragment (the amount of genomic DNA in the chromosome of the same H1437 cell).
  • FIG. 5 is a graph showing the relationship between the GC content contained in a gene fragment and the signal intensity ratio (down syndrome chromosomal genomic DNA amount / normal chromosomal genomic DNA amount).
  • FIG. 6 is a graph showing the relationship between the GC content contained in a gene fragment and the signal intensity ratio (the amount of genomic DNA in the same H1437 cell chromosome).
  • FIG. 7 is a graph showing the ratio of signal intensity to the CG content in a specific region of a gene fragment (down syndrome chromosomal genomic DNA amount / normal chromosomal genomic DNA amount).
  • FIG. 8 is a graph showing the signal intensity ratio (the amount of genomic DNA of the chromosome of the same H 1437 cell) relative to the CG content in a specific region of a gene fragment.
  • FIG. 9 is a graph showing the ratio of signal intensity to the hybridization 'free energy (Kcal / mol) possessed by the probe gene sequence itself (chromosomal genomic DNA amount of Down syndrome / normal chromosomal genomic DNA amount). .
  • FIG. 10 is a graph showing the signal intensity ratio (the amount of genomic DNA in the chromosome of the same H1437 cell) relative to the hybridization free energy (Kcal / mol) of the probe gene sequence itself.
  • FIG. 11 is a graph showing the signal intensity ratio (the amount of chromosomal genomic DNA of hepatoma cells / the amount of chromosomal genomic DNA of normal peripheral blood cells) relative to the GC base content of the genomic region of 40000 bases around the probe.
  • FIG. 12 Signal intensity ratio (log scaled) signal intensity ratio of the Prefect Match (PM) probe set signal intensity (log scaled) / down chromosome chromosome DNA amount / normal chromosome genomic DNA It is a graph which shows quantity.
  • FIG. 14 is a graph obtained by processing the graph shown in FIG. 12 by the correction method of the present application.
  • FIG. 15 is a graph showing the results of genomic DNA amount analysis and gene copy number analysis (Allelic dosage an analysis) according to chromosome alleles.
  • FIG. 16 is a graph showing the results of analyzing the amount of genomic DNA and the number of gene copies for each allele in the entire genome.
  • FIG. 17 is a diagram showing display of chromosomal gene deletion and abnormal amplification by the display method of the present invention.
  • FIG. 18 is a graph showing the signal intensity ratio (chromosomal genomic DNA amount of the same H1437 cell) for each chromosome position before correction in the present application.
  • FIG. 19 is a graph obtained by processing the graph shown in FIG. 17 by the correction method of the present application.
  • FIG. 20 is a graph showing a comparison between the results of the correction method of the present invention and the results of a CGH array spotted with BAC.
  • FIG. 21 is a graph showing a comparison of the results of the correction method of the present application and the results of the CGH array spotted with BAC for each chromosome position.
  • FIG. 22 is a graph showing the signal intensity ratios of chromosome genes of cancer cells and normal cells on chromosomes 8 and 9p.
  • FIG. 1 is a processing diagram of a method for correcting the ratio of the genomic DNA content of a chromosome or the genomic DNA content of chromosomes of two different or identical cells in the gene copy analysis method according to the present invention.
  • FIG. 2 is a block diagram of the gene copy analyzing apparatus (1) according to the present invention.
  • This device (1) is a general-purpose personal computer It consists of a memory (3) that operates in conjunction with a central processing unit (CPU) (2), a hard disk (4), a display device (5) with a display screen, and so on.
  • CPU central processing unit
  • the amount of genomic DNA to be input to this device (1) is measured.
  • the measurement of the amount of genomic DNA in a chromosome using a microarray will be explained.
  • a chromosomal gene is extracted from an arbitrary cell or tissue.
  • the chromosomal gene is extracted by treating the cell extract with a proteolytic enzyme to degrade intracellular proteins and chromosomal components, followed by phenol / chloroform treatment to separate the proteins. And taking out a part (part containing DNA) in the water layer.
  • the extracted chromosomal gene is cleaved with an arbitrary restriction enzyme.
  • the method of treating the restriction enzyme is not particularly limited, but here, the chromosomal gene was cleaved with the restriction enzyme Xbal.
  • an adapter molecule is bound to each of the gene fragments (fragments) cleaved with the restriction enzyme Xbal.
  • the adapter molecule is an oligonucleotide containing a restriction enzyme cleavage site and further having an arbitrary gene sequence. Ligation reaction of this adapter molecule and gene fragment is performed, and the adapter molecule is bound to the gene fragment.
  • the gene is then amplified by PCR using specific primers corresponding to the adapter molecule.
  • Gene fragments amplified by PCR reaction correspond to genes up to about 20% of total genomic DNA.
  • the amount of gene fragment amplified by the PCR method varies depending on the number of gene copies of genomic DNA. If the number of gene copies of genomic DNA grown by PCR is large, the amount of gene fragments amplified accordingly increases.
  • fluorescent labeling is performed on the gene fragment amplified by PCR.
  • the fluorescent substance used for the fluorescent label is not particularly limited, and examples include labeling with a radioactive substance instead of the fluorescent label.
  • Oligonucleotide microarrays are particularly limited in type I can't.
  • an array capable of genome typing it is possible to detect chromosomal gene defects and abnormal amplification separately for each chromosome array.
  • a specific allele is derived from a paternal or maternal
  • By quantitatively measuring the signal intensity for each probe the amount of genomic DNA in the gene region corresponding to the specific probe can be detected.
  • RT-PCR method and LAMP method can be used to amplify a specific gene and quantitatively measure the amount of this gene product to measure the amount of genomic DNA on the chromosome. In this case, the step of hybridization with the probe described below is not required.
  • the measured value may be the amount of genomic DNA, or the ratio of genomic DNA amounts of two different or identical cell chromosomes (genomic DNA amount ratio)! /.
  • the genomic DNA content ratio is also measured by the same method as above.
  • the present invention can be similarly applied to the genomic DNA amount, which is described mainly with respect to the genomic DNA amount ratio.
  • the present invention is a correction method for reducing the bias in the raw data (primary data) of the obtained measurement value by using a correction factor obtained by calculating the bias tendency generated in the measurement process for determining the amount of chromosomal genomic DNA.
  • the correction method uses various measurement conditions or measurement results in the measurement step for determining the genomic DNA amount or genomic DNA amount ratio of a chromosome. Correction is performed with the data value for each probe for each chromosome position.
  • the primary data consists of a component that truly reflects the amount of genomic DNA of the chromosome and a noise component that is affected by the measurement conditions such as the PCR process.
  • This correction method is characterized by removing this noise component. To do.
  • the removal of the noise component includes dividing the primary data by the “correction factor” calculated from the “correction reference value” and the “correction tendency value”, or subtracting the “noise component” from the primary data.
  • correction factor and the noise component are “correction” related to the six correction parameters described below.
  • the calculation may be performed using all or a part of the “reference value” and the “correction tendency value”.
  • “Correction tendency value” refers to a correction tendency value related to a predetermined parameter relating to a measurement value of genomic DNA, and coordinates a measurement value in each correction parameter or a value obtained by performing a predetermined calculation process on the measurement value. Plotting into the system, smoothing from the plot value to the average curve, and obtaining from the coefficient of the average curve. It is desirable to obtain the “correction tendency value” from multiple probes that can measure as many chromosomal sites as possible (see Figure 3).
  • the "correction reference value” refers to each correction parameter value corresponding to an arbitrary probe among the correction parameter values, and the correction tendency value force at the correction reference value can also calculate a correction factor.
  • the “correction factor” is a value for correcting the data of the measured genomic DNA amount, and is a value corresponding to each probe that can calculate one or more correction parameters.
  • the correction tendency value is obtained by smoothing the first-order data into the same curve using a least square method or another known method for obtaining an averaged curve, and the curve is set to an arbitrary function (polynomial ( When smoothing to the averaging curve, it can be obtained by excluding the outliers of the primary data (particularly away from the averaging curve compared to other primary data). Oh ,.
  • the "correction parameters" that cause the noise are the following six.
  • the bias means that the measurement value becomes unstable by causing “variation” or “fluctuation” in the measurement value.
  • the first parameter is the length of the gene fragment cut with the restriction enzyme.
  • the length of the gene fragment cleaved at that time is first cleaved with the restriction enzyme Xbal after cell chromosomes are extracted and purified.
  • Xbal was mentioned as a typical restriction enzyme, but the type of restriction enzyme such as Baml and Xhol is not limited. This parameter is expected to cause a bias in the process of amplifying the gene by PCR.
  • FIG. 3 or FIG. 4 are graphs showing the ratio of the signal intensity to the length of the gene fragment.
  • a gene fragment is a gene fragment obtained by cleaving a chromosomal gene with the restriction enzyme Xbal.
  • the vertical axis in Fig. 3 shows the signal intensity ratio, which is the ratio of the gene amplification amount of the chromosome of Down syndrome with the gene amplification amount of the chromosome of healthy Z.
  • the horizontal axis indicates the length of the gene fragment.
  • Figure 4 uses the same H1437 cell line. The measured value compared the data which experimented the same cell separately.
  • the signal intensity ratio is the amount of gene amplification of H1437 cells and the amount of gene amplification of ZH1437 cells.
  • the horizontal axis shows the length of the gene fragment cut with the restriction enzyme, and the vertical axis shows the signal intensity ratio.
  • Each plot value force in the coordinate system of Fig. 3 or Fig. 4 may be obtained by smoothing to an average curve and obtaining from the coefficient of the average curve related to the length of the gene fragment.
  • the “correction reference value” here refers to the length of each gene fragment on the horizontal axis, and correction factor data relating to an arbitrary gene fragment can be derived from the correction reference value and the correction tendency value.
  • the bias due to the length of the gene fragment may be a fixed bias value, a correction factor may be a fixed value, or the bias value may vary from experiment to experiment. The value may be determined by measurement.
  • the bias is a force that is not completely dependent on the length of the gene fragment, but is also considered to include a bias due to other reasons.
  • the second parameter is the ratio (%) of the GC base pair content contained in the gene fragment cleaved with the restriction enzyme.
  • the number of bases of the gene fragment cleaved with the restriction enzyme referred to in the first parameter is divided by the number of GC base pair pairs contained in the gene fragment and multiplied by 100. Since the gene fragment is double-stranded, paying attention to either gene chain, the number of bases G (guanine) and base C (cytosine) may be calculated, or conversely, base A (adenine) And calculate the number of bases T (thymine) and subtract the number of bases of AC from the number of bases of the entire gene fragment.
  • FIG. 5 is a graph showing the relationship between GC content and signal intensity ratio in gene fragments cleaved with the restriction enzyme Xbal.
  • the signal intensity ratio is the amount of gene amplification of the chromosome of Down syndrome.
  • FIG. 6 is a graph showing the genomic DNA content of the chromosome of the same H1437 cell. The measured value was obtained by comparing data obtained by experimenting the same cell separately. Signal strength The degree ratio is the amount of gene amplification of H1437 cells and the amount of gene amplification of ZH1437 cells.
  • the horizontal axis shows part of the probe relative to the chromosome position, and the vertical axis shows the signal intensity ratio
  • the plotting values in the coordinate systems of Figs. 5 and 6 may be smoothed into an averaging curve, and obtained from the coefficient of the averaging curve related to the GC content.
  • the “correction reference value” here refers to the GC content of the gene fragment, and correction factor data with an arbitrary GC content can be derived from the correction reference value and the correction tendency value.
  • the first and second parameters are expected to cause a bias in the process of amplifying genes by PCR.
  • the bias based on the ratio of the GC base pair content contained in the gene fragment may have a fixed bias value, the correction factor may be a fixed value, and the bias value may vary from measurement to measurement. Alternatively, it may be determined by measuring the bias value. This is because the bias depends on the ratio of the GC base pair content, and it is considered that a bias due to other reasons is included.
  • Non-Patent Document 10 http://genome.ucsc.edu/
  • the third parameter is the ratio (%) of GC base pair content in a specific region.
  • the specific region refers to a continuous region of 100 bp (base pair) having the highest GC base pair content ratio among gene fragments cleaved with a restriction enzyme.
  • the ratio of GC base pair content in a specific region (%) means that the lOObp fixed frame is shifted by one base from the end of the same gene fragment with respect to the gene of any restriction enzyme fragment, and is included in that Calculate the GC base pair content (%) in the specific region with the highest GC base pair content.
  • the calculation method is obtained by the method described in the second parameter.
  • the specific region may be the number of bases in the range of 20 bp to 220 bp, not necessarily limited to 100 bp. This factor is expected to create a bias in the process of amplifying genes by PCR. (Figs. 7 and 8).
  • FIG. 7 is a graph showing the signal intensity ratio with respect to the CG content in a specific region of a gene fragment.
  • the vertical axis shows the signal intensity ratio, which is the amount of gene amplification of the chromosome of Down syndrome.
  • the horizontal axis shows the maximum GC content in lOObp in a specific region as a percentage for the same fragment. Random data can be seen in the region where the GC content is higher than the region indicated by the arrow. Such a region showing the random signal intensity ratio may be excluded in the process of data acquisition.
  • FIG. 8 was obtained by comparing data obtained by separately experimenting with the same cells (H1437 cells).
  • the vertical axis indicates the signal intensity ratio as in FIG. 7, and is the gene amplification amount of H1437 cells and the gene amplification amount of ZH1437 cells.
  • the horizontal axis shows the GC content in a specific area as a percentage, as in Fig. 7.
  • Each plot value force in the coordinate system of Fig. 7 or 8 can be smoothed to obtain an average curve coefficient related to the GC content in a specific region.
  • the “correction reference value” here refers to the GC content in a specific region, and correction factor data at an arbitrary GC content can be derived from the correction reference value and the correction tendency value.
  • the noise based on the ratio of GC base pair content contained in a specific region may be a fixed bias value, a correction factor may be a fixed value, or the bias value may vary from experiment to experiment.
  • the bias value may be measured and determined. Here, it is considered that the bias does not depend on the ratio of the GC base pair content, but includes a slight reason for other reasons.
  • the portion (6) with a high GC base-to-content ratio (6) may be excluded because the measured value is also far away from the approximate curve force ( Figure 7).
  • the fourth parameter is the hybridization 'free energy (Kcal / mol) of the probe base sequence itself.
  • the method for calculating the hybridization “free energy” is not particularly limited, but is calculated using OligoScreen TM here. Alternatively, the hybridization “free energy” may be calculated using a calculation method using the GC base content as an index. Hybridization 'free energy is expected to create a bias in the process of hybridization and washing of genes complementary to the probe. [0057] Fig. 9 and Fig. 10 are given as examples showing this.
  • FIG. 9 is a graph showing the signal intensity ratio relative to the hybridization 'free energy (Kcal / mol) of the probe gene sequence itself. Signal intensity ratio is the amount of gene amplification of chromosomes of Down syndrome.
  • the horizontal axis represents the hybridization 'free energy (Kcal / mol) of the probe gene sequence itself, and the vertical axis represents the signal intensity ratio.
  • FIG. 10 was obtained by comparing data obtained by separately experimenting with the same cell (H1437 cell).
  • the vertical axis represents the signal intensity ratio, and is the amount of gene amplification of H1437 cells.
  • the horizontal axis represents the hybridization free energy (Kcal / mol) of the probe gene sequence itself.
  • correction reference value refers to each hybridization 'free energy value, and correction factor data at an arbitrary hybridization' free energy value is calculated from the correction reference value and the correction tendency value. Can be derived.
  • the fifth parameter is the ratio of G and C bases in the base sequence of the broad region of the probe genome, preferably in the region of the surrounding 2000 bases to 1000000 bases. Since the gene fragment is double-stranded, you can calculate the number of base G (guanine) and base C (cytosine) by paying attention to either gene chain! From the calculation of the number of (adenine) and base T (thymine), the number of bases of AC may be subtracted from the number of bases of the entire gene fragment.
  • FIG. 11 shows an example showing this.
  • FIG. 11 is a graph showing the relationship between the ratio of G and C bases in the base sequence of the 40000 base region around the probe and the signal intensity ratio.
  • the signal intensity ratio is the gene amplification amount of chromosomes of normal peripheral blood cells.
  • the horizontal axis shows the GC base content of the genomic region of 40000 bases around the probe, and the vertical axis shows the signal intensity ratio.
  • Each plot value in the coordinate system of FIG. 11 is smoothed to an average curve, and obtained from the coefficient of the average curve related to the GC base content of the genomic region of 40000 bases around the probe.
  • the “correction reference value” here is the GC content of the genomic region of 40000 bases around the probe !, 1 /, and the GC of the genomic region of 40000 bases around any probe from this correction reference value and correction tendency value. Correction factor data with base content can be derived.
  • the fifth parameter is expected to in part cause a bias in the gene DNA extraction process and also to cause a copy number bias in the same cell due to the difference in the rate of DNA replication in a wide gene region.
  • the bias due to the GC base content ratio of the 40000 base genomic region around the probe may be a fixed bias value, and the correction factor may be a fixed value. As it fluctuates, it may be determined by measuring a bias value individually. This bias depends on the ratio of the GC base content of the 40,000 base genomic region surrounding the probe, and it is considered that the noise for slightly other reasons is included.
  • Non-Patent Document 11 Woodfine K. et al Cell Cycle 4, 172-6 (2005)
  • the sixth parameter is an intermediate value (log scaled) of the signal intensity of the probe set of Prefect Match (PM).
  • PM Prefect Match
  • FIG. FIG. 12 is a graph showing the signal intensity with respect to the intermediate value of the signal intensity of the probe set which is Prefect Match (PM).
  • the intermediate value is an intermediate value of signal intensities of a plurality of probes that detect a specific chromosomal site (specific SNP site).
  • the vertical axis represents the signal intensity ratio, and is the amount of gene amplification of the chromosome of Down syndrome.
  • the horizontal axis represents the intermediate value of the signal intensity of the probe set that is Prefect Match (PM).
  • the primary data of a certain probe can be corrected using the correction factor of the probe, whereby the primary data can be corrected.
  • this correction factor there are a method of dividing the primary data by the correction factor and a method of subtracting the primary data by the correction factor as described below.
  • Multiple measurement steps refer to all or part of the six correction parameters described above.
  • a polynomial of a cubic function and five of the above six correction factors, excluding the GC base content of the genomic region of 40000 bases around the probe in the above fifth parameter, are used as a total.
  • the correction factors expected bias values for the five correction requirements ⁇ Expected data
  • the polynomial may be obtained by a function of another order such as a linear function.
  • Equation 1 the correction values 1 to 5 take the following values.
  • B, C, and D indicate the coefficients of the cubic function, and A indicates the intercept of the function.
  • XI is the length (bp) of the gene fragment cleaved with Xbal
  • X2 is the ratio of GC base pair content (%) in the gene fragment cleaved with the above restriction enzyme, where high GC content The area showing the quantity may be smoothed into a curve, excluding the data.
  • X3 is the ratio (%) of GC base pair content in a specific region
  • X4 is the hybridization 'free energy (Kcal / mol) of the probe gene sequence itself.
  • X5 is the intermediate value (log scaled) of the signal intensity of the Prefect Match (PM) probe set. This means the signal intensity of the control sample, and is the intermediate value of the signal intensity of multiple probes that detect specific chromosomal sites (specific SNP sites). This intermediate value may be determined after eliminating the highest and lowest values.
  • PM Prefect Match
  • XI, X2, X3, and X4 are forces that take fixed values.
  • X5, A, B, C, and D are values that vary from measurement to measurement. It is desirable to calculate each measurement individually. However, values other than X5 may be fixed for each probe.
  • FIGS. 13 and 14 show the measurement values and the correction results according to the present invention.
  • FIG. 13 is a graph showing the ratio of the signal intensity before correction of the present application with respect to the chromosome of a healthy person having the Dunn syndrome chromosome.
  • the signal intensity ratio is the gene amplification amount of the chromosome of Down syndrome.
  • An array of probe sets capable of 10K mapping was used in the order of each physical gene position centered on chromosome 21.
  • the vertical axis shows the signal intensity ratio before correction, and the horizontal axis shows the physical gene position around chromosome 21! /.
  • FIG. 14 is a graph obtained by processing the graph shown in FIG. 13 by the correction method of the present application. This correction process has shown that signal intensity ratio data variability and fluctuations are significantly reduced, and that the signal intensity ratio is clearly increased in chromosome 21 of Down syndrome patients. (Area indicated by an arrow).
  • the signal intensity ratio is the amount of gene amplification of chromosomes of Down syndrome.
  • the vertical axis shows the signal intensity ratio, and the horizontal axis shows the physical gene position around chromosome 21.
  • a method for obtaining an absolute value of the number of gene copies of a chromosome by adding a specific step to the correction method of the present invention is provided.
  • the intensity ratio of genomic DNA amount is corrected by the correction method of the present invention, the bias of the measurement value is reduced, and the measurement value is clearly stepped. It is shown.
  • the average value of the minimum signal intensity ratios is set to “0” among the stepwise continuous measurement values, it can be converted into the absolute value of the signal intensity ratio and the gene copy number in each chromosomal region.
  • FIG. 15 is a graph showing the results of analysis of genomic DNA amount and gene copy number analysis by allele (Allelic dosage analysis). The figure shows the amount of gene amplification of chromosomes of cancer patients for each probe. By defining the minimum signal intensity ratio for V or any of the alleles as “0” for the number of gene copies per cell, the absolute number of gene copies in each chromosomal region can be calculated.
  • the vertical axis (left side) represents the signal intensity ratio
  • the vertical axis (right side) represents the absolute value of the gene copy number per cell defined in the present invention. Alleles with high gene copy numbers are indicated by bold lines (7), and alleles with low gene copy numbers are indicated by thin lines (8).
  • FIG. 16 is a graph showing the results of analyzing the amount of genomic DNA for each allele in the entire genome under the same conditions as in FIG. This graph shows the signal intensity ratio for each allele. By defining the minimum signal intensity ratio in any allele as “0” for the number of gene copies per cell, the absolute number of gene copies in each chromosomal region can be calculated.
  • the vertical axis (left side) represents the signal intensity ratio, and the vertical axis (right side) represents the absolute value of the gene copy number per cell defined in the present invention.
  • the horizontal axis shows the physical gene position of the whole genome in order. Alleles with high gene copy numbers are indicated by bold lines (7), and alleles with low gene copy numbers are indicated by thin lines (8). The LOH on the X chromosome is clearly shown in one allele (arrow).
  • Sarako can also be used in a method for detecting a haplotype of a chromosome.
  • the haplotype is the ability of chromosomal genes to be inherited in an appropriate block unit when inherited from a parent.
  • This haplotype generally contains multiple SNPs.
  • the haplotype of the chromosome can be detected by using a microarray as a genome typing microarray that enables measurement for each allele. This is because in the microarray, probes having one SNP are usually arranged on the array and have the smallest haplotype components. In addition, highly reliable detection can be performed by processing the measured values using the correction method of the present invention.
  • the continuous region (9) in which the two alleles differ in the signal intensity ratio shown in FIG. 15 is predicted to indicate the haplotype of the gene.
  • the horizontal axis shows the physical gene position of the chromosomal gene.
  • the vertical axis represents the signal intensity ratio.
  • the number of chromosome gene copies for each chromosome position can be determined.
  • the display method is as follows.
  • the vertical axis represents the genomic DNA amount (signal intensity ratio) or the gene copy number
  • the horizontal axis represents the probe corresponding to the chromosome position (Locus). Is generally expressed in the physical order of chromosomes.
  • the long chromosome shown in Figure 17 represents chromosome 4, and the short chromosome represents chromosome 18.
  • haplotypes on chromosomes can also be detected by the present invention.
  • This haplotype display can also be shown by a graph of gene copy number, but the chromosome 1 also has a chromosome 1 force depending on the shape of the chromosome, such as its length.
  • a method of displaying all or a part of the information on a screen, etc., associating the regions for each haplotype of the chromosome and coloring them differently for each region, so as to convey it to a third party as spatial information. can be mentioned.
  • chromosome 21 which is a gene responsible for Down syndrome. It is known that chromosome 21 of Down syndrome patients has an increased number of genetic copies compared to that of healthy individuals!
  • FIG. 13 shows the ratio of the signal intensity for each probe in the Down syndrome patient divided by the signal intensity in the healthy person obtained by calculating the signal intensity for each probe on the array using the method described above for the genomes of healthy individuals and Down syndrome patients. Is calculated.
  • the force representing the signal intensity ratio that depends on the number of gene copies of the chromosome for each specific part of the chromosome has a lot of signal noise, so the signal intensity ratio does not necessarily correspond to the number of gene copies of the chromosome. It depends on the data.
  • Figures 18 and 19 show that the median value and its SD value are 1.00 ⁇ 0.08 and 1.00 ⁇ 0.06, respectively, and that the signal intensity remains unchanged and only the variation in the data is reduced.
  • Experimental example 3 is detection of gene copy number in cancer cells. That is, the correction method of the present invention was applied to obtain the genomic DNA amount and gene copy number of cancer cells. Using the H1395 lung cancer cell line and chromosomes obtained from normal cells, the cells were measured for the amount of genomic DNA of all chromosomal genes.
  • FIG. 22 shows the signal intensity ratio of the chromosomal genes of cancer cells and normal cells on chromosomes 8 and 9p.
  • the signal intensity ratio is the gene amplification amount of chromosomes of cancer patients. In other words, it represents the ratio of the amount of genomic DNA.
  • the left arrow 8q24 indicates the site where amplification of the c-myc oncogene is observed, and the right arrow indicates the unknown genomic growth region.
  • the scale on the right side of the vertical axis shows the result of calculating the gene copy number. (See Figure 16)
  • the gene is defective or abnormally amplified in a specific chromosomal region.
  • the number of gene copies present can be indicated.
  • it can be applied to a method for diagnosing cancer and other genetic diseases, and a disease-related gene can be identified by specifying the gene copy number of a diseased cell.
  • determining the genomic DNA amount of a chromosome for each allele it is possible to identify the abnormal force of the gene copy number of the chromosome, the force originating from either the paternal or the maternal ( Figures 15, 16, and 22).

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

 本発明は、ゲノムDNAに相補的なプローブを用いて測定した染色体のゲノムDNA量を補正する方法を提供することを目的としている。これを解決するために、染色体ゲノムDNA量の測定における複数の実験工程に係る補正傾向値、当該傾向値から算出した補正因子を用いて、実験で得られたゲノムDNA量を補正することを特徴とする。

Description

遺伝子コピーの解析方法及び装置
技術分野
[0001] 本発明は、遺伝子コピーの解析方法及び装置に関し、特に細胞の染色体のゲノム DNA量及びゲノム DNA量比の測定値の補正、染色体の遺伝子コピー数の同定、同 補正及び検出方法によるハプロタイプの同定、並びに染色体の遺伝子欠損及び異 常増幅に関する測定結果を視覚的に理解し易く表示する技術に係るものである。 背景技術
[0002] 近年、 DNAマイクロアレイ技術は、主に癌診断を目的として、染色体の任意の部位 でのゲノム DNA量を分析するのに広く利用されており、例えば非特許文献 1、非特許 文献 2、非特許文献 3、非特許文献 4などに記載されている。
ここで、染色体のゲノム DNA量とは、染色体遺伝子のなかの特定部位のゲノム DNA 量をいい、遺伝子コピー数に依存するものである。正常細胞では、通常ゲノム DNAは 両親由来のアレルが 1コピーずつで計 2コピーである力 癌などの疾患においてはゲ ノムのなかの、遺伝子コピー数の増減が認められる。
[0003] 正常細胞と疾患細胞における染色体のゲノム DNA量や遺伝子コピー数の検出に 【ま、 BAし (Bacterial Artincial
Figure imgf000003_0001
(し omparative genome hy bridization)マイクロアレイ法を始め、様々なマイクロアレイを用いた方法が開発され ている (非特許文献 1、非特許文献 2、非特許文献 3、 非特許文献 4)。癌などの疾患 における染色体遺伝子に対する変異をより詳細に分析するには、染色体のアレルご とのゲノム DNA量の変化を検出しなければならない。
特に、 LOH (loss of heterozygosity)の分析では、染色体のいずれのアレル、すなわ ち母方または父方由来のものである力を理解することができる(非特許文献 5、非特 許文献 6)。
さらに、染色体のゲノム DNA量の分析では、オリゴヌクレオチドを用いたゲノムタイピ ングマイクロアレイを利用した方法も報告されている(非特許文献 7)。
[0004] しかしながら、従来の方法において、全ゲノムの一部を PCRで増幅したものを分析 する工程(Representational analysis)は、多くの実験条件や個々の実験状況によって 、無視できな 、ノイズデータを含んでしまうと 、う欠点がある。
したがって、染色体のゲノム DNA量や遺伝子コピー数の検出方法においては、より 精度の高いデータを得るためにこれらのノイズデータの補正が必要となる。また、これ までの染色体のゲノム DNA量の検出方法にお!、て、染色体のアレルごとのゲノム DN A量を分析した報告はなぐアレルごとのゲノム DNA量や遺伝子コピー数を検出する ことで、より精度の高いデータが得られるとともに、当該データ力 ハプロタイプの検 出が可能となる。
[0005] 非特許文献 1 : Ishkanian,A.S. et al Nat Genet, 36, 299-303 (2004)
非特許文献 2 : Pinkel, D. et al. Nature Genetic 20, 207-211(1998)
非特許文献 3 : Pollack, J.R. et al Nature Genetic 23 ,41-46(1999)
非特許文献 4 : Lucito,R. et al. Genome Research 13, 2291-2305 (2003)
非特許文献 5 : Robinson, W.P. Bioessays. 22, 452-9 (2000)
非特許文献 6 : Murthy, S.K. Mod Pathol. 15, 1241-50 (2002)
非特許文献 7 : Bignell, G.R. et al. Genome Resesrch 14, 287-295(2004)
非特許文献 8 : Kennedy, G.C. Nature Biotechnology 21, 1233-7 (2003)
発明の開示
発明が解決しょうとする課題
[0006] 本発明は上記の背景技術に鑑みて創出されたものであり、染色体のゲノム DNA量 やゲノム DNA量比に係る測定値を好適な方法により補正し、これらの精度を高めるこ とを目的とし、ひいてはアレル毎のゲノム DNA量や遺伝子コピー数の同定、ハプロタ イブの同定等の遺伝子コピー数の解析に寄与する技術を提供する。
課題を解決するための手段
[0007] 本発明者は上記の課題を解決すべく鋭意研究を行った結果、マイクロアレイなどを 利用した染色体のゲノム DNA量を測定する方法にぉ 、て、測定結果を不安定にする 要因として、 DNAの抽出条件、染色体の遺伝子を増幅する工程、増幅した PCR産物 をアレイ上のプローブにハイブリダィゼーシヨンを行う工程、及び蛍光シグナルをスキ ャユングする工程といった特定実験条件であることを見出した。 これらの実験条件に対する補正を行うことで、染色体のゲノム DNA量を測定する方 法における補正方法を完成した。また、染色体のゲノム DNA量を補正することにより、 当該測定結果を染色体の遺伝子コピー数に変換できることを見出した。本発明はこ の知見を基にして完成されたものである。すなわち本発明は、以下のとおりである。
[0008] 請求項 1に記載の発明は、遺伝子コピーの解析方法において、染色体のゲノム DN A量 (以下、ゲノム DNA量と呼ぶ。)、又は 2つの異なる若しくは同一の細胞の染色体 のゲノム DNA量の比(以下、ゲノム DNA量比と呼ぶ。)、のいずれかの値(以下、測定 値と呼ぶ。)を補正する方法を提供する。
該方法において、所定のゲノム DNA量、又はゲノム DNA量比を測定する測定値測 定工程に続いて、補正傾向値算出手段により、各補正パラメータ値に対するゲノム量 若しくはゲノム量比の測定値、又は該測定値に対して所定の演算処理を施した値を 座標系にプロットし、そのプロット値をスムージングすることにより、測定値に関する所 定のパラメータに係る補正傾向値を算出する補正傾向値算出工程と、補正因子算出 手段により、補正傾向値から補正因子を算出する補正因子算出工程と、測定値補正 演算手段により、測定値を当該補正因子で補正演算する測定値補正演算工程とを 含むことを特徴とする。
[0009] ここで、測定値に対して所定の演算処理を施した値とは、たとえば測定値力 遺伝 子コピー数の違いによる測定値の違いなど、測定結果を不安定にする要因以外の要 素を取り除 ヽた値を意味する。該処理はたとえば染色体における領域的なシグナル 比もしくはコピー数の概算値を計算し、それで個々のプローブにおけるシグナル比を 割る操作を含む。
[0010] 請求項 2に記載の発明は、前記測定値が、ゲノム DNAに相補的なプローブ (以下、 プローブと呼ぶ)を用いて測定されたゲノム DNA量、又はゲノム DNA量比であって、 補正因子算出工程において、補正傾向値力 各補正基準値における補正因子を算 出することを特徴とするものである。補正基準値とは、各補正パラメータ値のうち、任 意のプローブに対応する各補正パラメータ値をいい、同補正基準値での補正傾向値 力も補正因子を算出することができる。補正因子とは、測定されたゲノム DNA量のデ ータを補正するための値である。 [0011] 請求項 3に記載の発明は、遺伝子コピーの解析方法における前記補正傾向値算 出工程において、染色体の遺伝子を特定の制限酵素で切断した各々の遺伝子断片 の長さに対する測定値、又は該測定値に対して所定の演算処理を施した値を座標 系に各補正パラメータ値に対してプロットして、そのプロット値をスムージングすること によって、遺伝子断片の長さに係る補正傾向値を算出することを特徴とするものであ る。
[0012] 請求項 4に記載の発明は、前記遺伝子コピーの解析方法における前記補正傾向 値算出工程において、染色体の遺伝子を特定の制限酵素で切断した各々の遺伝子 断片に含まれる G及び C塩基の比率に対する測定値、又は該測定値に対して所定の 演算処理を施した値を座標系に各補正パラメータ値に対してプロットして、そのプロッ ト値をスムージングすることによって、 GC塩基含有率に係る補正傾向値を算出するこ とを特徴とする。
[0013] 請求項 5に記載の発明は、前記遺伝子コピーの解析方法における前記補正傾向 値算出工程において、染色体の遺伝子を特定の制限酵素で切断した各々の遺伝断 片に対して、連続する 20塩基乃至 220塩基の範囲から選ばれる特定の長さを有する 固定枠を前記遺伝子の端から 1塩基ごとに移動させながら得られる、当該固定枠に 対応する遺伝子断片に含まれる G及び C塩基の比率の最大値に対する測定値、又 は該測定値に対して所定の演算処理を施した値を座標系に各補正パラメータ値に 対してプロットして、そのプロット値をスムージングすることによって、当該固定枠の GC 塩基含有率に係る補正傾向値を算出することを特徴とするものである。
[0014] 請求項 6に記載の発明は、前記遺伝子コピーの解析方法における前記補正傾向 値算出工程において、プローブの塩基配列の有する G及び C塩基の比率もしくはハ イブリダィゼーシヨン'フリーエネルギーに対する測定値、又は該測定値に対して所 定の演算処理を施した値を座標系に各補正パラメータ値に対してプロットして、その プロット値をスムージングすることによって、ハイブリダィゼーシヨンに係る補正傾向値 を算出することを特徴とするものである。
[0015] 請求項 7に記載の発明は、前記遺伝子コピーの解析方法における前記補正傾向 値算出工程において、プローブのゲノム上の位置の広い領域、好ましくは周辺 2000 塩基から 1000000塩基の領域の塩基配列の有する G及び C塩基の比率に対する測定 値、又は該測定値に対して所定の演算処理を施した値を座標系にプロットして、その プロット値をスムージングすることによって、プローブ周辺のゲノム配列における GC塩 基含有率に係る補正傾向値を算出することを特徴とする。
[0016] 請求項 8に記載の発明は、前記遺伝子コピーの解析方法において、前記補正傾向 値算出工程において、各々の染色体の特定部位を検出する完全に相補的なゲノム DNAに相補的なプローブセットのシグナル強度の中間値に対する測定値、又は該測 定値に対して所定の演算処理を施した値を座標系に各補正パラメータ値に対してプ ロットして、そのプロット値をスムージングすることによって、対照サンプルのシグナル 強度に係る補正傾向値を算出することを特徴とする。
[0017] 請求項 9に記載の発明は、前記遺伝子コピーの解析方法において、前記補正傾向 値算出工程が、最小二乗平均法を用いて各プロットの平均曲線を求め、当該平均曲 線について、多項式を用いて近似することにより、各補正傾向値を算出する工程を 含むことを特徴とする。
[0018] 請求項 10に記載の発明は、前記遺伝子コピーの解析方法における前記補正因子 算出工程が、前記各補正傾向値力 対応する各プローブにおける補正因子を算出 する方法が、下記式に基づいて算出される工程を含むことを特徴とする。
(式)補正因子 = Α+ Σ (B X +C X 2+D X 3- - -)
k k k k k k
あるいは
(式)補正因子 = exp(A+∑ (B X +C X 2+D X 3· · -))
k k k k k k
ここで、上記多項式は 3次項まで記載している力 1次項 (B X )以上の任意の項数
k k
が利用でき、たとえば補正因子 =A+∑B X、あるいは補正因子 = exp(A+∑B X )でも
k k k k よい。また、多項式の次数を情報量基準、特にここでは Bayesian Information Criterio nもしくはそれに準ずる基準によって決定することも可能である(非特許文献 9に記載 ) oまた、式中の A〜D ' ·は平均曲線の係数 (補正傾向)値、 Xは k= l〜6がそれぞれ
k
請求項 3な 、し 8に係る補正パラメータ値である。
非特許文献 9 : Schwarz,G. The Annals of Statistics 6, 461-464(1993)
[0019] 請求項 11に記載の発明は、遺伝子コピーの解析方法において、染色体の遺伝子 コピー数を同定する方法が、請求項 1ないし 10に係る測定値の補正演算結果値を用 い、プロット手段により、物理的な順で並べた染色体の位置に対する補正演算結果 値を座標系にプロットした場合に階段状に示されるデータを、抽出手段が抽出する 工程、遺伝子コピー数同定手段が、該補正演算結果値が同一階位に属する 2以上 の連続する染色体の位置における当該補正演算結果値の平均値が最低である領域 を遺伝子コピー数 0の領域とする工程、遺伝子コピー数同定手段が、前記平均値の 次に低い領域を遺伝子コピー数 1の領域とする工程を含み、染色体の遺伝子コピー 数を同定することを特徴とする遺伝子コピーの解析方法を提供する。
[0020] 請求項 12に記載の発明は、前記遺伝子コピーの解析方法における染色体の遺伝 子コピー数を同定した結果を表示する方法が、画像処理手段により、第 1染色体から 第 22染色体、 X染色体及び Y染色体の全部又はその一部につ!ヽて染色体形状様の 再現画像を画像表示手段に表示すると共に、該再現画像上に、染色体の遺伝子コ ピー数が増減している領域を対応づけて視覚的に遺伝子コピー数が当該領域で増 減して 、ることを表示することを特徴とする。
[0021] 請求項 13に記載の発明は、前記遺伝子コピーの解析方法において、ハプロタイプ を同定する方法力 請求項 1ないし 10に係る測定値の補正演算結果値を用い、プロ ット手段により、物理的な順で並べた染色体の位置に対する補正演算結果値を座標 系にプロットした場合に階段状に示されるデータを、抽出手段が抽出する工程、ハプ 口タイプ同定手段が、該補正演算結果値が同一階位に属する 2以上の連続する複数 の染色体の位置をノヽプロタイプと同定する工程を含みハプロタイプを同定することを 特徴とする。
[0022] 請求項 14に記載の発明は、前記遺伝子コピーの解析方法におけるハプロタイプを 同定した結果を表示する方法が、画像処理手段により、第 1染色体力 第 22染色体 、 X染色体及び Y染色体の全部又はその一部にっ 、て染色体形状様の再現画像を 画像表示手段に表示すると共に、該再現画像上に、特定のハプロタイプが存する領 域を対応づけて視覚的に当該特定ハプロタイプが当該領域に存することを表示する ことを特徴とするものである。
[0023] 請求項 15に記載の発明は、前記遺伝子コピーの解析方法における測定値測定ェ 程にぉ 、て、プローブが SNPsを識別することができるゲノムタイピングマイクロアレイ であり、染色体アレルごとに染色体のゲノム DNA量を測定することを特徴とする。
[0024] 請求項 16に記載の発明は、前記遺伝子コピーの解析方法において、前記測定値 力 遺伝子を増幅することにより測定されたゲノム DNA量であって、補正因子算出ェ 程において、複数のパラメータに係る補正傾向値がある場合にはこれらを合算して補 正因子を算出することを特徴とする。
[0025] 本発明は遺伝子コピーの解析装置を提供することもできる。すなわち、請求項 17に 記載の発明は、遺伝子コピーの解析装置であって、染色体のゲノム DNA量、又は 2 つの異なる若しくは同一の細胞の染色体のゲノム DNA量の比、のいずれかの値(以 下、測定値と呼ぶ。)を測定した結果を入力する入力手段と、該測定値、又は該測定 値に対して所定の演算処理を施した値を座標系にプロットし、そのプロット値をスムー ジングすることにより、所定のパラメータに係る補正傾向値を算出する補正傾向値算 出手段と、補正傾向値から補正因子を算出する補正因子算出手段と、測定値を当該 補正因子で補正演算する測定値補正演算手段とを備えることにより、測定値を補正 することを特徴とする。
発明の効果
[0026] 本発明により、遺伝子コピーの解析方法、特にマイクロアレイなどを利用した染色体 のゲノム DNA量を測定する方法における測定結果の補正方法、当該補正処理後の 測定結果により染色体の遺伝子コピー数を検出方法、及び染色体の遺伝子の欠損 または異常増幅を視覚的に理解され易く表示する方法が提供される。
本発明に係る補正方法は、マイクロアレイなどを利用した染色体のゲノム DNA量の 測定結果のバイアスを著しく減少させ、測定結果の安定性'信頼性を増すことを示す
[0027] また、当該補正方法による染色体のゲノム DNA量を、遺伝子コピー数に変換するこ とにより、初めて染色体の遺伝子コピー数の絶対値を検出できることが示された。当 該補正方法による結果から、ハプロタイプの新しい同定方法をも提供することができ る。
さらに、本発明の表示方法を提供することで、それぞれの染色体上における特定の 遺伝子の欠損及び異常増幅を、視覚的に理解し易いように伝えることができる。 図面の簡単な説明
[図 1]本発明による遺伝子コピーの解析方法における測定値の補正の処理図である 圆 2]本発明による遺伝子コピーの解析装置の構成図である。
[図 3]遺伝子断片の長さに対するシグナル強度比 (ダウン症の染色体ゲノム DNA量/ 正常の染色体ゲノム DNA量)を示したグラフである。
[図 4]遺伝子断片の長さに対するシグナル強度比(同一の H1437細胞の染色体のゲ ノム DNA量)を示したグラフである。
[図 5]遺伝子断片に含まれる GC含有量とシグナル強度比 (ダウン症の染色体ゲノム D NA量/正常の染色体ゲノム DNA量)の関係を示したグラフである。
[図 6]遺伝子断片に含まれる GC含有量とシグナル強度比(同一の H1437細胞の染色 体のゲノム DNA量)の関係を示したグラフである。
[図 7]遺伝子断片の特定領域における CG含有量に対するシグナル強度比 (ダウン症 の染色体ゲノム DNA量/正常の染色体ゲノム DNA量)を示したグラフである。
[図 8]遺伝子断片の特定領域における CG含有量に対するシグナル強度比(同一の H 1437細胞の染色体のゲノム DNA量)を示したグラフである。
[図 9]プローブの遺伝子配列自体の有するハイブリダィゼーシヨン'フリーエネルギー (Kcal/mol)に対するに対するシグナル強度比(ダウン症の染色体ゲノム DNA量/正 常の染色体ゲノム DNA量)を示すグラフである。
[図 10]プローブの遺伝子配列自体の有するハイブリダィゼーシヨン ·フリーエネルギ 一 (Kcal/mol)に対するに対するシグナル強度比(同一の H1437細胞の染色体のゲノ ム DNA量)を示すグラフである。
[図 11]プローブの周辺 40000塩基のゲノム領域の GC塩基含有量に対するシグナル 強度比 (肝癌細胞の染色体ゲノム DNA量/正常末梢血細胞の染色体ゲノム DNA量) を示すグラフである。
[図 12]Prefect Match(PM)のプローブセットのシグナル強度の中間値(log scaled)に 対するシグナル強度比(ダウン症の染色体ゲノム DNA量/正常の染色体ゲノム DNA 量)を示すグラフである。
[図 13]本願の補正前の染色体位置ごとのシグナル強度比 (ダウン症の染色体ゲノム
DNA量/正常の染色体ゲノム DNA量)を示すグラフである。
[図 14]図 12に示されるグラフを本願の補正方法で処理したグラフである。
[図 15]染色体のアレル別のゲノム DNA量及び遺伝子コピー数分析 (Allelic dosage an alysis)をした結果のグラフである。
[図 16]全ゲノムにおけるアレルごとのゲノム DNA量及び遺伝子コピー数を分析した結 果を示すグラフである。
[図 17]本発明の表示方法による染色体遺伝子の欠損及び異常増幅の表示を示す図 である。
[図 18]本願の補正前の染色体位置ごとのシグナル強度比(同一の H1437細胞の染色 体のゲノム DNA量)を示すグラフである。
[図 19]図 17に示されるグラフを本願の補正方法で処理したグラフである。
[図 20]本願補正方法による結果と、 BACをスポットした CGHアレイの結果の比較を示 すグラフである。
[図 21]本願補正方法による結果と、 BACをスポットした CGHアレイの結果の比較を、 染色体の位置の順ごとに示すグラフである。
[図 22]第 8染色体及び第 9p染色体における癌細胞と正常細胞の染色体遺伝子のシ グナル強度比を示すグラフである。
符号の説明
[0029] 1 :遺伝子コピーの解析装置、 2 :中央演算処理装置 (CPU)、 3 ;メモリ、 4 :ハードディ スク、 5 :表示装置、 6 : GC塩基対含有量の比率の高い部分、 7 :遺伝子コピー数の高 いアレル、 8 :遺伝子コピー数の低いアレル、 9 :ノ、プロタイプを示す領域
発明を実施するための最良の形態
[0030] 以下、本発明を詳細に説明する。図 1は本発明による遺伝子コピーの解析方法のう ち、染色体のゲノム DNA量又は 2つの異なる若しくは同一の細胞の染色体のゲノム D NA量の比を補正する方法についての処理図である。また、図 2は本発明に係る遺伝 子コピーの解析装置(1)の構成図である。本装置(1)は汎用のパーソナルコンビユー タ等によって実現されるものであり、中央演算処理装置 (CPU) (2)と連動動作するメ モリ(3)、ハードディスク (4)、表示画面を備えた表示装置(5)等から成る。
[0031] 1.マイクロアレイを用いた染色体のゲノム DNA量の測定 (測定値測定工程)
最初に、本装置(1)に入力するためのゲノム DNA量の測定を行う。マイクロアレイを 用いた染色体のゲノム DNA量の測定にっ 、て説明する。
第一に、サンプルの調整方法について説明するが、以下の方法や手順、材料ゃ容 量などは特に限定されるものではな 、。
まず、任意の細胞や組織から染色体遺伝子を抽出する。染色体遺伝子の抽出方 法は、細胞抽出液をタンパク質分解酵素で処理して、細胞内のタンパク質や染色体 を構成するタンパク質を分解した後に、フエノール'クロ口ホルム処理をして、タンパク 質を分離し、水層にある部分 (DNAを含む部分)を取り出すことが挙げられる。次いで 、抽出された染色体遺伝子を任意の制限酵素で切断する。制限酵素の処理方法は 、特に限定されないが、ここでは、染色体遺伝子を制限酵素 Xbalで切断した。
[0032] 次 、で、制限酵素 Xbalで切断された遺伝子フラグメント(断片)のそれぞれに対して 、アダプター分子を結合させる。アダプター分子は、制限酵素の切断部位を含み、さ らに任意の遺伝子配列を有するオリゴヌクレオチドである。このアダプター分子と遺伝 子フラグメントの Ligation反応を行 、、遺伝子フラグメントにアダプター分子を結合さ せる。次いで、アダプター分子に対応する特異的なプライマーを使用して、 PCR法に より遺伝子を増幅させる。 PCR反応で増幅した遺伝子断片は、全ゲノム DNAの約 20 %程度までの遺伝子に対応する。前記の PCR法で増幅した遺伝子フラグメントの量 は、ゲノム DNAの遺伝子コピー数に応じて変化する。 PCR法で増殖するゲノム DNAの 遺伝子コピー数が多ければ、それに応じて増幅された遺伝子フラグメントの量も多く なる。
[0033] 次 、で、 PCRで増幅した遺伝子フラグメントに対して、蛍光ラベルを行う。蛍光ラベ ルに用いる蛍光物質は特に限定されず、また蛍光ラベルの代わりに放射性物質でラ ベルすることなどが挙げられる。
[0034] 第二に、蛍光ラベルした PCR産物と、オリゴヌクレオチドのプローブからなるアレイと ハイブリダィゼーシヨンを行う。オリゴヌクレオチドマイクロアレイは、特に種類は限定さ れない。ゲノムタイピングすることができるアレイを利用した場合には、染色体のァレ ルごとに分けて、染色体遺伝子の欠損や異常増幅を検出することができる。さらに、 特定のアレルが父方又は母方由来であるかの情報を考慮することで、染色体遺伝子 の欠損等がいずれの由来のものであるかを検出することができる。プローブごとのシ グナル強度を定量的に測定することで、特定のプローブに対応する遺伝子領域のゲ ノム DNA量を検出することができる。
[0035] また、特定の遺伝子のみのゲノム DNA量を測定する場合には、アダプター分子の 代わりに測定した 、遺伝子に対する特異的なプライマー遺伝子を用いて、 PCR法な どで増幅させてもよぐ RT— PCR法や LAMP法など特定遺伝子を増幅し、この遺伝子 産物の量を定量的に測定することで、染色体のゲノム DNA量を測定する方法も挙げ られる。この場合には、以下で述べるプローブとのハイブリダィゼーシヨンの工程を必 要としない。
[0036] 測定値としては、ゲノム DNA量でもよいし、 2つの異なる若しくは同一の細胞の染色 体のゲノム DNA量の比(ゲノム DNA量比)でもよ!/、。ゲノム DNA量比もそれぞれのゲノ ム DNA量は上記と同様の方法により測定を行う。以下、ゲノム DNA量比を中心に説 述する力 ゲノム DNA量についても同様に本発明を適用することができる。
[0037] 2.測定値を補正する方法 (補正傾向値の算出工程)
本願発明は、染色体ゲノム DNA量を求める測定工程で生じるバイアスの傾向を数 値ィ匕した補正因子を利用して、得られた測定値の生データ (一次データ)におけるバ ィァスを減少させる補正方法を提供する。すなわち、同補正方法は、染色体のゲノム DNA量又はゲノム DNA量比を求める測定工程における各種の測定条件または測定 結果を用いる。補正は、各染色体位置に対するプローブごとのデータ値で行う。
[0038] 一次データは真に染色体のゲノム DNA量を反映させる成分と、 PCR工程など測定 条件で影響されるノイズ成分とから成るが、本補正方法では、このノイズ成分を除去 することを特徴とする。ノイズ成分の除去は、一次データを「補正基準値」及び「補正 傾向値」から計算された「補正因子」で除する、又は一次データから「ノイズ成分」を減 じることなどが挙げられる。
[0039] また、補正因子やノイズ成分は、以下に説明する 6つの補正パラメータに係る「補正 基準値」及び「補正傾向値」の全部または一部を用いて算出することが挙げられる。「 補正傾向値」については、ゲノム DNA量の測定値に関する所定のパラメータに係る 補正傾向値をいい、各補正パラメータにおける測定値、あるいは該測定値に対して 所定の演算処理を施した値を座標系にプロットし、そのプロット値から平均化曲線に スムージングさせ、その平均化曲線の係数から求めることが挙げられる。「補正傾向 値」は、なるべく広範囲な染色体の部位を測定できる複数のプローブから求めること が望ましい(図 3などを参照)。
[0040] 「補正基準値」とは、各補正パラメータ値のうち、任意のプローブに対応する各補正 ノ メータ値をいい、同補正基準値での補正傾向値力も補正因子を算出することが できる。「補正因子」とは、測定されたゲノム DNA量のデータを補正するための値で あり、補正パラメータの 1または 1以上力も算出することのできる、プローブごとに対応 する値である。
[0041] ここで補正傾向値は、一次データを最小二乗平均法(least square method)やその 他の平均化曲線を求める周知の方法で同曲線にスムージングさせ、その曲線を任意 の関数(多項式(polynomial approximation)に当てはめることで求める。平均化曲線 へのスムージング時には、一次データの異常値 (他の一次データと比して平均化曲 線から特に離れて 、るもの)を除外して求めてもょ 、。
[0042] ノィァスを生じさせる「補正パラメータ」とは以下の 6つである。ここで、バイアスとは、 測定値に「バラツキ」や「ゆらぎ」を生じさせ、測定値を不安定にするものをいう。第 1 のパラメータは制限酵素で切断した遺伝子断片の長さである。本実施工程では、ま ず細胞の染色体を抽出'精製した後に制限酵素 Xbalで染色体を切断するが、その際 に切断された遺伝子断片の長さをいう。ここで、代表的な制限酵素として Xbalを挙げ たが、 Baml、 Xholなど制限酵素の種類は制限されない。同パラメータは、 PCR法で遺 伝子を増幅する過程でバイアスを生じさせるものであると予想される。
[0043] これを示す例として、図 3又は図 4を示す。これらは、遺伝子断片の長さに対するシ グナル強度比を示したグラフである。遺伝子断片は、染色体遺伝子を制限酵素 Xbal で切断したそれぞれの遺伝子断片である。図 3の縦軸は、シグナル強度比を示し、ダ ゥン症候群の染色体の遺伝子増幅量 Z健常人の染色体の遺伝子増幅量の比であ る。横軸は、遺伝子断片の長さを示す。図 4は、同一の H1437細胞カゝら得たものを用 いている。測定値は、同一の細胞を別々に実験したデータを比較した。シグナル強 度比は、 H1437細胞の遺伝子増幅量 ZH1437細胞の遺伝子増幅量である。横軸は、 制限酵素で切断した遺伝子断片の長さを示し、縦軸は、シグナル強度比を示してい る。
[0044] 図 3又は図 4の座標系の各プロット値力 平均化曲線にスムージングさせ、遺伝子 断片の長さに係る平均化曲線の係数から求めることが挙げられる。ここでの「補正基 準値」は、横軸の各遺伝子断片の長さをいい、この補正基準値及び補正傾向値から 任意の遺伝子断片に係る補正因子データを導出することができる。
[0045] 遺伝子断片の長さによるバイアスは、固定的なバイアス値が見られるものとして、補 正因子を固定値としてもよいし、また実験ごとにバイアス値が変動するものとして、個 々にバイアス値を測定して決定してもよい。ここで、同バイアスは、遺伝子断片の長さ に完全に依存するものでなぐ僅かに他の理由に起因するバイアスも含まれると考え られる力 である。
[0046] 第 2のパラメータは、前記制限酵素で切断された遺伝子断片に含まれる GC塩基対 含有量の比率 (%)である。上記第 1のパラメータにいう制限酵素で切断した遺伝子 断片の塩基数を、当該遺伝子断片に含まれる GCの塩基対ペア数で除して、 100を乗 じることで算出する。遺伝子断片は 2本鎖となっているので、どちらかの遺伝子鎖に 注目して、塩基 G (グァニン)及び塩基 C (シトシン)の数を算出してもよいし、逆に塩基 A (アデニン)及び塩基 T (チミン)の数を算出から、遺伝子断片全体の塩基数から AC の塩基数を減じて求めてもょ 、。
[0047] これを示す例として、図 5及び図 6を示す。図 5は制限酵素 Xbalで切断した遺伝子 フラグメントにおける GC含有量とシグナル強度比の関係を示したグラフである。シグ ナル強度比は、ダウン症候群の染色体の遺伝子増幅量 Z健常人の染色体の遺伝子 増幅量である。
横軸は、遺伝子断片における GC塩基含有量を示し、縦軸は、シグナル強度比を示 している。また、図 6は、同一の H1437細胞の染色体のゲノム DNA量を示すグラフで ある。測定値は、同一の細胞を別々に実験したデータを比較して得た。シグナル強 度比は、 H1437細胞の遺伝子増幅量 ZH1437細胞の遺伝子増幅量である。横軸は、 染色体位置に対するプローブの一部を示し、縦軸は、シグナル強度比を示している
[0048] 図 5及び図 6の座標系の各プロット値から平均化曲線にスムージングさせ、 GC含有 量に係る平均化曲線の係数から求めることが挙げられる。ここでの「補正基準値」は、 遺伝子断片の GC含有量を ヽ、この補正基準値及び補正傾向値から任意の GC含 有量での補正因子データを導出することができる。
[0049] 第一及び第二のパラメータは、 PCR法で遺伝子を増幅する過程でバイアスを生じさ せるものと予想される。遺伝子断片に含まれる GC塩基対含有量の比率によるバイァ スは、固定的なバイアス値が見られるものとして、補正因子を固定値としてもよいし、 また測定ごとにバイアス値が変動するとして、個々にバイアス値を測定して決定しても よい。同バイアスは、 GC塩基対含有量の比率に依存するものでなぐ僅かに他の理 由のよるバイアスも含まれると考えられるからである。
なお、ここでは、全ての遺伝子配列情報は、 Human Genome Build 34(from July 200 3 UCSC genome build) (非特許文献 10に記載)から得ているが、遺伝子配列情報は 、その他の遺伝子配列データベースを利用してもよぐまた、ゲノムの遺伝子配列を 独自で決定してちょい。
[0050] 非特許文献 10: http://genome.ucsc.edu/
[0051] 第 3のパラメータは、特定領域における GC塩基対含有量の比率(%)である。ここで 、特定領域とは、制限酵素で切断した遺伝子断片のなかで、 GC塩基対含有量の比 率が最も高い 100bp (base pair)の連続領域をいう。特定領域における GC塩基対含 有量の比率 (%)とは、 lOObpの固定枠を任意の制限酵素断片の遺伝子に対して、同 遺伝子断片の端から 1塩基毎にずらして、その中に含まれる GC含有量をそれぞれ求 めて、最も GC塩基対含有量の高い特定領域おける、 GC塩基対含有量 (%)を算出 する。
[0052] 算出方法は、第 2のパラメータで記載した方法により求める。また、この特定領域は 、必ずしも 100bpに限定されることなぐ 20bp乃至 220bpの範囲での塩基数としてもよ い。同因子は、 PCR法で遺伝子を増幅する過程でバイアスを生じさせるものと予想さ れる(図 7、図 8)。
[0053] これを示す例として、図 7及び図 8を示す。図 7は、遺伝子断片の特定領域における CG含有量に対するシグナル強度比を示したグラフである。縦軸は、シグナル強度比 を示し、ダウン症候群の染色体の遺伝子増幅量 Z健常人の染色体の遺伝子増幅量 である。横軸は、同断片に対して、特定領域における lOObp内の GC含有量の最大値 を百分率で示した。矢印に示す部位よりも GC含有量の高い領域は、ランダムなデー タが見られる。このような当該ランダムなシグナル強度比が示される領域は、データ取 得の過程で排除してもよい。また、図 8は、同一の細胞 (H1437細胞)を別々に実験し たデータを比較して得た。縦軸は、図 7と同様にシグナル強度比を示し、 H1437細胞 の遺伝子増幅量 ZH1437細胞の遺伝子増幅量である。横軸は、図 7と同様に特定領 域の GC含有量を百分率で示した。
[0054] 図 7又は 8の座標系の各プロット値力 平均化曲線にスムージングさせ、特定領域 の GC含有量に係る平均化曲線の係数から求めることが挙げられる。ここでの「補正 基準値」は、特定領域の GC含有量をいい、この補正基準値及び補正傾向値から任 意の GC含有量での補正因子データを導出することができる。
[0055] 特定領域に含まれる GC塩基対含有量の比率によるノィァスは、固定的なバイアス 値として、補正因子を固定値としてもよいし、また実験ごとにバイアス値が変動すると して、個々にバイアス値を測定して決定してもよい。ここで、同バイアスは、 GC塩基対 含有量の比率に依存するものでなぐ僅かに他の理由のよるノ ィァスも含まれると考 えられる。 GC塩基対含有量の比率 (%)が高い部分 (6)は、測定値が近似式の曲線 力も大幅に離れるので除外してもよ 、(図 7)。
[0056] 第 4のパラメータは、プローブの塩基配列自体の有するハイブリダィゼーシヨン'フリ 一エネルギー(Kcal/mol)である。このハイブリダィゼーシヨン'フリーエネルギーの算 出方法は、特に限定されないが、ここでは OligoScreen™を用いて算出した。また、 GC 塩基含有量を指標とした計算方法を用いて、ハイブリダィゼーシヨン'フリーエネルギ 一を算出してもよい。ハイブリダィゼーシヨン'フリーエネルギーは、プローブと相補的 な遺伝子のハイブリダィゼーシヨンやその洗浄の工程にバイアスを生じさせるものと 予想されている。 [0057] これを示す例として図 9及び図 10を挙げる。図 9は、プローブの遺伝子配列自体の 有するハイブリダィゼーシヨン'フリーエネルギー(Kcal/mol)に対するに対するシグナ ル強度比を示すグラフである。シグナル強度比は、ダウン症候群の染色体の遺伝子 増幅量 Z健常人の染色体の遺伝子増幅量である。横軸は、プローブの遺伝子配列 自体の有するハイブリダィゼーシヨン'フリーエネルギー(Kcal/mol)を示し、縦軸は、 シグナル強度比を示して 、る。
また、図 10は、同一の細胞 (H1437細胞)を別々に実験したデータを比較して得た 。縦軸は、シグナル強度比を示し、 H1437細胞の遺伝子増幅量 ZH1437細胞の遺伝 子増幅量である。横軸は、プローブの遺伝子配列自体の有するノ、イブリダィゼーショ ン ·フリーエネルギー(Kcal/mol)を示す。
[0058] 図 9又は 10の座標系の各プロット値から平均化曲線にスムージングさせ、ハイブリ ダイゼーシヨン'フリーエネルギーに係る平均化曲線の係数から求めることが挙げら れる。ここでの「補正基準値」は、各ハイブリダィゼーシヨン'フリーエネルギー値をい い、この補正基準値及び補正傾向値から任意のハイブリダィゼーシヨン'フリーエネ ルギー値での補正因子データを導出することができる。
[0059] 第 5のパラメータは、プローブのゲノム上の位置の広!、領域、好ましくは周辺 2000塩 基から 1000000塩基の領域の塩基配列の有する G及び C塩基の比率である。遺伝子 断片は 2本鎖となっているので、どちらかの遺伝子鎖に注目して、塩基 G (グァニン) 及び塩基 C (シトシン)の数を算出してもよ!/ヽし、逆に塩基 A (アデニン)及び塩基 T (チ ミン)の数を算出から、遺伝子断片全体の塩基数から ACの塩基数を減じて求めても よい。
[0060] これを示す例として、図 11を示す。図 11はプローブの周辺 40000塩基の領域の塩 基配列の有する G及び C塩基の比率とシグナル強度比の関係を示したグラフである。 シグナル強度比は、肝癌細胞の染色体の遺伝子増幅量 Z正常末梢血細胞の染色 体の遺伝子増幅量である。横軸は、プローブの周辺 40000塩基のゲノム領域の GC塩 基含有量を示し、縦軸は、シグナル強度比を示している。
[0061] 図 11の座標系の各プロット値から平均化曲線にスムージングさせ、プローブの周辺 40000塩基のゲノム領域の GC塩基含有量に係る平均化曲線の係数から求めることが 挙げられる。ここでの「補正基準値」は、プローブの周辺 40000塩基のゲノム領域の G C含有量を!、1/、、この補正基準値及び補正傾向値から任意のプローブの周辺 40000 塩基のゲノム領域の GC塩基含有量での補正因子データを導出することができる。
[0062] 第 5のパラメータは一部は遺伝子 DNAの抽出過程におけるバイアスを生じさせると 予想される、また広い遺伝子領域における DNA複製の速度差による同一細胞内で コピー数のバイアスを生じさせるとも予想される(非特許文献 11に記載)。プローブの 周辺 40000塩基のゲノム領域の GC塩基含有量の比率によるバイアスは、固定的なバ ィァス値が見られるものとして、補正因子を固定値としてもよいし、また測定ごとにバイ ァス値が変動するとして、個々にバイアス値を測定して決定してもよい。同バイアスは 、プローブの周辺 40000塩基のゲノム領域の GC塩基含有量の比率に依存するもので なぐ僅かに他の理由のよるノ ィァスも含まれると考えられるからである。
なお、ここでは、全ての遺伝子配列情報は、 Human Genome Build 34(from July 200 3 UCSC genome build) (非特許文献 10に記載)から得ているが、遺伝子配列情報は 、その他の遺伝子配列データベースを利用してもよぐまた、ゲノムの遺伝子配列を 独自で決定してちょい。
[0063] 非特許文献 11 :Woodfine K. et al Cell Cycle 4, 172-6 (2005)
[0064] 第 6のパラメータは、 Prefect Match(PM)のプローブセットのシグナル強度の中間値( log scaled)である。対照サンプルのシグナル強度を意味し、特定の染色体部位 (特 定の SNP部位)を検出する複数のプローブのシグナル強度の中間値をいう。この中 間値は、最高値の値及び最低値の値を排除した後に求めても良い。
[0065] これを示す例として図 12を挙げる。図 12は、 Prefect Match(PM)であるプローブセッ トのシグナル強度の中間値に対するシグナル強度を示すグラフである。この中間値と は、特定の染色体部位 (特定の SNP部位)を検出する複数のプローブのシグナル強 度の中間値をいう。縦軸は、シグナル強度比を示し、ダウン症候群の染色体の遺伝 子増幅量 Z健常人の染色体の遺伝子増幅量である。横軸は、 Prefect Match(PM)で あるプローブセットのシグナル強度の中間値を示す。
[0066] 図 12の座標系の各プロット値から平均化曲線にスムージングさせ、プローブセット のシグナル強度の中間値に係る平均化曲線の係数力 求めることが挙げられる。ここ での「補正基準値」は、各プローブセットのシグナル強度の中間値をいい、この補正 基準値及び補正傾向値から任意のプローブセットのシグナル強度の中間値での補 正因子データを導出することができる。
[0067] 3.染色体のゲノム DNA量の測定結果を補正する方法 (補正因子の算出工程) 本発明における遺伝子コピー数の解析方法における計測値の補正にあたっては 以上の 6つの補正パラメータに係る「補正基準値」及び「補正傾向値」の全部又は一 部のデータを用いて、プローブごとの「補正因子」を算出する。後述するように、各プ ローブにおける複数の補正パラメータに係る「補正傾向値」及び「補正基準値」から、 プローブにおける「補正因子」を導出することができる。
[0068] 次いで、あるプローブにおける一次データについて、同プローブでの補正因子を用 いて補正することにより、一次データについて補正をすることができる。この補正因子 を用いて一次データを補正するには、以下で説明するように、一次データを補正因 子で除する方法、一次データを補正因子で減じる方法など挙げられる。
[0069] 以下、複数の測定工程における補正傾向値及び補正基準値から総合的な補正因 子を求める方法について説明する。複数の測定工程とは、上述の 6つの補正パラメ ータに関する全部又は一部をいう。ここでは例示的に、三次関数の多項式で上記の 6つの補正因子のうち上記第 5のパラメータにあるプローブの周辺 40000塩基のゲノ ム領域の GC塩基含有量を除く 5つを用いて総合的な補正因子(5つの補正要件に 係るバイアス予想値 · Expected data)示した。
ここで、多項式は、一次関数など他の次数の関数で求めても良い。また、補正パラ メータも XIから X5の全てを用いることが望まし 、が、任意の補正パラメータのみを用 いても良い。
[0070] (数 1) Expected data = A+∑ (B X +C X 2+D X 3)
k k k k k k
数 1において、 ま、補正要件の 1から 5でそれぞれ以下の値を取る。また、 B、 C及 び Dは、三次関数の係数を示し、 Aは同関数の切片を示す。
XIとは、 Xbalで切断した遺伝子断片の長さ(bp)、 X2とは、前記制限酵素で切断さ れた遺伝子断片に含まれる GC塩基対含有量の比率 (%)、ここで高い GC含有量を 示す領域は、データを除外して、曲線にスムージングしてもよい。 X3とは、特定領域における GC塩基対含有量の比率(%)、 X4とは、プローブの遺 伝子配列自体の有するハイブリダィゼーシヨン'フリーエネルギー(Kcal/mol)。
X5とは、 Prefect Match(PM)のプローブセットのシグナル強度の中間値(log scaled) 。対照サンプルのシグナル強度を意味し、特定の染色体部位 (特定の SNP部位)を検 出する複数のプローブのシグナル強度の中間値をいう。この中間値は、最高値の値 及び最低値の値を排除した後に求めても良い。
[0071] なお、使用するマイクロアレイに応じて、 XI、 X2、 X3、 X4は固定する値を取る力 X5 、 A、 B、 C、 Dは測定ごとに変動する値であり、一回の測定ごとに特異的なもので、測 定ごとに個別に計算することが望ましい。ただし、 X5以外の値については、各プロ一 ブに固定的なものとしてもよい。
[0072] 本発明に係る測定値と補正の結果を示す図を図 13及び図 14に示す。図 13は、ダ ゥン症候群の染色体の健常人の染色体に対する本願の補正前のシグナル強度比を 示すグラフである。ここで、シグナル強度比は、ダウン症候群の染色体の遺伝子増幅 量 Z健常人の染色体の遺伝子増幅量である。第 21番染色体を中心とした物理的な 遺伝子位置ごとの順に、 10Kのマッピングを可能とするプローブセットのアレイを使用 した。縦軸が、補正前のシグナル強度比を示し、横軸が第 21番染色体の周辺におけ る物理的な遺伝子位置を示して!/、る。
[0073] 図 14は、図 13に示されるグラフを本願の補正方法で処理したグラフである。当該補 正処理により、シグナル強度比のデータのバラツキ及びゆらぎ (fluctuations)が著しく 減少し、ダウン症候群の患者の第 21番染色体領域でシグナル強度比が明確に増大 していることが示されている(矢印で示した領域)。シグナル強度比は、ダウン症候群 の染色体の遺伝子増幅量 Z健常人の染色体の遺伝子増幅量である。縦軸が、シグ ナル強度比を示し、横軸が第 21番染色体の周辺における物理的な遺伝子位置を示 している。
[0074] 4.染色体の遺伝子コピー数を同定する方法
また、本願発明における補正方法に特定工程を追加することによる、染色体の遺伝 子コピー数の絶対値を求める方法を提供する。本発明の補正方法で、ゲノム DNA量 の強度比を補正すると、測定値のバイアスが減少して、明瞭な階段状の測定値となる ことが示される。この階段状の連続した測定値のうち、最小のシグナル強度比の平均 値を「0」と定めることで、シグナル強度比と各染色体の領域における遺伝子コピー数 の絶対値に変換することができる。
[0075] 図 15は、アレル別のゲノム DNA量及び遺伝子コピー数分析 (Allelic dosage analysi s)をした結果のグラフである。図は、各プローブに対する癌患者の染色体の遺伝子 増幅量 Z健常人の染色体の遺伝子増幅量を示した。 V、ずれかのアレルでの最小の シグナル強度比を、 1細胞当たりの遺伝子コピー数を「0」と定義することにより、個々 の染色体領域における遺伝子コピー数の絶対数を算出することができる。
縦軸 (左側)は、シグナル強度比を示し、縦軸 (右側)は、本発明で定義した 1細胞 当たりの遺伝子コピー数の絶対値を表した。遺伝子コピー数の高いアレルは、太線( 7)で示し、遺伝子コピー数の低いアレルは、細線(8)で示している。
[0076] 図 16は、図 15と同条件での全ゲノムにおけるアレルごとのゲノム DNA量を分析した 結果を示すグラフである。このグラフは、アレルごとのシグナル強度比を示している。 いずれかのアレルでの最小のシグナル強度比を、 1細胞当たりの遺伝子コピー数を「 0」と定義することにより、個々の染色体領域における遺伝子コピー数の絶対数を算 出することができる。
縦軸 (左側)は、シグナル強度比を示し、縦軸 (右側)は、本発明で定義した細胞当 たりの遺伝子コピー数の絶対値を表した。横軸は、全ゲノムの物理的な遺伝子位置 を順に示したものである。遺伝子コピー数の高いアレルは、太線(7)で示し、遺伝子 コピー数の低いアレルは、細線(8)で示している。 X染色体における LOHが片方のァ レルで明確に示されて 、る(矢印)。
[0077] この処理をまとめると次の通りである。すなわち、階段状の連続した測定値のうち、 最小のシグナル強度比の平均値を「0」とし、この「0」に比較して次に高い連続したシ グナル強度の平均値を「1」として、次いで、「2」「3」と求めていく。これにより、シグナ ル強度比の値から、遺伝子コピー数の絶対値を検出することができる。
[0078] 染色体での最小のシグナル強度比を求めるには、比較対照の一方が、健常人であ ることが望ましい。ほぼ全領域の染色体でシグナル強度比を求めると、ほとんどの染 色体の遺伝子コピー数は、 0、 1、 2または 3のいずれかの値となることが示された。 また、染色体の遺伝子コピー数の検出をする場合には、本願発明による補正方法 の他に、アレルごとのゲノム DNA量の測定をすることができるゲノムタイピングマイクロ アレイを用いることが必要である。
[0079] 5.染色体上のハプロタイプの同定方法
さら〖こは、本発明により、染色体のハプロタイプの検出する方法にも利用することが できる。ここで、ハプロタイプとは、親から遺伝する際に染色体の遺伝子は適当なプロ ック単位で遺伝する力 その際の連続した遺伝子のブロックのことをノヽプロタイプと呼 んでいる。このハプロタイプには、複数の SNPsが含まれていることが一般的である。
[0080] 染色体のゲノム DNA量を測定する際に、マイクロアレイをアレルごとの測定を可能と するゲノムタイピングマイクロアレイとすることで、染色体のハプロタイプの検出ができ る。同マイクロアレイでは、アレイ上に通常 1つの SNPを有するプローブが配置されて おり、ハプロタイプの最小の構成成分を有しているからである。また、本発明の補正 方法により測定値で処理することにより、信頼性の高い検出ができる。
[0081] 本発明の補正方法で、染色体のゲノム DNA量のデータを補正することで、上述した ように明瞭な階段状の染色体ゲノム DNA量または遺伝子コピー数が求められ、同じ シグナル強度比である連続した染色体上のセグメントを見出すことができ、より信頼 性の高 、ノヽプロタイプの検出ができる。同じシグナル強度比である連続した染色体( アレル)上のセグメント(ブロック)は、単一のハプロタイプであると定義される(図 15、 図 16)。
例えば、図 15に示されるシグナル強度比が 2つのアレルが異なる連続している領 域(9)は、遺伝子のハプロタイプを示していると予測される。横軸は、染色体遺伝子 の物理的な遺伝子位置を示している。縦軸は、シグナル強度比を示している。
[0082] 6.染色体の遺伝子の欠損及び異常増幅を表示する方法
本発明により、染色体の位置ごとの染色体の遺伝子コピー数を求めることができる。 その表示方法としては、図 15及び図 16に示すように、縦軸に染色体のゲノム DNA量 (シグナル強度比)または遺伝子コピー数をとり、横軸に染色体の位置 (Locus)に対 応するプローブを染色体の物理的順序で表すことが一般的であった。
[0083] 本発明では、染色体をその長さなどの染色体形状様に応じて第 1染色体から第 22 染色体、 X染色体及び Y染色体の全部又はその一部を画面等に表示して、染色体の 遺伝子コピー数が欠損して 、る領域を対応づけて欠損させ、また遺伝子コピー数の 異常増幅は、当該領域に対応づけて、その遺伝子コピー数に応じて増幅があること を示す表示方法が挙げられる(図 17)。また、遺伝子コピー数の数に応じて、染色体 の対応する領域の色彩を濃くするなどの変調をつけることも挙げられる。図 17に示さ れる長い染色体は、第 4番染色体を示し、短い染色体は、第 18番染色体を示す。
[0084] 7.染色体上のハプロタイプを表示する方法
上述したように、本発明により染色体上にあるハプロタイプをも検出することができる 。このハプロタイプの表示についても、遺伝子コピー数のグラフで示すことが挙げられ るが、また、染色体をその長さなどの染色体形状様に応じて第 1染色体力も第 23染色 体、 X染色体及び Υ染色体の全部又はその一部を画面等に表示して、染色体のハプ 口タイプごと領域を対応づけて当該領域ごとに異なる着色をすることにより、空間情報 として第三者に伝えるように表示する方法が挙げられる。
実験例 1
[0085] 以下、本発明を以下の実験例 1を用いてさらに具体的に説明する力 本発明の範 囲は下記の実験例に限定されることはない。
本実験例では、ダウン症候群の責任遺伝子である第 21番染色体を用いて実験した 。ダウン症候群の患者の第 21番染色体は、健常人の同染色体と比較して遺伝子コピ 一数が増加して 、ることが知られて!/、る。
[0086] ダウン症候群の患者の第 21番染色体と健常人の同染色体と比較した。図 13は、健 常人及びダウン症候群の患者のゲノムを上述した方法で、アレイ上にあるプローブご とのシグナル強度をそれぞれ求め、ダウン症候群の患者におけるシグナル強度を健 常人におけるシグナル強度で除した比率を算出したものである。図 12に示したグラフ では、染色体の特定の部位ごとに、染色体の遺伝子コピー数に依存するシグナル強 度比を表している力 シグナルノイズが多いため、必ずしもシグナル強度比が染色体 の遺伝子コピー数に依存して 、るデータではな 、ことが示される。
[0087] 一次データを本願発明に係る補正方法で処理すると、図 14に示すように、一次デ ータの有するデータの「ゆらぎ」や「バラツキ」が著しく減少することが示された。また、 補正前の一次データの表す平均値データと、本願補正方法で補正した二次データ の表す平均値データには、ほとんど差異がないことが示された(図 13と図 14)。第 21 番染色体及びその他の染色体における、一次データのシグナル強度比のメディアン 及び SDは、それぞれ 1.30 ±0.39及び 1.00 ±0.28であった。一方、本願補正方法によ る補正処理後の第 21番染色体及びその他の染色体における二次データは、それぞ れ 1.29 ±0.18及び 0.99 ±0.09であった。
[0088] 他の実験例では、同一の H1437細胞を用いて、別々に実験したデータ力 染色体 のゲノム DNA量比を測定する実験を行った。補正前の測定データ(図 18)と補正後 の測定データ(図 19)を示した。これらの図の縦軸はシグナル強度比を示し、 H1437 細胞の遺伝子増幅量 ZH1437細胞の遺伝子増幅量であり、横軸は、染色体位置に 対するプローブの一部を示す。
図 18と図 19は、中間値及びその SD値は、 1.00±0.08と 1.00±0.06となり、シグナル 強度の値は変えず、そのデータのバラツキのみを減少させることが示された。
実験例 2
[0089] 次に、本願での補正方法(GIM; Genome Imbalance Map)による結果と、従来から 利用されている BAC (Bacterial artificial chromosome)をスポットした CGH (Comparati ve genomic nyondization) 7 レイ (Genosensor array 300, Vysis)の結果を匕 |¾し 7こ。 実験例 2として以下に示す。 2つの方法で、高いコピーレンジ力 低いコピーレンジに かけて良好な相関関係が見られたが、相関関係のない部位も、一部の染色体の部 位で見られた(図 20)。この理由は、本願補正方法で用いる SNPタイピングアレイと比 較して、 BACプローブが約 200Kbと長いため、この距離のなかで、遺伝子コピー数が 異なっていても、遺伝子コピー数が平均化されてしまい、異なる遺伝子コピー数が算 出されたと考えられる。
[0090] また、男性と女性の染色体の遺伝子コピー数を比較する実験を行ったところ、 X染 色体における 1つの遺伝子コピー数の差異については、本願補正方法 (GIM)による データが BACをスポットした CGHアレイと比較してより明確に区別できることが示され た。
X染色体とそれ以外の常染色体でのシグナル強度比 (アジアン士 SD)を求めると、 GI M法では、 0.99 ±0.09/0.63 ±0.08であるのに対して、 BACアレイでの測定では、 1.00 ±0.09/0.71 ±0.14になる。 X染色体の遺伝子コピー数のアジアンは、 0.71で、常染 色体のものと、 0.29の差のみであり(GIM法の場合には、 0.36の差がある)、 SD値も 0.1 4と、 GIM法の 0.08に比して大きい。したがって、本願の GIM法は、 X染色体では、 BA Xでスポットした CGH法よりも、明確に遺伝子コピー数を区別することができる(図 21) 実験例 3
[0091] 実験例 3として、癌細胞における遺伝子コピー数の検出を挙げる。すなわち、本発 明の補正方法を癌細胞のゲノム DNA量及び遺伝子コピー数を求めることを適用した 。細胞は、 H1395肺がん細胞株と正常細胞力 得た染色体を用いて、全染色体遺伝 子のゲノム DNA量を測定した。
図 22は、第 8染色体及び第 9p染色体における癌細胞と正常細胞の染色体遺伝子 のシグナル強度比を示している。シグナル強度比は、癌患者の染色体の遺伝子増幅 量 Z健常人の染色体の遺伝子増幅量である。すなわちゲノム DNA量の比を表して ヽ る。
図中左側の矢印の 8q24は、 c-myc癌遺伝子の増幅が見とれられる部位を示し、同 右側の矢印は未知のゲノム増殖領域を示している。縦軸の右側の目盛りは、遺伝子 コピー数を算出した結果を示す。(図 16を参照)
[0092] 正常細胞と特定の癌細胞力 得た染色体のゲノム DNA量の比を求め、これを本発 明の補正方法で補正することにより、特定の染色体領域で遺伝子が欠損または異常 増幅している遺伝子コピー数を示すことができる。これにより、癌やその他の遺伝子 疾患の診断方法に応用できるほか、疾患細胞の遺伝子コピー数を特定することによ り、疾患関連遺伝子の同定をすることができる。また、アレル別に染色体のゲノム DN A量を求めることにより、染色体の遺伝子コピー数の異常力 父方また母方のいずれ かの由来である力も同定することができる(図 15、 16、 22)。

Claims

請求の範囲
[1] 遺伝子コピーの解析方法において、
染色体のゲノム DNA量(以下、ゲノム DNA量と呼ぶ。)、又は 2つの異なる若しくは同 一の細胞の染色体のゲノム DNA量の比(以下、ゲノム DNA量比と呼ぶ。)、のいずれ かの値 (以下、測定値と呼ぶ。)を補正する方法が、
所定のゲノム DNA量、又はゲノム DNA量比を測定する測定値測定工程に続 ヽて、 補正傾向値算出手段により、各補正パラメータ値に対するゲノム量、ゲノム量比の 測定値、又は該測定値に対して所定の演算処理を施した値を座標系〖こプロットし、 そのプロット値をスムージングすることにより、測定値に関する所定の補正パラメータ に係る補正傾向値を算出する補正傾向値算出工程と、
補正因子算出手段により、補正傾向値力 補正因子を算出する補正因子算出ェ 程と、
測定値補正演算手段により、測定値を当該補正因子で補正演算する測定値補正 演算工程と
を含むことを特徴とする遺伝子コピーの解析方法。
[2] 前記測定値が、ゲノム DNAに相補的な複数のプローブ (以下、プローブと呼ぶ)を 用いて測定されたゲノム DNA量、又はゲノム DNA量比であって、
補正因子算出工程において、補正傾向値力 各補正基準値における補正因子を 算出することを特徴とする請求項 1に記載の遺伝子コピーの解析方法。
[3] 前記遺伝子コピーの解析方法における前記補正傾向値算出工程において、
染色体の遺伝子を特定の制限酵素で切断した各々の遺伝子断片の長さに対する 測定値、又は該測定値に対して所定の演算処理を施した値を座標系にプロットして、 そのプロット値をスムージングすることによって、遺伝子断片の長さに係る補正傾向値 を算出する
ことを特徴とする請求項 1又は 2のいずれかに記載の遺伝子コピーの解析方法。
[4] 前記遺伝子コピーの解析方法における前記補正傾向値算出工程において、
染色体の遺伝子を特定の制限酵素で切断した各々の遺伝子断片に含まれる G及 び C塩基の比率に対する測定値、又は該測定値に対して所定の演算処理を施した 値を座標系にプロットして、そのプロット値をスムージングすることによって、 GC塩基 含有率に係る補正傾向値を算出する
ことを特徴とする請求項 1な 、し 3の 、ずれかに記載の遺伝子コピーの解析方法。
[5] 前記遺伝子コピーの解析方法における前記補正傾向値算出工程において、 染色体の遺伝子を特定の制限酵素で切断した各々の遺伝断片に対して、連続す る 20塩基乃至 220塩基の範囲力 選ばれる特定の長さを有する固定枠を前記遺伝子 の端から 1塩基ごとに移動させながら得られる、当該固定枠に対応する遺伝子断片 に含まれる G及び C塩基の比率の最大値に対する測定値、又は該測定値に対して所 定の演算処理を施した値を座標系にプロットして、そのプロット値をスムージングする ことによって、当該固定枠の GC塩基含有率に係る補正傾向値を算出する
ことを特徴とする請求項 1な 、し 4 、ずれかに記載の遺伝子コピーの解析方法。
[6] 前記遺伝子コピーの解析方法における前記補正傾向値算出工程において、 ゲノム DNAに相補的なプローブの塩基配列の有する G及び C塩基の比率もしくはハ イブリダィゼーシヨン'フリーエネルギーに対する測定値、又は該測定値に対して所 定の演算処理を施した値を座標系にプロットして、そのプロット値をスムージングする こと〖こよって、ハイブリダィゼーシヨンに係る補正傾向値を算出することを特徴とする 請求項 1な!、し 5の 、ずれかに記載の遺伝子コピーの解析方法。
[7] 前記遺伝子コピーの解析方法における前記補正傾向値算出工程において、 プローブのゲノム上の位置の広い領域、好ましくは周辺 2000塩基から 1000000塩基 の領域の塩基配列の有する G及び C塩基の比率に対する測定値、又は該測定値に 対して所定の演算処理を施した値を座標系にプロットして、そのプロット値をスムージ ングすることによって、ハイブリダィゼーシヨンに係る補正傾向値を算出することを特 徴とする請求項 1ないし 6のいずれかに記載の遺伝子コピーの解析方法。
[8] 前記遺伝子コピーの解析方法において、
前記補正傾向値算出工程において、
各々の染色体の特定部位を検出するプローブセット中のゲノム DNAに完全に相補 的なプローブセットのシグナル強度の中間値に対する測定値、又は該測定値に対し て所定の演算処理を施した値を座標系にプロットして、そのプロット値をスムージング することによって、対照サンプルのシグナル強度に係る補正傾向値を算出することを 特徴とする請求項 1な!、し 7の 、ずれかに記載の遺伝子コピーの解析方法。
[9] 前記遺伝子コピーの解析方法において、
前記補正傾向値算出工程が、少なくとも最小二乗平均法を用いて各プロットの平 均曲線を求め、当該平均曲線について、多項式を用いて近似することにより、各補正 傾向値を算出する工程を含むことを特徴とする請求項 1ないし 8のいずれかに記載の 遺伝子コピーの解析方法。
[10] 前記遺伝子コピーの解析方法における前記補正因子算出工程が、
前記各補正傾向値から対応する各プローブにおける補正因子を算出する方法が、 下 3式、
(式)補正因子 = A+∑ (B X +C X 2+D X 3· · ·)
k k k k k k
あるいは
(式)補正因子 = exp(A+∑ (B X +C X 2+D X 3· · -))
k k k k k k
(上記多項式において 1次項以上の任意の項数が利用できる。式中の A〜D ' ·は平 均曲線の係数、 Xは k= l〜6がそれぞれ請求項 3ないし 8に係る補正パラメータ値)
k
に基づいて算出される工程を含むことを特徴とする請求項 9に記載の遺伝子コピー の解析方法。
[11] 前記遺伝子コピーの解析方法における測定値測定工程において、
プローブが SNPsを識別することができるゲノムタイピングマイクロアレイであり、染色 体アレルごとに染色体のゲノム DNA量を測定することを特徴とする請求項 1ないし 10 の!、ずれかに記載の遺伝子コピーの解析方法。
[12] 遺伝子コピーの解析方法において、
染色体の遺伝子コピー数を同定する方法力 請求項 1ないし 10に係る測定値の補 正演算結果値を用い、
プロット手段により、物理的な順で並べた染色体の位置に対する補正演算結果値 を座標系にプロットした場合に階段状に示されるデータを、抽出手段が抽出するェ 程、
遺伝子コピー数同定手段が、該補正演算結果値が同一階位に属する 2以上の連 続する染色体の位置における当該補正演算結果値の平均値が最低である領域を遺 伝子コピー数 0の領域とする工程、遺伝子コピー数同定手段が、前記平均値の次に 低い領域を遺伝子コピー数 1の領域とする工程を含み、染色体の遺伝子コピー数を 同定することを特徴とする遺伝子コピーの解析方法。
[13] 前記遺伝子コピーの解析方法における染色体の遺伝子コピー数を同定した結果を 表示する方法が、
画像処理手段により、第 1染色体から第 22染色体、 X染色体及び Y染色体の全部 又はその一部について染色体形状様の再現画像を画像表示手段に表示すると共に 該再現画像上に、染色体の遺伝子コピー数が増減して!/、る領域を対応づけて視覚 的に遺伝子コピー数が当該領域で増減していることを表示することを特徴とする請求 項 11に記載の遺伝子コピーの解析方法。
[14] 前記遺伝子コピーの解析方法において、
ハプロタイプを同定する方法力 S、請求項丄ないし: L4に係る測定値の補正演算結果 値を用い、
プロット手段により、物理的な順で並べた染色体の位置に対する補正演算結果値 を座標系にプロットした場合に階段状に示されるデータを、抽出手段が抽出するェ 程、
ハプロタイプ同定手段が、該補正演算結果値が同一階位に属する 2以上の連続す る複数の染色体の位置をノヽプロタイプと同定する工程を含みハプロタイプを同定す る
ことを特徴とする遺伝子コピーの解析方法。
[15] 前記遺伝子コピーの解析方法におけるハプロタイプを同定した結果を表示する方 法が、
画像処理手段により、第 1染色体から第 22染色体、 X染色体及び Y染色体の全部 又はその一部について染色体形状様の再現画像を画像表示手段に表示すると共に 該再現画像上に、特定のハプロタイプが存する領域を対応づけて視覚的に当該特 定ハプロタイプが当該領域に存することを表示することを特徴とする請求項 13に記 載の遺伝子コピーの解析方法。
[16] 前記遺伝子コピーの解析方法において、
前記測定値が、遺伝子を増幅することにより測定されたゲノム DNA量であって、 補正因子算出工程において、複数のノ メータに係る補正傾向値がある場合には これらを合算して補正因子を算出する請求項 1、 3、 4、 5、 6又は 9のいずれかに記載 の遺伝子コピーの解析方法。
[17] 染色体のゲノム DNA量、又は 2つの異なる若しくは同一の細胞の染色体のゲノム D
NA量の比のいずれかの値 (以下、測定値と呼ぶ。)を測定した結果を入力する入力 手段と、
該測定値、又は該測定値に対して所定の演算処理を施した値を座標系にプロット し、そのプロット値をスムージングすることにより、所定のパラメータに係る補正傾向値 を算出する補正傾向値算出手段と、
補正傾向値から補正因子を算出する補正因子算出手段と、
測定値を当該補正因子で補正演算する測定値補正演算手段と
を備えることにより、測定値を補正することを特徴とする遺伝子コピーの解析装置。
PCT/JP2005/016451 2004-09-07 2005-09-07 遺伝子コピーの解析方法及び装置 WO2006028152A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004260328A JP2007327743A (ja) 2004-09-07 2004-09-07 遺伝子コピーの解析方法及び装置
JP2004-260328 2004-09-07

Publications (1)

Publication Number Publication Date
WO2006028152A1 true WO2006028152A1 (ja) 2006-03-16

Family

ID=36036434

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/016451 WO2006028152A1 (ja) 2004-09-07 2005-09-07 遺伝子コピーの解析方法及び装置

Country Status (2)

Country Link
JP (1) JP2007327743A (ja)
WO (1) WO2006028152A1 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110177517A1 (en) * 2010-01-19 2011-07-21 Artemis Health, Inc. Partition defined detection methods
US9260745B2 (en) 2010-01-19 2016-02-16 Verinata Health, Inc. Detecting and classifying copy number variation
US9323888B2 (en) 2010-01-19 2016-04-26 Verinata Health, Inc. Detecting and classifying copy number variation
US9411937B2 (en) 2011-04-15 2016-08-09 Verinata Health, Inc. Detecting and classifying copy number variation
US9447453B2 (en) 2011-04-12 2016-09-20 Verinata Health, Inc. Resolving genome fractions using polymorphism counts
US9493828B2 (en) 2010-01-19 2016-11-15 Verinata Health, Inc. Methods for determining fraction of fetal nucleic acids in maternal samples
US9657342B2 (en) 2010-01-19 2017-05-23 Verinata Health, Inc. Sequencing methods for prenatal diagnoses
US10388403B2 (en) 2010-01-19 2019-08-20 Verinata Health, Inc. Analyzing copy number variation in the detection of cancer
US10662474B2 (en) 2010-01-19 2020-05-26 Verinata Health, Inc. Identification of polymorphic sequences in mixtures of genomic DNA by whole genome sequencing
US11332774B2 (en) 2010-10-26 2022-05-17 Verinata Health, Inc. Method for determining copy number variations

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6365353B1 (en) * 1997-09-30 2002-04-02 Metasystems Hard And Software Gmbh Method for comparing the number of replications of nucleic acid sequences
WO2003062450A2 (en) * 2002-01-18 2003-07-31 Syngenta Participations Ag Probe correction for gene expression level detection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6365353B1 (en) * 1997-09-30 2002-04-02 Metasystems Hard And Software Gmbh Method for comparing the number of replications of nucleic acid sequences
WO2003062450A2 (en) * 2002-01-18 2003-07-31 Syngenta Participations Ag Probe correction for gene expression level detection

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JONG K. ET AL: "Chromosomal breakpoint detection in human cancer", PPLICATIONS OF EVOLUTIONARY COMPUTING., LECTURE NOTES IN COMP UTER SCIENCE , SPRINGER-VERLAG GMBH, vol. 2611, 2003, pages 54 - 65, XP002998171 *
KERR M.K. ET AL: "Analysis of variance for gene expression microarray data", J. COMPUT. BIOL., vol. 7, no. 6, 2000, pages 819 - 837, XP009018567 *
NISHIMURA K. ET AL: "Genomic Copy Su Ijo Kenshutsu no tameno Kashika. (Visualization for Detection of Genomic Imbalance)", THE VIRTUAL REALITY SOCIETY OF JAPAN DAI 9 KAI TAIKAI RONBUNSHU, vol. 8, September 2004 (2004-09-01), pages 393 - 396, XP002998172 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10415089B2 (en) 2010-01-19 2019-09-17 Verinata Health, Inc. Detecting and classifying copy number variation
US11875899B2 (en) 2010-01-19 2024-01-16 Verinata Health, Inc. Analyzing copy number variation in the detection of cancer
EP2526415A1 (en) * 2010-01-19 2012-11-28 Verinata Health, Inc Partition defined detection methods
EP2526415A4 (en) * 2010-01-19 2013-07-03 Verinata Health Inc BY PARTITIONS DEFINED DETECTION PROCEDURES
AU2011207561B2 (en) * 2010-01-19 2014-02-20 Verinata Health, Inc. Partition defined detection methods
US8700341B2 (en) * 2010-01-19 2014-04-15 Verinata Health, Inc. Partition defined detection methods
US9115401B2 (en) 2010-01-19 2015-08-25 Verinata Health, Inc. Partition defined detection methods
US9260745B2 (en) 2010-01-19 2016-02-16 Verinata Health, Inc. Detecting and classifying copy number variation
US9323888B2 (en) 2010-01-19 2016-04-26 Verinata Health, Inc. Detecting and classifying copy number variation
US9657342B2 (en) 2010-01-19 2017-05-23 Verinata Health, Inc. Sequencing methods for prenatal diagnoses
US11884975B2 (en) 2010-01-19 2024-01-30 Verinata Health, Inc. Sequencing methods and compositions for prenatal diagnoses
US9493828B2 (en) 2010-01-19 2016-11-15 Verinata Health, Inc. Methods for determining fraction of fetal nucleic acids in maternal samples
US11952623B2 (en) 2010-01-19 2024-04-09 Verinata Health, Inc. Simultaneous determination of aneuploidy and fetal fraction
WO2011091063A1 (en) 2010-01-19 2011-07-28 Verinata Health, Inc. Partition defined detection methods
US10388403B2 (en) 2010-01-19 2019-08-20 Verinata Health, Inc. Analyzing copy number variation in the detection of cancer
US10482993B2 (en) 2010-01-19 2019-11-19 Verinata Health, Inc. Analyzing copy number variation in the detection of cancer
US10586610B2 (en) 2010-01-19 2020-03-10 Verinata Health, Inc. Detecting and classifying copy number variation
US10612096B2 (en) 2010-01-19 2020-04-07 Verinata Health, Inc. Methods for determining fraction of fetal nucleic acids in maternal samples
US20110177517A1 (en) * 2010-01-19 2011-07-21 Artemis Health, Inc. Partition defined detection methods
US10662474B2 (en) 2010-01-19 2020-05-26 Verinata Health, Inc. Identification of polymorphic sequences in mixtures of genomic DNA by whole genome sequencing
US10941442B2 (en) 2010-01-19 2021-03-09 Verinata Health, Inc. Sequencing methods and compositions for prenatal diagnoses
US11130995B2 (en) 2010-01-19 2021-09-28 Verinata Health, Inc. Simultaneous determination of aneuploidy and fetal fraction
US11286520B2 (en) 2010-01-19 2022-03-29 Verinata Health, Inc. Method for determining copy number variations
US11697846B2 (en) 2010-01-19 2023-07-11 Verinata Health, Inc. Detecting and classifying copy number variation
US11332774B2 (en) 2010-10-26 2022-05-17 Verinata Health, Inc. Method for determining copy number variations
US10658070B2 (en) 2011-04-12 2020-05-19 Verinata Health, Inc. Resolving genome fractions using polymorphism counts
US9447453B2 (en) 2011-04-12 2016-09-20 Verinata Health, Inc. Resolving genome fractions using polymorphism counts
US9411937B2 (en) 2011-04-15 2016-08-09 Verinata Health, Inc. Detecting and classifying copy number variation

Also Published As

Publication number Publication date
JP2007327743A (ja) 2007-12-20

Similar Documents

Publication Publication Date Title
JP7197209B2 (ja) Dnaのサイズに基づく解析
WO2006028152A1 (ja) 遺伝子コピーの解析方法及び装置
Hicks et al. Novel patterns of genome rearrangement and their association with survival in breast cancer
KR102040307B1 (ko) 암과 연관된 유전적 또는 분자적 이상들의 검출
Luo et al. An Ashkenazi Jewish SMN1 haplotype specific to duplication alleles improves pan-ethnic carrier screening for spinal muscular atrophy
Bemmo et al. Gene expression and isoform variation analysis using Affymetrix Exon Arrays
US20150004601A1 (en) Massively parallel sequencing of random dna fragments for determination of fetal fraction
JP2006519977A (ja) Dnaコピー数変化を同定するための方法
WO2018186687A1 (ko) 생물학적 시료의 핵산 품질을 결정하는 방법
WO2014177601A2 (en) Method for analysing a pyro-sequencing signal

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase
NENP Non-entry into the national phase

Ref country code: JP