WO2002001477A1 - Procede de traitement de donnees d'expression genique et programmes de traitement - Google Patents

Procede de traitement de donnees d'expression genique et programmes de traitement Download PDF

Info

Publication number
WO2002001477A1
WO2002001477A1 PCT/JP2001/004697 JP0104697W WO0201477A1 WO 2002001477 A1 WO2002001477 A1 WO 2002001477A1 JP 0104697 W JP0104697 W JP 0104697W WO 0201477 A1 WO0201477 A1 WO 0201477A1
Authority
WO
WIPO (PCT)
Prior art keywords
value
data
background
data processing
spots
Prior art date
Application number
PCT/JP2001/004697
Other languages
English (en)
French (fr)
Inventor
Tomokazu Konishi
Original Assignee
Center For Advanced Science And Technology Incubation, Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Center For Advanced Science And Technology Incubation, Ltd. filed Critical Center For Advanced Science And Technology Incubation, Ltd.
Priority to EP01934523A priority Critical patent/EP1313055A4/en
Priority to JP2002506537A priority patent/JPWO2002001477A1/ja
Priority to AU2001260704A priority patent/AU2001260704A1/en
Publication of WO2002001477A1 publication Critical patent/WO2002001477A1/ja

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Definitions

  • the present invention relates to a method and program for processing gene expression data.
  • the present invention relates to a method for statistically analyzing gene expression data obtained from a DNA chip in which a large number of genes are fixed as spots.
  • a DNA chip is one in which a plurality of genes are immobilized as different spots on a substrate such as slide glass. For example, thousands to tens of thousands of genes are fixed on a microarray as evening gates. A single-stranded DNA or mRNA is used as a target.
  • Various substrates that can hold nucleic acids such as glass plates with various coatings, membranes made of nylon or nitrocellular mouths, hollow fibers, semiconductor materials, metal materials, and organic substances, are used as DNA chip substrates. it can.
  • a product obtained by copying all or a part of cDNA a product obtained by replicating a part of genomic DNA, synthetic DNA and / or synthetic RNA can be used as a target.
  • Oligo DNA is synthesized on a glass plate by photolithography in order to fix the evening gate on the substrate, and the method of attaching the evening gate to the substrate using a spotter or the like. are known.
  • Such a DNA chip is hybridized with, for example, fluorescently labeled DNA or RNA (to be analyzed).
  • the analyte complementary to the target forms a duplex. Since the analysis target is labeled with a fluorescent label, it is possible to obtain an image of the image obtained by operating the DNA chip with a fluorescent scanner after hybridization. Based on the image data thus obtained, it is possible to know whether or not a double strand is formed in any of the sports described in any one of the above. More specifically, in the obtained image, spots derived from each DNA are displayed as a result of hybridization. Therefore, the signal strength of a predetermined area including the position of the spot is By integrating the degrees, an array consisting of values indicating the signal intensity of each spot can be obtained.
  • an array data showing a large number of gene expressions can be obtained in a single experimental operation.
  • the average of data (values indicating signal intensities) indicating a large number of gene expressions is calculated as a target, and the data is calculated based on this. It is common to standardize evenings. More specifically, the data is normalized before comparing the expression data for each experiment. For example, Johhanes Schuchhardt et al., "Normalization strategies for cDNA microarrays (Nucic Acids Research (2000) Vol.28 No.10)" discloses an example of such standardization.
  • the obtained probability distribution over time is non-parametric.
  • standardize the data obtained for example, as disclosed in Todd Richmond et al., ⁇ Chasing the dream: plant EST microarrays (Current Opinion in Plant Biology (2000) Vol. 3 ppl08 -116). ''
  • methods such as Z-standard or t-standard, or the method of dividing the integrated value of the signal intensity of each spot by the arithmetic average of the entire numerical value are used.
  • an array image based on an image acquired by a fluorescence scanner always includes a background component. This is due to the fact that the background signal intensity and the actual spot size and shape do not always match the entire image range. Therefore, it is important for accurate analysis to subtract the background component from the numerical value of the acquired image data and obtain a data consisting of true signal values. The same applies to other methods, for example, array data acquired by detecting electrical signals and detecting radiation.
  • the background component is estimated by calculating the average value or median value per pixel based on the numerical value representing the signal intensity of the part where a specific spot is not spotted, and multiplying this value by the number of pixels in the measurement area.
  • I was Alternatively, as proposed by Michael Eisen in the r ScanAlyze User Manual (http: // rana. Techniques for estimating components are also known.
  • the estimated value of the background changes due to a difference in a region in the spot image used for calculating the background value. That is, there is a possibility that various background values may be estimated from the above difference, and it is not possible to determine which is appropriate. In particular, the difference in the background value between the region where the DNA was spotted and the region where the DNA was not spotted was sometimes large.
  • the present invention makes it possible to compare the gene expression data obtained from a DNA chip with data from other DNA chips, and to perform appropriate statistical analysis.
  • the aim is to provide a method. Disclosure of the invention
  • the logarithmic value of the data obtained from the DNA chip (the data indicating the amount of luminescence due to gene expression) is normally distributed. Therefore, by taking the logarithmic value of each value, the value indicating the signal intensity of each spot is logarithmically converted and standardized (for example, z-standardized) to obtain the results of different experiments and the same type of experiment. The results can be accurately compared. In addition, since the logarithmic value and the standardized value are stored, or these values are used in the comparison operation, the amount of data can be significantly reduced.
  • an object of the present invention is to analyze an array data composed of values indicating signal intensity of each spot arranged on a DNA chip by hybridization of the DNA chip.
  • a data processing method for acquiring data comprising: a step of acquiring the array data; a step of logarithmically converting a value indicating a signal intensity of each spot constituting the array data; and a logarithmically converted value. And a step of generating a conversion data arranged so as to correspond to the spot of the DNA chip.
  • the group of logarithmically transformed values has a normal distribution, and is therefore suitable for comparing experimental results using a DNA chip and analyzing the experimental results.
  • the method further comprises a step of scanning the logarithmically converted value to specify a median value thereof, and a step of subtracting the median value from each value, wherein the value obtained by subtracting the median value is provided. Is generated.
  • the method further comprises the step of z-normalizing the logarithmically converted value to calculate a standardized value, wherein conversion data consisting of the standardized value is generated.
  • the converted data obtained in this manner is subtracted from the data subjected to the same processing as a comparison target, and the comparison result for each spot can be represented by a difference.
  • the present invention based on the finding that data obtained from a DNA chip has a lognormal distribution, it has become possible to obtain a more appropriate background value in the present invention. .
  • the background value changed due to the difference between the spot used for calculating the value and the area in the image, and it was not possible to determine which value was appropriate.
  • the present inventor has found that a correction value that makes a lognormal distribution is appropriate based on the finding that the value indicating the signal intensity of the spot of the DNA chip has a lognormal distribution.
  • the normal probability graph based on the cumulative frequency ratio of the subtraction value obtained by subtracting each value indicating the signal intensity by the background value has a predetermined linearity.
  • the method includes a step of calculating a background value, and a value obtained by subtracting each value indicating the signal intensity by the background value is used as a logarithmic conversion target. Note that this background value can be either positive or negative. It is also conceivable that this value becomes 0.
  • the step of calculating the background value includes a step of specifying a minimum value of a value indicating a signal intensity; a step of setting a predetermined range including the minimum value; , Divide by a predetermined number, upper limit, lower limit Calculating a value and a predetermined number of intermediate values obtained by the division as background value candidates; subtracting a background candidate value from each of the values indicating the signal intensity for each background value candidate, and subtracting Calculating a value and calculating a normal probability graph based on the subtraction value; and a step of specifying a background candidate used for the normal probability graph having the best linearity.
  • the range of the upper limit value and the lower limit value is changed until the linearity of the identified background candidate is sufficient, and the calculation of the background value candidate, the calculation of the normal probability graph, and the It is desirable to repeat the identification.
  • the step showing the predetermined linearity can be realized by executing a chi-square test.
  • the step of calculating the background value includes the step of referring to a value indicating the signal intensity, and specifying a value at two or more predetermined percentiles. Estimating a background value based on the two or more specified values.
  • the range of the value indicating the signal intensity to be used is desirably an effective measurement range, that is, a range in which signal-response linearity is satisfied.
  • the step of calculating the background value includes a step of obtaining a first quartile LQ, a third quartile UQ, and a median M from the value indicating the signal intensity;
  • the spots are classified into a plurality of groups according to the arrangement of the spots of the DNA chip, and for each of the groups, a logarithmic conversion value relating to the spots constituting the group is used. Determining a median value; and subtracting the median value from each of the logarithmic transformed values.
  • a step of classifying the spots into a plurality of groups according to a sequence of the spots of the DNA chip, and for each of the groups, a median value from a value indicating a signal intensity of a spot constituting the group is determined.
  • the method may include a step of specifying and a step of dividing each of the values indicating the signal intensity by the median.
  • the classifying step is a step of obtaining, for each of one or more columns or one or more rows in the DNA chip, a logarithmic value of a spot included in the column or the row. May be provided.
  • a method of comparing the values indicating the signal intensities of a plurality of spots using the above-described data processing method comprises: converting a value of the conversion data of one spot into a value of the conversion data of the other spot. A step of dividing by the value of the day.
  • a method for comparing values indicating signal intensities of a plurality of spots using the above-described data processing method is a method of comparing a difference value between one standardized value and another standardized value. Is calculated.
  • the method further includes a step of calculating a power of a predetermined number of the difference value.
  • Another object of the present invention is to process array data composed of values indicating signal intensities of spots arranged on a DNA chip by hybridization of the DNA chip, and to analyze the data.
  • the base material of the above DNA chip is a plate made of glass or the like with various coatings, a membrane made of nylon or nitrocellulose, etc., hollow fibers, semiconductors, metals, organic substances, etc. Anything that can be held is available.
  • all or part of cDNA Nome DNA replication, synthetic DNA, synthetic RNA, etc. are arranged on the DNA chip.
  • a method of preparing nucleic acids and then arranging them on a substrate by adsorption, electrostatic bonding, or covalent bonding, or a method of synthesizing nucleic acids on a substrate In order to prepare a chip, there is a method of preparing nucleic acids and then arranging them on a substrate by adsorption, electrostatic bonding, or covalent bonding, or a method of synthesizing nucleic acids on a substrate. .
  • the detection of a signal indicating the signal intensity includes an electric method using a semiconductor chip, a method of detecting fluorescence and radioactivity, and the like.
  • the present invention can be applied to array data from a DNA chip in which any target is formed on any of the above substrates. Further, the present invention can be applied to array data obtained by using any of the methods.
  • a DNA chip refers to any RNA chip on which RNA is formed on a substrate, a microarray, a macroarray, a dot plot, a reverse ⁇ Northern, etc. Including things.
  • FIG. 1 is a hardware configuration diagram of an analyzer according to the first embodiment of the present invention.
  • FIG. 2 is a block diagram showing a main part of the analyzer according to the present embodiment.
  • FIG. 3 is a flowchart illustrating a process executed by the background calculation unit of the analyzer according to the present embodiment.
  • FIG. 4 is a flowchart showing a process executed by the background calculation unit of the analyzer according to the present embodiment.
  • FIG. 5A is a diagram illustrating logarithmic conversion
  • FIG. 5B is a flowchart illustrating processing executed by a conversion processing unit and a standardization processing unit.
  • FIG. 6 is a one-time histogram obtained by the method according to the present embodiment.
  • FIG. 7 is a histogram of data obtained by a conventional method for comparison.
  • FIG. 8 is a graph showing the normalized values obtained for each set obtained by performing the processing according to the present embodiment on a set of array data obtained from experiments in different temperature environments.
  • FIG. 9 is a graph showing the result of normalization based on the frequency distribution shown in FIG. 7 for comparison.
  • FIGS. 1OA to 10D are graphs created based on values corrected according to the correction method according to the present embodiment, respectively.
  • 11A to 11D are graphs created based on values corrected according to the conventional correction method.
  • FIGS. 12A and 12B are block diagrams each showing a main part of the analyzer according to the second and third embodiments.
  • FIG. 13 is a flowchart illustrating a process performed by the bias correction calculation unit according to the second embodiment.
  • FIG. 14 is a flowchart illustrating a process performed by the bias correction calculation unit according to the third embodiment.
  • FIG. 15A and FIG. 15B are scatter plots comparing data with bias correction according to the present embodiment and data without bias correction, respectively.
  • FIG. 1 is a hardware configuration diagram of the analysis device according to the first embodiment of the present invention.
  • the analyzer 10 includes a CPU 12, an input device 14 such as a mouse and a keyboard, a display device 16 including a CRT, a RAM (Random Access Memory) 18, and an R0M (Read Only Memory) 20, a portable storage medium driver 22 for accessing a portable storage medium 23 such as a CD-ROM or a DVD-ROM, a hard disk drive 24, and an interface for controlling data exchange with the outside ( (I / F) 26.
  • a personal convenience device or the like can be used as the analysis device 10 according to the present embodiment.
  • the I / F 26 is connected to a reader or scanner (not shown) or a communication circuit that measures the amount of light emitted from the spot of the hybridized DNA chip and generates data based on the measured amount of emitted light.
  • the communication circuit further includes an external network For example, it is connected to the Internet.
  • the portable storage medium 23 receives a data from a reader or a scanner, and executes a necessary data conversion process (described later) on the data, and a data on which the process is performed.
  • a program for analyzing the night is stored. Therefore, the portable storage medium driver 22 reads the program from the portable storage medium 23, stores the program in the hard disk drive 24, and starts the program, whereby the personal computer 1 It is possible to operate as 0.
  • the above program may be downloaded via an external network such as an Internet network.
  • FIG. 2 is a block diagram showing a main part of the analyzer 10 according to the present embodiment.
  • FIG. 2 shows the components showing the necessary data conversion process for the data conversion. More specifically, the analysis device 10 calculates the background based on the data (base data) temporarily stored in the data buffer 30 and the data buffer 30.
  • the function of the data buffer 30 is realized by the RAM 18 and, in some cases, the hard disk drive 24.
  • the data buffer transmitted from the reader or scanner and indicates the light emission amount of each spot, or was transmitted from the reader or scanner and stored in a predetermined area of the hard disk drive 24 in advance. Then, data indicating the light emission amount of each spot is temporarily stored.
  • the data buffer can also temporarily store the data standardized by the standardization processing unit 38.
  • the DNA chip is photographed with a CCD camera or the like, and the signal intensity of each spot is integrated and output as an array data.
  • a background value is calculated as a pre-process based on the image data of the image taken by the CCD camera in the reader or the scanner, and the background value is subtracted from the signal intensity of each pixel, and the pre-process is performed. Background
  • the signal intensity for each spot is integrated from the corrected image data and output as an overnight video.
  • either unprocessed array data or pre-processed (background correction) processed data can be used.
  • data obtained by accumulating signals for each spot transmitted from a reader or a scanner is referred to as array data or data serving as a basis for performing background processing according to the present embodiment. It is called basic data in the sense of overnight.
  • the background calculation unit 32 first scans the integrated value (spot integrated value) of the signal intensity for each spot included in the array data stored in the data buffer and obtains the minimum value. Yes (Step 301). Next, the background calculation unit 32 determines whether or not the acquired minimum value is zero (0) (step 302). If the minimum value is zero (Yes in step 302) )), The candidate value “A” is set to “100”, and the candidate value “B” is set to “100” (step 303).
  • the spot integrated value is “0”, it means that there is no light emission amount (the image is displayed in black).
  • an integrated value of the spot's signal intensity of “0” means that the measurement is incomplete, or that the background value has already been subtracted by another method. In such a case, a predetermined negative value is set as a candidate value “A”, and a predetermined positive value is set as a candidate value “B”, which is a starting point for finding an appropriate background value.
  • the background ground calculation unit 32 sets the candidate value “Aj” to half of the minimum value (1 no 2 ⁇ (minimum value) ),
  • the candidate value “B” is set to twice the minimum value (2 ⁇ (minimum value)) (step 304). Note that the candidate value “A” means an upper limit used in processing to specify a background value, and the candidate value “B” means a lower limit.
  • the background calculating unit 32 divides the candidate value “A” and the candidate value “B” into nine equal parts, and obtains eight more candidate values (step 300). For example, If the small value is “20”, the candidate value “A” is “10”, and the candidate value “B” is “40”, the following values are the candidate values.
  • each candidate value is subtracted from the spot integrated value.
  • ten sets of spot integrated value groups associated with the candidate values can be obtained. This group of spot integrated values is referred to as a correction data overnight candidate.
  • the background calculation unit 32 obtains the logarithmic value of the integrated value of the spots constituting each candidate for the corrected data, and obtains the cumulative frequency ratio (step 307). By plotting this cumulative frequency ratio, ten normal probability graphs are created (step 308). The background calculation unit 32 tests the linearity of each of the normal probability graphs using the least squares method or the like (step 309). Of the 10 normal probability graphs, the candidate value used for the one with the best linearity is identified (step 401). If this is candidate value “A” (Yes in step 402), the background calculation unit 32 newly adds 1/3 (1/3) (candidate value “A”) of the candidate value “A”.
  • the new candidate value "A” is set, and one third (1/3 '(candidate value "B") of the candidate value "B” is set as a new candidate value "B" (step 403).
  • the range for finding candidate values is shifted down (smaller).
  • the background calculation unit 32 sets the candidate value "A” by three times (3-(candidate value “A") as the new candidate value "A”, and Set the value obtained by multiplying “B” by three (3. (candidate value “B”) as the new candidate value “B” (step 4 0 5). This means that the range for finding candidate values is It means that it has shifted.
  • step 406 it is determined whether or not the obtained normal probability graph has a satisfactory linearity.
  • “satisfactory linearity” for example, two tests with a significance level of 5% are performed.
  • the present invention is not limited to this, and other methods may be used, and the operator may determine that the linearity is satisfactory by his / her own judgment.
  • the candidate value “Aj is adjacent to the specified candidate value among the candidate values smaller than the candidate value specified in Step 410.
  • the candidate value “B” is set to a candidate value that is larger than the candidate value specified in step 401 and is adjacent to the specified candidate value (step 407). It is set (step 408).
  • candidate values listed above “C ⁇ candidate values in the” C 8 ", although candidate value in step 4 0 1" C. 3 "is identified, the candidate value, and the current from the spot integrated value group It is considered that satisfactory linearity was not obtained for the normal probability graph using the values.
  • the candidate value “C 2 ” becomes the new candidate value “A”
  • the candidate value “C 5 j becomes the new candidate value“ B j.
  • steps 407 and 408 In order to find more appropriate candidate values, the range for finding candidate values has been narrowed.
  • step 405 When a new candidate value “A” and a new candidate value “B” are obtained in step 400, step 405, or steps 407 and 408, the processing from step 305 onward is performed. Is repeated. On the other hand, if the normal probability graph has a satisfactory linearity (Yes in step 406), the normal probability graph is obtained. Value used to determine the background value is determined (Step 409) o
  • the correction operation unit 34 calculates a value obtained by subtracting the background value acquired in step 409 from each signal accumulated value constituting the array data.
  • Step 306 executed immediately before the final background value is obtained, one of the 10 sets of correction data candidates is obtained from each signal accumulated value. The background value is subtracted. Therefore, if such correction data candidates are stored in the data buffer 30, the correction calculation section 34 performs appropriate correction data from the data buffer 30 without performing a new calculation. Evening candidates may be read.
  • FIG. 5A is a diagram schematically illustrating the processing executed by the conversion processing unit 36.
  • the corrected signal accumulated value " ⁇ " is sequentially extracted from the tabular data area 30-1 consisting of the corrected signal accumulated value from which the background value has been subtracted, and the logarithmic conversion is performed. Then, the value subjected to logarithmic conversion (logarithmically converted value) rinauj is placed at the corresponding position in the tabular data area 30-2 after conversion.
  • step 310 and step 307 in FIG. 3 the corrected data overnight candidate and the logarithmically converted value of the corrected signal accumulated value forming the corrected data overnight candidate are calculated. Therefore, if the logarithmic conversion value related to the selected background value is stored in the data buffer 30, the conversion processing unit 36 does not need to perform logarithmic conversion on the corrected signal accumulated value. It is enough to read the data in the data buffer. When the logarithmic conversion value group is obtained in this manner, the processing shown in FIG. 5B is executed by the conversion processing unit 36 and the standardization processing unit 38.
  • the conversion processing unit 36 sets the number of classes and the width of the classes (Step 501), and generates a frequency distribution table (Step 502).
  • a graph based on the frequency distribution table is generated and displayed on the screen of the display device 16. (Step 503) o
  • This step 503 and step 505 described later are provided to verify the correctness of the method according to the present embodiment.
  • FIG. 6 is an example of an image obtained in this manner.
  • the horizontal axis represents the logarithmic conversion of the corrected signal accumulated value (logarithmically converted value), and the vertical axis represents the frequency.
  • the example shown in Figure 6 uses a microarray (cDNA chip) that is randomly selected from a rice cDNA library to avoid duplication and spotted on a 32 x 10 matrix per bin. The total number of effective spots in this microarray was 1157.
  • cy5-labeled cDNA was synthesized using p01y (A) RNA derived from rice sheath leaves in a mirror form.
  • the results of the hybridization were obtained as images using ArrayScanner V4.4 (manufactured by Molecular Dynamics), and these were obtained as Array Images (Molecular Dynamics). Digitized using a program.
  • FIG. 6 the classes including the arithmetic mean are shown by black-painted graphs.
  • Figure 7 shows a histogram based on the same array data for comparison. From FIGS. 6 and 7, it can be understood that the logarithm transformed value obtained from the array data is a parametric while the array data itself is non-parametric.
  • the standardization processing unit 38 performs z-standardization (normalization) on the basis of the acquired frequency distribution (step 504).
  • z-standardization normalization
  • the horizontal axis and the vertical axis of the graph can be made common regardless of the type of the array data, and the comparison between the data can be performed.
  • FIG. 8 shows that the microarray (cDNA chip) used to obtain the histogram of FIG. 6 is used to perform a process according to the present embodiment on a set of array data obtained from experiments in different temperature environments. The normalized values obtained for each experiment are plotted on a single graph.
  • dots having the same shape indicate those obtained in the same experiment.
  • points on the graph are indicated by thin lines. It almost overlaps with the standard distribution curve, demonstrating the validity of using a parametric method.
  • the thick broken line in FIG. 9 is a graph showing the result of normalization based on the frequency distribution shown in FIG. 7 for comparison.
  • the thin line in FIG. 9 shows the standard distribution curve. From Fig. 9, it can be seen that the parametric method is not suitable for such a shaped histogram.
  • the data subjected to z-standardization (standardized data) by the standardization processing unit 38 in this way is stored in the data buffer 30. Using this standardized data, it is possible to perform various analyses, verify experiments, and so on.
  • the logarithmic value of the integrated value indicating the signal intensity of each spot such as a DNA chip has a normal distribution, and based on this finding, the background value was determined. It has been calculated. Also, based on the above findings, the integrated value (or the integrated value with background correction) is logarithmically converted and z-standardized to obtain a standardized data. Therefore, using this standardized data, it is possible to easily compare different or similar experimental results and verify the experiments.
  • the background correction according to the present embodiment it is possible to remarkably reduce the work of extracting a spot in an image.
  • the spot area in an image captured by a CCD camera is specified to some extent by software incorporated in a reader or scanner.
  • the spot and the region cut out for integrating the signal intensity values often do not appropriately overlap. Therefore, researchers needed to set a circular area that overlaps with the spot for each spot with reference to the image. This required hours or days.
  • the background correction according to the present embodiment is used, the array is divided into a matrix so that each cell has the same area and each cell includes a spot, and the signal in the cell is divided. What is necessary is just to acquire the integrated value of intensity.
  • values indicating the signal intensity of the spot and its surroundings may be integrated in a circular area having the same area and encompassing the spot (that is, larger than the spot). This is because if the area is the same, the background value is considered to be constant in each cell or each circular region, and the background is such that the logarithm of the corrected signal integrated value has a normal distribution. This is realized by calculating the value.
  • the correction result using the background value according to the present embodiment will be described below.
  • the present applicant has published a plurality of expression data based on a plurality of species (http: @ genome-ww4. Stanford. Edu / MicroArray / SMD) published at Stanford University.
  • FIGS. 10A to 10D show, respectively, Experiment No. 5733, Experiment No. 130, Experiment No. 5745, and Experiment No. 7 is a graph obtained from values corrected for 7 4 2 8 (channel 2) according to the correction method according to the present embodiment (see FIGS. 3 and 4). From these figures, the graph has sufficient linearity. This indicates that the standardized results are normally distributed.
  • Figs. 11A to 11D show the values corrected based on the conventional correction method (the method by Michael Eisen described above). This is a graph obtained by stratifying and plotting the obtained values on normal probability paper. From these figures, it can be seen that, except for channel 2 of experiment No. 743438, the linearity of the graph was low and was not sufficiently corrected.
  • the central part becomes more whitish and becomes darker toward the periphery.
  • the overall color is in a gradation form in the horizontal or vertical direction. This is caused by, for example, distortion of the glass used for the array base.
  • the hybridization is ideally performed, the assumption is made that the median value of the signal integrated value of each column or each row in the array is substantially the same, and Correction constants for data common to columns or rows are obtained and used to further correct signal values.
  • FIG. 12A is a block diagram showing a main part of the analyzer according to the second embodiment.
  • the same components as those shown in FIG. 2 are denoted by the same reference numerals.
  • the analyzer according to the second embodiment includes a bias correction operation unit 40 provided between a correction operation unit 34 and a conversion processing unit 36.
  • 9 is a flowchart showing a process executed by a bias correction operation unit 40 according to the second embodiment.
  • the bias correction operation unit 40 acquires the logarithmic value group of the signal integrated value with the background reduced, which is obtained by the conversion processing unit 36.
  • the bias correction operation unit 40 classifies the logarithmic value group into groups for each column based on the information indicating the rows and columns of the microarray (step 1302). By obtaining a predetermined correction constant for each group, bias correction is realized.
  • the bias correction calculation unit 40 specifies the median value (step 13304) and calculates each logarithmic value. Then, the bias correction value is calculated by subtracting the median value from (Step 135). That is, the median value is a correction constant for bias correction in the column.
  • the processing shown in step 1304 and step 135 is executed for all of the n columns (see steps 1306 and 1307).
  • FIG. 15A and FIG. 15A are scatter plots comparing the data with the bias correction according to the present embodiment with the data without the bias correction. See 15B.
  • a microarray was used in which rice cDNA was spotted, and two sets of matrices each provided with 12 grids each having 32 columns and 12 rows were used. Cy5 labeled cDNA derived from cultured rice cells was hybridized to this microarray.
  • FIG. 15B shows a background value calculated for each set by the method according to the first embodiment, the value is corrected using the calculated background value, and further subjected to logarithmic conversion and standardization. It is a scatter diagram based on one evening.
  • FIG. 15A is a scatter diagram based on the data after bias correction has been performed in the method according to the second embodiment.
  • FIG. 12B is a block diagram showing a main part of the analyzer according to the third embodiment. Also in FIG. 12B, the same components as those shown in FIG. 2 are denoted by the same reference numerals.
  • a bias correction operation unit 42 is interposed between the data buffer 30 and the background ground calculation unit 32, and the signals constituting the array data are calculated prior to the calculation of the background value. Bias correction is performed on the integrated value.
  • FIG. 14 is a flowchart illustrating a bias correction process according to the third embodiment. As shown in FIG.
  • the processing shown in steps 1404 and 1405 is executed for all of the n columns (see steps 1406 and 1407).
  • the background calculation unit 32 calculates the background value for the obtained bias correction value group in this manner.
  • the corrected signal integrated value is logarithmically converted to obtain a logarithmic value, and a standardized value (standard value) of the logarithmic value is calculated.
  • the ratio of the amounts of RNA that is, the ratio of gene expression
  • the ratio of gene expression is obtained.
  • the difference in the gene expression ratio between a spot with a standard value (z-score) of “1” and a spot with a “2” is expressed by the following formula, for example, using a common logarithm. It can be quantified as follows.
  • Such a comparison can be made between any spots, such as between different spots on the same DNA chip, between spots of the same gene on different DNA chips, and the like. By being able to quantify the comparison between spots, it is possible to properly understand which genes are expressed, how much, and which genes are increased between experiments, and how much.
  • a predetermined range including the minimum value of the signal intensity of the spot is set, and the background value is calculated by trial and improvement (see FIG. 3). It is not limited. Robust estimation using the first quartile (Lower Quartile: LQ), the third quartile (Upper Quartile: UQ), and the median (Median: M) of the value indicating the above signal intensity You may go. After the ideal correction, the quartiles are symmetrical with respect to the median, so the background value X is given by the following equation.
  • a corrected signal integrated value may be obtained.
  • the background value may be estimated using another percentile, for example, the third quartile (UQ) and the median (M).
  • UQ third quartile
  • M median
  • the percentile and the z (zero) score correspond one-to-one, so using the combination of any two percentiles for which the difference between the z-scores should be equal, By setting a similar equation and solving it, the background value X can be obtained.
  • the range of the integrated signal value used for calculating the background value in the present embodiment is determined by the signal in a series of measurement systems including the characteristics of the hybridization experiment and the reader @ scanana.
  • the response may be in a range where linearity is satisfied.
  • a predetermined range including the minimum value of the signal integrated value is set. It is set, but it is not limited to this.
  • background value / (median signal integrated value) c (constant)
  • a similar process may be executed to obtain c.
  • the spots are classified into a group consisting of one or more columns in the microarray, but the present invention is not limited to this. It goes without saying that it may be classified into a group consisting of one or more rows. Also, as described above, the color of the image may be gradation from the outer part of the array toward the center. In such a case, the microarray is divided into a plurality of nested hollow rectangles, and the signal integrated values of spots included in each rectangle belong to the same group. The value may be calculated.
  • the present invention can be used for various comparisons, such as a comparison of experimental results with different conditions for the same type of DNA chip and a comparison of experimental results of different types of DNA chips.
  • the present applicant has screened a gene that works when rice is germinated at low temperature from a group of about 10,000 genes. Therefore, using a microarray on which 10,000 types of independent gene fragments are attached, for example,
  • the present invention is applicable even when the arrays used are not the same.
  • cross-species comparisons are possible, for example, between humans and mice.
  • the ability to compare across species indicates that the invention is applicable in the field of pharmaceuticals. For example, a substance that is extremely medicinal in mice would not have worked in humans.
  • the primary screening of a group of ana oral gas substances can be performed. Will be possible.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Description

明 細 書
遺伝子発現デ一夕の処理方法および処理プログラム 発明の属する技術分野
本発明は、 多数の遺伝子をスポッ トとして固定させた DNAチップから取得し た遺伝子発現データを統計的に解析する手法に関する。 背景技術
DN Aチップとは、 スライ ドガラスなどの基材上に複数の遺伝子を異なるスポ ッ トとして固定させたものである。 たとえば、 マイクロアレイには、 数千から数 万の遺伝子が夕一ゲヅ トとして固定されている。 ターゲッ トとして、 一重鎖の D N Aや mRNAが利用される。
DNAチヅプの基材として、 種々のコーティングを施したガラスなどからなる 板、 ナイロンやニトロセル口一スからなる膜、 中空糸、 半導体材料、 金属材料、 有機物質など核酸を保持できる種々のものが利用できる。 また、 ターゲッ トとし て、 c DNAの全部或いはその一部を複製したもの、 ゲノム DNAの一部を複製 したもの、 合成 DNAおよび/または合成 RNAが利用され得る。 基材に夕ーゲ ヅ トを固定するために、 フォトリソグラフ法によりガラス板上にオリゴ D N Aを 合成する.手法と、 スポッター等を利用して基材に夕一ゲッ トを取り付ける手法と が知られている。
このような DNAチップに、 たとえば、 蛍光標識をつけた DNAや RNA (解 析対象) をハイプリタイズさせる。 ターゲッ トと相補的な解析対象が二重鎖を形 成する。 解析対象には蛍光標識が付されているため、 ハイプリダイゼーシヨンの 後に、 蛍光スキャナにて DN Aチップを操作した画像デ一夕を取得することがで きる。 このようにして取得された画像データに基づき、 何れか一項に記載ののス ポヅトに二重鎖が形成されているかを知ることが可能となる。 より具体的には、 得られた画像は、 ハイブリダィゼーシヨンの結果、 各々の DN Aに由来するスポ ヅトが表示される。 したがって、 スポットの位置を含む所定の領域のシグナル強 度を積算することにより、 各スポットのシグナル強度を示す値からなるアレイデ —夕を得ることができる。
たとえば、数千から数万の夕一ゲッ 卜が固定されているマイクロアレイにより、 多数の遺伝子発現を示すアレイデ一夕を一度の実験操作で得ることができる。 こ の結果、 ある一つの遺伝子発現のデ一夕の増減を測定する際に、 その対象として 多数の遺伝子発現を示すデータ (シグナル強度を示す値) の平均を算出し、 これ に基づいてデ一夕を標準化するのが一般的である。 より具体的には、 実験ごとの 発現デ一夕を比較する前にデ一夕を標準化する。たとえば、 Johhanes Schuchhardt ら Iこよる 「 Normalization strategies for cDNA microarrays ( Nuc丄 eic Acids Research (2000) Vol.28 No.10 ) 」 には、 その標準化の一例が開示されている。 取得されたデ一夕の確率分布はノンパラメ トリックである。 しかしながら、 た とえば、 Todd Richmond らによる 「Chasing the dream: plant EST microarrays (Current Opinion in Plant Biology (2000) Vol .3 ppl08 -116)」 に開示されてい るように、取得されたデータを標準化するために、 Z—標準や t 一標準、或いは、 各スポットのシグナル強度の積算値を全体の数値の算術平均で除するというよう な手法が用いられている。
これらはノンパラメ トリックな手法ではないため、 このような標準化がデ一夕 の精度を著しく損ねているという問題点があつた。
また、 蛍光スキャナにより取得された画像に基づくアレイデ一夕は、 必ず、 バ ックグラウンド成分を含む。 これは、 画像デ一夕全体に存在するバックグラウン ドのシグナル強度、 および、 測定範囲と実際のスポッ トの大きさや形状が必ずし も一致しないことに起因する。 したがって、 取得した画像データの数値からバヅ クグラウンド成分を差し引き、 真のシグナル値からなるデ一夕を取得することが 正確な解析のために重要となる。 他の手法、 たとえば、 電気信号の検出、 放射線 の検出により取得されたアレイデ一夕でも同様である。
従来、 バックグラウンド成分を、 特定のスポッ トゃスポヅトされない部分のシ グナル強度をあらわす数値に基づき、 画素あたりの平均値や中央値を求め、 この 値に測定領域の画素数を乗ずることにより推定していた。 或いは、 Michael Ei senが、 rScanAlyze User Manual (http://rana. lbl .gov/ EisenSoftware.htm )」 において提案しているように、 スポッ トごとに、 測定範囲 の外側近傍の値からバックグラウンド成分を推定する手法も知られている。 しかしながら、 上記従来の補正法においては、 バックグラウンド値算出のため に利用されるスポッ トゃ画像中の領域の相違により、 上記バックグラウンドの推 定値は変化する。 つまり、 上記相違から種々のバックグラウンド値が推定される 可能性があり、 何れが適切であるかを判断することができないという問題点があ つた。 特に、 D N Aをスポッ トした領域と、 そうでない領域との間で、 バヅクグ ラウンド値の差が大きくなることがあった。
本発明は、 D N Aチップから取得された遺伝子発現のデ一夕を、 他の D N Aチ ップからのデ一夕と比較可能にし、 また、 適切な統計的に解析することが可能と なるような手法を提供することを目的とする。 発明の開示
本発明者は、 D N Aチップから得られるデ一夕 (遺伝子発現による発光量を示 すデ一夕) の対数値が正規分布することを知見した。 そこで、 各値の対数値をと ることで、 したがって、 各スポットのシグナル強度を示す値を対数変換し、 これ を標準化 (たとえば、 z —標準化) することにより、 異なる実験の結果や同種の 実験結果を正確に比較することが可能となる。 また、 対数値や標準化された値を 記憶し、 或いは、 比較演算に際して、 これら値を利用するため、 デ一夕量を著し く小さくすることが可能となる。
より詳細は、本発明の目的は、 D N Aチップのハイブリダイゼーシヨンにより、 D N Aチップ上に配置された各スポヅ 卜のシグナル強度を示す値から構成される アレイデ一夕を処理して、解析可能なデ一夕を取得するデータ処理方法であって、 前記アレイデータを取得するステップと、 当該アレイデ一夕を構成する各スポヅ トのシグナル強度を示す値を対数変換するステップと、 対数変換された値を、 前 記 D N Aチップのスポヅトに対応するように配置した変換デ一夕を生成するステ ップとを備えたことを特徴とするデ一夕処理方法により達成される。 本発明によれば、 対数変換された値の群は、 正規分布をするため、 D N Aチッ プをもちいた実験結果の比較、 実験結果の解析に適する。
好ましい実施態様においては、 さらに、 前記対数変換された値を走査して、 そ の中央値を特定するステップと、 各値から中央値を減じるステップとを備え、 前 記中央値が減じられた値からなる変換デ一夕が生成される。
このようにして得られた変換データを、 比較対象となる、 同様の処理を施され たデ一夕と減算して、 スポッ トごとの比較結果を比で表すことが可能となる。 他の好ましい実施態様においては、 さらに、 前記対数変換された値を、 z—標 準化して、 標準化された値を算出するステップを備え、 標準化された値からなる 変換データが生成される。
このようにして得られた変換デ一夕を、 比較対象となる、 同様の処理を施され たデ一夕から減算して、スポッ トごとの比較結果を差分で表すことが可能となる。 また、 本発明においては、 上述したように、 D N Aチップから得られるデ一夕 が対数正規分布するという知見に基づき、 本発明においては、 より適切なバック グラウンド値を求めることができるようになった。 特に、 従来、 値算出のために 利用するスポットゃ画像中の領域の相違により、 バックグラウンド値は変化し、 どの値が適切なものであるかを判断できなかった。 本発明者は、 D N Aチヅプの スポツ トのシグナル強度を示す値が対数正規分布するという知見に基づき、 対数 正規分布となるような補正値が、 適切なものであるということを見出した。 本発明のより好ましい実施態様においては、 さらに、 シグナル強度を示す値の 各々をバックグラウンド値で減じることで得られる減算値の累積度数比に基づく 正規確率グラフが、 所定の直線性を備えるようなバックグラウンド値を算出する ステップを備え、 当該シグナル強度を示す値の各々をバックグラウンド値で減じ ることにより得られた値を、 対数変換の対象とする。 なお、 このバックグラウン ド値は、正負何れかの値をとり得る。また、この値が 0となる場合も考えられる。 上記実施態様において、 前記バックグランド値を算出するステップは、 シグナ ル強度を示す値の最小値を特定するステップと、 前記最小値を含む所定の範囲を 設定するステップと、 前記所定の範囲内を、 所定の数だけ分割し、 上限値、 下限 値、 および、 分割により得られる所定数の中間値をバックグラウンド値候補とし て算出するステップと、 各バックグラウンド値候補について、 前記シグナル強度 を示す値の各々からバックグラウンド候補値を減じて、 減算値を算出して、 当該 減算値に基づく正規確率グラフを求めるステップと、前記正規確率グラフのうち、 最も直線性に優れたものに利用されたバックグラゥンド候補を特定するステツプ とを有し、 特定されたバックグラウンド候補に関する直線性が十分になるまで、 前記上限値および下限値の範囲を変更して、 再度、 バックグラウンド値候補の算 出、 正規確率グラフの算出、 および、 バックグラウンド候補の特定を繰り返すの が望ましい。 上記所定の直線性を示すステップは、 カイ二乗検定を実行すること により実現することができる。
また、 別の好ましい実施態様においては、 前記バックグラウンド値を算出する ステップが、 前記シグナル強度を示す値を参照して、 2以上の所定のパーセン夕 ィルにある値を特定するステップと、 前記 2以上の特定された値に基づいて、 バ ヅクグラウンド値を推定するステップとを有している。 ここで、 利用するシグナ ル強度を示す値の範囲は、 有効な測定範囲、 つまり、 シグナル—レスポンスの直 線性が成り立つ範囲であるのが望ましい。
より好ましくは、 バックグランド値を算出するステップは、 前記シグナル強度 を示す値から、 第 1四分位 LQ、 第 3四分位 UQおよび中央値 Mを求めるステツ プと、
x= (UQ*LQ-M2) / (UQ + LQ-2M)
ただし、 UQ+DQ— 2M=0のとき、 x=0
を求め、 求められた Xをバックグラウンド値とするステップとを有している。 また、 本発明の別の実施態様においては、 DN Aチップの画像の色合いの縦方 向、 横方向、 或いは、 放射状の偏りを補正することができる。
この実施態様は、 前記 DNAチップのスポッ トの配列にしたがって、 前記スポ ットを複数のグループに分類するステップと、 前記グループごとに、 当該グルー プを構成するスポッ トに関する対数変換値から、 その中央値を特定するステップ と、前記対数変換値の各々から、前記中央値を減算するステップとを備えている。 或いは、 前記 D N Aチップのスポヅ トの配列にしたがって、 前記スポヅトを複 数のグループに分類するステップと、 前記グループごとに、 当該グループを構成 するスポッ トに関するシグナル強度を示す値から、 その中央値を特定するステツ プと、 前記シグナル強度を示す値の各々を、 前記中央値で除算するステップとを 備えていても良い。
上記実施態様において、 分類するステヅプは、 前記 D N Aチヅプ中の、 1また は複数の列、 或いは、 1または複数の行ごとに、 当該列或いは行に含まれるスポ ッ トに関する対数値を取得するステツプを有していてもよい。
別の実施態様において、 上記データ処理方法を利用して、 複数のスポッ トのシ グナル強度を示す値を比較する方法は、 一方のスポットにかかる変換データの値 を、 他方のスポッ トにかかる変換デ一夕の値で除算するステップを備えている。 さらに別の実施態様において、 上記データ処理方法を利用して、 複数のスポヅ 卜のシグナル強度を示す値を比較する方法は、 一方の標準化された値と他の標準 化された値との差分値を算出するステップを備えている。 ここでは、 さらに、 前 記差分値の、所定数のべき乗を算出するステップを備えているのがより望ましい。 また、 本発明の目的は、 D N Aチップのハイプリダイゼーシヨンにより、 D N Aチップ上に配置された各スポッ トのシグナル強度を示す値から構成されるァレ イデー夕を処理して、 解析可能なデ一夕を取得するデ一夕処理方法を、 コンビュ —夕に実行させるためのデ一夕処理プログラムであって、 前記アレイデータを取 得するステップと、 当該アレイデータを構成する各スポッ トのシグナル強度を示 す値を対数変換するステップと、 対数変換された値を、 前記 D NAチップのスポ ットに対応するように配置した変換デ一夕を生成するステップとを、 前記コンビ ユー夕に実行させることを特徴とするデ一夕処理プログラムによっても達成され る o
上記 D N Aチップの基材には、 種々のコーティングを施したガラスなどから作 られた板、 ナイロンやニトロセルロースなどを基材とする膜、 中空糸、 半導体、 金属、 有機物質など、 表面に核酸を保持できる任意のものを利用できる。 また、 D N Aチップ上には、 ターゲットとして、 c D N Aの全部或いは一部の複製、 ゲ ノム D N Aの複製、 合成 D N A、 合成 R N Aなどが配置される。
また、 チップを作製するには、 核酸を用意しておき、 これを、 吸着、 静電気に よる結合、 共有結合により基材上に配置する手法や、 基材上で核酸を合成する手 法がある。 シグナル強度を示す信号の検出には、 半導体チップを利用した電気的 な手法、 蛍光や放射能を検出する手法などが含まれる。
本発明は、 上記何れの基材の上に何れの夕ーゲットが形成された D N Aチヅプ からのアレイデータにも適用することができる。 また、 何れの手法を用いて取得 したアレイデータに対しても適用することができる。
なお、 本明細書において、 D N Aチップとは、 基材上に R N Aを形成した R N Aチップ、 マイクロアレイ、 マクロアレイ、 ドヅ トプロット、 リバースト ■ ノー ザンなど、 基材の上に核酸が配置された任意のものを含む。 図面の簡単な説明
図 1は、 本発明の第 1の実施の形態にかかる解析装置のハードウエア構成図で ある。
図 2は、 本実施の形態にかかる解析装置の要部を示すブロックダイヤグラムで める。
図 3は、 本実施の形態にかかる解析装置のバックグラゥンド算出部にて実行さ れる処理を示すフローチャートである。
図 4は、 本実施の形態にかかる解析装置のバックグラウンド算出部にて実行さ れる処理を示すフローチヤ一トである。
図 5 Aは、 対数変換を説明するダイヤグラム、 図 5 Bは、 変換処理部および標 準化処理部にて実行される処理を示すフローチャートである。
図 6は、本実施の形態にかかる手法にて取得したデ一夕のヒストグラムである。 図 7は、 比較のために従来の手法にて取得したデータのヒストグラムである。 図 8は、異なる温度璟境における実験から取得したアレイデ一夕の組に対して、 本実施の形態にかかる処理を施して、実験ごとに得られた規準化された後の値を、 グラフ上にプロヅトした図である。 図 9は、 比較のために、 図 7に示す度数分布に基づき、 規準化を実行した結果 を示すグラフである。
図 1 OAないし図 10Dは、 それそれ、 本実施の形態にかかる補正法にしたが つて補正された値に基づき作成したグラフである。
図 11Aないし図 11Dは、 それそれ、 従来の補正法にしたがって補正された 値に基づき作成したグラフである。
図 12 Aおよび図 12 Bは、 それそれ、 第 2および第 3の実施の形態にかかる 解析装置の要部を示すブロックダイヤグラムである。
図 13は、 第 2の実施の形態にかかる偏り補正演算部にて実行される処理を示 すフローチャートである。
図 14は、 第 3の実施の形態にかかる偏り補正演算部にて実行される処理を示 すフローチヤ一トである。
図 15Aおよび図 15Bは、 それぞれ、 本実施の形態にかかる偏り補正を施し たデ一夕、 および、 偏り補正を施していないデータを比較した散布図である。 発明を実施するための望ましい形態
以下、添付図面を参照して、本発明の実施の形態につき説明を加える。図 1は、 本発明の第 1の実施の形態にかかる解析装置のハードウェア構成図である。 図 1 に示すように、 解析装置 10は、 CPU12と、 マウスやキーボードなどの入力 装置 14と、 CRTなどから構成される表示装置 16と、 RAM (Random Access Memory) 18と、 R 0 M(Read Only Memory) 20と、 C D— R O Mや D VD— R O Mなどの可搬記憶媒体 23をアクセスする可搬記憶媒体ドライバ 22と、 ハード ディスク装置 24と、 外部とのデータ授受を制御するイン夕フェース (I/F) 26とを備えている。 図 1から理解できるように、 本実施の形態にかかる解析装 置 10として、 パーソナルコンビユー夕などを利用することができる。
I/F 26は、 ハイプリタイズされた DNAチップのスポヅトの発光量を計測 して、 計測された発光量に基づくデータを生成するリーダまたはスキャナ (図示 せず)や通信回路に接続されている。通信回路は、 さらに、外部ネットワーク(た とえば、 イン夕一ネッ ト) に接続されている。
本実施の形態において、 可搬記憶媒体 2 3には、 リーダまたはスキャナからの データを受け入れて、 当該データに対して後述する必要なデータ変換処理を実行 するプログラム、 および、 処理が施されたデ一夕を解析するためのプログラムが 記憶されている。 したがって、 可搬記憶媒体ドライバ 2 2が、 可搬記憶媒体 2 3 から、上記プログラムを読み出して、これをハードディスク装置 2 4に記憶して、 これを起動することにより、 パーソナルコンピュータが、 解析装置 1 0として作 動することが可能となる。 或いは、 ィン夕ーネットなどの外部ネッ トヮ一クを介 して、 上記プログラムをダウンロードしても良い。
図 2は、 本実施の形態にかかる解析装置 1 0の要部を示すブロックダイヤグラ ムである。 図 2においては、 デ一夕に対して必要なデ一夕変換処理を示す構成部 分が示されている。 より詳細には、 解析装置 1 0は、 デ一夕バッファ 3 0と、 デ —夕バッファ 3 0に一時的に記憶されたデータ (基データ) に基づき、 そのバヅ クグラウンドを算出するバックグラウンド算出部 3 2と、 バックグラウンド算出 部 3 2にて得られたバックグラウンド値を用いて、 デ一夕を補正する補正演算部 3 4と、 補正されたデータに対して後述する変換を施すデータ変換部 3 6と、 デ —夕変換が施されたデータを標準化する標準化処理部 3 8とを有している。 データバッファ 3 0は、 R AM 1 8、 場合によってはハードディスク装置 2 4 によりその機能が実現される。 デ一夕バッファにはリーダまたはスキャナから伝 達された、 各スポッ トの発光量を示すデ一夕、 或いは、 リーダまたはスキャナか ら伝達されハードディスク装置 2 4の所定の領域に予め記憶されていた、 各スポ ッ トの発光量を示すデータが一時的に記憶される。 また、 データバッファは、 標 準化処理部 3 8によつて標準化されたデ一夕を一時的に記憶することもできる。
リーダまたはスキャナからは、 D N Aチヅプを C C Dカメラなどで撮影し、 ス ポットごとのシグナル強度を積算したものが、 アレイデ一夕として出力される。 或いは、 リーダまたはスキャナにおいて、 C C Dカメラにて撮影した画像の画像 デ一夕に基づき、 前処理としてバックグラウンド値が算出され、 各画素のシグナ ル強度からバックグラウンド値が差し引かれ、 前処理としてのバックグラウンド 補正がなされた画像データから、 スポットごとのシグナル強度が積算されて、 ァ レイデ一夕として出力される場合もある。 本実施の形態においては、 未処理のァ レイデ一夕、 前処理 (バックグラウンド補正) が施されたデ一夕の何れをも利用 することができる。 なお、 本明細書において、 リーダまたはスキャナから伝達さ れる、上記スポヅ トごとのシグナルを累算したデータを、アレイデータ、或いは、 本実施の形態にかかるパックグラウンド処理を施すための基礎となるデ一夕とい う意味で基データと称する。
上記解析装置 1 0のバックグラウンド算出部 3 2にて実行される処理につき、 図 3および図 4を参照して説明を加える。
バックグラウンド算出部 3 2は、 まず、 デ一夕バッファに記憶されたアレイデ 一夕に含まれる、 スポヅ トごとのシグナル強度の積算値 (スポット積算値) を走 査して、 その最小値を取得する (ステップ 3 0 1 ) 。 次いで、 バヅクグラウンド 算出部 3 2は、 取得した最小値がゼロ (0 ) であるか否かを判断し (ステップ 3 0 2 ) 、 ゼロである場合には (ステップ 3 0 2でイエス(Yes) ) 、 候補値「A」 を 「一 1 0 0」 、 候補値 「B」 を 「1 0 0」 に設定する (ステップ 3 0 3 ) 。 スポ ヅ ト積算値が 「0」 であることは、 発光量がないこと (像としては、 黒く表示さ れていること) を意味している。 実際には、 スポッ トのシグナル強度の積算値が 「0」 であることは、 測定の不備、 或いは、 既に他の手法にてバックグラウンド 値が差し引かれていることを意味する。 このような場合には、 所定の負の値を候 補値 「A」 とし、 所定の正の値を候補値 「B」 として、 適切なバックグラウンド 値を見出すための出発点としている。
これに対して、 ステップ 3 0 2でノ一(No)と判断された場合には、 バヅクグラ ゥンド算出部 3 2は、 候補値 「Aj を、 最小値の半分 ( 1ノ 2 · (最小値) ) 、 候補値「B」を、 最小値の 2倍(2 · (最小値)) に設定する (ステップ 3 0 4 )。 なお、 候補値 「A」 とは、 バックグラウンド値を特定するために処理で利用する 上限値を意味し、 候補値 「B」 とは、 下限値を意味する。
次いで、 ノ ヅクグラウンド算出部 3 2は、 候補値 「A」 と候補値 「B」 の間を 9等分して、 さらに 8つの候補値を取得する (ステップ 3 0 5 ) 。 たとえば、 最 小値が 「20」 であり、 候補値 「A」 が 「10」 、 候補値 「B」 が 「40」 であ れば、 以下の値が候補値となる。
候補値 「(^」 = 13. 33
候補値 「C2」 = 16. 67
候補値 「C3」 = 20. 00
候補値 「C4」 = 23. 33
候補値 「C5」 =26. 67
候補値 「C6」 =30. 00
候補値 「C7」 = 33 , 33
候補値 「C8」 = 36. 67
このようにして、 総計 10個の候補値が得られる。
さらに、 基デ一夕 (つまりアレイデータ) において、 スポッ ト積算値から、 各 候補値を減じる。 これにより、 候補値に関連付けられた、 10組のスポット積算 値群を得ることができる。 このスポット積算値群を、 それそれ、 補正デ一夕候補 と称する。
次いで、 バックグラウンド算出部 32は、 各補正デ一夕候補を構成するスポッ ト積算値の対数値を得て、 その累積度数比を取得する (ステップ 307 ) 。 この 累積度数比をプロットして、 10個の正規確率グラフが作成される (ステップ 3 08) 。 バックグラウンド算出部 32は、 正規確率グラフそれぞれについて、 最 小二乗法などを用いて、 グラフの直線性を検定する (ステップ 309) 。, 10個 の正規確率グラフのうち、 もっとも直線性が良好であったものについて、 利用さ れた候補値が特定される (ステップ 401) 。 これが候補値 「A」 であれば (ス テヅプ 402でイエス(Yes))、 バックグラウンド算出部 32は、 候補値「A」 の 1/3 (1/3 。(候補値 「A」 )を新たな候補値 「A」 に設定し、 かつ、 候補値 「B」 の 1/3 (1/3 ' (候補値 「B」 )を新たな候補値 「B」 に設定する (ス テヅプ 403) 。 ここでは、 候補値を見つけ出すための範囲を下側に (小さく) シフ トしている。
その一方、 当該候補値が、 候補値 「B」 であった場合には (ステップ 404で イエス(Yes ) )、バックグラウンド算出部 3 2は、候補値「A」を 3倍したもの(3 - (候補値 「A」 )を新たな候補値「A」 に設定し、 かつ、 候補値 「B」 を 3倍した もの (3 。(候補値「B」 )を新たな候補値「B」に設定する (ステップ 4 0 5 )。 これは、 候補値を見つけ出すための範囲を、 上側にシフトしたことを意味してい る。
さらに、 候補値が、 上記候補値 「A」 或いは候補値 「B」 でない場合であって (ステップ 4 0 4でノー(No)、かつ、ステップ 4 0 5でノ一(No) )には、さらに、 得られた正規確率グラフが、 満足のいく直線性を具備しているか否かが判断され る (ステップ 4 0 6 ) 。 本実施の形態において、 「満足のいく直線性」 を判断す るために、 たとえば、 有意水準を 5 %とした 2検定を行っている。 しかしなが ら、 これに限定されるものではなく、 他の手法を利用しても良いし、 オペレータ が自己の判断にて直線性が満足のいうものであることを判断しても良い。
ステヅプ 4 0 6にてノー(No)と判断された場合には、 候補値 「Aj が、 ステヅ プ 4 0 1にて特定された候補値より小さな候補値のうち、 特定された候補値に隣 接するものに設定される (ステップ 4 0 7 ) 。 また、 候補値 「B」 は、 ステップ 4 0 1にて特定された候補値より大きな候補値のうち、 特定された候補値に隣接 するものに設定される (ステップ 4 0 8 ) 。
たとえば、 上に列挙した候補値 「C 〜候補値「C 8」 において、 ステップ 4 0 1にて候補値 「C.3」 が特定されたが、 当該候補値を、 スポット積算値群から 現在した値を利用した正規確率グラフについて、 満足のいく直線性が得られなか つたと考える。 この場合には、 候補値 「C 2」 が新たな候補値 「A」 となり、 候 補値 「C 5j が新たな候補値 「B j となる。 すなわち、 ステップ 4 0 7、 4 0 8 では、 より適切な候補値を探し出すために、 候補値を見つけ出すための範囲を狭 めている。
ステップ 4 0 3、 ステップ 4 0 5、 或いは、 ステップ 4 0 7および 4 0 8にお いて、 新たな候補値 「A」 および候補値 「B」 が得られると、 ステップ 3 0 5以 下の処理が繰り返される。 これに対して、 正規確率グラフが満足のいく直線性を 備えている場合には(ステヅプ 4 0 6でイエス(Yes) )、 この正規確率グラフを得 るために利用された候補値が、 バックグラウンド値に決定される (ステップ 4 0 9 ) o
次いで、 補正演算部 3 4が、 アレイデータを構成する各シグナル累算値から、 ステップ 4 0 9にて取得されたバックグラウンド値を減じたものを算出する。 た だし、 本実施の形態においては、 最終的にバックグラウンド値が得られる直前に 実行されたステップ 3 0 6において、 1 0組の補正データ候補のうちの一組が、 各シグナル累算値からバヅクグラウンド値を減じたものである。 したがって、 こ のような補正データ候補が、 データバッファ 3 0に記憶されていれば、 補正演算 部 3 4は、 新たな演算をすることなく、 デ一夕バッファ 3 0から、 適切な補正デ —夕候補を読み出せばよい。
バヅクグラウンド値が減じられたシグナル累算値 (補正シグナル累算値) から 構成された補正デ一夕は、 変換処理部 3 6に伝達される。 変換処理部 3 6は、 各 補正シグナル累算値を対数変換して、変換されたシグナル累算値を得る。図 5 ( a ) は、 変換処理部 3 6にて実行される処理の概略を示す図である。 図 5 Aに示すよ うに、 バックグラウンド値が減算された補正シグナル累算値からなる表形式デー 夕領域 3 0— 1から、 順次、 補正シグナル累算値 「 ^」 が取り出され、 対数変 換されて (符号 5 0 0参照) 、 変換後の表形式デ一夕領域 3 0— 2の対応する位 置に、 対数変換が施された値 (対数変換値) r i n a u j が配置される。
なお、 図 3のステップ 3 0 6およびステップ 3 0 7において、 補正デ一夕候補お よび補正デ一夕候補を構成する補正シグナル累算値の対数変換値が算出されてい る。 したがって、 選択されたバックグラウンド値に関連する対数変換値が、 デ一 夕バッファ 3 0に記憶されていれば、 変換処理部 3 6は、 補正シグナル累算値に 対数変換を施す必要は無く、 データバッファ中のデータを読み出せば足りる。 このようにして対数変換値群が得られると、 変換処理部 3 6および標準化処理 部 3 8により図 5 Bに示す処理が実行される。
ここでは、 変換処理部 3 6は、 階級の数やクラスの幅を設定して (ステヅプ 5 0 1 ) 、 度数分布表を生成する (ステップ 5 0 2 ) 。 本実施の形態においては、 この度数分布表に基づくグラフが生成され、 これが表示装置 1 6の画面上に表示 される (ステップ 503 ) o このステップ 503および後述するステップ 505 は、 本実施の形態にかかる手法の正しさを検証するために設けている。
図 6は、 このようにして得られた画像の例である。 図 6において横軸は、 補正 シグナル累算値を対数変換したもの (対数変換値) 、 縦軸は、 その度数を示して いる。 図 6に示す例においては、 イネの cDNAライブラリ一から重複を避けて ランダムに選択し、 ビンあたり 32 x 10のマトリクスにスポットしたマイクロ アレイ (cDNAチヅプ) を利用している。 このマイクロアレイにおいて、 有効 なスポヅトの総数は 1157であった。 ハイプリダイゼ一シヨンの夕ーゲッ ト作 製には、 イネ鞘葉由来の p 01 y(A)RNAを鏡型に用いて、 cy 5で標識した cDNAを合成した。 また、 ハイプリダイゼ一シヨンの結果は、 ArrayS c a n n e r V 4. 4 (Mo l o e cular Dynami c s社製) を用い て、 画像として取得し、 これを、 Array Vi s ion (Mo l o e cul a r Dynami c s社製) プログラムを用いて数値化した。
また、図 6においては、算術平均を含む階級を黒塗りのグラフにて示している。 図 7は、 比較のために、 同じアレイデ一夕に基づくヒストグラムを示したもので ある。 図 6および図 7から、 アレイデ一夕自体はノンパラメ トリックであるのに 対して、 アレイデ一夕から得た対数変換値がパラメ トリヅクであることが理解で きるであろう。
本実施の形態においては、 さらに、 データの比較を可能にするために、 標準化 処理部 38が、 取得した度数分布に基づき、 デ一夕を z—標準化 (規準化) する (ステヅプ 504) 。 これにより、 グラフの横軸および縦軸を、 アレイデ一夕の 種別などに係わらず共通にすることができ、 デ一夕間の比較が可能となる。 図 8は、 図 6のヒストグラムを得るために利用したマイクロアレイ (cDNA チップ) を利用し、 異なる温度環境における実験から取得したアレイデータの組 に対して、 本実施の形態にかかる処理を施して、 実験ごとに得られた規準化され た後の値を、 一枚のグラフ上にプロヅ 卜したものである。
図 8において、 同一の形状の点 (たとえば、 X印、 △印) は、 同じ実験にて取 得されたものを示している。 図 8に示すように、 グラフ上の点は、 細線にて示す 標準分布曲線と略重なっており、 パラメ トリヅクな手法を用いることの妥当性が 示されている。 図 9の太い折れ線は、 比較のために、 図 7に示す度数分布に基づ き、 規準化を実行した結果を示すグラフである。 図 9の細線は、 標準分布曲線を 示す。 図 9から、 このような形状のヒストグラムでは、 パラメ トリックな手法が 適さないことが理解できるであろう。
このようにして標準化処理部 3 8により、 z —標準化が施されたデ一夕 (標準 化デ一夕) は、 データバッファ 3 0に記憶される。 この標準化データを用いて、 種々の解析、 実験の検証などをなすことが可能となる。
このように、 本実施の形態によれば、 D N Aチップなどの各スポッ トのシグナ ル強度を示す積算値の対数値が正規分布するということを知見し、 この知見に基 づき、 バックグラウンド値を算出している。 また、 上記知見から、 積算値 (或い はバックグラウンド補正がなされた積算値) を対数変換して、 かつ、 z—標準化 を施すことにより、 標準化デ一夕を取得している。 したがって、 この標準化デ一 夕を利用して、 異種或いは同種の実験結果を容易に比較し、 実験の検証をなすこ とが可能となる。
また、 本実施の形態にかかるバックグラウンド補正によれば、 画像デ一夕にお けるスポッ卜の切り出し作業を著しく低減することが可能となる。 従来、 C C D カメラで撮影された画像中のスポットの領域は、 リーダまたはスキャナに組み込 まれたソフトウエアなどにより、ある程度特定される。しかしながら、実際には、 スポットと、 シグナル強度の値を積算するために切り出される領域とが適切に重 なり合っていないことが多い。 したがって、 研究者は、 画像を参照して、 スポヅ トごとに、 スポットと重なり合うような円形の領域を設定する必要があった。 こ れは、 数時間ないし一日を要する作業であった。 本実施の形態にかかるバックグ ラウンド補正を利用すれば、 アレイを、 各セルの面積が等しくなり、 かつ、 各セ ルにスポッ トが含まれるように、 マトリクス状に区切って、 当該セルにおけるシ グナル強度の積算値を取得すればよい。或いは、それそれの面積が等しく、かつ、 スポッ トを包含するような (つまりスポットより大きな) 円形領域にて、 スポヅ トおよびその周辺の各々のシグナル強度を示す値を積算すれば良い。 これは、 面積が同じであればバックグラウンド値は、 各セルないし各円形領域 にて一定であると考えられること、 および、 補正されたシグナル積算値の対数値 が正規分布となるようなバックグラウンド値を算出していることから実現される。 なお、 本実施の形態にかかるバックグラウンド値を利用した補正結果を以下に 示す説明する。 本出願人は、 スタンフォード大学において公開されている、 複数 の生物種に基づく複数の発現データ (http:〃 genome-ww4. stanford. edu/ MicroArray/SMD にて公開され、 また、 この公閧デ一夕の概要は、 Gavin Sherlock 他の 「The Mi c roar ray Database (Nucleic Acids Research 29, ppl52 -155(2001 年))」 にも掲載されている。 ) から、 4つを無作為に抽出した。 ここでは、 実験 N o . 5 7 3 3 , 実験 N o . 1 3 0 0、 実験 N o . 5 7 4 5、 および、 実験 N o 。
7 4 2 8を利用している。実験 N o . 7 4 2 8についてはチャンネル 2を利用し、 他の実験についてはチャンネル 1のデータを利用した。
実験ごとに、 その値の対数値を z—標準化してから層別化して、 得られた値を 正規確率紙にプロットしている。 図 1 0 A〜図 1 0 Dは、 それそれ、 実験 N o . 5 7 3 3、 実験 N o . 1 3 0 0、 実験 N o . 5 7 4 5、 および、 実験 N o 。 7 4 2 8 (チャンネル 2 ) について、 本実施の形態にかかる補正法 (図 3および図 4 参照) にしたがって補正された値から得られたグラフである。 これら図から、 グ ラフが十分な直線性を備えている。 このことは、 標準化した結果が正規分布して いることを示している。
図 1 1 A〜図 1 1 Dは、 従来の補正法 (前述した Michael Eisen による手法) に基づき補正されたものから、 同様に、 実験ごとに、 その値の対数値を z—標準 化してから層別化して、 得られた値を正規確率紙にプロットして得られたグラフ である。 これら図から、 実験 N o . 7 4 3 8のチャンネル 2を除ぐと、 グラフの 直線性が低く、 十分に補正されていないことを示している。
次に、 本発明の第 2の実施の形態につき説明を加える。 第 2の実施の形態にお いては、 マイクロアレイの基材の平坦性の問題などからハイブリダイゼ一シヨン が不均一になることに起因するデータの偏りを補正することができる。
ハイプリダイゼ一シヨンの後のマイクロチップから得た画像において、 たとえ ば、 中央部がより白っぽく、 周辺になるのにしたがって黒っぽくなつていくもの がある。 或いは、 左右或いは上下方向で、 全体の色合いがグラデーション状にな つているものもある。 これは、 たとえば、 アレイ基部に利用しているガラスの歪 などにより生ずる。
そこで、 第 2の実施の形態においては、 ハイプリダイゼ一シヨンが理想的に行 われたならば、 アレイ中、 各列或いは各行のシグナル積算値の中央値が概略同じ になるという仮定を設けて、各列或いは各行に共通するデータの補正定数を求め、 これを利用して、 シグナル値にさらに補正を施している。
図 1 2 Aは、 第 2の実施の形態にかかる解析装置の要部を示すブロックダイヤ グラムである。 図 1 2 Aにおいて、 図 2に示す構成部分と同じものには同一の符 号を付している。図 1 2 Aに示すように、第 2の実施の形態にかかる解析装置は、 補正演算部 3 4と変換処理部 3 6との間に、 偏り補正演算部 4 0が設けられてい 図 1 3は、 第 2の実施の形態にかかる偏り補正演算部 4 0にて実行される処理 を示すフローチャートである。 偏り補正演算部 4 0は、 変換処理部 3 6により得 られた、 バックグラウンドが減じられたシグナル積算値の対数値群を取得する。 次いで、 偏り補正演算部 4 0は、 マイクロアレイの行および列を示す情報に基 づき、 当該対数値群を、 列ごとのグループに分類する (ステップ 1 3 0 2 ) 。 各 グループに対して、所定の補正定数を求めることにより、偏り補正が実現される。 偏り補正演算部 4 0は、 第 1列 (列番号 = 1 (符号 1 3 0 3参照) ) に属する 対数値に基づいて、 その中央値を特定し (ステップ 1 3 0 4 ) 、 各対数値から中 央値を減じて、 偏り補正値を算出する (ステップ 1 3 0 5 ) 。 つまり、 その中央 値が、 列における偏り補正のための補正定数となる。 ステップ 1 3 0 4およびス テツプ 1 3 0 5に示す処理は、 n個の列の全てに対して実行される (ステップ 1 3 0 6 , 1 3 0 7参照) 。
このようにして、 得られた偏り補正値群に対して、 標準化処理部 3 8において 標準化が施される。 本実施の形態にかかる偏り補正を施したデ一夕、 および、 偏 り補正を施していないデ一夕を比較した散布図を、 それそれ、 図 1 5 Aおよび図 15 Bに示す。ここでは、マイクロアレイとして、イネ cDNAをスポットして、 各々が 32列 12行のグリッドを 12個備えたマトリクスを、 2セット貼り付け たものを利用した。 このマイクロアレイに、 イネ培養細胞に由来する、 cy 5で 標識した cDNAを、 ハイブリダィズした。
図 15Bは、 第 1の実施の形態にかかる手法にて、 セヅ トごとにバックグラウ ンド値を算出して、 これを利用して値を補正し、 さらに、 対数変換および標準化 を施したデ一夕に基づく散布図である。 図 15Aは、 第 2の形態にかかる手法に て、 偏り補正を行ったデ一夕に基づく散布図である。 これらの図において、 2本 の細い直線は、それそれ、 X軸の値と比較して y軸の値が 21/2倍(ル一ト 2倍)、 および、 ( 1/2) 1/2倍 (ルート ( 1/2) 倍) であることを示している。 二つのセヅトは、 同一のアレイチップ上に設けられた一対のスポヅトの結果に 由来する、 同一のハイブリダィゼ一シヨンであるため、 原理的には、 X = Yの直 線状に、 各点が位置する。 図 15 Αおよび図 15 Βを参照すると、 偏り補正によ り、 デ一夕の散らばりが小さくなっていることが理解できる。
このように、 本実施の形態によれば、 ハイプリダイゼ一ションの不均一などに 起因する値の変更を適切に補正することが可能となる。
次に、 第 3の実施の形態につき説明を加える。 第 3の実施の形態においては、 第 2の実施の形態にかかる偏り補正を変形したものである。 図 12 Bは、 第 3の 実施の形態にかかる解析装置の要部を示すプロックダイヤグラムである。 図 12 Bにおいても、 第 2図に示す構成部分と同じものには同一の符号を付している。 第 3の実施の形態においては、 デ一夕バヅファ 30とバヅクグラゥンド算出部 3 2との間に、 偏り補正演算部 42が介在し、 バックグラウンド値の算出に先立つ て、 アレイデ一夕を構成するシグナル積算値に対して、 偏り補正が施される。 図 14は、 第 3の実施の形態にかかる偏り補正の処理を示すフロ一チャートで ある。 図 14に示すように、 偏り補正演算部 42は、 データバッファからシグナ ル積算値の群を取得すると (ステップ 140 1) 、 これらを、 マイクロアレイの 秒および列を示す情報に基づき、 列ごとのグループに分類する (ステップ 140 2) 。 次いで、 偏り補正演算部 42は、 第 1列 (列番号 = 1(符号 1403参照) に属する積算値に基づいて、 その中央値を特定し (ステップ 1404) 、 各積算 値を中央値で除算して、 偏り補正値を算出する (ステップ 1405) 。 つまり、 ここでも中央値が、 列における偏り補正のための補正定数となる。
ステップ 1404およびステップ 1405に示す処理は、 n個の列の全てに対 して実行される (ステップ 1406、 1407参照) 。 このようにして、 得られ た偏り補正値群に対して、 バックグラウンド算出部 32におけるバックグラウン ド値の算出が実行される。
次に、 本発明にかかるデ一夕の比較につき説明を加える。 第 1ないし第 3の実 施の形態においては、補正されたシグナル積算値を対数変換して対数値を取得し、 さらに当該対数値を標準化した値 (標準値) を算出している。
これら標準値を用いることにより、 以下のような比較が可能となる。
本実施の形態によれば、 上記標準値を利用して、 RNAの量の比、 つまり、 遺 伝子発現の比率を見出すことが可能となる。たとえば、あるスポットの標準値と、 他のスポットの標準値との差をとり、 これに標準偏差を乗じて、 その値の 10の べき乗をとることにより、 上述した比率を求めることができる。 スポットに関す る標準値 (zスコア) が 「1」 のものと 「2」 のものとの間の、 遺伝子発現の比 率の相違を、 たとえば、 常用対数を用いれば、 以下の式にて表すように定量化す ることができる。
10 Λ { (2— 1) *0 · 5} =3。 1
(ここに、 0。 5は対数値の標準偏差)
つまり、 (対数の底) { (標準値の差) * (対数値の標準偏差) } という形 で、 比率の相違を表すことが可能となる。
このような比較は、 同一の DNAチヅプ上の異なるスポット間、 異なる DNA チップ上の同一の遺伝子のスポット間など、 任意のスポット間でなすことが可能 である。 スポット間の比較を定量化できることにより、 どの遺伝子がどれくらい 多く発現しているか、 実験間でどの遺伝子がどの程度増加しているかなどを適切 に把握することが可能となる。
本発明は、 以上の実施の形態に限定されることなく、 特許請求の範囲に記載さ れた発明の範囲内で、 種々の変更が可能であり、 それらも本発明の範囲内に包含 されるものであることは言うまでもない。
たとえば、 本実施の形態によれば、 スポットのシグナル強度の最小値を含む所 定の範囲を設定し、 トライアンドインプルーブメントにより、 バックグラウンド 値を算出している (図 3参照) が、 これに限定されるものではない。 上記シグナ ル強度を示す値の第 1四分位 (Lower Quartile: LQ ) と、 第 3四分位(Upper Quartile: UQ)と、 中央値(Median: M)とを利用して、 ロバストな推定を行っても 良い。 理想的に補正されたあとでは、 中央値をはさんで各四分位は対称の位置と なるため、 バックグラウンド値 Xは、 以下の式で与えられる。
In (UQ— X) - In (M— x) = 1 n (M - x) -In (L Q-x) これを解くと、
= (UQ*LQ— M" / (UQ + L Q- 2 M)
ただし、 UQ + DQ—2M=0のとき、 x=0
となる。 この xを、 各スポットのシグナル強度を示す値 (シグナル積算値) か ら減じることで、 補正されたシグナル積算値を取得しても良い。
或いは、 同様の方法で、 他のパーセンタイル、 たとえば、 第 3四分位 (UQ) と中央値 (M) を用いてバックグラウンド値を推定しても良い。 さらに、 より多 くのパーセンタイルを使って、 バックグラウンド値 Xを求め、 それらの平均値を 取得することで、 上記推定値の精度を高めることができる。 正規分布において、 パ一センタイルと z (ゼ一夕) スコアとは、 1対 1に対応するから、 zスコアの 差が等しくなるべき任意の 2つのパーセンタイルの組み合わせを利用して、 上述 した式と同様の方程式をたてて、 これを解くことにより、 バックグラウンド値 X を求めることができる。
さらに、 本実施の形態においてバックグラウンド値を算出するために利用する シグナル積算値の範囲は、 ハイブリダィゼーシヨン実験、 および、 リーダーゃス キヤナの特性を含めた一連の測定の系においてシグナル一レスポンスに直線性が 成り立つ範囲としても良い。
また、 図 3に示す処理において、 シグナル積算値の最小値を含む所定の範囲を 設定しているが、 これに限定されるものではない。 たとえば、 バックグラウンド値/ (シグナル積算値の中央値) = c (一定)
であることを考え、
バックグラウンド値 = c * (中央値)
の cを求めるために、 同様の処理を実行しても良い。
また、 第 2の実施の形態および第 3の実施の形態においては、 スポッ トを、 マ イクロアレイ中の 1または複数の列からなるグループに分類しているが、 これに 限定されるものではなく、 1または複数の行からなるグループに分類しても良い ことは言うまでもない。 また、 先に説明したように、 画像の色合いが、 アレイの 外延部から中央部に向かって、 グラデーション状になっている場合もある。 この ような場合には、 入れ子状になる複数の中空の矩形で、 マイクロアレイを分割し て、 各矩形に含まれるスポッ トのシグナル積算値を同一のグループに属するよう にして、 グループごとの偏り補正値を算出しても良い。
また、前記実施の形態においては、標準化として z —標準化を利用しているが、 これに限定されるものではなく、他の標準化を適用できることも言うまでもない。 産業上の利用分野
本発明は、 同種の D N Aチップについて条件を変更した実験結果の比較、 異種 の D N Aチヅプの実験結果の比較など種々の比較に利用することができる。 たと えば、 本出願人は、 イネを低温で発芽させたときに働く遺伝子を、 1万ほどの遺 伝子群のなかからスクリーニングしていた。 そこで、 独立した遺伝子の断片を 1 万種類はりつけたマイクロアレイをつかって、 たとえば
a ) あたたかいところで発芽したイネ
b ) それを低温にさらしたもの
という二種類の組織から R N Aをとり、 それそれハイプリダイゼーシヨンを行つ た。 実験は R N Aごとに二回おこなった。 それそれの実験結果として、 1万個の 数字の羅列 (相対値) が得られる。 これら数字の羅列を比較する適切な方法がな いのが現状であった。 本実施の形態によれば、 上記 a ) 、 b ) のそれそれの条件 による実験結果に基づき、 標準化したデータを得て、 対応するスポットの値を減 算することにより、 低温にさらしたときに蓄積量が増加或いは減少する m R N A を見つけ出し、 目的の遺伝子をスクリーニングすることができた。
さらに、 標準化したデ一夕であれば、 D N Aチップの違い、 生物種の違いなど を超えた比較が可能である。 たとえば、 上記実験 a ) において、 「熱ショック夕 ンパク質」 という一群のタンパクの遺伝子が、 2 ~ 3 standard un ほどの量で 検出された。 ところが、 これらのタンパク質は、 標準的な育て方をしたシロイヌ ナズナという植物の組織からは常に 0 (ゼロ) standard unit ほどの値として検 出される。 この差は、 偶然や種間差では説明しがたい大きさであった。 この結果 は、 a ) の実験系が 「暑すぎた」 ことを示していた。 したがって、 最初の実験の 系をもう少し冷やすことで、 スクリ一ニングをより正確に行うことを見出すこと ができた。
このように、 本発明によれば、 使用するするアレイは同一でない場合でも適用 可能である。 また、 比較する前のデ一夕の形式や桁そろいによる制限がない。 さ らに、 たとえば、 ヒトとマウスの比較など、 種を超えた比較が可能となる。 種を超えた比較が可能であることは、 本発明が製薬の分野にて応用可能である ことを示す。 たとえば、 マウスで著しく薬効のある物質が、 ヒトには効かなかつ たと考える。 ここでは、 健常なマウスに物資を投与したときにある臓器のアレイ パターンと、 健常なヒトの同じ臓器における類似する物質によるアレイパターン とを比較することで、 アナ口ガスな物質群の一次スクリーニングが可能になる。

Claims

請 求 の 範 囲
1 . D N Aチップのハイプリダイゼーシヨンにより、 D N Aチヅプ上に配置され た各スポッ トのシグナル強度を示す値から構成されるアレイデータを処理し て、 解析可能なデータを取得するデータ処理方法であって、
前記アレイデ一夕を取得するステップと、
当該アレイデ一夕を構成する各スポットのシグナル強度を示す値を対数変換 するステップと、
対数変換された値を、 前記 D N Aチップのスポッ 卜に対応するように配置し た変換デ一夕を生成するステップとを備えたことを特徴とするデ一夕処理方 法。
2 . さらに、 前記対数変換された値を走査して、 その中央値を特定するステップ と、
各値から中央値を減じるステップとを備え、 前記中央値が減じられた値から なる変換データが生成されることを特徴とする請求の範囲第 1項に記載のデ —夕処理方法。
3 . さらに、 前記対数変換された値を、 z—標準ィヒして、 標準化された値を算出 するステップを備え、 標準化された値からなる変換データが生成されることを 特徴とする請求の範囲第 1項に記載のデータ処理方法。
4 . さらに、 シグナル強度を示す値の各々をバックグラウンド値で減じることで 得られる減算値の累積度数比に基づく正規確率グラフが、 所定の直線性を備え るようなバックグラゥンド値を算出するステツプを備え、
当該シグナル強度を示す値の各々をバックグラウンド値で減じることにより 得られた値を、 対数変換の対象とすることを特徴とする請求の範囲第 1項ない し第 3項の何れか一項に記載のデータ処理方法。
5 . 前記バックグランド値を算出するステヅプが、
シグナル強度を示す値の最小値を特定するステップと、
前記最小値を含む所定の範囲を設定するステップと、
前記所定の範囲内を、 所定の数だけ分割し、 上限値、 下限値、 および、 分割 により得られる所定数の中間値をバックグラウンド値候補として算出するス テヅプと、 - 各バックグラウンド値候補について、 前記シグナル強度を示す値の各々から バックグラウンド候補値を減じて、 減算値を算出して、 当該減算値に基づく正 規確率グラフを求めるステップと、
前記正規確率グラフのうち、 最も直線性に優れたものに利用されたバックグ ラウンド候補を特定するステップとを有し、
特定されたバックグラウンド候補に関する直線性が十分になるまで、 前記上 限値および下限値の範囲を変更して、 再度、 バックグラウンド値候補の算出、 正規確率グラフの算出、 および、 バックグラウンド候補の特定を繰り返すこと を特徴とする請求の範囲第 4項に記載のデータ処理方法。
6. 前記所定の直線性を示すステップが、
カイ二乗検定を実行するステップを有することを特徴とする請求の範囲第 4 項または第 5項に記載のデータ処理方法。
7. 前記バヅクグラウンド値を算出するステップが、
前記シグナル強度を示す値を参照して、 2以上の所定のパ一センタイルにあ る値を特定するステップと、
前記 2以上の特定された値に基づいて、 バックグラゥンド値を推定するステ ップとを備えたことを特徴とする請求の範囲第 4項に記載のデータ処理方法。
8. 前記所定のパーセンタイルにある値を特定するステップが、
前記シグナル強度を示す値を参照して、 第 1四分位 LQ、 第 3四分位 UQお よび中央値 Mを求めるステヅプを含み、 かつ、
前記バックグラウンド値を推定するステップが、
バックグラウンド値 x= (UQ*LQ— M2) / (UQ + LQ- 2 M) ただし、 UQ + DQ— 2M= 0のとき、 x = 0
を求めるステップを含むことを特徴とする請求の範囲第 7項に記載のデータ処 理方法。
9。 さらに、 前記 DNAチップのスポットの配列にしたがって、 前記スポッ トを 複数のグループに分類するステップと、
前記グループごとに、 当該グループを構成するスポッ トに関する対数変換値 から、 その中央値を特定するステップと、
前記対数変換値の各々から、 前記中央値を減算するステップとを備えたこと を特徴とする請求の範囲第 1項ないし第 8項の何れか一項に記載のデータ処 理方法。
10. さらに、 前記 D N Aチヅプのスポットの配列にしたがって、 前記スポッ トを 複数のグループに分類するステツプと、
前記グループごとに、 当該グループを構成するスポッ トに関するシグナル強 度を示す値から、 その中央値を特定するステップと、
前記シグナル強度を示す値の各々を、 前記中央値で除算するステップとを備 えたことを特徴とする請求の範囲第 1項ないし第 8項の何れか一項に記載の データ処理方法。
11. 前記分類するステップが、
前記 D NAチップ中の、 1または複数の列、 或いは、 1または複数の行ごと に、 当該列或いは行に含まれるスポッ トに関する対数値を取得するステップを 有することを特徴とする請求の範囲第 9項または第 1 0項に記載のデータ処 理方法。
12. 請求の範囲第 2項に記載のデ一夕処理方法を利用して、 複数のスポットのシ グナル強度を示す値を比較する方法であって、
一方のスポットにかかる変換データの値を、 他方のスポッ トにかかる変換デ —夕の値で除算するステップを備えたことを特徴とする方法。
13. 請求の範囲第 3項に記載のデ一夕処理方法を利用して、 複数のスポットのシ グナル強度を示す値を比較する方法であって、
一方の標準化された値と他の標準化された値との差分値を算出するステップ を備えたことを特徴とする方法。
14. さらに、 前記差分値の、 所定数のべき乗を算出するステップを備えたことを 特徴とする請求の範囲第 1 3項に記載の方法。
15。 D N Aチップのハイブリダィゼ一シヨンにより、 D N Aチヅプ上に配置され た各スポッ トのシグナル強度を示す値から構成されるアレイデータを処理し て、 解析可能なデータを取得するデータ処理方法を、 コンピュータに実行させ るためのデ一夕処理プログラムであって、
前記アレイデータを取得するステップと、
当該アレイデータを構成する各スポットのシグナル強度を示す値を対数変換 するステップと、
対数変換された値を、 前記 D N Aチップのスポッ トに対応するように配置し た変換データを生成するステップとを、 前記コンピュータに実行させることを 特徴とするデータ処理プログラム。
16。 さらに、 前記対数変換された値を走査して、 その中央値を特定するステップ と、
各値から中央値を減じるステップとを、 前記コンピュータに実行させ、 これ により、 前記中央値が減じられた値からなる変換データが生成されることを特 徴とする請求の範囲第 1 5項に記載のデータ処理プログラム。
17。 さらに、 前記対数変換された値を、 z—標準化して、 標準化された値を算出 するステップを、 前記コンピュータに実行させ、 これにより、 標準化された値 からなる変換デ一夕が生成されることを特徴とする請求の範囲第 1 6項に記 載のデータ処理プログラム。
18. さらに、 シグナル強度を示す値の各々をバックグラウンド値で減じることで 得られる減算値の累積度数比に基づく正規確率グラフが、 所定の直線性を備え るようなバックグラウンド値を算出するステップを、 前記コンピュータに実行 させ、 当該コンピュータにおいて、 当該シグナル強度を示す値の各々をパック グラウンド値で減じることにより得られた値を、 対数変換の対象とするように 動作させることを特徴とする請求の範囲第 1 5項ないし第 1 7項の何れか一 項に記載のデータ処理プログラム。
19. 前記バックグランド値を算出するステップにおいて、
シグナル強度を示す値の最小値を特定するステップと、 前記最小値を含む所定の範囲を設定するステップと、
前記所定の範囲内を、 所定の数だけ分割し、 上限値、 下限値、 および、 分割 により得られる所定数の中間値をパックグラウンド値候補として算出するス テツプと、
各バックグラウンド値候補について、 前記シグナル強度を示す値の各々から バックグラウンド候補値を減じて、 減算値を算出して、 当該減算値に基づく正 規確率グラフを求めるステップと、
前記正規確率グラフのうち、 最も直線性に優れたものに利用されたバックグ ラウンド候補を特定するステップとを、 前記コンピュータに実行させ、 かつ、 特定されたバックグラウンド候補に関する直線性が十分になるまで、 前記上 限値および下限値の範囲を変更して、 再度、 バックグラウンド値候補の算出、 正規確率グラフの算出、 および、 バックグラウンド候補の特定を、 前記コンビ ユー夕に繰り返させることを特徴とする請求の範囲第 1 8項に記載のデータ 処理プログラム。
20. 前記所定の直線性を示すステップにおいて、
カイ二乗検定を実行するステヅプを、 前記コンピュータに実行させることを 特徴とする請求の範囲第 1 8項または第 1 9項に記載のデータ処理プログラ ム o
21. 前記バックグラウンド値を算出するステップにおいて、
前記シグナル強度を示す値を参照して、 2以上の所定のパーセンタイルにあ る値を特定するステップと、
前記 2以上の特定された値に基づいて、 バックグラゥンド値を推定するステ ヅプとを前記コンピュータに実行させることを特徴とする請求の範囲第 1 8 項に記載のデ一夕処理プログラム。
22. 前記バヅクグランド値を算出するステップにおいて、
前記シグナル強度を示す値から、 第 1四分位 L Q、 第 3四分位 U Qおよび中 央値 Mを求めるステヅプと、
x = ( U Q * L Q— M 2 ) / ( U Q + L Q - 2 M ) ただし、 U Q + D Q— 2 M = 0のとき、 x = 0
を求め、 求められた xをパックグラウンド値とするステップとを、 前記コンビ ュ一夕に実行させることを特徴とする請求の範囲第 2 1項に記載のデータ処 理プログラム。
23. さらに、 前記 D N Aチップのスポットの.配列にしたがって、 前記スポッ トを 複数のグル一プに分類するステップと、
前記グループごとに、 当該グループを構成するスポッ トに関する対数変換値 から、 その中央値を特定するステップと、
前記対数変換値の各々から、 前記中央値を減算するステップとを、 前記コン ピュー夕に実行させることを特徴とする請求の範囲第 1 4項ないし第 2 2項 の何れか一項に記載のデータ処理プログラム。
24. さらに、 前記 D N Aチップのスポットの配列にしたがって、 前記スポッ トを 複数のグル一プに分類するステップと、
前記グループごとに、 当該グループを構成するスポヅ トに関するシグナル強 度を示す値から、 その中央値を特定するステップと、
前記シグナル強度を示す値の各々を、 前記中央値で除算するステップとを、 前記コンピュータに実行させることを特徴とする請求の範囲第 1 5項ないし 第 2 2項の何れか一項に記載のデ一夕処理プログラム。
25.前記分類するステヅプにおいて、前記 D N Aチップ中の、 1または複数の列、 或いは、 1または複数の行ごとに、 当該列或いは行に含まれるスポットに関す る対数値を取得するステップを、 前記コンピュータに実行させることを特徴と する請求の範囲第 2 4項または第 2 5項に記載のデータ処理プログラム。
26. 複数のスポットのシグナル強度を示す値を比較するためにコンピュータを動 作させるプログラムであって、
請求の範囲第 1 6項に記載のデータ処理プログラムを構成するステップを前 記コンピュータに実行させ、 かつ、
一方のスポヅ卜にかかる変換データの値を、 他方のスポヅ トにかかる変換デ —夕の値で除算するステヅプをコンビュ一夕に実行させることを特徴とする プログラム。
。 複数のスポットのシグナル強度を示す値を比較するためにコンピュータを動 作させるプログラムであって、
請求の範囲第 1 7項に記載のデータ処理プログラムを構成するステツプを前 記コンピュータに実行させ、 かつ、
一方の標準化された値と他の標準化された値との差分値を算出するステップ をコンピュータに実行させることを特徴とするプログラム。
。 さらに、 前記差分値の、 所定数のべき乗を算出するステップを、 前記コンビ ュ一夕に実行させることを特徴とする請求の範囲第 2 7項に記載のプログラ ム o
FIG. 1
Figure imgf000032_0001
FIG. 2
Figure imgf000033_0001
FIG. 3
Figure imgf000034_0001
Figure imgf000035_0001
FIG. 5A
30-1
Figure imgf000036_0002
30-2 対数変換
Figure imgf000036_0003
FIG, 5B
Figure imgf000036_0001
FIG. 6
Figure imgf000037_0001
IK
0.4 1.6 6.3 25 100 400 0,8 3.1 13 50 200 >800 シグナル積算値の変換値 (X105)
PCT/JP2001/004697 2000-06-28 2001-06-04 Procede de traitement de donnees d'expression genique et programmes de traitement WO2002001477A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP01934523A EP1313055A4 (en) 2000-06-28 2001-06-04 METHOD FOR PROCESSING GENE EXPRESSION DATA AND PROCESSING PROGRAMS
JP2002506537A JPWO2002001477A1 (ja) 2000-06-28 2001-06-04 遺伝子発現データの処理方法および処理プログラム
AU2001260704A AU2001260704A1 (en) 2000-06-28 2001-06-04 Method for processing gene expression data, and processing programs

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2000193680 2000-06-28
JP2000-193680 2000-06-28
JP2001-024990 2001-02-01
JP2001024990 2001-02-01

Publications (1)

Publication Number Publication Date
WO2002001477A1 true WO2002001477A1 (fr) 2002-01-03

Family

ID=26594816

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2001/004697 WO2002001477A1 (fr) 2000-06-28 2001-06-04 Procede de traitement de donnees d'expression genique et programmes de traitement

Country Status (6)

Country Link
US (1) US20030182066A1 (ja)
EP (1) EP1313055A4 (ja)
JP (1) JPWO2002001477A1 (ja)
KR (1) KR20030014286A (ja)
AU (1) AU2001260704A1 (ja)
WO (1) WO2002001477A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003070938A1 (fr) * 2002-02-21 2003-08-28 Ajinomoto Co., Inc. Analyseur de donnees d'expression genique et procede, programme et support d'enregistrement pour l'analyse des donnees d'expression genique
WO2008056693A1 (fr) * 2006-11-08 2008-05-15 Akita Prefectural University Procédé de traitement de données de micro-réseau d'adn, dispositif de traitement et programme de traitement
WO2009076600A2 (en) * 2007-12-12 2009-06-18 New York University System, method and computer-accessible medium for normalizing databases through mixing
JP2010510557A (ja) * 2006-11-21 2010-04-02 公立大学法人秋田県立大学 Dnaマイクロアレイデータにおける欠陥を検出する方法
JP6300215B1 (ja) * 2017-04-27 2018-03-28 節三 田中 植物の特性を増強する方法
WO2018199293A1 (ja) * 2017-04-27 2018-11-01 節三 田中 植物の特性を増強する方法及び無核果実の生産方法
JP2018183132A (ja) * 2017-10-10 2018-11-22 節三 田中 植物の特性を増強する方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020183936A1 (en) * 2001-01-24 2002-12-05 Affymetrix, Inc. Method, system, and computer software for providing a genomic web portal
CA2472733C (en) * 2002-01-18 2012-03-06 Syngenta Participations Ag Probe correction for gene expression level detection
US20050096850A1 (en) * 2003-11-04 2005-05-05 Center For Advanced Science And Technology Incubation, Ltd. Method of processing gene expression data and processing program
KR100601980B1 (ko) * 2005-01-04 2006-07-18 삼성전자주식회사 유전자형 데이터 분석 방법 및 장치
US20060194215A1 (en) * 2005-02-28 2006-08-31 Kronick Mel N Methods, reagents and kits for reusing arrays
US20070116376A1 (en) * 2005-11-18 2007-05-24 Kolterman James C Image based correction for unwanted light signals in a specific region of interest
US8473217B1 (en) 2007-10-31 2013-06-25 Pathwork Diagnostics, Inc. Method and system for standardization of microarray data
US7747547B1 (en) 2007-10-31 2010-06-29 Pathwork Diagnostics, Inc. Systems and methods for diagnosing a biological specimen using probabilities
CN112819751B (zh) * 2020-12-31 2024-01-26 珠海碳云智能科技有限公司 多肽芯片检测结果的数据处理方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6502039B1 (en) * 2000-05-24 2002-12-31 Aventis Pharmaceuticals Mathematical analysis for the estimation of changes in the level of gene expression

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SCHUCHHARDT J. ET AL.: "Normalization strategies for cDNA microarrays", NUCLEIC ACIDS RESEARCH, vol. 28, no. 10, 15 May 2000 (2000-05-15), pages E47 (I-V), XP002944712 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003070938A1 (fr) * 2002-02-21 2003-08-28 Ajinomoto Co., Inc. Analyseur de donnees d'expression genique et procede, programme et support d'enregistrement pour l'analyse des donnees d'expression genique
WO2008056693A1 (fr) * 2006-11-08 2008-05-15 Akita Prefectural University Procédé de traitement de données de micro-réseau d'adn, dispositif de traitement et programme de traitement
JP5147073B2 (ja) * 2006-11-08 2013-02-20 公立大学法人秋田県立大学 Dnaマイクロアレイデータの処理方法、処理装置及び処理プログラム
JP2010510557A (ja) * 2006-11-21 2010-04-02 公立大学法人秋田県立大学 Dnaマイクロアレイデータにおける欠陥を検出する方法
WO2009076600A2 (en) * 2007-12-12 2009-06-18 New York University System, method and computer-accessible medium for normalizing databases through mixing
WO2009076600A3 (en) * 2007-12-12 2009-08-20 Univ New York System, method and computer-accessible medium for normalizing databases through mixing
JP6300215B1 (ja) * 2017-04-27 2018-03-28 節三 田中 植物の特性を増強する方法
WO2018199293A1 (ja) * 2017-04-27 2018-11-01 節三 田中 植物の特性を増強する方法及び無核果実の生産方法
JP2018183112A (ja) * 2017-04-27 2018-11-22 節三 田中 植物の特性を増強する方法
US11350583B2 (en) 2017-04-27 2022-06-07 Setsuzo TANAKA Method for enhancing plant characteristics and method for producing seedless fruit
JP2018183132A (ja) * 2017-10-10 2018-11-22 節三 田中 植物の特性を増強する方法

Also Published As

Publication number Publication date
EP1313055A4 (en) 2004-12-01
EP1313055A1 (en) 2003-05-21
US20030182066A1 (en) 2003-09-25
JPWO2002001477A1 (ja) 2004-03-04
AU2001260704A1 (en) 2002-01-08
KR20030014286A (ko) 2003-02-15

Similar Documents

Publication Publication Date Title
Yang et al. Comparison of methods for image analysis on cDNA microarray data
WO2002001477A1 (fr) Procede de traitement de donnees d'expression genique et programmes de traitement
Forster et al. Experiments using microarray technology: limitations and standard operating procedures
US6980677B2 (en) Method, system, and computer code for finding spots defined in biological microarrays
Knudsen Guide to analysis of DNA microarray data
Hess et al. Microarrays: handling the deluge of data and extracting reliable information
Karakach et al. An introduction to DNA microarrays for gene expression analysis
Balagurunathan et al. Simulation of cDNA microarrays via a parameterized random signal model
US20030087289A1 (en) Image analysis of high-density synthetic DNA microarrays
Bajcsy An overview of DNA microarray image requirements for automated processing
Daskalakis et al. Improving gene quantification by adjustable spot-image restoration
JP4266575B2 (ja) 遺伝子発現データの処理方法および処理プログラム
EP1134687B1 (en) Method for displaying results of hybridization experiments
KR100437253B1 (ko) 마이크로어레이 모사 이미지 생성 시스템 및 그 방법
Rafii et al. Data pre-processing and reducing for microarray data exploration and analysis
EP1583020A2 (en) Program, method and device for analysis of the time-series data obtained by DNA array method
US20050164187A1 (en) Simulating microarrays using a parameterized model
Wildsmith et al. Gene expression analysis using microarrays
KR100435833B1 (ko) 바이오칩 이미지 분석 시스템 및 그 방법
Bergemann et al. Statistical issues in signal extraction from microarrays
Wilson et al. Experimental design and analysis of microarray data
Nádvorníková Normalisation algorithms for spatially resolved transcriptomic data
Daskalakis et al. Genes expression level quantification using a spot-based algorithmic pipeline
Karun Estimation of correlation between various types of pixel intensities in a single spot
Podila et al. 24 Microarray Data Collection

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ PL PT RO RU SD SE SG SI SK SL TJ TM TR TT TZ UA UG US UZ VN YU ZA ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR BF BJ CF CG CI CM GA GN GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
ENP Entry into the national phase

Ref document number: 2002 506537

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 10311691

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2001934523

Country of ref document: EP

Ref document number: 1020027017888

Country of ref document: KR

WWP Wipo information: published in national office

Ref document number: 1020027017888

Country of ref document: KR

REG Reference to national code

Ref country code: DE

Ref legal event code: 8642

WWP Wipo information: published in national office

Ref document number: 2001934523

Country of ref document: EP