WO2003085548A1 - Dispositif et procede d'analyse de donnees - Google Patents

Dispositif et procede d'analyse de donnees Download PDF

Info

Publication number
WO2003085548A1
WO2003085548A1 PCT/JP2003/004059 JP0304059W WO03085548A1 WO 2003085548 A1 WO2003085548 A1 WO 2003085548A1 JP 0304059 W JP0304059 W JP 0304059W WO 03085548 A1 WO03085548 A1 WO 03085548A1
Authority
WO
WIPO (PCT)
Prior art keywords
variable
state
data
living body
data analysis
Prior art date
Application number
PCT/JP2003/004059
Other languages
English (en)
French (fr)
Inventor
Toshio Ishikawa
Takashi Kume
Original Assignee
Ishihara Sangyo Kaisha, Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ishihara Sangyo Kaisha, Ltd. filed Critical Ishihara Sangyo Kaisha, Ltd.
Priority to JP2003582665A priority Critical patent/JPWO2003085548A1/ja
Priority to AU2003220998A priority patent/AU2003220998A1/en
Priority to KR10-2004-7015515A priority patent/KR20040111456A/ko
Priority to CA002481485A priority patent/CA2481485A1/en
Priority to US10/509,886 priority patent/US20050159896A1/en
Priority to EP03715637A priority patent/EP1498825A1/en
Publication of WO2003085548A1 publication Critical patent/WO2003085548A1/ja

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Definitions

  • the present invention relates to a multivariate analysis process of the state of a living body and the amount of gene expression and / or the amount of an intracellular substance, and a measuring device and an assay method which can be performed based on the process.
  • Techniques for efficiently measuring the gene expression state include the following.
  • a DNA chip that carries multiple types of DNA on its base and complements it: mRNA is known.
  • Typical DNA chips include gene chips and DNA microarrays.
  • those that specify the proteome (total protein) include those using two-dimensional electrophoresis, antibody chips, and mass spectra.
  • techniques for measuring metabolome have been attempted by mass spectrometry, and progress has been made.
  • J. Khan et al. Used a DNA chip to measure the cells of pediatric cancer patients and described the malignancy by using a dual neuronal network (Nature Medicine, 7 (6), 673-79).
  • the transcriptome (6567 genes) of 8 patients with childhood cancer (SRBCT) was measured, and the data of 63 of them were compressed to 10 dimensions by principal component analysis, and then artificial neural networks A diagnostic model was built. Here, the top influential genes were narrowed down by cross-validation, and the best performance (100%) was obtained with 96 genes. This model predicted the remaining 25 people, with 93-100% results.
  • an all-variable model must first be established in order to gain influence. No other variable selection method has been devised. It can handle the case of small variables such as 10 dimensions, but cannot be applied when the number of variables is huge.
  • Partial least squares latent variables It has been reported that good results are obtained when is used as an explanatory variable in multivariate analysis such as linear discriminant analysis. This is possible because the partial least squares method is a method that can perform dimensional compression and model fitting simultaneously. The example shown in the report shows that the partial least squares method is an excellent model for DNA chip information. However, the report does not mention the application of the least squares method as a means for selecting important gene abundances, and the analysis is performed using all explanatory variables selected by prior preprocessing. Include the same issues as the research by A. Alaiya et al.
  • the partial least squares method is a powerful multivariate analysis method that performs dimensional compression and model fitting at the same time.
  • the number of variables becomes enormous, significant results often cannot be obtained. Therefore, effective information processing that can obtain useful knowledge from a vast amount of gene expression information is desired.
  • efficient measurement equipment and verification processing based on the results of such information processing are expected. Disclosure of the invention
  • An object of the present invention is to provide effective information processing of multivariate gene expression information and intracellular substance information.
  • Another object of the present invention is to provide an efficient test process. (How to solve it)
  • the data analyzer uses the state of a living body or a change in the state of the living body that occurs stochastically with time as an objective variable, and uses the amounts of multiple gene expressions and / or the amounts of intracellular substances as explanatory variables.
  • a data analysis device for determining a correlation model to perform, comprising: a state of a living body, data derived therefrom, or data relating to a change in the state of a living body that occurs stochastically with time; Input means for inputting a set of samples consisting of the amount of internal substances; (1) selecting means for selecting explanatory variables; and (2) calculating means for calculating cross-validation results by executing a partial least squares method or Applying the force plan's Meyer method or the life table by the force trajedeler method to the data on changes in the state of the living body, the probability obtained by calculating the probability of no change occurring was calculated.
  • the evaluation decision means of (3) is executed to determine a partial least squares model by continuously improving at least the function of the partial least squares model having an independent verification result as an independent variable.
  • the selection means sequentially selects and explains the explanatory variables, or selects the explanatory variables using a genetic algorithm, for example.
  • the calculation means for example, sequentially excludes one sample or sequentially excludes a plurality of samples and executes a partial least squares method to calculate a cross-validation result.
  • the evaluation determining means may include, for example, an objective variable value indicating a state of a living body predicted from gene expression of a sample excluded in each calculation, and an objective variable value indicating a state of a living body of the excluded sample, based on a result of the calculating means.
  • the representative value of the error is calculated. If the representative value of the error becomes smaller, it is determined that the cross-validation result has been improved, and the evaluation of the cross-validation result is repeated while selecting the explanatory variables.
  • a function having at least a partial least squares cross-validation model as an independent variable improves instead of a cross-validation score can be used as a criterion for evaluation.
  • the determining means determines the partial least squares model by repeatedly executing the selecting means, the calculating means, and the evaluation determining means to continuously improve the cross-validation results of the partial least squares method model.
  • selection means and calculation The steps can be executed by a plurality of computers.
  • the above-described conversion based on the assumed distribution or conversion not based on the assumption is performed so that the probability of a change in the state of a living body can be analyzed by a polynomial of an explanatory variable.
  • a distribution we converted the probability into a negative number after logarithmic transformation and divided it by the time of observing the change in state, and made the probability into a negative number after logarithmic transformation and made it logarithmic.
  • the conversion can be conceived by dividing the thing by the time when the state change is observed, or by converting the result obtained by reducing the probability from 1 to probit conversion and dividing by the time when the state change is observed.
  • a method such as logit transformation can be considered.
  • the method of transformation can be chosen appropriately for each case by determining what assumptions are or are not made for the distribution.
  • a function having the cross-validation results of at least the partial least squares model as independent variables for example, a function of the representative value of the error and the number of selected explanatory variables can be considered, or a function including other independent variables. May be.
  • the function is a monotonically decreasing function of the representative value of the error and a monotonically decreasing function of the number of explanatory variables.
  • a function that can be easily calculated is desirable in order not to increase the amount of calculation.
  • a function -PRESS X alpha N P can be considered.
  • PRESS is the prediction residual sum of squares
  • NP is the number of explanatory variables employed
  • alpha is 1 or a real number greater than 1. Also, -? 13 ⁇ 433 ( ⁇ 3 + 1361 &) " 1 " 1 3 ⁇ -
  • the function PRESS X (beta-NP) samma can also be considered. Where gamma is a positive real number.
  • a better model is obtained by using the explanatory variables selected using the partial least squares method as the explanatory variables of the statistical method or the multivariate analysis method.
  • a better model is obtained by using the latent variables of the partial least squares model using the selected explanatory variables as explanatory variables for the statistical method or the multivariate analysis method.
  • the latent variables are those commonly used in the partial least squares method, and the latent variables with a small number of dimensions (Tik) behind the objective variable (Yil) and the explanatory variable (Xij) Can be extracted Dimensional compression of least squares method, model fit.
  • Statistical methods or multivariate analysis methods include multiple regression analysis, linear discriminant analysis, adaptive least squares, mouth-distic regression analysis, proportional hazard analysis, and discriminant analysis using Mahalanobis distance. , The kN method, and artificial neural networks.
  • the present inventors also arbitrarily narrow down the explanatory variables to be selected by optimizing a function including the number of explanatory variables as the second independent variable, in addition to the cross-validation results such as Q 2 and PRESS value.
  • a function including the number of explanatory variables as the second independent variable in addition to the cross-validation results such as Q 2 and PRESS value.
  • the desired range of the number of explanatory variables NP to be extracted may be determined in consideration of the number of samples.
  • the function can be changed arbitrarily according to the desired number of selections.
  • the function form is -PRESS X alpha NP , for example, a value of 1.0 to 3.0 is usually desirable as the constant alpha in order to reduce the number of explanatory variables from several to several tens.
  • alpha has a value of 1.0 to 2.0.
  • f PRESS, NP
  • f PRESS_MP, MP
  • a model using a statistical method or a multivariate analysis method can be constructed. Therefore, the analysis can be added using statistical methods or multivariate analysis methods whose properties are well understood.
  • the change in the state of the living body that occurs stochastically with time can be determined with the amount of substance inside.
  • the “probable change in the state of a living body with time” is, for example, the survival time. You.
  • the partial least squares method described above is combined with the force plan 'Meyer method or the Cutler's method and the logit transformation.
  • the objective variable in the partial least squares method is Cabran for data on changes in the state of living organisms that occur stochastically with time; no change occurs when the life table by the Meyer method or the force-Tender-Ederer method is applied. This is the value obtained by calculating the probability of this
  • the cross-validation results are calculated by executing the partial least squares method using the logit value as the objective variable. In this way, in the same way as described above, survival variables can be analyzed by extracting explanatory variables taking into account the cross-validation results of the partial least squares method.
  • a model is constructed using a statistical method or a multivariate analysis method that explains the probabilistic change in the state of the living body over time.
  • other statistical methods or multivariate analysis methods for example, proportional hazards methods or regression analysis methods applied to parametric distributions
  • the proportional hazards method is a method devised by Cox, which takes time into account for survival rate analysis and can handle multivariate variables.
  • the force plan-meyer method shows the evolution of survival rates for the entire population or group.
  • the parametric distribution is a probability distribution calculated from Gauss's proposed normal distribution force.
  • survival time analysis exponential distribution, Waipur analysis, and lognormal distribution are used.
  • the expression levels of multiple genes and / or the quantity of intracellular substances that are input as explanatory variables by the input means are not necessarily limited to the measured values of the absolute concentrations of the substances, but are processed and calculated values. It may be a relative value, an amount that indirectly represents a substance amount, or the like.
  • the expression level of a protein can be measured with a mass spectrum, it is possible to construct a correlation model that directly relates an objective variable representing the state of a living body to a mass spectrum.
  • Affymetrix type DNA chips gene chips
  • a single spot does not always specify a single gene expression, but a single gene expression must be specified only when a plurality of spots gather. There is also.
  • each peak of a protein electrophoresis pattern cannot be assigned to a single protein, and is often a superposition of multiple proteins.
  • each peak intensity can be used as an explanatory variable for explaining the state of the living body. This is evident from the fact that Alaiya et al. Mentioned above adopted the peak intensity of the electrophoresis pattern as an explanatory variable for the diagnosis of uterine cancer.
  • a change in the state of a living body that occurs stochastically with the state of the living body or time is used as an objective variable, and the amounts of a plurality of gene expressions and / or the amounts of intracellular substances are used as explanatory variables.
  • a data analysis method for determining a correlation model comprising: a state of a living body, data derived therefrom, or data relating to a change in the state of a living body that occurs stochastically with time; An input step of inputting a set of samples consisting of substance amounts; (1) a selection step of selecting an explanatory variable; and (2) a calculation step of calculating a cross-validation result by performing a partial least squares method or the biological step.
  • the selecting step includes, for example, sequentially selecting and explaining an explanatory variable or selecting an explanatory variable using a genetic algorithm.
  • the calculation step for example, one sample is sequentially excluded, or a plurality of samples are sequentially excluded, and a partial least squares method is executed to calculate a cross-validation result.
  • the evaluation determining step includes, for example, from the result of the calculating step, an objective variable value indicating the state of the living body predicted from the gene expression of the sample excluded in each calculation, and an object indicating the state of the living body of the excluded sample.
  • the selection step for example, the selection step, the calculation step, and the evaluation determination step are repeatedly performed to continuously improve the cross-validation results of the partial least squares model, and determine the partial least squares model. Further, the selection step and the calculation step can be executed by a plurality of computers.
  • the data analysis program uses the state of a living body or a change in the state of a living body that occurs stochastically with time as a target variable, and describes the amount of expression of a plurality of genes or the amount of a substance in a cell.
  • a computer-executed data angle analysis program that determines a correlation model to be used as a variable.
  • the calculation step for calculating the cross-validation results or the data on the transformation of the state of the living body may be added to the life plan according to the force plan Meyer method or Cutler-Jedler method.
  • the selection step selects, for example, the explanatory variables sequentially or selects the explanatory variables using a genetic algorithm.
  • the calculation steps include, for example, sequentially excluding one sample or sequentially excluding multiple samples and performing a partial least squares method to calculate the cross-validation results.
  • the evaluation determination step includes, for example, an objective variable value indicating the state of the living body predicted from the expression of the gene of Sampnolet excluded in each calculation from the result of the calculation step, and an objective variable indicating the state of the living body of the excluded sample.
  • the cross-validation performance was improved when the representative value of the error from the value was calculated and at least the value of the monotonically decreasing function of the representative value of the error, which is a function having the representative value of the error as an independent variable, became smaller.
  • Judge and repeat evaluation evaluation of cross-validation results while selecting and explaining explanatory variables In the decision step, for example, by repeatedly executing the selection step, the calculation step, and the evaluation judgment step, at least the function having the cross-validation results of the partial least squares model as an independent variable is continuously improved and the partial least squares model is decide.
  • the selecting step and the calculating step can be executed by a plurality of computers.
  • a force that does not include any explanatory variables in the initial state, or all explanatory variables can be included in the initial state.
  • the above-mentioned condition of the living body is, for example, a measurement value representing a disease type, a measurement value representing a severity of a disease, a medical diagnosis representing a disease type, a result of a medical diagnosis representing a disease type, and a severity of a disease.
  • results of medical diagnosis or numerical values obtained by secondary processing of them.
  • predicting the survival time of a patient can provide important information in deciding treatment plans and life plans, including quality of life (Q0L).
  • socially valuable diagnosis Models can be provided. Predicting the likelihood of cancer recurrence also provides valuable information for physicians or patients in making treatment plans that take into account Q0L.
  • the present invention provides an input means for inputting an explanatory variable adopted in the model for the determined correlation model and the sample to be predicted, and a living body of the sample based on the input explanatory variable.
  • a data analysis device comprising prediction determination means for predicting and determining a state; an input step of inputting an explanatory variable adopted in the model with respect to the correlation model determined in the above and a sample to be predicted; and the input explanatory variable
  • a data analysis method comprising: a prediction determination step of predicting and determining the state of the living body of the sample based on the input method; and an input step of inputting an explanatory variable adopted in the model with respect to the correlation model determined above and the sample to be predicted.
  • a computer-readable recording medium records any of the above programs.
  • the intracellular substance measuring device and method for measuring the severity of diffuse large B-lymphoma according to the present invention and the method for assaying the severity of diffuse large B-lymphoma are substantially the same as GeneBank Session. number U15085, M23452 N X52479, U70426, detecting the expression of genes consisting of H57330 and S69790.
  • Genebank accession numbers are U03398, M65066, AK0046, BC003536, X00437, U12979,
  • the expression of at least one gene selected from the group consisting of H96306, M830781 and M804793 may be detected.
  • An intracellular substance measuring device and method for measuring the severity of breast cancer, and a method of measuring the severity of breast cancer include: an intracellular substance containing a gene product having a gene bank accession number of AA598572, M703058 and M453345. Is detected. Further, an intracellular substance containing at least one gene product having a gene bank accession number selected from the group consisting of AA406242, H73335, W84753, N71160, M054669, N32820 and R05667 may be detected.
  • Equipment and method for measuring intracellular substances for L cancer recurrence assay substantially detects an intracellular substance containing a gene product having a Genebank accession number of W84753, H08581, M045730, and AI250654. Further, an intracellular substance containing at least one gene product having a gene bank accession number selected from the group consisting of M448641, R78516, R05934, M629838 and 53037 may be detected.
  • the apparatus and method for measuring intracellular substances for breast cancer recurrence assay and the breast cancer recurrence assay method according to the present invention are substantially the same as Genebank Accession numbers AA434397, T83209, ⁇ 53427, ⁇ 29639, ⁇ 485739, AA425861. , ⁇ 84871 ⁇ 64312, T59518 and ⁇ 037488. Further, an intracellular substance containing a gene product having a gene bank accession number of M406231 may be detected.
  • the apparatus and method for measuring an intracellular substance for breast cancer recurrence assay and the breast cancer reproducibility assay method according to the present invention are characterized in that the gene product having a GeneBank accession number substantially consisting of HI 1482, T64312 and M045340 is used.
  • Detect intracellular substances including Equipment for measuring intracellular substances include DNA microarrays, gene chips, and oligos.
  • DNA chips such as DNA type DNA chips, electrochemical DNA chips (ECA chips), fiber type DNA chips, magnetic bead DNA chips (PSS), and thread-wound DNA chips (PSS), etc., DNA chips, macro arrays, and antibody chips And measurement reagent kits. Further, a measuring machine in which the above-mentioned equipment is appropriately incorporated may be used.
  • Figure 1 is a block diagram of the gene expression analysis system.
  • FIG. 2 is a flowchart of the analysis software.
  • Figure 3 is a flowchart for calculating the cross-validation results CV.
  • Figure 4 is a flowchart of the first model construction method for variable selection.
  • FIG. 5 is a flowchart of a second model construction method of variable selection.
  • FIG. 6 is a flowchart of the third model construction method of variable selection.
  • FIG. 7 is a flowchart of the fourth model construction method of variable selection.
  • FIG. 8 is a flowchart of the fifth model construction method of variable selection.
  • Figure 9 is a graph showing the results of the least squares model.
  • FIG. 10 is a diagram comparing plots of the survival time of DLBCL patients with diagnostic indices.
  • FIG. 11 is a diagram of a plot of a diagnostic index for survival time of a DLBCL patient of Example 2.
  • FIG. 12 is a plot of a diagnostic index for survival time of a breast cancer patient in Example 3.
  • FIG. 13 is a plot of survival time diagnostic indices when P 0.0005 is adopted as a reference for deleting variables of breast cancer patients in Example 3.
  • FIG. 14 is a plot of a diagnostic index for recurrence time of a breast cancer patient in Example 7.
  • FIG. 15 is a plot of a recurrence time diagnostic index when P ⁇ 0.025 is adopted as a variable elimination criterion for breast cancer patients in Example 7.
  • FIG. 16 is a diagram illustrating how the partial least squares model is optimized by the genetic algorithm according to the ninth embodiment.
  • FIG. 17 is a diagram illustrating four topologies in the hierarchical artificial neural network according to the tenth embodiment.
  • FIG. 18 is a graph of a survival time diagnostic index of a breast cancer patient of the proportional hazard model using the latent variable of Example 11;
  • FIG. 19 is a graph of the predicted value and the calculated value of the diagnostic index for the survival time of breast cancer patients in the proportional hazard model using the latent variables of Example 11; BEST MODE FOR CARRYING OUT THE INVENTION
  • the term of gene expression is used to include mRNA expression (transcriptome) and protein (proteome) resulting from translation by mRNA.
  • the amount of the intracellular substance herein means, for example, metabolome which is the entire metabolite including metabolic intermediates.
  • mRNA transcriptome
  • proteome protein
  • each sample data includes the state of a living body and the amount of gene expression.
  • Each sample contains an enormous amount of gene expression, for example 1000 or more.
  • the state of the organism is, for example, the type of disease or a diagnostic indicator of the disease, but more generally the biological information Should be fine.
  • “Diagnosis index of disease” includes not only the degree of progression of the disease, but also information expressed in terms of the type, severity, and severity of the disease.
  • measurement data such as the amount of gene expression consists of an enormous amount of information, so efficient multivariate analysis using a computer is necessary.
  • the state of a living body eg, diagnostic index
  • a cell fluid is obtained from the sampled sample, and the amount of expression of many gene products in the cell fluid is determined. Is measured.
  • the expression amount and the like of the gene product thus obtained and the state of the living body are input, and a correlation model (for example, a partial least squares model) is obtained.
  • a computer-assisted multivariate analysis program was used to perform a causal relationship analysis using the diagnostic index as the target variable and the amount of gene expression and / or the amount of cell / substance as an explanatory variable, Get information about the importance and impact of variables.
  • the objective variable does not necessarily need to be the measurement line itself, but may be a value obtained by performing a mouth-to-mouth conversion or a discrete value representing a group, in which case a more significant result may be obtained. it can.
  • the present inventors have found that, in the field of medical diagnosis based on gene expression, by selecting variables so as to optimize a function having at least one of cross-validation results in data analysis as an independent variable.
  • a simple correlation model for example, a partial least squares model
  • the cross-validation method divides the data on hand into multiple groups, and predicts the remaining data group (test set) using a model fitted using only some of the data groups (training set). Test the predictive power of the model.
  • PLS partial least squares method
  • the cross-validation method is used to select the dimension of the latent variable.
  • the latent variable is fixed to one dimension and one or more inputs are set.
  • Variables were selected sequentially, and functions that had cross-validation results (for example, sum of squares prediction errors) as at least one of the independent variables were optimized.
  • the effect of the present invention does not limit the dimension of the latent variable to 1.
  • Sequential selection of variable selection using this cross-validation method As a result, a stable correlation model can be obtained.
  • the present inventors can obtain a good correlation model for statistics or multivariate analysis other than the partial least squares method by narrowing the explanatory variables by appropriately setting the function form.
  • variable selection method it is possible to specify a small number of factors that determine the disease state and to design inexpensive diagnostic materials (such as DNA chips, antibody chips, and DNA-containing vectors), which have their own unique value. Things.
  • this variable selection method can be operated with various variable selection conditions set in advance.
  • the explanatory variables are selected sequentially based on the cross-validation results.
  • a function having the cross-validation results as at least one of the independent variables is used.
  • the explanatory variable is excluded when it is determined that the function has not been improved, and the explanatory variable is added when it is determined that the function has been improved.
  • the explanatory variable is not excluded when it is determined that the function has not been improved, and the explanatory variable is excluded when it is determined that the function has been improved. I do.
  • the cross-validation performance evaluation proceeds as follows.
  • a partial least squares model is obtained by sequentially excluding some samples from the n samples, and the objective variable indicating the biological state predicted from the amount of gene expression of the excluded sample in each model, and the excluded sample
  • the representative value of each error with respect to the objective variable ⁇ indicating the state of the living body is obtained.
  • “Representative value” means a value that characterizes data such as sum, average, maximum value, median value, and mode value. If the function that uses the representative value of the error as at least one independent variable becomes smaller, it is determined that the cross-validation results have been improved, and the explanatory variable is added or deleted. This cross-validation performance evaluation is sequentially repeated while selecting and explaining explanatory variables, and the function is continuously improved.
  • the selection of the explanatory variables is terminated assuming that the cross-validation results have been optimized.
  • an optimal partial least squares model consisting of the number of explanatory variables narrowed down by selection is obtained.
  • the expected residual sum of squares (PRESS) is adopted as a numerical index of the cross-validation results calculated by the calculation means, and the value of the expected residual sum of squares is less than a certain threshold per explanatory variable by the evaluation judgment means. If the ratio becomes smaller, the above process can be executed by determining that the explanatory variable is adopted. In the causal analysis method, some measures must be taken to avoid overfitting.
  • the term overfit means that although there are too many explanatory variables, the prediction result and the actual result coincide with each other, but the true correlation is lost.
  • the partial least squares method is used as the correlation model.
  • the partial least squares method is a powerful multivariate analysis method that simultaneously performs dimensional compression and model fitting, and is relatively resistant to the problem of overfitting.
  • significant situations cannot be achieved.
  • the methods of Alaiya and Khan described as conventional techniques are based on the assumption that all variable models are significant, and therefore cannot be generally applied to narrowing down variables.
  • overfitting can be reduced by narrowing down variables so as to optimize the cross-validation prediction result.
  • the present invention is a method that does not involve preprocessing such as principal component analysis, unlike the Khan method.
  • preprocessing such as principal component analysis
  • the explanatory variables are enormous, it is not possible to obtain a significant model.
  • pre-processing is performed in advance based on all explanatory variables, for example, by dimension compression using principal component analysis. Therefore, a method of analyzing using the obtained explanatory variables is used.
  • all the explanatory variables on which the model was constructed are necessarily required. For example, if the explanatory variable is the amount of gene expression, the As the gene to be carried, it is necessary to select a variable using a force that requires all the genes used in the model construction or another method.
  • the explanatory variables are narrowed down by selecting the explanatory variables.
  • the explanatory variables are the amounts of gene expression
  • the genes carried on the diagnostic gene chip are the selected explanatory variables. It is sufficient to carry a gene corresponding to To predict the decomposition of organic compounds in the atmosphere, Todeschini et al. Variable selection is performed to optimize cross-validation results by the algorithm, and multiple regression model is obtained (P. Graraatics, V. Consonni & R. Todeschini, Chemosphere 38 (5), 1371-78 (1999)) .
  • This is a method similar to the present embodiment in that variables are selected so as to optimize the cross-validation results.
  • variables are selected so as to optimize the cross-validation results.
  • due to the use of multiple regression models only a small number of variables are selected during the process of selecting explanatory variables, and the amount of multiple gene expression and / or the amount of Not applicable for analysis.
  • the method of optimizing the Q 2 and PRESS value over several hundred degrees from the explanatory variables hundred extent that is selected becomes impossible analysis is regression model.
  • Todeschini et al. Mention a valid way to refine the explanatory variables.
  • a function having cross-validation results at least as one of the independent variables is optimized.
  • the explanatory variables are selected and a good correlation model is obtained.
  • the explanatory variables are selected in a stepwise manner so as to optimize a function having the cross-validation result as at least one of the independent variables.
  • a representative example is a stepwise method. Selecting means for selecting an explanatory variable to be calculated; calculating means for applying a partial least squares method to a cross-validation method represented by a leave-one-out method; Evaluate the results of Use in combination with evaluation and judgment means for judging whether or not to use. That is, one or more explanatory variables are selected from among the m explanatory variables, and then a partial least squares method is executed to calculate the cross-validation results. Determines whether a variable has been adopted or not.
  • an objective variable value indicating the state of the living body predicted from the gene expression of the sample excluded in each calculation, and an objective variable value indicating the state of the living body of Sampnolle excluded above The representative value of the error is calculated, and when at least the value of the monotonically decreasing function of the representative value of the error, which is a function having the representative value of the error as an independent variable, becomes smaller, the selection of the explanatory variable is determined. In this way, using the selection means, the calculation means, and the evaluation judgment means, the function having at least the cross-validation result of the partial least squares model as an independent variable is continuously improved until the improvement is not observed. Determine the partial least squares model.
  • the samples are sequentially excluded one by one (Leave 'one' out method), but instead, a plurality of samples may be excluded and the cross-validation results may be evaluated ( (Leave-n-Part method), and other methods such as the three-fold method used by Khan et al. Can also be used.
  • the explanatory variables are randomly shuffled into three groups.
  • the model is constructed using the two groups, and the model is evaluated with the remaining one group.
  • a stepwise method or a non-linear algorithm for example, a genetic algorithm
  • the search range is limited accordingly. it can.
  • Figure 1 shows a gene expression analysis system.
  • diagnostic indices including, for example, disease type or progression
  • cell fluids are obtained from the sampled samples, and the samples are collected using a DNA chip.
  • a confocal laser scanner eg, Affymetrix, 4288 array scanner
  • Absorbance measures the amount of mRNA.
  • the measurement data is sent to the computer 12 and subjected to angular shaking.
  • the computer 12 is a computer having a normal configuration including the CPU 14 and a storage device connected to the computer (for example, a hard disk drive).
  • the measurement data 18 and the analysis software 20 are stored in the recording medium (for example, a node disk) of the disk device 16.
  • the data 18 is analyzed using the analysis software 20, and a correlation model between the state of the living body and the amount of gene expression is determined.
  • the selection of the explanatory variable and the calculation of applying the partial least squares method to the cross-validation method may be executed by a plurality of computers.
  • the calculation can be accelerated by distributing the calculation of the cross-validation prediction to multiple computers.
  • FIG. 2 shows a flowchart of the data analysis software 20 executed by the computer 12 to obtain a correlation model between the state of a living body and the amount of gene expression.
  • -PRESS is adopted as a function having at least the cross-validation results of the partial least squares model as an independent variable.
  • data for creating a correlation model is input (S10).
  • the data was collected using, for example, a DNA chip.
  • the input data (sampno) is composed of an objective variable (for example, a diagnostic index) and m (for example, 2000) explanatory variables (for example, the amount of gene expression).
  • an objective variable for example, a diagnostic index
  • m for example, 2000
  • explanatory variables for example, the amount of gene expression.
  • data of a test set is input.
  • the test set does not mean a data group for evaluating cross-validation, but a data group for testing the prediction power of the model after the model decision is completed.
  • the number of selected explanatory variables is set to 0, and the best value CV of the cross-validation results is set. (S 1 2).
  • select an explanatory variable select an explanatory variable.
  • the number i indicating the explanatory variable is set to 1 (S14)
  • the ith variable (the amount of gene expression) is temporarily adopted (S16)
  • the partial least squares method is executed, and the cross-validation result CV is calculated. Calculate (S18, see Figure 3). Here, leave 'one' out processing is used.
  • the result of predicting the remaining 49 samples by removing all of the 1st to 50th one by one, and the 1 This method compares the result with, and if the error is large, determines that the tentatively selected explanatory variable (the i-th variable) is not suitable. If the obtained result CV is the current best value CV. If it is more optimized (YES in S20), the i-th variable is adopted and the grade CV is a new best value CV. Update to (S22). The CV obtained is the best CV. Greater than If not (NO in S20), the i-th variable is not adopted (S24). Then, returning to step S14, the same processing is repeated.
  • Figure 3 shows the cross-validation results CV calculation including leave-one-art processing ( Figure 2, S1
  • the flowchart of 8) is shown.
  • cross-validation results are calculated for the selected variables.
  • the initial value of PRESS is set to 0 (S180).
  • the number j indicating the samples in the n sets is set to 1 (S182), and the partial least squares method is performed on n ⁇ 1 samples other than the first sample (S184), and the jth sample is sampled.
  • the square of the difference is calculated and added to PRESS (S190).
  • the obtained PRESS is the sum of the squares of the difference between the predicted value and the measured value calculated by sequentially excluding one sample, and is a quantity representing the prediction error.
  • a value obtained by changing the sign of the prediction residual sum of squares PRESS is referred to as a cross-validation result CV (S192).
  • Figure 4 shows the first model construction method.
  • the state in which no explanatory variable is selected in the data set is set as the initial state (S112).
  • the cross-validation performance improves when the explanatory variable is selected.
  • the repetition of the cross-validation grade evaluation step (S118) using the leave-in-art process (S120) is repeated (S120), and if it is improved, its explanatory variables are added (S114-S124). .
  • improvement and follow-up disappear NO in S126
  • the above-described sequential determination operation is repeated from the first explanatory variable.
  • the cross-validation result CV best value CV 0 is set to 100 (SI 12).
  • the explanatory variables are selected.
  • the variable i is set to 1 (S114), and the i-th variable is temporarily adopted (S116). However, if the i-th variable has already been adopted (YES in S115), the process returns to step S114.
  • the partial least squares method is executed to calculate the cross-validation result CV (S118). Here, leave 'one' out processing is used. If the grade CV obtained is the current best value CV. If it is more optimized (YE S in S120), the i-th variable is adopted and the grade CV is a new best value CV. (S122). The CV obtained is the best CV.
  • step S124 If it is not larger (NO in S120), the i-th variable is not adopted (S124). Then, the process returns to step S114, and the same processing is repeated. This process is repeated until the cross-validation result CV is no longer improved (NO in S126). If there is an improvement in the above processing, the flow returns to step S114 to start a new loop.
  • the selection of variables is repeated based on the variables selected so far. In this way, a correlation model using the variables selected using the data set is obtained.
  • Figure 5 shows the second model construction method.
  • a state in which all explanatory variables are selected is set as an initial state (S212).
  • S212 a state in which all explanatory variables are selected.
  • S 2 After each selected explanatory variable from the first explanatory variable to the last (m-th) explanatory variable, it was determined whether the cross-validation performance would be improved if that explanatory variable was excluded.
  • Judgment (S 2) while repeating the cross-validation result evaluation step (S 218) using one-port processing 20)
  • the explanatory variable is excluded (S214 to S224).
  • the above-described sequential determination operation is repeated from the first explanatory variable until such improvement and exclusion disappear (1 ⁇ ⁇ at 3226).
  • the number of selected explanatory variables NP is m, and the best value CV of the cross-validation results CV is set. (S212). That is, select all explanatory variables.
  • an explanatory variable is selected.
  • the variable i is set to 1 (S214), and the i-th variable is temporarily excluded (S216). However, if the i-th variable has already been excluded (YES in S215), the process returns to step S214.
  • the partial least squares method is executed to calculate the cross-validation result CV (S218). Here, leave-one-part processing is used. If the obtained result CV is the current best value CV.
  • the i-th variable is excluded and the grade CV is a new best straight CV. (S222).
  • the CV obtained is the best CV. If it is not larger (NO in S220), the i-th variable is not excluded (S224). Then, the process returns to step S214, and the same processing is repeated. This process is repeated until the cross-validation result CV is no longer improved (NO in S226). If there is an improvement in the above processing, the flow returns to step S 214 again to start a new knob.
  • the selection of variables is repeated based on the variables selected so far. In this way, a correlation model using the variables selected using the data set is obtained.
  • Figure 6 shows a third model construction method.
  • This method is a serial combination of the first and second methods.
  • a state in which no explanatory variable is selected is set as an initial state (S112).
  • S112 a state in which no explanatory variable is selected.
  • the judgment operation is repeated (S114 to S126). Then, from the first explanatory variable to the last
  • the cross-validation results using the leave-one-out process were evaluated as to whether the cross-validation results would improve if the explanatory variables were excluded. Judging while repeating the evaluation steps and improving Removes the explanatory variable, and repeats the above-described sequential determination operation from the first explanatory variable until there is no such improvement and exclusion (S214 to S226).
  • Figure 7 shows the fourth model construction method. This method is a modification of the third method.
  • a state in which no explanatory variable is selected is set as an initial state (S112).
  • S112 a state in which no explanatory variable is selected.
  • S112 a state in which no explanatory variable is selected.
  • S118 cross-validation result evaluation step
  • S124 its explanatory variable is additionally selected.
  • Figure 8 shows a fifth model construction method. This method is a parallel combination of the first and second schemes.
  • a state in which no explanatory variable is selected is set as an initial state (S112).
  • the cross-validation results are obtained when the explanatory variable is selected if the explanatory variable is not selected. It is determined whether or not to improve by repeating the cross-validation performance evaluation step (S118) using leave 'one-out' processing (S12).
  • the explanatory variable is added (S114 to S124).
  • the cross-validation performance improves if the explanatory variable is excluded.
  • variables are processed in reverse order from p20 to P2 .
  • Table 2 for the sample in Table 1, the leftmost numbers indicate the 10th stage where improvement was observed in variable selection. Note that 0 means the initial state.
  • “Additional caro” and “Exclusion” mean that the processing of the loop and exclusion loop of Oyomi pudding.
  • the variables in the next column show the added or excluded variables.
  • the next column shows the cross-validation results (PRESS divided by number of samples).
  • the rightmost column shows the variables selected at that stage.
  • Table 3 shows the fit of the partial least squares method and the state of leave 'one' prediction at the time when the processing has progressed to the stage indicated by 7 in Table 2 for 10 samples!
  • the error between the calculated value and the actually measured value is shown in each of the model prediction and the leave 'one' prediction.
  • the mean square of the error, the square of the correlation coefficient R, and the square of the predicted correlation coefficient Q are shown.
  • Table 4 shows the partial least squares fit and the leave-one-part prediction situation at the time when the process has proceeded to step 10 in Table 2.
  • Table 4 Processing results at stage 10 in Table 2
  • Example 1 DLB by feature extraction considering cross-validation results of partial least squares method Data analysis of CL patients.
  • the diamond (fit) indicates the data of the training set (20 people), and the triangle (cv) indicates the cross-validation results for them. Shows the results data.
  • the square (test) indicates the data of the test set (8 persons).
  • the obtained partial least squares model predicts 4/8 very well and 1/8 well in the test set.
  • the sample handled was data obtained using a DNA chip.
  • this data analysis is not limited to data obtained using a DNA chip, and it is easily speculated that it will be useful for data such as protein expression levels and intracellular substance amounts. That is.
  • Example 2 Survival analysis of 240 DLBCL patients by feature extraction and proportional hazard analysis considering cross-validation results of partial least squares method.
  • the survival probability (P KM ) was calculated, and the value obtained by mouth-to-mouth conversion (log (P KM / l-P KM )) was used as the objective variable.
  • the life table according to the force plan 'Meyer's method shows the survival probability as a group.
  • the survival probability at the time of occurrence of the event as a group including the individual j (probability that the one that has not changed remains) Is replaced with the remaining time of individual j at the time when the event occurred.
  • this probability was converted into a mouth-jitter and converted into a mouth-jitter value expressing the tendency of the change to be used as the objective variable.
  • Cross-validation in the training set was performed by the leave-one'-out method, and parameters were sequentially selected so that PKESSX1.02 Np was reduced, and a partial least squares model was obtained.
  • CV -PRESS
  • CV -PRESS
  • PRESS the residual sum of squares of the leave-in-out prediction
  • NP the number of selected explanatory variables.
  • ACCESSION is the GenBank accession number, and the line without the accession number is a gene (Unknown) or EST that is evident only at the data source, and can be obtained by the method described in the paper.
  • Rosenwald et al. Performed a simple correlation proportional hazards analysis to select diagnostic indicators for five groups (17 genes).
  • Figure 10 compares the hazard values obtained in this example (Hazard, indicated as Hazard (pis (14)) in the figure) with the extent to which the diagnostic index of Rosenwald et al. could explain survival time. did.
  • Rosenwald et al.'S proportional hazards equation which uses the parameters of the five groups simultaneously, has a problem such as that the Provision parameter is not statistically significant at P> 0.05.
  • the included hazard values are also included for comparison (shown as Hazard (Rosenwald / 4para) in the figure).
  • the diamonds show data for people who died or ceased, and the squares show survival.
  • FIG. 11 shows a plot in which the vertical axis is the hazard value calculated by calculating the right side, and the horizontal axis is the survival time.
  • diamonds in FIG. 11 indicate data of a dead or censored person, and squares indicate data of a living person.
  • Example 3 Survival analysis of 40 breast cancer patients by feature extraction and proportional hazard analysis considering cross-validation results of partial least squares method.
  • the parameters of the cross-validation result and the function PRESS XL 13 Np of the explanatory variable NP which is one of the functions having at least the cross-validation result as an independent variable, are selected one after another to reduce the partial least squares model. Obtained.
  • AA406242 (.guanosine monophosphate reductase)
  • AA453345 (a protein tyrosine kinase)
  • AA054669 Homo sapiens, clone IMAGE: 3611719, mRNA, partial cds
  • the vertical axis is the hazard value calculated by calculating the right side
  • the horizontal axis is the survival time. Is shown.
  • the hazard value is shown to be an excellent diagnostic index.
  • diamonds indicate data of dead or censored persons
  • squares indicate data of surviving persons.
  • variable reduction method that adopted P 0.001 as a variable deletion criterion.
  • proportional hazard expression comprising the expression of the three genes was obtained.
  • the number of explanatory variables could be controlled by changing the variable deletion criteria.
  • Figure 13 shows a plot where the vertical axis is the hazard value calculated by calculating the right side and the horizontal axis is the survival time.
  • the diamonds show data for people who died, and the squares show data for people who are alive.
  • Example 4 Analysis of prediction of recurrence of 40 breast cancer patients by feature extraction and multiple regression analysis considering cross-validation results of partial least squares method.
  • T59518 solute carrier family 2 solute carrier family 2 (facilitated glucose transporter) member 8
  • discriminant analysis was performed by multiple regression analysis, one of the usual multivariable analysis methods, using the selected gene expression as an explanatory variable and the presence or absence of recurrence as an objective variable.
  • the analysis was performed using the program package JMP.
  • the variable reduction method adopting! 3 ⁇ 0.15 as a variable deletion criterion the following multiple regression equation consisting of the expression of 10 genes was obtained.
  • the 0LS value calculated by this formula is positive, the possibility of recurrence is high, and when it is negative, it is low.
  • Table 6 shows the P value and coefficient of determination when a discriminant analysis equation was created using one of each parameter included in the above equation.
  • H11482 is not significant in simple correlation and is the first parameter that could be grasped by using it together with other variables.
  • Example 6 Prediction of recurrence in 40 + 24 breast cancer patients by feature extraction and partial strict regression analysis or linear discriminant analysis considering partial validation results of partial least squares.
  • Example 5 the analysis by the adaptive least squares method in Example 5 was replaced with a linear discriminant analysis, and the following discriminant was obtained.
  • Example 4 Recurrence analysis of 40 breast cancer patients by feature extraction and proportional hazard analysis considering cross-validation results of partial least squares.
  • Figure 14 shows a plot in which the vertical axis is the hazard value obtained by calculating the right side, and the horizontal axis is the recurrence time.
  • the diamonds show data for people who do not recur
  • the squares show data for people who recur.
  • the hazard value is an excellent diagnostic index, indicating that the method of the present invention is effective as a method for analyzing not only the survival time but also the stochastic change in the state of the living body with time. Have been.
  • hazard 1.559 84753 +2.265 H08581 +1.473 AA045730 +1.237 AI250654
  • Figure 15 shows a plot with the hazard value calculated by calculating the right side on the vertical axis and the recurrence time on the horizontal axis. .
  • the diamonds show data for people who do not recur
  • the squares show data for people who recur.
  • a blocking solution consisting of 3% BSA S 0.2M NaCl, 0.1M Tris (PH 7.5), 0.05% Triton X-100, and leave it for about 30 minutes. Then, remove the solution adhering to the glass well and dry at 37 ° C. Wash lightly three times with TE buffer (PH 8.0, Tubon Gene Cat # 316-90025), place in a plate holder, and briefly centrifuge (1000 rpm, 1 minute) to remove excess water.
  • TE buffer PH 8.0, Tubon Gene Cat # 316-90025
  • TRIZ0L G.ibcoBRL, Cat # 15596-018
  • Oligotex dT30 from the normal mammary gland SV-40 and breast cancer cell lines MCF-7, MDA-MB-468 or T-47-D
  • ⁇ Super> TaKaRa, Cat # W9021A
  • ScanArray4000 GSI luminonics
  • Quant Array GSI luminonics
  • Chip Space Haitachi Software Engineering
  • the size of the individual set is 100, and the “genotype” (GTYPE) of the initial individuals is calculated using random numbers so that on average, min_ 0 f (Ns, Ng, 300) / 2 explanatory variables are adopted.
  • GTYPE genotype-derived genetic polymorphic polymorphic polymorphic polymorphic polymorphic polymorphic polymorphic polymorphic polymorphic polymorphic polymorphic polymorphic polymorphic polymorphic polymorphotype
  • Example 10 Modenole construction by hierarchical artificial neural network (MLP). In the recurrence discrimination analysis of breast cancer patients of Example 5, DNA chips type A (40) and type B (24) are common. Three explanatory variables feature-extracted by PLS-CV with PRESS X 1.17 Np smaller than 48 genes were used.
  • MLP hierarchical artificial neural network
  • the MLP has three layers, and the sigmoid conversion is performed only once in the intermediate layer (tk).
  • the four topologies shown in Fig. 17 were tried. Net The learning of the network weights was performed by the Back propagation algorithm.
  • a three-layer MLP that performs sigmoid conversion only once in the middle layer (tk) was used.
  • Topology I The results for Network Topology I and Topology lib were as follows: In addition, topology Ila and topology lie were inferior to topology lib. Topology I:
  • correlation model a good and predictive multivariate analysis model (correlation model) can be obtained. This is particularly useful when the number of explanatory variables is as large as 100 or more, such as the amount of gene expression. By reducing the number of variables, important genes and mechanisms behind diseases and biological phenomena can be inferred / identified, deepening the argument. In addition, we can design and provide inexpensive diagnostic materials (DNA chips, DNA-containing vectors, antibody chips, etc.) that focus only on important gene products and intracellular substances.
  • a correlation model with the amount of the substance in the substance can be determined. If the number of explanatory variables is reduced using the partial least squares method, ordinary statistical methods or multivariate analysis methods can be applied.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Genetics & Genomics (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Wood Science & Technology (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Pure & Applied Mathematics (AREA)
  • Zoology (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Microbiology (AREA)
  • Plant Pathology (AREA)
  • Algebra (AREA)

Description

明 細 書 データ解析装置および方法 技術分野
本発明は、 生体の状態と遺伝子発現の量および/または細胞内物質の量との多 変量解析処理並びそれを基に可能となる測定機材、 検定方法などに関するもので める。 背景技術
2 0 0 0年 6月のヒトゲノムの解読宣言以降、 ゲノムに書力れた遺伝情報がど のように発現して機能しているかのを解明するボストゲノム時代に突入したと言 われている。 ヒ トゲノム計画の進展の中で、 ゲノム発現状態を測定する方法論も 進展してきた。 トランスクリプトーム (mR NA) 測定手段としてオリゴヌクレ ォチドアレイやマイクロチップが知られている。 またプロテオーム (蛋白質) 測 定手段として、 以前からある 2次元電気泳動に加えて、 最近では質量分析の方法 が進歩してきた。 また抗体チップなどの先進の技術も注目されている。 これらの 測定技術は、 生体の状態パラメータを短時間に一挙に測定できることがそれまで の技術と比較して画期的であるといえる。
遺伝子発現状態を効率的に測定する技術として次のものがあげられる。 トラン スクリプトーム (mR NAの総体) を特定するものとして、 基盤に複数種の D N Aを担持し、 それに相補的な: mR NAを検出する D N Aチップが知られている。 代表的な D NAチップには、 遺伝子チップや D NAマイクロアレイがある。 また、 プロテオーム (蛋白質の総体) を特定するものには、 2次元電気泳動、 抗体チッ プ、 質量スペクトルを用いるものがある。 またメタボローム(代謝中間体を含め た代鶴 ί産物の総体)を測定する手法も質量分析などによって試みられており、 進 展が見られる。
生体内の細胞の状態は遺伝子産物の発現によってよく記述されるため、 従来の 診断マーカーでは情報が不足している場面でも、 精度のより高い診断が可能にな るという期待も出てきている。 たとえば、 次のような研究があげられる。
P. 0. Brownらは、 D N Aチップによってリンパ腫患者の細胞のトランスタリ プトームを測定し、 クラスター解析によって悪性と良性のリンパ腫 (D L B C L) を別クラスターに分離した (Nature 403 (3) , 503-11 (2000))。 し力 し、 こ れは因果関係 (相関関係) のモデルを得る方法ではなく、 どの遺伝子がどの程度 重要かを判断できない。
A. Alaiyaらは、 2次元電気泳動によって子宮がん患者 4 0人の細胞のプロテ オームを測定し、 うち 2 2人のデータから部分最小自乗法診断モデルを構築し、 悪性度を説明した (Int. J. Cancer, 86, 731-36 (2000) ; Electrophoresis, 21, 1210-17 (2000); 国際公開 W0 00/70340) 0 その際、 全変数モデルにおいて 1 5 5 3変数から loadingの大きな 1 7 0変数に限定することによって交差検証成績 がよくなり (Q 2 =0. 84) 、 残り 1 8患者の深刻度 (3段階) を 1 1 / 1 8の比 率で正答した。 交差検証法がモデル構築の際の指標になるという考えが表明され ている。 し力 し、 この方法では、 loadingを得る際にまず全変数モデルが成立し なければならない。 また、 それ以外の変数選択手法が考案されていない。
J. Khanらは、 D N Aチップによって小児がん患者の細胞を測定し、 二ユーラ ノレネットワークによって悪性度を説明した (Nature Medicine, 7 (6) , 673-79
(2001) )。 小児がん (SRBCT) 患者 8 8人のトランスクリプトーム (6 5 6 7遺伝 子) を測定し、 うち 6 3人のデータから主成分分析によって 1 0次元に圧縮し、 次に、 人工ニューラルネットワーク診断モデルを構築した。 ここで、 影響力のあ る上位遺伝子を交差検証法によって絞り込み、 9 6遺伝子で最良の成績(100%)を 得た。 このモデルで残り 2 5人を予測し、 9 3〜1 0 0 %の結果を得た。 しかし、 この方法でも、 影響力を得る際にまず全変数モデルが成立しなければならない。 またそれ以外の変数選択手法が考案されていない。 1 0次元のような少ない変数 の場合を扱えるが、 変数の数が膨大な場合には適用できない。
また、 最近になつて DNAチップの解析に部分最小自乗法を用いる研究が!). M. Rockeとひ. V. Nguyenによって報告されるに至った(国際公開 W0 02/25405 ; Bioinformatics 18 (1) , 39 - 50 (2002) ; Bioinfo雇 tics 18 (9) , 1216-26
(2002) ; Bioinformatics 18 (12) , 1625-32 (2002) )。 部分最小自乗法の潜在変数 を線型判別分析などの多変量解析の説明変数として用いた場合に良好な結果が得 られることが報告されている。 これは部分最小自乗法が次元圧縮とモデルフィッ トを同時に行なうことのできる方法であるために可能となったものである。 報告 に示された実施例では部分最小自乗法が DNAチップ情報のモデル構築方法として 優れたものであることが示されている。 しかし報告においては重要な遺伝子 現 量を選抜する手段としての最小自乗法の適用については触れられておらず、 事前 の前処理によって選択された説明変数を全て用いて解析が行なわれているという 点において上述の A. Alaiyaらの研究と同様の課題を含んでいる。
従来の診断マーカーでは情報が不足している場面でも、 遺伝子発現情報を活用 することで、 より精度 (解像度) の高い診断が可能になるという期待も出てきて いる。 遺伝子発現状態の測定結果は、 膨大な情報量が得られることが従来にはな かった特徴であり、 逆に情報量が多いために、 効果的なデータ処理なくしてデー タの活用はありえない。 したがって、 有用な知識を獲得するためには効果的な情 報処理が欠力せない。 前に説明したように、 現状ではクラスター解析を中心とす る方法が用いられているが、 主成分分析などの方法も採用されている。 クラスタ 一解析や主成分分析は、 教師付学習方法ではないため、 病状の因果関係 (相関関 係) のモデルを得ることはできない。 すなわち、 どの遺伝子がどの程度重要かを 解析結果から得ることができないのが難点である。 一方、 部分最小自乗法は次元 圧縮とモデルフイットを同時に行なう強力な多変量解析手法であるが、 変数の数 が膨大になった場合にしばしば有意な結果が得られない事態に直面する。 したが つて、 膨大な遺伝子発現情報などから有用な知識を獲得できるような効果的な情 報処理が望まれている。 また、 そのような情報処理の結果を基にした効率的な測 定機材、 検定処理などが期待されている。 発明の開示
(発明が解決しようとする技術的課題)
この発明の目的は、 多変量の遺伝子発現情報、 細胞内物質情報の効果的な情報 処理を提供することである。
また、 この発明の目的は、 効率的な検定処理を提供することである。 (その解決方法)
本 明に係るデータ解析装置は、 生体の状態または時間とともに確率的に発生 する生体の状態の変化を目的変数とし、 複数の遺伝子棻現の量および/または細 胞内物質の量を説明変数とする相関モデルを決定するデータ解析装置であって、 生体の状態或いはそれを導出するデータまたは時間とともに確率的に発生する生 体の状態の変化に関するデータと、 複数の遺伝子発現の量および Zまたは細胞内 物質の量からなるサンプルの集合を入力する入力手段と、 ( 1 )説明変数を選択す る選択手段と、 ( 2 )部分最小自乗法を実行して交差検証成績を計算する計算手段 または上記生体の状態の変化に関するデータに力プラン'マイヤー法又は力トラ 一 ·ェデラー法による生命表を適用して変化の発生しなかったものの確率を計算 して得られた確率を、 仮定した分布に基づいた変換または仮定を前提としない変 換をし、 該変換結果を目的変数とする部分最小自乗法を実行して交差検証成績を 計算する計算手段と、 (3 )上記(2 )の計算手段の結果を評価し、 説明変数の採用、 不採用を判定する評価判定手段とを有し、 (4 )上記 ( 1 ) の選択手段と上記(2 ) の計算手段と上記( 3 )の評価判定手段とを実行して部分最小自乗法モデルの少な くとも交差検証成績を独立変数として持つ関数を改善し続けて部分最小自乗法モ デルを決定する決定手段とからなる。 選択手段は、 たとえば、 説明変数を逐次取 捨選択したり、 遺伝的アルゴリズムを用いて説明変数を選択する。 計算手段は、 たとえば、 1個のサンプルを逐次除外したり、 複数のサンプルを逐次除外して部 分最小自乗法を実行して交差検証成績を計算する。 評価判定手段は、 たとえば、 計算手段の結果から、 各計算において除外したサンプルの遺伝子発現から予測さ れる生体の状態を示す目的変数値と、 前記除外したサンプルの生体の状態を示す 目的変数値との誤差の代表値を求め、 当該誤差の代表値が小さくなった場合に、 その交差検証成績が改善されたと判定し、 説明変数を取捨選択しながら交差検証 成績の評価判定を繰り返す。 あるいは交差検証成績ではなく、 少なくとも部分最 小自乗法モデルの交差検証成績を独立変数として持つ関数が改善するかどうかを 評価判定の基準として用いることもできる。 決定手段は、 たとえば、 選択手段と 計算手段と評価判定手段とを繰り返し実行して部分最小自乗法モデノレの交差検証 成績を改善し続けて部分最小自乗法モデルを決定する。 また、 選択手段と計算手 段とを複数のコンピュータで実行させることもできる。 こうして、 相関モデノレを 構成するとき、 交差検証成績を基準に最適化させることにより説明変数を取捨選 択し、 説明変数の次元を減らして良好なモデルを得る。
上述の、 仮定した分布に基づいた変換または仮定を前提としない変換は、 生体 の状態の変ィ匕の確率が説明変数の多項式で解析できるようにするために行なうも のである。 分布を仮定した場合には、 確率を対数変換後に負の数にしたものを状 態の変化を観測した時間で割るという変換、 確率を対数変換後に負の数にしたも のをさらに対数にしたものを状態の変化を観測した時間で割るという変換、 また は確率を 1より減じたものをプロビット変換したものを計算して状態の変化を観 測した時間で割るという変換などが考えられる。 一方、 分布を仮定しない場合に はロジット変換といった方法が考えられる。 変換の方法は分布にどのような仮定 が成り立つかどうかあるいはなりたたないかどうかを判断することにより、 それ ぞれの場合に応じて適切に選ぶことができる。 少なくとも部分最小自乗法モデル の交差検証成績を独立変数として持つ関数としては、 たとえば、 前記誤差の代表 値と選抜された説明変数の数の関数が考えられ、 あるいはその他の独立変数を含 むものであってよい。 望ましくは、 関数は誤差の代表値の単調減少関数であり、 説明変数の数の単調減少関数である。 計算量を増やさないためには簡単に計算で きる関数が望ましい。 具体的には- PRESS X alphaN P という関数が考えられる。 ここで PRESSは予測残差自乗和であり、 N Pは採用された説明変数の数であり、 alphaは 1または 1より大きい実数である。 また、 -?1¾33 (^3+1361&) "1 "1 3ゃ-
PRESS X (beta- NP) s a m m aなる関数も考えられる。 ここで、 gammaは正の実数であ る。
説明変数の個数を少なくすると、 通常の統計的手法または多変量解析手法が適 用可能になる。 本発明では部分最小自乗法を用いて選抜された説明変数を統計手 法又は多変量解析手法の説明変数として、 より良好なモデルを得る。 或いは選抜 された説明変数を用いた部分最小自乗法モデルの潜在変数を統計手法又は多変量 解析手法の説明変数として、 より良好なモデルを得る。 ここで潜在変数とは、 部 分最小自乗法において通常用いられているものであって、 目的変数 (Yil)と説明 変数 (Xi j)の背後に共通する次元数の少ない潜在変数 (Tik)を抽出することが部分 最小自乗法の次元圧縮であり、 モデルフイットである。
Yil=∑ Qkl X Tik + Fil
Xij=∑ Pkj X Tik + Eij
(iはサンプル番号、 1は目的変数番号、 jは説明変数番号、 kは潜在変数番号、 F, Eは残差)
また、 統計的手法又は多変量解析手法としては、 重回帰分析法、 線型判別分析 法、 適応最小自乗法、 口ジスティック回帰分析法、 比例ハザード解析法、 マハラ ノビス距離を用 ヽる判別分析法、 kN法、 人工二ユーラルネットワークなどが挙 げられる。
本発明者等は、 また、 Q2や PRESS値などの交差検証成績に加えて、 説明変数の 個数を第 2の独立変数として含む関数を最適化することで選抜される説明変数を 任意に絞り込むことができることを新たに見出した。 通常の統計的手法や多変量 解析手法では、 抽出される説明変数の個数 N Pの望ましい範囲がサンプル数との 兼ね合いで決まっている場合がある。 そのような場合、 関数を、 目的とする選抜 数によって任意に変更できる。 関数形をたとえば -PRESS X alphaN Pとした場合、 説明変数の個数を数個から数十個に絞り込むためには通常は定数 alphaとして 1 . 0〜 3. 0の値が望ましい。 より望ましくは、 alphaは 1 . 0〜 2. 0の値となる。 他の関数形 f (PRESS, NP)であっても、 実際に選択される説明変数の数 MPおよびそ の時の PRESSィ gPRESS— MPの周辺で、 f (PRESS— MP ÷ alpha, MP+l) =f (PRESS_MP, MP) となるような関数は、 変数選択という点では同様の効果を持つ場合がある。 こう して、 適当な関数形を用いることにより、 望ましい範囲の個数 N Pの説明変数を 選抜できる。 このようにして、 交差検証成績を用いて決定されたモデルに採用さ れている説明変数をさらに絞り込むと、 統計的手法又は多変量解析手法によるモ デルを構築できる。 したがって、 その性質が十分解明されている統計的手法又は 多変量解析手法を採用して解析を加えることができる。
また、 目的変数として、 時間とともに確率的に発生する生体の状態の変化から 導出された量を用いて、 時間とともに確率的に発生する生体の状態の変化と複数 の遺伝子発現の量および Zまたは細胞内物質の量との相関モデルを決定できる。 「時間とともに確率的に発生する生体の状態の変化」 とはたとえば生存時間であ る。 ここで、 前述の部分最小自乗法に、 力プラン'マイヤー法又はカトラー 'ェ デラー法と、 口ジット(logit)変換とを組み合わせる。 部分最小自乗法での目的 変数は、 時間とともに確率的に発生する生体の状態の変ィヒに関するデータにカブ ラン.マイヤー法又は力トラー ·ェデラー法による生命表を適用して変化の発生 しなかったものの確率を計算し、 これを口ジット変換した値である。 口ジット (logit)値とは、 分類分けされたデータの、 ある分類の割合 (確率) Pを基に、 次式 logit==log {P/ (l-P) }にて計算される値である。 ロジット値を目的変数とす る部分最小自乗法を実行して交差検証成績を計算する。 こうして、 先に説明した のと同様に、 部分最小自乗法の交差検証成績を考慮した説明変数の抽出を行って、 生存時間解析を行える。
説明変数の個数を少なくすると、 通常の統計的手法または多変量解析手法が適 用可能になる。 そこで、 決定されたモデルに採用されている説明変数又はその潜 在変数を用い、 時間とともに確率的に発生する生体の状態の変化を説明する統計 的手法又は多変量解析手法によるモデルを構築する。 たとえば、 ロジット値を目 的変数として求めた説明変数を用いて、 他の統計的手法又は多変量解析手法 (た とえば比例ハザード法や、 パラメトリックな分布にあてはめた回帰分析法) を行 なうことによって、 より良好なモデノレを得ることができる。 比例ハザード法とは、 Coxによって考案された方法であり、 生存率の解析に時間を考慮し、 かつ、 多変 量を扱える。 比例ハザード法では、 観測されている個々ごとにハザード値と呼ば れる生存率を左右する値があり、 それを導く関数がある (モデルが仮定されてい る) として解析される。 力プラン一マイヤー法は、 集団全体または群ごとの生存 率の推移を示す。 また、 パラメトリックな分布とは、 ガウスが提案した正規分布 力 ら計算された確率分布のことであり、 生存時間解析では指数分布、 ワイプル分 析、 対数正規分布が用いられる。 指数分布などへの当て嵌めで、 数式中に多項式 があり、 前述の部分最小自乗法の交差検証成績を考慮した説明変数の抽出が適用 される。
入力手段で説明変数として入力される複数の遺伝子の発現量および/または細 胞内物質の量とは、 必ずしも物質の絶対的な濃度の測定値に限定されるものでは なく、 加工計算された値、 相対的な値、 間接的に物質量を表す量などでもよい。 たとえば、 質量スぺクトルで蛋白質の発現量を測定することができることを応用 して、 生体の状態を表わす目的変数と、 質量スペクトルとを直接関係づける相関 モデルを構築することができる。 また Af f ymetrix社タイブの D N Aチップ(ジー ンチップ)では、 単一のスポットが単一の遺伝子発現を特定するとは限らず、 複 数個のスポットが集まってはじめて単一の遺伝子発現を特定することもある。 こ こでもまた、 各スポットの測定量を説明変数として、 直接、 生体の状態を説明す る相関モデルを得ることができる。 更には、 タンパク質の電気泳動パターンの各 ピークは単一のタンパク質に帰属できず、 複数個のタンパク質の重ねあわせであ ることも多い。 このような場合にも生体の状態を説明する説明変数として各ピー ク強度を用いることができる。 このことは、 上述の Alaiyaらは子宮癌の診断の説 明変数として電気泳動パターンのピーク強度を採用していることから明らかであ る。 前述のようにポストシークェンス時代のトランスクリプトーム解析、 プロテ オーム解析、 メタボローム解析という研究分野では、 生体 (細胞)内の物質を総体 として把握すること力 ら出発することを特徴とする実験的アプローチが注目され ている。 ひとつひとつの物質の絶対的定量は必須事項ではなく、 これらの実験方 法によって定量される物質の量を直接、 間接に表現する測定値やその加工計算値 力 生体の状態を説明する説明変数と成り得る。 また以上の物質量を表現する説 明変数以外に、 場合によっては問診データなどの他の説明変数を追加すると、 さ らに有効な解析結果が得られる場合もある。
本発明に係るデータ解析方法は、 生体の状態または時間とともに確率的に発生 する生体の状態の変化を目的変数とし、 複数の遺伝子発現の量および/または細 胞内物質の量を説明変数とする相関モデルを決定するデータ解析方法であって、 生体の状態或いはそれを導出するデータまたは時間とともに確率的に発生する生 体の状態の変化に関するデータと、 複数の遺伝子発現の量および/または細胞内 物質の量からなるサンプルの集合を入力する入力ステップと、 (1 )説明変数を選 択する選択ステップと、 (2 )部分最小自乗法を実行して交差検証成績を計算する 計算ステップまたは前記生体の状態の変ィヒに関するデータに力プラン■マイヤー 法又は力トラー■ェデラー法による生命表を適用して変化の発生しなかったもの の確率を計算して得られた確率を、 仮定した分布に基づいた変換または仮定を前 提としない変換をし、 該変換結果を目的変数とする部分最小自乗法を実行して交 差検証成績を計算する計算ステップと、 ( 3 )前記( 2 )の計算ステップの結果を評 価し、 説明変数の採用、 不採用を判定する評価判定ステップとを有し、 (4 )前記 ( 1 ) の選択ステップと前記(2 )の計算ステップと前記(3 )の評価判定ステップ とを実行して部分最小自乗法モデルの少なくとも交差検証成績を独立変数として 持つ関数を改善し続けて部分最小自乗法モデルを決定する決定ステツプとからな る。
このデータ解析方法において、 選択ステップは、 たとえば、 説明変数を逐次取 捨選択したり、 遺伝的アルゴリズムを用いて説明変数を選択する。 計算ステップ は、 たとえば、 1個のサンプルを逐次除外したり、 複数のサンプルを逐次除外し て部分最小自乗法を実行して交差検証成績を計算する。 評価判定ステップは、 た とえば、 計算ステップの結果から、 各計算において除外したサンプルの遺伝子発 現から予測される生体の状態を示す目的変数値と、 前記除外したサンプノレの生体 の状態を示す目的変数値との誤差の代表値を求め、 当該誤差の代表値が小さくな つた場合に、 その交差検証成績が改善されたと判定し、 説明変数を取捨選択しな がら交差検証成績の評価判定を繰り返す。 決定ステップは、 たとえば、 選択ステ ップと計算ステップと評価判定ステツプとを繰り返し実行して部分最小自乗法モ デルの交差検証成績を改善し続けて部分最小自乗法モデノレを決定する。 また、 選 択ステップと計算ステップとを複数のコンピュータで実行させることもできる。 本発明に係るデータ解析プログラムは、 生体の状態または時間とともに確率的 に発生する生体の状態の変化を目的変数とし、 複数の遺伝子発現の量おょぴ Zま たは細胞内物質の量を説明変数とする相関モデルを決定する、 コンピュータによ り実行されるデータ角罕析プログラムであって、 生体の状態或いはそれを導出する データまたは時間とともに確率的に発生する生体の状態の変化に関するデータと、 複数の遺伝子発現の量および Zまたは細胞内物質の量からなるサンプノレの集合を 入力する入力ステップと、 (1 )説明変数を選択する選択ステップと、 (2 )部分 最小自乗法を実行して交差検証成績を計算する計算ステップまたは前記生体の状 態の変ィ匕に関するデータに力プラン'マイヤー法又はカトラー ·ェデラー法によ る生命表を適用して変化の発生しなかったものの確率を計算して得られた確率を、 仮定した分布に基づいた変換または仮定を前提としない変換をし、 該変換結果を 目的変数とする部分最小自乗法を実行して交差検証成績を計算する計算ステップ と、 (3 )前記(2 )の計算ステップの結果を評価し、 説明変数の採用、 不採用を判 定する評価判定ステップとを有し、 (4 )前記 ( 1 ) の選択ステップと前記(2 )の 計算ステップと前記( 3 )の評価判定ステツプとを実行して部分最小自乗法モデル の少なくとも交差検証成績を独立変数として持つ関数を改善し続けて部分最小自 乗法モデルを決定する決定ステツプとからなる。
このデータ解析プログラムにおいて、 選択ステップは、 たとえば、 説明変数を 逐次取捨選択したり、 遺伝的アルゴリズムを用いて説明変数を選択する。 計算ス テツプは、 たとえば、 1個のサンプルを逐次除外したり、 複数のサンプルを逐次 除外して部分最小自乗法を実行して交差検証成績を計算する。 評価判定ステツプ は、 たとえば、 計算ステップの結果から、 各計算において除外したサンプノレの遺 伝子発現から予測される生体の状態を示す目的変数値と、 前記除外したサンプル の生体の状態を示す目的変数値との誤差の代表値を求め、 少なくとも当該誤差の 代表値を独立変数として持つ関数である当該誤差の代表値の単調減少関数の値が 小さくなつた場合に、 その交差検証成績が改善されたと判定し、 説明変数を取捨 選択しながら交差検証成績の評価判定を繰り返す。 決定ステップは、 たとえば、 選択ステップと計算ステップと評価判定ステップとを繰り返し実行して少なくと も部分最小自乗法モデルの交差検証成績を独立変数として持つ関数を改善し続け て部分最小自乗法モデルを決定する。 また、 選択ステップと計算ステップとを複 数のコンピュータで実行させることもできる。 さらには、 前記の説明変数の選択 において、 たとえば、 初期状態では説明変数を全く含まない力、 或いは、 初期状 態では全説明変数を含むこともできる。
前記のデータ解析プログラムにおいて、 上記の生体の状態は、 たとえば病気の タイプをあらわす測定値、 病気の重篤度をあらわす測定値、 病気のタイプをあら わす医療診断の結果、 病気の重篤度をあらわす医療診断の結果、 あるいはそれら を 2次加工した数値である。 例えば後の実施例で示すように、 患者の生存時間を 予測することは、 Q0L (quality of life :生活の質)を含めた治療計画や人生設計 などを判断する上で重要な情報をもたらすものであり、 社会的に価値のある診断 モデルを提供することができる。 また癌の再発可能性を予測することは、 Q0Lを 考慮した治療計画を立案し、 医師または当の患者が選択の判断をするうえで、 貴 重な情報をもたらすものである。
また、 本発明は、 決定された前記相関モデル及び予測対象のサンプルについて 当該モデルにおいて採用された説明変数を入力する入力手段と、 入力された該説 明変数に基づレヽて該サンプルの生体の状態を予測判定する予測判定手段からなる データ解析装置、 前記で決定された相関モデル及び予測対象のサンプルについて 当該モデ こおいて採用された説明変数を入力する入力ステップと、 入力された 該説明変数に基づいて該サンプルの生体の状態を予測判定する予測判定ステップ からなるデータ解析方法及び前記で決定された相関モデノレ及び予測対象のサンプ ルについて当該モデルにおいて採用された説明変数を入力する入力ステップと、 入力された該説明変数に基づレヽて該サンプルの生体の状態を予測判定する予測判 定ステップからなるデータ解析プログラムも包含する。
本発明に係るコンピュータにより読取可能な記録媒体は、 上記のいずれかのプ ログラムを記録する。
本発明に係るびまん性大細胞型 Bリンパ腫の重篤度検定用の細胞内物質測定機 材および測定方法並びにびまん性大細胞型 Bリンパ腫の重篤度検定方法は、 実質 的にジーンバンクァクセッション番号が U15085、 M23452N X52479、 U70426, H57330及び S69790からなる遺伝子群の発現を検出する。 さらに、 ジーンバンクァ クセッション番号が U03398、 M65066、 AK00 46、 BC003536、 X00437, U12979、
H96306、 M830781及び M804793からなる群から選択される少なくとも一つの遺伝 子の発現を検出してもよい。
また、 本発明に係る?し癌の重篤度検定用の細胞内物質測定機材および測定方法 並びに乳癌の重篤度検定方法は、 実質的にジーンバンクァクセッション番号が AA598572, M703058及び M453345からなる遺伝子産物を含む細胞内物質を検出 する。 さらに、 ジーンバンクァクセッション番号が AA406242、 H73335、 W84753, N71160、 M054669、 N32820及び R05667からなる群から選択される少なくとも一 つの遺伝子産物を含む細胞内物質を検出してもよい。
また、 本発明に係る? L癌の再発性検定用の細胞内物質測定機材および測定方法 並びに乳癌の再宪性検定方法は、 実質的にジーンバンクァクセッション番号が W84753、 H08581、 M045730及び AI250654からなる遺伝子産物を含む細胞内物質を 検出する。 さらに、 ジーンバンクァクセッション番号が M448641、 R78516、 R05934、 M629838及ひ Ή53037からなる群から選択される少なくとも一つの遺伝子 産物を含む細胞内物質を検出してもよい。
また、 本発明に係る乳癌の再発性検定用の細胞内物質測定機材および測定方法 並びに乳癌の再発性検定方法は、 実質的にジーンバンクァクセッション番号が AA434397, T83209、 Ν53427、 Ν29639、 ΑΑ485739, AA425861, Η84871 Τ64312、 T59518及び Μ037488からなる遺伝子産物を含む細胞内物質を検出する。 さらに、 ジーンバンクァクセッション番号が M406231の遺伝子産物を含む細胞内物質を検 出してもよい。
また、 本発明に係る乳癌の再発性検定用の細胞内物質測定機材および測定方法 並びに乳癌の再宪性検定方法は、 実質的にジーンバンクァクセッション番号が HI 1482, T64312及び M045340からなる遺伝子産物を含む細胞内物質を検出する。 細胞内物質測定機材としては、 D NAマイクロアレイ、 ジーンチップ、 オリゴ
D NA型のD NAチップ、 電気化学 D N Aチップ(E C Aチップ)、 繊維型 D NA チップ、 磁性ビーズ D NAチップ (PSS)、 糸巻き D NAチップ (PSS)、 などの D N Aチップ、 マクロアレイ、 抗体チップ、 測定用試薬キットなどが挙げられる。 ま た、 上記の機材を適宜組み込んだ測定機械であってもよい。 図面の簡単な説明
図 1は、 遺伝子発現解析システムのプロック図である。
図 2は、 解析ソフトのフローチャートである。
図 3は、 交差検証成績 CVの計算のフローチャートである。
図 4は、 変数選択の第 1モデル構築手法のフローチャートである。
図 5は、 変数選択の第2モデル構築手法のフローチャートである。
図 6は、 変数選択の第 3モデル構築手法のフローチャートである。
図 7は、 変数選択の第 4モデル構築手法のフローチャートである。
図 8は、 変数選択の第 5モデル構築手法のフローチャートである。 図 9は、 最小自乗法モデルの成績を示すグラフである。
図 1 0は、 DLBCL患者の生存時間と診断指標のプロット各種比較の図である。 図 1 1は、 実施例 2の DLBCL患者の生存時間診断指標のプロットの図である。 図 1 2は、 実施例 3の乳癌患者の生存時間診断指標のプロットの図である。 図 1 3は、 実施例 3の乳癌患者の変数削除基準として P 0. 0005を採用したと きの生存時間診断指標のプロットの図である。
図 1 4は、 実施例 7の乳癌患者の再発時間診断指標のプロットの図である。 図 1 5は、 実施例 7の乳癌患者の変数削除基準として P≥0. 025を採用したとき の再発時間診断指標のプロットの図である。
図 1 6は、 実施例 9の遺伝的アルゴリズムによる部分最小自乗法モデルの最適 化の様子を示す図である。
図 1 7は、 実施例 1 0の階層型人工ニューラルネットワークにおける 4つのト ポロジーを示す図である。
図 1 8は、 実施例 1 1の潜在変数を用いた比例ハザードモデルの乳癌患者の生 存時間診断指標のグラフである。
図 1 9は、 実施例 1 1の潜在変数を用いた比例ハザードモデルの乳癌患者の生 存時間診断指標の予測値と計算値のグラフである。 発明を実施するための最良の形態
以下、 添付の図面を参照して本発明の実施の形態を説明する。
以下に、 選択された生体の状態と遺伝子発現の量および Zまたは細胞内物質の 量との相関モデルの決定について説明する。 ここで、 遺伝子宪現の用語は、 mR NA発現(トランスクリプトーム)や、 mR NAによる翻訳の結果として生じる蛋 白質(プロテオーム)を含むものとして用いる。 また、 細胞内物質の量とはここで はたとえば、 代謝中間体を含めた代謝産物全部であるメタポロームを意味する。 たとえば、 トランスクリプトーム(mRNA)やプロテオーム(蛋白質)の角军析にお いて、 各サンプルデータは、 生体の状態と遺伝子発現の量などからなる。 各サン プルはたとえば 1 0 0 0個以上の膨大な遺伝子発現の量を含む。 生体の状態は、 たとえば病気のタイプまたは病気の診断指標であるが、 より一般的には生体情報 であればよい。 「病気の診断指標」 には、 病気の進行度合いのほか、 病気のタイ プ、 重篤度、 深刻度などの表現で表わされるものも含む。 ここで、 遺伝子発現の 量などの測定データは膨大な情報量からなるので、 コンピュータを用いた効率的 な多変量解析が必要である。
データ収集において、 予めいくつかのサンプルについて生体の状態 (たとえば 診断指標) を判定し、 また、 そのサンプルされたものから細胞液を獲得し、 その 細胞液中の多くの遺伝子産物の発現の量などを測定する。 本発明の実施の形態の データ解析では、 こうして得られた遺伝子産物の発現の量などと生体の状態 (た とえば診断指標) を入力し、 相関モデル (たとえば部分最小自乗法モデル) を得 る。 ここで、 コンピュータによる多変量解析プログラムを用いて、 診断指標を目 的変数とし、 遺伝子発現の量および/または細胞內物質の量を説明変数とする因 果関係型の解析を行なって、 各説明変数の重要性や影響度に関する情報を得る。 また、 前記目的変数は、 必ずしも測定ィ直そのものである必要はなく、 口ジット変 換を行なった値や群を表す離散値を用いても良く、 その場合、 より有意な 結 果を得ることもできる。
本発明者らは、 遺伝子発現による医療診断という分野において、 データ解析に おける交差検証 (cross validation) の成績を少なくとも独立変数のひとつとし て持つ関数を最適化するように変数を選択することによって良好な相関モデル (たとえば部分最小自乗法モデル) が得られることを見出した。 交差検証法では、 手持ちのデータを複数群に分割し、 その一部のデータ群 (訓練集合) だけを使つ てフィットしたモデルを用いて残る別のデータ群 (テスト集合) を予測すること によって、 モデルの予測力を試す。 通常の部分最小自乗法 (PLS) においては潜 在変数の次元選択に交差検証法が用いられているが、 ここでは、 部分最小自乗法 において、 潜在変数を 1次元に固定し、 1以上の入力変数 (説明変数) を逐次取 捨選択しながら、 交差検証成績 (たとえば平方和の予測誤差) を少なくとも独立 変数のひとつとして持つ関数を最適化した。 ただし本発明の効果は潜在変数の次 元を 1に限定するものではない。 その結果、 全変数を採用した場合には有意な相 関モデルを得られなかつた場合にも、 良好でかつ予測力のある相関モデルが得ら れることが判明したのである。 この交差検証法を用いた変数選択の逐次取捨選択 により、 安定な相関モデルが得られる。 また本発明者らは、 関数形を適切に設定 することによつて説明変数を絞り込むことにより、 部分最小自乗法以外の統計学 又は多変量解析の良好な相関モデルを得ることが可能となり、 それぞれ生体の状 態を記述する目的変数にふさわしい相関モデルを得ることができることを見出し た。 なお、 ここでいう 「最適化」 とは、 交差検証成績が、 説明変数を取捨選択す るための、 そのときの解析条件の範囲で、 改善がみられなくなるまで改良したこ とを意味しており、 交差検証成績がすべての説明変数の組合せの中で最適なもの を見出したという意味ではない。 この変数選択手法を用いると、 病状を決定する 因子を少数に特定し、 廉価な診断用材料 (D NAチップ、 抗体チップ、 D NA含 有ベクターなど) を設計でき、 それ自体独自の価値を持つものである。 また、 こ の変数選択手法は、 予め設定される各種の変数選択条件と共に運用することが可 能である。
上に述べたように、 説明変数は、 交差検証成績を基準に逐次取捨選択される。 ここで、 取捨選択のため、 交差検証成績を少なくとも独立変数のひとつとして持 つ関数を用いる。 説明変数を追加する場合は、 その説明変数について、 前記関数 が改善されなかったと判定された場合には当該説明変数を除外し、 改善されたと 判定された場合には当該説明変数を追加する。 また、 説明変数を除外する場合は、 その説明変数について、 前記関数が改善されなかったと判定された場合には当該 説明変数を除外せず、 改善されたと判定された場合には当該説明変数を除外する。 ここで、 1以上の説明変数を選択した場合に、 交差検証成績評価は次のように進 める。 n個のサンプノレからいくつかのサンプルを逐次除外して部分最小自乗法モ デルを求め、 各モデルにおいて除外したサンプルの遺伝子発現の量から予測され る生体の状態を示す目的変数と、 除外したサンプルの生体の状態を示す目的変数 との各々の誤差の代表値を求める。 「代表値」 とは、 和、 平均、 最大値、 中位値、 最頻値などのデータを特徴づける値をいう。 そして、 当該誤差の代表値を少なく ともひとつの独立変数とする関数が小さくなった場合に、 交差検証成績が改善さ れたと判定し、 当該説明変数を追加または削除する。 この交差検証成績評価を、 説明変数を取捨選択しながら逐次繰り返して、 前記関数を改善し続ける。 改善さ れなくなれば交差検証成績を最適化したとして説明変数の取捨選択を終了する。 その結果、 取捨選択により絞り込んだ数の説明変数からなる最適な部分最小自乗 法モデルが得られる。 具体的には、 計算手段において計算される交差検証成績の 数値指標として予想残差自乗和 (PRESS)を採用し、 評価判定手段において予想残 差自乗和の値が説明変数あたり一定の閾値以下の比率で小さくなる場合に、 その 説明変数を採用すると判定することにより、 上記の処理は実行可能である。 因果関係型の解析手法においてはオーバーフィット (over fitting) を避ける ための工夫が必要となる。 ここでいうオーバーフィットとは、 説明変数が多すぎ るためにたまたま予測結果と実績とがー致するものの、 本当の相関関係をとらぇ 損なっているため、 モデルフィットに用いたデータ以外に予測能力を持たないこ とをいう。 ここでは、 相関モデルとして部分最小自乗法を用いるが、 部分最小自 乗法は次元圧縮とモデルフイットを同時に行なう強力な多変量解析手法であり、 オーバーフィットの問題に比較的強いとされている。 しかし遺伝子発現状態解析 のように膨大な変数を扱う場合には、 有意な結果が得られない事態に直面する。 従来技術として説明した Alaiyaや Khanの手法は全変数モデルが有意に成立するこ とを前提としているので、 変数の絞込みには一般的には適用できない。 これに対 し、 本発明では、 交差検証予測結果を最適にするように変数を絞り込むことによ り、 オーバーフィットを減らすことができた。 また、 本発明は、 前記 Khanの手法 とは異なり、 主成分分析などの前処理を介さない方法である。 従来技術では、 説 明変数が膨大な場合には、 有意なモデルを得ることができないことから、 予め、 全説明変数を基にたとえば、 主成分分析などで次元圧縮する前処理をし、 これに よって得られた説明変数によって解析する方法が用いられる。 しかし、 この方法 では、 構成したモデルで予測を行なうためには、 モデル構成の基となった全説明 変数が必ず必要となり、 たとえば、 説明変数が遺伝子発現の量であれば、 診断用 遺伝子チップに担持する遺伝子としては、 モデル構成に用いた遺伝子の全てが必 要となる力 \ または別の手法を用いて変数選択することが必要となる。 一方、 本 発明においては、 説明変数の選択によって説明変数を絞り込んでいるので、 たと えば、 説明変数が遺伝子発現の量であれば、 診断用遺伝子チップに担持する遺伝 子は、 選択された説明変数に相当する遺伝子を担持すれば良いことになる。 なお、 Todeschiniらは、 有機化合物の大気中の分解を予測するため、 遺伝的ァ ルゴリズムによって交差検証成績を最適化するように変数選択を行ない、 重回帰 モデノレ ¾Γ得てレヽる (P. Graraatics, V. Consonni & R. Todeschini, Chemosphere 38 (5) , 1371-78 (1999))。 5 3化合物と 1 7 5記述子でモデル構築を行ない (Q 2 =0. 79)、 7変数が選択され、 9 8化合物の予測を行なった (Q 2 =0. 75)。 交 差検証成績を最適化するように変数選択を行なっている点では、 本実施形態と同 様の手法である。 し力 し、 重回帰モデルを採用しているために、 説明変数の選択 過程を通じて選択される変数は少数個にとどまらざるを得ず、 複数の遺伝子発現 の量および/または細胞内物質の量の解析には適用できない。 本発明者らの調査 した範囲では、 Q2や PRESS値を最適化する方法では、 選抜される説明変数は百程 度から数百程度にわたり、 重回帰モデルでは解析が不能となる。 また Todeschini らは、 説明変数を絞り込むための有効な方法について言及していない。 これは、 もともとの説明変数の候捕がたかだか 1 7 5個であり、 説明変数を絞り込むため に特別の工夫をする必要がないからである。 遺伝子発現解析の分野はこれとは全 く異なり、 数十から数百のサンプル数に対して、 数百から数千、 数万の説明変数 候捕が存在する。 したがってこれまでとは異なる工夫が必要となる。
本実施形態では、 生体の状態と複数の遺伝子発現の量および/または細胞内物 質の量との相関モデルを決定するとき、 交差検証成績を少なくとも独立変数のひ とつとして持つ関数を最適化させるように説明変数を逐次追加 ·除外することに よって、 説明変数を選抜して、 良好な相関モデルを得る。 このようなアプローチ の優位†生は、 下記の実施例から推測されるように、 次のとおりである。
1 ) 病気や生体現象の背後で働いている重要な遺伝子やメカニズムを推定 Z特定 でき、 理角军が深まる。
2 ) 重要な遺伝子産物や細胞内物質だけに絞った廉価な診断用材料 (D NAチッ プ、 抗体チップなど) の設計が可能になる。
本実施形態では、 交差検証成績を少なくとも独立変数のひとつとして持つ関数 を最適化するように説明変数を段階的に取捨選択するが、 たとえば具体的には、 ステップワイズ (step wise)法に代表される説明変数を選択する選択手段と、 リ ープ ' ワン .アウト(leave-one - out)法に代表される交差検証法に部分最小自乗 法を適用して計算する計算手段と、 前記計算手段の結果を評価し、 説明変数の採 用、 不採用を判定する評価判定手段とを組合せて用いる。 すなわち、 m個の説明 変数の中から 1以上の説明変数を選択し、 次いで、 部分最小自乗法を実行して交 差検証成績を計算し、 さらに、 該計算結果を評価して、 選択した説明変数の採用、 不採用を判定する。 この評価判定では、 計算手段の結果から、 各計算において除 外したサンプルの遺伝子発現から予測される生体の状態を示す目的変数値と、 前 記除外したサンプノレの生体の状態を示す目的変数値との誤差の代表値を求め、 少 なくとも当該誤差の代表値を独立変数として持つ関数である当該誤差の代表値の 単調減少関数の値が小さくなった場合に説明変数の取捨選択を判定する。 このよ うに、 選択手段と計算手段と評価判定手段とを用いて、 少なくとも部分最小自乗 法モデルの交差検証成績を独立変数として持つ関数を改善し続けて、 その改善が みられなくなるまで改良し、 部分最小自乗法モデノレを決定する。 なお、 本実施形 態では、 サンプルを 1個づっ逐次除外している(リーブ 'ワン 'アウト法)が、 そ の代わりに、 複数のサンプルを除外して交差検証成績を評価してもよい(リー ブ■ n ·ァゥト法)し、 また、 Khan et al.により用いられた 3分割法(three- fold)等の他の方法を用いることもできる。 3分割法では、 説明変数をランダム にシャッフルして 3つのグループに分ける。 その中の 2つのグループを用いてモ デルを構成し、 残りの 1つのグループでモデルを評価する。 また、 説明変数の選 択方法としてはステップワイズ法、 非線形アルゴリズム(たとえば遺伝的ァルゴ リズムなど)を用いてもよく、 変数選択に関して予め何らかの条件が分っていれ ば、 それに応じて探索範囲を限定できる。
次に、 データの収集と解析について具体的に説明する。 図 1は、 遺伝子発現解 析システムを示す。 データ収集のため、 予めいくつかのサンプルについて診断指 標 (たとえば病気のタイプないし進行度合いを含む) を判定し、 また、 そのサン プルされたものから細胞液を獲得し、 D N Aチップを用いてその細胞液中の多く の遺伝子産物の発現の量を測定する。 測定には、 共焦点型レーザスキャナ (たと えば Affymetrix社、 4 2 8アレイスキャナ) 1 0を用いる。 吸光度により mR N Aの量が測定される。 このデータ収集は公知の方法である。 測定データは、 コン ピュータ 1 2に送られ角罕析される。 コンピュータ 1 2は、 C P U 1 4を備えた通 常の構成のコンピュータであり、 それに接続される記憶装置 (たとえばハードデ イスク装置) 1 6の記録媒体 (たとえばノヽードディスク) には、 測定データ 1 8 や解析ソフト 2 0が格納される。 この解析ソフト 2 0を用いてデータ 1 8が解析 され、 生体の状態と遺伝子発現の量などとの相関モデルが決定される。
なお、 説明変数の選択と、 交差検証法に部分最小自乗法を適用する計算とを複 数のコンピュータで実行させてもよい。 交差検証予測の計算を複数個のコンビュ ータに分散させることで計算を加速することができる。
図 2は、 コンピュータ 1 2により実行される、 生体の状態と遺伝子発現の量な どとの相関モデルを得るためのデータ解析ソフト 2 0のフローチャートを示す。 ここでは簡単に説明するため、 少なくとも部分最小自乗法モデルの交差検証成績 を独立変数として持つ関数として- PRESSを採用しているが、 発明の範囲を限定す るものでなく、 実施例 2 ~ 5においては別の関数を採用している。 まず、 相関モ デル作成用のデータを入力する ( S 1 0 ) 。 データはたとえば D N Aチップを用 いて収集したものである。 入力データ (サンプノ ^合) は、 それぞれ目的変数 (たとえば診断指標) と m個 (たとえば 2 0 0 0個) の説明変数 (たとえば遺伝 子発現の量) カゝらなる。 また、 場合によっては、 上述のデータ(訓練集合)以外に、 テスト集合のデータを入力する。 ここでテスト集合とは交差検証の評価のための データ群を意味するのではなく、 モデル決定が終了した後にモデルの予測カをテ ストするためのデータ群である。
まず、 初期設定として、 選択された説明変数の数を 0とし、 交差検証成績 の 最良値 CV。 を一∞とする (S 1 2 ) 。 次 、 説明変数の選択を行う。 まず、 説明 変数を指す番号 iを 1とし (S 1 4 ) 、 第 i変数 (遺伝子発現の量) を仮に採用 して (S 1 6 ) 、 部分最小自乗法を実行し、 交差検証成績 CVを計算する (S 1 8、 図 3参照) 。 ここで、 リーブ'ワン 'アウト処理を用いる。 これは、 たとえば 5 0個のサンプルからなる訓練集合において、 1番から 5 0番の全てを順次 1個づ つ除いて残りの 4 9個のサンプルで予測した結果と、 その時除いた 1個の結果と を比較し、 その誤差が大きい場合に、 仮に選択した説明変数 (第 i変数)が適して いないと判断する手法である。 もし、 得られた成績 CVが現在の最良値 CV。 より最 適化されれば (S 2 0で Y E S ) 、 第 i変数を採用し、 かつ、 成績 CVを新らしい 最良値 CV。 に更新する (S 2 2 ) 。 し力 し、 得られた成績 CVが最良値 CV。 より大 きくなければ (S 20で NO) 、 第 i変数を採用しない (S 24) 。 そして、 ス テツプ S 14に戻り、 同様の処理を繰り返す。 この処理を交差検証成績 CVが改善 されなくなる (S 26で NO) まで繰り返す。 ここで、 相関モデルに採用する説 明変数については 1つづつ段階的に増カロ (追カロ)または減少 (除外) して成績 CVを 評価判定している。 すなわち、 全体としての合致度合いがよくなるように各説明 変数を解析に加えるかどうかを逐次判定しながら、 説明変数の取捨選択を行い、 これを、 全体としての合致度合いがよくならなくなるまで繰り返す。 以上の処理 で改善があると、 ふたたびステップ S 14の初め(i=l)に戻り、 それまでに選択 されている説明変数を基に、 さらに説明変数の選択を繰り返す。 なお、 ここでは モデルの予測力を判断するために、 訓練集合とテスト集合とに予め分割しておい たデータ集合を用いてデータ解析しており、 上述の解析は、 訓練集合を用いて行 なった結果であるので、 この結果からテスト集合について予測を行い、 実測デー タとの合致度を評価 (S 28) している。 このような評価は必ずしも必要でない 力 予測力を判断するには有効である。
図 3は、 リーブ ·ワン ·ァゥト処理を含む交差検証成績 CVの計算 (図 2、 S 1
8) のフローチャートを示す。 ここで、 選択された変数について交差検証成績が 計算される。 まず、 PRESSの初期値を 0とする (S 180) 。 次に、 n個の集合 内のサンプルを指す番号 jを 1とし (S 182) 、 第】サンプル以外の n— 1個 のサンプルで部分最小自乗法を実行し (S 184) 、 第 jサンプルの目的変数を 予測する (S 186) 。 差の自乗を計算して PRESSに加算する (S 190) 。 次 に番号; jを 1増加し (S 182) 、 同様の処理をおこなう。 これを番号 j =nま で各サンプルについて繰り返す。 得られた PRESSは、 1個のサンプルを順次除外 して計算した予測値と実測値との差の平方和であり、 予測誤差を表わす量である。 この予測残差自乗和 PRESSの符号を変えたものを交差検証成績 CVとする (S 1 9 2) 。
本実施形態では、 交差検証法を用いて、 入力変数 (説明変数) を段階的に 1つ づっ追加'除外しながら、 交差検証成績 (CV= - PRESS) を最適化する。 ここで、 説明変数の段階的な追加'除外の内容を理解しやすくするため、 以下で、 さらに 具体的に 5つのモデル構築手法について説明する。 これらは、 説明変数の逐次的 な選択の手順が異なる。
図 4は、 第 1のモデル構築手法を示す。 データ集合においてどの説明変数も選 択されていない状態を初期状態とする (S 1 12) 。 次に、 1番目の説明変数か ら最後 (m番目 )の説明変数までの未だ選択されていない説明変数ごとに逐次、 そ の説明変数を選択した場合に交差検証成績が改善するかどうかを、 リーブ-ヮ ン ·ァゥト処理を用いた交差検証成績評価ステップ (S 118) を繰り返しなが ら判定(S 120)し、 改善する場合にはその説明変数を追加する (S 1 14〜S 124) 。 そのような改善と追 がなくなる (S 126で NO) まで、 1番目の 説明変数から上記逐次判定操作を繰り返す。
さらに詳しく説明すると、 まず、 初期設定として、選択された説明変数の数 N
Pを 0とし、 交差検証成績 CVの最良値 CV0を一∞とする (S I 12) 。 次に、 説 明変数の選択を行う。 まず、 変数 iを 1とし (S 114) 、 第 i変数を仮に採用 する (S 116) 。 ただし、 第 i変数がすでに採用されていれば (S 115で Y ES) 、 ステップ S 114に戻る。 次に、 部分最小自乗法を実行し、交差検証成 績 CVを計算する (S 118) 。 ここで、 リーブ'ワン'アウト処理を用いる。 も し、 得られた成績 CVが現在の最良値 CV。より最適化されれば (S 120で YE S) 、 第 i変数を採用し、 かつ、 成績 CVを新らしい最良値 CV。に更新する (S 1 22) 。 し力 し、 得られた成績 CVが最良値 CV。より大きくなければ (S 120で NO) 、 第 i変数を採用しない (S 124) 。 そして、 ステップ S 114に戻り、 同様の処理を繰り返す。 この処理を交差検証成績 CVが改善されなくなる (S 12 6で NO) まで繰り返す。 以上の処理で改善があると、 ふたたびステップ S 11 4に戻り、 新しいループを開始する。 ここで、 それまでに選択されている変数を 基に、 さらに変数の選択を繰り返す。 こうして、 データ集合を用いて選択された 変数を用いた相関モデルが得られる。
図 5は、 第 2のモデル構築手法を示す。 この手法では、 全ての説明変数が選択 されている状態を初期状態とする (S 212) 。 次に、 1番目の説明変数から最 後 (m番目)の説明変数までの選択されている説明変数ごとに逐次、 その説明変数 を除外した場合に交差検証成績が改善するかどうかを、 リーブ ·ワン 'ァゥト処 理を用いた交差検証成績評価ステップ (S 218) を繰り返しながら判定(S 2 20)し、 改善する場合にはその説明変数を除外する (S 214〜S 224) 。 そのような改善と除外がなくなる (3226で1^〇) まで、 1番目の説明変数か ら上記逐次判定操作を繰り返す。
さらに詳しく説明すると、 まず、 初期設定として、 選択された説明変数の数 N Pを mとし、 交差検証成績 CVの最良値 CV。を一∞とする (S 21 2) 。 すなわち、 すべての説明変数を選択する。 次に、 説明変数の選択を行う。 まず、 変数 iを 1 とし (S 214) 、 第 i変数を仮に除外する (S 21 6) 。 ただし、 第 i変数が すでに除外されていれば (S 21 5で YES) 、 ステップ S 2 14に戻る。 部分 最小自乗法を実行し、 交差検証成績 CVを計算する (S 21 8) 。 ここで、 リー ブ ·ワン ·ァゥト処理を用いる。 もし、 得られた成績 CVが現在の最良値 CV。より 最適化されれば (S 220で YES) 、 第 i変数を除外し、 かつ、 成績 CVを新ら しい最良ィ直 CV。に更新する (S 222) 。 し力 し、 得られた成績 CVが最良値 CV。よ り大きくなければ (S 220で NO) 、 第 i変数を除外しない (S 224) 。 そ して、 ステップ S 214に戻り、同様の処理を繰り返す。 この処理を交差検証成 績 CVが改善されなくなる ( S 226で N O) まで繰り返す。 以上の処理で改善が あると、 ふたたびステップ S 214に戻り、 新しいノ プを開始する。 ここで、 それまでに選択されている変数を基に、 さらに変数の選択を繰り返す。 こうして、 データ集合を用いて選択された変数を用いた相関モデルが得られる。
図 6は、 第 3のモデル構成手法を示す。 この手法は、 第 1と第 2の手法の直列 的な組合せである。 まず、 どの説明変数も選択されていない状態を初期状態とす る (S 1 1 2) 。 次に、 1番目の説明変数から最後 (m番目) の説明変数までの 未だ選択されていない説明変数ごとに逐次、 その説明変数を選択した場合に交差 検証成績が改善するかどうかを、 リーブ'ワン 'ァゥト処理を用いた交差検証成 績評価ステップを繰り返しながら判定し、 改善する場合にはその説明変数を追カロ 選択し、 そのような改善と追加がなくなるまで 1番目の説明変数から上記逐次判 定操作を繰り返す (S 1 14〜S 1 26) 。 次に、 1番目の説明変数から最後
(m番目) の説明変数までの選択されている説明変数ごとに逐次、 その説明変数 を除外した場合に交差検証成績が改善するかどうかを、 リーブ 'ワン.アウト処 理を用いた交差検証成績評価ステップを繰り返しながら判定し、 改善する場合に はその説明変数を除外し、 そのような改善と除外がなくなるまで、 1番目の説明 変数から上記逐次判定操作を繰り返す (S 214〜S 226) 。
図 7は、 第 4のモデル構築手法を示す。 この手法は、 第 3の手法の変形である。 まず、 どの説明変数も選択されていない状態を初期状態とする (S 112) 。 次 に、 1番目の説明変数から最後 (m番目)の説明変数までの未だ選択されていない 説明変数ごとに逐次、 その説明変数を選択した場合に交差検証成績が改善するか どうかを、リーブ 'ワン-ァゥト処理を用いた交差検証成績評価ステップ (S 1 18) を繰り返しながら判定(S 120)し、改善する場合にはその説明変数を追 加選択する (S 1 14〜S 124) 。 そのような改善と追加がなくなる (S 12 6で NO) まで、 1番目の説明変数から上記逐次判定操作を繰り返す。 次に、 1 番目の説明変数から最後 (m番目)の説明変数までの選択されている説明変数ごと に逐次、その説明変数を除外した場合に交差検証成績が改善するかどうかを、リ一 ブ■ワン'ァゥト処理を用いた交差検証成績評価ステップ (S 218) を繰り返 しながら判定(S 220)し、改善する場合にはその説明変数を除外する (S 21 4〜224) 。 そのような改善と除外がなくなる (S 226で NO) まで、 1番 目の説明変数から上記逐次判定操作を繰り返す。 上記逐次判定追加改善ステップ または上記逐次判定除外改善ステップで少なくとも一度改善があれば (S 227 で YE S) 、ステップ S 112に戻り、上記操作(S 112〜S 227)を繰り返す。 これを改善がなくなる (S 227で NO) までおこなう。
図 8は、 第 5のモデル構築手法を示す。 この手法は、 第 1と第 2のスキームの 並列的な組合せである。 どの説明変数も選択されていない状態を初期状態とする (S 1 12) 。 次に、 1番目の説明変数から最後 (m番目) の説明変数までの説 明変数ごとに逐次、 その説明変数が選択されていない場合にはその説明変数を選 択した場合に交差検証成績が改善するかどうかを、 リーブ 'ワン'アウト処理を 用いた交差検証成績評価ステップ (S 118) を繰り返しながら判定 (S 12
0) し、 改善する場合にはその説明変数を追加する (S 114〜S 124) 。 ま た、 選択する説明変数ごとに、 その説明変数がすでに選択されている場合には、 その説明変数を除外した場合に交差検証成績が改善するかどうかを、 リーブ-ヮ ン■ァゥト処理を用いた交差検証成績評価ステップ (S 218) を操り返しなが ら判定 (S 220) し、改善する場合にはその説明変数を除外する (S 216〜 S 224) 。 そのような改善と追加または除外がなくなる (S 126で NO) ま で、 1番目の説明変数から上記逐次判定操作を繰り返す。
次に、第 4のモデル構築手法 (図 7 )を適用した場合を、 表 1のデータ集合を例 として説明する。 このデータ集合に対して、 部分最小自乗法による解析を用いて 相関モデルを求める。 表 1のデータでは、 サンプルの数 nは 10であり、 また、 説明を容易にするため、 説明変数の数 mは 19と少なくしている。 表 1において、 piは目的変数を表わし、 p2〜p20は説明変数を表わす。 (ただし表 1では、 表示の 便宜のため、 pl6以降のデータを省略している。 )第 4手法(図 7)のステップ S 1 14、 S 214とは異なり、 説明変数を表わす iは p20から p2まで逆に逐次処理 することとした。 CV評価値としてここでは予測残差自乗和 (PRESS)を採用した。 PRESSが小さいほど、 CV評価値はよい。 初期状態では、 採用された説明変数の数 NPは 0であり、 PRESS=∞ (CV0=-∞)である。 表 1 1 0偁のサンプルのデータ
U pi p2 p3 p4 p5 p6 p7 p8 p9 plO pll pl2 pl3 pl4 pl5
10.7130.1050.7820.4250.1640.0230.6960.5430.333 0.6910.336ひ.6680.0170.0610.5
20.1330.0090.071 0.0020.7930.8720.0920.3910.630.2410.5170.3690,1660.8410.1
30.5450.1930.7650.3340.1090.5380.5780.6520.380.501 0.7290.910.865 0.3890.8
40.7520.9150.4720.9990.7980.3630.6220.4870.3530.9670.7780.4840.5170.9820.0
50.90.4070.5340.8160.8060.420.5720.9570.12 0.6960.8330.051 0.3770.8490.4
60. 550.5870.721 0.530.2520.4340.8820.4860.7410, 2430.8930.9470.4620.9520, 2
70.4270.6520.5150.4260.7640.5920.6950.5950.551 0.6060. 160.1630.3160, 7180.6
80.0420.9020.2740,8990.402 0. 690.6680.9450. ?460.9120.970.5150.3680.5140.4
90.9350.2760.936 0.1010.54 0.3560.8990.71 0.9240.7920. 860.3290.5010.0760.5 100.540.021 0.5050.2240.7240.431 0.0710.9680.4820.3220.7730.5430.3530.1070.9 表 2 表 1のデタについての 1 0の段階での変数選択結果
0 ∞ 一
1 追加 20 0. 111 20
2 追加 l8 0. 090 pl8 & p20
3 追加 pl6 0. 073 pl6 & pl8 & p20
4 追力 [1 plO 0. 073 lO & pl6 & pl8 & ρ20
5 追加 6 0. 062 ρ6 & plO & pl6 & pl8 & p20
6 追カ卩 p3 0. 060 p3 & p6 & plO & pl6 & pl8 & p20
7 追加 l2 0' 055 p3 & p6 & plO & pl2 & pl6 & pl8 & p20
8 除外 p20 0. 053 p3 & p6 & plO & pl2 & pl6 &
9 除外 plO 0. 050 p3 & p6 & pl2 & pl6 & pl8
10 追加 pl3 0. 048 p3 & p6 & pl2 & pl3 & pl6 & pl5
先に述べたように、 変数は p20から P2まで逆の順で処理する。 表 2は、 表 1の サンプルについて、 左端の数字は、 変数の取捨選択で改善がみられた 1 0の段階 を示す。 なお、 0は初期状態を意味する。 次の列の「追カロ」と「除外」は、 追力卩のル ープと除外のループの処理であることを意味する。 次の列の変数は、 追加または 除外された変数を示す。 次の列は、 交差検証成績 (PRESSをサンプル数で割ったも の)を示す。 右端の列は、 その段階で選択されている変数を示す。
初期状態では、 変数は全くない状態であり、 PRESSは∞である。 表 2に示すよ うに、 最初、 p20を説明変数として採用すると、 PRESS=0. Illとなり、 初期値に比 ベて改善されるので、 説明変数 P20の追加を実施する。 次に、 変数 P19を加えて pl9と p20の 2つを説明変数とすると、 PRESS=0. 129となり改善をもたらさないの で、 P19は追加しない。 次に、 説明変数 pl8を加えると PRESS=0. 090となり、 改善 するので、 pl8を追加し、 P18と p20を説明変数とする。 以下同様に表 2に示すよう に続く。 (ここで、 plOを追加採用するのは、 小数点以下 4桁目で改善されている ためである。 )説明変数 P20〜P2の 1回目のループを終了した時点で、 説明変数が p3、 p6、 pl0、 pl6、 pl8および p20となり、 PRESS=0. 60となる。 2回目のノ^ブで は、 説明変数 pl2が追加され、 PRESS=0. 55となる。 3回目のルプでは追加による 改善がなく、 ひとまず S 1 1 4〜S 1 2 6の追加処理を終了し、 S 2 1 4に移る。 この時点での部分最小自乗法のフィットならびにリーブ'ワン 'ァゥト予測状況 は表 3のとおりである。
表 3は、 1 0のサンプルにつ!/、て、 表 2の 7で示す段階まで処理が進んだ時点 での部分最小自乗法のフィットならびにリーブ 'ワン 'ァゥト予測状況を示す。 ここで、 モデル予測とリーブ 'ワン 'ァゥト予測のそれぞれにおいて、 計算値と 実測値との誤差を示す。 さらに、 その下側に、 誤差の自乗平均、 相関係数 Rの自 乗および予測相関係数 Qの自乗を示す。 表 3 表 2の段階 7での処理結果
モデル予測値 'J フ、 'ワンアウト予測
# 実測値 計算値 誤差
1 0. 713 0. 757 - 0. 044 0. 693 0, 020
2 0· 133 -0, 056 0, 189 - 0. 051 0. 184
3 0, 545 0. 497 0. 048 0. 480 0. 065
4 0. 752 0. 646 0. 106 0. 495 0. 257
5 0. 900 0. 687 0, 214 0. 557 0. 343
6 0. 455 0. 489 -0. 034 0. 512 -0. 057
7 0, 427 0. 624 - 0. 198 0. 672 - 0. 245
8 0. 042 0. 349 -0. 307 0. 517 -0. 475
9 0. 935 0. 865 0, 070 0. 782 0. 153
10 0. 154 0. 197 - 0. 044 0. 285 -0. 132
0. 093 0. 024 0. 055
R2 =0. 744 Q2 = =0. 07 次に、 ステップ S 2 1 4から始まる除外処理の 1回目のループにおいて、 説明 変数 plOと p20を除外することが改善をもたらした。 2回目のループでは改善がな く、 ステップ S 2 1 4〜S 2 2 6を終了するが、 ステップ S 2 2 7の判断により 再度 S I 1 2に戻る。 次に、 追加処理の 1回目のループにおいて、 pl3の追加だ けが改善をもたらしたが、 続く除外処理の 1回目のループでは、 改善がなかった, もう一度ステップ S 1 1 2に戻り、 ステップ S 1 1 4〜S 1 2 6およびステップ S 2 1 4〜S 2 2 6では改善がなくなつたのを確認して、 処理を終了した。 こう して選択された説明変数は、 p3、 p6、 pl2、 pl3、 pi6および pl8の 5個であり、 PRESS=0. 048となった。 詳細は表 4のとおりである。
表 4は、 表 2の段階 1 0まで処理が進んだ時点での部分最小自乗法のフイツト ならびにリーブ ·ワン ·ァゥト予測状況を示す。 表 4 表 2の段階 1 0での処理結果
モデル予測 リ-フ、'ヮ、/7 ^予測
# 実測値 計算値 計算値
1 0. 713 0. 771 -0. 058 0. 663 0. 050
2 0. 133 - 0. 013 0. 146 0. 041 0. 092
3 0. 545 0. 610 -0. 065 0. 595 -0. 050
4 0. 752 0. 524 0. 228 0, 380 0. 372
5 0. 900 0. 696 0. 205 0. 543 0. 357
6 0. 455 0. 591 -0. L37 0. 623 -0- 168
7 0. 427 0. 638 -0. 211 0. 696 -0. 269
8 0. 042 0. 189 -0. 147 0. 268 - 0. 226
9 0. 935 0. 841 0. 094 0. 756 0. 179
10 0. 154 0. 209 -0. 055 0. 294 - 0. 140
0. 093 0. 022 0. 048
R2 =0. 765 Q2 =0. 482 なお、 説明変数の数が多い時に強いとされる部分最小自乗法であるが、 P20〜 P2の全てを説明変数として採用した場合には、 表 5に示すように、 PRESS=0. 124 となった。 すなわち、 リーブ ' ワン 'ァゥト処理は、 平均値からの誤差 (0. 093) よりも悪い成績をもたらす。 表 5 全ての説明変数を採用した場合の処理結果
モデ/レ予測 !) : ワンアウト予測
# 実測値 計算値 誤差 計算値
1 0. 713 0. 712 0. 001 0. 527 0, 186
2 0. 133 - 0. 073 0. 206 0. 222 - 0· 090
3 0. 545 0. 561 -0, 016 0. 538 0. 007
4 0. 752 0. 656 0. 096 0. 351 0. 02
5 0. 900 0. 691 0. 209 0. 432 0. 469
6 0. 455 0. 519 - 0. 064 0. 562 - 0. 107
7 0. 427 0. 583 -0* 156 0. 629 -0. 203
8 0. 042 0. 430 -0. 388 0. 724 - 0. 682
9 0. 935 0. 794 0. 140 0. 480 0. 454
10 0. 154 0. 182 -0. 029 0. 457 -0. 303
0. 093 0. 029 0. 124
2 =0. 684 Q2 =- -0, 330
実施例.
次に、 実施例を挙げて本発明をさらに詳細に説明するが、 本発明はこれらの例 によつて何ら限定されるものではない。 実施例 1 : 部分最小自乗法の交差検証成績を考慮した特徴抽出による D L B CL患者のデータ解析.
P. 0. Brownらのホームページ (http://llmpp.nih.gov/lymphoma/) より入手 した 28名の DLBCL (リンパ腫) 患者のデータを、 20名のデータからなる 訓練集合と 8名のデータからなるテスト集合に分けた。 目的変数に生存月数を採 用し、 説明変数には 18432スポットのうち、 28データにおいて chl、 ch2と もに正の数となる 12832スポットの log(chl/ch2)値を採用した。
訓練集合において部分最小自乗法 (PLS) のモデル決定を試みた。 12832 変数全てを用いて部分最小自乗法の解析をしたところ、 リーブ'ワン'アウト予 測は有意(Q 2 > 0.5 )にはならなかつた。 次にリーブ 'ワン'アウト予測誤差 が最小になるように説明変数を段階的に 1つづつ増減した。 モデル構成手法とし ては前述の第 3のモデル構成手法において説日月変数の追加及び除外の順番並びに リーブ■ワン.ァゥト処理におけるサンプルの除外の順番が異なるほかは同様な 方法を用いた。 すなわち、 どの説明変数も選択されていない状態を初期状態とす る (S I 12) 。 次に、 最後 (m番目) の説明変数から最初 (1番目) の説明変 数までの未だ選択されていない説明変数ごとに逐次、 その説明変数を選択した場 合に交差検証成績が改善するかどうかを、 リーブ'ワン'アウト処理 (ここでは、 最後 (n番目) のサンプルから最初 (1番目) のサンプルを逐次除外した) を用 いた交差検証成績評価ステップを繰り返しながら判定し、 改善する場合にはその 説明変数を追加選択し、 そのような改善と追加がなくなるまで m番目の説明変数 から上記逐次判定操作を繰り返す (S 114〜S 126) 。 次に、 最後 (m番 目) の説明変数から最初 (1番目) の説明変数までの選択されている説明変数ご とに逐次、 その説明変数を除外した場合に交差検証成績が改善するかどうかを、 リーブ'ワン.アウト処理 {ここでも最後 (n番目) のサンプルから逐次除外し た } を用いた交差検証成績評価ステップを繰り返しながら判定し、 改善する場合 にはその説明変数を除外し、 そのような改善と除外がなくなるまで、 最後 (m番 目) の説明変数から上記逐次判定操作を繰り返す (S 214〜S 226) 。 その 結果、 有意なモデル (R2 =0.988、 Q2 =0.895、 NP=342) を得た。 図 9は、 このデータについての最小自乗法成績を示す。 図 9において、 ひし形 (fit) は 訓練集合のデータ (20人) を示し、 三角 (cv) は、 それらについての交差検証成 績のデータを示す。 また、 四角 (test) はテスト集合のデータ (8人) を示す。 得られた部分最小自乗法モデルは、 テスト集合のうち、 4/8をきわめて良好に、 また 1/8を良好に予測するものであった。
なお、 上述の多変量解析によるデータ解析では、 扱ったサンプルは DNAチッ プを用いて得たデータであった。 しかし、 このデータ解析は、 DNAチップを用 いて得たデータに限定されるものではなく、 蛋白質発現量、 細胞内物質の量など のデータに対しても有用であろうことは容易に推測されることである。
以下の実施例 2〜 7では、 部分最小自乗法を用いて選抜した少ない個数の説明 変数について、 通常の統計的手法または多変量解析手法 (比例ハザード法、 重回 帰分析、 適応最小自乗法、 ロジスティック回帰分析法、 線型判別分析法など) を 適用する。 実施例 2 : 部分最小自乗法の交差検証成績を考慮した特徴抽出と比例ハザー ド解析による 240名の DLBCL患者の生存時間解析.
Rosenwaldらが Web上 (http:〃llmpp. nih. gov/DLBCL/) で公開している 240 名の D L B C L (ぴまん性大細胞型 Bリンパ腫)のデータセットをダウンロードし て用いた。 全データを訓練集合として利用した。 スポットパターンで% 1または % 2が 0となるものを除いた 7399スポットについて log (; c 1/% 2)を計算し て説明変数とした。 本実施例では実施例 1と異なり、 生存時間として観測打切り 時間と死亡時間とが混在していることを考慮して力プラン ·マイヤー (Kaplan - Meier) 法による生命表を適用して事象発生時点での生存確率 (PKM)を求め、 口ジ ット変換 (log(PKM/l - PKM))した値を目的変数とした。 力プラン 'マイヤー法によ る生 表は集団としての生存確率を示すが、 ここでは、 個人 jを含む集団として の事象発生時点での残存確率 (変化の発生しなかったものが残存する確率) を個 人 jの事象発生時点での残存時間に読み代えるという新規な考え方を用いている。 また、 この確率を口ジット変換して、 変化の発生傾向を表現する口ジット値に変 換して、 目的変数とした。 訓練集合内の交差検証はリーブ ·ワン'アウト法によ つて行ない、 PKESSX1.02N pが小さくなるようにパラメータを逐次取捨選択し て部分最小自乗法モデルを得た。 ここで、 交差検証成績 (CV=- PRESS) の代わり に、 少なくとも交差検証成績を独立変数として持つ関数の 1つである関数 - PRESS X 1. 02N p を改善して部分最小自乗法モデルを得た。 ここで PRESSはリーブ'ヮ ン 'アウト予測の残差自乗和であり、 N Pは、 選択された説明変数の数である。 図 7のフロー中の交差検証成績 CVを- PRESS X L 02N p と読み換えて、 処理を 実行することにより、 下記の 1 9個の遺伝子の発現が説明変数として選抜された c ここで data IDは Webデータ元での ID番号を示す。 また ACCESSIONは GenBankのァク セション番号であり、 ァクセション番号の無い行はデータ元でのみ明らかとなつ ている遺伝子 (Unknown) ないし ESTであり、 論文記載の方法によって入手するこ とができる。
ACCESSION data ID comment
U03398 # (27876) tumor necrosis factor (ligand)
superfamily, member 9
M65066 # (27394) protein kinase, cA P - dependent,
regulatory, type I, beta
― # (27104) (Unknown)
AK001546# (25048) Homo sapiens cDNA FLJ 10684 fis, clone
T2RP3000220
-一 # (31372) (Unknown)
U15085 # (28178) major histocompatibility complex,
class II, DM beta
BC003536# (24983) hypothetical protein MGC10796
-- # (16113) (Unknown)
M23452 # (16822) small inducible cytokine A3
# (24433) (Unknown)
X00437 # (27480) T cell receptor beta locus
U12979 # (24377) activated R A polymerase II
transcription cofactor 4
X52479 # (17773) protein kinase C, alpha H96306 # (16578) bone marrow stromal cell antigen 1 U70426 # (19255) regulator of G - protein signalin 16
AA830781# (33358) EST
AA804793# (25022) EST
H57330 # (26383) EST
S69790 # (27184) WAS protein family, member 3 これらの遺伝子の発現を説明変数の候補として比例ハザード (hazard)解析を試 みた。 比例ハザード法とは、 生存率の解析に時間を考慮した統計的手法である。 解析の実行はプログラムパッケージ J MP (JMP Sales SAS Campus Drive Cary,
NC 27513 USA)を用いて行なった。 変数削除基準として P≥0. 05を採用した変数減 少法によって更に絞り込んだ結果、 1 4遺伝子の発現からなる以下の比例ハザー ド式が得られた。 ここで Genbank (ジーンバンク) のァクセシヨン番号ないし data IDで示される各項は、 各遺伝子の log ( % 1 / 2 )値であり、 また Pは統計 的な有意性が成り立たない危険率である。 この式の右辺から求められるハザード 値 (hazard)が大きいほど、 死亡傾向が大き ヽ。
hazard = 0. 370 #(27104) +0. 589 AK001546 -0. 366 # (31372) -0. 276 U15085
-0. 307 # (16113) +0. 409 M23452 -0. 350 # (24433) -0. 297 X00437 +0. 321 U12979 -0. 585 X52479 -0. 457 U70426 +0. 561 AA830781 -0. 430 H57330 +0. 433 S69790
Pく 0. 0001
Rosenwaldらは、 単相関の比例ハザード解析を行なつて、 5群( 1 7遺伝子)の 診断指標を選抜している。 図 1 0に、 本実施例で得られたハザード値 (Hazard, 図中 Hazard (pis (14) )と示した) と Rosenwaldらの診断指標がどの程度、 生存時 間を説明できているかを比較した。 Rosenwaldらの 5群のパラメータを同時に用 いた比例ハザード式では Prol irationパラメータが P〉0. 05で統計的に有意でな いなどの問題を有していため、 これを除く 4群のパラメータを同時に含めたハザ 一ド値も比較のために掲載した(図中 Hazard (Rosenwald/4para)と示した)。 こ こで、 菱形は死亡した人または打ち切った人のデータを示し、 四角は生存してい る人のデータを示す。
これらの診断指標のうち、 本実施例で求めたハザード値と生存時間との相関は 際立って明白である。 即ちハザード値は生存時間につれて減衰しており、 大きな ハザード値の患者は長く生きることが出来ないことが示されている。 一方、 Rosenwaldらの指標はいずれも生存時間を診断するには不十分なものである。 数 百、 数千という数のパラメータの中から効率的に最適のパラメータセットを見出 すことは比例ハザード解析だけではできないことである。 しかし以上のように力 プラン-マイヤ一法、 口ジット変換、 部分最小自乗法の交差検証成績を考慮した 特徴抽出、 比例ハザード解析を組み合わせることで、 従来に無い、 有効な診断指 標を得ることができた。 統計学的に異質なモデルをこのように,祖み合わせること によってこのような良好な結果が得られたことは意外でもあり、 興味深 、ことで あった。 患者の生存時間を予測することは、 Q0Lを含めた治療計画や人生設計な どを判断する上で重要な情報をもたらすものであり、 本実施例で求められた診断 モデルは社会的に価値のあるものである。
また、 変数削除基準として P≥0. 001を採用した変数減少法によって更に絞り込 むと、 6遺伝子の発現からなる以下の比例ハザード式が得られた。 このように、 変数削除基準を変えることにより、 選択される説明変数の数を制御できる。 hazard = -0. 426 U15085 +0. 350 M23452 -0. 521 X52479
- 0. 450 U70426 -0. 586 H57330 +0. 476 S69790
図 1 1は、 右辺を計算して求められるハザード値を縦軸とし、 生存時間を横軸 としたプロットを示す。 図 1 0と同様に、 図 1 1において、 菱形は死亡した人ま たは打ち切った人のデータを示し、 四角は生存している人のデータを示す。 実施例 3 : 部分最小自乗法の交差検証成績を考慮した特徴抽出と比例ハザー ド解析による 4 0名の乳癌患者の生存時間解析.
Sorleら力 b_ti (http: //genome- www. Stanford, edu/breast一 cacer/mopo一 clinical/)で公 ¾している?し癌患者のテ ータセットをダウンロードして用いた。 全データを訓練集合として利用した。 デ ータセットの大部分は、 タイプ A, Bという 2種類の D NAチップで測定された それぞれ 4 0名、 2 4名の患者よりなるが、 ここではタイプ Aのデータを用いた。 生存時間データより実施例 2と同様に口ジット値を求め、 目的変数とした。 説明 変数としては、 データに欠測のある遺伝子を除いた 6 8 9 1件の L0G_RAT2N_MEAN 直を採用した。 そして、 少なくとも交差検証成績を独立変数として持つ関数の 1 つである、 交差検証成績と説明変数 N Pの関数 PRESS X L 13N pが小さくなるよ うにパラメータを逐次取捨選択して部分最小自乗法モデルを得た。 図 7のフロー 中の交差検証成績 CVを- PRESSX 1. 13N p と読み換えて、 処理を実行することに より、 下記の 1 0個の遺伝子の発現が説明変数として選抜された。
ACCESSION comment
AA406242 (.guanosine monophosphate reductase)
AA598572 (spleen tyrosine kinase)
H73335 (Homo sapiens mRNA full length insert cDNA clone EUROIMAGE
980547)
W84753 (Homo sapiens cDNA FLJ13510 fis, clone PLACE1005146)
AA703058 (myeloperoxidase)
N71160 (cytochrome c oxidase subunit Vib)
AA453345 (a protein tyrosine kinase)
AA054669 (Homo sapiens, clone IMAGE :3611719, mRNA, partial cds)
N32820 (ESTs, Weakly similar to ALU1— HUMAN ALU SUBFAMILY J SEQUENCE
CONTAMINATION WARNING ENTRY [H. sapiens] )
R05667 (suppressor of potassium transport defect 3)
これらを説明変数の候補として、 比例ハザード解析において変数削除基準とし て P≥0. 05を採用した変数減少法を試み、 7遺伝子の発現からなる以下の比例ハ ザ一ド式が得られた。 ここでァクセッション番号で示される各項はそれぞれの遺 伝子の LOG— RAT2N— MEANである。
hazard = -0. 821 AA406242 +1. 556 AA598572 -1. 074 H7335 +1. 418 W84753
- 1. 290 AA703058 +2. 182 N71160 +0. 828 AA453345
Pく 0. 0001 変数の Pく 0. 05
図 1 2に、 右辺を計算して求められるハザード値を縦軸とし、 生存時間を横軸 としたプロットを示す。 ここでもハザード値が優れた診断指標となることが示さ れている。 図 1 2において、 菱形は死亡した人または打ち切った人のデータを示 し、.四角は生存している人のデータを示す。
変数削除基準として P 0. 001を採用した変数減少法によって更に絞り込んだ。 これにより、 3遺伝子の発現からなる以下の比例ハザード式が得られた。 このよ うに、 変数削除基準を変えることにより、 説明変数の数を制御できた。
hazard = 1. 453 AA598572 -1. 473 AA703058 +1. 071 AA453345
図 1 3は、 右辺を計算して求められるハザード値を縦軸とし、 生存時間を横軸 としたプロットを示す。 ここで、 菱形は死亡した人のデータを示し、 四角は生存 している人のデータを示す。 実施例 4 : 部分最小自乗法の交差検証成績を考慮した特徴抽出と重回帰分析 による 4 0名の乳癌患者の再発予測解析.
Sorleらの DNAチップ Aで 6 8 9 1遺伝子の発現が測定された 4 0名の患者をデ 一タセットとして用いた。 再発の有無を目的変数として、 PRESS X I. 10N p力 S小 さくなるようにパラメータを逐次取捨選択して 1 1遺伝子の発現からなる部分最 小自乗法モデルを得た。
ACCESSION comment
AA434397 integrin, beta 5
T83209 ESTs
N53427 KIAA1628 protein
N29639 cytidine monopho sphat e-N-ac et y 1 neur ami ni c acid
hydroxylase
M485739 major histocompatibility complex, class II,
DR beta 5
AA425861 enoyl Coenzyme A hydratase 1, peroxisomal
H84871 Ste-20 related kinase
T64312 prostate cancer overexpressed gene 1
T59518 solute carrier family 2, (facilitated glucose transporter) member 8
AA406231 KIAA0381 protein
AAO 37488 prolactin
次に、 選抜された遺伝子発現を説明変数とし、 再発の有無を目的変数として、 通常の多変数解析法の一つである重回帰分析によつて判別分析を実行した。 解析 の実行はプログラムパッケージ J MPを用いて行なった。 変数削除基準として!3 ≥0. 15を採用した変数減少法によってさらに絞り込んだ結果、 1 0遺伝子の発現 からなる以下の重回帰式が得られた。 この式で計算される 0LS値が正の時は再発 の可能性が高く、 負の時は低い。
0LS = -0. 215 AA434397 +0. 227 T83209 -0. 209 N53427 +0. 139 N29639
+0. 165 AA485739 +0. 133 AA425861 -0. 084 H84871 -0. 193 T64312 +0. 237 T59518 +0. 176 AA037488 -0. 278
R2 =0. 84797、 判別正解率 97. 5%
上式に含まれる各パラメータをそれぞれ 1つ用いて判別分析式を作成した場合 の P値及び決定係数を以下の表 6に示す。
表 6
Figure imgf000038_0001
単独では有意とはならない (P〉0. 05)パラメータが 3つ存在し、 また、 どのパラ メータも決定係数が小さい。 従って、 パラメータを 1つずつ吟味するだけでは、 上式のような良好な判別式は得られなかった。 また数百、 数千という数のパラメ ータの中から効率的に最適のパラメータセットを見出すことは重回帰分析だけで はできないことである。 しカ し、 以上のように、 部分最小自乗法の交差検証成績 を考慮して特徴抽出することにより、 従来に無い、 有効な診断指標を得ることが できた。 乳癌の再発可能性を予測することは、 Q0Lを考慮した治療計画を立案し 判断するうえで、 社会的に求められているところのものである。 実施例 5 : 部分最小自乗法の交差検証成績を考慮した特徴抽出と適応最小自 乗法による 4 0 + 2 4名の乳癌患者の再発予測解析.
D NAチップのタイプ A ( 4 0名)とタイプ B ( 2 4名)に共通する 3 4 4 8遺伝 子に限って解析を試みた。 PRESS X 1. 17N Pが小さくなるようにパラメータを逐 次取捨選択して部分最小自乗法モデルを得た。 選抜された遺伝子発現を説明変数 とし、 適応最小自乗法によって判別分析を実行した結果、 次式が得られた。 次式 で計算される A L S値が 0 . 5より大きいと再発の危険性が存在する。
ALS = 0. 31 HI 1482 -0. 29 T64312 -0. 32 AA045340 +0. 01
R2 = 0. 65, eps = 0. 13, 判別正解率 90. 0%
下記の表 7にみるように、 H11482は単相関では有意ではなく、 他の変数と同 時に用いることで初めて把握できたパラメータである。 また、 表 8は、 上式を用 いてタイプ Bの患者を予測した結果である。 本判別式の感度 =81. 8%、 特異度 = 53. 8%となり、 % 2 =3· 233 (5%く Pく 10%)、 予測判別正解率 =66. 7%、 という統計的に 有意な結果を得た。 タイプ A、 Bは D NAチップの構成の相違に基づく測定誤差 が存在すると思われるデータであるにもかかわらず、 タイプ Aで訓練したモデル でタィプ Bの予測に危険率 1 0 %以下で成功したことは勇気付けられる結果であ る。
また、 PRESS X 1. 12N Pが小さくなるように選んだ場合には、 以下の遺伝子の 発現を説明変数とする部分最小自乗法モデルを得た。
H11482、 T64312、 R99749、 T65211、 Μ427625、 ΑΑ455506
これらを説明変数の候捕として、 リーブ ' ワン 'アウトを指標にして、 さらに 絞り込んだ結果、 次の判別式を得た。
ALS = 0. 53 HI 1482 -0. 31 T64312 -0. 33 R99749 -0. 26 AA455506 +0. 10
R2 = 1. 00, eps = 0. 10, 判別正解率 100. 0%
パラメータを 1つずつ吟味するだけでは、 上式のような良好な判別式は得られ なかった。 また数百、 数千という数のパラメータの中から効率的に最適のパラメ ータセットを見出すことは、 適応最小自乗法、 ロジスティック回帰分析、 その他 の判別分析手法だけではできないことである。 し力 し、 以上のように、 部分最小 自乗法の交差検証成績を考慮して特徴抽出することにより、 従来に無い、 有効な 診断指標を得ることができた。
表 7 パラメータの交絡作用
Figure imgf000040_0001
表 8 タイプ Bの 2 4患者の予測
Figure imgf000040_0002
実施例 6: 部分最小自乗法の交差検証成績を考慮した特徴抽出と口ジスティッ ク回帰分析法または線型判別分析法による 4 0 + 2 4名の乳癌患者の再発予測解 析.
実施例 5での 1つめの適応最小自乗法による解析をロジスティック回帰分析法 に置き換えた場合、 次の判別式が得られた。
L0RA = 7. 92 HI 1482 -5. 69 T64312 -6. 41 AA045340 -9. 73
R2 = 0. 63, x2 = 35. 00 (Pく 0. 0001) , 判別正解率 90. 0%
右辺で求められる L O R A値が正の場合には再発の危険性が存在する。 係数の 比率や相関係数は実施例 5の適応最小自乗法の場合と異なるものの、 各患者の識 別結果は全く同一であった。 またタイプ Bの患者を予測した結果も表 7と同じに なった。
次に、 実施例 5での適応最小自乗法による解析を線型判別分析に置き換えて解 析して、 次の判別式が得られた。
LDA = 2. 45 HI 1482 -2. 35 T64312 -2. 56 AA045340 -4. 03
判別正解率 80. 0%
右辺で求められる L D A値が正の場合には再発の危険性が存在する。 係数の比 率や相関係数は、 実施例 5の適応最小自乗法の場合と異なり、 各患者の識別結果 も若干異なったが、 概ね同一であった。 また、 タイプ Bの患者を予測した結果も 表 7と同じになった。
以上の実施例 4, 5, 6では、 乳癌の再発の有無を目的変数としている。 したが つて、 部分最小自乗法の交差検証成績を考慮して特徴抽出する方法が、 目的変数 が名義尺度や順序尺度などのデータである場合にも有効であることが示された。 なお、 名義尺度とは、 対象 (サンプル) をある分類に属するかどうかを測り分け- るときの分類で、 分類の間に大小や順序はない。 また、 順序尺度とは、 対象の特 定の分類について測り分けるときの分類であり、 分類の間に大小、 高低といった 順序がある。 実施例 7: 部分最小自乗法の交差検証成績を考慮した特徴抽出と比例ハザー ド解析による 4 0名の乳癌患者の再発時間解析.
実施例 4と同じデータを用いて、 再発の時系列データを基に実施例 2と同様の 方法で求めたロジット値を目的変数として、 PRESS X 1. 15N Pが小さくなるように パラメ ^"タを逐次取捨選択して 9遺伝子の発現からなる部分最小自乗法モデルを 得た。 これらの遺伝子発現の測定値を説明変数として比例ハザード解析において 変数削除基準として P≥0. 05を採用した変数減少法を試み、 8遺伝子からなる、 以下の比例ハザード式が得られた。
hazard = 1. 122 AA448641 -1. 781 R78516 -1. 434 R05934 +2. 165 W84753
-1. 923 AA629838 +2. 665 H08581 +1. 875 AA045730 +1. 269 AI250654 P<0. 0001
図 1 4は、 右辺を計算して求められるハザード値を縦軸とし、 再発時間を横軸 としたプロットを示す。 ここで、 菱形は再発しない人のデータを示し、 四角は再 発している人のデータを示す。 ここでもハザード値が優れた診断指標となってお り、 生存時間に限らず、 時間とともに確率的に発生する生体の状態の変化を解析 する手法として、 本発明の手法が有効であることが示されている。
変数削除基準として P≥0. 005を採用した変数減少法によって更に絞り込んだ場 合には、 4遺伝子の発現からなる以下の比例ハザード式が得られた。
hazard = 1. 559 84753 +2. 265 H08581 +1. 473 AA045730 +1. 237 AI250654 図 1 5は、 右辺を計算して求められるハザード値を縦軸とし、 再発時間を横軸 としたプロットを示す。 ここで、 菱形は再発しない人のデータを示し、 四角は再 発している人のデータを示す。 実施例 8 : &6 &。^;ァクセッション番号1111482、 T64312、 Μ045340を含む乳癌 再発性診断用 D Ν Αチップの作成と測定.
実験医学別冊 「ゲノム機能研究プロトコール」 (ISBN4-89706-932-7 C3047) p34- 38記載の関直彦、 永杉友美、 東孝典、 吉川勉、 鈴木収、 村松正明らの方法に 準じて D NAチップの作成と測定を行なった。 Genbankァクセッション番号 HI 1482 T64312s M045340の c D NAを用いた。
プローブ用の各 P C R産物をエタノール (和光純薬, Cat#057- 00456)で沈殿さ せ、 2/ g/ ju lとなるように D DWで調整する。 ニトロセルロース(GibcoBRL
Cat#41051-012) 4 mg/mlの DMS O溶液を等量加え、 よく混和させて 1 0 0 °Cで 5分間熱変性を行ない、 氷上で急冷する。 次いで室温に戻し、 D NAスポッター SPBI02000 (日立ソフトエンジニアリング)を用いてカルボジィミドスライドガラ ス(日清紡)へのスポッティングを速やかに行なう。 スポットの乾燥を確認し、 Ultraviolet crosslinker (アマシャムフアルマシアバイオテック社)を用いて 6 OmJん m2で紫外クロスリンク処理を行ない、 ガラスラックに立てて室温保存する。
3%BSAS 0.2M NaCl、 0.1M Tris (PH 7.5)、 0.05% Triton X - 100よりなるプロッ キング液に上記マイクロアレイを浸け、 約 3 0分間放置する。 次いで、 ガラスに 付着している溶液をよく切り、 3 7 °Cで乾燥させる。 TEバッファー (PH 8.0, 二 ツボンジーン Cat #316- 90025)で 3回軽く洗い、 プレートホルダーに入れて軽く 遠心(1000 rpm, 1分間)して余分な水分を除去する。
次に、 乳腺正常株 SV- 40及ぴ乳癌細胞株 MCF- 7、 MDA- MB- 468又は T- 47- Dの各細胞 液より、 TRIZ0L (G.ibcoBRL, Cat#15596- 018)、 Oligotex dT30<Super> (TaKaRa, Cat#W9021A)を用いてマニュアルに従って、 niRNAを精製する。 2 μ gの mRNAを
DE P C処理した6.4μlのDDWに溶かし、 Oligo dTプライマー 9 μ 1、 5 X Superscript IIバッファー(GibcoBRL, Cat#18089-01l) 6 μ 1、 DTT
(Superscriptの付属) 3 μ 1、 50 X dNTP 0. 6 μ 1、 Cy3- dUTP (アマシャムフ アルマシアバイオテク Cat# PA53022)又は Cy5- dUTP (アマシャムフアルマシアバ ィォテク Cat# PA55022) 3 μ 1、 Superscript II 2 μ 1よりなる溶液を力 tlえ、 4
2 °Cで 2時間反応させる。 途中 1時間経過時点で、 Superscript IIを を追 加する。 1. 5 μ 1アル力リバッファー (IN NaOH / 20nM EDTA)を加え、 6 5 °Cで 1 0分間反応させ、 TEバッファーを 2 70 ^1、 1N HC1を 1. 5 μ1加えて、 Cy3, Cy5ラベルの反応液を 2つまとめて 1本の Microcon- YM- 30 (Millipore/Amicon, Cat#42410)に移す。 1 0, 00 Orpmで上の力ップに残る液量が約 1 0 μ 1になる まで遠心を続け、 カップを通りぬける液を別のチューブに移し替え、 その後、 上 のカップに ΤΕ バッファー 500 /X 1、 Human Cot-1 DNA (GibcoBRL Cat#15279- 011) 20 Atgを力!]え、 再び液量が 1 0 1以下になるまで遠心を続ける。 3, 00 0 rpmで 3分間遠心し、 蛍光標識した DN Aを回収する。 DDWと yeast RNA (Sigma, Cat#R7125) 50 μ g、 poly (A) (ロッシュダイァグノステイクス,
Cat#108 626) 50 μ gを加えて 20 1にし、 PC R用のチューブに移し換え、 さらに 4. 2 5 ^ 1 20 X SSC (GibcoBRL, Cat#15553—035)と 0. 7 5 μ 1 1 0 % SD S (GibcoBRL, Cat#15553-035)を加え、 PCR用の機器で 1 00 °C、 1分 間熱変性させ、 次いで、 室温で 30分間放置して、 ゆっくり冷却する。 蛍光標識した DNAの全量をカバーガラスにのせ、 泡が入らないように注意し ながら前記マイクロアレイにかぶせ、 水で濡らしたキムタオルを底に敷いたハイ プリダイゼーションチェンバーに入れて密閉する。 毎分 2~ 4サイクルで軽く振 とうさせながら、 65°Cでー晚ハイプリダイズする。 ハイプリダイゼーションチ ェンバーからマイクロアレイを取り出し、 カバーガラスが載ったままの状態で静 カに2 33〇/0. 1% SDS溶液中に入れ、 5分間シエイキングし、 カバ 一ガラスが自然にはがれるのを待つ。 カバーガラスがはがれたところでマイクロ アレイをスライドガラスラックに入れ、 もう一度 2XS SC/0. 1% SDS 溶液中で 5分間軽く振とうして洗う。 さらに 0. 2XSSC/0. 1% SDS 40 °Cで 5分間 2回洗い、 0. 2XSSCでリンスする。 マイクロアレイを別 の乾いたプレパラートケースに移し、 マイクロタイタープレート用の遠心機で軽 く遠心して(1000 rpra, 1分室温)マイク ΰアレイ上の水分を除く。 そして、 ScanArray4000 (GSI luminonics社)でシグナルを読み込み、 角军析ソフトには Quant Array (GSI luminonics社)および Chip Space (日立ソフトウエアェンジ二 ァリング)を用いる。 実施例 9: 遺伝的ァルゴリズムによる部分最小自乗法モデルの最適化.
実施例 4で用いた Sorleらの DNAチップ Aで 6891遺伝子の発現が測定された 40名の患者をデータセットとして用いた。 遺伝的アルゴリズムは、 たとえば、 伊庭斉志; 「遺伝的アルゴリズムの基礎」 (オーム社 (1994)) に説明されている。 前記データを用い、 遺伝的アルゴリズムによる説明変数選択を行なった。 以下に おいて 「」 で区切られた用語は遺伝的アルゴリズムで通常用いられる専門用語で あり、 特に必要な場合には解説を加えている。 「適合度」 (fitness) には - PRESS X 1.0,を採用した。 各 「個体」 の 「遺伝型」 は説明変数を採用する場合 には 1、 採用しない場合には 0をとる数列 {bl,b2, b3, ...}とした。
個体集合のサイズを 100個とし、 初期の個体の 「遺伝型」 (GTYPE)は、 平均 で min_0f(Ns, Ng, 300) /2個の説明変数が採用となるように乱数を用いて準備し た。 ここで Nsはサンプル数 (患者数)、 N gは説明変数の候補の数、 300は実装 の都合上設定された定数である。 4059
43 集合よりランダムに 2つの個体を選抜し、 「遺伝型」 の 「一様交叉」 を行なつ たものの一方を新しい 「個体」 とした。 即ち、 「各遺伝子座」 ごとに 1 / 2の確 率で 、ずれかの 「親個体」 の数列値( 0または 1 )を選びそれを代入したものを新 しい 「個体」 とした。 続いて新しい 「個体」 の 「各遺伝子座」 毎に、 1の場合 (説明変数が採用されている場合)には 1. 1/採用された説明変数の数の確率で、 0 の場合 (採用されていない場合)には 1. 1/採用されていない説明変数候插の数の確 率で、 0 " 1を反転させた。
上述の 「交叉 '突然変異オペレーション」 によって準備された新しい 「個体」 の 「適合度」 と、 ランダムに選抜された 「トーナメント相手」 となる集合中の 「個体 J の 「適合度」 とを比較し、 新しい 「個体」 の適合度が勝った場合には 0 .
7 5の確率で、 劣った場合には 0 . 2 5の確率で 「個体 j の置き換えを行なった。 ただし、 「トーナメント相手 J が集合中の最適解のものである場合には置き換え を禁止するという 「エリート戦略」 を採用した。
以上の 「交叉」 → 「突然変異」 → 「選抜」 サイクルを繰り返して最適化を行な つた。 ここではサイクル数を集合サイズで割ったものを 「世代数」 とする。 最大
「世代数」 の初期値を 1 0 0とし、 新しい最適解が見出されるたびに最大 「世代 数」 を 1 0増加させながら、 実行 「世代数」 が最大 「世代数」 に至るまでサイク ルを繰り返した。
以上の初期集合の準備〜最適化の繰り返しおよび終了にいたる一連の処理を一 回のラン(run)とし、 1 5回のランを行なった。 図 1 6は、 1 5回のランにおけ る最適化の様子をまとめている。 最良の結果は 2 5個の説明変数を用いたもので ある。 実施例 1 0 : 階層型人工ニューラルネットワーク(MLP)によるモデノレ構築. 実施例 5の乳癌患者の再発性判別解析において、 D N Aチップ type A (40名)と type B (24名)に共通する 3 4 4 8遺伝子より、 PRESS X 1. 17Npが小さくなるよう にして P L S -C Vで特徴抽出された 3つの説明変数を用いた。
解析方法について説明すると、 ML Pは 3層とし、 中間層(tk)において一度だ けシグモイド変換を行なう構造とし、 図 1 7の 4つのトポロジーを試みた。 ネッ トワークの重みの学習は Back propagation (逆伝播)アルゴリズムによって行なつ た。 中間層(tk)において一度だけシグモイド変換を行なう 3層 MLPを用いた。
sik=∑ j wkj■ Pij
tik=l/ (l+exp {-sik} )
yi=∑k vk · tik
ネットワークトポロジー Iおよびトポロジー libの結果は以下のとおりであつた。 なお、 トポロジー Ila及ぴトポロジー lieは、 トポロジー libに劣るものであった。 トポロジー I:
y= 0. 76 -1. 77 tl
sl= -12. 48-42. 89 HI 1482 +39. 38 AA045340 +29. 65 T64312
R2=0. 717 Q2=0. 142
トポロジー lib:
y=l. 19 -0. 86 tl -1. 43 t2
tl= 2. 65+ 18. 25 AA045340
t2=-0. 40 -2. 29 H11482+ 3. 55 T64312
R2=0. 626 Q2=0. 416 実施例 1 1 : 潜在変数を用いた比例ハザードモデルの構築.
実施例 3の P L S— C V法で選抜された 10遺伝子の発現量を説明変数とし、 目 的変数として生存確率の logit値を用いて P L Sの解析過程で作成される潜在変 数を 1個抽出した。 その抽出した潜在変数を説明変数にして比例ハザードモデル による解析を試みた結果、 作成された式は P 0 . 0 0 0 1で有意となつた。 図 1 8に右辺を計算して得られるハザード値を縦軸とし、 生存時間を横軸にしたプ ロットを示す。
本技術で得られたハザード式の予測の性能を評価するために、 用いた 4 0例の 中から 1例を除外し、 残りの 3 9例のデータを用いてハザード式を作成し、 除外 した 1例のハザード値を予測した。 3 9例からのハザード式によつて予測した値 と 4 0例からのハザード式からの計算値をプロットした図 1 9より、 本技術はハ ザ一ド値の予測において良好な成績を示した。 発明の効果について以下に説明すると、 生体の状態と複数の遺伝子発現の量お よび/または細胞内物質の量との相関モデルを決定するとき、 説明変数の選択と 交差検証法とを用いて変数を絞り込むことができる。 これにより、 良好でかつ予 測力のある多変量解析モデル (相関モデル) が得られる。 特に遺伝子発現の量の ように、 説明変数の数がたとえば 1 0 0 0以上と膨大な場合に有用である。 変数 の数を少なくすることにより、 病気や生体現象の背後で働いている重要な遺伝子 やメカニズムを推定/特定でき、 理角爭が深まる。 また、 重要な遺伝子産物や細胞 内物質だけに絞った廉価な診断用材料 (D N Aチップ、 D NA含有ベクター、 抗 体チップなど)を設計し、 提供できる。
また、 時間とともに確率的に発生する生体の状態の変化から導出された量を目 的変数として用いて、 時間とともに確率的に発生する生体の状態の変化と複数の 遺伝子発現の量および/または細胞内物質の量との相関モデルを決定できる。 また、 部分最小自乗法を用いて説明変数の個数を少なくすると、 通常の統計的 手法または多変量解析手法が適用可能になる。

Claims

請 求 の 範 囲
1 . 生体の状態または時間とともに確率的に発生する生体の状態の変化を目的 変数とし、 複数の遺伝子発現の量および Zまたは細胞内物質の量を説明変数とす る相関モデルを決定するデータ解析装置であって、
生体の状態或いはそれを導出するデータまたは時間とともに確率的に発生する 生体の状態の変化に関するデータと、 複数の遺伝子発現の量および Zまたは細胞 内物質の量からなるサンプルの集合を入力する入力手段と、
( 1 )説明変数を選択する選択手段と、
( 2 )部分最小自乗法を実行して交差検証成績を計算する計算手段または前記生体 の状態の変化に関するデータに力プラン ·マイヤー法又は力トラー■ェデラー法 による生命表を適用して変化の発生しなかつたものの確率を計算して得られた確 率を、 仮定した分布に基づいた変換または仮定を前提としない変換をし、 該変換 結果を目的変数とする部分最小自乗法を実行して交差検証成績を計算する計算手 段と、
( 3 )前記(2 )の計算手段の結果を評価し、 説明変数の採用、 不採用を判定する評 価判定手段とを有し、
( 4)前記 ( 1 ) の選択手段と前記(2 )の計算手段と前記(3 )の評価判定手段とを 実行して部分最小自乗法モデルの少なくとも交差検証成績を独立変数として持つ 関数を改善し続けて部分最小自乗法モデルを決定する決定手段とからなることを 特徴とするデータ解析装置。
2. 目的変数が生体の状態であって、 前記入力手段で入力するデータが生体の 状態或いはそれを導出するデータであつて、 前記( 2 )の計算手段が部分最小自乗 法を実行して交差検証成績を計算する計算手段であることを特徴とする請求項 1 に記載のデータ解析装置。
3 . 目的変数が時間とともに確率的に発生する生体の状態の変化であって、 前 記入力手段で入力するデータが時間とともに確率的に発生する生体の状態の変化 に関するデータであって、 前記(2 )の計算手段が前記生体の状態の変化に関する データに力プラン ·マイヤー法又は力トラー ·ェデラー法による生命表を適用し て変化の発生しなかったものの確率を計算して得られた確率を、 仮定した分布に 基づいた変換または仮定を前提としない変換をし、 該変換結果を目的変数とする 部分最小自乗法を実行して交差検証成績を計算する計算手段であることを特徴と する請求項 1に記載のデータ解析装置。
4 . さらに、 前記の決定手段にて決定された部分最小自乗法モデルに採用され ている説明変数又は該モデルの潜在変数を用い、 統計的手法又は多変量解析手法 によるモデルを構築する最終モデル決定手段を備えることを特徴とする請求項 1、 2又は 3に記載のデータ解析装置。
5 . 前記の選択手段において、 説明変数を逐次取捨選択することを特徴とする 請求項 1〜 4のいずれかに記載のデータ解析装置。
6 . 前記の選択手段において、 遺伝的アルゴリズムを用いて説明変数を選択す ることを特徴とする請求項 1 ~ 4のいずれかに記載のデータ解析装置。
7 . 前記の計算手段において、 1個のサンプルを逐次除外して部分最小自乗法 を実行して交差検証成績を計算することを特徴とする請求項 1〜 6のいずれかに 記載のデータ解析装置。
8 . 前記の計算手段において、 複数のサンプルを逐次除外して部分最小自乗法 を実行して交差検証成績を計算することを特徴とする請求項 1 ~ 6のいずれかに 記載のデータ解析装置。
9 . '前記計算手段において、 各計算において除外したサンプルの遺伝子発現か ら予測される生体の状態を示す目的変数値と、 前記除外したサンプルの生体の状 態を示す目的変数値との誤差の代表値を求め、 交差検証成績の指標として当該誤 差を用いることを特徴とする請求項 7又は 8に記載のデータ解析装置。
1 0. 前記関数が交差検証成績であることを特徴とする請求項 1〜 9のいずれ かに記載のデータ解析装置。
1 1 . 前記関数が交差検証成績と選択された説明変数の個数との関数であるこ とを特徴とする請求項 1〜 9のいずれかに記載のデータ解析装置。
1 2. 前記の決定手段において、 少なくとも交差検証成績を独立変数として持 つ関数を改善しながら評価判定を繰り返すことを特徴とする請求項 5に記載のデ ータ解析装置。
1 3 . 前記 ( 1 ) の選択手段と前記(2 )の計算手段とを複数のコンピュータで 実行させることを特徴とする請求項 1〜 1 2のいずれかに記載のデータ解析装置。
1 4 . 請求項 1、 2、 3又は 4で決定された相関モデル及び予測対象のサンプ ルについて当該モデルにおいて採用された説明変数を入力する入力手段と、 入力 された該説明変数に基づいて該サンプルの生体の状態を予測判定する予測判定手 段からなることを特徴とするデータ解析装置。
1 5 . 生体の状態を名義尺度、 順序尺度或いは連続量で表現する目的変数とす る請求項 2に記載のデータ解析装置。
1 6 . 最終モデル決定手段が用いる前記の統計的手法又は多変量解析手法が、 比例ハザード法又はパラメトリックな分布にあてはめた回帰分析法であることを 特徴とする請求項 2又は 4に記載のデータ解析装置。
1 7 . 生体の状態または時間とともに確率的に発生する生体の状態の変化を目 的変数とし、 複数の遺伝子発現の量および Zまたは細胞内物質の量を説明変数と する相関モデルを決定するデータ解析方法であって、
生体の状態或いはそれを導出するデータまたは時間とともに確率的に発生する 生体の状態の変化に関するデータと、 複数の遺伝子宪現の量および/または細胞 内物質の量からなるサンプルの集合を入力する入力ステップと、
( 1 )説明変数を選択する選択ステツプと、
( 2 )部分最小自乗法を実行して交差検証成績を計算する計算ステップまたは前記 生体の状態の変化に関するデータに力プラン ·マイヤー法又は力トラー 'ェデラ 一法による生命表を適用して変化の発生しなかったものの確率を計算して得られ た確率を、 仮定した分布に基づいた変換または仮定を前提としない変換をし、 該 変換結果を目的変数とする部分最小自乗法を実行して交差検証成績を計算する計 算ステップと、
( 3 )前記(2 )の計算ステップの結果を評価し、 説明変数の採用、 不採用を判定す る評価判定ステップとを有し、
( 4 )前記 ( 1 ) の選択ステップと前記(2 )の計算ステップと前記(3 )の評価判定 ステップとを実行して部分最小自乗法モデルの少なくとも交差検証成績を独立変 数として持つ関数を改善し続けて部分最小自乗法モデルを決定する決定ステツプ とからなることを特徴とするデータ解析方法。
1 8 . 目的変数が生体の状態であって、 前記入力ステップで入力するデータが 生体の状態或いはそれを導出するデータであって、 前記(2 )の計算ステップが部 分最小自乗法を実行して交差検証成績を計算する計算ステップであることを特徴 とする請求項 1 7に記載のデータ解析方法。
1 9 . 目的変数が時間とともに確率的に発生する生体の状態の変化であって、 前記入力ステップで入力するデータが時間とともに確率的に発生する生体の状態 の変化に関するデータであって、 前記(2 )の計算ステップが前記生体の状態の変 化に関するデータに力プラン'マイヤー法又は力トラー'ェデラー法による生命 表を適用して変化の発生しなかったものの確率を計算して得られた確率を、 仮定 した分布に基づいた変換または仮定を前提としない変換をし、 該変換結果を目的 変数とする部分最小自乗法を実行して交差検証成績を計算する計算スチップであ ることを特徴とする請求項 1 7に記載のデータ解析方法。
2 0 . さらに、 前記の決定ステップにて決定された部分最小自乗法モデルに採 用されている説明変数又は該モデルの潜在変数を用い、 統計的手法又は多変量解 析手法によるモデルを構築する最終モデル決定ステップを備えることを特徴とす る請求項 1 7、 1 8又は 1 9に記載のデータ解析方法。
2 1 . 前記の選択ステップにおいて、 説明変数を逐次取捨選択することを特徴 とする請求項 1 7 ~ 2 0のいずれかに記載のデータ解析方法。
2 2 . 前記の選択ステップにおいて、 遺伝的アルゴリズムを用いて説明変数を 選択することを特徴とする請求項 1 7 - 2 0のいずれかに記載のデータ解析方法。
2 3 . 前記の計算ステップにおいて、 1個のサンプルを逐次除外して部分最小 自乗法を実行して交差検証成績を計算することを特徴とする請求項 1 7〜2 2の V、ずれかに記載のデータ解析方法。
2 4 . 前記の計算ステップにおいて、 複数のサンプルを逐次除外して部分最小 自乗法を実行して交差検証成績を計算することを特徴とする請求項 1 7〜2 2の いずれかに記載のデータ解析方法。
2 5 . 前記計算ステップにおいて、 各計算において除外したサンプルの遺伝子 発現から予測される生体の状態を示す目的変数値と、 前記除外したサンプルの生 体の状態を示す目的変数値との誤差の代表値を求め、 交差検証成績の指標として 当該誤差を用いることを特徴とする請求項 2 3又は 2 4に記載のデータ解析方法。
2 6 . 前記関数が交差検証成績であることを特徴とする請求項 1 7〜 2 5のい ずれかに記載のデータ解析方法。
2 7 . 前記関数が交差検証成績と選択された説明変数の個数との関数であるこ とを特徴とする請求項 1 7〜2 5のいずれかに記載のデータ解析方法。
2 8 . 前記決定ステップにおいて、 少なくとも交差検証成績を独立変数として 持つ関数を改善しながら評価判定を繰り返すことを特徴とする請求項 2 1に記載 のデータ解析方法。
2 9 . 前記 ( 1 ) の選択ステップと前記(2 )の計算ステップとを複数のコンビ ユータで実行させることを特徴とする請求項 1 7〜 2 8のいずれかに記載のデー タ解析方法。
3 0 . 請求項 1 7、 1 8、 1 9又は 2 0で決定された相関モデル及び予測対象 のサンプルについて当該モデルにおいて採用された説明変数を入力する入力ステ ップと、 入力された該説明変数に基づいて該サンプルの生体の状態を予測判定す る予測判定ステツプからなることを特徴とするデータ解析方法。
3 1 . 生体の状態を名義尺度、 順序尺度或いは連続量で表現する目的変数とす る請求項 1 8に記載のデータ解析方法。
3 2 . 前記の統計的手法又は多変量解析手法が、 比例ハザード法又はパラメト リックな分布にあてはめた回帰分析法によるモデルを構築する最終モデル決定ス テツプとからなることを特徴とする請求項 1 8又は 2 0に記載のデータ解析方法。
3 3 . 生体の状態または時間とともに確率的に発生する生体の状態の変化を目 的変数とし、 複数の遺伝子発現の量および Zまたは細胞内物質の量を説明変数と する相関モデルを決定する、 コンピュータにより実行されるデータ解析プロダラ ムであって、
生体の状態或いはそれを導出するデータまたは時間とともに確率的に発生する 生体の状態の変化に関するデータと、 複数の遺伝子発現の量および/または細胞 内物質の量からなるサンプルの集合を入力する入力ステップと、
( 1 )説明変数を選択する選択ステツプと、 ( 2 )部分最小自乗法を実行して交差検証成績を計算する計算ステップまたは前記 生体の状態の変化に関するデータに力プラン■マイヤー法又は力トラー■ェデラ 一法による生命表を適用して変化の発生しなかったものの確率を計算して得られ た確率を、 仮定した分布に基づいた変換または仮定を前提としない変換をし、 該 変換結果を目的変数とする部分最小自乗法を実行して交差検証成績を計算する計
( 3 )前記(2 )の計算ステップの結果を評価し、 説明変数の採用、 不採用を判定す る評価判定ステツプとを有し、
( 4 )前記 ( 1 ) の選択ステップと前記(2 )の計算ステップと前記(3 )の評価判定 ステップとを実行して部分最小自乗法モデルの少なくとも交差検証成績を独立変 数として持つ関数を改善し続けて部分最小自乗法モデルを決定する決定ステップ とからなることを特徴とするデータ解析プログラム。
3 4 . 目的変数が生体の状態であって、 前記入力ステップで入力するデータが 生体の状態或いはそれを導出するデータであって、 前記(2 )の計算ステップが部 分最小自乗法を実行して交差検証成績を計算する計算ステップであることを特徴 とする請求項 3 3に記載のデータ解析プログラム。
3 5 . 目的変数が時間とともに確率的に発生する生体の状態の変化であって、 前記入力ステップで入力するデータが時間とともに確率的に発生する生体の状態 の変化に関するデータであって、 前記(2 )の計算ステップが前記生体の状態の変 化に関するデータに力プラン'マイヤー法又はカトラー ·ェデラー法による生命 表を適用して変化の発生しなかったものの確率を計算して得られた確率を、 仮定 した分布に基づいた変換または仮定を前提としない変換をし、 該変換結果を目的 変数とする部分最小自乗法を実行して交差検証成績を計算する計算ステップであ ることを特徴とする請求項 3 3に記載のデータ解析プロダラム。
3 6 . さらに、 前記の決定ステップにて決定された部分最小自乗法モデルに採 用されている説明変数又は該モデルの潜在変数を用い、 統計的手法又は多変量解 析手法によるモデルを構築する最終モデル決定ステツプを備えることを特徴とす る請求項 3 3、 3 4又は 3 5に記載のデータ解析プログラム。
3 7 . 前記の選択ステツプにおいて、 説明変数を逐次取捨選択することを特徴 とする請求項 3 3〜 3 6のいずれかに記載のデータ解析プログラム。
3 8 . 前記の選択ステップにおいて、 遺伝的アルゴリズムを用いて説明変数を 選択することを特徴とする請求項 3 3 ~ 3 6のいずれかに記載のデータ解析プロ グラム。
3 9 . 前記の計算ステップにおいて、 1個のサンプルを逐次除外して部分最小 自乗法を実行して交差検証成績を計算することを特徴とする請求項 3 3〜 3 8の いずれかに記載のデータ解析プロダラム。
4 0 . 前記の計算ステップにおいて、 複数のサンプルを逐次除外して部分最小 自乗法を実行して交差検証成績を計算することを特徴とする請求項 3 3〜 3 8の いずれかに記載のデータ解析プログラム。
4 1 . 前記計算ステップにおいて、 各計算において除外したサンプルの遺伝子 発現から予測される生体の状態を示す目的変数値と、 前記除外したサンプルの生 体の状態を示す目的変数値との誤差の代表値を求め、 交差検証成績の指標として 当該誤差を用いることを特徴とする請求項 3 9又は 4 0に記載のデータ解析プロ グラム。
4 2 . 前記関数が交差検証成績であることを特徴とする請求項 3 3〜 4 1のい ずれかに記載のデータ解析プログラム。
4 3 . 前記関数が交差検証成績と選択された説明変数の個数との関数であるこ とを特徴とする請求項 3 3〜4 1のいずれかに記載のデータ解析プログラム。
4 4 . 前記決定ステップにおいて、 少なくとも交差検証成績を独立変数として 持つ関数を改善しながら評価判定を繰り返すことを特徴とする請求項 3 7に記載 のデータ解析プログラム。
4 5 . 前記 (1 ) の選択ステップと前記(2 )の計算ステップとを複数のコンビ ユータで実行させることを特徴とする請求項 3 3〜4 4のいずれかに記載のデー タ角军析プログラム。
4 6 . 請求項 3 3、 3 4、 3 5又は 3 6で決定された相関モデル及び予測対象 のサンプルについて当該モデルにおいて採用された説明変数を入力する入力ステ ップと、 入力された該説明変数に基づ ヽて該サンプルの生体の状態を予測判定す る予測判定ステップからなることを特徴とするデータ解析プログラム。
4 7 . 生体の状態を名義尺度、 順序尺度或いは連続量で表現する目的変数とす る請求項 3 4に記載のデータ解析プログラム。
4 8 . 前記の統計的手法又は多変量解析手法が、 比例ハザード法又はパラメト リックな分布にあてはめた回帰分析法によるモデルを構築する最終モデル決定ス テツプとからなることを特徴とする請求項 3 4又は 3 6に記載のデータ解析プロ グラム。
4 9 . 前記の説明変数の選択において、 初期状態では説明変数を全く含まない ことを特徴とする請求項 3 7に記載のプログラム。
5 0 . 前記の説明変数の選択において、 初期状態では全説明変数を含むことを 特^とする請求項 3 7に記載のプログラム。
5 1 . 前記の生体の状態が病気のタイプをあらわす測定値、 病気の重篤度をあ らわす測定値、 病気のタイプをあらわす医療診断の結果、 病気の重篤度をあらわ す医療診断の結果、 あるいはそれらを 2次加工した数値であることを特徴とする 請求項 3 7〜5 0のいずれかに記載のプログラム。
5 2 . 請求項 3 3〜請求項 4 8のいずれかに記載されたプログラムを記録した、 コンピュータにより読み取り可能な記録媒体。
5 3 . 実質的にジーンバンクァクセッション番号が U15085、 M23452, X52479、 U70426, H57330及び S69790からなる遺伝子群の発現を検出することを特徴とする びまん性大細胞型 Bリンパ腫の重篤度検定用の細胞内物質測定機材および測定方 法並びにびまん性大細胞型 Bリンパ腫の重篤度検定方法。
5 4 . さらにジーンバンクァクセッション番号が U03398、 M65066、 AK001546、
BC003536、 X00437、 U12979、 H96306、 M830781及び M804793からなる群から選択 される少なくとも一つの遺伝子の発現を検出することを特徴とする請求項 5 3に 記載のびまん性大細胞型 Bリンパ腫の重篤度検定用の細胞内物質測定機材および 測定方法並びにびまん性大細胞型 Bリンパ腫の重篤度検定方法。
5 5 . 実質的にジーンパンクァクセッション番号が M598572、 M703058及ぴ
M453345からなる遺伝子産物を含む細胞内物質を検出することを特徴とする乳癌 の重篤度検定用の細胞内物質測定機材およぴ測定方法並びに乳癌の重篤度検定方 法。
5 6 . さらにジーンバンクァクセッション番号が M406242、 H73335、 W84753、 N71160、 AA054669, N32820及び R05667からなる群から選択される少なくとも一 つの遺伝子産物を含む細胞内物質を検出することを特徴とする請求項 5 5に記載 の乳癌の重篤度検定用の細胞内物質測定機材および測定方法並びに乳癌の重篤度 検定方法。
5 7 . 実質的にジーンバンクァクセッション番号が W84753、 H08581、 AA045730 及び AI250654からなる遺伝子産物を含む細胞内物質を検出することを特徴とする 乳癌の再発性検定用の細胞内物質測定機材および測定方法並びに乳癌の再発性検 定方法。
5 8 . さらにジーンバンクァクセッション番号が M448641、 R78516、 R05934、
AA629838及び H53037からなる群から選択される少なくとも一つの遺伝子産物を含 む細胞内物質を検出することを特徴とする請求項 5 7に記載の享し癌の再発性検定 用の細胞内物質測定機材および測定方法並びに乳癌の再発性検定方法。
5 9 . 実質的にジーンバンクァクセッション番号が AA434397、 T83209、 Ν53427、 Ν29639、 ΑΑ485739, Μ425861、 Η84871、 Τ64312、 T59518及び
Μ037488からなる遺伝子産物を含む細胞内物質を検出することを特徴とする乳癌 の再発性検定用の細胞内物質測定機材および測定方法並びに乳癌の再発性検定方 法。
6 0 . さらにジーンバンクァクセッション番号が M406231の遺伝子産物を含む 細胞内物質を検出することを特徴とする請求項 5 9に記載の乳癌の再発性検定用 の細胞内物質測定機材および測定方法並びに乳癌の再発性検定方法。
6 1 . 実質的にジーンバンクァクセッション番号が H11482、 T64312及び Μ045340からなる遺伝子産物を含む細胞内物質を検出することを特徴とする乳癌 の再発性検定用の細胞内物質測定機材および測定方法並びに乳癌の再発性検定方 法。
PCT/JP2003/004059 2002-04-04 2003-03-31 Dispositif et procede d'analyse de donnees WO2003085548A1 (fr)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2003582665A JPWO2003085548A1 (ja) 2002-04-04 2003-03-31 データ解析装置および方法
AU2003220998A AU2003220998A1 (en) 2002-04-04 2003-03-31 Apparatus and method for analyzing data
KR10-2004-7015515A KR20040111456A (ko) 2002-04-04 2003-03-31 데이터 해석 장치 및 방법
CA002481485A CA2481485A1 (en) 2002-04-04 2003-03-31 Apparatus and method for analyzing data
US10/509,886 US20050159896A1 (en) 2002-04-04 2003-03-31 Apparatus and method for analyzing data
EP03715637A EP1498825A1 (en) 2002-04-04 2003-03-31 Apparatus and method for analyzing data

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2002-102743 2002-04-04
JP2002102743 2002-04-04
JP2002-352645 2002-12-04
JP2002352645 2002-12-04

Publications (1)

Publication Number Publication Date
WO2003085548A1 true WO2003085548A1 (fr) 2003-10-16

Family

ID=28793526

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2003/004059 WO2003085548A1 (fr) 2002-04-04 2003-03-31 Dispositif et procede d'analyse de donnees

Country Status (8)

Country Link
US (1) US20050159896A1 (ja)
EP (1) EP1498825A1 (ja)
JP (1) JPWO2003085548A1 (ja)
KR (1) KR20040111456A (ja)
CN (1) CN1647067A (ja)
AU (1) AU2003220998A1 (ja)
CA (1) CA2481485A1 (ja)
WO (1) WO2003085548A1 (ja)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006088208A1 (ja) * 2005-02-21 2006-08-24 Dainippon Sumitomo Pharma Co., Ltd 生体の生理的変化の予測方法および装置
WO2007063972A1 (ja) * 2005-12-02 2007-06-07 Yamaguchi University 有効因子抽出システムとその方法とそのプログラム
JP2008500822A (ja) * 2004-06-01 2008-01-17 プロファジア インコーポレイテッド 嚥下障害者向けに適応させた食品組成物の使用の指標および方法
JP2008503589A (ja) * 2004-06-22 2008-02-07 マキシジェン, インコーポレイテッド 機能的生体分子を同定するための方法、システムおよびソフトウェア
JP2008090833A (ja) * 2006-09-06 2008-04-17 Dna Chip Research Inc 判別因子セットを特定する方法、システム及びコンピュータソフトウェアプログラム
JP2010500565A (ja) * 2006-08-10 2010-01-07 ミレニアム・ファーマシューティカルズ・インコーポレイテッド 癌治療法を有する患者の同定、評価、および治療のための方法
JP2010504579A (ja) * 2006-09-20 2010-02-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 分子診断判定サポートシステム
CN102539326A (zh) * 2012-01-13 2012-07-04 江苏大学 茶叶汤色品质的量化评价方法
JP2012256182A (ja) * 2011-06-08 2012-12-27 Sharp Corp データ解析装置、データ解析方法およびデータ解析プログラム
JP2013152656A (ja) * 2012-01-26 2013-08-08 Fujitsu Ltd 説明変数の決定のための情報処理装置、情報処理方法及びプログラム
US8849575B2 (en) 2002-03-01 2014-09-30 Codexis Mayflower Holdings, Llc Methods, systems, and software for identifying functional biomolecules
US9665694B2 (en) 2013-01-31 2017-05-30 Codexis, Inc. Methods, systems, and software for identifying bio-molecules with interacting components
US20210287134A1 (en) * 2020-03-13 2021-09-16 Kabushiki Kaisha Toshiba Information processing apparatus, information processing method, and computer program
US11180539B2 (en) 2016-03-29 2021-11-23 Karydo Therapeutix, Inc. Pharmaceutical composition or food composition, and method for assessing effect of active ingredient in vivo
US11244760B2 (en) 2015-06-25 2022-02-08 Karydo Therapeutix, Inc. Prediction device based on inter-organ cross talk system
CN117275220A (zh) * 2023-08-31 2023-12-22 云南云岭高速公路交通科技有限公司 基于非完备数据的山区高速公路实时事故风险预测方法

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7761267B2 (en) * 2004-10-26 2010-07-20 National University Corporation, Yokohama National University Multi-variable model analysis system, method and program, and program medium
WO2006098192A1 (ja) * 2005-03-16 2006-09-21 Ajinomoto Co., Inc. 生体状態評価装置、生体状態評価方法、生体状態評価システム、生体状態評価プログラム、評価関数作成装置、評価関数作成方法、評価関数作成プログラムおよび記録媒体
EP1804172B1 (en) * 2005-12-20 2021-08-11 Roche Diagnostics GmbH PCR elbow determination using curvature analysis of a double sigmoid
JP5011830B2 (ja) * 2006-06-09 2012-08-29 富士通セミコンダクター株式会社 データ処理方法、データ処理プログラム、該プログラムを記録した記録媒体およびデータ処理装置
US8374795B2 (en) 2008-05-13 2013-02-12 Roche Molecular Systems, Inc. Systems and methods for step discontinuity removal in real-time PCR fluorescence data
JP2014100249A (ja) * 2012-11-19 2014-06-05 Toshiba Corp 血管解析装置、医用画像診断装置、血管解析方法、及び血管解析プログラム
CN103324866A (zh) * 2013-03-26 2013-09-25 张弘 Ripple系统
JP6059122B2 (ja) * 2013-10-11 2017-01-11 カルチュア・コンビニエンス・クラブ株式会社 顧客データ解析システム
US9928516B2 (en) * 2013-12-30 2018-03-27 Nice Ltd. System and method for automated analysis of data to populate natural language description of data relationships
WO2015189264A1 (en) * 2014-06-10 2015-12-17 Ventana Medical Systems, Inc. Predicting breast cancer recurrence directly from image features computed from digitized immunohistopathology tissue slides
EP3640946A1 (en) * 2018-10-15 2020-04-22 Sartorius Stedim Data Analytics AB Multivariate approach for biological cell selection
US11410064B2 (en) * 2020-01-14 2022-08-09 International Business Machines Corporation Automated determination of explanatory variables
CN111652302B (zh) * 2020-05-28 2023-05-23 泰康保险集团股份有限公司 一种解释保险核保分类结果的方法、装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000070340A2 (en) * 1999-05-14 2000-11-23 Karolinska Innovations Ab Materials and methods relating to disease diagnosis
WO2002025405A2 (en) * 2000-09-19 2002-03-28 The Regents Of The University Of California Methods for classifying high-dimensional biological data

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05233011A (ja) * 1992-02-18 1993-09-10 Nippon Telegr & Teleph Corp <Ntt> 独立要因抽出法
JPH09167152A (ja) * 1995-12-19 1997-06-24 Hitachi Ltd 対話的モデル作成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000070340A2 (en) * 1999-05-14 2000-11-23 Karolinska Innovations Ab Materials and methods relating to disease diagnosis
WO2002025405A2 (en) * 2000-09-19 2002-03-28 The Regents Of The University Of California Methods for classifying high-dimensional biological data

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GRAMATICA P. ET AL.: "QSAR study on the tropospheric degradation of organic compounds", CHEMOSPHERE, vol. 38, no. 6, 1999, pages 1371 - 1378, XP008023735 *
KHAN J. ET AL.: "Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks", NATURE MEDICINE, vol. 7, no. 6, 2001, pages 673 - 679, XP001155989 *
ROSENWALD A. ET AL.: "The use of molecular profiling to predict survival after chemotherapy for diffuse large-B-cell lymphoma", THE NEW ENGLAND JOURNAL OF MEDICINE, vol. 346, no. 25, 20 June 2002 (2002-06-20), pages 1937 - 1947, XP002970235 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8762066B2 (en) 2002-03-01 2014-06-24 Codexis Mayflower Holdings, Llc Methods, systems, and software for identifying functional biomolecules
US8849575B2 (en) 2002-03-01 2014-09-30 Codexis Mayflower Holdings, Llc Methods, systems, and software for identifying functional biomolecules
US9864833B2 (en) 2002-03-01 2018-01-09 Codexis Mayflower Holdings, Llc Methods, systems, and software for identifying functional bio-molecules
US10453554B2 (en) 2002-03-01 2019-10-22 Codexis Mayflower Holdings, Inc. Methods, systems, and software for identifying functional bio-molecules
JP4693841B2 (ja) * 2004-06-01 2011-06-01 プロファジア インコーポレイテッド 嚥下障害者向けに適応させた食品組成物の使用の指標および方法
JP2008500822A (ja) * 2004-06-01 2008-01-17 プロファジア インコーポレイテッド 嚥下障害者向けに適応させた食品組成物の使用の指標および方法
JP2008503589A (ja) * 2004-06-22 2008-02-07 マキシジェン, インコーポレイテッド 機能的生体分子を同定するための方法、システムおよびソフトウェア
JPWO2006088208A1 (ja) * 2005-02-21 2008-07-10 大日本住友製薬株式会社 生体の生理変化の予測方法および装置
WO2006088208A1 (ja) * 2005-02-21 2006-08-24 Dainippon Sumitomo Pharma Co., Ltd 生体の生理的変化の予測方法および装置
JP4714869B2 (ja) * 2005-12-02 2011-06-29 国立大学法人山口大学 有効因子抽出システム
JP2007156721A (ja) * 2005-12-02 2007-06-21 Yamaguchi Univ 有効因子抽出システム
WO2007063972A1 (ja) * 2005-12-02 2007-06-07 Yamaguchi University 有効因子抽出システムとその方法とそのプログラム
JP2010500565A (ja) * 2006-08-10 2010-01-07 ミレニアム・ファーマシューティカルズ・インコーポレイテッド 癌治療法を有する患者の同定、評価、および治療のための方法
JP2008090833A (ja) * 2006-09-06 2008-04-17 Dna Chip Research Inc 判別因子セットを特定する方法、システム及びコンピュータソフトウェアプログラム
JP2010504579A (ja) * 2006-09-20 2010-02-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 分子診断判定サポートシステム
JP2012256182A (ja) * 2011-06-08 2012-12-27 Sharp Corp データ解析装置、データ解析方法およびデータ解析プログラム
CN102539326B (zh) * 2012-01-13 2014-03-12 江苏大学 茶叶汤色品质的量化评价方法
CN102539326A (zh) * 2012-01-13 2012-07-04 江苏大学 茶叶汤色品质的量化评价方法
JP2013152656A (ja) * 2012-01-26 2013-08-08 Fujitsu Ltd 説明変数の決定のための情報処理装置、情報処理方法及びプログラム
US9665694B2 (en) 2013-01-31 2017-05-30 Codexis, Inc. Methods, systems, and software for identifying bio-molecules with interacting components
US9684771B2 (en) 2013-01-31 2017-06-20 Codexis, Inc. Methods, systems, and software for identifying bio-molecules using models of multiplicative form
US11244760B2 (en) 2015-06-25 2022-02-08 Karydo Therapeutix, Inc. Prediction device based on inter-organ cross talk system
US11180539B2 (en) 2016-03-29 2021-11-23 Karydo Therapeutix, Inc. Pharmaceutical composition or food composition, and method for assessing effect of active ingredient in vivo
US20210287134A1 (en) * 2020-03-13 2021-09-16 Kabushiki Kaisha Toshiba Information processing apparatus, information processing method, and computer program
CN117275220A (zh) * 2023-08-31 2023-12-22 云南云岭高速公路交通科技有限公司 基于非完备数据的山区高速公路实时事故风险预测方法

Also Published As

Publication number Publication date
JPWO2003085548A1 (ja) 2005-08-11
CA2481485A1 (en) 2003-10-16
US20050159896A1 (en) 2005-07-21
EP1498825A1 (en) 2005-01-19
CN1647067A (zh) 2005-07-27
AU2003220998A1 (en) 2003-10-20
KR20040111456A (ko) 2004-12-31

Similar Documents

Publication Publication Date Title
WO2003085548A1 (fr) Dispositif et procede d&#39;analyse de donnees
US20020095260A1 (en) Methods for efficiently mining broad data sets for biological markers
Yu et al. Feature selection and molecular classification of cancer using genetic programming
KR101642270B1 (ko) 진화 클러스터링 알고리즘
EP3942556A1 (en) Systems and methods for deriving and optimizing classifiers from multiple datasets
US20110301863A1 (en) Prediction method for the screening, prognosis, diagnosis or therapeutic response of prostate cancer, and device for implementing said method
KR20020075265A (ko) 임상 진단 서비스를 제공하는 방법
JP2021505977A (ja) 体細胞突然変異のクローン性を決定するための方法及びシステム
JP2023507252A (ja) パッチ畳み込みニューラルネットワークを用いる癌分類
JP2005524124A (ja) システムの診断構成要素を識別するための方法および装置
US20040243354A1 (en) Systems and methods for inferring biological networks
KR20140090296A (ko) 유전 정보를 분석하는 방법 및 장치
JP2005222422A (ja) データ解析方法及びそのシステム
Kristiansson et al. Weighted analysis of paired microarray experiments
Hosseini Feature selection for microarray classification problems
KR20210059325A (ko) 딥러닝을 이용한 암의 예후 예측 모델
WO2008156716A1 (en) Automated reduction of biomarkers
Yahya Sequential Dimension Reduction and Prediction Methods with High-dimensional Microarray Data
Bichindaritz et al. Case based reasoning with Bayesian model averaging: an improved method for survival analysis on microarray data
Aloraini Extending the graphical representation of four KEGG pathways for a better understanding of prostate cancer using machine learning of graphical models
WO2024064892A1 (en) Systems and methods for the prediction of post-operative cognitive decline using blood-based inflammatory biomarkers
EP4256084A2 (en) Methods for genomic identification of phenotype risk
JP2010514001A (ja) 特徴の順位付け
CN116680594A (zh) 一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法
CN117953965A (zh) 一种肿瘤的分类预测方法、装置和电子设备

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NI NO NZ OM PH PL PT RO RU SC SD SE SG SK SL TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 20038075237

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 1020047015515

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 2003582665

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 10509886

Country of ref document: US

Ref document number: 2481485

Country of ref document: CA

WWE Wipo information: entry into national phase

Ref document number: 2003220998

Country of ref document: AU

WWE Wipo information: entry into national phase

Ref document number: 2003715637

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 1020047015515

Country of ref document: KR

WWP Wipo information: published in national office

Ref document number: 2003715637

Country of ref document: EP