WO2002072828A1 - Procede permettant de prevoir un cancer - Google Patents

Procede permettant de prevoir un cancer Download PDF

Info

Publication number
WO2002072828A1
WO2002072828A1 PCT/JP2002/002153 JP0202153W WO02072828A1 WO 2002072828 A1 WO2002072828 A1 WO 2002072828A1 JP 0202153 W JP0202153 W JP 0202153W WO 02072828 A1 WO02072828 A1 WO 02072828A1
Authority
WO
WIPO (PCT)
Prior art keywords
cancer
gene
genes
expression
mrna
Prior art date
Application number
PCT/JP2002/002153
Other languages
English (en)
French (fr)
Inventor
Kikuya Kato
Kyoko Iwao
Shinzaburo Noguchi
Ryo Matoba
Original Assignee
Dna Chip Research Inc.
Hitachi Software Engineering Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dna Chip Research Inc., Hitachi Software Engineering Co., Ltd. filed Critical Dna Chip Research Inc.
Priority to JP2002571882A priority Critical patent/JP4222835B2/ja
Priority to US10/276,233 priority patent/US20050260572A1/en
Publication of WO2002072828A1 publication Critical patent/WO2002072828A1/ja

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/112Disease subtyping, staging or classification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Definitions

  • the present invention relates to a cancer prediction method and a drug design method.
  • the present invention relates to a cancer prediction method useful for genetic diagnosis for evaluating the malignancy of cancer.
  • the present invention also relates to a drug design method using a result obtained by the above-described prediction method. Background art
  • cancers including breast cancer and colorectal cancer
  • Various solid cancers have different degrees of malignancy depending on the case. Predicting the prognosis is extremely important, as treatment depends on the grade of cancer in each case.
  • the prognosis of cancer is determined by image analysis using CT, X-ray, etc., pathological analysis such as histological typing, and analysis using tumor markers.
  • CEA is well known as a molecular tumor marker for breast and colorectal cancer.
  • this marker has a low positive rate in early-stage cancers and is often detected after advanced cancer, so it is not sufficient for cancer diagnosis.
  • various prediction methods for cancer malignancy have been developed. However, the correlation with malignancy was partial and the predictions were unsatisfactory.
  • An object of the present invention is to provide a cancer prediction method and a drug design method.
  • the present inventors have conducted intensive studies to solve the above problems, and as a result, have succeeded in performing a multivariate analysis of the expression level of a gene obtained from the primary tumor, and predicting the cancer based on the analysis result.
  • the present invention has been completed.
  • the present invention provides a method for classifying cancer, comprising the following steps:
  • the classification method includes:
  • the present invention also provides a method for predicting cancer, comprising the following steps:
  • the prediction method includes:
  • the above-mentioned prediction method further includes a step of determining an expression pattern characteristic of the cancer state, and comparing the expression pattern of a gene collected from a cancer specimen whose cancer is to be predicted with the characteristic expression pattern. You may.
  • the state of cancer includes at least one selected from the group consisting of the presence or absence of cancer, the grade of cancer malignancy, the presence or absence of cancer metastasis, and the presence or absence of cancer recurrence.
  • Cancer metastasis includes lymph node metastasis, and recurrence includes early recurrence.
  • the genes to be selected include a gene group I containing the nucleotide sequence shown in Tables 1 to 27, a gene group II containing the nucleotide sequence shown in Table 2 28 to L53, and / or a gene group II containing the nucleotide sequence shown in L53. 289 to 289.
  • the classification of the sample can be exemplified by those using the hormone receptor positive group and the Z or negative group as indices.
  • Hormone receptors include estrogen receptors.
  • cancer examples include breast cancer, stomach cancer, esophageal cancer, oral cavity cancer, colon cancer, rectal cancer, anal cancer, kidney cancer, lung cancer, kidney cancer, bladder cancer, ovarian cancer, uterine cancer, skin cancer, melanoma, central cancer Nerve tumor, peripheral nerve tumor, gingival cancer, pharyngeal cancer, jaw cancer, liver cancer, prostate cancer, leukemia, multiple myeloma, and malignant lymphoma.
  • Multivariate analysis can be performed by cluster analysis.
  • the present invention provides a drug design method, which comprises designing a drug so as to suppress the expression of a gene expressed in a specimen whose cancer state predicted by the prediction method is determined to be high risk. It is.
  • examples of such genes include 4, 7, or 20 in Table 1 and 28, 29, 31, 32, 35, 43, 49 to 53, 67, 70, 72, 73, 75 to 79, 81, 84 in Table 2.
  • the present invention provides a drug design method characterized by designing a drug so as to increase the expression of a gene expressed in a specimen whose cancer state predicted by the prediction method is determined to be high risk. It is.
  • Such genes include 1, 2, 3, 5, 5, 6, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 or 21 in Table 1 and 30 in Table 2. , 33, 34, 36-42, 44-48, 54-66, 68, 69, 71, 74, 80, 82, 83, 85, 93, 100-103, 112, 115, 116 or 118-121, or 154, 156- of Table 3: L61, 164 166, 170, 173, 176, 181-187, 189, 191, 192, 194-197, 199-210, 212-221, 223-241, 254, 258, 262, 264 or 266-289 Those having a sequence or a combination thereof are mentioned. Examples of the drug that increases the expression of the gene include a targeting vector into which the gene has been incorporated.
  • the present invention relates to a computer comprising: a means for analyzing the expression level of an oncogene isolated from a cancer primary tumor; and a means for identifying a cancer state using the obtained analysis result as an index.
  • a computer comprising: a means for analyzing the expression level of an oncogene isolated from a cancer primary tumor; and a means for identifying a cancer state using the obtained analysis result as an index.
  • the present invention provides a computer comprising: means for analyzing the expression level of an oncogene isolated from a cancer primary tumor; and means for identifying the presence or absence of a cancer state using the obtained analysis result as an index. It is a computer-readable recording medium on which a program for functioning as a cancer state prediction system is recorded.
  • a program for functioning as a cancer state prediction system is recorded.
  • the method of the present invention is characterized in that samples are classified into several groups according to the expression pattern of a certain gene, and an expression pattern characteristic of a cancer state is determined from the classification result.
  • the outline of the method of the present invention is shown in FIG. First, a large number of samples, including normal and cancer samples, are collected (see Fig. 1 (e)), and the expression level of genes derived from the primary tumor is measured from these samples (see Fig. 1 (f)). . The procedure for measuring the expression level of the gene in these samples is performed for all the genes selected by literature survey (see Fig. 1 (c)). Next, genes useful for multivariate analysis are selected from the genes whose expression levels have been measured. Then, the selected genes are analyzed by multivariate analysis Upon analysis (see FIG.
  • the specimens are classified into a small number of groups (groups) for each group having a similar expression pattern.
  • the number of indicators for classification into a small number of groups is 20 or less, preferably 10 or less, and more preferably 2 or less.
  • the number of groups is classified into two types (however, there may be a group in which the positive group and the negative group are mixed).
  • an expression pattern characteristic of a specific cancer state is determined (see FIG. 1 (h)).
  • the expression pattern of the specimen whose cancer state is to be predicted is applied to the above classification pattern to predict the cancer state. Furthermore, it is also possible to know the presence or absence of cancer metastasis or the degree of malignancy from the classification results. Subsequently, using the results of the expression pattern analysis in the method for predicting a cancer state, to determine a gene specific to the cancer state having a different degree of malignancy, and to regulate the expression of that gene or the activity of a gene product Design a medicine.
  • RNA is isolated from the sample to quantify gene expression. Any known technique can be used for gene isolation. For example, there is a method of preparing cDNA by a method of synthesizing cDNA from RNA prepared by the guanidine isothiosinate method. Genes to be isolated and quantified include various genes, such as genes derived from the primary tumor, and genes encoding immunoglobulin. be able to.
  • Gene expression data can be obtained by any method and is not particularly limited.
  • gene expression data can be obtained by competitive PCR, TaqMan PCR, Northern blotting, or the like.
  • the competitive PCR method is a method for quantifying the gene expression level by amplifying the same gene contained in a plurality of samples in the same reaction system.
  • One of them is an adapter competition
  • an adapter is added to the cleavage site.
  • the term “adapter” refers to an oligonucleotide designed to distinguish amplified cDNA during amplification, and is designed as a double-stranded form so that it can be ligated to the restriction enzyme cleavage site of cDNA. Is what is done.
  • Adapter 1 is designed so that the length of the adapter added to the cDNA in one sample is different from the length of the adapter added to the cDNA in the other sample, or is added to the cDNA in one sample.
  • the nucleotide sequence of the adapter to be added to the cDNA can be designed to be different (A and B are shown as examples in FIG. 2).
  • These adapters can be obtained by chemical synthesis, and the adapters may be labeled with a fluorescent label or a radioisotope.
  • amplification is performed using the cDNA contained in these samples as type III. Amplification is performed by, for example, the polymerase chain reaction (PCR). After amplification, the amplified product is detected by an auto-sequencer (Pharmacia, etc.) or an image scanner (Molecular Dynamics), or when a radioisotope is used, by a densitometer or the like. As shown in the lower part of FIG. 2, the amount of cDNA can be quantified based on the difference in the amount of signal derived from the labeling of the sequence to which different adapters have been added. (2) TaqMan PCR method
  • TaqMan PCR method amplification reaction and measurement of fluorescence intensity are simultaneously performed in a mixed reaction system (reaction tube) of type III, primers, and labeled probes, and a specific probe hybridized to type III
  • This method detects in real time the fluorescent reporter dye released from the system and automatically analyzes the PCR products using a computer connected to the detector (also called real-time PCR).
  • This real-time detection PCR method itself is known, and devices and kits for the real-time detection PCR method are also commercially available. Therefore, in the present invention, gene expression can be detected using such commercially available devices and kits (eg, TaqMan PCR kit or TaqMan EZ RT-PCR kit manufactured by ABI).
  • Northern blotting is a method for analyzing the size and abundance of gene transcripts (mRNA) expressed in cells.
  • the total RNA or mRNA extracted from the cells is subjected to denaturing agarose gel electrophoresis, transferred to a nylon membrane or nitrocellulose membrane, and fixed on the membrane.
  • mRNA gene transcripts
  • a kit for performing Northern plotting is also commercially available.
  • a message maker reagent set for example, a fully automatic electrophoresis blotting device (manufactured by Labimap) and the like can be used.
  • the primers for gene detection ie, the forward primer (also referred to as a sense primer) and the reparse primer (also referred to as an antisense primer) for PCR are obtained from the nucleotide sequence of the gene in consideration of the amplification efficiency by PCR. Is designed and synthesized to be about 50 to 200 bp.
  • the reverse primer is designed to be complementary to the sequence on which the design is based.
  • the design of the primer can be performed by arbitrarily selecting a plurality of sequences from one or two or more of the above-mentioned base sequences.
  • the primer can be obtained by ordinary chemical synthesis, for example, chemical synthesis using an automatic DNA synthesizer manufactured by Applied Biosystems (the same applies hereinafter). In the case of adapter addition competitive PCR, it is only necessary to design a repurposing primer on the polyA side from the adapter addition site.
  • the probe used in the present invention may be an oligonucleotide which is labeled by binding, for example, a reporter fluorescent dye and a quencher fluorescent dye.
  • the oligonucleotide part of the probe for gene detection can be designed based on the entire or partial sequence of the gene used in the present invention.
  • ligated nucleotides which can hybridize under stringent conditions to all or a part of the nucleotide sequence of these genes and have a sequence of at least 15 consecutive nucleotides.
  • stringent conditions refers to conditions under which a probe and a primer simultaneously associate with or hybridize with type I DNA when a TaqMan probe is used in real-time PCR.
  • a buffer of 60 to 65 ° C. Therefore, as long as the probe used in the present invention can hybridize to the DNA to be detected under the above stringent conditions, one or several (for example, 1 to 10) bases can be deleted, substituted, There may be mutations such as addition.
  • the probe sequence has a mismatch of about 1 to about 10% with respect to the nucleotide sequence of the region to be hybridized, the above-described probe is used as long as it can hybridize under the above-mentioned stringent conditions. Can be used.
  • the reporter fluorescent dye When the reporter fluorescent dye is bound to the same probe as the quencher fluorescent dye, the fluorescence intensity of the reporter fluorescent dye is suppressed by fluorescence resonance energy transfer. In the unbound state, the fluorescence intensity is not suppressed.
  • a fluorescein-based fluorescent dye such as FAM (6_carboxy-fluorescein) is preferable.
  • TAMRA 6-carboxy-fluorescein
  • Rhodamine-based fluorescent dyes such as tetramethinole-rhodamine are preferred. These fluorescent dyes are known and are readily available.
  • the binding positions of the reporter fluorescent dye and the quencher fluorescent dye are not particularly limited, but usually, the reporter fluorescent dye is bound to one end (preferably the 5 'end) of the oligonucleotide part of the probe, and the quencher fluorescent dye is bound to the other end.
  • a gene useful for multivariate analysis described later is selected.
  • "Useful gene” means a gene selected from the genes whose expression levels have been measured, and which can distinguish or classify differences in expression levels when multivariate analysis described below is performed. .
  • the gene used for the expression quantification is a gene useful for classifying a cancer specimen and satisfies a predetermined criterion, and is selected according to the type of cancer to be predicted.
  • the type of gene used for prediction of prognosis and the like is not particularly limited as long as it is a gene expressed in the primary tumor.
  • cancer types include breast cancer, stomach cancer, esophageal cancer, oral cancer, colon cancer, rectal cancer, anal cancer, kidney cancer, lung cancer, kidney cancer, bladder cancer, ovarian cancer, child cancer, skin cancer, melanoma, Central nervous tumor, peripheral nervous tumor, gingival cancer, pharyngeal cancer, jaw cancer, liver cancer, prostate cancer, leukemia, multiple myeloma, malignant lymphoma, etc., expressed in at least one type of cancer selected from these groups Genes can be used. The method of gene selection depends on the cancer.
  • selection based on expression of hormone receptor selection based on the results of other cluster analysis, selection based on the presence or absence of lymph node metastasis, selection based on presence / absence of recurrence, selection based on prognostic factors, selection based on histological type, and the like.
  • metastasis include lymph node metastasis.
  • the recurrence includes early recurrence. Early recurrence means systemic recurrence within 2 years after surgery. As described above, by selecting genes useful for the classification of tumor tissues and performing multivariate analysis, they can be classified into groups with characteristics of cancer expression from the viewpoint of expression profiles.
  • cluster analysis is performed based on gene expression patterns to classify them into a statistically significant number of clusters. It is preferable to select For clusters related to metastasis and Z or prognostic factors, samples were classified according to expression patterns by principal component analysis or hierarchical cluster analysis for each of the above classified clusters, and the relationship between this classification and prognosis and no or prognostic factors was determined. You can make a selection by examining it. Therefore, in such a case, a gene useful for multivariate analysis will be selected by performing multivariate analysis on all genes in advance.
  • a relationship with metastasis or recurrence can be derived depending on the degree of malignancy.
  • the term “gene that distinguishes the presence or absence of estrogen receptor” means that the estrogen receptor is positive when multivariate analysis (for example, cluster analysis) described below is performed to determine the expression level of the gene isolated from the sample.
  • Genes that can be classified into group specimens and negative group specimens That is, a plurality of samples (normal and cancer tissues) are collected and reacted with an antibody against estrogen receptor to determine whether the sample is positive or negative.
  • a gene that can be divided into an estrogen receptor positive group and a negative group when a cluster analysis is performed between this result and the expression result of the above gene is selected.
  • a cancer sample is classified using a gene group belonging to a cluster relating to metastasis and / or prognostic factors by the above-described cluster analysis, a relationship with metastasis or recurrence can be derived depending on a difference in malignancy.
  • the ratio of the variation in the amount of the expressed gene in the cancer sample to the variation in the amount of the expressed gene in the normal sample is calculated, and the ratio is calculated. May be selected in advance for a gene satisfying a predetermined condition.
  • r is the average gene expression level in each group
  • Xi represents the expression level of the gene.
  • No. means the sum of the squares of the difference between the average in the normal sample group and the average in the cancer sample group.
  • This ratio can be changed as appropriate depending on the type of gene to be analyzed, the number of cases, the number of genes, etc., but is usually 1.10 to 1.20, preferably 1.18 or more (for example, 1. 80 ⁇ : 1.20).
  • genes can be selected by applying the principle of analysis of variance to the presence or absence of estrogen receptor expression. First, by setting the ratio of the intra-group variation between the normal sample and the cancer sample to 1.20, for example, 152 genes can be previously selected from 2412 genes.
  • tissue or cell samples eg, blood, excised lesions, biopsy samples, etc.
  • tissue or cell samples eg, blood, excised lesions, biopsy samples, etc.
  • an ordinary method eg, ELISA, RIA, etc.
  • the presence or absence of expression is detected, and the estrogen receptor is divided into a positive group and a negative group.
  • variation of each expression level within the group e.g., ELISA, RIA, etc.
  • intragroup variation the ratio of the intragroup variation
  • overall variation the variation of the entire group
  • Xt represents the overall average of the gene expression levels. It means the sum of the squares of the difference between each value and the average of the positive group and the negative group as a whole.
  • the within-group variation () is the same as above,
  • Intra-variation is 1.18 or more (eg, 1.18 ⁇ : L.20)
  • the classification into the estrogen receptor positive (ER +) group and the negative (ER-) group is used as an index, and the 27 types of genes shown in Nos. 1 to 27 in the column of "No.” (Gene group I) can be selected (Table 1), and these genes are used for multivariate analysis. These genes are genes that can distinguish the presence or absence of estrogen receptor expression when multivariate analysis is performed.
  • AN Accession number
  • one or more of the above gene groups I can be arbitrarily combined. For example, it is preferable to use the genes indicated by Nos. 1 to 21 in the “No.” column of Table 1. Furthermore, one or more genes other than those belonging to the gene group I can be combined from the gene group whose expression level has been measured. The genes other than the genes of the gene group I may have completely different properties from those of the genes of the gene group I or may have properties similar to those of the genes of the gene group I. For example, a gene encoding immunoglobulin and other genes can be selected.
  • genes are selected by performing cluster analysis based on gene expression patterns, classifying them into statistically significant numbers of clusters, and performing multivariate analysis based on the results. Therefore, it can be carried out by selecting a group of genes belonging to a preferable cluster.
  • a preferred cluster for performing multivariate analysis in the present invention is, for example, a cluster relating to metastatic and / or prognostic factors.
  • samples are classified according to expression patterns by principal component analysis or hierarchical cluster analysis for each of the above-mentioned clusters, and the relationship between this classification and prognosis and / or prognostic factors is used as a reference or index. You can select by setting a mark.
  • 1536 genes related to colorectal cancer are classified into 44 clusters by cluster analysis.
  • the cluster related to metastasis is cluster No. 14
  • the cluster related to prognostic factor is cluster No. 14. No. 42-44.
  • genes belonging to the cluster No. 14 126 kinds of genes (referred to as gene group II) shown in Nos. 28 to 153 in the column of “No.” in Table 2 below can be selected. Used for variate analysis.
  • genes belonging to cluster Nos. 42 to 44 136 genes (referred to as gene group III) shown in No. 154 to No. 289 in the column of “No.” in Table 3 below can be selected.
  • genes are used for multivariate analysis. These genes are genes that are associated with metastasis or prognosis when multivariate analysis is performed. Table 2
  • HCG-1 protein HCG-1 protein
  • ADP-ribosylation factor 4 (ARF4) gene Homo sapiens ADP-ribosylation factor 4 (ARF4) gene
  • MDH maiate dehydrogenase precursor
  • MCL1 Human myeloid cell differentiation protein
  • SRP20 SR protein family member
  • DAP-AT phosphateacy ⁇ transferase
  • CSA2 associated protein 2
  • PRDX3 Homo sapiens peroxiredoxin 3s
  • ⁇ b Lroo b4 (4 Human mRNA for Ul small nuclear RNP-specific A protein.
  • Homo sapiens protein disulfides isomerase related protein lb4 GS4782 marauder-004911 (calcium-binding pro tem, suit estmal-r elated; (ERP70J, mRNA.
  • QPP quiescent cell proline dipeptidase
  • PXRl Human peroxisomal targeting signal receptor 1
  • LAMC2 Human laminin gamma2 chain gene
  • G protein-coupled receptor kinase mRNA
  • IGF2R insulin-like growth factor I I receptor
  • TPA regulated locus mRNA
  • RNA for snRNP protein B 225 GS3751 X17567 H. sapiens RNA for snRNP protein B.
  • centromere protein Fs 350 / 400kD, mitosin
  • Homo sapienss ubiqui tin-conjugating enzyme E2N (homologous to
  • yeastsUBC13 252 GS3019 NM— 003348 yeastsUBC13 (UBE2N), mRNA.
  • KIAA1002 proteins 259 GS6493 Hokuichi 014925 Homo sapiens KIAA1002 proteins (KIAA1002), mRNA.
  • ADCY6 Homo sapiens adenylate cyclase 6s (ADCY6), transcript variant 2,
  • LSPl lymphocyte-specif icsprotein 1
  • TIM9b small zinc finger-like protein
  • PTDl polycystic kidney disease
  • metastasis-associated gene human, highly metastatic lung cell
  • RNA II Is DNA directed (62kD) (RPC62)
  • one or more of the above-mentioned gene group II and / or gene group II can be arbitrarily combined.
  • Table 2 30, 33, 34, 36-42, 44-48, 54-66, 68, 69, 71, 74, 80, 82, 83, 85, 93, 100-103, 112, 115, 116 Or 118 to 121, or 155, 162, 163, 167 to 169, 171, 172, 174, 175, 177 to: L80, 188, 190, 193, 198, 211, 222, 242 to It is preferable to use the gene shown in 253, 255-257, 259-261, 263 or 265.
  • genes other than the genes belonging to gene group II and / or III can also be combined.
  • the genes other than the genes belonging to the gene group II and / or III may have completely different properties from the genes belonging to the gene group II and / or III, or may have similar properties.
  • genes encoding immunoglobulins and other genes can be selected.
  • Multivariate analysis is a statistical method that aims to analyze the interdependencies and dependencies of a large number of statistical variables, where the values of p types of variables are observed for each of n objects. There are various methods for actually analyzing multivariable data based on the format described. Multivariate analysis methods include, but are not limited to, cluster analysis, principal component analysis, and discriminant analysis.
  • cluster analysis generally, in the field of multivariate analysis, a large number of observation targets (samples) are collected for “similar (or dissimilar)” by specific calculation criteria (evaluation criteria). Means the method of classification. In other words, cluster analysis refers to simply “classifying” similar (dissimilar) objects into the same group for a large number of observed samples.
  • Cluster analysis includes hierarchical cluster analysis and non-hierarchical cluster analysis.
  • Hierarchical cluster analysis is a method of considering individual samples as one cluster, merging those that are close to each other, and finally combining them into one group. You.
  • non-hierarchical cluster analysis indicates the number of clusters to be created in advance, and performs hierarchical cluster analysis on data randomly selected from the data at a specific ratio with the number as the target. Once the given number of clusters has been reached, the next step is to merge the data that was not analyzed in the previous analysis into clusters that have been created in various forms.
  • Hierarchical cluster analysis is a technique that can be used to visually understand the similarity of samples in the form of a dendrogram and is often used in the field of biology. Preferably, a hierarchical cluster analysis is performed.
  • distance matrix that represents the similarity between samples.
  • the distance is Euclidean distance, Calculate weighted Euclidean distance, standard Euclidean distance, Pearson product moment correlation coefficient, etc.
  • the Euclidean distance is an ordinary distance. An individual is measured with p attributes (variates). If the value of the j-th attribute is Xij, the following equation III is obtained.
  • the weighted Euclidean distance is the distance used to change the degree of influence on the distance depending on the attribute.
  • Nearest Neighbor Method Of the distances between individuals belonging to each cluster, the minimum value is taken as the distance between clusters. In this method, clusters with shorter distances between the closest samples are integrated as clusters that are more similar to each other.
  • Farthest neighbor method Of the distances between individuals belonging to each cluster, the maximum value is taken as the distance between clusters. In this method, the clusters with the shortest distance between the farthest samples are integrated as clusters that are more similar to each other.
  • Distance between centers of gravity The distance between the centers of gravity of each cluster is defined as the distance between clusters.
  • clusters in which the centroids of the included samples are closer to each other are integrated as similar clusters.
  • Ward method A method that minimizes the sum of squares of Euclidean distances within a cluster when one cluster is fused.
  • Average distance The average value of all distances between individuals belonging to each cluster is defined as the distance between clusters.
  • clusters having a relationship of “shortest distance” are regarded as similar, and are integrated to form a higher-level cluster.
  • a dendrogram is finally created.
  • the samples in the cluster integrated at a given level in the dendrogram are integrated by some similarity. Samples with similar relationships can be said to have a common property, and by clarifying that property, the characteristics of the cluster population can be clarified. For example, focusing on whether a cancer is benign or malignant using the degree of malignancy of the cancer as an index, it reveals that cancer belonging to one cluster is benign and cancer belonging to another cluster is malignant. be able to.
  • breast cancer specimens show (i) most cases are estrogen receptor positive, (ii) most Can be classified into a group in which estrogen receptor is negative, and (ii) a group in which estrogen receptor positive and negative are mixed.
  • group the target sample belongs to it is possible to predict the degree of malignancy, such as whether metastasis or recurrence is in progress or unlikely.
  • a bootstrap method may be used, although not limited thereto.
  • the bootstrap method considers an empirical probability distribution that gives a probability of 1 / n to each of the n randomly sampled samples, followed by n random samples that allow overlap from this probability distribution. Given a sample, the estimate obtained from this random resample is called a bootstrap replicate, Furthermore, a bootstrap estimate of the variance (error) with respect to the original estimator is calculated from the B bootstrap iteration estimates obtained by repeating this random re-extraction B times.
  • the bootstrap method can be used to assess reliability, for example, when the normality of the probability distribution cannot be assumed or the distribution is not fully understood due to complex statistics.
  • the Bootstrap method is a statistical method well known to those skilled in the art, and a number of softwares are also known. Examples of useful software for the present invention include GeneMaths TM (Applied Maths) and Amos (E-works).
  • cluster analysis there is a method that uses multivariate analysis such as cluster analysis or discriminant analysis.
  • cluster-one analysis there are a method of performing cluster analysis on the data of the sample used for classification and the data of the sample to be predicted at the same time, and a method of performing classification by following the branch of the dendrogram in reverse. If the criterion is simple, it can be calculated by arithmetic.
  • the method based on the self-organizing map is to classify cancer into each node arranged in k dimensions.
  • the method of the self-organizing map is similar to that of the cluster analysis, but is characterized in that every cancer is reclassified for each operation.
  • the method based on the self-organizing map can be used for the two steps of classification of expression patterns and prediction of cancer, as in the case of hierarchical cluster analysis.
  • S0M in combination with the hierarchical cluster analysis described above, the order of samples and clusters in a dendrogram can be determined (Chu, S. et al., Science 282, 699, 1998; Tamayo Natl. Acad. Sci. USA 96, 2907, 1999).
  • the K-means method determines k initial cluster centers appropriately, then classifies all data into clusters with the closest cluster center, and determines the center of gravity of the newly created cluster as the cluster center. All new cluster centers If it is the same as the previous one, the classification is ended.
  • the K-means method has good computational efficiency and can obtain cluster-one analysis results in a short time.
  • the above-described cluster analysis is a statistical method well known to those skilled in the art, and a large number of software for performing cluster analysis are also known. Examples of software useful in the present invention include GeneMaths TM (Applied Maths), SAS / STAT software (SAS Institute), and Genesight TM Version 2.0 (Biodiscovery).
  • Principal component analysis is a method that eliminates the correlation between variables from multivariate measurements and describes the characteristics of the original measurements using lower-dimensional variables.
  • principal component analysis is used to extract only changes in gene expression, excluding noise due to various causes included in gene expression information. Thereby, a statistically significant result can be obtained for the gene expression information.
  • the principal component analysis was performed on n data groups composed of p kinds of variables, and the first principal component score and the An example of a method for calculating the second principal component score and the third principal component score will be described.
  • the first principal component f is determined so that the loss of the amount of information as a feature of the data is minimized.
  • the second principal component score of the i-th data is gi
  • gi bl'xil + b2'xi2 + b3'xi3.
  • a variance / covariance matrix is obtained from the data shown in Table 4, and each principal component is calculated from the eigenvalue and the eigenvector that maximize the variance.
  • the above-described principal component analysis is a statistical technique well known to those skilled in the art, and many software for performing principal component analysis are also known. Examples of software useful in the present invention include GeneMaths TM (Applied Maths), SAS / STAT software (SAS Institute), and the like.
  • Discriminant analysis is a multivariate database that determines whether an individual belongs to multiple groups or groups. It is an analysis method that statistically determines based on data and analyzes the validity of the determination method.
  • the basic idea of discrimination is to define the distance between the individual to be discriminated and each group, and to presume that the individual belongs to the group at that distance. If only one characteristic is referenced, the statistical distance is given by Equation VI II:
  • the specific gene can be appropriately selected according to the ratio of the above-mentioned overall variation and intra-group variation. As a result of cluster analysis, it is possible to predict whether metastasis or recurrence is likely or not to occur by examining to which group the target sample belongs.
  • the state of cancer is predicted from the multivariate analysis results obtained as described above. For this purpose, first, the expression pattern characteristic of the cancer state is determined.
  • the state of cancer means the presence or absence of cancer or the degree of progression. For example, (a) whether or not the subject has cancer (presence or absence of cancer); (b) if so, how advanced the grade is (malignancy of the cancer); (c) metastasis Or (d) relapse, etc. can be exemplified as the cancer state.
  • indicators for determining the grade of malignancy include early recurrence, time to death, and tumor diameter.
  • Multivariate analysis of the expression results of the above genes is associated with lymph node metastasis and early recurrence It is possible to obtain a classification result between a group having a group and a group having no group. Lymph node metastasis and recurrence are important factors in predicting prognosis because they are strongly related to prognosis and malignancy of cancer. The frequency of hormone receptors, lymph node metastasis, and recurrence in each group is statistically significantly different.
  • genes having the sequences shown in Tables 1 to 27, Table 2 28 to 153, and Table 3 154 to 289 preferably the sequences shown in Table 1 1 to 21 and Table 2 33, 34, 36-42, 44-48, 54-66, 68, 69, 71, 74, 80, 82, 83, 85, 93, 100-103, 112, 115, 116, 118-: 121 Sequences and / or 155, 162, 163, 167-169, 171, 172, 174, 175, 177-180, 188, 190, 193, 198, 211, 222, 242-253, 255-257 of Table 3 259-261, 263, and 265), and other genes considered to be useful for the classification of cancer in some cases, using the method described in “1. Quantification of gene expression”. Or the product of the protein encoded by the gene is quantified by the method described in the section “6. Prognoses can be predicted by deciding which group of the classification belongs to.
  • the identification system of the present invention includes (a) means for analyzing the expression level of a gene isolated from a test sample, and (b) means for predicting a cancer state using the obtained analysis result as an index.
  • the analysis means includes means for detecting the expression level of each gene for a plurality of genes in a cancer cell or cancer tissue and a normal tissue derived from a certain primary focus (also referred to as a “detection engine”); It consists of means for analyzing the obtained detection values (also called “analysis engine”).
  • the detection of gene expression can be performed by digitizing the detection data obtained as described above and using the digital information.
  • the analysis engine is a means for performing a multivariate analysis process, for example, a cluster analysis process, based on the data (gene expression amount) obtained by the detection engine.
  • the gene can be classified into a group of genes having a high expression level and a group of genes having a low expression level.
  • the expression of estrogen receptor can be classified into a positive group, a negative group, and a mixed group of positive and negative.
  • FIG. 3 a block diagram showing a configuration example of the prediction system of the present invention is shown (FIG. 3).
  • the prediction system shown in Fig. 3 consists of a CPU 301, R0M 302, RAM 303, input unit 304, transmission / reception unit 305, output unit 306, hard disk drive (HDD) 307, and CD-ROM drive.
  • HDD hard disk drive
  • the CPU 301 controls the entire cancer state prediction system according to a program stored in the ROM 302, the RAM 303, or the HDD 307, and executes a prediction process described later.
  • the R0M302 stores a program or the like for instructing processing necessary for the operation of the prediction system.
  • the RAM 303 temporarily stores data necessary for executing the prediction processing.
  • the input unit 304 is a keyboard, a mouse, or the like, and is operated when inputting conditions necessary for executing the prediction processing.
  • the transmission / reception unit 305 executes data transmission / reception processing with the database 310 or the like via a communication line based on a command from the CPU 301.
  • the output unit 306 executes a display process based on an instruction from the CPU 301 based on various conditions input from the input unit 304, detection data of an expressed gene, and the like.
  • the output unit 306 is, for example, a computer display or a printer.
  • the HDD 307 stores information on expression patterns of various genes in cells or tissues, reads out stored programs or data based on instructions from the CPU 301, and stores them in, for example, the RAM 303.
  • the CD-ROM drive 308 reads a program or data from the prediction program stored in the CD-R0M309 based on an instruction from the CPU 301, and stores it in, for example, the RAM 303.
  • the CPU 301 supplies the data received from the input unit or the like to the output unit 306, and executes prediction of cancer metastasis or recurrence based on the data received from the database.
  • the database is a database in which information on the expression levels (including both absolute and relative amounts) of the genes obtained as described above is accumulated.
  • FIGS. 4 and 5 are flowcharts showing an example in which a cancer state prediction process is performed by the program shown in FIG. 3 when the gene expression pattern is analyzed. It is.
  • a cluster analyzer 401 will be described as an example of a multivariate analyzer.
  • the cluster analyzer 401 generates a cluster for performing the prediction processing.
  • gene expression data is input by the external database search / input means 402.
  • the external database search / input means 402 preferably has a function of accessing a variety of existing external databases, preferably using a predetermined keyword, to collect sample data for multivariate analysis (for example, cluster analysis). I do. Until data input is confirmed, the above data input operation is repeated. Note that information obtained from each tissue or cell by inputting data is stored in the sample data storage unit 403, provided for cluster analysis, or registered in the database. ⁇
  • the data optimizing unit 404 receives the sample data from the sample data storing unit 403 and optimizes the data for multivariate analysis. Data optimization is performed using the median standardization, Z-score standardization, setting of maximum and minimum values, logarithmic transformation, etc., using the method most suitable for the sample to be used.
  • the variable list output unit 405 displays a list of the variables of the sample data on which the cluster analysis or the like is performed.
  • variable list output unit 405 the variable list output unit 405 by the function of the variable selection unit 406.
  • variable list output means 405 allows one or more specific variables to be freely selected. Usually, there are many possible variables, so the user should be able to select any of those variables.
  • this information is input to the evaluation sample data file generating means 407 together with the sample data, and the evaluation sample data file generating means 407 generates a data file of the evaluation sample. It is.
  • the data file of the evaluation cluster is sent to the evaluation means 408, and the evaluation means 408 evaluates the degree of cluster separation.
  • the evaluation formula for evaluating the degree of cluster separation can be defined in various forms.
  • the result of the evaluation of the degree of cluster separation by the evaluation means 408 is passed to the cluster classification means 409.
  • the cluster classification means 409 inputs the evaluation result by the evaluation means 408, refers to the evaluation conditions set in the evaluation condition setting means 412, determines an optimal cluster classification, and sets a condition for continuously stopping the cluster classification. If so, determine whether to continue or stop cluster classification. If the condition for continuously stopping the cluster classification is not set, the cluster classification means 409 makes the user determine whether to continue or stop the cluster classification.
  • the cluster classification means 409 determines to continue the cluster classification, it outputs an optimal cluster classification obtained in the current process and a signal indicating that the cluster classification is to be continued.
  • the signal to continue this cluster one classification is an instruction to return to the process of the variable list output unit 405 after the process of the tree diagram editing unit 411.
  • the cluster classification means 409 decides to stop the cluster classification, the optimum cluster classification is specified at that stage, and a signal to stop the cluster classification is output.
  • the signal indicating that the cluster classification is to be stopped is an instruction for ending the cluster analysis processing after the processing of the tree diagram editing means 411 later.
  • the tree diagram generation means 410 inputs the cluster classification determined by the cluster classification means 409, and displays a ⁇ diagram based on the cluster classification and the attributes of the variables related to each cluster classification.
  • the tree diagram generation means 410 displays, for example, cells with colors or patterns in order to visually grasp the gene expression level that was based on the tree diagram when the tree diagram was created.
  • the tree diagram editing unit 411 allows the user to edit addition, change, and deletion of the cluster classification on the display device screen with respect to the cluster classification ⁇ diagram generated by the ⁇ diagram generation unit 410.
  • To add, change, or delete a cluster classification specify a predetermined cluster and specify the cluster variables to be further classified under the specified cluster, combine multiple clusters, or specify a specific cluster classification.
  • a user uses a processing instruction input device on the screen, such as deleting a branch.
  • the tree diagram editing means 411 In addition to providing various tools that support individual editing tasks, it also reads the meaning of editing the cluster classification by the user and automatically corrects the data file of each cluster accordingly.
  • the tree diagram editing means 411 presents a determination that the cluster classification is to be stopped by the cluster classification means 409, and prompts the user to input a final determination.
  • FIG. 5 shows a device that predicts the results of cluster analysis.
  • the prediction device 501 includes data obtained through an external database search input unit 502, a sample data storage unit 503, a data optimization unit 504, a variable list output unit 505, a variable selection unit 506, and an evaluation sample data file generation unit 507.
  • the file and the evaluation conditions set via the cluster 513 output by the cluster analyzer of FIG. 4 are processing means that can be integrated in the evaluation means 508.
  • the means from the external database input means 502 to the evaluation sample data file generating means 507 are means for performing the same processing as in the cluster analyzer of FIG. When performing the prediction processing based on the cluster 1 output in FIG.
  • the cluster 513 is input to the evaluation condition setting means 512, and the evaluation means 508, the prediction means 509, the prediction result generation means 510, and the prediction result editing means 511 are provided. Is performed. If it is desired to include some sample data in the clusters that are the output of FIG. 4 and perform prediction, the processing from the external database search input means 502 to the sample data file generation means 507 for evaluation is performed, and the evaluation conditions are set in the evaluation means 508. Integrate with cluster data from means 512.
  • the prediction result generation unit 510 inputs the prediction result determined by the prediction unit 509, and displays a figure based on the prediction result and the attributes of the variables related to each cluster classification.
  • the prediction result diagram is generated by the prediction result generating means 510.
  • the user can visually grasp the predicted state.
  • the prediction result generation means 510 in order to visually grasp the gene expression level that was the basis of the generation of the prediction result diagram in conjunction with the generation of the prediction result diagram, for example, it is displayed in characters, or a color or pattern is added. Display the selected cell.
  • the prediction result editing unit 511 allows the user to edit addition, change, and deletion of the cluster classification on the display device screen with respect to the prediction result diagram generated by the prediction result generation unit 510.
  • the prediction result editing means 511 provides various tools for assisting the user on the screen for editing, reads the meaning of the user editing the prediction result, and automatically corrects the data file of each prediction result accordingly.
  • the prediction result editing unit 511 presents a determination to stop the prediction by the prediction unit 509 and prompts the user to input a final determination.
  • the genes to be measured are stored in advance as population data, and the genes to be measured are subjected to cluster analysis together with the parent data.
  • the gene to be measured is classified so that it belongs to any group. If the classified group has a low probability of cancer metastasis or recurrence, it can be predicted that cancer metastasis or recurrence is unlikely to occur in the individuals subjected to the cluster analysis.
  • a recording medium on which the program is recorded is also provided.
  • the recording medium is computer readable, and includes a floppy disk (FD), a magnetic optical disk (MO), a CD-ROM, a hard disk, a restaurant, a RAM, and the like.
  • the protein product encoded by the gene in order to measure the expression level of a gene, can be quantified.
  • the protein product can be quantified immunologically using an antibody against the protein. The method for preparing the antibody and its quantification are described below.
  • a recombinant vector for protein expression can be obtained by ligating the above gene to an appropriate vector, and the transformant is transformed into a host such that the recombinant vector of the present invention can express the target gene. It can be obtained by introducing.
  • a phage or a plasmid capable of autonomous propagation in a host microorganism is used as the vector.
  • Plasmid DNA includes plasmids derived from Escherichia coli, Bacillus subtilis or yeast, and phage DNA includes ⁇ phage.
  • animal viruses such as retrovirus or vaccinia virus, and insect virus vectors such as Pacumouth virus can also be used.
  • the purified DNA is digested with an appropriate restriction enzyme, inserted into an appropriate vector DNA at a restriction enzyme site or a multicloning site, and ligated to a vector. Is adopted.
  • DNA ligase a known DNA ligase is used. Then, the DNA fragment and the vector fragment are annealed and ligated to prepare a recombinant vector.
  • the host used for transformation is not particularly limited as long as it can express the target gene.
  • examples include bacteria (such as Escherichia coli and Bacillus subtilis), yeast, animal cells (such as COS cells and CH0 cells), and insect cells.
  • Methods for introducing a gene into a host are known, and any method (for example, a method using calcium ion, an electroporation method, a spheroplast method, a lithium acetate method, a calcium phosphate method, a lipofection method, etc.) can be used. No.
  • the expressed protein of the above gene can be obtained by culturing the transformant having the target gene and collecting from the culture.
  • culture means any of (a) a culture supernatant, (b) a cultured cell or a cultured cell, or a crushed product thereof.
  • the method for culturing the transformant of the present invention in a medium is performed according to a usual method used for culturing a host.
  • the culture is usually carried out by shaking culture or aeration-agitation culture. If necessary, cultivate ampicillin during culture. An antibiotic such as tracycline may be added to the medium.
  • the proteins are extracted by disrupting the cells or cells.
  • the culture solution may be used as it is, or the cells or cells may be removed by centrifugation or the like. Thereafter, common biochemical methods used for isolation and purification of proteins, such as ammonium sulfate precipitation, gel chromatography, ion exchange chromatography, affinity chromatography, etc., may be used alone or in appropriate combination.
  • the target protein can be isolated and purified from the culture. Whether or not the target protein has been obtained can be confirmed by SDS-polyacrylamide gel electrophoresis or the like.
  • partial fragment refers to an amino acid residue selected from the amino acid sequence of a protein encoded by any of the genes shown in Tables 1-23 and 1-289, and possibly other genes having the same function. It is used regardless of its length, as long as it contains.
  • a partial fragment can be prepared as a peptide fragment by ordinary peptide synthesis or the like.
  • Conventional methods can be employed for chemical synthesis of the peptide. For example, an azide method, an acid chloride method, an acid anhydride method, a mixed acid anhydride method, a DCC method, an active ester method, a carboimidazole method, an oxidation-reduction method and the like can be mentioned.
  • the synthesis may be any of a solid phase synthesis method and a liquid phase synthesis method.
  • the synthesis can also be performed using a commercially available automatic peptide synthesizer (for example, an automatic peptide synthesizer PSSM-8 manufactured by Shimadzu Corporation).
  • antibody refers to an entire antibody molecule or a fragment thereof (for example, Fab or F (ab,) 2 fragment) capable of binding to the protein or a partial fragment thereof as an antigen, and is a polyclonal antibody. Or a monoclonal antibody.
  • antibodies polyclonal antibodies and monoclonal antibodies
  • monoclonal antibody can be produced, for example, by the following method.
  • the protein or fragment thereof prepared as described above is administered as an antigen to mammals, for example, rats, mice, and egrets.
  • adjuvants such as Freund's complete adjuvant (FCA) and Freund's incomplete adjuvant (FIA) can be used.
  • FCA Freund's complete adjuvant
  • FIA Freund's incomplete adjuvant
  • Immunization is performed mainly by intravenous, subcutaneous, or intraperitoneal injection.
  • the immunization interval is not particularly limited, and 1 to 10 immunizations are performed at intervals of several days to several weeks.
  • the antibody-producing cells are collected 1 to 60 days after the last immunization.
  • Antibody-producing cells include spleen cells, lymph node cells, peripheral blood cells, and the like.
  • myeloma cells to be fused with the antibody-producing cells generally available cell lines can be used.
  • the cell line used has drug selectivity and cannot survive in HAT selection medium (including hypoxanthine, aminopterin, and thymidine) in the unfused state, but can survive only in the state fused to antibody-producing cells. Those having the following are preferred.
  • myeloma cells include mouse myeloma cell lines such as P3X63-Ag. 8.U1 (P3U1) and NS-I.
  • the myeloma cells are fused with the antibody-producing cells.
  • Cell fusion is performed by mixing antibody-producing cells and myeloid cells in a serum-free medium for animal cell culture such as DMEM or RPMI-1640 medium.
  • the fusion reaction is performed in the presence of a cell fusion promoter (eg, polyethylene glycol), preferably at a cell ratio of 5: 1.
  • cell fusion can also be performed using a commercially available cell fusion device using an electorifice portion.
  • the cell suspension is appropriately diluted with RPMI-1640 medium containing fetal calf serum and spread on a microtiter plate. Add a selective medium to each well, and change the culture medium as appropriate before culturing. As a result, cells that grow about 14 days after the start of culture in the selection medium can be obtained as hybridomas.
  • Hybri Dorma's Screen The normalization may be performed according to a usual method. For example, an enzyme immunoassay, a radioimmunoassay, or the like can be employed. Cloning of the fused cells is performed by a limiting dilution method or the like, and a hybridoma producing the desired monoclonal antibody is established. As a method for collecting a monoclonal antibody from the established hybridoma, a usual cell culture method, an ascites formation method, or the like can be used.
  • the animal When preparing a polyclonal antibody, the animal is immunized in the same manner as described above, and an enzyme-linked immunosorbent assay (ELISA (enzume-linked immunosorbent assy) or EIA enzyme immunoassay), 6 to 60 days after the last immunization, radioactivity
  • ELISA enzyme-linked immunosorbent assay
  • the antibody titer is measured by immunoassay (RIA; radio immunoassay) or the like, and blood is collected on the day that the antibody titer shows the highest, to obtain antiserum. Thereafter, the reactivity of the polyclonal antibody in the antiserum is measured by ELISA or the like.
  • Proteins can be detected by well-known techniques such as, for example, Western blotting, radioimmunoassay, and ELISA. For protein detection, commercially available kits can also be used.
  • a compound that specifically inactivates the active site of a target molecule associated with the onset of a disease is designed, or its function is restored by changing the conformation of the inactivated protein.
  • a system for screening compounds is under study. Even if the disease has the same diagnosis or similar symptoms, if the difference in the mechanism that causes the underlying disease is clarified at the molecular level, medical care, such as using different drugs in consideration of those differences, can be used. Personalization (custom-made medical care). It is known that the state (malignancy, etc.) of a cancer is determined not only by the genes of the cancer itself but also by other genes, and the expression of these genes varies among individuals.
  • the gene expression pattern involves genes that are not cancer-related as well as genes of the cancer itself.
  • the present invention aims to target cancer-specific drugs by targeting specific genes among them by utilizing the expression results of genes indicating the relationship with the cancer state, and designing drugs useful for the treatment of cancer. It reduces cancer and treats cancer. That is, a sample determined as having a high risk in the state of cancer predicted by the method of the present invention (presence / absence of cancer, malignancy of cancer, presence / absence of metastasis of cancer or presence / absence of recurrence of cancer) is defined as low risk. It is possible to regulate gene expression to have the expected expression pattern.
  • a drug capable of suppressing or increasing the expression of a gene is designed so that the expression of a gene having an expression pattern that appears when the degree of malignancy is high is changed to the expression pattern that appears when the degree of malignancy is low.
  • “high risk” refers to a state where the malignancy of the cancer is high in pathology, a state where metastasis has occurred in one or more places, a state where multiple types of cancers are concurrently occurring, or a case where the cancer is cured. Means a condition that recurs within 36 months, and at least one of these conditions appears.
  • Low risk means that the cancer is not pathologically high in malignancy, has no metastases, or has not recurred for more than 5 years.
  • a target gene whose expression is to be regulated is selected.
  • genes are classified into a group of genes having a high expression pattern and a group of genes having a low expression pattern, and each of the classified genes is used as a target. I do.
  • One or more genes to be targeted can be selected, and a plurality of genes used for cluster analysis may be targeted.
  • a drug that regulates the expression of the gene or the activity of the gene product is designed.
  • modulation of gene expression or gene product activity refers to inhibiting, reducing, or inhibiting gene expression or gene product activity. Means to increase or promote.
  • a drug that directly suppresses the expression of the gene is designed.
  • a common method is an antisense method.
  • the drug can be designed to suppress the function of the gene expression product (protein).
  • an antibody against the protein can be used.
  • an inhibitor of the activity of the protein may be used.
  • the expression of the target gene is suppressed by specifically binding the antisense sequence to the sequence of the target gene.
  • the expression of highly expressed genes is suppressed. “Highly expressed” means an intracellular concentration of mRM that is higher than the average value.
  • An antisense sequence is a nucleic acid sequence that can specifically hybridize to at least a portion of a target sequence.
  • the antisense sequence binds to cellular mRNA or genomic DNA, blocks translation or transcription, and inhibits expression of a target gene.
  • Any nucleic acid substance can be used as the antisense sequence as long as it blocks translation or transcription of the target gene. Examples include DNA, RNA, or any nucleic acid mimic. Therefore, among the genes having any of the nucleotide sequences shown in Tables 1 to 3 and 1 to 289, and possibly other genes having the same function, select genes that are expressed in highly malignant cancer specimens.
  • the antisense nucleic acid (oligonucleotide) sequence is designed to be complementary to a part of the sequence.
  • the target genes that suppress the expression include 4, 7, and 20 in Table 1 and 28, 29, 31, 32, 35, 43, 49 to 53, 67, 70, 72, and 73 in Table 2. , 75-79, 81, 84, 86-92, 94-99, 104-111, 113, 114, 117 and 122-153, and 155, 162, 163, 167-169, 171, 172, 174 of Table 3 , 175, 177-; 180, 188, 190, 193, 198, 211, 222, 242-253, 255-257, 259-261, 263 and 265. Preferably, one or more are used.
  • the length of the antisense nucleic acid sequence to be designed is not particularly limited as long as it can suppress the expression of the target gene, and is, for example, 10 to 50 bases, preferably 15 to 25 bases. Oligonucleotides can be easily chemically synthesized by known methods.
  • the sequence can be made to reach a target site (cancer cell or the like) by various administration methods using an expression vector. Administration is performed by any known method, for example, a method using a recombinant expression vector such as a chimera virus or a colloid dispersion system, or a method using a variety of viral vectors including a reticulovirus vector or an adeno-associated virus vector. Can be performed.
  • molecular analogs of antisense oligonucleotides can also be used.
  • Molecular analogs have high stability and distribution specificity.
  • Molecular analogs include chemically reactive groups, such as those having an iron-linked ethylenediaminetetraacetic acid attached to an antisense oligonucleotide.
  • Vectors that can be used for antisense gene therapy include, but are not limited to, adenovirus, herpes virus / less, vaccinia virus, retrovirus, and other RNA viruses.
  • Other gene delivery mechanisms that can be used to administer the antisense sequence to the tissue or cell of interest include colloid dispersion systems, ribosome induction systems, artificial virus envelopes, and the like.
  • delivery systems can utilize macromolecular complexes, nanocapsules, microspheres, beads, oil-in-water emulsions, micelles, mixed micelles, liposomes, and the like.
  • an antisense oligonucleotide capable of binding (preferably specifically) to a sequence of a target gene determined from the results obtained by the method for predicting cancer of the present invention is used as a therapeutically effective drug.
  • a dosage form of the antisense oligonucleotide it can be administered by general systemic administration such as intravenous or intraarterial administration, or local administration to cancer tissue.
  • administration forms that are combined with catheter technology, surgical operation, and the like can be adopted.
  • the dose of the antisense oligonucleotide varies depending on the age, sex, symptom, administration route, number of administrations, and dosage form, but can be appropriately determined using a conventional method in the art.
  • polyclonal antibodies should be monoclonal antibodies It does not matter.
  • antibody fragments can be used.
  • the antibody can be prepared based on the method described in the above section “5. Preparation and detection of antibody”. The dose of the antibody varies depending on the age, sex, symptom, administration route, number of administrations, and dosage form, but can be appropriately determined using a conventional technique in the art.
  • parenteral administration it is possible to select a pharmaceutical form such as intravenous injection (including intravenous drip), intramuscular injection, intraperitoneal injection, subcutaneous injection, suppository, etc.
  • a pharmaceutical form such as intravenous injection (including intravenous drip), intramuscular injection, intraperitoneal injection, subcutaneous injection, suppository, etc.
  • preparations they are provided in unit dosage ampules or multidose containers.
  • a drug that directly increases the expression of the gene is designed.
  • a common method is to use a vector (targeting vector) into which the target gene has been incorporated.
  • targeting vector refers to a nucleic acid sequence of an expressed gene linked to a promoter sequence.
  • a vector is used to express a lowly expressed gene. “Lowly expressed” means an intracellular concentration of mRNA lower than the average value.
  • One way to increase gene expression is to connect a strong expression control sequence (promoter) to the sequence of the target gene to increase the expression of the target gene.
  • a promoter operable in the host cell can be operably linked upstream of the target gene, and this can be inserted into a vector such as a viral vector, so that the target gene can be highly expressed in the host cell.
  • Targeting vectors can be constructed.
  • “operably linked” means that the promoter and the target gene are expressed so that the target gene is expressed under the control of the promoter in the host cell into which the target gene is introduced. And concatenate. That is, the expression of the target gene is increased by the action of a strong promoter. Therefore, the table
  • the target genes for increasing the expression include 1, 2, 3, 5,
  • Strong promoters that can function in the host cell include, for example, when the host is an animal cell, the Rous sarcoma virus (RSV) promoter, the cytomegalovirus (CMV) promoter, or the early or late simian virus (SV40). Promoter, mouse papillomavirus (MMTV) promoter, CAG promoter, and the like, but are not limited thereto.
  • RSV Rous sarcoma virus
  • CMV cytomegalovirus
  • SV40 early or late simian virus
  • Promoter mouse papillomavirus (MMTV) promoter, CAG promoter, and the like, but are not limited thereto.
  • a vector that incorporates a target gene and a promoter is a vector that can be used in a host cell, such as one that contains genetic information that can be replicated in the host cell and is capable of autonomous propagation and is isolated from the host cell. It is a vector that can be purified and has a detectable marker. Therefore, in addition to the target gene and promoter, cis-elements such as enhancers, splicing signals, poly-A addition signals, selectable markers, and ribosome binding sequences (SD sequences) can be linked to the vector, if desired. it can.
  • the selectable marker include a dihydrofolate reductase gene, an ampicillin resistance gene, a neomycin resistance gene, and the like.
  • vectors examples include plasmids such as pRC / RSV and pRC / CMV (manufactured by Invitrogen), ⁇ sipapilloma virus plasmid pBPV (manufactured by Amersham Pharmacia), and EB WI when mammalian cells are used as host cells.
  • plasmids such as pRC / RSV and pRC / CMV (manufactured by Invitrogen), ⁇ sipapilloma virus plasmid pBPV (manufactured by Amersham Pharmacia), and EB WI when mammalian cells are used as host cells.
  • examples include, but are not limited to, vectors containing a virus-derived autonomous replication origin, such as Rusplasmid pCEP4 (manufactured by Invitrogen), and viral vectors, such as vaccinia virus, retrovirus, and adenovirus.
  • the target gene is placed downstream of the promoter so that the promoter having the vector and the target gene are operably linked to each other.
  • the plasmids pRC / RSV and pRC / CMV described above have a closing site downstream of a promoter that can function in animal cells.
  • a method in which the purified DNA is inserted into an appropriate vector DNA restriction enzyme site or a multicloning site and then incorporated into the vector is employed.
  • the targeting vector thus produced may be administered directly to a patient (in vivo method), or introduced into a cell collected from the patient, preferably a stem cell, to express a cell expressing the target gene.
  • the cells may be administered after selection (ex vivo method).
  • the direct administration of the targeting vector can be carried out in the form of a preparation such as intravenous injection (including infusion), intramuscular injection, intraperitoneal injection, subcutaneous injection and the like.
  • the introduction of the targeting vector into cells can be carried out using a general gene introduction method such as the calcium phosphate method, the DEAE dextran method, the electoral portation method, or the riboaction method. Selection of cells expressing the target gene can be performed using a selectable marker, and this method is well known in the art. Administration of cells expressing the target gene can also be administered in the same formulation as in direct administration of the targeting vector.
  • a targeting vector incorporating a sequence of a target gene determined from the results obtained by the method for predicting cancer of the present invention and a promoter linked thereto is used as a therapeutically effective drug.
  • An appropriate amount of the cells is administered directly or into which the vector has been introduced to increase the expression of the gene.
  • the dosage of the targeting vector varies depending on the age, sex, symptom, administration route, administration frequency, and dosage form, but can be appropriately determined using a method commonly used in the art.
  • the expression product of the target gene may be directly administered, and in that case, the expression product can be obtained in a large amount by using an ordinary recombinant protein production method.
  • an expression product of the target gene can be produced using E. coli or the like.
  • the expression product of the target gene is The dosage can vary according to age, gender, symptoms, route of administration, number of administrations, and dosage form, but may be appropriately determined using conventional methods in the art. Can be determined.
  • Various preparations include excipients, disintegrants, lubricants, surfactants, dispersants, buffers, preservatives, dissolution aids, preservatives, stabilizers, isotonic agents, etc. It can be appropriately selected and manufactured by a conventional method.
  • FIG. 1 is a diagram showing an outline of the cancer prediction method of the present invention.
  • FIG. 2 is a diagram showing an outline of the competitive PCR with addition of an adapter.
  • Figure 3 is a block diagram of the metastasis or recurrence identification system.
  • FIG. 4 is a flowchart showing an example of processing by the metastasis or recurrence identification program.
  • FIG. 5 is a flowchart showing an example of processing by the metastasis or recurrence identification program.
  • FIG. 6 is a diagram showing the results of cluster analysis of genes for 179 cases related to breast cancer.
  • FIG. 7 is a diagram showing the results of cluster analysis of genes for 301 cases of breast cancer.
  • FIG. 8 is a diagram showing the results of cluster analysis of genes for 115 cases of colorectal cancer.
  • FIG. 9 is a diagram showing the results of cluster analysis of genes belonging to the M cluster.
  • FIG. 10 is a diagram showing the results of cluster analysis of genes belonging to the P cluster.
  • FIG. 11 is a diagram showing the results of principal component analysis for the M cluster.
  • FIG. 12 is a diagram showing the results of principal component analysis for the P cluster.
  • FIG. 13 is a diagram showing principal component analysis results for the M cluster and the P cluster. Explanation of reference numerals
  • 301 CPU
  • 302 ROM
  • 303 RAM
  • 304 Input
  • 305 Transmission / reception
  • 306 Output
  • 307 HDD
  • 308 CD-ROM drive
  • 309 CD-ROM
  • 310 Database
  • 403 sample data storage means
  • 404 data optimization means
  • 405 variable list output means
  • 406 variable selection means
  • 407 evaluation sample data file generation means
  • 501 prediction device
  • 502 external database search and input means
  • 503 sample data storage means
  • 504 data optimization means
  • 505 variable list output means
  • 506 variable selection means
  • 507 sample data file generation means for evaluation
  • prediction result editing means 512: evaluation condition setting means
  • 513 cluster Best mode for carrying out the invention
  • the expression level of 2412 genes was measured in 110 cases (98 cases of breast cancer, 1 case of male breast cancer, 1 case of thyroid cancer, and 10 cases of normal tissue) using the adapter addition competition PCR method.
  • biotinylated oligos chemically synthesized with 7 ⁇ l of distilled water containing 3 g of total RNA derived from the above cancer or tissue obtained by the guanidine isothiocynate method were used.
  • dT dT 18 primers were added and the mixture was heated at 70 ° C for 2-3 minutes, and then incubated at 37 ° C for 1 hour to synthesize cDNA.
  • a reaction solution containing DNA synthase is added to the obtained single-stranded cDNA, and the reaction is performed at 16 ° C for 1 hour and at room temperature for 1 hour. Then, a double-stranded cDNA was synthesized.
  • PCR reactions were performed using gene-specific primers and adapter primers. For each reaction solution of the above composition, 30-35 cycles were performed with 94 ° C for 30 seconds, 55 ° C for 1 minute and 72 ° C for 1 minute, followed by reaction at 72 ° C for 20 minutes. Was. After the completion of the reaction, the mixture was kept at 37 ° C for 1 hour.
  • FIG. 6 schematically shows the results.
  • Figure 6 shows 179 cases in the vertical direction and 21 gene names in the horizontal direction.
  • the gene names for Group A are GS7435, GS2307 and GS2828 in order from the left side of the figure.
  • Group B is GS2632, GS7288, GS6601, GS7583, GS7116, GS7715, GS6770, GS2471, GS6711, GS1176, GS7001, GS690, GS1472, GS6784, GS7012, GS7632, GS1957 and GS7264 from the left.
  • Each cell (square) indicates the expression state of the gene.
  • White (mouth) indicates high expression
  • black (garden) indicates low expression
  • gray indicates moderate expression. Gray means that the lighter the color, the higher the expression, and the darker the color, the lower the expression.
  • low expression means that the expression level when performing competitive PCR with addition of an adapter is -1.3 to -0.3
  • moderate indicates that the expression level is higher than -0.3 and 0.3.
  • high expression means that the expression level is 0.3 or more and 1.3 or less.
  • “Expression level” refers to the value obtained by normalizing the measured value with the median value, then setting the upper limit to 20 and setting the lower limit to 0.5, and then performing logarithmic transformation.
  • the numerical value described in the column of “L1” means the sample number, which is provided for convenience of the work.
  • the white or black circles described in the column of “L2” indicate the presence or absence of the expression of the estrogen receptor. “ ⁇ ” is positive and “ ⁇ ”is negative.
  • the white or black circles in the column of “L3” indicate the presence or absence (number) of lymph node metastasis. “ ⁇ ” is 0, “Nin” is 1 to 3, and “Hinsha” is 4 or more. It is.
  • cases are divided into four groups ( ⁇ , ⁇ , ⁇ ⁇ , ⁇ ), and gene groups are divided into two groups ( ⁇ , ⁇ ).
  • Table 5 shows the relationship between the case groups and the gene groups (Groups I and B). Table 5
  • Table 6 shows the relationship with lymph node metastasis.
  • Group I has few metastases, and II group I has many metastases.
  • genes having the nucleotide sequences shown in Tables 1 to 27 in Table 1 are selected .
  • Estrogen receptor positive group (molecular group la and lb in Fig. 7)
  • lymph node metastasis was observed in 45 of 143 patients (31%), Early recurrence occurred in 5 of 60 patients (8%).
  • Estrogen receptor negative group (Molecule group 3 in Fig. 7)
  • Lymph node metastases were present in 21 of 44 patients (48%) and early recurrence was in 4 of 10 patients (40%).
  • ER indicates estrogen receptor (positive is +, negative is 1)
  • LN indicates lymph node metastasis (number)
  • REC indicates recurrence (positive or negative).
  • Example 3 By combining the molecular group for cancer prediction obtained in Example 3 with known clinical parameters, the prognosis of breast cancer can be predicted as accurately as possible.
  • Table 8 shows the clinical parameters and their significance for prognosis as determined by Cox regression analysis. Table 8
  • the information in Table 8 is used to accurately predict the prognosis of a cancer specimen from multiple parameters.
  • the RR value relative risk for early recurrence
  • the prediction of cancer by molecular groups is more accurate than the conventional clinical parameters.
  • the expression level of 1536 genes was measured for 115 cases (105 cases of colorectal cancer and 10 cases of normal tissue) using the competitive PCR method with addition of an adapter.
  • Fig. 8 schematically shows the results.
  • Figure 7 shows 115 cases in the vertical direction and 1536 genes in the horizontal direction.
  • each cell (square) indicates the gene expression status.
  • White (mouth) shows high expression
  • black (garden) shows low expression
  • gray shows medium expression. Gray means that the lighter the color, the higher the expression and the darker the color, the lower the expression.
  • Low expression means that the expression level is -1.301 or more -0.3 or less
  • medium means that the expression level is greater than -0.3 and less than 0.3
  • high expression means that the expression level is 0.3 or more 1.
  • 1536 genes could be divided into 88 clusters.
  • cluster No. 14 in FIG. 8 was selected as the metastasis (M) cluster one, and cluster Nos. 42 to 44 were selected as the prognosis (P) cluster one.
  • Clusters No. 1 and Nos. 42 to 44 were selected because they were predicted to be related to metastasis and prognosis when the cluster one analysis described in Example 1 below was performed in advance.
  • the genes included in cluster No. 14 are shown in Table 2 (above). In Table 2, the sequence from No. 28 to No. 153 is the gene selected as the M cluster. Also, the genes included in cluster Nos. 42 to 44 are shown in Table 3 (above). In Table 3, the sequence from the 154th to the 289th is the gene selected as one of the P clusters.
  • Fig. 9 shows a cluster analysis of genes belonging to the M cluster
  • Fig. 10 shows a cluster analysis of genes belonging to the P cluster.
  • Figure 9 shows 115 cases vertically and 126 genes of the M cluster arranged horizontally. Each cell (square) indicates the gene expression status.
  • Me indicates metastasis
  • Pr indicates prognosis.
  • the color of the column indicated by MeJ is black, white, and gray, respectively, indicating metastatic cancer specimens, cancer specimens without metastasis, and normal specimens.
  • the column color indicated by“ Pr ” is black, white, and pale. And dark gray indicate samples with poor prognosis, cancer samples with medium prognosis, cancer samples with good prognosis, and normal samples, respectively.
  • Poor prognosis refers to the death of the primary cancer within 2 years in the prognosis after primary cancer treatment for colorectal cancer, and “moderate” refers to the death of the primary cancer within 2 to 5 years. Or, if alive, the observation period is within 4 years, and “good” is alive and the observation period is over 4 years.
  • 115 cases are arranged vertically and 136 genes of the P cluster are arranged horizontally.
  • the numbers 42, 43, and 44 represent the cluster numbers in the cluster analysis shown in FIG.
  • Each cell (square) indicates the gene expression status.
  • the color of the column indicated by “Me” on the right side of the figure is black, white, and gray, respectively.
  • the figure shows a cancer sample, a cancer sample without metastasis, and a normal sample.
  • the color of the column indicated by “Pr” on the right side of the figure is black, white, pale gray, and dark gray, respectively, for samples with poor prognosis, cancer samples with medium prognosis, cancer samples with good prognosis, and normal. Indicates a specimen.
  • FIG. 11 a metastatic cancer specimen is indicated by Hata, a cancer specimen without metastasis is indicated by +, and a normal specimen is indicated by X.
  • FIG. 12 specimens with a poor prognosis are indicated by mouth, samples with a medium prognosis are indicated by mouth, samples with a favorable prognosis are indicated by +, and normal samples are indicated by X.
  • Figure 13 shows the results.
  • the first principal component on the horizontal axis is the first principal component of the ⁇ cluster
  • the first principal component on the vertical axis is the first principal component of the ⁇ cluster.
  • Metastasis cancer specimens are indicated by X
  • cancer specimens without metastasis are indicated by X.
  • a boundary line shown by a broken line shown in the figure can be drawn. This boundary line indicates the average value of the first principal component. From Figure 13, the values shown in Table 10 were determined. Table 10
  • quadrants refer to the boundaries on the boundary shown in Figure 13, the first quadrant is the upper right section of Figure 13, the second quadrant is the lower right section, The third quadrant is the upper left quadrant, and the fourth quadrant is the lower left quadrant.
  • the present invention provides a cancer prediction method and a drug design method.
  • Departure Myung's method is useful for genetic diagnosis to evaluate the malignancy of cancer.
  • the results of the method of the present invention are useful for drug design.

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Zoology (AREA)
  • Immunology (AREA)
  • Wood Science & Technology (AREA)
  • Bioethics (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Description

明 細 書 癌の予測方法 技術分野
本発明は、 癌の予測方法及びドラッグデザイン方法に関する。 特に、 本発明 は癌の悪性度を評価するための遺伝子診断に有用な癌の予測方法に関する。 ま た本発明は、 上記予測方法により得られた結果を利用したドラッグデザィン方 法に関する。 背景技術
乳癌及び大腸癌をはじめとする種々の固形癌は、 症例によって悪性度が異な る。 それぞれの症例における癌の悪性度によって治療法が変わってくるため、 予後を予測することは極めて重要である。 現在、 癌の予後診断は、 CT、 X線な どによる画像分析、 組織型のタイピングなどの病理学的分析、 及び腫瘍マーカ 一を利用した分析などにより行われている。 例えば、 乳癌及び大腸癌の分子腫 瘍マーカーとして CEAがよく知られている。 しかしながらこのマーカーは早期 癌での陽性率が低く、 進行癌になつてから検出されることが多いため、 癌の診 断に十分とはいえない。 この他、 癌の悪性度について種々の予測法が開発され てきた。 しかし、 悪性度との相関関係は部分的であり、 予測結果は満足できる ものではなかった。
最近、 DNA チップをはじめとする技術により、 遺伝子の発現状態を体系的に 解析できるようになつてきた。 そのため、 遺伝子の発現状態から癌の悪性度を 予測できる可能性が出てきた。
一方、 癌が遺伝子異常を原因とする疾病であることが次第に明らかとなり、 これら原因遺伝子の検索とその遺伝子異常の検出による癌の遺伝子診断が、 臨 床医学の分野において注目されている。 癌の遺伝子診断は、 癌によって被るリ スクを予知し、 癌を予防又は早期治療する上で必要性が高い。 発明の開示
本発明は、 癌の予測方法及びドラッグデザィン方法を提供することを目的と する。
本発明者は、 上記課題を解決するために鋭意研究を行った結果、 癌の原発巣 から得られた遺伝子の発現量を多変量解析し、 その解析結果によって癌を予測 し得ることに成功し、 本発明を完成するに至った。
すなわち、 本発明は、 癌の分類方法であって、 以下の工程:
( a) 検体から遺伝子を採取してその発現量を測定し、
(b) 測定された遺伝子のうち少なくとも 1つの遺伝子を選択し、
( c ) 選択された遺伝子について前記発現量の測定結果を多変量解析し、
( d) 前記多変量解析結果を指標として前記遺伝子の発現パターンが類似する 群ごとに検体を分類すること、
を含む前記分類方法である。
また本発明は、 癌の予測方法であって、 以下の工程:
( a) 検体から遺伝子を採取してその発現量を測定し、
(b) 測定された遺伝子のうち少なくとも 1つの遺伝子を選択し、
( c ) 選択された遺伝子について前記発現量の測定結果を多変量解析し、
( d) 前記多変量解析結果を指標として前記遺伝子の発現パターンが類似する 群ごとに検体を分類し、
( e) 得られる分類結果から癌の状態を予測すること、
を含む前記予測方法である。
上記予測方法において、さらに、癌の状態に特徴的な発現パターンを決定し、 癌を予測しようとする癌の検体から採取した遺伝子の発現パターンを前記特徴 的な発現パターンと比較する工程が含まれてもよい。
癌の状態としては、 癌の有無、 癌の悪性度、 癌の転移の有無及び癌の再発の 有無からなる群から選ばれる少なくとも 1つが挙げられる。 癌の転移としては リンパ節転移が含まれ、 また再発としては早期再発が含まれる。
選択される遺伝子は、 表 1の 1〜27に示される塩基配列を含む遺伝子群 I、 表 2の 28〜: L53に示される塩基配列を含む遺伝子群 I I、 及び/又は表 3の 154 〜289に示される塩基配列を含む遺伝子群 I I Iから選ばれるものが挙げられる。 また、 表 1の 1 〜27に示される塩基配列を含む遺伝子群 I、 表 2の 28〜: L53に 示される塩基配列を含む遺伝子群 I I及び/又は表 3の 154〜289に示される塩 基配列を含む遺伝子群 I I I から選ばれる少なくとも 1つの遺伝子と、 遺伝子群 I、 I I及び I I I を除く他の少なくとも 1つの遺伝子との組み合わせであっても よい。
検体の分類は、 ホルモン受容体陽性群及び Z又は陰性群を指標とするものを 例示することができる。 ホルモン受容体としてはエストロゲン受容体が挙げら れる。
癌としては、 例えば、 乳癌、 胃癌、 食道癌、 口腔癌、 大腸癌、 直腸癌、 肛門 癌、 脖臓癌、 肺癌、 腎癌、 膀胱癌、 卵巣癌、 子宮癌、 皮膚癌、 メラノーマ、 中 枢神経腫瘍、 末梢神経腫瘍、 歯肉癌、 咽頭癌、 顎癌、 肝癌、 前立腺癌、 白血病、 多発性骨髄腫、 及び悪性リンパ腫からなる群より選択されるものが挙げられ、 特に乳癌又は大腸癌が好ましい。
多変量解析は、 クラスター分析により行うことができる。
さらに、 本発明は、 前記予測方法により予測された癌の状態がハイリスクで あると判断された検体に発現する遺伝子の発現を抑制するように薬物を設計す ることを特徴とするドラッグデザィン方法である。そのような遺伝子としては、 表 1の 4、 7若しくは 20、 表 2の 28、 29、 31、 32、 35、 43、 49〜53、 67、 70、 72、 73、 75〜79、 81、 84、 86〜92、 94〜99、 104〜111、 113、 114、 117若しく は 122〜153、 又は表 3の 155、 162、 163、 167〜169、 171、 172、 174、 175、 177 〜180、 188、 190、 193、 198、 211、 222、 242〜253、 255〜257、 259〜261、 263 若しくは 265に示される塩基配列を有するものあるいはこれらの組合せが挙げ られる。 上記遺伝子の発現を抑制する薬物としては、 当該遺伝子のアンチセン ス核酸が挙げられる。 また、 本発明は、 前記予測方法により予測された癌の状 態がハイリスクであると判断された検体に発現する遺伝子の発現を増大させる ように薬物を設計することを特徴とするドラッグデザィン方法である。 そのよ うな遺伝子としては、 表 1の 1 、 2、 3 、 5 、 6 、 8 、 9 、 10、 11、 12、 13、 14、 15、 16、 17、 18、 19若しくは 21、 表 2の 30、 33、 34、 36〜42、 44〜48、 54〜66、 68、 69、 71、 74、 80、 82、 83、 85、 93、 100〜103、 112、 115、 116 若 しくは 118〜121、 又は表 3の 154、 156〜: L61、 164〜166、 170、 173、 176、 181 -187, 189、 191、 192、 194〜197、 199〜210、 212〜221、 223〜241、 254、 258、 262、 264若しくは 266〜289 に示される塩基配列を有するものあるいはこれら の組合せが挙げられる。 上記遺伝子の発現を増大する薬物としては、 当該遺伝 子を組み込んだターゲティングベクターが挙げられる。
またさらに、 本発明は、 癌の原発巣から単離された癌遺伝子の発現量を解析 する手段と、 得られる解析結果を指標として癌の状態を同定する手段とを含ん でなる、 コンピュータを癌の状態の予測システムとして機能させるためのプロ グラムである。
さらに、 本発明は、 癌の原発巣から単離された癌遺伝子の発現量を解析する 手段と、 得られる解析結果を指標として癌の状態の有無を同定する手段とを含 んでなる、 コンピュータを癌の状態の予測システムとして機能させるためのプ ログラムを記録したコンピュータ読み取り可能な記録媒体である。 以下、 本発明を詳細に説明する。 本願は、 2001年 3月 14 日に出願された日 本国特許出願 2001-73063 号、 2001 年 4月 6 日に出願された特許出願 2001-108503号及び 2001年 8月 2日に出願された特許出願 2001- 234807号の優 先権を主張するものであり、 上記特許出願の明細書及び/又は図面に記載され る内容を包含する。 本発明の方法は、 ある遺伝子の発現パターンの違いにより、 '検体をいくつか の群に分類し、 その分類結果から癌の状態に特徴的な発現パターンを決定する ことを特徴とする。 本発明の方法の概要を図 1に示す。 まず、 正常及び癌検体 を含む多数の検体を採取し (図 1 ( e )参照) 、 それらの検体から、 癌の原発巣由 来の遺伝子の発現量を測定する (図 1 ( f)参照) 。 これらの検体における遺伝子 の発現量の測定操作を、 文献調査などにより選抜した遺伝子の全て (図 1 ( c) 参照) について行う。 次に、 発現量を測定した遺伝子の中から多変量解析に有 用な遺伝子を選択する。 そして、 選択された遺伝子を多変量解析などのデータ 分析にかけ (図 1 (g)参照) 、 前記検体を発現パターンが類似する群ごとに少数 の群 (グループ) に分類する。 少数の群に分類するための指標の数 (つまり分 類されるグループ数) としては、 20以下、 好ましくは 10以下、 さらに好まし くは 2つである。 例えば、 ホルモン受容体が陽性である群と陰性である群とに 分類するとすれば、 分類される群の数は 2種類となる (但し、 陽性群及び陰性 群が混在する群が生じる場合もある) 。 そして、 得られる分類結果から特定の 癌の状態に特徴的な発現パターンを決定する (図 1 (h)参照)。 この分類したパ タ一ンを利用することにより、 癌の状態を予測しょうとする検体の発現パタ一 ンを上記分類パターンに当てはめて、 癌の状態を予測する。 さらに、 分類結果 から、 癌の転移の有無又は悪性度を知ることも可能である。 続いて、 癌の状態 の予測方法における発現パターン解析の結果を使用して、 悪性度等の異なる癌 の状態に特異的な遺伝子を決定し、 その遺伝子の発現又は遺伝子産物の活性を 調節するための医薬を設計する。
1 . 遺伝子発現の定量
遺伝子発現を定量するために、 検体から RNAを単離する。 遺伝子の単離は、 公知の任意の手法を採用することができる。 例えば、 グァニジンイソチオシァ ネート法により調製された RNAから cDNAを合成する方法により調製する方法な どが挙げられる。単離及び定量する遺伝子としては、癌の原発巣由来の遺伝子、 免疫グロブリ ンをコードする遺伝子など、 種々の遺伝子が挙げられ、 文献調査 などによって癌の予測に関係すると考えられる遺伝子を多数選択することがで きる。
遺伝子発現データは、 任意の手法により得ることができ、 特に限定されるも のではない。 例えば、 競合 PCR法、 TaqMan PCR法、 ノーザンブロット法等によ り遺伝子の発現データを得ることができる。
(1) 競合 PCR
競合 PCR法は、 複数の試料に含まれる同一の遺伝子を同一の反応系で増幅さ せて遺伝子発現量を定量するための方法である。 その一つにアダプター付加競 合 PCR法がある (図 2参照) 。 すなわち、 少なくとも 2種類の試料に含まれる 同一の cDNAのそれぞれに種類の異なるアダプター配列を付加し、 このアダプタ 一配列が付加された cDNAを含む各試料を混合した後に上記 cDNAを増幅し、 増 幅された cDNAの量比を求めることを特徴とするものであり、いわゆるアダプタ 一付加競合 PCRと呼ばれる (特許第 2905192号公報参照) 。 アダプター付加競 合 PCR法の概要を簡単に説明する。
まず、定量の対象となる cDNAが含まれる少なくとも 2種類の試料を調製する . (簡単のため、 2 種類の試料を例に説明する) 。 次に、 特定の制限酵素で試料 中の cDNAをそれぞれ切断した後、 当該切断部位にアダプターを付加する。 ァダ プターとは、増幅を行つた際に増幅された cDNAを区別することができるように 設計されたオリゴヌクレオチドを意味し、 cDNAの制限酵素切断部位に連結でき るように二本鎖として設計されるものである。 アダプタ一は、 一方の試料中の cDNAに付加するアダプターの長さと他方の試料中の cDNAに付加するアダプタ 一の長さとが異なるように設計するか、あるいは一方の試料中の cDNAに付加す るアダプター及び他方の試料中の cDNA に付加するアダプターに含まれる制限 酵素認識部位が少なくとも 1箇所含まれるように設計するか、 あるいは一方の 試料中の cDNA に付加するアダプターのヌクレオチド配列と他方の試料中の cDNAに付加するアダプターのヌクレオチド配列とが異なるように設計すること ができる (図 2において A及び Bを例として示す) 。 これらのアダプタ一は、 化学合成により得ることができ、 また、 アダプターを蛍光標識又は放射性同位 元素により標識してもよい。
前記のようにしてアダプターが付加された cDNA を含む試料をそれぞれ混合 (好ましくは等量混合) した後、 これら試料に含まれる cDNAを錶型として増幅 を行う。増幅は、例えばポリメラーゼ連鎖反応(PCR) により行われる。増幅後、 ォートシークェンサ一(フアルマシア社等)又はイメージスキャナー(Molecular Dynamics 社) により、 また、 放射性同位元素を用いた場合はデンシトメータ 一等により増幅産物の検出を行う。 図 2の下部において示すように、 異なるァ ダブターを付加した配列の標識に由来するシグナル量の差異により cDNA を定 量することができる。 (2) TaqMan PCR法
TaqMan PCR法は、 铸型、 プライマー、 及び標識されたプローブの混合反応系 (反応チューブ) において、 増幅反応と蛍光強度の測定とを同時に実施するも のであり、 铸型にハイプリダイズした特定のプローブから放出された蛍光レポ 一ター色素をリアルタイムで検出し、 検出器に連結したコンピューターで PCR 産物を自動的に分析する方法である (リアルタイム PCR法ともいう) 。 このリ アルタイム検出 PCR法自体は公知であり、 そのための装置及びキットも市販さ れている。 従って、 本発明においては、 このような市販の装置及びキットを用 いて遺伝子発現の検出を行なうことができる (例えば ABI社製 TaqMan PCR キ ット又は TaqMan EZ RT-PCR キット等) 。
(3) ノ一ザンブロット法
ノーザンプロット法は、 細胞中で発現している遺伝子転写産物 (mRNA) のサ ィズゃ存在量を解析する方法である。細胞から抽出した全 RNA又は mRNAを変性 ァガロースゲル電気泳動し、 ナイ口ンメンブレン又は二トロセルロース膜など に写し取り、 膜上で固定する。 目的遺伝子とのハイブリダィゼーシヨンを行う ことで、 遺伝子の mRNAのサイズ、 存在量の解析を行う。
ノーザンプロット法を行うための装置ゃキットも市販されており、 例えばメ ッセージメーカー試薬セット、 全自動電気泳動ブロッテイング装置 (Labimap 社製) 等を使用することができる。
(4) PCR法による検出
前記遺伝子検出用のプライマー、 すなわち PCRのフォワードプライマー (セ ンスプライマーともいう) 及びリパースプライマー (アンチセンスプライマー ともいう) .は、 遺伝子の塩基配列から、 PCR による増幅効率を考慮して、 増幅 断片が約 50〜200bp となるように設計及び合成する。 なお、 リバースプライマ 一は、 設計の基礎となる配列に相補的となるように設計する。 プライマーの設 計は、 上記基礎となる配列のうち 1種類又は 2種類以上の配列の中から複数の 配列を任意に選択して行うことができる。 上記プライマーは、 通常の化学合成、 例えば Applied Biosystems社製の DNA 自動合成装置を用いた化学合成により得ることができる (以下同様) 。 なお、 アダプター付加競合 PCRの場合は、 アダプター付加部位よりポリ A側にリパー スプライマーのみを設計すればよい。
(5) プローブ
本発明において使用されるプローブは、 オリゴヌクレオチドに、 例えばリポ 一ター蛍光色素及びクェンチヤ一蛍光色素を結合させて標識したものを使用す ることができる。
遺伝子検出用プローブのオリゴヌクレオチド部分は、 本発明において使用さ れる遺伝子の全部又は一部の配列に基づいて設計することができる。 あるいは、 これらの遺伝子の全部又は一部の塩基配列とストリンジヱントな条件下でハイ ブリダィズすることができ、 かつ、 連続する少なくとも 15塩基の配列を有する 才リゴヌクレオチドを挙げることができる。
ここで、 「ストリンジェントな条件」 とは、 リアルタイム PCRで TaqManプロ ーブを使う場合プローブとプライマーが、 同時に錶型 DNA と会合又はハイブリ ダイズを形成する条件を意味し、 具体的には、 通常の緩衝液中で 60〜65°Cの条 件をいう。 従って、 本発明に使用されるプローブは、 上記ストリンジェントな 条件で検出目的の DNAにハイブリダイズすることができる限り、 1又は数個(例 えば 1〜10個) の塩基に欠失、 置換、 付加等の変異があってもよい。 また、 プ ローブの配列が、 ハイブリダィズすべき領域の塩基配列に対して 1〜: 10%程度 のミスマッチがあっても、 上記ストリンジェントな条件でハイブリダイズする ことができる限り、 上記プローブは本発明において使用することができる。 前記リポーター蛍光色素は、 リポーター蛍光色素が前記クェンチヤ一蛍光色 素と同一のプローブに結合されている場合には蛍光共鳴エネルギー転移により その蛍光強度が抑制され、 前記クェンチヤ一蛍光色素と同一のプローブに結合 されていない状態では蛍光強度が抑制されないものである。 リポーター蛍光色 素としては、 FAM(6_カルボキシ-フルォレツセイン) などのフルォレツセィン系 蛍光色素が好ましく、 クェンチヤ一蛍光色素としては、 TAMRA(6-カルボキシ- テトラメチノレ-ローダミン) などのローダミン系蛍光色素が好ましい。 これらの 蛍光色素は公知であり、 容易に入手可能である。 リポーター蛍光色素及びクェ ンチヤー蛍光色素の結合位置は特に限定されないが、 通常、 プローブのオリ ヌクレオチド部の一端 (好ましくは 5 ' 末端) にリポーター蛍光色素が、 他端 にクェンチヤ一蛍光色素を結合する。
2 . 遺伝子の選択
上記の通り発現量を測定した遺伝子の中から後述する多変量解析に有用な遺 伝子を選択する。 「有用な遺伝子」 とは、 前記発現量が測定された遺伝子の中 から選ばれる遺伝子であって、 後述の多変量解析を行ったときに発現量の違い を区別又は分類し得る遺伝子を意味する。 本発明においては、 先ず、 予後など の予測のための発現定量に用いる遺伝子を選択する。 ここで、 発現定量に用い る遺伝子は、 癌の検体を分類するのに有用な遺伝子であって所定の基準を満た すものであり、 予測する癌の種類に応じて選択される。 本発明において、 予後 などの予測に用いる遺伝子の種類は、 癌の原発巣に発現する遺伝子である限り 特に限定されるものではない。癌の種類としては、例えば乳癌、 胃癌、食道癌、 口腔癌、 大腸癌、 直腸癌、 肛門癌、 腌臓癌、 肺癌、 腎癌、 膀胱癌、 卵巣癌、 子 宫癌、 皮膚癌、 メラノーマ、 中枢神経腫瘍、 末梢神経腫瘍、 歯肉癌、 咽頭癌、 顎癌、 肝癌、 前立腺癌、 白血病、 多発性骨髄腫、 悪性リンパ腫等が挙げられ、 これらの群から選択される少なくとも一種の癌で発現する遺伝子を使用するこ とができる。 遺伝子の選択方法は、 癌によって異なる。 例えば、 ホルモン受容 体の発現による選択、 他のクラスター分析の結果による選択、 リンパ節転移の 有無による選択、 再発の有無による選択、 予後因子による選択、 組織型による 選択等が挙げられる。 ここで、 転移としては、 リンパ節転移を例示できる。 ま た、 再発としては早期再発が挙げられる。 早期再発とは、 術後 2年以内の全身 性の再発を意味する。 以上のように、 腫瘍組織の分類に有用な遺伝子を選び出 し、 多変量解析を行うことにより、 発現プロファイルからみれば癌発現の特徴 を持ったグループに分けることができる。
乳癌を予測する場合は、乳癌の性質を決める上で重要な働きをしている点で、 ホルモン受容体、 特にエストロゲン受容体の発現の有無を区別する遺伝子が好 ましい。 また大腸癌を予測する場合には、 遺伝子の発現パターンによりクラス ター分析を行って統計学的に有意な数のクラスターに分類し、 その結果から転 移及び/又は予後因子に関するクラスターに属する遺伝子群を選択することが 好ましい。 転移及び Z又は予後因子に関するクラスタ一は、 上記分類したクラ スターそれぞれについて主成分分析又は階層的クラスター分析により発現パタ 一ンでサンプルを分類し、 この分類と予後及びノ又は予後因子との関係を調べ ることにより、 選択することができる。 従ってこのような場合には、 全遺伝子 に関して予め多変量解析することによって、 多変量解析に有用な遺伝子を選択 することになる。
本発明において、 例えば上記エストロゲン受容体の発現の有無を区別する遺 伝子を使って癌の検体を分類すると、 悪性度の違いにより転移又は再発との関 係を導くことができる。 「エストロゲン受容体の有無を区別する遺伝子」 とは、 検体から単離された遺伝子の発現量を求めて後述の多変量解析 (例えばクラス ター分析) を行ったときに、 エス トロゲン受容体が陽性群の検体と陰性群の検 体に分類することができるような遺伝子をいう。 すなわち、 複数の検体 (正常 及び癌組織) を採取し、 これにエス トロゲン受容体に対する抗体と反応させて 陽性又は陰性のどちらであるかを判断する。 この結果と、 上記遺伝子の発現結 果との間でクラスター分析をしたときにエス トロゲン受容体陽性群と陰性群と に分けることができる遺伝子を本発明では選択する。
また本発明において、 例えば上記クラスター分析により転移及び/又は予後 因子に関するクラスターに属する遺伝子群を使って癌の検体を分類すると、 悪 性度の違いにより転移又は再発との関係を導くことができる。
遺伝子の選択では、 上記所定の基準に基づいて遺伝子を選択する前に、 癌検 体における発現遺伝子量の変動と正常検体における発現遺伝子量の変動との郡 内変動の比率を計算し、 当該比率が所定の条件を満たす遺伝子を予め選択して おいてもよい。
ここで、 群内変動 O は、 次式 I:
Figure imgf000012_0001
r はそれぞれの群内の遗伝子発現量の平均を、
は遺伝子数を、 は群の数を、
Xiは遣伝子の発現量を表す。
ノ により示され、 それぞれ正常検体群と癌検体群内の平均との差の 2乗の和を意 味する。 この比率は、 解析の対象となる遺伝子の種類、 症例の数、 遺伝子の数 等によって適宜変更することができるが、 通常は 1. 10〜1. 20、 好ましくは 1. 18 以上 (例えば 1. 80〜: 1. 20) である。 乳癌を例とした場合、 遺伝子の選択は、 エストロゲン受容体の発現の有無を 分散分析の原理を応用することにより行うことが可能である。 最初に、 上記正 常検体と癌検体との郡内変動の比率を 1. 20とすることにより、 例えば 2412個 の遺伝子の中から 152個の遺伝子を予め選択することができる。 続いて、 例え ば、 各症例の組織又は細胞サンプル (例えば血液、 摘出病変部、 生検サンプル 等) について、 エストロゲン受容体に対する抗体を用いて常法(例えば ELISA、 RIA等) によりエストロゲン受容体の発現の有無を検出し、 エストロゲン受容 体が陽性の群と陰性の群とに分ける。 そして、 それぞれの発現量の群内の変動
(群内変動という) 、 及び群全体の変動 (全体変動という) の比率を計算し、 当該比率が所定の条件を満たす遺伝子を選択する。
ここで、 全体変動 (Vt) は、 次式 II:
Vt ∑ '-局: (II)
=1
r χί , pは前記と同様である。
Xtは遺伝子発現量の全体の平均を表す。 により示され、 それぞれの値と陽性群及び陰性群全体の平均との差の 2乗の和 を意味する。 群内変動 ( ) は上記と同様であり、 次式 I p q
vg = ∑∑(xi-xj (i)
i=l j=l
「 はそれぞれの群内の遺伝子発現量の平均を、
"は群の数を表す。 Xi は前記と同様である。 により示され、 それぞれの各サンプルの検出値と陽性群又は陰性群内の平均と の差の 2乗の和を意味する。
上記比率は、 解析の対象となる遺伝子の種類、 症例の数、 遺伝子の数等によ つて適宜変更することができるが、 通常は 1. 10〜: L. 20、 好ましくは 「全体変動 /群内変動」 が 1. 18以上 (例えば 1. 18〜: L. 20) である。
本発明において、 エストロゲン受容体陽性 (ER+) の群及び陰性 (ER- ) の群 に分けることを指標とすると、 以下の表 1の 「番号」 の欄の 1〜27番に示す 27 種類の遺伝子 (遺伝子群 I とする) を選択することができ (表 1 ) 、 これらの 遺伝子が多変量解析に使用される。 これらの遺伝子は、 多変量解析を行ったと きにエストロゲン受容体の発現の有無を区別することができる遺伝子である。
表 1
Figure imgf000014_0001
A.N. : ァクセッション番号 多変量解析においては、 上記遺伝子群 Iの中から任意に 1種以上を組合せる ことができる。 例えば、 表 1の 「番号」 の欄の 1〜21番に示される遺伝子を使 用することが好ましい。 さらに、 発現量が測定された遺伝子群の中から、 遺伝 子群 I に属する遺伝子以外の遺伝子を 1種以上組み合わせることもできる。 遺 伝子群 Iの遺伝子以外の遺伝子は、 遺伝子群 Iの遺伝子とは全く異なる性質を 有するものでも類似する性質を有するものでもよい。 例えば、 免疫グロブリン をコードする遺伝子その他の遺伝子を選択することができる。 また、 大腸癌を例とした場合、 遺伝子の選択は、 遺伝子の発現パターンによ りクラスター分析を行って統計学的に有意な数のクラスターに分類し、 その結 果から、 多変量解析を行うために好ましいクラスターに属する遺伝子群を選択 することにより行うことができる。 本発明において多変量解析を行うために好 ましいクラスタ一は、 例えば転移及び/又は予後因子に関するクラスターであ る。 転移及び Z又は予後因子に関するクラスタ一は、 上記分類したクラスター それぞれについて主成分分析又は階層的クラスター分析により発現パターンで サンプルを分類し、 この分類と予後及び/又は予後因子との関係を基準又は指 標とすることにより、 選択することができる。
本発明において、大腸癌に関する遺伝子 1536個をクラスター分析することに より 44のクラスターに分類されるが、 その中で、 転移に関するクラスタ一はク ラスター No. 14であり、予後因子に関するクラスタ一はクラスター No. 42〜44で ある。 クラスター No. 14 に属する遺伝子として、 以下の表 2の 「番号」 の欄の 28〜153番に示す 126種類の遺伝子 (遺伝子群 I I とする) を選択することがで き、 これらの遺伝子が多変量解析に使用される。 また、 クラスター No. 42〜44 に属する遺伝子として、 以下の表 3の 「番号」 の欄の 154〜289番に示す 136種 類の遺伝子 (遺伝子群 I I I とする) を選択することができ、 これらの遺伝子が 多変量解析に使用される。 これらの遺伝子は、 多変量解析を行ったときに転移 又は予後との関連性がある遺伝子である。 表 2
Figure imgf000016_0001
番号遺伝子名 A. N. 遣伝子の内容
70 GS3565 L25085 Human Sec61- complex beta-subunit mRNA, complete cds.
71 AF077034 AF077034 Homo sapiens HSPC010 mRNA, complete cds.
72 GS3819 AF117616 Homo sapiens SOUL protein (SOUL) mRNA, complete cds.
73 GS3424 A 000462 Homo sapiens cDNA FLJ20455 fis , clone KAT05813.
74 GS4401 U47414 Human cyclin G2 mRNA, complete cds.
75 GS4568 AL049963 Homo sapiens mRNA; cDNA DKFZp564A132 (from clone DKFZp564A132) .
76 GS6584 J04611 Human lupus p70 (Ku) autoantigen protein mRNA, complete cds.
77 GS4090 U24704 Human antisecretory factor - 1 mRNA, complete cds.
78 GS2932 X52317 Human mRNA for histone H2A. Z.
79 GS2365 Z49835 H. sapiens mRNA for protein disulfide isomerase.
80 GS2495 D00422 Human sphingolipid activator proteins , mRNA, complete cds.
81 GS3021 X01060 Human mRNA for transferrin receptor.
Human mRNA for cathepsin D from oestrogen responsive
82 GS3823 X05344 breastcancer cells.
83 GS983 M30685 Pan Troglodytes MHC class I protein mRNA (MHCPATRF1).
84 GS726 X58536 Human mRNA for HLA class I locus C heavy chain.
85 GS3409 雇一 001101 Homo sapiens actin, beta (ACTB) , smRNA.
86 GS7358 M74817 Human tropomyosin-1 (TM-beta) mRNA, complete cds.
87 GS3542 D49400 Homo sa iens mRNA for vacuolar ATPase , complete cds.
88 GS2965 U90654 Human zinc-finger domain-containing protein mRNA, partial cds.
89 GS1990 X04481 Human mRNA for complement component C2.
90 GS3222 U44954 Human N DA receptor glutamate-binding chain (hnrgw) mRNA, partial cds.
91 GS697 Z37166 H. sapiens BAT1 mRNA for nuclear RNA helicase (DEAD family).
92 GS1353 D50372 Homo sapiens mRNA for myosin regulatory light chain, completecds.
93 GS3621 AC004938 Homo sapiens clone DJ0971C03, complete sequence.
94 GS2907 AA633993 Ceil division cycle 10 (homologous to CDC10 of S. cerevisiae
95 GS3383 AK000070 Homo sapiens cDNA FU20063 fis , clone C0L01524.
96 GS3043 M32306 Human epithelial glycoprotein (EGP) mRNA, complete cds.
97 GS6968 AF044221 Homo sapiens HCG- 1 protein (HCG - 1) mRNA, complete cds.
Human brain mRNA homologous to 3'UTR of human CD24 gene,
98 GS2998 D87667 partial sequence.
99 GS2752 M29540 Human carcinoembryonic antigen mRNA (CEA) , complete cds.
100 GS3752 AB018270 Homo sapiens mRNA for IAA0727 protein, partial cds.
101 GS3223 AL133580 Homo sapiens mRNA; cDNA DKFZp434N2072 (from clone DKFZp434N2072).
102 GS1264 M21575 Human cytochrome c oxidase COX subunit IV (COX IV) mRNA, complete cds.
103 GS201 AB009010 Homo sapiens mRNA for polyubiquitin U complete cds.
104 GS3904 Z35415 H. sapiens gene encoding E-cadherin, exon 16.
105 GS3390 U29091 Human selenium-binding protein (hSBP) mRNA, complete cds.
106 GS2252 X01683 Human mRNA for alpha 1 - antitrypsin.
107 GS3412 J03544 Human brain glycogen phosphory ase mRNA, complete cds.
108 GS2952 AF007194 Homo sapiens mucin (MUC3) mRNA, partial cds.
109 GS3116 X91863 H. sa iens Gpx^ gene.
110 GS3779 M81600 Human NAD(P)H: quinone oxireductase gene , exon 6.
111 GS1655 J03746 Human glutathione S - transferase mRNA, complete cds.
112 GS145 M77234 Human ribosomal protein S3a mRNA, complete cds.
Homo sapiens ADP-ribosylation factor 4 (ARF4) gene ,
113 GS2032 AF104238 exon 6 and complete cds.
114 GS133 J04617 Human elongation factor EF - 1 - alpha gene , complete cds. 番号遺伝子名 A. N. 遺伝子の内容
115 GS7058 U35048 Human TSC - 22 protein mRNA, complete cds.
116 GS2547 X96752 H. sapiens mRNA for し -3 - hydroxyacyl - CoA dehydrogenase.
Homo sapiens maiate dehydrogenase precursor (MDH) mRNA,
117 GS4723 AF047470 nuclear gene encoding mitochondrial protein, complete cds.
118 GS243 AB021288 Homo sa iens mRNA for beta 2- microglobulin, complete cds.
119 GS3682 AF151802 Homo sa iens CbI-44 protein mRNA, complete cds.
120 GS2791 D13629 Human mRNA for KIAA0004 gene , complete cds.
121 GS7410 AF075010 Homo sapiens full length insert cDNA YI03D03.
Human B - cell receptor associated protein 、hBAP)
122 GS1208 U72512 alternatively spliced mRNA, partial 3'UTR.
123 GS7407 AA485677 Human zyxin related protein ZRP- 1 mRNA, complete cds
Homo sapiens interferon i nduc β ds t ansmemb r ane
124 GS3119 NM_003641 protein 1 (9-27) ( IFITM1) , mRNA.
125 GS988 L08246 Human myeloid cell differentiation protein (MCL1) mRNA.
Homo sapiens BCL2/ adenovirus E1B 19kD - interacting protein 2mRNA ,
126 U15173 U15173 complete cds.
127 GS2263 AB002382 Human mRNA for KIAA0384 gene , complete cds.
128 GS2848 AC004258 Homo sapiens chromosome 19 cosniid R33114 , complete sec uence.
Human DNA sequence from clone RP1 262C15 on chromosome 6Q16.丄 -21. Contains the 3 ' end of a novel gene, ESTs STSs and GSSs ,
129 GS2535 AL096818 complete seQuence.
130 GS3269 AF113016 Hnmn s an i ΡΠ s P D1 7^\ tnRNA romr)丄 P†P rds
131 L11910 L11910 Human ret inoblastoma susceptibility gene exons 1-27, complete cds.
l
SRP20 (SR protein family member) , Ndr protein kinase gene similar
132 GS3644 Z85986 to yeast suppressor protein SRP40 , EST and GSS complete seQuence.
133 GS2973 V00662 H Ran pns mi t nrhond isl epnome
Homo sapiens cDNA ior aihvd oxyacetone
134 GS2726 AJ002190 phosphateacy丄 transferase (DAP- AT).
Homo sa iens chondrosarcoma— associated protein 2 (CSA2) mRNA .
135 GS906 AF182645 complete cds.
136 GS3950 L06070 Human sciualene synthetase (ERG9) mRNA, complete cds.
137 GS2524 X71129 H. sapiens mRNA for electron transfer f lavoprotein beta subunit.
Human electron transfer f lavoprotein alpha- subunit mRNA,
138 GS1768 J04058 complete cds.
139 GS5905 D13866 Human mRNA for alpha- catenin complete cds.
140 GS3741 L08666 Homo sapiens porin (por) mRNA, complete cds and truncated cds.
141 GS3426 D21235 Human mRNA for HHR23A. protein, complete cds.
142 GS2512 BC005402 Homo sapiens ? clone MGC: 12543 , mRNA, complete cds.
143 GS1662 Y10211 H. sapiens LAG- 3 gene , promoter region.
144 GS3873 D14662 Human mRNA for KIAA0106 gene , complete cds.
145 GS261 AF047439 Homo sapiens unknown mRNA, complete cds.
Homo sapiens peroxiredoxin 3s (PRDX3) 3 nuclear gene encoding
146 GS3611 匪一 006793 mitochondrial protein, smRNA.
Human mRNA for mitochondrial ATP synthase (Fl-ATPase)
147 GS273 X59066 alphasubunit.
148 GS242 M81457 Human calpactin 1 light chain mRNA, complete cds.
149 GS410 M11146 Human ferritin H chain mRNA, complete cds. 番号遺伝子名 A. N. 遣伝子の内容
150 GS599 M77233 Human ribosomal protein S7 mRNA, 3 end.
151 GS1042 X87838 H. sapiens mRNA for beta-catenin.
152 GS308 Y00345 Human mRNA for polyA binding protein.
153 GS3608 X63753 H. sapiens son-a mRNA.
A. N. :
ァクセッション番号
表 3 ヮ -F-の内
上 04 H. sapiens mRNA for human giant larvae homo log.
Homo sapiens , WD repeat domain 13, clone MGC : 1020, mRNA, し
丄 b Lroo b4 ( 4 Human mRNA for Ul small nuclear RNP - specific A protein.
丄 し 3 丄 Human (SAP 49)
158 GS3995 丽— 003379 Homo sapiens villin 2 (ezrin)s (VIL2) y mRNA.
159 GS4409 A 001523 Homo sapiens cDNA FL J 10661 fis , clone NT2 P2006106.
lbO GS4687 NM_01960b Homo sapiens hypothetical pr o t e nsFL J20 57 (.FLJ20257) , mRNA.
Homo sapiens mRNA for DMB11 6 kb transcript variant 1 lbl UMBi l/bkb. 1 ).
162 GS2891 X74215 H. sapiens mRNA for Lon protease-like protein.
163 GS4065 Aし 050372 Homo sapiens mRNA; cDNA DKFZp434A091 (from clone DKFZp434A091) .
Homo sapiens protein disulfides isomerase related protein lb4 GS4782 匪—004911 (calcium - binding pro t em, suit estmal-r elated; (ERP70J , mRNA.
165 GS4735 AF118224 Homo sapiens matriptase mKNA, complete cds.
166 GS724 AF077051 Homo sapiens FIDOOl mKNA, complete cds.
167 GS4072 AF151806 Homo sapiens CGI - 48 protein mRNA, complete cds.
Homo sapiens type- 2 phosphatidic acid phosphatase - gamma
168 GS4682 AF035959 (PAP2- g) mRNA, complete cds.
Human thymidine gene , complete cds ,
169 GS3068 M15205 with clustered Alu repeats in the introns.
170 GS2846 X65614 H. sa iens mRNA for calcium- binding protein S100P.
171 GS4185 AJ011916 Homo sapiens mRNA for hypothetical protein.
Human DNA sequence from clone RP11- 305P22
on chromosome 20 Contains ESTs, STSs , GSSs and 7 CpG islands.
Contains three novel genes and a novel gene for
172 GS3154 AL121673 a helix- loop- helix DNA binding protein, complete sequence.
H. sapiens mKNA for delta- subu t of
173 GS502 X63423 mitochondria丄 hlPO AiP - synthase (clone #5).
Human apM^ mKNA for bz 74 unknown product specific to
丄 /4 U4o aaipose tissue), complete cds.
丄 rcc i丄 0 c M uyoz Orangutan 28S ribosomal RNA gene fragment.
176 GS2425 AB023165 Homo sapiens mRNA for IAA0948 protein, complete cds.
Homo sapiens pairedsimmunoglobul in-like receptor beta
177 GS4267 NM— 013440 (PILR(BETA) ), mRNA.
1 /8 M_UUlo71 Homo sapiens interferonsregulatory factor 丄 K d , mKNA.
l y Human 100 kDa coactivator mRNA, complete cds.
180 GS855 A画 829 Homo sapiens cDNA FLJ10967 fis , clone PLACE1000798.
Homo sapiens mRNA for Lsm5 protein.
Homo sapiens ras GTPase - activating- like protein IQGAPl J mRNA,
182 L33075 L33075 complete cds.
Homo sapiens quiescent cell proline dipeptidase (QPP) mRNA,
183 GS4482 AF154502 complete cds.
184 GS4008 NM一 012426 Homo sapiens splicing factor 3b, ssubunit 3, 130kD (SF3B3) , mRNA.
Human peroxisomal targeting signal receptor 1 (PXRl) mRNA,
185 GS1540 U19721 complete cds. 番号遺伝子名 A. N. 遺伝子の内容
Human DNA sequence from clone 753P9 on chromosome Xq25_2b. 1. Contains the gene coding for Aminopeptidase P (EC 3. 4. 11. 9,
XAA-Pr o/X-Pr o/Pro 1 ine/ Aminoacylpr ol ine Aminopeptidase) and a novel gene. Contains ESTs , STSs , GSSs and
186 GS2869 AL023653 a gaaa repeat polymorphism, complete sequence.
187 GS4498 AF151105 Homo sa iens 3' - 5 ' exonuclease TREXl mRNA, complete cds.
Homo sapiens , similar to G protein-coupled receptor , family C,
188 GS4263 BC004925 group 5, member C , clone MGC : 10304, mRNA, complete cds.
189 GS4198 A 000453 Homo sapiens cDNA FLJ20446 fis , clone KAT05231.
190 GS3749 M98326 Human transfer valyl - tRNA synthetase mRNA, 3 end of cds.
191 D38122 D38122 Human mRNA for Fas ligand, complete cds.
192 R76314 R76314 Ras homolog gene family, member G (rho G)
Human laminin gamma2 chain gene (LAMC2), exon 23 and flanking
193 GS2718 U31201 sequences , and complete cds.
Homo sapiens G protein- coupled receptor kinase (GRK6) mRNA,
194 GS3664 L16862 complete cds.
195 GS4718 Z14978 H. sapiens mRNA for actin-related protein.
Human DNA sequence from clone 328E19 on chromosome lql2-21. 2 Contains a cyclopnilin - like gene , a novel gene , ESTs , GSSs and
196 GS3193 AL022240 STS , complete sequence.
197 GS3533 X05231 Human mRNA for collagenase (E. C. 3. . 24).
198 GS4112 AF054178 Homo sapiens CI-B14. 5a homolog mRNA, complete cds.
Homo sa iens glutathionesperoxidase 4 (phospholipid
199 GS4559 NM— 002085 hydroperoxidase) (GPX4) , smRNA.
200 GS3260 D86966 Human mRNA for KIAA0211 gene, complete cds.
201 GS3924 AB002312 Human mRNA for KIAA0314 gene, partial cds.
Homo sapiens mRNA for phenylalanyl tRNA synthetase beta subunit ,
202 GS2867 D84471 complete cds.
203 GS3014 AL096737 Homo sapiens mRNA; cDNA D FZp434F152 (from clone D FZp434F152).
204 GS4183 AF068007 Homo sa iens cell cycle-regulated factor p78 mRNA, complete cds.
205 GS4515 AK000154 Homo sapiens cDNA FLJ20147 fis , clone C0L07954.
Homo sapiens insulin-like growth factor I I receptor ( IGF2R) gene ,
206 GS779 AF069378 exon 48 and partial cds.
207 GS4438 NM— 018475 Homo sapiens TPA regulated locus (TPARL), mRNA.
Homo sapiens chromosome 16 , cosmid clone 352F10 (LANL) ,
208 GS4407 AC005361 complete sequence.
209 GS4452 U71274 Human mutant factor XII gene , exon丄 4 and partial cds.
H. sapiens mRNA for xeroderma pigmentosum group C complementing
210 GS3234 X65024 factor (XP-C).
211 U37100 U37100 Homo sapiens aldose reductase - like peptide mRNA, complete cds.
Homo sapiens putative phenylalanyl - tRNA synthetase beta - subunit
212 GS3829 AF042346 mRNA, complete cds.
213 GS1393 AF094516 Homo sapiens El-like protein mRNA, complete cds.
Homo sapiens mRNA; cDNA D FZp564B0482 (from clone D FZp564B0482);
214 GS4048 AL110243 complete cds.
215 GS3944 删 03184 Homo sapiens mRNA for I SLR, complete cds.
216 GS3235 U31556 Human transcription factor E2F-5 mRNA, complete cds.
217 GS3408 Z18538 H. sa iens encoding skin-derived antileukoproteinase. 番号遺伝子名 A. N. 遺伝子の内容
218 GS3248 NM— 012262 Homo sapiens heparan sulfates2-0-sulfotransf erase (HS2;ii丄ノ , mRNA.
219 GS4420 AF060567 Homo sapiens sushi-repeat protein (SRPUL) mRNA, complete cds.
220 GS3004 Y12777 Homo sapiens mRNA for acyl-CoA synthetase - like protein.
Homo sapiens GMPR2 mRNA for guanosine monophosphate reductase
221 GS3310 AB032903 isolog, complete cds.
222 GS1333 AK024628 Homo sapiens cDNA: FLJ20975 fis , clone ADSU01705.
223 GS2948 AF151908 Homo sapiens CGI - 150 protein mRNA, complete cds.
224 GS2124 AB011128 Homo sapiens mRNA for IAA0556 protein, partial cds.
225 GS3751 X17567 H. sapiens RNA for snRNP protein B.
Homo sapiens splicing factor , sarginine/ ser ine-r ich 2,
226 GS4173 腿— 004719 interacting protein (SFRS2IP) . sniRNA.
Homo sapiens MDA- B-231 peripheral-type benzodiazepine receptor
227 GS2765 AF075589 (PBR) mRNA, partial cds.
228 GS4811 AL157435 Homo sapiens mRNA; cDNA DKFZp43400510 (from clone DKFZp43400510).
229 GS3135 M59371 Human protein tyrosine kinase mRNA, complete cds.
230 GS4162 X92762 H. sapiens mRNA for tafazzins protein.
Human extracellular - superoxide dismutase (S0D3) mRNA,
231 GS2744 J02947 complete cds.
232 GS4893 NM_019027 Homo sapiens hypothetical proteins (Fし J20273) , mRNA.
Orfl 5 ' to PD-ECGF/TP. . . orf2 5 ' to PD-ECGF/TP [human,
233 AI341099 AI341099 epidermoid carcinoma cell line A431 , mRNA, 3 genes , 1718 nt]
Homo sapiens mRNA; cDNA D FZp727K171 (from clone DKFZp727 171) ;
234 GS1494 AL133034 partial cds.
235 GS3474 D83174 Human mRNA for collagen binding protein 2, complete cds.
236 GS2928 画— 015140 Homo sapiens IAA0153 proteins(KIAA0153) , mRNA.
237 GS4106 AB020628 Homo sapiens mRNA for KIAA0821 protein, complete cds.
Homo sapiens long form transcript ion factor C- AF (c - maf) mRNA,
238 GS4000 AF055377 complete cds.
239 GS3286 Y07604 H. sapiens mRNA for nucleoside-diphosphate kinase.
240 L11701 L11701 Human phospholipase D mRNA, complete cds.
241 GS3170 L35240 Human enigma gene , complete cds.
242 GS2892 顯一 004368 Homo sapiens calponin 2 (CNN2) , smRNA.
Homo sapiens v - yes-l Yamaguchissarcoma viral oncogene
243 GS4015 匪一 005433 homolog 1 (YES1) , mRNA.
244 GS3588 AF131848 Homo sapiens clone 24922 mRNA sequence , complete cds.
245 GS4780 AD001530 Homo sapiens XAP-5 mRNA, complete cds.
Homo sapienss diferentiat ion-related protein difl3 (L0C51212) ,
246 GS4941 NM— 016380 mRNA.
Homo sapiens centromere protein Fs(350/400kD , mitosin) (CENPF) ,
247 GS4945 NM_016343 mRNA.
248 GS4163 AC007565 Homo sapiens chromosome 19, cosmia R27656 , complete sequence.
249 GS3387 醒一 013317 Homo sapiens Mia— 1 (hTla-1) , smRNA.
Homo sapienssubiauit in-conjugating enzyme E2B (RAD6 homolog)
250 GS3386 NM— 003337 (UBE2B) , smRNA.
251 GS4946 NM_002439 Homo sapiens mutS (E. coli)shomolog 3 (MSH3) , mRNA.
Homo sapienss ubiqui tin-conjugating enzyme E2N (homologous to
252 GS3019 NM— 003348 yeastsUBC13) (UBE2N) , mRNA.
253 GS4022 NM— 002433 Homo sapiens myelinsoligodendrocyte glycoprotein (MOG) , mRNA. 番号遺伝子名 A. N. 遺伝子の内容
254 GS4947 —018520 Homo sapiens hypotheticalsprotein PR02268 (PR02268) , mRNA.
255 GS1341 BC001002 Homo sapiens , clone IMAGE : 3447696 , mRNA, partial cds.
Homo sapiens putative proteinssimilar to nessy (Drosophila)
256 GS4512 NM一 005768 (C3F) , mRNA.
Homo sapiens DNA polymerase epsilon p丄 7 subunit gene ,
257 GS4501 AF261689 complete cas.
Human DNA sequence from clone CTA -丄 26B4
on chromosome 22 13. 2-13. 31 Contains two or three novel genes ,
258 GS6969 AL022316 ESTs , STSs , GS s and a CpG Island, complete sequence.
259 GS6493 画一 014925 Homo sapiens KIAA1002 proteins (KIAA1002) , mRNA.
Homo sapiens hypothetical pr o t e i nsDKFZp5471224 (DKFZp547I224) ,
260 GS715 丽— 020221 mRNA.
261 GS3002 U50871 Human familial Alzheimer ' s disease (STM2) gene , complete cds.
Human DNA sequence from clone RPl - 11703 on chromosome 丄 p33 - 34. 3,
262 GS1102 AL020995 complete sequence.
263 GS5239 U93574 Human Ll element LI. 39 p40 and putat ive pl50 genes , complete cds.
264 M15990 M15990 Human c一 yes - 1 mRNA.
Homo sapiens blood plasma glutamate carboxypeptidase precursor
265 GS7322 AF119386 (PGCP) mRNA, complete cds.
266 GS3683 A 026017 Homo sapiens cDNA: FLJ22364 fis , clone HRC06575.
Homo sapiens adenylate cyclase 6s(ADCY6) , transcript variant 2 ,
267 GS4288 NM—020983 mRNA.
Homo sapiens type 1 tumorsnecrosis factor receptor shedding
268 GS2715 匪—016442 aminopeptidasesregulator (ARTS -上 mRNA.
269 GS4364 匪— 002339 Homo sapiens lymphocyte - specif icsprotein 1 (LSPl) , mRNA.
270 GS3138 M76378 Human cysteine- rich protein (CRP) gene , exons 5 and 6.
271 GS3607 U76713 Human apobec binding protein 1 mRNA, complete cds.
272 GS4976 NM— 014133 Homo sapiens PR00618 proteins (PR00618) , mRNA.
Homo sapiens mRNA; cDNA DKFZp564B172 (from clone DKFZp564B172)
273 GS964 AL136622 complete cds.
Homo sapiens small zinc finger-like protein (TIM9b) mRNA,
274 GS4824 AF150105 complete cds.
Homo sapiens cytochrome P450, o丄 s anosterol 14 - alpha- demethylase)
275 GS3217 NM_000786 (CYP51) , mRNA.
276 GS3380 AB018255 Homo sapiens mRNA for KIAA0712 protein, complete cds.
277 GS4038 L43619 Homo sapiens polycystic kidney disease (PKDl) gene , exons 43 - 46.
Human DNA sequence from clone 718J7 on chromosome 20ql3. ΐ 3. 33.
Figure imgf000023_0001
ςη 1 iin p nhrt*¾nnn Tin l nvrnv?i† p rarnoxvl i rifi 1 rjart nf nnv l σρ ρ similar to mouse DLM- 1 (tumour stroma and activated macrophage protein) , the 3? end of the TMEPAI gene encoding an androgen induced lb transmembrane protein (PMEPAl) , two putative novel
278 GS4375 AL035541 genes , a CpG island, ESTs STSs and GSSs , complete sequence.
279 GS3847 匪—017964 Homo sapiens hypothetical proteinsFLJ20837 (FLJ20837) , mRNA.
Homo sapiens mRNA; cDNA DKFZp434E248 (from clone DKFZp434E248)
280 GS3289 AL136897 complete cds.
metastasis-associated gene [human , highly metastatic lung cell
281 GS4702 S79219 subline Anip [937] mRNA Partial , 978 nt] . 番号遺伝子名 A. N. 遺伝子の内容
Homo sapiens polymerase (RNA) II Is(DNA directed) (62kD) (RPC62) ,
282 GS4742 NM— 006468 mRNA.
283 GS2904 D38594 Human MTHl gene for 8_oxo - dGTPase , exon4 , complete cds.
284 GS4563 U53347 Human neutral amino acid transporter B mRNA, complete cds.
Human homolog of D. melanogaster flightless- I gene product mRNA,
285 GS1178 U01184 partial cds.
286 GS4062 AF183423 Homo sapiens reticulocabin precursor mRNA, complete cds.
287 GS4394 U43923 Human transcription factor SUPT4H mRNA, complete cds.
288 GS2956 U02619 Human TFII Iし Box B - binding subunit mRNA , complete cds.
289 D26443 D26443 GLUTl ^glucose transporter)
A. N.
ョン番号
多変量解析においては、上記遺伝子群 I I及び/又は遺伝子群 I I Iの中から任 意に 1種以上を組合せることができる。 例えば、 表 2の 30、 33、 34、 36〜42、 44〜48、 54〜66、 68、 69、 71、 74、 80、 82、 83、 85、 93、 100〜103、 112、 115、 116若しくは 118〜121に示される遺伝子、又は表 3の 155、 162、 163、 167〜169、 171、 172、 174、 175、 177〜: L80、 188、 190、 193、 198、 211、 222、 242〜253、 255〜257、 259〜261、 263若しくは 265 に示される遺伝子を使用することが好 ましい。 さらに、 発現量が測定された遺伝子群の中から、 遺伝子群 I I及び/又 は I I I に属する遺伝子以外の遺伝子を 1種以上組み合わせることもできる。 遺 伝子群 I I及び/又は II Iの遺伝子以外の遺伝子は、遺伝子群 I I及び/又は I I I の遺伝子とは全く異なる性質を有するものでも類似する性質を有するものでも よい。 例えば、 免疫グロブリンをコードする遺伝子その他の遺伝子を選択する ことができる。
3 . 多変量解析
測定された遺伝子の発現量は、 多変量解析法によって解析される。 多変量解 折とは、 多数の統計的変量の、 相互依存関係や従属的関係の解析を目的とする 統計的手法を指し、 n個の対象のおのおのについて p種類の変数の値が観察さ れている形式を基本とする多変数データを実際的に解析するために種々の手法 がある。 多変量解析法としては、 限定するものではないが、 クラスター分析、 主成分分析、 判別分析などがある。
(1) クラスター分析
クラスター分析は、 一般的には、 多変量解析の分野において多数の観測対象 (サンプル) に対して、 特定の計算基準 (評価基準) により、 「類似するもの (又は類似しないもの) 」 を集めて分類する手法を意味する。 すなわち、 クラ スター分析は、 観測された多数のサンプルに対して、 類似 (非類似) するもの 同士を同一グループに単に 「分類」 するものをいう。
クラスター分析には階層的クラスター分析と非階層的クラスター分析とがあ る。 階層的クラスター分析は、 個々のサンプルをひとつのクラスターと考え、 それに近いものから併合していき、 最終的にひとつの集団にまとめる方法であ る。 これに対し、 非階層的クラスター分析は、 予め作成するクラスター数を指 示し、 その数を目標としてデータの中から特定の割合でランダムに選ばれたデ ータに対し階層的クラスター分析を行い、 与えられたクラスタ一数になつたと ころで、 次に、 先の分析では行われなかったデータを様々な形でできあがった クラスターに併合していく操作を行う方法である。 階層的クラスター分析は、 サンプルの類似性を樹形図 (デンドログラム) という形で可視的に理解するこ とができ、 また生物学の分野ではよく用いられる手法であることから、 本発明 においては階層的クラスター分析を行うことが好ましい。
( 1-1 ) 階層的クラスター分析
階層的クラスター分析では、 「類似」 するサンプル (クラスター) 同士を統 合し、 これを上位の階層のクラスターとする。 この 「類似」 の尺度として 「距 離」 の概念が使用されている。 n 個のサンプルについて p種の変量で観測した データ {Xij } ( i=l,2,' - ',n; 」' =1,2,· · ·,ρ )があるとすると、 { }は表 4のように なる。 表 4
Figure imgf000026_0001
上記与えられた観測データに基づいてクラスター分析をするには、 サンプル 間の類似度を表す 「距離行列」 を作成する。 距離としてはユークリッド距離、 重み付きユークリッド距離、 標準ユークリッド距離、 ピアソン積率相関係数等 を計算する。
ユークリッド距離はごく普通の距離であり、 個体 が p個の属性 (変量) で 計測されており、 j番目の属性の値を Xijとすると、 次式 III:
d(Xa,Xb) (Xaj-Xbj) (III)
Iゾ =1 により示される。
重み付きユークリッド距離は、 次式 IV:
Figure imgf000027_0001
により示される。
重み付きユークリッド距離は、 属性によって距離に対する影響度を変えたい ときに使用される距離である。 重み 'を小さくすれば、 属性〗の距離に対する 寄与は小さくなり (データの類似度が低い) 、 重みを大きくすれば、 距離に対 する寄与は大きくなる (データの類似度が高い) 。
標準ユークリッド距離は、 次式 V:
(Xaj-Xbj)
d(Xa,Xb) = ∑
ゾ =1
(V)
Sj
Figure imgf000027_0002
は /は、 7ゾから^ /までの平均を表す。 ) により示される。 この式は、 すべての属性を分散 = 1になるように規準化した ものであり、 属性の計測単位の違いなどにより、 意図しない 「重み」 がついて しまうことを避けるために用いられる。 距離を計算するときには、 原点の位置 がどこであっても同じであるため、 全ての属性を平均 = 0、 分散 = 1となるよ うに規準化して、 その値を用いてユークリ ッド距離を計算すればよい。
ケース 1 し , χ2, · · ·, Xi, · · · , xn) とケース 2 (yい y2, · · ·, · · ·, yn) との距離 r (ピアソン積率相関係数) は、 下記式 VI :
Figure imgf000028_0001
( X , Ϋは、 それぞれケース 1、 ケース 2の平均を表す。 ) に示される。
上記の距離の概念を基にして、 クラスターとクラスターとの間の距離、 又は クラスターと個体間との距離を計算し、 クラスターを統合する。 統合するため の分類方法は以下のものが挙げられる。
最近隣法:それぞれのクラスターに属する個体間の距離のうち、 最小値をク ラスター間の距離とする。 この方法は、 最も近接するサンプル間の距離が短い クラスターほど互いに類似するクラスターとしてクラスタ一統合する方法であ る。
最遠隣法: それぞれのクラスターに属する個体間の距離のうち、 最大値をク ラスター間の距離とする。 この方法は、 最も遠く離れているサンプル間の距離 が短いクラスターほど互いに類似するクラスターとしてクラスタ一統合する方 法である。
重心間距離法: それぞれのクラスターの重心間の距離を、 クラスタ一間の距 離とする。 この方法は、 含まれるサンプルの重心が近い関係にあるクラスター ほど類似するクラスタ一としてクラスタ一統合する方法である。 ウォード法: クラスタ一を融合させる際に、 クラスター内のユークリ ッド距 離の二乗の和を最小にする方法である。
平均距離:それぞれのクラスターに属する個体間の距離すベての平均値をク ラスター間の距離とする。
上記分類手法により、 「最短距離」 の関係にあるクラスターを類似するとし て、 これを統合して上位の階層のクラスターとする。 一つの階層のクラスター が作成された後は、 再びクラスタ一間の距離を計算し、 距離行列を作成し、 最 短距離にあるクラスターを求めてさらに一つ上の階層のクラスターを作成する c このようにして、 最終的に樹形図 (デンドログラム) を作成する。
樹形図において所定の階層で統合されたクラスター内のサンプルは、 何らか の類似関係により統合されたものである。 その類似関係にあるサンプルは、 共 通してある性質を有しているということができ、 その性質を明らかにすること によりそのクラスターの集団の特性を明らかにすることができる。 例えば、 癌 の悪性度を指標として癌が良性か悪性かに注目すると、 一のクラスターに属す る癌は良性であり、 他のクラスターに属する癌は悪性である、 という特性を明 らかにすることができる。
例えば、 分散分析によってエストロゲン受容体に着目して特定の遺伝子を選 択し、 クラスター分析を行うと、 乳癌の検体は、 (i ) ほとんどの症例がェスト ロゲン受容体陽性の群、 (ii )ほとんどの症例がエストロゲン受容体陰性の群、 ( ii i )エス トロゲン受容体陽性と陰性とが混在する群のように分類することが できる。 対象となる検体がどの群に属するかを調べることによって、 転移又は 再発が生じゃすいのか、 生じにくいのか等の悪性度を予測することが可能とな る。
また、 階層的クラスター分析により作成した樹形図の枝の間の信頼度を計算 するために、 限定するものではないが、 例えばブートストラップ (Bootstrap) 法を行ってもよい。 ブートストラップ法は、 無作為抽出された n個の標本のそ れぞれに 1 / nという確率を与える経験的確率分布を考え、 続いてこの確率分 布からの重複を許す n個の無作為標本を考えて、 この無作為再抽出標本から得 られた推定値をブートストラップ反復推定値 (bootstrap replicate) と呼び、 さらにこの無作為再抽出を B回反復して得られた B個のブ一トストラップ反復 推定値から、 もとの推定量に対する分散 (誤差) のブートストラップ推定値を 計算するものである。 ブートストラップ法は、 例えば確率分布の正規性を仮定 できなかったり、 複雑な統計量のためにその分布について十分に理解できない 場合に、 信頼性を評価するために行うことができる。 Bootstrap 法は当業者に 周知の統計学的手法であり、 そのソフトウェアもまた多数知られている。 本発 明に有用なソフトウェアとしては、 例えば GeneMaths™ (Applied Maths社) 、 Amos (E- works社) などが挙げられる。
なお、 クラスター分析によって得られた分類を使って、 新たな癌の検体を分 類するには、クラスタ一分析や判別分析などの多変量解析を用いる方法がある。 クラスタ一分析を用いる方法としては、 分類に使つた検体のデータと予測を行 う検体のデータとを同時にクラスター分析を行う方法や、 樹状図の分岐を逆に たどって分類する方法がある。 また、 判定基準が単純な場合は、 算術計算で行 うことができる。
(1-2) 非階層的クラスター分析
非階層的クラスター分析としては、 自己組織化マップ (S0M) による方法、 K- means法などが知られている。
自己組織化マップによる方法は、 k次元に配置したノードのそれぞれに癌を 分類するというものである。 自己組織化マップは、 手法はクラスター分析と類 似するが、 操作ごとにすべての癌について再分類される点が特徴である。 自己 組織化マップによる方法は、 階層的クラスター分析と同様、 発現パターンの分 類及び癌の予測の 2段階に用いることができる。 また、 上記階層的クラスター 分析と組み合わせて S0Mを行うことによって、 樹形図内のサンプルやクラスタ 一同士の順番を定めることができる (Chu, S. et al. , Science 282 , 699 , 1998; Tamayo , P., et al., Proc. Natl. Acad. Sci. USA 96, 2907 , 1999) 。
K - means 法は、 k個の初期クラスター中心を適当に決め、 続いて全てのデー タを最も近いクラスター中心のクラスターに分類し、 それにより新たにできた クラスターの重心をクラスター中心と定め、 その新たなクラスター中心が全て 前のものと同じであれば分類を終了するというものである。 K-means 法は、 計 算効率がよく、 短時間にクラスタ一分析結果を得ることができる。 上述したクラスター分析は当業者に周知の統計学的手法であり、 クラスター 分析を行うためのソフトウエアもまた多数知られている。 本発明に有用なソフ トウエアとしては、 例えば GeneMaths™ (Applied Maths社) 、 SAS/STATソフト ウェア (SAS Institute社) 、 Genesight™ Version 2. 0 (Biodiscovery社) な どが挙げられる。
(2) 主成分分析
主成分分析とは、 多変量の計測値から変量間の相関を無くし、 しかもより低 次元の変量によって元の計測値の特性を記述する手法である。 本発明において は、 遺伝子発現情報に含まれている種々の原因によるノイズを除き、 遺伝子発 現の変化のみを抽出するために主成分分析を用いる。 それにより、 遺伝子発現 情報に関して統計学的に有意な結果を得ることができる。
例えば、 変数が x、 y、 wの 3個である場合の主成分分析を考えてみる。 主成 分は z = ax + by + cw というように変数の一次結合 (重みつきの和) として表さ れ、 個体毎の (x, y , w) の値を代入することにより主成分値が求められる。 通 常は、 各変数は平均 0、 標準偏差 1に標準化され、 一次結合の重みはその変数 と主成分との相関係数 (例えば、 aは Xと zの相関係数) になっている。
主成分分析を具体的に説明するため、 前記表 4に示すように、 p種の変数か ら構成されている n個のデータ群に対して主成分分析を行い、 第 1主成分得点 及び第 2主成分得点及び第 3主成分得点を算出する方法に関して例示する。 主成分分析を行う際には、 まずデータの備える特徴としての情報量の損失が 最小となるように、 第 1主成分 f を決定する。 具体的には、 表 4に示すデータ から、 f の分散が最大となるように、第 1主成分 f の固有べクトル A = (al , a2, a3 · · · , ap) の al、 a2、 a3 . . '及び apの値を決定する。 なお、 al、 a2、 a3 · · ' apは、 al 2 +a22 +a32 + · · · ap 2 = 1を満たすように算出される。 このとき、 各データの備える情報量である第 1主成分得点 fl〜: fnは、 次式 VI I で表される : fl = al-xll + a2-xl2 + a3-xl3
f2 = al-x21+a2-x22 + a3-x23
• (VII)
fi = al-xil + a2-xi2 + a3-xi3
in=al ·χη1 + a2 · xn2 + a3 ·χη3 各 fiの値が異なるほど各データの特徴がはっきりと理解できるため、 f の分 散が最大になれば、最も多くの情報量を第 1主成分 f で吸収することができる。 第 2主成分も同様に、 第 1主成分では吸収できない情報量に関して、 情報量 の損失が最小となるように、第 2主成分 gの固有べクトル B = (bl, b2, b3 ···, bp) の bl、 b2、 b3 · · '及び bpの値が算出される。 i番目のデータの第 2主 成分得点を giとすると、 gi = bl'xil + b2'xi2 + b3'xi3と表すことができる。 第 3主成分も同様に、 第 3主成分 hの固有べク トル C= (cl, c2, c3 · · · , cp) の cl、 c2、 c3 · · '及び cpの値が算出され、 i番目のデータの第 3主成 分得点を hiとすると、 hi = cl · xil + c2 · xi2 + c3 · xi3と表すことができる。 具体的には、 表 4に示すデータから、 分散 ·共分散行列を求め、 分散が最大 化する固有値及び固有べクトルから、 各主成分が計算される。
上述した主成分分析は当業者に周知の統計学的手法であり、 主成分分析を行 うためのソフトウェアもまた多数知られている。 本発明に有用なソフトウエア としては、例えば GeneMaths™ (Applied Maths社)、 SAS/STATソフトウェア (SAS Institute社) などが挙げられる。
(3) 判別分析
判別分析とは、 ある個体が複数の群や集団のいずれに属するかを多変量デー タに基づいて統計的に判別すると共に、 その判別方式の妥当性を分析する解析 法である。 判別の基本的な考え方は、 判別したい個体と各群との距離を定義し て、 その距離で最も近い群に属すると推定することである。 参照する特性が 1 つの場合には、 統計的な距離は、 次式 VI I I:
(個体測定値一群平均値) / (群の標準偏差) (VIII) で測り、 一般的にはこれを拡張したマハラノビス距離を用いることが多い。 本発明では、 クラスター分析の結果得られた分類を元にして、 この分類を遺 伝子の発現パターンから判別する判別関数を作成する。 この判別関数を用いて、 予測したい症例のそれぞれについて、 どのグループに属するか判別を行う。 一方、多変量分析の変数を特定の遺伝子の発現の有無又は強弱に着目すると、 ある群は特定の遺伝子が高く発現している集団であり、 他の群は当該特定の遺 伝子が低く発現している集団のように分類することができる。特定の遺伝子は、 上記全体変動と群内変動との比率に応じて適宜選択することができる。 クラス ター分析の結果、 対象となる検体がどの群に属するかを調べることによって、 転移又は再発が生じやすいのか、 生じにくいのか等を予測することが可能とな る。
4 . 癌の予測
上記の通り得られた多変量分析結果から癌の状態を予測する。 そのために、 まず癌の状態に特徴的な発現パターンを決定する。 癌の状態とは、 癌の罹患の 有無又はその進行度を意味する。例えば(a)癌に罹患しているか否か(癌の有無)、 (b)罹患しているとすればその悪性度はどの程度進行しているのか (癌の悪性 度) 、 (c)転移はしているのか、 (d)再発するのか、 などを癌の状態として例示 することができる。 ここで、 悪性度を判断する指標としては、 早期再発、 死亡 までの時間、 腫瘍径などが挙げられる。
上記遺伝子の発現結果を多変量解析すると、 リンパ節転移や早期再発と関連 のある群とそうでない群との分類結果を得ることができる。 リンパ節転移や再 発は、 予後と癌の悪性度に大きく関係するため、 予後を予測する上で重要な因 子である。 そして、 グループごとのホルモン受容体、 リンパ節転移、 再発の出 現頻度は統計学的に有意に異なる。従って、新しい症例について表 1の 1〜27、 表 2の 28〜: 153、 表 3の 154~289 に示す配列を有する遺伝子(好ましくは表 1 の 1〜21 に示す配列、 表 2の 30、 33、 34、 36〜42、 44〜48、 54〜66、 68、 69、 71、 74、 80、 82、 83、 85、 93、 100〜103、 112、 115、 116、 118〜: 121 に示す配 列、 及び/又は表 3の 155、 162、 163、 167〜169、 171、 172、 174、 175、 177〜 180、 188、 190、 193、 198、 211、 222、 242〜253、 255〜257、 259〜261、 263、 265に示す配列を有する遺伝子)、 及び場合により癌の分類に有用と考えられる 他の遺伝子の発現量を「 1 .遺伝子発現の定量」の項に記載の方法で調べたり、 あるいはその遺伝子によりコードされるタンパク質の産物を後述する 「6 . 抗 体の作製及び検出」 の項に記載の方法で定量して、 検体の発現パターンが既に 得られた癌の分類のどのグループに属するかを決定すれば、 予後を予測するこ とができる。
5 . 癌の状態の同定システム
本発明の同定システムは、(a )被検サンプルから単離された遺伝子の発現量を 解析する手段と、(b )得られる解析結果を指標として癌の状態を予測する手段と を含む。 上記(a)の解析手段は、 ある原発巣由来の癌細胞又は癌組織及び正常組 織における複数の遺伝子について、 それぞれの遺伝子の発現量をそれぞれ検出 する手段 ( 「検出エンジン」 ともいう) 、 並びに得られる検出値を分析する手 段 ( 「分析エンジン」 ともいう) により構成される。
( 1 ) 遺伝子発現の検出エンジン
本発明において、 遺伝子発現の検出は、 前記の通り得られた検出データをデ ジタル化し、 そのデジタル情報を使用することができる。
( 2) 分析エンジン
分析エンジンは、 検出エンジンにより得られたデータ (遺伝子発現量) に基 づいて、 多変量解析処理、 例えばクラスター分析処理を行う手段である。 この 分析処理によれば、 発現量が高い遺伝子の群及び発現量が低い遺伝子の群に分 類することができる。 また、 この手段により、 例えばエストロゲン受容体の発 現が、 陽性の群、 陰性の群、 及び陽性と陰性との混合群に分類することができ る。
ここで、 本発明の予測システムの構成例を示すブロック図を示す (図 3 ) 。 図 3に示す予測システムは、 CPU301、 R0M302、 RAM303, 入力部 304、 送信/受 信部 305、 出力部 306、 ハードディスク ドライブ(HDD) 307及び CD- ROM ドライブ
308を備える。
CPU301は、 ROM302、 RAM303又は HDD307に記憶されているプログラムに従つ て、 癌の状態の予測システム全体を制御し、 後述する予測処理を実行する。 R0M302は、 予測システムの動作に必要な処理を命令するプログラム等を格納す る。 RAM303は、 予測処理を実行する上で必要なデータを一時的に格納する。 入 力部 304は、 キーボードやマウス等であり、 予測処理を実行する上で必要な条 件を入力するとき等に操作される。 送信/受信部 305は、 CPU301の命令に基づ いて、 通信回線を介してデータベース 310等との間でデータの送受信処理を実 行する。 出力部 306は、 入力部 304から入力された各種条件、 発現遺伝子の検 出データ等を、 CPU301からの命令に基づいて表示処理を実行する.。 なお、 出力 部 306 としては、 コンピュータのディスプレイ又はプリンターなどが例示され る。 HDD307は、細胞又は組織における各種遺伝子の発現パタ一ン情報を格納し、 CPU301 の命令に基づいて、 格納しているプログラム又はデータ等を読み出し、 例えば RAM303に格納する。 CD- ROM ドライブ 308は、 CPU301の指示に基づいて、 CD-R0M309 に格納されている予測プログラムから、 プログラム又はデータ等を 読み出し、 例えば RAM303に格納する。
CPU301は、 入力部などから受け取ったデータを出力部 306に供給するととも に、 データベースから受け取ったデータに基づいて癌の転移又は再発の予測を 実行する。 データベースとは、 前記の通り得られた遺伝子の発現量 (絶対量及 び相対量の両者を含む) の情報を蓄積したものをいう。
図 4及び 5は、 遺伝子の発現パターンを解析した場合において、 図 3に示す プログラムによる癌の状態の予測処理を行つたときの例を示すフローチャート である。
図 4において、 多変量解析装置としてクラスター分析装置 401 を例に説明す る。 クラスター分析装置 401 は、 上記予測処理を行うためのクラスター生成を 行う。 まず、 外部データベース検索入力手段 402により、 遺伝子発現データを 入力する。 外部データベース検索入力手段 402は、 好ましくは所定のキーヮー ドにより、 既存の種々の外部データベースにアクセスして、 多変量解析 (例え ばクラスター分析) をしょうとするサンプルデータを収集する機能を有するよ うにする。 データ入力が確定するまでは、 上記データの入力作業を繰り返す。 なお、 データの入力により、 それぞれの組織又は細胞から得られた情報は、 サ ンプルデータ記憶手段 403に記憶され、 クラスター分析に供され、 又はデータ ベースに登録されるものとする。 ·
次に、 データ最適化手段 404は、 上記サンプルデータ記憶手段 403からサン プルデータを入力し、 データを多変量解析のために最適化する。 データ最適化 には、 中央値による標準化、 Z-スコアによる標準化、 最大値と最小値の設定、 対数変換などの方法の中から使用するサンプルに最適なものを使って行う。 変量一覧出力手段 405は、 クラスター分析等が行われるサンプルデータの変 量を一覧表示する。
次に、ユーザーは、変量一覧出力手段 405によつて一覧表示された変量から、 変量選択手段 406の機能により変量を選択する。
変量一覧出力手段 405による変量の選択は、 単数又は複数の特定の変量を自 由に選択できるようにする。 通常は、 変量の候補は多数であるため、 ユーザー はそれら変量から任意のものを選択することができるようにする。
ユーザーにより特定の変量が選択されると、 この情報はサンプルデータとと もに評価用サンプルデータファイル生成手段 407に入力され、 評価用サンプル データファイル生成手段 407により評価用サンプルのデータファイルが生成さ れる。
次に、 上記評価用クラスターのデータファイルは、 評価手段 408に送られ、 評価手段 408によってクラスター分離度が評価される。 クラスター分離度を評 価する評価式は、 種々の形で定義することができる。 上記評価手段 408によるクラスター分離度の評価の結果は、 クラスター分類 手段 409に渡される。 クラスター分類手段 409は、 評価手段 408による評価結 果を入力し、 評価条件設定手段 412に設定されている評価条件を参照し、 最適 なクラスター分類を決定し、 クラスター分類の継続停止条件が設定されている 場合には、 クラスター分類の継続と停止を判断する。 クラスタ一分類の継続停 止条件が設定されていない場合には、 クラスター分類手段 409はユーザーにク ラスター分類の継続と停止を判断させる。 クラスター分類手段 409は、 クラス ター分類の継続を決定した場合は、 その回の処理で得られた最適なクラスター 分類と、 クラスター分類を継続する旨の信号を出力する。 このクラスタ一分類 を継続する旨の信号は、 後に樹形図編集手段 411の処理後に変量一覧出力手段 405の処理に戻す命令となる。
—方、 クラスター分類手段 409がクラスター分類の停止を決定した場合は、 その段階で最適なクラスター分類を特定し、 クラスター分類を中止する旨の信 号を出力する。 このクラスター分類を中止する旨の信号は、 後に樹形図編集手 段 411の処理後にクラスター分析の処理を終了する命令となる。
クラスター分類手段 409の処理が終了すると、 次に、 樹形図生成手段 410の 処理が開始される。 樹形図生成手段 410は、 クラスター分類手段 409によって 決定されたクラスター分類を入力し、 当該クラスター分類に基づく榭形図と、 各クラスター分類に係る変量の属性とを表示する。 樹形図生成手段 410によつ てクラスター分類樹形図が生成されることにより、 ユーザーは現在のクラスタ —分類の状態を視覚的に把握できる。 樹形図生成手段 410においては、 樹形図 の作成に合わせて、 その作成のもとになつた遺伝子発現量を視覚的に把握する ため、 例えば色や模様を付したセルを表示させる。 次に、 樹形図編集手段 411 は、 ユーザーに榭形図生成手段 410によって生成されたクラスター分類榭形図 に対して表示装置画面上でクラスター分類の追加、変更、削除の編集をさせる。 クラスター分類の追加、 変更、 削除は、 所定のクラスターを指定して、 その下 位にさらに分類すべきクラスターの変量を指定したり、 複数のクラスターを統 合したり、 あるいは、 所定のクラスター分類の枝を削除するなど、 画面上でュ 一ザ一が処理命令入力装置を用いて行う。 樹形図編集手段 411 は、 画面上のュ 一ザ一の編集作業を支援する種々のツールを提供するとともに、 ユーザーによ るクラスター分類の編集の意味を読み取り、 それに応じて各クラスターのデー タファイルを自動修正する。 また、 好ましくは樹形図編集手段 411は、 クラス ター分類手段 409によるクラスター分類の継続停止の判断を提示し、 ユーザー に最終判断を入力させる。
この結果、 クラスター分類の繰返し処理を継続する場合には、 処理は変量一 覧出力手段 405に戻され、 上述した変量一覧出力手段 405から樹形図編集手段 411までの処理が繰り返される。
以上のように解析されたデータから、 被検対象の癌の検体がどのクラスター に分類されたかを調べ、 癌の転移又は再発の可能性などの状態を判断すること ができる。
クラスター分析の結果を予測する装置を図 5に示す。 予測装置 501は、 外部 データベース検索入力手段 502、 サンプルデータ記憶手段 503、 データ最適化手 段 504、 変量一覧出力手段 505、 変量選択手段 506及び評価用サンプルデータフ アイル生成手段 507を経て得られるデータファイルと、 図 4のクラスター分析 装置により出力されたクラスター 513 を経て設定される評価条件とが、 評価手 段 508において統合できる処理手段となっている。 外部データベース入力手段 502から評価用サンプルデータファイル生成手段 507までの手段は、 図 4のク ラスター分析装置と同様の処理を行う手段である。 図 4の出力であるクラスタ 一に基づいて予測処理を行うときは、 クラスター 513 を評価条件設定手段 512 に入力し、 評価手段 508、 予測手段 509、 予測結果生成手段 510及び予測結果編 集手段 511の処理を行う。 あるサンプルデータを、 図 4の出力であるクラスタ 一に含めて予測したい場合は、 外部データベース検索入力手段 502から評価用 サンプルデータファイル生成手段 507までの処理を行い、 評価手段 508におい て評価条件設定手段 512からのクラスターデータと統合させる。
予測手段 509の処理が終了すると、 次に、 予測結果生成手段 510の処理が開 始される。 予測結果生成手段 510は、 予測手段 509によって決定された予測結 果を入力し、 当該予測結果に基づく図と、 各クラスター分類に係る変量の属性 とを表示する。 予測結果生成手段 510によって予測結果図が生成されることに より、 ユーザーは予測状態を視覚的に把握できる。 予測結果生成手段 510にお いては、 予測結果図の作成に合わせて、 その作成のもとになつた遺伝子発現量 を視覚的に把握するため、 例えば文字で表示したり、 色や模様を付したセルを 表示させる。 次に、予測結果編集手段 511は、 ユーザーに予測結果生成手段 510 によって生成された予測結果図に対して表示装置画面上でクラスター分類の追 加、 変更、 削除の編集をさせる。 予測結果編集手段 511は、 画面上のユーザー の編集作業を支援する種々のツールを提供するとともに、 ユーザーによる予測 結果の編集の意味を読み取り、 それに応じて各予測結果のデータファイルを自 動修正する。 また、 好ましくは予測結果編集手段 511は、 予測手段 509による 予測の継続停止の判断を提示し、 ユーザーに最終判断を入力させる。
この結果、 予測の繰返し処理を継続する場合には、 処理は変量一覧出力手段 505に戻され、 上述した変量一覧出力手段 505から予測結果編集手段 511まで の処理が繰り返される。
100〜500症例、 10個以上の遺伝子について発現量を測定しておいて、 予め、 これらのデータを母集団データとして蓄積し、測定対象となる遺伝子について、 上記親データとともにクラスター分析を行うと、 測定対象の遺伝子は、 いずれ かのグループに属するように分類される。 分類されたグループが、 癌の転移又 は再発の確率が低いものであった場合は、 そのクラスター分析の対象となった 個体における癌の転移又は再発は生じ難いと予測することができる。
本発明においては、 癌の転移又は再発の予測処理手段プログラムのほか、 そ のプログラムを記録した記録媒体も提供する。 記録媒体はコンピュータ読み取 り可能であり、 フロッピーディスク (FD) 、 磁気光ディスク (MO) 、 CD-ROM, ハードディスク、 廳、 RAM等が含まれる。
6 . 抗体の作製及び検出
本発明においては、 遺伝子の発現量を測定するために、 その遺伝子によりコ ードされるタンパク質の産物を定量することができる。 タンパク質産物は、 当 該タンパク質に対する抗体を用いて免疫学的に定量することができる。 以下に 抗体の作製方法とその定量に関して説明する。 (1) タンパク質の発現 ·精製
( i ) 発現ベクターの作製
タンパク質発現用組換えベクターは、 上記遺伝子を適当なベクターに連結す ることにより得ることができ、 形質転換体は、 本発明の組換えベクターを、 目 的遺伝子が発現し得るように宿主中に導入することにより得ることができる。 ベクターには、 宿主微生物で自律的に増殖し得るファージ又はプラスミ ドが 使用される。 プラスミ ド DNAとしては、 大腸菌、 枯草菌又は酵母由来のプラス ミ ドなどが挙げられ、 ファージ DNA としては λファージが挙げられる。 さらに、 レトロウィルス又はワクシニアウィルスなどの動物ウィルス、 パキュ口ウィル スなどの昆虫ウィルスベクターを用いることもできる。
ベクターに本発明の遺伝子を揷入するには、 まず、 精製された DNAを適当な 制限酵素で切断し、 適当なベクター DNAの制限酵素部位又はマルチクローニン グサイトに挿入してベクターに連結する方法などが採用される。
DNA断片とベクター断片とを連結させるには、公知の DNAリガーゼを用いる。 そして、 DNA 断片とベクター断片とをアニーリングさせた後連結させ、 組換え ベクターを作製する。
形質転換に使用する宿主としては、 目的の遺伝子を発現できるものであれば 特に限定されるものではない。 例えば、 細菌 (大腸菌、 枯草菌等) 、 酵母、 動 物細胞 (COS細胞、 CH0細胞等) 、 昆虫細胞が挙げられる。
宿主への遺伝子の導入方法は公知であり、 任意の方法 (例えばカルシウムィ オンを用いる方法、 エレク トロポレーション法、 スフエロプラスト法、 酢酸リ チウム法、 リン酸カルシウム法、 リポフエクション法等) が挙げられる。
( ii ) タンパク質の調製
本発明において、 上記遺伝子の発現タンパク質は、 目的遺伝子を保有する前 記形質転換体を培養し、その培養物から採取することにより得ることができる。 「培養物」 とは、 (a)培養上清、 (b)培養細胞若しくは培養菌体又はその破砕物 のいずれをも意味するものである。 本発明の形質転換体を培地に培養する方法 は、 宿主の培養に用いられる通常の方法に従って行われる。 培養は、 通常、 振 盪培養又は通気攪拌培養などを行う。 培養中は必要に応じてアンピシリンゃテ トラサイクリン等の抗生物質を培地に添加してもよい。
培養後、 目的タンパク質が菌体内又は細胞内に生産される場合には、 菌体又 は細胞を破砕することによりタンパク質を抽出する。 また、 目的タンパク質が 菌体外又は細胞外に生産される場合には、 培養液をそのまま使用するか、 遠心 分離等により菌体又は細胞を除去する。 その後、 タンパク質の単離精製に用い られる一般的な生化学的方法、 例えば硫酸アンモニゥム沈殿、 ゲルクロマトグ ラフィー、 イオン交換ク口マトグラフィー、 ァフィ二ティーク口マトグラフィ 一等を単独で又は適宜組み合わせて用いることにより、 前記培養物中から目的 のタンパク質を単離精製することができる。 目的のタンパク質が得られたか否 かは、 SDS-ポリアクリルアミ ドゲル電気泳動等により確認することができる。 なお、 本発明においては、 精製されたタンパク質全体のみならず、 その部分 断片も使用することができる。 「部分断片」 という用語は、 表 1 〜 3の 1 〜289 に示すいずれかの遺伝子、 及び場合により上記同等の機能を有する他の遺伝子 によりコードされるタンパク質のアミノ酸配列から選択されるアミノ酸残基を 含む限り、 特に長さに関係なく使用する。
部分断片は、 ぺプチド断片として通常のぺプチド合成等により調製すること ができる。 ペプチドの化学合成は常法手段を採用することができる。 例えば、 アジド法、 酸クロライ ド法、 酸無水物法、 混合酸無水物法、 DCC 法、 活性エス テル法、 カルボイミダゾール法、 酸化還元法等が挙げられる。 また、 その合成 は、 固相合成法及び液相合成法のいずれでもよい。 なお、 本発明においては、 市販の自動べプチド合成装置 (例えば島津製作所社の自動べプチド合成装置 PSSM-8) を使用して合成することもできる。
(2) 抗体の作製
本発明において 「抗体」 とは、 抗原である前記タンパク質又はその部分断片 に結合し得る抗体分子全体又はその断片 (例えば、 Fab又は F(ab, )2断片)を意 味し、 ポリクローナル抗体であってもモノクローナル抗体であってもよい。 本 発明において、 抗体 (ポリクローナル抗体及びモノクローナル抗体) は例えば 以下の手法により製造することができる。 ( i) モノクローナル抗体
前記のようにして作製したタンパク質又はその断片を抗原として、哺乳動物、 例えばラット、 マウス、 ゥサギなどに投与する。 必要に応じてフロイント完全 アジュパント (FCA)、 フロイント不完全アジュパント (FIA)等のアジュパントを 用いることもできる。 免疫は、 主として静脈内、 皮下、 腹腔内に注入すること により行われる。また、免疫の間隔は特に限定されず、数日から数週間間隔で、 1〜10回の免疫を行う。 そして、 最終の免疫日から 1〜60日後に抗体産生細胞 を採集する。 抗体産生細胞としては、 脾臓細胞、 リンパ節細胞、 末梢血細胞等 が挙げられる。
ハイプリ ドーマを得るため、 抗体産生細胞とミエローマ細胞との細胞融合を 行う。 抗体産生細胞と融合させるミエローマ細胞として、 一般に入手可能な株 化細胞を使用することができる。使用する細胞株としては、薬剤選択性を有し、 未融合の状態では HAT選択培地(ヒポキサンチン、 アミノプテリン、 チミジンを 含む)で生存できず、抗体産生細胞と融合した状態でのみ生存できる性質を有す るものが好ましい。 ミエローマ細胞としては、 例えば P3X63- Ag. 8. U1(P3U1)、 NS-Iなどのマウスミエローマ細胞株が挙げられる。
次に、上記ミエローマ細胞と抗体産生細胞とを細胞融合させる。細胞融合は、 血清を含まない DMEM、 RPMI- 1640培地などの動物細胞培養用培地中で、 抗体産 生細胞とミエ口一マ細胞とを混合し (抗体産生細胞とミエ口一マ細胞との細胞 比 5: 1が好ましい) 、 細胞融合促進剤 (例えばポリエチレングリコ一ル等) の 存在のもとで融合反応を行う。 また、 エレク ト口ポレーシヨンを利用した市販 の細胞融合装置を用いて細胞融合させることもできる。
細胞融合処理後の細胞から目的とするハイプリ ドーマを選別する。 例えば、 細胞懸濁液をゥシ胎児血清含有 RPMI- 1640培地などで適当に希釈後、 マイクロ タイタープレート上にまく。 各ゥエルに選択培地を加え、 以後適当に選択培地 を交換して培養を行う。 その結果、 選択培地で培養開始後、 14日前後から生育 してくる細胞をハイプリ ドーマとして得ることができる。
次に、 増殖してきたハイプリ ドーマの培養上清中に、 目的タンパク質に反応 する抗体が存在するか否かをスクリ一ユングする。 ハイブリ ドーマのスクリー ニングは、 通常の方法に従えばよく、 例えば酵素免疫測定法、 放射性免疫測定 法等を採用することができる。 融合細胞のクローニングは、 限界希釈法等によ り行い、 目的のモノクローナル抗体を産生するハイプリ ドーマを樹立する。 樹立したハイプリ ドーマからモノクローナル抗体を採取する方法として、 通 常の細胞培養法又は腹水形成法等を採用することができる。
上記抗体の採取方法において抗体の精製が必要とされる場合は、 硫安塩析法、 ィオン交換ク口マトグラフィー、 ゲル濾過、 ァフィ二ティーク口マトグラフィ 一などの公知の方法を適宜選択して、 又はこれらを組み合わせることにより精 製することができる。
( ii )ポリクローナル抗体の作製
ポリクローナル抗体を作製する場合は、 前記と同様に動物を免疫し、 最終の 免疫 日 か ら 6 〜 60 日 後に、 酵素免疫測定法(ELISA( enzume- linked immunosorbent assy)又は EIA enzyme immunoassay) )、 放射性免疫測疋法 (RIA; radio immuno assay)等で抗体価を測定し、 最大の抗体価を示した日に採血し、 抗血清を得る。 その後は、 抗血清中のポリクローナル抗体の反応性を ELISA法 などで測定する。
(3) 検出
タンパク質は、 例えばウェスタンブロッティング、 ラジオィムノアツセィ、 ELISA などの周知技術により検出することができる。 タンパク質の検出にあた り、 市販のキットを使用することもできる。
7 . 本発明の方法から得られた結果に基づく ドラッグデザイン
一般には、 疾患の発症に関連する標的分子の活性部位を特異的に不活性化す る化合物をデザインしたり、 不活性化されたタンパクの高次構造を変化させる ことによってその機能を回復させるような化合物をスクリ一ユングするシステ ムが検討されている。 同じ診断名又は類似の症状を有する疾患であっても、 そ の背景となる疾患を起こす仕組みの違いが分子レベルで明らかとなれば、 それ らの違いを考慮に入れた薬物の使い分けなど、 医療の個別化 (オーダーメイ ド 医療) を行うことができる。 癌の状態 (悪性度等) は、 その癌自体の遺伝子だけではなく、 その他の遺伝 子も関係することにより定まることが知られており、 これらの遺伝子の発現は 個人により多様である。 本発明においても、 遺伝子発現パターンは、 癌自体の 遺伝子のほか癌とは無関係の遺伝子も関与している。 本発明は、 そのような癌 の状態との関連性を示す遺伝子の発現結果を利用して、 その中の特定の遺伝子 をターゲティングし、 癌の治療に有用な薬物を設計することにより、 癌の悪性 度等を低減させ、 癌の治療を行うものである。 すなわち、 本発明の方法により 予測された癌の状態 (癌の有無、 癌の悪性度、 癌の転移の有無又は癌の再発の 有無) がハイリスクであると判断された検体を、 ローリスクであると予測され る発現パターンを有するように遺伝子発現を調節することが可能である。 例え ば、 悪性度が高いときに現れる発現パターンを有していた遺伝子の発現を、 悪 性度が低いときに現れる発現パターンとなるように遺伝子の発現を抑制又は増 大できる薬物を設計する。 ここで、 「ハイリスク」 とは、 病理学上癌の悪性度が 高い状態、 1箇所以上に転移が生じている状態、 複数種の癌が併発している状 態、 又は癌が治癒しても 36箇月以内には再発してしまう状態を意味し、 これら の状態の少なくとも 1つの状態が現れるものをいう。 「ローリスク」 とは、 病理 学上癌の悪性度が高くない状態、 転移がない状態、 又は 5年以上は再発しない 状態を意味する。これらの条件は一例であり、治療法の改良により変更しうる。 その結果、癌の転移 ·再発の可能性を低減させ、悪性度は改善される。 また、 悪性度の高い癌に対し効果的に予防し (転移予防又は再発予防を含む)、 又は治 療することができる。
まず、 発現を調節すべきターゲット遺伝子を選択する。 本発明の方法により 悪性度が高いと予測される遺伝子の発現パターンの結果から、 発現パターンの 高い遺伝子群と発現パターンの低い遺伝子群とに分類し、 その分類された各遺 伝子をターゲットとする。 ターゲットとする遺伝子は、 1つ以上選択すること ができ、 クラスター分析に使用した複数の遺伝子をターゲットとしてもよい。 ターゲット遺伝子を決定した後、 その遺伝子の発現又は遺伝子産物の活性を 調節するような医薬を設計する。 本明細書において、 「遺伝子の発現又は遺伝 子産物の活性の調節」 とは、遺伝子発現又は遺伝子産物の活性を、 阻止、低減、 増大又は促進することを意味する。
遺伝子の発現を抑制することを目的とする場合は、 該遺伝子の発現を直接抑 制する医薬を設計する。一般的な方法としては、アンチセンス法が挙げられる。 あるいは、 遺伝子発現の産物 (タンパク質) の機能を抑制するように医薬を設 計することも可能である。 この場合は、 当該タンパク質に対する抗体を使用す ることができる。 また、 当該タンパク質の活性の阻害剤を使用してもよい。 アンチセンス法は、 ターゲット遺伝子の配列にアンチセンス配列を特異的に 結合させて、ターゲット遺伝子の発現を抑えるというものである。好ましくは、 高発現する遺伝子の発現を抑制する。 「高発現す 」 とは、平均値より高い mRM の細胞内濃度を意味する。 アンチセンス配列は、 ターゲット配列の少なくとも 一部分に特異的にハイブリダィズすることができる核酸配列である。 アンチセ ンス配列は、 細胞 mRNA又はゲノム DNAに結合して翻訳又は転写をプロックし、 ターゲット遺伝子の発現を阻害するものである。 アンチセンス配列は、 ターグ ット遺伝子の翻訳又は転写をブロックする限り任意の核酸物質を使用すること ができる。 例えば、 DNA、 RNA、 又は任意の核酸擬似物が挙げられる。 従って、 表 1〜3の 1〜289 に示すいずれかの塩基配列を有する遺伝子、 及び場合によ り同等の機能を有する他の遺伝子のうち、 悪性度の高い癌検体に発現する遺伝 子を選択し、 その一部の配列に相補的となるようにアンチセンス核酸 (オリゴ ヌクレオチド) 配列を設計する。 本発明において発現を抑制するターゲット遺 伝子としては、 そのうち表 1の 4、 7及び 20、表 2の 28、 29、 31、 32、 35、 43、 49〜53、 67、 70、 72、 73、 75〜79、 81、 84、 86〜92、 94〜99、 104-111, 113、 114、 117及び 122〜153、 並びに表 3の 155、 162、 163、 167〜169、 171、 172、 174、 175、 177〜; 180、 188、 190、 193、 198、 211、 222、 242〜 253、 255〜257、 259〜261、 263及び 265 に示す配列を有する遺伝子が挙げられ、 これらの遺伝 子の 1つ又は複数を使用することが好ましい。
設計すべきァンチセンス核酸配列の長さは、 目的遺伝子の発現を抑制し得る 限り特に限定されるものではないが、 例えば 10〜50塩基、 好ましくは 15〜25 塩基である。 オリゴヌクレオチドは、 公知手法により容易に化学合成すること ができる。 .配列は、発現ベクターを用いた種々の投与方法で目的の場所(癌 細胞等) に到達させることができる。 投与は、 公知の任意の手法、 例えばキメ ラウィルス若しくはコロイ ド分散系などの組換え発現ベクターを用いた手法、 又はレト口ウィルスベクター若しくはアデノ随伴ウィルスベクターを含む種々 のウィルスベクタ一を用いた手法により行うことができる。
本発明の目的のために、 アンチセンスオリゴヌクレオチドの分子類似体も使 用することができる。 分子類似体は、 高安定性、 分布特異性などを有するもの である。 分子類似体には、 化学的に反応性である基、 例えば鉄結合エチレンジ ァミン四酢酸をアンチセンスオリゴヌクレオチドに結合させたものが挙げられ る。
アンチセンス遺伝子治療に使用し得るベクターには、 アデノウィルス、 ヘル ぺスウイ/レス、 ヮクシニアウィルス、 レトロウィルスなどの RNAウィルスが含 まれるが、 これらに限定されるものではない。
目的の組織又は細胞にアンチセンス配列を投与するために使用し得る他の遺 伝子送達機構には、 コロイ ド分散系、 リボソーム誘導系、 人工ウィルスェンべ ロープなどが含まれる。 例えば、 送達系は巨大分子複合体、 ナノカプセル、 ミ クロスフェア、 ビーズ、 水中油型乳剤、 ミセル、 混合ミセル、 リポソ一ム等を 利用することができる。
本発明のドラッグデザィンにおいては、 本発明の癌の予測方法により得られ た結果から決定されたターゲット遺伝子の配列と (好ましくは特異的に) 結合 することができるアンチセンスオリゴヌクレオチドを、 治療上有効な量で投与 し、 該遺伝子の mRNAの翻訳を阻止するものである。 例えば、 アンチセンスオリ ゴヌクレオチドの投与形態としては、 通常の静脈内、 動脈内等の全身投与のほ 力、 癌組織に局所投与を行うことができる。 さらに、 カテーテル技術、 外科的 手術等と組み合わせた投与形態を採用することもできる。
アンチセンスオリ ゴヌクレオチドの投与量は、年齢、性別、症状、投与経路、 投与回数、 剤型によって異なるが、 当技術分野で慣例的な手法を用いて適宜決 定することができる。
抗体を使用する場合は、 ポリクローナル抗体であるとモノクローナル抗体で あるとを問わない。また、抗体断片を使用することができる。抗体は、前記「 5 . 抗体の作製及び検出」 の項に記載の方法に基づいて調製することができる。 抗体の投与量は、 年齢、 性別、 症状、 投与経路、 投与回数、 剤型によって異 なるが、 当技術分野で慣例的な手法を用いて適宜決定することができる。
なお、 抗体を投与 (非経口投与) する場合は、 静脈内注射 (点滴を含む) 、 筋肉内注射、 腹腔内注射、 皮下注射、 坐剤などの製剤形態を選択することがで き、 注射用製剤の場合は単位投与量アンプル又は多投与量容器の状態で提供さ れる。
一方、 遺伝子の発現を増大させることを目的とする場合は、 該遺伝子の発現 を直接増大させる医薬を設計する。 一般的な方法としては、 ターゲット遺伝子 を組み込んだベクター (ターゲティングベクター) の使用が挙げられる。 ター ゲティングベクターとは、 プロモーター配列に連結した発現遺伝子の核酸配列 を意味する。 好ましくは、 低発現する遺伝子を発現するようにベクターを使用 する。 「低発現する」 とは、 平均値より低い mRNAの細胞内濃度を意味する。 遺伝子の発現を増大させる 1つの方法は、 ターゲット遺伝子の配列に強力な 発現調節配列 (プロモーター) を連結させて、 ターゲット遺伝子の発現を増大 させるというものである。 まず、 ターゲット遺伝子の上流に宿主細胞で機能可 能なプロモーターを機能可能な形で連結させ、 これをウィルスベクターなどの ベクターに組み込むことにより、 ターゲット遺伝子を宿主細胞中で高発現させ ることが可能なターゲティングベクターを構築することができる。 ここで、 「機 能可能な形で連結させる」 とは、 ターゲット遺伝子が導入される宿主細胞にお いてプロモーターの制御下にタ一ゲット遺伝子が発現されるように、 該プロモ 一ターとターゲット遺伝子とを連結させることを意味する。 すなわち、 強力な プロモーターの作用によってターゲット遺伝子の発現が増大する。 従って、 表
1〜3の 1〜289 に示すいずれかの塩基配列を有する遺伝子、 及び場合により 同等の機能を有する他の遺伝子のうち、 悪性度の高い癌献体に低発現する遺伝 子を選択し、 その遺伝子に強力なプロモーターを連結する。 本発明において、 発現を増大させるターゲット遺伝子としては、 そのうち表 1の 1、 2、 3、 5、
6、 8、 9、 10、 11、 12、 13、 14、 15、 16、 17、 18、 19及び 21、 表 2の 30、 33、 34、 36〜42、 44〜48、 54〜66、 68、 69、 71、 74、 80、 82、 83、 85、 93、 100 〜103、 112、 115、 116及び 118〜: L21、 並びに表 3の 154、 156〜: L61、 164〜 66、 170、 173、 176、 181〜187、 189、 191、 192、 194〜197、 199〜210、 212〜221、 223〜241、 254、 258、 262、 264及び 266〜289 に示す配列を有する遺伝子が挙 げられ、 これらの遺伝子の 1つ又は複数を使用することが好ましい。
宿主細胞で機能可能な強力なプロモーターとしては、 例えば、 宿主が動物細 胞である場合には、 ラウス肉腫ウィルス (RSV) プロモーター、 サイ トメガロウ ィルス (CMV) プロモーター、 シミアンウィルス (SV40) の初期または後期プロ モータ一、 マウス乳頭腫ウィルス (MMTV) プロモーター、 CAG プロモーター等 を挙げることができるが、 これらに限定されるものではない。
ターゲッ ト遺伝子及びプロモーターを組み込むベクターは、 宿主細胞におい て利用可能なベクター、 例えば、 宿主細胞中で複製可能な遺伝情報を含み、 自 立的に増殖できるものであって、 宿主細胞からの単離、 精製が可能であり、 検 出可能なマーカーを有するベクターである。 そこで、 ベクターには、 ターゲッ ト遣伝子及びプロモーターの他、 所望によりェンハンサーなどのシスエレメン ト、 スプライシングシグナル、 ポリ A付加シグナル、 選択マーカー、 リボソ一 ム結合配列 (SD配列) などを連結することができる。 なお、 選択マーカーとし ては、 例えばジヒ ドロ葉酸還元酵素遺伝子、 アンピシリ ン耐性遺伝子、 ネオマ イシン耐性遺伝子等が挙げられる。 ベクターの例としては、 哺乳動物細胞を宿 主細胞とする場合、 pRC/RSV、 pRC/CMV (Invitrogen社製) 等のプラスミ ド、 ゥ シパピローマウィルスプラスミ ド pBPV (Amersham Pharmacia社製) 、 EB ウイ ルスプラスミ ド pCEP4 (Invitrogen社製) 等のウィルス由来の自律複製起点を 含むベクター、 ワクシニアウィルス、 レトロウィルス及びアデノウィルス等の ウィルスベクターを挙げることができるが、 これらに限定されるものではなレ、。 また、 宿主細胞において機能可能なプロモーターを予め保有するベクターを 使用する場合には、 該ベクター保有のプロモーターとターゲット遺伝子とが機 能可能な形で連結するように、 該プロモーターの下流にターゲッ ト遺伝子を挿 入すればよい。 例えば、 前述のプラスミ ド pRC/RSV、 pRC/CMV等は、 動物細胞で 機能可能なプロモーターの下流にクローユング部位が設けられており、 該ク口 一ユング部位にターゲット遺伝子を挿入し動物細胞へ導入することにより、 タ ーゲット遺伝子を発現させることができる。
ターゲット遺伝子及びプロモーターをベクターに組み込むには、 まず精製さ れた DNA を適当なベクター DNAの制限酵素部位又はマルチクローニングサイ ト に挿入してベクターに組み込む方法などが採用される。
このようにして作製されたターグティングベクターは、 患者に直接投与 (in vivo法) してもよいし、 または患者から採取した細胞、 好ましくは幹細胞に導 入して、 ターゲット遺伝子を発現する細胞を選択してからその細胞を投与して もよい (ex vivo 法) 。 ターゲテイングベクターの直接投与は、 例えば静脈内 注射 (点滴を含む) 、 筋肉内注射、 腹腔内注射、 皮下注射などの製剤形態によ り行うことができる。 また、 ターグティングベクターの細胞導入は、 例えば、 リン酸カルシウム法、 DEAEデキストラン法、 エレク ト口ポレーシヨン法、 又は リボフヱクション法等の一般的な遺伝子導入法を用いて行うことができる。 タ ーゲット遺伝子を発現する細胞の選択は選択マーカーを利用して行うことがで き、 この方法は当技術分野で周知である。 ターゲット遺伝子を発現する細胞の 投与もまた、 ターゲティングべクターの直接投与の場合と同様の製剤形態で投 与することができる。
本発明のさらなるドラッグデザインにおいては、 本発明の癌の予測方法によ り得られた結果から決定されたターゲット遺伝子の配列と、 それに連結された プロモーターとを組み込んだターグティングベクターを、 治療上有効な量で、 直接又は該ベクターを導入した細胞を投与し、 該遺伝子の発現を増大させるも のである。
ターグティングベクターの投与量は、 年齢、 性別、 症状、 投与経路、 投与回 数、 剤型によって異なるが、 当技術分野で慣例的な手法を用いて適宜決定する ことができる。
また、 ターゲット遺伝子の発現産物を直接投与してもよく、 その場合には、 発現産物を通常の組換えタンパク質産生方法を利用して大量に入手することが できる。 例えば大腸菌などを利用してターゲット遺伝子の発現産物を産生させ ることができる。 ターゲット遺伝子の発現産物は、 上述のターゲティングべク ターの製剤形態と同様にして投与することができ、その投与量は、年齢、性別、 症状、 投与経路、 投与回数、 剤型によって異なるが、 当技術分野で慣例的な手 法を用いて適宜決定することができる。
各種製剤は、 製剤上通常用いられる賦形剤、 崩壊剤、 潤滑剤、 界面活性剤、 分散剤、 緩衝剤、 保存剤、 溶解補助剤、 防腐剤、 安定化剤、 等張化剤等などを 適宜選択し、 常法により製造することができる。 図面の簡単な説明
図 1は、 本発明の癌の予測方法の概要を示す図である。
図 2は、 アダプター付加競合 PCRの概要を示す図である。
図 3は、 転移又は再発同定システムのプロック図である。
図 4は、 転移又は再発同定プログラムによる処理例を示すフローチヤ一トの 図である。
図 5は、 転移又は再発同定プログラムによる処理例を示すフローチヤ一トの 図である。
図 6は、 乳癌に関する、 179 症例分の遺伝子におけるクラスター分析結果を 示す図である。
図 7は、 乳癌の 301症例分の遺伝子におけるクラスター分析結果を示す図で ある。
図 8は、 大腸癌に関する、 115 症例分の遺伝子におけるクラスター分析結果 を示す図である。
図 9は、 M クラスターに属する遺伝子におけるクラスター分析結果を示す図 である。
図 10は、 Pクラスターに属する遺伝子におけるクラスタ一分析結果を示す図 である。
図 11は、 Mクラスターに関する主成分分析結果を示す図である。
図 12は、 Pクラスターに関する主成分分析結果を示す図である。
図 13は、 Mクラスターと Pクラスターに関する主成分分析結果を示す図であ る。 符号の説明
301: CPU, 302: ROM, 303: RAM, 304:入力部、 305:送信/受信部、 306: 出力部、 307: HDD, 308: CD-ROM ドライブ、 309: CD-ROM, 310:データベース
401 : クラスター分析装置、 402:外部データベース検索入力手段、
403: サンプルデータ記憶手段、 404:データ最適化手段、 405:変量一 覧出力手段、 406:変量選択手段、 407:評価用サンプルデータファイル生 成手段、
408:評価手段、 409: クラスタ一分類手段、 410:樹形図生成手段、
411:樹形図編集手段、 412:評価条件設定手段
501:予測装置、 502:外部データベース検索入力手段、
503: サンプルデータ記憶手段、 504:データ最適化手段、 505:変量一覧 出力手段、 506:変量選択手段、 507:評価用サンプルデータファイル生成 手段、
508:評価手段、 509:予測手段、 510:予測結果生成手段、
511、 予測結果編集手段、 512:評価条件設定手段、 513: クラスター 発明を実施するための最良の形態
以下、 実施例により本発明をさらに具体的に説明する。 但し、 本発明はこれ ら実施例にその技術的範囲が限定されるものではない。
〔実施例 1〕 乳癌検体を利用したアダプター付加競合 PCR
アダプター付加競合 PCR法を使って 110症例 (98症例の乳癌、 1症例の男性 乳癌、 1症例の甲状腺癌、 10例の正常組織) について 2412個の遺伝子の発現量 を測定した。
具体的に説明すると、 組織を粉砕した後、 グァニジンイソチオシァネート法 で得られた上記癌又は組織由来の全 RNA( 3 g)を含む蒸留水 7 μ1に、 化学合成 したビォチン化オリゴ (dT)18 プライマーを加えて 70°Cで 2〜3分加熱したの ち、 37°Cで 1時間保温して cDNAを合成した。 得られた一本鎖 cDNAに、 DNA合 成酵素を含む反応液をそれぞれ加え、 16°Cで 1時間、 さらに室温で 1時間反応 させ、 二本鎖 cDNAを合成した。
反応終了後、 0. 25M EDTA(pH7. 5) 3μ1 及び 5Μ NaCl 2μ1を加えた後、 フエノ ール抽出及びエタノール沈殿を行った。 得られた cDNAを蒸留水 120 μΐに溶解 した。 制限酵素による切断反応終了後、 75°Cで 10分加熱し、 9倍量の蒸留水で 希釈して以下のアダプター付加反応に使用した。
遺伝子特異的プライマー及びアダプタープライマーを用いて、 PCR反応を行 つた。 上記組成の各反応液について、 94°Cで 30秒、 55°Cで 1分及び 72°Cで 1 分を 1サイクルとしてこれを 30〜35サイクル行い、 その後、 72°Cで 20分反応 させた。 反応終了後、 37°Cで 1時間保温した。
最終産物を熱変性後、 0. 5μ1 を ΑΒΙ 3700 DNA Analyzerにより解析しそれぞ れの遺伝子における発現量を求めた。
〔実施例 2〕 乳癌に関するクラスタ一分析
分類に有用な遺伝子群として、 下記式:
(癌検体の分散) I (正常検体の分散) ≥ 1. 20
となるような条件を満たす遺伝子を選択した。 その結果、 上記条件を満たす遺 伝子として 152個の遺伝子を選択した。 続いて、 この 152個の遺伝子からさら に、 エストロゲン受容体陽性群と陰性群との発現レベルの差により (ρ < 3. 85 Χ 10— 5) 、 21 個の遺伝子を単離 (選択) した。 単離した遺伝子の一覧を表 1 (前 記) に示す。 表 1において、 1番から 21番までの配列が単離された遺伝子であ る。
次に、 上記遺伝子群を用いて、 これらの遺伝子の発現パターンを使ってクラ スター分析を行った。 図 6にその結果を模式的に示した。 図 6には、 縦方向に 179の症例が、 横方向に 21個の遺伝子名が並べてある。 遺伝子名は、 A群につ いては図の左側から順に GS7435, GS2307及び GS2828である。 B群については、 左側から GS2632、 GS7288、 GS6601、 GS7583、 GS7116、 GS7715, GS6770、 GS2471, GS6711、 GS1176、 GS7001、 GS690、 GS1472, GS6784、 GS7012、 GS7632、 GS1957 及び GS7264である。それぞれのセル(四角)が遺伝子の発現状態を表している。 白 (口) が高発現、 黒 (園) が低発現、 灰色が中程度の発現状態を示している。 灰色は、 色が薄くなるほど発現が高く、 色が濃くなるほど発現が低いことを意 味する。 本実施例において低発現とはアダプター付加競合 PCRを行ったときの 発現量が- 1. 3以上- 0. 3以下を意味し、 中程度とは発現量が- 0. 3より大きく 0. 3 未満を意味し、 高発現とは、 発現量が 0. 3以上 1. 3以下を意味する。 「発現量」 とは、 測定値を中央値で標準化した後、 上限を 20、 下限を 0. 5とした後対数変 換したものを意味する。
図 6において、 「L1」 の列に記載した数値は、 検体番号を意味し、 作業のた めに便宜的につけたものである。 「L2」 の列に記载した白丸又は黒丸はェス ト ロゲン受容体の発現の有無を示しており、 「〇」 が陽性、 「き」 が陰性である。 「L3」 の列に記載した白丸又は黒丸はリンパ節転移の有無 (個数) を示してお り、 「〇」 が 0個、 「眷」 が 1〜3個、 「秦參」 が 4個以上である。 図 6に示 したように、 症例は 4群 (Ι,Π,Ι Π,ΐν) 、 遺伝子群は 2群 (Α,Β) に分かれる。 症例群と遺伝子群 ( Α群及び B群)との関係は表 5の通りである。 表 5
症例群 A群 B群 エストロゲン受容体
I 低発現 高発現 陽性がほとんど
I I 低発現 低発現 陽性及び陰性が混在
I I I 高発現 陽性及び陰性が混在
IV 高発現 低発現 陰性がほとんど
リンパ節転移との関係は表 6の通りである, 表 6
症例群 転移あり 転移かし 転移(%)
(1個以上) ( 0個)
I 22 61 26. 5
II 8 10 44. 4
I I I 18 9 66. 6
IV 16 24 40
ムき ·
n口 Τ 64 104 38. 1
I群は転移が少なく、 I I I群は転移が多い。
さらに、 上記と同様にして、 下記式:
(癌検体の分散) I (正常検体の分散) ≥ 1. 15
となるような条件を満たし、 またエス トロゲン受容体陽性群と陰性群との発現 レベルの違いにより遺伝子を選択した場合には、 表 1の 1〜27に示す塩基配列 を有する遺伝子が選択される。
また、 (癌検体の分散) I (正常検体の分散) ≥ 1. 10
となるように設定すると、 表 1の 1 〜27に示す塩基配列を有する遺伝子のほか にも他の遺伝子が選択される。 従って、 これらの選択された遺伝子の発現量に ついて多変量解析を行い、 同様にいくつかのグループに分けることによって、 予後を予測するための情報を得ることができる。
〔実施例 3〕 乳癌の転移及び早期再発の予測
本実施例では、 乳癌の 301症例について転移及び早期再発の予測を行った。 実施例 2において選択した 21個の遺伝子を使ってクラスター分析を行った。結 果は以下の通りである。
1. エストロゲン受容体陽性群 (図 7の分子グループ laと lb)
この群におけるリンパ節転移が認められた症例は 143例中 45例であり(31%)、 早期再発は 60例中 5例であつた(8%)。
2. エストロゲン受容体陽性と陰性の混在群 (図 7の分子グループ 2aと 2b) リンパ節転移は 101例中 47であり(47%)、 早期再発は 49例中 14例であった (29%) 。
3. エストロゲン受容体陰性群 (図 7の分子グループ 3)
リンパ節転移は 44例中 21 であり(48%)、 早期再発は 10例中 4例であった (40%)。
以上の結果を表 7に示す。 表 7
Figure imgf000055_0001
また、 図 7中、 「ER」 はエストロゲン受容体 (陽性は +、 陰性は一) を表し、 「LN」 はリンパ節転移を表し (個数) 、 「REC」 は再発(陽性又は陰性) を表す。 図 7及び表 7より、 エス トロゲン受容体陰性群は早期再発になる可能性が高 いといえる。 早期再発例は必ず死亡するので、 本発明の方法により得られた結 果は、 医学的に予後を知る上で重要な情報となる。
〔実施例 4〕 乳癌の予測
実施例 3で得られた癌の予測のための分子グループと、 既知の臨床学的パラ メータとを組み合わせることにより、 乳癌の予後をできる限り正確に予測する ことができる。 表 8に、 臨床学的パラメータと、 その Cox回帰分析により求め た予後診断のための有意性を示す。 表 8
Figure imgf000056_0001
表 8に示す情報を用いて、 複数のパラメータから癌検体の予後を正確に予測 する。 特に、 R. R.値 (早期再発に対する相対危険度) は、 分子グループが最も 高い。 従って、 従来の臨床学的パラメータと比較して分子グループによる癌の 予測は精度が高いといえる。
〔実施例 5〕 大腸癌検体を利用したアダプター付加競合 PCR
アダプター付加競合 PCR法を使って 115症例 (105症例の大腸癌、 10症例の 正常組織) について 1536個の遺伝子の発現量を測定した。
PCR反応及び遺伝子発現量の定量は、 実施例 1と同様に行った。
〔実施例 6〕 クラスター分析による遺伝子の選択
上記 1536遺伝子の発現パターンを使ってクラスター分析を行った。図 8にそ の結果を模式的に示した。 図 7には、 縦方向に 115の症例が、 横方向に 1536個 の遺伝子の発現結果が並べてある。 図 6と同様に、 それぞれのセル (四角) が 遺伝子の発現状態を表している。 白 (口) が高発現、 黒 (園) が低発現、 灰色 が中程度の発現状態を示している。 灰色は、 色が薄くなるほど発現が高く、 色 が濃くなるほど発現が低いことを意味する。 低発現とは発現量が- 1. 301 以上 -0. 3以下を意味し、 中程度とは発現量が- 0. 3より大きく 0. 3未満を意味し、 高 発現とは、 発現量が 0. 3以上 1. 301以下を意味する。 クラスター分析の結果、 1536個の遺伝子を 88のクラスターに分けることができた。
上述のようにクラスター分析した遺伝子の中から、 図 8のクラスター No. 14 を転移 (M) クラスタ一として選択し、 またクラスター No. 42〜44 を予後 (P) クラスタ一として選択した。 No. 1 及び No. 42〜44のクラスタ一は、 以下の実 施例 Ίに記载するクラスタ一分析を予め行つたところ、 それぞれ転移及び予後 に関連していることが予測されたため選択した。
クラスター No. 14 に含まれる遺伝子を表 2 (前記) に示す。 表 2において、 28番から 153番までの配列が Mクラスターとして選択した遺伝子である。 また クラスター No. 42〜44に含まれる遺伝子を表 3 (前記) に示す。表 3において、 154番から 289番までの配列が Pクラスタ一として選択した遺伝子である。
〔実施例 7〕 多変量解析 (クラスター分析)
実施例 6において選択した遺伝子群を用いてクラスター分析を行った。 M ク ラスターに属する遺伝子のクラスター分析を図 9に示し、 P クラスターに属す る遺伝子のクラスター分析を図 10に示す。 図 9には、 縦方向に 115の症例が、 横方向に Mクラスターの 126個の遺伝子が並べてある。 それぞれのセル (四角) が遺伝子の発現状態を表している。 また、 Meは転移を、 Prは予後を示す。 「MeJ に示すカラムの色は、 黒、 白及びグレーがそれぞれ転移癌検体、 転移なし癌検 体、 及び正常検体を示す。 また 「Pr」 に示すカラムの色は、 黒、 白、 淡いダレ 一及び濃いグレーがそれぞれ予後が悪い検体、 予後が中程度の癌検体、 予後が 良好の癌検体、 及び正常検体を示す。 予後が 「悪い」 とは、 大腸癌の原発巣治 療後の予後において、 2年以内に原癌死したことを指し、 「中程度」 とは、 2 〜 5年以内に原癌死したか又は生存している場合には観察期間が 4年以内であ ることを指し、 そして 「良好」 とは、 生存しており、 観察期間が 4年以上経過 していることを指す。
図 10には、 縦方向に 115の症例が、横方向に Pクラスターの 136個の遺伝子 が並べてある。 42、 43、 44の数字は、 図 8に示すクラスター分析におけるクラ スター No.を表す。 それぞれのセル (四角) が遺伝子の発現状態を表している。 また、 図の右側の 「Me」 に示すカラムの色は、 黒、 白及びグレーがそれぞれ転 移癌検体、 転移なし癌検体、 及び正常検体を示す。 また図の右側の 「Pr」 に示 すカラムの色は、 黒、 白、 淡いグレー及び濃いグレーがそれぞれ予後が悪い検 体、 予後が中程度の癌検体、 予後が良好の癌検体、 及び正常検体を示す。
図 9及び図 10より、 Mクラスターでは図の下部に転移検体の症例が集まって おり、 また P クラスターでは図の上部に予後が悪い検体及び転移献体の症例が 集まっている。 従って、 これらの遺伝子を利用したクラスター分析により、 転 移及び予後の臨床因子と関連がある分類を行うことができたと考えられ、 本発 明者は、 Mクラスターを転移と関連する群、 Pクラスターを予後及び転移と関連 する群として選択した。
〔実施例 8〕 多変量解析 (主成分分析)
実施例 7において行った M クラスターと P クラスターのクラスター分析によ る結果に関して、 統計学的に有意な値を求めるため、 主成分分析を行った。 そ の結果をそれぞれ図 11及び 12に示す。 図 11において、 転移癌検体を秦で、 転 移なし癌検体を +で、 正常検体を Xで示す。 また図 12において、 予後が悪い検 体をきで、 予後が中程度の検体を口で、 予後が良好な検体を +で、 正常検体を Xで示す。
上記主成分分析により、 図 11及び 12に示す破線で示す境界線を引くことが できる。 図 11及び 12から表 9に示す数値を決定した。 この境界線は、 第 1主 成分の平均値を意味する。
表 9
第 1主成分の因子スコア
Figure imgf000059_0001
表 9に示す数値は、 第 1主成分の値が正の場合には陽性、 負の場合には陰性 としてそれぞれのクラスターの評価を行ったものである。 この評価は χ2検定に より行い、 χ2検定は、 Ρ = 0. 01 のときに 6. 63であり、 この値以上の場合には、 それぞれの比率が有意に異なり、 癌の予測に有用であるといえる。 従って、 表 9より、 Ρクラスターの遺伝子を利用すると予後及び転移の両者を、 Μクラスタ 一の遺伝子を利用すると転移を判断するのに有用である。。
さらに本発明者は、 Μ クラスターと Ρ クラスタ一とを組み合わせて主成分分 析を行った。 その結果を図 13に示す。 図中、 横軸の第 1主成分は Ρクラスター の第 1主成分であり、 縦軸の第 1主成分は Μクラスターの第 1主成分である。 転移癌検体をきで、 転移なし癌検体を Xで示す。 主成分分析により、 図に示す 破線で示す境界線を引くことができる。 この境界線は、 第 1主成分の平均値を 意味する。 図 13から、 表 10に示す数値を決定した。 表 1 0
組み合わせた分析の統計学的有意性
Figure imgf000060_0001
表 10において、 四分区画とは、 図 13に示す境界線を境とした区画を指し、 第 1の四分区画は図 13の右上の区画、 第 2の四分区画は右下の区画、第 3の四 分区画は左上の区画、 そして第 4の四分区画は左下の区画である。
表 10から、 Ρ及び Μクラスターに属する遺伝子の発現パターンを多変量解析 して第 1の四分区画に分類されるものは、 転移する確率が低く (11. 3%)、 それ 以外の区画に分類されるものは、 転移する確率は高いと言える。 また転移に関 しては、 χ2検定の値が Μクラスターを用いたものよりも Μ及び Ρクラスターを 組み合わせた場合の方が高いため、 この組み合わせによって、 より効率的に大 腸癌の転移を判定できると考えられる。 大腸癌の予後の予測については、 表 10 に示す Μ及び Ρクラスターの組み合わせでは統計学的に有意に予測できないた め、 表 9に示すように、 Ρ クラスターの遺伝子を利用することが好ましいと考 えられる。 本明細書で引用した全ての刊行物、 特許及び特許出願は、 そのまま参考とし て本明細書に取り入れるものとする。 産業上の利用可能性
本発明により、 癌の予測方法及びドラッグデザイン方法が提供される。 本発 明の方法は、 癌の悪性度を評価するための遺伝子診断に有用である。 また本発 明の方法の結果は、 医薬設計に有用である。

Claims

請 求 の 範 囲 癌の分類方法であって、 以下の工程:
(a) 検体から遺伝子を採取してその発現量を測定し、
(b) 測定された遺伝子のうち少なくとも 1つの遺伝子を選択し、
(c) 選択された遺伝子について前記発現量の測定結果を多変量解析し、
(d) 前記多変量解析結果を指標として前記遺伝子の発現パターンが類似す る群ごとに検体を分類すること、
を含む前記分類方法。
癌の予測方法であって、 以下の工程:
(a) 検体から遺伝子を採取してその発現量を測定し、
(b) 測定された遺伝子のうち少なくとも 1つの遺伝子を選択し、
(c) 選択された遺伝子について前記発現量の測定結果を多変量解析し、
(d) 前記多変量解析結果を指標として前記遺伝子の発現パターンが類似す る群ごとに検体を分類し、
(e) 得られる分類結果から癌の状態を予測すること、
を含む前記予測方法。
癌の状態に特徴的な発現パターンを決定し、 癌を予測しょうとする癌の 検体から採取した遺伝子の発現パターンを前記特徴的な発現パターンと比 較する工程をさらに含むものである請求項 2記載の方法。
癌の状態が、 癌の有無、 癌の悪性度、 癌の転移の有無及び癌の再発の有 無からなる群から選ばれる少なくとも 1つである請求項 1又は 2記載の方 法。
転移がリンパ節転移である請求項 4記載の方法。
再発が早期再発である請求項 4記載の方法。
選択される遺伝子が、 表 1の 1〜27に示される塩基配列を含む遺伝子群 I、 表 2の 28〜153に示される塩基配列を含む遺伝子群 I I、 及び/又は表 3 の 154〜289に示される塩基配列を含む遺伝子群 II Iから選ばれるものであ る、 請求項 1又は 2記載の方法。 選択される遺伝子が、 表 1の 1 〜27に示される塩基配列を含む遺伝子群 I、 表 2の 28〜: 153に示される塩基配列を含む遺伝子群 I I、 及び Z又は表 3 の 154〜289に示される塩基配列を含む遺伝子群 I I Iから選ばれる少なくと も 1つの遺伝子と、 遺伝子群 I、 I I及び I I Iを除く他の少なくとも 1つの遺 伝子との組み合わせである、 請求項 1又は 2記載の方法。
分類が、 ホルモン受容体陽性群及び/又は陰性群を指標とするものであ る請求項 1又は 2記載の方法。
. ホルモン受容体がエストロゲン受容体である請求項 9記載の方法。 . 癌が、 乳癌、 胃癌、 食道癌、 口腔癌、 大腸癌、 直腸癌、 肛門癌、 脖臓 癌、 肺癌、 腎癌、 膀胱癌、 卵巣癌、 子宮癌、 皮膚癌、 メラノーマ、 中枢神経 腫瘍、 末梢神経腫瘍、 歯肉癌、 咽頭癌、 顎癌、 肝癌、 前立腺癌、 白血病、 多 発性骨髄腫、及び悪性リンパ腫からなる群より選択されるものである請求項 1又は 2記載の方法。
. 癌が乳癌又は大腸癌である請求項 11記載の方法。
. 多変量解析がクラスター分析である請求項 1又は 2記載の方法。
. 請求項 1〜13のいずれかに記載の方法により予測された癌の状態がハ ィリスクであると判断された検体に発現する遺伝子の発現を抑制するよう に薬物を設計することを特徴とするドラッグデザィン方法。
. 遺伝子が、表 1の 4、 7若しくは 20、表 2の 28、 29、 31、 32、 35、 43、 49〜53、 67、 70、 72、 73、 75〜79、 81、 84、 86〜92、 94〜99、 104〜111、 113、 114、 117若しくは 122〜153、 又は表 3の 155、 162、 163、 167〜169、 171、 172、 174、 175、 177〜180、 188、 190、 193、 198、 211、 222、 242〜253、 255 〜257、 259〜261、 263若しくは 265 に示される塩基配列を有するものある いはこれらの組合せである請求項 14記載の方法。
. 薬物がアンチセンス核酸である請求項 14又は 15記載の方法。
. 請求項 1〜13のいずれかに記載の方法により予測された癌の状態がハ ィリスクであると判断された検体に発現する遺伝子の発現を増大させるよ うに薬物を設計することを特徴とするドラッグデザィン方法。
. 遺伝子が、 表 1の 1 〜 3、 5、 6、 8〜: L9若しくは 21、 表 2の 30、 33、 34、 36〜42、 44〜48、 54〜66、 68、 69、 71、 74、 80、 82、 83、 85、 93、 100〜: L03、 112、 115、 116若しくは 118〜: L21、 又は表 3の 154、 156〜161、 164〜 66、 170、 173、 176、 181〜187、 189、 191、 192、 194〜: 197、 199〜210、 212〜221、 223〜241、 254、 258、 262、 264及び 266〜289に示される塩基配 列を有するものあるいはこれらの組合せである請求項 17記載の方法。
. 薬物がターゲティングベクターである請求項 17又は 18記載の方法。 . 癌の原発巣由来の遺伝子の発現量を解析する手段と、 得られる解析結 果を指標として癌の状態を同定する手段とを含んでなる、 コンピュータを癌 の状態の予測システムとして機能させるためのプログラム。
. 癌の原発巣由来の遺伝子の発現量を解析する手段と、 得られる解析結 果を指標として癌の状態を同定する手段とを含んでなる、 コンピュータを癌 の状態の予測システムとして機能させるためのプログラムを記録したコン ピュータ読み取り可能な記録媒体。
PCT/JP2002/002153 2001-03-14 2002-03-07 Procede permettant de prevoir un cancer WO2002072828A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2002571882A JP4222835B2 (ja) 2001-03-14 2002-03-07 癌の予測方法
US10/276,233 US20050260572A1 (en) 2001-03-14 2002-03-07 Method of predicting cancer

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP2001073063 2001-03-14
JP2001-73063 2001-03-14
JP2001-108503 2001-04-06
JP2001108503 2001-04-06
JP2001-234807 2001-08-02
JP2001234807 2001-08-02

Publications (1)

Publication Number Publication Date
WO2002072828A1 true WO2002072828A1 (fr) 2002-09-19

Family

ID=27346244

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2002/002153 WO2002072828A1 (fr) 2001-03-14 2002-03-07 Procede permettant de prevoir un cancer

Country Status (3)

Country Link
US (1) US20050260572A1 (ja)
JP (1) JP4222835B2 (ja)
WO (1) WO2002072828A1 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004213316A (ja) * 2002-12-27 2004-07-29 Ntt Data Corp 多変量データ分類規則導出装置、および、多変量データ分類規則導出方法をコンピュータに実行させるプログラム
EP1647596A2 (en) * 2003-07-18 2006-04-19 Mochida Pharmaceutical Co., Ltd. Monoclonal antibody against platelet membrane glycoprotein vi
JP2006516897A (ja) * 2003-01-15 2006-07-13 ジェノミック ヘルス, インコーポレイテッド 乳癌予後診断のための遺伝子発現マーカー
WO2006088208A1 (ja) * 2005-02-21 2006-08-24 Dainippon Sumitomo Pharma Co., Ltd 生体の生理的変化の予測方法および装置
WO2006133923A2 (en) * 2005-06-16 2006-12-21 Bayer Healthcare Ag Diagnosis, prognosis and prediction of recurrence of breast cancer
JP2007521005A (ja) * 2003-06-24 2007-08-02 ジェノミック ヘルス, インコーポレイテッド 癌再発の可能性の予測
JP2007527220A (ja) * 2003-07-10 2007-09-27 ジェノミック ヘルス, インコーポレイテッド 癌診断のための発現プロフィールアルゴリズムおよび試験
JP2008538284A (ja) * 2005-04-04 2008-10-23 ベリデックス・エルエルシー 乳房の腫瘍のレーザーマイクロダイセクションおよびマイクロアレイ解析が、エストロゲン受容体に関係する遺伝子および経路を明らかにする
JP2009060908A (ja) * 2004-09-30 2009-03-26 Intelligenescan Inc 直腸結腸癌の早期発見のための薬剤スクリーニング及び分子診断検査:その試薬および方法
WO2016136684A1 (ja) * 2015-02-27 2016-09-01 シスメックス株式会社 大腸癌の予後診断を補助する方法、記録媒体および判定装置

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120258442A1 (en) * 2011-04-09 2012-10-11 bio Theranostics, Inc. Determining tumor origin
ES2548514T3 (es) 2004-06-04 2015-10-19 Biotheranostics, Inc. Identificación de tumores
KR20080104113A (ko) 2005-06-03 2008-12-01 아비아라디엑스, 인코포레이티드 종양 및 조직의 동정방법
US20070031043A1 (en) * 2005-08-02 2007-02-08 Perz Cynthia B System for and method of intelligently directed segmentation analysis for automated microscope systems
US20080221395A1 (en) * 2006-12-28 2008-09-11 Potts Steven J Self-organizing maps in clinical diagnostics
AU2010270227B2 (en) 2009-07-08 2015-01-22 Worldwide Innovative Network Method for predicting efficacy of drugs in a patient
US8932990B2 (en) * 2009-08-24 2015-01-13 National University Corporation Kanazawa University Detection of digestive organ cancer, gastric cancer, colorectal cancer, pancreatic cancer, and biliary tract cancer by gene expression profiling
EP2681562A1 (en) * 2011-02-28 2014-01-08 Rheinische Friedrich-Wilhelms-Universität Bonn Method of diagnosing breast carcinoma
CN103702555B (zh) * 2011-05-11 2016-08-31 印度科学工业研究所 Wdr13作为用于治疗糖尿病和癌症的新的生物标志物
EP2914962A1 (en) * 2012-11-05 2015-09-09 Ospedale San Raffaele S.r.l. Biomarkers of multiple myeloma development and progression
KR20140090296A (ko) * 2012-12-20 2014-07-17 삼성전자주식회사 유전 정보를 분석하는 방법 및 장치
CN105683724B (zh) * 2013-09-19 2018-09-14 欧莱雅公司 对表面的颜色和光谱进行测量及分类的系统和方法
GB201616912D0 (en) 2016-10-05 2016-11-16 University Of East Anglia Classification of cancer
KR102410443B1 (ko) * 2018-12-01 2022-06-17 주식회사 메타젠바이오 딥러닝 기반 치매 예측 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7171311B2 (en) * 2001-06-18 2007-01-30 Rosetta Inpharmatics Llc Methods of assigning treatment to breast cancer patients
US6613970B2 (en) * 2001-08-02 2003-09-02 Maurice P. Davies Process of making acoustic devices

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Hiroaki KITANO, "System Biology Seimei o System to shite Rikai suru", Shujunsha Co., Ltd., pages 71 to 90 *
LIPSHUTZ R.J. et al., "High density synthetic ologonucleotide arrays." Nature Genetics, 1999, Vol. 21, No.1 (Suppl.), pages 20 to 24 *
SCHERF U. et al., "A gene expression database for the molecular pharmacology of canser." Nature Genetics, 2000, Vol. 24, No. 3, pages 236 to 244 *
Yoshitaka HIPPO, "Gan no Akuseika no Profiling", Igaku no Ayumi, 09 June, 2001 (09.06.01), Vol. 197, No. 10, pages 781 to 784 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004213316A (ja) * 2002-12-27 2004-07-29 Ntt Data Corp 多変量データ分類規則導出装置、および、多変量データ分類規則導出方法をコンピュータに実行させるプログラム
JP4723472B2 (ja) * 2003-01-15 2011-07-13 ジェノミック ヘルス, インコーポレイテッド 乳癌予後診断のための遺伝子発現マーカー
US8034565B2 (en) 2003-01-15 2011-10-11 Genomic Health, Inc. Gene expression markers for breast cancer prognosis
US8206919B2 (en) 2003-01-15 2012-06-26 Genomic Health, Inc. Gene expression markers for breast cancer prognosis
US11220715B2 (en) 2003-01-15 2022-01-11 Genomic Health, Inc. Gene expression markers for breast cancer prognosis
US9944990B2 (en) 2003-01-15 2018-04-17 Genomic Health, Inc. Gene expression markers for breast cancer prognosis
JP2006516897A (ja) * 2003-01-15 2006-07-13 ジェノミック ヘルス, インコーポレイテッド 乳癌予後診断のための遺伝子発現マーカー
US8741605B2 (en) 2003-01-15 2014-06-03 Genomic Health, Inc. Gene expression markers for breast cancer prognosis
JP2007521005A (ja) * 2003-06-24 2007-08-02 ジェノミック ヘルス, インコーポレイテッド 癌再発の可能性の予測
JP4906505B2 (ja) * 2003-07-10 2012-03-28 ジェノミック ヘルス, インコーポレイテッド 癌診断のための発現プロフィールアルゴリズムおよび試験
JP2007527220A (ja) * 2003-07-10 2007-09-27 ジェノミック ヘルス, インコーポレイテッド 癌診断のための発現プロフィールアルゴリズムおよび試験
EP1647596A2 (en) * 2003-07-18 2006-04-19 Mochida Pharmaceutical Co., Ltd. Monoclonal antibody against platelet membrane glycoprotein vi
EP1647596A4 (en) * 2003-07-18 2008-02-13 Mochida Pharm Co Ltd MONOCLONAL ANTIBODY AGAINST GLYCOPROTEIN VI THE BLOOD PLATE MEMBRANE
JP2009060908A (ja) * 2004-09-30 2009-03-26 Intelligenescan Inc 直腸結腸癌の早期発見のための薬剤スクリーニング及び分子診断検査:その試薬および方法
JPWO2006088208A1 (ja) * 2005-02-21 2008-07-10 大日本住友製薬株式会社 生体の生理変化の予測方法および装置
WO2006088208A1 (ja) * 2005-02-21 2006-08-24 Dainippon Sumitomo Pharma Co., Ltd 生体の生理的変化の予測方法および装置
JP2008538284A (ja) * 2005-04-04 2008-10-23 ベリデックス・エルエルシー 乳房の腫瘍のレーザーマイクロダイセクションおよびマイクロアレイ解析が、エストロゲン受容体に関係する遺伝子および経路を明らかにする
WO2006133923A3 (en) * 2005-06-16 2007-03-15 Bayer Healthcare Ag Diagnosis, prognosis and prediction of recurrence of breast cancer
WO2006133923A2 (en) * 2005-06-16 2006-12-21 Bayer Healthcare Ag Diagnosis, prognosis and prediction of recurrence of breast cancer
WO2016136684A1 (ja) * 2015-02-27 2016-09-01 シスメックス株式会社 大腸癌の予後診断を補助する方法、記録媒体および判定装置
JP2016158531A (ja) * 2015-02-27 2016-09-05 シスメックス株式会社 大腸癌の予後診断を補助する方法、記録媒体および判定装置

Also Published As

Publication number Publication date
JPWO2002072828A1 (ja) 2004-10-21
JP4222835B2 (ja) 2009-02-12
US20050260572A1 (en) 2005-11-24

Similar Documents

Publication Publication Date Title
WO2002072828A1 (fr) Procede permettant de prevoir un cancer
US10619211B2 (en) Methods using DNA methylation for identifying a cell or a mixture of cells for prognosis and diagnosis of diseases, and for cell remediation therapies
JP4741191B2 (ja) 自己免疫疾患および慢性炎症性疾患を診断およびモニタリングするための方法および組成物
US6190857B1 (en) Diagnosis of disease state using MRNA profiles in peripheral leukocytes
JP2018126154A (ja) 胃腸癌での増殖の徴候及び予後
US20050095592A1 (en) Identification of ovarian cancer tumor markers and therapeutic targets
US20090203533A1 (en) Methods and Kits for Predicting and Monitoring Direct Response to Cancer Therapy
EP1934377A2 (en) Methods and compositions for identifying biomarkers useful in diagnosis and/or treatment of biological states
US20090098533A1 (en) Methods and kits for investigating cancer
BRPI0708534A2 (pt) ensaio molecular para prognosticar a recorrência de cáncer do cólon dukes b
US20230366034A1 (en) Compositions and methods for diagnosing lung cancers using gene expression profiles
CN101180407A (zh) 白血病疾病基因和其用途
JP2008502326A (ja) 癌治療に対する反応を予測およびモニターする方法
EP2714933A2 (en) Methods using dna methylation for identifying a cell or a mixture of cells for prognosis and diagnosis of diseases, and for cell remediation therapies
US9952221B2 (en) Methods for screening, predicting and monitoring prostate cancer
CA2939539A1 (en) Prostate cancer survival and recurrence
JP2006271385A (ja) 大腸癌の予測方法
AU2004256182A1 (en) Genes regulated in ovarian cancer as prognostic and therapeutic targets
US11105808B2 (en) Methods for screening, predicting and monitoring prostate cancer
BR112020012280A2 (pt) composições e métodos para diagnosticar cânceres de pulmão usando perfis de expressão de gene
WO2009123990A1 (en) Cancer risk biomarker
US20060281091A1 (en) Genes regulated in ovarian cancer a s prognostic and therapeutic targets
WO2005080570A1 (ja) 乳癌の術後予後予測に関与する遺伝子
KR20200104106A (ko) 신장암 환자의 치료 전략 결정 및 예후 진단용 재발 특이적 마커
US7332270B1 (en) Diagnosis of disease state using mRNA profiles in peripheral leukocytes

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): JP US

WWE Wipo information: entry into national phase

Ref document number: 10276233

Country of ref document: US