WO2018199589A1 - 위암의 생물학적 특성에 기반한 군 구분 및 예후 예측 시스템 - Google Patents

위암의 생물학적 특성에 기반한 군 구분 및 예후 예측 시스템 Download PDF

Info

Publication number
WO2018199589A1
WO2018199589A1 PCT/KR2018/004732 KR2018004732W WO2018199589A1 WO 2018199589 A1 WO2018199589 A1 WO 2018199589A1 KR 2018004732 W KR2018004732 W KR 2018004732W WO 2018199589 A1 WO2018199589 A1 WO 2018199589A1
Authority
WO
WIPO (PCT)
Prior art keywords
molecular
signature
gastric cancer
prognosis
gastric
Prior art date
Application number
PCT/KR2018/004732
Other languages
English (en)
French (fr)
Inventor
허용민
Original Assignee
(주) 노보믹스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주) 노보믹스 filed Critical (주) 노보믹스
Priority to EP18790388.5A priority Critical patent/EP3617329A4/en
Priority to JP2019520030A priority patent/JP6755391B2/ja
Priority to US16/341,931 priority patent/US11365450B2/en
Priority to CN201880004336.1A priority patent/CN110177886B/zh
Publication of WO2018199589A1 publication Critical patent/WO2018199589A1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2545/00Reactions characterised by their quantitative nature
    • C12Q2545/10Reactions characterised by their quantitative nature the purpose being quantitative analysis
    • C12Q2545/114Reactions characterised by their quantitative nature the purpose being quantitative analysis involving a quantitation step
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2561/00Nucleic acid detection characterised by assay method
    • C12Q2561/113Real time assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Definitions

  • the present invention relates to a group classification and prognosis prediction system based on biological characteristics of gastric cancer.
  • Gastric cancer is the third highest cancer death rate worldwide, and is the most common cancer except thyroid cancer, which is known to have a relatively good prognosis.
  • the survival rate of gastric cancer patients has improved a lot by early detection, standardization of surgery, and the discovery of anticancer drugs through national health examinations.However, despite the standardized treatment, about half of stage 2 and 3 advanced gastric cancers still survive. A degree of patient experiences a relapse.
  • Cancer is recognized as a genome disease, and according to the development of genome testing technology such as NGS (Next Generation Sequencing), there is an effort to classify cancer according to molecular biological characteristics, not classification according to existing anatomical and pathological phenotypes. come.
  • NGS Next Generation Sequencing
  • the Cancer Genome Atlas (TCGA) project has recently reported that gastric cancer can be divided into four types according to its various molecular characteristics. This means that even in anatomically identical stages, the prognosis and response to anticancer drugs may differ according to molecular biological characteristics.
  • gastric cancer is 1 EBV positive gastric cancer (Epstein-Barr virus positive, EBV positive) 2 Microsatellite instability-high (MSI-H), 3 Chromosome anxiety Chromosomal instability (CIN) 4 Genomeically stable gastric cancer (Genomically stable, GS) is divided into four.
  • This massive cancer genome sequencing shows that gastric cancer is not divided into a single carcinoma but is divided into heterogeneous, subgroups of molecular genetics. Therefore, in order to realize personalized treatment of gastric cancer, it is necessary to identify and apply each target gene by distinguishing subtypes based on molecular genetic and pathological characteristics.
  • the prognosis has been reported according to the subtype of gastric cancer.
  • the patient's prognosis can be predicted after chemotherapy following gastric cancer surgery, it will be the basis for establishing a treatment strategy according to each prognosis.
  • postoperative adjuvant chemotherapy is used in all patients in stages 2 and 3 of advanced gastric cancer. This may be undertreatment for a poor prognosis group. In other words, it can be said that it has a clinical meaning to develop a strategy for an additional treatment method in addition to the current standard treatment for a group of patients with poor prognosis.
  • An object of the present invention is to provide a composition for predicting prognosis of advanced gastric cancer based on the quantitative value of mRNA expression level of a target gene group that can predict the prognosis after surgery of patients with advanced gastric cancer (2nd-3rd stage: AJCC 6th edition) It is.
  • Another object of the present invention is to provide a method for providing information for predicting prognosis in terms of survival rate of patients based on a quantitative measure of mRNA expression levels of a target gene group capable of predicting the prognosis after surgery for advanced gastric cancer patients.
  • the present invention provides TFF1, TFF2, VSIG1, CNN1, NEXN, SCRG1, SORBS1, SPARCL1, AURKA, BUB1, CDC20, CEP55, PTTG1, UBE2C, CD8A, GBP1, GBP5, GZMB, NKG7, WARS, Agents for measuring the expression level of mRNA of a target gene family including ANTXR1, SFRP4, VCAN, CDH17, CDX1 and MYO1A; And it provides a composition for predicting the prognosis of gastric cancer stage 2 and 3 advanced gastric cancer comprising an agent for measuring the expression level of mRNA of the reference gene group including ACTB, ATP5E, GPX1, UBB and HPRT1.
  • the present invention also provides a kit for predicting prognosis of stage 2 and 3 of advanced gastric cancer comprising the composition for predicting the stage 2 and 3 of the stomach cancer.
  • the present invention also relates to the reference and biological samples obtained from patients with stage 2 and 3 advanced gastric cancer having a number of samples capable of indicating statistical significance,
  • Gastric signature consisting of TFF1, TFF2 and VSIG1; Mesenchymal signature consisting of CNN1, NEXN, SCRG1, SORBS1 and SPARCL1; Proliferative signature consisting of AURKA, BUB1, CDC20, CEP55, PTTG1 and UBE2C; Immune signature consisting of CD8A, GBP1, GBP5, GZMB, NKG7 and WARS; Stem-like signature consisting of ANTXR1, SFRP4 and VCAN; Measuring mRNA expression levels of a target gene group including an intestinal signature consisting of CDH17, CDX1 and MYO1A and a reference gene group including ACTB, ATP5E, GPX1, UBB and HPRT1;
  • Non-negative matrix factorization (NMF) and NMF-based clustering are performed on the values inputted to the computer program, and classified into a plurality of clusters, and scores of target gene groups in each cluster ( )
  • Score Value SV
  • Intestinal molecular subtype Inflammatory molecular subtype
  • Mesenchymal molecular subtype Mesenchymal molecular subtype
  • Mixed-stromal molecular subtype Gastric molecular subtype according to SV
  • Overall Survival Predicting the prognosis of the molecular subtype to which the biological sample belongs by analyzing the prognosis
  • the molecular subtypes of the gastric cancer may be defined as gastric molecular subtypes in which the SV of the gastric signature has a maximum value; Clusters having the maximum value of the mesenchymal signature and the minimum value of the SV of the proliferative signature are selected as the Mesenchymal molecular subtype among the clusters except the gastric molecular subtypes; Clusters having the maximum value of the SV of the immune signature and the minimum value of the SV of the intestinal signature were designated as the Inflammatory molecular subtypes among the clusters except the gastric and subtypes of the mesenchymal molecular subtype; If the SV of the stem-like signature has a maximum value among the clusters except the gastric molecular subtype, the Mesenchymal molecular subtype, and the Inflammatory molecular subtype, the mixed-stromal molecular subtype is determined; Finally, the remaining clusters are classified into Intestinal molecular subtypes.
  • the molecular subtype of the gastric cancer is Inflammatory molecular subtype, good prognosis in terms of overall survival; Intermediate prognosis for Intestinal and Gastric molecular subtypes;
  • a method of providing information for predicting prognosis of stages 2 and 3 of gastric cancer, or predicting prognosis of stages 2 and 3 of gastric cancer, which is predicted as a poor prognosis group is provided. :
  • the Cq mean value of the reference gene group means an average value of the Cq values of the reference gene group including ACTB, ATP5E, GPX1, UBB, and HPRT1.
  • t the number of genes (i) belonging to the signature
  • Is the signature ( ⁇ 6)
  • k the number of clusters and is an integer from 2 to 7
  • the threshold ( ⁇ ) is set to 0.1 so that genes without specific molecular subtypes converge to 0, Is Means the sign of, Is obtained according to the following equation 4,
  • the present invention can be used as an aid in determining the treatment method of gastric cancer patients by developing an algorithm for predicting the prognosis in terms of overall survival rate using a quantitative value of mRNA expression levels of target gene groups that can predict the prognosis of advanced gastric cancer. .
  • step I is a process of identifying a gastric cancer (GC) molecular subtype, classifier and GC signatures (NMF, non-negative matrix factorization; SAM, significance analysis of microarrays ; PAM, prediction analysis of microarrays; GSEA, gene-set enrichment analysis; WGCNA, weighted gene co-expression network analysis (WGCNA), and stage II is a series of probes for profiling the expression of GC signatures in patient samples, miniClassifier-26 It is a process of identifying GC signatures and molecular subtypes to maximize clinical utility through the construction of.
  • GC gastric cancer
  • NMF non-negative matrix factorization
  • SAM significance analysis of microarrays
  • PAM prediction analysis of microarrays
  • GSEA gene-set enrichment analysis
  • WGCNA weighted gene co-expression network analysis
  • stage II is a series of probes for profiling the expression of GC signatures in patient samples, miniClassifier-26 It is a process of identifying GC signatures
  • FIG. 2 shows the results of performing NMF consensus clustering with Classifier-PAM932
  • (a) is the Molecular Signatures Database (MSigDB) and gene sets analyzed in previous studies (digestion, spasm inhibitory polypeptide-expressing metabolism (SPEM), intestine Heat map of training set I (GSE13861p) characterized by intestinal metaplasia (IM), immune system, stroma, epithelial-mesenchymal metastasis (EMT), and cell cycle) GST, gastric subtype; INF, inflammation; MSC , Mesenchymal; INT, Organ; MXD, Mixed Substrate Results from validation of NMF consensus clustering using independent test set I and Classifier-PAM932
  • GSE62254 Asian Cancer Research Group, ACRG
  • gastric cancer signatures defining subtypes found by WGCNA analysis (a) is a phylogenetic tree of GSE13861p, and (b) is a module detected in GSE13861p and a corresponding module map of GSE62254, TCGA and GSE15459. If the modules in each cohort, an independent test set, shared a common gene with the modules in GSE13861p, then the color of the modules was adjusted one-to-one for visual convenience, and (c) the top 25% of the top 25% of the top scores of each subtype in the training set. to be. (d) shows six GC signatures represented by a combination of matching modules in the GC. (e) is shown using Spearman's correlation to analyze the relationship between five GC subtypes and six GC signatures. Red indicates modules that have a positive correlation with the subtype, and blue indicates modules that have a negative correlation.
  • Inhibition of substrate behavior of Hs746T cells treated with TGF- ⁇ inhibitor is observed through in vitro scratch wound healing (e), infiltration (f) and in vitro tumor spheroid formation assay (g). .
  • Tumor growth of Hs746t tumors (h) and NCI-N87 tumors (i) in a mouse xenograft model (n 8) under simultaneous administration of TGF- ⁇ inhibitors in combination drug treatment (oxalaplatin and fluorouracil)
  • In vivo drug resistance analysis results P ⁇ 0.05).
  • FIG. 8 shows five molecular subtypes classified as miniClassifier26 in GC.
  • A shows the relative differences of 26 representative genes for five molecular subtypes in PAM.
  • c is a heatmap of NMF-based clustering (26 genes) for qPCR data of GC.
  • (d) and (e) show the overall survival (OS) of the five molecular subtypes clustered in (b) and (c).
  • OS overall survival
  • (d) is the overall survival curve for 1198 samples from the Merged 1259 cohort, except for 61 non-clinical samples: The 5-year survival rate for each molecular subtype was 67.3% for the INF (95% confidence interval 61.3-73.9). %), 58.8% (95% confidence interval 52.9-65.4%) for INT, 55.3% (95% confidence interval 48.2-63.4%) for GST, 45.0% (95% confidence interval 36.5-55.4%) for MXD In the case of MSC, 33.0% (95% confidence interval 27.3-40.0%).
  • (e) is a five-year overall survival curve for the 26 gene groups grouped from the qPCR325 cohort results: 78.5% (95% confidence interval 69.4-88.8%) for INF, 70.7% (95% confidence interval 61.1-81.8%) for INT, 68.4% (955.1 confidence interval 55.1-84.9%) for GST, 54.6% (95% confidence interval 41.7-71.4%) for MXD, MSC 57.5% (95. confidence interval 48.4-68.2%).
  • FIG. 9 shows a detailed flowchart of selecting and analyzing 26 genes (miniClassifier-26) having stability in microarray data and qPCR data of fresh frozen tissue and qPCR of paraffin embedded samples.
  • FIG. 10 illustrates a method of naming five clusters obtained through NMF clustering as molecular subtypes.
  • the present invention relates to a composition for predicting prognosis of gastric cancer stages 2 and 3, including an agent for measuring the expression level of mRNA of a reference gene group including ACTB, ATP5E, GPX1, UBB, and HPRT1.
  • composition for predicting prognosis in stages 2 and 3 of the gastric cancer of the present invention may be used for predicting the prognosis of advanced gastric cancer patients in terms of survival rate by measuring the mRNA expression level of a target gene group.
  • progressive gastric cancer refers to gastric cancer corresponding to stages 2 to 3 based on the AJCC 6 edition.
  • target gene or “marker gene” are used interchangeably within the specification and can distinguish between normal or pathological conditions, predict 5-year survival after treatment, or objectively measure predictive response to treatment.
  • Mean marker a gene that can be used to predict the prognosis of advanced gastric cancer, a gene showing differential mRNA expression levels that increase or decrease with respect to the prognosis.
  • five molecular subtypes namely Intestinal molecules, are obtained by securing statistical significance in microarray data and qPCR data of fresh frozen tissue and qPCR data of paraffin-embedded sample specimens for gastric cancer having heterogeneity.
  • TFF1, TFF2, VSIG1, CNN1, NEXN, SCRG1, SORBS1, SPARCL1, AURKA, BUB1, CDC20, CEP55, PTTG1, UBE2C, CD8A, GBP1, GBP5, GZMB, NKG7, WARS, ANTXR1, SFRP4, VCAN, CDH17, CDX1 and MYO1A were selected.
  • the term "reference gene” refers to a gene that is always stably expressed. That is, it is used to investigate the expression level of the marker gene by comparing the expression level of the reference gene with the expression level of the marker gene as a gene that is constantly expressed in any tissue. That is, since there is a quality difference and a variation depending on the storage organ for each sample, it is difficult to determine the measured amount as a biological variation even when the gene expression level is measured. Therefore, the gene expression amount ( ⁇ Cq) between samples is determined through normalization.
  • the standardization method includes a method by a quantile, a global normalization method, a method by a reference gene, etc., but the present invention uses standardization by a reference gene.
  • a single gene as a reference gene may be less accurate, it is possible to select a plurality of genes and to investigate the variability to select a reference gene suitable for the characteristics of the tissue.
  • genes disclosed in the literature related to gastric cancer or used in existing commercialized products are selected, and whether or not the genes are selected for the selected genes are used as reference genes.
  • a gene having the smallest variance through qPCR is selected as a reference gene by comparing cancer tissues and normal tissues of esophageal cancer, pancreatic cancer, gastric cancer, and colon cancer with 21 reference genes disclosed in the literature. It was.
  • ACTB ACTB
  • ATP5E ATP5E
  • GPX1 UBB
  • HPRT1 HPRT1
  • the term "measurement of the expression level of mRNA” refers to measuring the amount of mRNA by confirming the mRNA expression level of prognostic marker genes in a biological sample in order to predict recurrence of advanced gastric cancer.
  • quantitative real-time polymerase chain reaction qPCR
  • qPCR quantitative real-time polymerase chain reaction
  • the agent for measuring the expression level of mRNA of the prognostic marker gene comprises a primer, probe or antisense nucleotide that specifically binds to the mRNA of the prognostic marker gene. Since the information of the prognostic marker gene according to the present invention is known to GenBank, UniProt, etc., those skilled in the art will be able to easily design primers, probes or antisense nucleotides that specifically bind to mRNA of the gene.
  • the term “primer” is a fragment that recognizes a target gene sequence, which includes primer pairs in the forward and reverse directions, but is preferably a primer pair that provides an analysis result with specificity and sensitivity. High specificity can be imparted when the nucleic acid sequence of the primer is a sequence that is inconsistent with the non-target sequence present in the sample so that only the target gene sequence containing the complementary primer binding site is amplified and does not cause nonspecific amplification.
  • the primer sets described in SEQ ID NOS: 1 to 62 can be used. Primer sets for each target gene group and reference gene group are listed in Tables 1 and 2 below.
  • the term "probe” refers to a substance that can specifically bind to a target substance to be detected in a sample, and means a substance that can specifically confirm the presence of the target substance in the sample through the binding.
  • the type of probe is a material commonly used in the art, but is not limited.
  • the probe may be a peptide nucleic acid (PNA), a locked nucleic acid (LNA), a peptide, a polypeptide, a protein, an RNA, or a DNA.
  • the probes are biomaterials, including those derived from or similar to organisms or produced in vitro, for example, enzymes, proteins, antibodies, microorganisms, animal and plant cells and organs, neurons, DNA, and It may be RNA, DNA includes cDNA, genomic DNA, oligonucleotides, RNA includes genomic RNA, mRNA, oligonucleotides, examples of proteins may include antibodies, antigens, enzymes, peptides and the like. According to one embodiment of the invention, the probes described in SEQ ID NOS: 63-93 can be used. Preferably, the probe may be fluorescently labeled. Probes for each target gene group and reference gene group are listed in Tables 1 and 2 below.
  • antisense refers to the nucleotide base of an antisense oligomer that hybridizes with a target sequence in RNA by Watson-Crick base pairing, typically allowing formation of mRNA and RNA: oligomeric heterodimers within the target sequence. Oligomer with backbone between sequence and subunit. The oligomer may have exact sequence complementarity or approximate complementarity to the target sequence.
  • prognostic prediction refers to determining the susceptibility of a subject to a particular disease or condition, prognosis (eg, pre-metastatic or metastatic cancer) of a subject having a particular disease or condition. Identification of the condition, determination of the stage of the cancer or determination of the responsiveness of the cancer to treatment), or therametrics (eg, monitoring the condition of the subject to provide information about the efficacy of the treatment). .
  • prognosis of post-operative gastric cancer patients is predicted in terms of overall survival.
  • the target gene is selected as follows. First, a consensus-based NMF is performed on advanced gastric cancer tissues to determine a subtype that distinguishes five highly related molecular features, and selects a subtype-specific gene group.
  • the NMF nonnegative matrix factorization is a method of classifying samples having high similarity of expression patterns into subtypes by dimension reduction method.
  • a common factor is separated through an NMF algorithm by factoring a matrix into two non-negative matrices using a resource reduction method.
  • the actual information group is called V
  • the matrix to be separated is called W or H.
  • V ⁇ WH is satisfied
  • W denotes a base matrix
  • H denotes a coding matrix.
  • V is the sum of the bases of W, where V is the size of (n X m), W is the size of (n X r), and H is the size of (r X m).
  • Partial representation is possible because high-dimensional data matrices are decomposed into low-order coefficient matrices and base matrices, and each matrix is sparse. With this algorithm, gastric cancer can be applied to stomach cancer subtypes by forming groups of similarities.
  • each subtype As a result of distinguishing the molecular heterogeneity by deriving the characteristics of each subtype from the biological gene set, it is divided into five subtypes, that is, Intestinal molecular subtype, Inflammatory molecular subtype, Mesenchymal molecular subtype, Mixed-stromal molecular subtype, and Gastric molecular subtype. do.
  • WGCNA Weighted correlation network analysis
  • gastric signature consisting of TFF1, TFF2 and VSIG1
  • Mesenchymal signature consisting of CNN1, NEXN, SCRG1, SORBS1 and SPARCL1
  • Proliferative signature consisting of AURKA, BUB1, CDC20, CEP55, PTTG1 and UBE2C
  • Immune signature consisting of CD8A, GBP1, GBP5, GZMB, NKG7 and WARS
  • Stem-like signature consisting of ANTXR1, SFRP4 and VCAN
  • an intestinal signature consisting of CDH17, CDX1 and MYO1A.
  • the 26 selected genes were defined as target gene groups, and the score of each target gene ( ) Is used to calculate the average expression value of each signature of the target gene group and identify the molecular subtypes classified therefrom.
  • the prognosis is predicted through the survival curve of each molecular subtype. For example, the molecular subtypes are classified into good prognosis, intermediate prognosis and poor prognosis in terms of overall survival. Specifically, when the gastric cancer molecular subtype is Inflammatory molecular subtype, good prognosis in terms of overall survival; Intermediate prognosis for Intestinal and Gastric molecular subtypes; Mixed-stromal and mesenchymal molecular subtypes are predicted to be poor prognosis.
  • composition for predicting prognosis of stage 2 and 3 of the gastric cancer of the present invention may further include a pharmaceutically acceptable carrier.
  • Such pharmaceutically acceptable carriers include carriers and vehicles commonly used in the pharmaceutical arts, and in particular, ion exchange resins, alumina, aluminum stearate, lecithin, serum proteins (eg, human serum albumin), buffer materials (eg, Various phosphates, glycine, sorbic acid, potassium sorbate, partial glyceride mixtures of saturated vegetable fatty acids), water, salts or electrolytes (e.g.
  • protamine sulfate disodium hydrogen phosphate, carbohydrogen phosphate, sodium chloride and zinc salts
  • gelatinous Silica magnesium trisilicate
  • polyvinylpyrrolidone polyvinylpyrrolidone
  • cellulosic substrates polyethylene glycols, sodium carboxymethylcellulose, polyarylates, waxes, polyethylene glycols or wool, and the like.
  • composition of the present invention may further include a lubricant, a humectant, an emulsifier, a suspending agent, or a preservative in addition to the above components.
  • the present invention also relates to a kit for predicting prognosis of stages 2 and 3 of gastric cancer comprising a composition for predicting prognosis of stages 2 and 3 of gastric cancer.
  • the kit may be a Quantitative Real-time Polymerase Chain Reaction (qPCR) kit or the like.
  • qPCR Quantitative Real-time Polymerase Chain Reaction
  • the kit for predicting prognosis in stages 2 and 3 of gastric cancer may further include one or more kinds of other component compositions, solutions or devices suitable for analytical methods.
  • the diagnostic kit may further include essential elements necessary for performing the qPCR response.
  • the qPCR kit contains primer pairs specific for the gene encoding the marker protein.
  • the primer is a nucleotide having a sequence specific to the nucleic acid sequence of the gene, it may have a length of about 7 bp to 50 bp, more preferably about 10 bp to 30 bp. It may also include primers specific for the nucleic acid sequence of the control gene.
  • qPCR kits include test tubes or other suitable containers, reaction buffers (pH and magnesium concentrations vary), deoxynucleotides (dNTPs), enzymes such as Taq-polymerase and reverse transcriptase, DNase, RNase inhibitor DEPC-number ( DEPC-water), sterile water, and the like.
  • the kit for predicting prognosis of stage 2 and 3 of the gastric cancer of the present invention may include necessary elements necessary for performing a DNA chip.
  • the DNA chip kit may include a substrate on which a cDNA or oligonucleotide corresponding to a gene or a fragment thereof is attached, and a reagent, a preparation, an enzyme, or the like for preparing a fluorescent label probe.
  • the substrate may also comprise cDNA or oligonucleotide corresponding to the control gene or fragment thereof.
  • the present invention also relates to the reference and biological samples obtained from patients with stage 2 and 3 advanced gastric cancer having a number of samples capable of indicating statistical significance,
  • Gastric signature consisting of TFF1, TFF2 and VSIG1; Mesenchymal signature consisting of CNN1, NEXN, SCRG1, SORBS1 and SPARCL1; Proliferative signature consisting of AURKA, BUB1, CDC20, CEP55, PTTG1 and UBE2C; Immune signature consisting of CD8A, GBP1, GBP5, GZMB, NKG7 and WARS; Stem-like signature consisting of ANTXR1, SFRP4 and VCAN; Measuring mRNA expression levels of a target gene group including an intestinal signature consisting of CDH17, CDX1 and MYO1A and a reference gene group including ACTB, ATP5E, GPX1, UBB and HPRT1;
  • Non-negative matrix factorization (NMF) and NMF-based clustering are performed on the values inputted to the computer program, and classified into a plurality of clusters, and scores of target gene groups in each cluster ( )
  • Score Value SV
  • Intestinal molecular subtype Inflammatory molecular subtype
  • Mesenchymal molecular subtype Mesenchymal molecular subtype
  • Mixed-stromal molecular subtype Gastric molecular subtype according to SV
  • Overall Survival Predicting the prognosis of the molecular subtype to which the biological sample belongs by analyzing the prognosis
  • the molecular subtypes of the gastric cancer may be defined as gastric molecular subtypes in which the SV of the gastric signature has a maximum value; Clusters having the maximum value of the mesenchymal signature and the minimum value of the SV of the proliferative signature are selected as the Mesenchymal molecular subtype among the clusters except the gastric molecular subtypes; Clusters having the maximum value of the SV of the immune signature and the minimum value of the SV of the intestinal signature were designated as the Inflammatory molecular subtypes among the clusters except the gastric and subtypes of the mesenchymal molecular subtype; If the SV of the stem-like signature has a maximum value among the clusters except the gastric molecular subtype, the Mesenchymal molecular subtype, and the Inflammatory molecular subtype, the mixed-stromal molecular subtype is determined; Finally, the remaining clusters are classified into Intestinal molecular subtypes.
  • the present invention relates to a method of providing information for predicting prognosis of stages 2 and 3 of gastric cancer, or a method of predicting prognosis of stages 2 and 3 of gastric cancer predicting a poor prognosis.
  • the Cq mean value of the reference gene group means an average value of the Cq values of the reference gene group including ACTB, ATP5E, GPX1, UBB, and HPRT1.
  • t the number of genes (i) belonging to the signature
  • Is the signature ( ⁇ 6)
  • k the number of clusters and is an integer from 2 to 7
  • the threshold ( ⁇ ) is set to 0.1 so that genes without specific molecular subtypes converge to 0, Is Means the sign of, Is obtained according to the following equation 4,
  • the expression level of mRNA of the target gene group is measured in a certain number of reference samples obtained from stage 2 and 3 tumors, and the mRNA of the target gene group of biological samples obtained from stage 2 and 3 tumors is measured.
  • the expression level is measured and a value corresponding to the expression level of mRNA of the target gene group of the reference sample and the biological sample is input to the computer program.
  • the predetermined number i.e., the number of reference samples that can represent statistical significance, may be significant when the non-negative matrix factorization (NMF) is performed on the mRNA expression level of the target gene group. Means the number of samples.
  • NMF non-negative matrix factorization
  • the reference sample number should be a number that can be classified into a plurality of clusters while showing a different gene expression pattern according to NMF-based clustering.
  • the number of reference samples that meet these conditions may preferably be between 300 and 10,000.
  • the mRNA expression level of the target group of genes can preferably be determined by qPCR, and mRNA expression level by qPCR is defined as ⁇ Cq value.
  • the Cq value was 10 min at 95 ° C. (initial denaturation); Refers to the number of cycles in which amplification begins to increase markedly during PCR for 10 seconds at 95 ° C., 40-45 times (denatured), 5 seconds at 60 ° C. (annealing) and 25 seconds at 72 ° C. (extended).
  • ⁇ Cq values are calculated according to the following equation 1 using the Cq mean values of the target gene group and the reference gene group.
  • the Cq mean value of the reference gene group means an average value of the Cq values of the reference gene group including ACTB, ATP5E, GPX1, UBB, and HPRT1.
  • the value corresponding to the mRNA expression level of the target gene group input to the computer program means the ⁇ Cq value.
  • NMF and NMF-based clustering are performed on the ⁇ Cq values of the target gene group of the reference sample and the biological sample inputted into the computer program, and classified into a plurality of clusters, and the score of the target gene group in each cluster ( )
  • SV Score Value
  • the prognosis may be analyzed to predict the prognosis of the molecular subtype to which the biological sample belongs.
  • SV is the mean expression value of each signature in the cluster obtained for NMF-based clustering
  • t is the number of genes (i) belonging to the signature
  • Is the signature ( ⁇ 6)
  • k is the number of clusters and is an integer from 2 to 7
  • Is a score based on the distance between the overall mean of each gene and the mean of each cluster.
  • k may preferably be 5. That is, it means five clusters obtained through NMF-based clustering.
  • the score ( ) Is a score based on the distance between the total mean of each gene and the mean of each cluster, that is, the t-statistic of the gene (i), and is normalized by weighting the amount of expression of the sample gene within the same molecular subtype.
  • a statistical method commonly used in Linear Discriminant Analysis (LDA) is obtained according to Equation 3:
  • the threshold ( ⁇ ) is set to 0.1 so that genes without specific molecular subtypes converge to 0, Is Means the sign of, Is obtained according to the following equation 4:
  • the molecular subtypes of the gastric cancer may be defined as gastric molecular subtypes in which the SV of the gastric signature has a maximum value; Clusters having the maximum value of the mesenchymal signature and the minimum value of the SV of the proliferative signature are selected as the Mesenchymal molecular subtype among the clusters except the gastric molecular subtypes; Clusters having the maximum value of the SV of the immune signature and the minimum value of the SV of the intestinal signature were designated as the Inflammatory molecular subtypes among the clusters except the gastric and subtypes of the mesenchymal molecular subtype; If the SV of the stem-like signature has a maximum value among the clusters except the gastric molecular subtype, the Mesenchymal molecular subtype, and the Inflammatory molecular subtype, the mixed-stromal molecular subtype is determined; Finally, the remaining clusters are classified into Intestinal molecular subtypes.
  • the prognosis is predicted in terms of overall survival rate through the survival curve of each molecular subtype.
  • the molecular subtypes of the gastric cancer show a differentiated prognosis in the survival curve, and in the case of Inflammatory molecular subtypes, a good prognosis group in terms of overall survival rate; Intermediate prognosis for Intestinal and Gastric molecular subtypes; Mixed-stromal and mesenchymal molecular subtypes can be predicted as poor prognosis.
  • the molecular subtype to which the biological sample belongs can be determined, and the prognosis can be predicted through the survival curve of the molecular subtype.
  • the biological sample may be a fresh tumor tissue, a fresh frozen tumor tissue, a paraffin embedded tumor tissue, fine needle aspirating fluid, ascites, tubular lavage fluid or pleural fluid, and preferably a paraffin embedded tumor tissue.
  • the expression level of the mRNA of the target gene group can be measured by qPCR.
  • RNA expression profiles from 497 samples of surgically removed frozen GC tumor tissue were measured using a HumanHT-12 v3.0 Expression BeadChip array (Illumina) with 48,803 gene characteristics (GSE13861p).
  • Total RNA was extracted using MasterPure TM Complete DNA and RNA Purification Kit (Epicenter) to obtain qPCR325.
  • cDNA was generated using M-MLV Reverse Transcriptase (Life Technologies). cDNA concentrations were determined using NanoDrop 2000.
  • Microarray data sets were processed primarily in the R language environment. Normalization was performed by Between-Array Normalization (quantile) of the "Linear Model for Microarray Data" package for the data set of the Illumina BeadChip array platform. GSE 15459 and GSE62254 were standardized using the R "affy” package with robust multi-array mean normalization. qPCR data sets were standardized by internal standards. Gene filtering requires consideration of platform-derived probe effectiveness and gene expression differences. For the training set, the data sets were batch adjusted and then combined with the "Prevent batch effects when combining batches of gene expression microarray data (ComBat)" method.
  • ComBat gene expression microarray data
  • NMF -based classification ComBat merge data was classified using the "Nonnegative Matrix Factorization (NMF) Algorithm and Framework” package. The number of clusters k was set from 2 to 7. The Brunet method is used as an update algorithm for iterative approximation. Before characterizing NMF derived clusters, outlier samples were excluded from each cluster using the "Silhouette” R package. SAM and PAM were performed using the Bioconductor packages “siggenes" and “pamr", respectively, to define the genes representing each NMF cluster.
  • NMF Nonnegative Matrix Factorization
  • WGCNA Analysis WGCNA was performed on 497 GC samples using the R "wgcna" package.
  • the weighted network adjacency is defined by the similarity expressed as the power of six.
  • the "soft thresholding procedure” provided by WGCNA was followed to avoid random cutoff selection.
  • dynamicTreeCut dynamic hybridization of the R “dynamicTreeCut” package is applied.
  • Various module characteristics such as connectivity, module importance, and module eigengene were used to assess whether each module was related to survival and clinical pathological variables.
  • GSEA Gene set enrichment analysis
  • Survival analysis was performed using Cox proportional risk model and meta-analysis of HR in R "survival” and “meta” packages.
  • Hierarchical Clustering and Illustration of Gene Expression Profiles Gene clustering of microarray data sets was performed using Gene Cluster 3.0. Hierarchical clustering results were visually visualized using the R "gplots" package.
  • Primary cell culture Primary tissues were rinsed with Dulbecco's phosphate-buffered saline (Welgene LB00-02) containing 2% antibiotic (Welgene LS203-01) and trimmed with sterile blades. After 0.2 ⁇ m syringe filtration, the minced tissue was incubated with ⁇ -MEM (Gibco A10490) and 150 U / mL Collagenase II (Thermo Fisher Scientific) at a humidified atmosphere of 5% CO 2 for 24 hours at 37 ° C. The cultured tissue was centrifuged at 200 x g for 5 minutes and then transferred to fresh medium. Harvested cells were incubated at 37 ° C. for 2-3 days under 5% CO 2 atmosphere.
  • ⁇ -MEM Gibco A10490
  • Collagenase II Thermo Fisher Scientific
  • RNA purity was determined by analyzing 1 ⁇ l of total RNA extract on a NanoDrop8000 spectrophotometer. Total RNA integrity was confirmed using Agilent Technologies 2100 Bioanalyzer as a percentage of RNA Integrity Number (RIN) value and RNA Fragment> 200nt Fragment Distribution Value (DV200). Total RNA sequencing libraries were prepared according to the manufacturer's instructions (Illumina TruSeq RNA Access Library kit). 100 ng of total RNA was then split into small pieces using a divalent cation at high temperature.
  • Random priming was used to generate cDNA from the truncated RNA fragments during the first and second strand synthesis, and sequencing adapters were ligated to the resulting double stranded cDNA fragments.
  • the coding region of the transcript was captured from this library using sequence specific probes to generate the final library.
  • the quality of the amplified library was confirmed by capillary electrophoresis (Bioanalyzer, Agilent). After qPCR using the SYBR Green PCR Master Mix (Applied Biosystems), an equivalent molar tagged tagged library was bound to the pool.
  • Cluster generation was realized in the flow cell of the cBot automated cluster generation system (Illumina). The flow cell was then loaded onto a HiSeq 2500 Sequencing System (Illumina) and sequencing was performed using a 2 ⁇ 100 bp read length.
  • human gastric cancer cell lines SNU-1, SNU-5, SNU-16, SNU-216, SNU-484, SNU-520, SNU-601, SNU-620, SNU-638, SNU-668, SNU-719, MKN MKN-45, MKN-74, KATOIII, NCI-N87 and Hs746T were purchased from the Korea Cell Line Bank (Seoul, Korea); And YCC-1, YCC-2, YCC-3, YCC-6, YCC-7, YCC-9, YCC-10, YCC-11 and YCC-16 were purchased from Yonsei Cancer Institute (Seoul, Korea).
  • SNU-1, SNU-5, SNU-16, SNU-216, SNU-484, SNU-520, SNU-601, SNU-620, SNU-638, SNU-668, SNU-719, MKN- 28, MKN- 45, MKN-74, KATOIII and NCI-N87 were grown in RPMI 1640 (Welgene, Daegu, Korea); Hs746T was grown in Dulbecco's modified Eagle's medium (DMEM; Welgene, Daegu, Korea); And, YCC-1, YCC-2, YCC-3, YCC-6, YCC-7, YCC-9, YCC-10, YCC-11, and YCC-16 are the minimum essential media Eagle (MEM; Welgene, Daegu, Korea).
  • MEM Dulbecco's modified Eagle's medium
  • All cells were 5% in complete medium supplemented with 10% FBS (Gibco) and 1% antibiotic-antibacterial solution (10,000 units penicillin, 10 mg streptomycin, 25 ⁇ g amphotericin B / mL, Sigma-Aldrich) at 37 ° C. The cells were cultured in a humidified atmosphere containing CO 2 . All cells were confirmed negative for mycoplasma by e-Myco TM and Mycoplasma PCR Detection Kit (iNtRON Biotechnology, Seongnam, Korea).
  • Invasive assay For analysis, 2 ⁇ 10 4 HUVEC cells in culture medium (M199) were placed in a transwell coated with fibronectin and the bottom was coated with 0.2% gelatin and incubated for 48 hours until monolayer formation. Then the FBS-free was added to CellTracker TM (Molecular Probes, C2925) of 1 ⁇ 10 5 / 50 ⁇ l Hs746T and NCI-N87 cell for containing the separate on transwell. Culture medium containing 10% FBS was added to the lower chamber. After incubation for 48 hours, the upper cells of the membrane were removed with a cotton swab. The cells of the lower membrane were lysed with 200 ⁇ l of lysis buffer at room temperature for 2-3 hours. Fluorescence was measured by Ex / Em 492/517. 50 ⁇ M was administered to LY2157299 (AdooQ, California, USA) to determine the effect of TGF- ⁇ inhibitors on cell invasive capacity.
  • Hs746T and NCI-N87 cells were grown in monolayers in culture medium containing 10% FBS and 1% antibiotics. Once the confluency reached 70%, the cell monolayer was scraped off with a 100 ⁇ l pipette tip. Wound width was measured after 72 hours and normalized to the measured wound width immediately after scraping. LY2157299 (50 ⁇ M) was administered to assess the effect of TGF- ⁇ inhibitors on cell migration.
  • Tumor Spheroid Formation Assay In 96-well plates, 10 cells were cultured in 50 ⁇ l of DMEM / F12 (Gibco) with bFGF, EGF, B27, 10% FBS and 1% antibiotic. After 30 days of culture, tumor spheroids were counted in each well. In addition, LY2157299 (50 ⁇ M) was administered to investigate the effect of TGF- ⁇ inhibitors on tumor spheroid formation.
  • LY2157299 (1.5 mg / mouse) was administered to the intratumoral injection model twice a week.
  • Heterogeneity testing of miniClassifier- 26 for qPCR analysis To examine the possibility that spatial heterogeneity would affect the inventive procedure of preparing tissue samples from FFPE samples, three tissue samples were obtained from a single FFPE sample for RNA extraction. . After preparing cDNA, qPCR was performed three times to average the three individual samples from a single tumor sample. Dispersion coefficients for each gene were evaluated to determine the heterogeneity of the three samples.
  • TMA tissue microarray
  • IHC is based on the Ventana XT system (Ventana Corporation, Roche) with antibodies for MutL homolog 1 (MLH1, ready for use, Roche, Basel, Switzerland), MutS protein homolog 2 (MSH2, ready for use, replication G219-1129), IHC was performed as described above.
  • MLH1 and MSH2 lack of nuclear staining in tumor cells was defined as loss of expression, and normal expression was defined as the presence of nuclear expression in tumor cells. All IHC results were evaluated without knowledge of clinical pathological features.
  • EBER ISH was performed with a Ventana Bench Mark system (ISH iView Kit, Ventana Corporation, AZ, USA). Paraffin embedded tissue sections were deparaffinized with EZ Prep buffer (Ventana Corporation) and digested with protease I for 4 minutes. The probe for EBER was then denatured at 85 ° C. for 10 minutes and then hybridized at 37 ° C. for 1 hour. After hybridization, tissues were washed with 2 ⁇ SSC buffer at 57 ° C. Subsequent incubation with anti-fluorescein monoclonal antibody was followed for 20 minutes followed by the Alkali Blue Detection Kit (Ventana Corporation) according to the manufacturer's protocol. Slides were counterstained with Nuclear Fast Red for 10 minutes.
  • the 5-year survival rate for each subtype was determined: the 5-year survival rate for each molecular subtype was 76.1% (95% confidence interval 67.7-85.7) for INF, 65.1% (95% confidence interval 56.2-75.4) for INT, and GST. 64.6% (95% confidence interval 55.0-75.9), 51.3% (MX% 42.1-62.4) for MXD, 46.3% (95% confidence interval 38.0-56.5) for MSC.
  • the INF subtype was associated with a significantly lower risk of death than the MXD and MSC subtypes of Training Set I.
  • MXD subtypes are associated with structural chromosomal instability by TCGA.
  • Subtype matching in the non-MSC and non-INF GC populations tended to be pathologically ambiguous, probably because TCGA and ACRG used somatic copy number and TP53 activity as classifiers.
  • NCI-N87 and MKN-45 cells assigned to INT subtypes were used as controls without substrate signature (FIG. 6B).
  • Hs746T and SNU484 cells showed more invasive performance and motility than NCI-N87 and MKN-45 cells (FIG. 7A, b).
  • Hs746T and SNU484 cells showed stem cell-like properties (FIG. 7C).
  • T2 weighted axis magnetic resonance imaging of an in vivo in situ tumor model showed that NCI-N87 and MKN-45 cells formed a restricted tumor, while Hs746T and SNU484 tumors spread along the gastric wall (FIG. 7E, white dotted line).
  • TGF- ⁇ inhibitor LY2157299
  • Treatment with TGF- ⁇ inhibitors delayed the ability of Hs746T cells for wound healing, invasion and 3D spheroid formation in vitro (FIG. 7E-G).
  • Oxaliplatin + 5-FU treatment was only slightly effective against tumor growth in the Hs746T model, but co-administration of TGF- ⁇ inhibitor / oxaliplatin + 5-FU significantly reduced drug resistance and tumor amount in Hs746T (FIG. 7H).
  • the combination of anticancer agents reduced tumor growth in non-stromal NCI-N87 tumors without the aid of TGF- ⁇ inhibitors (FIG. 7I).
  • Classifier-PAM932 was purified with miniClassifier-26 with a qPCR probe set to establish a stable and clinically available classification system (FIG. 8) (FIG. 9 shows a flow chart for selecting and analyzing miniClassifier-26). The degree of representativeness of GC stability was considered for classifier selection.
  • PAM analysis subtype discrimination score
  • WGCNA analysis intramodule connectivity
  • Probe stability was evaluated based on platform (microarray and qPCR) and sampling method (fresh-freeze and FFPE samples) independence. Finally, genes were reduced by a priori biological knowledge of cancer biology to obtain a miniClassifier-26 qPCR probe set. It was also confirmed that the selected miniClassifier-26 probe set was not affected by the possible spatial heterogeneity (5% dispersion coefficient) of the FFPE sample.
  • the INF subtype has the best prognosis (67.3% for five years, 61.3-73.9% for 95% CI), and MXD (45.0% for five years, 95% CI 36.5-55.4%).
  • MSC year survival rate of 33.0%, 95% CI 27.3-40.0%) had the worst prognosis.
  • the best prognostic INF subtype has a 5 year survival rate of 78.5% (95% CI 69.4-88.8%), and the poorest prognostic MXD and MSC subtypes have a 5 year survival rate of 54.6% (95% CI 41.7-71.4%) and 57.5, respectively. % (95% CI 48.4-68.2%).
  • Inflammatory molecular subtypes are associated with immune signatures
  • Intestinal molecular subtypes are associated with high expression of intestinal epithelial differentiation genes
  • gastric molecular subtypes are associated with high expression of gastric mucosa-specific genes.
  • Mixed-stromal molecular subtypes show heterogeneous transit-amplifying characteristics
  • mesenchymal molecular subtypes are associated with EMT and mesenchymal characteristics.
  • Table 3 scores the target gene expression patterns of FIG. ). Score of Table 3 ), Positive means high expression of the gene, negative means low expression of the gene, 0 means no change in the expression of the gene. Therefore, the higher the positive value, the higher the expression, and the larger the negative value, the lower the expression.
  • the score ( ) Can be applied to Equation 2 below to calculate SV (Score Value), and can be classified into Intestinal molecular subtype, Inflammatory molecular subtype, Mesenchymal molecular subtype, Mixed-stromal molecular subtype, and Gastric molecular subtype according to SV:
  • SV is the mean expression value of each signature in the cluster obtained for NMF-based clustering
  • t is the number of genes (i) belonging to the signature
  • Is the signature ( ⁇ 6)
  • k is the number of clusters and is an integer from 2 to 7
  • Is a score based on the distance between the overall mean of each gene and the mean of each cluster.
  • FIG. 10 illustrates a method of naming five clusters as molecular subtypes, wherein a cluster having a maximum value of SV of a gastric signature is defined as a gastric molecular subtype, and an SV of a mesenchymal signature has a maximum value among the remaining four clusters.
  • the cluster with minimum SV of proliferative signature is defined as Mesenchymal molecular subtype
  • the cluster with minimum SV of intestinal signature is designated as Inflammatory molecular subtype while the SV of immune signature has maximum value among the remaining 3 clusters
  • the mixed-stromal molecular subtype is defined, and the remaining cluster is named the Intestinal molecular subtype.
  • LDA linear discriminant analysis
  • j is a sample within the molecular subtype (k), Is Degrees of freedom for correcting the standard error of, Is Is the median of.
  • Table 3 is a molecular subtype classification table, where red means maximum and blue means minimum, and scores of 26 target genes for 325 samples ( Calculated according to equations 3 and 4 from Molecular subtype classification criteria table prepared based on.
  • the values calculated in Equation 3 and 4 for Equation 5 for the expression value of the target gene group of the test sample are applied to Equation 5, and the scores of )
  • the molecular subtype classification criteria table Can determine the molecular subtype (k) of:
  • test sample ( ) Is the median centering of 26 target gene Cq values with 26 target gene Cq values from 325 test set II
  • test sample (k) As a score for determining the molecular subtype “k” of)
  • the molecular subtype (k) having the smallest discrimination score of the test sample is selected and classified.
  • Table 4 According to the conformity rate and error rate for the molecular subtype determination for 325 samples.
  • the present invention can be applied to the field of gastric cancer prognosis prediction.

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Organic Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Oncology (AREA)
  • Microbiology (AREA)
  • Hospice & Palliative Care (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Physiology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Signal Processing (AREA)

Abstract

본 발명은 위암의 생물학적 특성에 기반한 군 구분 및 예후 예측 시스템에 관한 것으로, 진행성 위암의 예후 표적 유전자군의 mRNA 발현 수준의 정량적 검사 결과를 이용하여 생존율 측면에서 예후를 예측할 수 있는 알고리즘을 개발하여 위암 환자의 치료방법을 결정하는데 보조적 정보로 활용할 수 있다.

Description

위암의 생물학적 특성에 기반한 군 구분 및 예후 예측 시스템
본 발명은 위암의 생물학적 특성에 기반한 군 구분 및 예후 예측 시스템에 관한 것이다.
전 세계적으로 위암은 암으로 인한 사망률 중 세 번째로 높은 암이며, 특히 국내에서는 예후가 비교적 좋은 것으로 알려진 갑상선암을 제외하고 가장 흔한 암이다. 국내에서는 국가차원의 건강검진을 통한 조기 발견과 수술의 표준화 및 항암치료제의 발견 등으로 위암환자의 생존율이 많이 향상되었으나, 현재 표준화된 치료에도 불구하고 여전히 2기, 3기 진행성 위암의 경우 약 절반 정도의 환자가 재발을 경험한다.
암은 유전체 질환으로 인식되고 있으며, NGS(Next Generation Sequencing) 등의 유전체 검사 기술 발전에 따라 암을 기존의 해부학적, 병리학적 표현형에 따른 분류가 아닌, 분자적 생물학적 특성에 따라 분류하려는 노력이 있어 왔다. TCGA(The Cancer Genome Atlas) 프로젝트에서 위암이 그 다양한 분자적 특징에 따라 크게 4가지 형태로 나누어질 수 있음이 최근 보고된 바 있다. 이는 해부학적으로 동일한 병기라고 하더라도 분자적 생물학적 특징에 따라 예후와 항암제에 대한 반응 정도가 다를 수 있음을 의미한다.
최근에 발표된 295명 위암 환자의 TCGA 프로젝트 결과를 보면, 위암은 ① EBV 양성 위암(Epstein-Barr virus positive, EBV positive) ② 초위성체 불안정형(Microsatellite instability-high, MSI-H), ③ 염색체 불안정형(Chromosomal instability, CIN) ④ 유전체 안정형 위암(Genomically stable, GS)의 4가지로 구분된다. 이러한 방대한 Cancer Genome Sequencing을 통하여 위암도 한 가지 단일한 암종이 아닌, 분자유전학적으로 구별되는 이질적인 소그룹으로 나누어진다는 점을 알 수 있다. 따라서, 위암의 개인맞춤 치료를 실현하기 위해서는 분자유전학적 특징 및 병리학적 특징에 기반한 서브타입을 구별하여 각각의 타겟 유전자를 발굴, 적용이 필요함을 시사한다. 또한, 위암의 연구 측면에서 위암의 아형 구분에 따라 예후가 구분될 수 있는 결과가 보고되고 있다.
위암 수술에 따른 항암제 치료 후 환자의 예후를 예측할 수 있다면 각 예후에 따라서 이에 맞는 치료전략을 수립할 수 있는 근거자료가 될 것이다. 현재 표준화된 치료 관행상 2, 3기의 진행성 위암에서는 수술 후 보조 항암요법을 모든 환자에게 사용되고 있다. 이는 예후가 나쁜 군에 대해서는 과소치료(undertreatment)일 수 있다. 즉, 예후가 좋지 않은 환자군에 대해서 현재의 표준 치료 이외에 다른 추가적인 치료 방법에 대한 전략을 개발할 수 있는 임상학적인 의미를 가진다고 할 수 있다.
2010년 이후 현재 2기, 3기 진행성 위암의 경우 표준화된 D2 위절제술 이후 보조 항암요법이 위암 환자의 생존율을 높인다는 것을 발견하였고, 현재 이는 표준 치료법에 해당된다. 전통적으로 위암은 그 해부학적 병리학적 표현형에 따라 분류하였고, TNM 병기 분류법에 따라 2기 이상의 경우 항암치료를 하고 있으나 항암치료에 따른 예후를 예측할 수 있는 방법이 TNM 병기 이외에는 없는 상황이다.
본 발명의 목적은 진행성 위암(2기-3기: AJCC 6판 기준) 환자의 수술 후 예후를 예측할 수 있는 표적 유전자군의 mRNA 발현 수준의 정량치를 기반으로 하는 진행성 위암의 예후 예측용 조성물을 제공하는 것이다.
본 발명의 다른 목적은 진행성 위암 환자의 수술 후 예후를 예측할 수 있는 표적 유전자군의 mRNA 발현 수준의 정량치를 기반으로 환자의 생존율 측면에서 예후를 예측하기 위한 정보를 제공하는 방법을 제공하는 것이다.
본 발명의 또 다른 목적은 진행성 위암 환자의 수술 후 예후를 예측할 수 있는 표적 유전자군의 mRNA 발현 수준의 정량치를 기반으로 환자의 생존율 측면에서 예후를 예측하는 방법을 제공하는 것이다.
상기 목적을 달성하기 위하여, 본 발명은 TFF1, TFF2, VSIG1, CNN1, NEXN, SCRG1, SORBS1, SPARCL1, AURKA, BUB1, CDC20, CEP55, PTTG1, UBE2C, CD8A, GBP1, GBP5, GZMB, NKG7, WARS, ANTXR1, SFRP4, VCAN, CDH17, CDX1 및 MYO1A를 포함하는 표적 유전자군의 mRNA의 발현 수준을 측정하는 제제; 및 ACTB, ATP5E, GPX1, UBB 및 HPRT1를 포함하는 참고 유전자군의 mRNA의 발현 수준을 측정하는 제제를 포함하는 위암 2기 및 3기의 진행성 위암의 예후 예측용 조성물을 제공한다.
본 발명은 또한 상기 위암 2기 및 3기의 예후 예측용 조성물을 포함하는 위암 2기 및 3기의 진행성 위암의 예후 예측용 키트를 제공한다.
본 발명은 또한 통계적 유의치를 나타낼 수 있는 정도의 샘플 수를 갖는 위암 2기 및 3기의 진행성 위암 환자로부터 얻은 기준 샘플과 생물학적 샘플에서,
TFF1, TFF2 및 VSIG1로 이루어진 gastric 시그니처; CNN1, NEXN, SCRG1, SORBS1 및 SPARCL1로 이루어진 mesenchymal 시그니처; AURKA, BUB1, CDC20, CEP55, PTTG1 및 UBE2C로 이루어진 proliferative 시그니처; CD8A, GBP1, GBP5, GZMB, NKG7 및 WARS로 이루어진 immune 시그니처; ANTXR1, SFRP4 및 VCAN로 이루어진 stem-like 시그니처; 및 CDH17, CDX1 및 MYO1A로 이루어진 intestinal 시그니처를 포함하는 표적 유전자군과 ACTB, ATP5E, GPX1, UBB 및 HPRT1를 포함하는 참고 유전자군의 mRNA 발현 수준을 측정하는 단계;
하기 식 1에 따라 기준 샘플과 생물학적 샘플의 표적 유전자군의 ΔCq 값을 계산하여 컴퓨터 프로그램에 입력하는 단계; 및
상기 컴퓨터 프로그램에 입력한 값들에 대해 NMF(Non-negative Matrix Factorization) 및 NMF-기반 클러스터링을 수행하여 복수 개의 클러스터로 분류하고, 각 클러스터에서 표적 유전자군의 스코어(
Figure PCTKR2018004732-appb-I000001
)를 하기 식 2에 적용하여 SV(Score Value)를 계산하고, SV에 따라 Intestinal 분자아형, Inflammatory 분자아형, Mesenchymal 분자아형, Mixed-stromal 분자아형 및 Gastric 분자아형으로 분류하며, 전체 생존율(Overall Survival) 측면에서 예후를 분석하여 생물학적 샘플이 속하는 분자아형의 예후를 예측하는 단계를 포함하고,
상기 위암의 분자아형은, gastric 시그니처의 SV가 최대값을 갖는 클러스터를 Gastric 분자아형으로 정하고; Gastric 분자아형으로 결정된 클러스터를 제외한 클러스터 중 mesenchymal 시그니처의 SV가 최대값을 갖고, proliferative 시그니처의 SV가 최소값을 갖는 클러스터를 Mesenchymal 분자아형으로 정하며; Gastric 분자아형 및 Mesenchymal 분자아형으로 결정된 클러스터를 제외한 클러스터 중 immune 시그니처의 SV가 최대값을 갖고, intestinal 시그니처의 SV가 최소값을 갖는 클러스터를 Inflammatory 분자아형으로 정하고; Gastric 분자아형, Mesenchymal 분자아형 및 Inflammatory 분자아형으로 결정된 클러스터를 제외한 클러스터 중 stem-like 시그니처의 SV가 최대값을 갖는 경우 Mixed-stromal 분자아형으로 정하고; 최종적으로 남은 클러스터를 Intestinal 분자아형으로 정하여 분류하며,
상기 위암의 분자아형이 Inflammatory 분자아형인 경우, 전체 생존율 측면에서 좋은 예후군; Intestinal 분자아형 및 Gastric 분자아형인 경우, 중간 예후군; Mixed-stromal 분자아형 및 Mesenchymal 분자아형인 경우, 나쁜 예후군으로 예측하는, 위암 2기 및 3기의 예후 예측을 위한 정보를 제공하는 방법, 또는 위암 2기 및 3기의 예후 예측 방법을 제공한다:
[식 1]
ΔCq = (표적 유전자의 Cq 값) - (참고 유전자군의 Cq 평균값)
여기서, 참고 유전자군의 Cq 평균값은 ACTB, ATP5E, GPX1, UBB 및 HPRT1를 포함하는 참고 유전자군의 Cq 값의 평균값을 의미한다.
[식 2]
Figure PCTKR2018004732-appb-I000002
여기서, SV는 NMF-기반 클러스터링에 얻은 클러스터에서 각 시그니처의 발현 평균값, t는 해당 시그니처에 속하는 유전자(i)의 수,
Figure PCTKR2018004732-appb-I000003
는 시그니처(θ = 6), k는 클러스터의 수로 2 내지 7의 정수이며,
Figure PCTKR2018004732-appb-I000004
는 각 유전자의 전체 평균과 각 클러스터 평균 사이의 거리를 바탕으로 하는 스코어로, 하기 식 3에 따라 구한다,
[식 3]
Figure PCTKR2018004732-appb-I000005
여기서, 임계치(Δ)는 0.1로 정하여 분자아형별 특이성이 없는 유전자들은 0으로 수렴시키고,
Figure PCTKR2018004732-appb-I000006
Figure PCTKR2018004732-appb-I000007
의 부호를 의미하며,
Figure PCTKR2018004732-appb-I000008
는 하기 식 4에 따라 구한다,
[식 4]
Figure PCTKR2018004732-appb-I000009
여기서, 각 분자아형(k) 내의 해당 유전자(i) 평균값(
Figure PCTKR2018004732-appb-I000010
), 해당 유전자(i)의 전체 평균값(
Figure PCTKR2018004732-appb-I000011
)이며,
Figure PCTKR2018004732-appb-I000012
Figure PCTKR2018004732-appb-I000013
의 표준오차를 보정하기 위한 자유도
Figure PCTKR2018004732-appb-I000014
이고,
Figure PCTKR2018004732-appb-I000015
는 유전자(i)의 전체 샘플에 대한 해당 분자아형(k) 내의 표준편차이고,
Figure PCTKR2018004732-appb-I000016
Figure PCTKR2018004732-appb-I000017
의 중앙값이다.
본 발명은 진행성 위암의 예후를 예측할 수 있는 표적 유전자군의 mRNA 발현 수준의 정량치를 이용하여 전체 생존율 측면에서 예후를 예측할 수 있는 알고리즘을 개발하여 위암 환자의 치료방법을 결정하는데 보조적 정보로 활용할 수 있다.
도 1은 본 발명의 실험 분석 흐름도를 나타낸 것으로, 단계 I은 일련의 분석 결과 위암(GC) 분자아형, classifier 및 GC 시그니처를 확인하는 과정(NMF, non-negative matrix factorization; SAM, significance analysis of microarrays; PAM, prediction analysis of microarrays; GSEA, gene-set enrichment analysis; WGCNA, weighted gene co-expression network analysis)이고, 단계 II는 환자 샘플에서 GC 시그니처의 발현을 프로파일링 하기 위한 일련의 프로브, miniClassifier-26의 구축을 통해 임상 효용을 극대화 하기 위한 GC 시그니처와 분자 아형의 동정 과정이다.
도 2는 Classifier-PAM932로 NMF 컨센서스 클러스터링을 수행한 결과를 나타낸 것으로, (a)는 Molecular Signatures Database(MSigDB) 및 이전 연구에서 분석된 유전자 세트(소화, 경련억제 폴리펩티드-발현 화생(SPEM), 장내 상피화(intestinal metaplasia(IM), 면역계, 기질, 상피-간엽 전이(EMT), 및 세포주기)로 특성 규명된 트레이닝 세트 I의 히트맵(GSE13861p)을 나타낸다. GST, 위 아형; INF, 염증; MSC, 간엽; INT, 장기; MXD, 혼합기질. 독립 테스트 세트 I과 Classifier-PAM932를 사용한 NMF 컨센서스 클러스터링의 검증 결과이다. (b) GSE62254(아시아 암 연구 그룹, ACRG), (c) TCGA 및 (d) GSE15459(싱가포르)의 히트맵을 나타낸다. 이전의 아형 정보는 각 히트맵 위에 함께 제공된다.
도 3은 NMF 클러스터링을 나타낸 것으로, SD = 0.8, SD = 0.9, SD = 1.0에서의 (a) 클러스터 번호(k) 2 ~ 7 및 다음 분산 컷오프가 있는 컨센서스 맵, (b) 코페네틱 상관계수 및 (c) 실루엣 폭을 사용한 샘플 지정을 나타낸다.
도 4는 WGCNA 분석에 의해 발견된 아형을 정의하는 위암 시그니처를 나타낸 것으로, (a)는 GSE13861p의 계통수이고, (b)는 GSE13861p에서 탐지된 모듈 및 GSE62254, TCGA 및 GSE15459의 해당 모듈 맵이다. 독립적인 테스트 세트인 각 코호트의 모듈이 GSE13861p의 모듈과 공통 유전자를 공유하면 모듈의 색상을 시각적 편의를 위해 일대일로 조정되었고, (c)는 트레이닝 세트에서 각 아형의 상위 25 % 상위 점수 PAMgenes 매핑 결과이다. (d)는 GC에서 일치되는 모듈의 조합으로 표현되는 여섯 개의 GC 시그니처를 나타낸다. (e)는 5 개의 GC 아형과 6 개의 GC 시그니처의 관계성을 분석하기 위하여 스피어 만의 상관관계(Spearman's correlation)를 사용하여 나타낸 것이다. 빨간색은 해당 아형과 양의 상관관계가 있는 모듈을 나타내고 파란색은 음의 상관관계가 있는 모듈을 나타낸다.
도 5는 단계 II의 트레이닝 세트인 Merged 1259(GSE13861p, GSE62254(ACRG), TCGA, 및 GSE15459(싱가포르))를 사용하여 5개의 아형에 따른 전체 생존률(OS)을 나타낸 것이다(likelihood ratio test; p = 3.42e-09). Merged 1259 코호트의 샘플 중 임상정보가 없는 61개의 샘플을 제외한 1198개의 샘플에 대한 전체 생존곡선이다: 각 분자아형별 5년 생존율은 INF의 경우 76.1%(95% 신뢰구간 67.7-85.7), INT의 경우 65.1%(95% 신뢰구간 56.2-75.4), GST의 경우 64.6%(95% 신뢰구간 55.0-75.9), MXD의 경우 51.3%(95% 신뢰구간 42.1-62.4), MSC의 경우 46.3%(95% 신뢰구간 38.0-56.5)이다.
도 6은 위암 세포주를 이용하여 조사된 위암 기질 시그니처(n = 26)를 나타낸 것으로, (a)는 암세포주 데이터와 병합된 트레이닝 세트에서 GC 아형을 보여주는 히트맵이다. (b)는 기질 모듈 eigengene과 함께 배열된 히트맵이다. Hs746, SNU-484(MSC), MKN-45 및 NCI-N87(INT) 세포주는 화살촉으로 표시된다.
도 7은 위암세포주의 MSC 및 INT 타입은 (a) 인 비트로 스크래치 상처 치유법, (b) 침윤 분석법, (c) 인 비트로 종양 스페로이드 형성 분석법(스케일 바, 100㎛), 및 (d) 생체 내 동소 종양형성(n = 3)에 비교된다. Hs746T 및 SNU-484 종양의 확산 성장 및 MKN-45 및 NCI-N87 종양의 감금은 MRI 이미지(축 방향 단면)에서 흰색 점선으로 경계 지어진다. 검은 점선으로 된 상자의 사진은 정위 모델 구성을 묘사한다. TGF-β 억제제(LY2157299 (LY))로 처리한 Hs746T 세포의 기질 거동의 억제는 시험관 내 스크래치 상처 치유법(e), 침윤법(f) 및 인 비트로 종양 스페로이드 형성 분석(g)을 통해 관찰한다. 복합 약물 치료(옥살라플라틴 및 플루오로우라실) 중 TGF-β 억제제의 동시 투여 하에서 마우스 이종 이식 모델(n = 8)에서 Hs746t 종양(h) 및 NCI-N87 종양(i)의 종양 성장을 측정하는 생체 내 약물 저항 분석 결과이다(P <0.05).
도 8은 GC에서 miniClassifier26으로 구분된 5개의 분자아형을 도시한 것으로, (a)는 PAM에서 5개의 분자아형에 대한 26개의 대표 유전자들의 상대적 차이를 나타낸 것이다. (b)는 GC의 마이크로어레이 데이타에 대한 NMF-기반 클러스터링(26개 유전자)의 히트맵(ComBat 방법을 이용하여 병합된 N=1259; GSE13861p, GSE15459, TCGA 및 GSE62254)이다. (c)는 GC의 qPCR 데이터에 대한 NMF-기반 클러스터링(26개 유전자)의 히트맵이다. (d)와 (e)는 (b)와 (c)에서 클러스터링된 5개의 분자아형의 전체 생존율(OS)을 나타낸 것이다. (d)는 Merged 1259 코호트의 샘플 중 임상정보가 없는 61개의 샘플을 제외한 1198개의 샘플에 대한 전체 생존곡선이다: 각 분자아형별 5년 생존율은 INF의 경우 67.3%(95% 신뢰구간 61.3-73.9%), INT의 경우 58.8%(95% 신뢰구간 52.9-65.4%), GST의 경우 55.3%(95% 신뢰구간 48.2-63.4%), MXD의 경우 45.0%(95% 신뢰구간 36.5-55.4%), MSC의 경우 33.0%(95% 신뢰구간 27.3-40.0%)이다. (e)는 qPCR325 코호트의 qPCR 측정 결과로부터 26개 유전자로 구분한 군의 5년 전체 생존곡선이다: 각 분자아형별 5년 생존율은 INF의 경우 78.5%(95% 신뢰구간 69.4-88.8%), INT의 경우 70.7%(95% 신뢰구간 61.1-81.8%), GST의 경우 68.4%(95% 신뢰구간 55.1-84.9%), MXD의 경우 54.6%(95% 신뢰구간 41.7-71.4%), MSC의 경우 57.5%(95% 신뢰구간 48.4-68.2%)이다.
도 9는 신선동결조직의 마이크로어레이 데이터와 qPCR 데이터, 그리고 파라핀포매 샘플의 qPCR 에서 안정성을 갖는 유전자 26개(miniClassifier-26)를 선정 및 분석하는 상세한 순서도를 나타낸 것이다.
도 10은 NMF 클러스터링을 통해 얻은 5개의 클러스터들을 분자아형으로 명명하는 방법을 도시한 것이다.
이하, 본 발명의 구성을 구체적으로 설명한다.
본 발명은 TFF1, TFF2, VSIG1, CNN1, NEXN, SCRG1, SORBS1, SPARCL1, AURKA, BUB1, CDC20, CEP55, PTTG1, UBE2C, CD8A, GBP1, GBP5, GZMB, NKG7, WARS, ANTXR1, SFRP4, VCAN, CDH17, CDX1 및 MYO1A를 포함하는 표적 유전자군의 mRNA의 발현 수준을 측정하는 제제; 및
ACTB, ATP5E, GPX1, UBB 및 HPRT1를 포함하는 참고 유전자군의 mRNA의 발현 수준을 측정하는 제제를 포함하는 위암 2기 및 3기의 진행성 위암의 예후 예측용 조성물에 관한 것이다.
본 발명의 위암 2기 및 3기의 예후 예측용 조성물은 표적 유전자군의 mRNA 발현 수준을 측정하여 진행성 위암 환자의 예후를 생존율 측면에서 예측하기 위한 용도로 사용할 수 있는 것을 특징으로 한다.
본 명세서에서, 용어 "진행성 위암"은 AJCC 6판기준으로 2기 내지 3기에 해당하는 위암을 의미한다.
본 명세서에서, 용어 "표적 유전자" 또는 "마커 유전자"는 명세서 내에서 혼용되어 사용되며, 정상이나 병적인 상태를 구분할 수 있거나, 치료 후 5년 생존율을 예측하거나 치료반응 예측을 객관적으로 측정할 수 있는 표지자를 의미한다. 본 발명에서는, 진행성 위암의 예후를 예측하는데 사용할 수 있는 유전자로, 예후에 대해 증가하거나 감소하는 차등적인 mRNA 발현 수준을 나타내는 유전자이다. 본 발명의 일 구체예에 따르면, 이형질성을 갖는 위암에 대해 신선동결조직의 마이크로어레이 데이터와 qPCR 데이터, 그리고 파라핀포매 샘플 검체의 qPCR 데이터에서 통계적 유의성을 확보하여 5개의 분자아형, 즉, Intestinal 분자아형, Inflammatory 분자아형, Mesenchymal 분자아형, Mixed-stromal 분자아형 및 Gastric 분자아형으로 구분할 수 있는 26종의 유전자, 즉, TFF1, TFF2, VSIG1, CNN1, NEXN, SCRG1, SORBS1, SPARCL1, AURKA, BUB1, CDC20, CEP55, PTTG1, UBE2C, CD8A, GBP1, GBP5, GZMB, NKG7, WARS, ANTXR1, SFRP4, VCAN, CDH17, CDX1 및 MYO1A를 선정하였다.
본 명세서에서, 용어 "참고 유전자, reference gene"는 항상 안정적으로 발현하는 유전자를 지칭한다. 즉 어떤 조직에서든 일정하게 발현하는 유전자로서 참고 유전자의 발현양과 마커 유전자의 발현양을 비교함으로써 마커 유전자의 발현양을 조사할 때 사용한다. 즉, 샘플마다 정성(quality)적 차이, 보관 기관에 따른 변이가 존재하므로 유전자 발현량을 측정하더라도 그 측정량이 생물학적 변이라고 판단하기 어렵다. 따라서, 표준화(normalization)를 통해 샘플간 유전자 발현량(ΔCq)을 결정한다. 통상 표준화 방법에는 Quantile에 의한 방법, Global Normalization 방법, 참고 유전자에 의한 방법 등이 있으나, 본 발명은 참고 유전자에 의한 표준화를 사용한다. 또한, 단일 유전자를 참고 유전자로 활용하는 것은 정확도가 떨어질 수 있어 다수의 유전자를 선정하고 변이도를 조사하여 조직의 특성에 적합한 참고 유전자를 선정할 수 있다. 본 발명에서는 위암과 관련하여 문헌에 개시되어 있거나, 기존 상용화 제품에서 활용되고 있는 유전자를 선정하고, 선정된 유전자를 대상으로 적격 여부를 입증하여 참고 유전자로 사용한다. 본 발명의 일 구체예에 따르면, 문헌에 개시된 21개의 참고 유전자를 대상으로 식도암, 췌장암, 위암, 대장암 등의 암조직과 정상조직을 비교하여 qPCR을 통해 가장 변이도가 작은 유전자를 참고 유전자로 선정하였다. 다음으로, 상용화 제품에서 사용하는 참고 유전자로, ACTB, ATP5E, GPX1, UBB 및 HPRT1를 선정하여 qPCR을 수행하여, 최종적으로, 본 발명의 진행성 위암의 재발 또는 항암제 반응 가능성을 예측하는데 사용하는 참고 유전자로 ACTB, ATP5E, GPX1, UBB 및 HPRT1로 이루어진 유전자군을 사용하였다.
본 명세서에서, 용어 "mRNA의 발현 수준 측정"이란 진행성 위암의 재발을 예측하기 위하여 생물학적 시료에서 예후 마커 유전자들의 mRNA 발현 정도를 확인하는 과정으로 mRNA의 양을 측정하는 것을 의미한다. 예컨대, qPCR(Quantitative real-time polymerase chain reaction)를 사용할 수 있으나, 이에 제한되는 것은 아니다.
본 발명에 따른 조성물에서, 예후 마커 유전자의 mRNA의 발현 수준을 측정하는 제제는 예후 마커 유전자의 mRNA에 특이적으로 결합하는 프라이머, 프로브 또는 안티센스 뉴클레오티드를 포함한다. 본 발명에 따른 예후 마커 유전자의 정보는 GenBank, UniProt 등에 알려져 있으므로, 당업자라면 이를 바탕으로 유전자의 mRNA에 특이적으로 결합하는 프라이머, 프로브 또는 안티센스 뉴클레오티드를 용이하게 디자인할 수 있을 것이다.
본 명세서에서, 용어 "프라이머"는 표적 유전자 서열을 인지하는 단편으로서, 정방향 및 역방향의 프라이머 쌍을 포함하나, 바람직하게는, 특이성 및 민감성을 가지는 분석 결과를 제공하는 프라이머 쌍이다. 프라이머의 핵산 서열이 시료 내 존재하는 비-표적 서열과 불일치하는 서열이어서, 상보적인 프라이머 결합 부위를 함유하는 표적 유전자 서열만 증폭하고 비특이적 증폭을 유발하지 않는 프라이머일 때, 높은 특이성이 부여될 수 있다. 본 발명의 일 구체예에 따르면, SEQ ID NOS: 1 내지 62에 기재된 프라이머 세트를 사용할 수 있다. 각 표적 유전자군 및 참고 유전자군의 프라이머 세트는 하기 표 1 및 2에 나열된다.
본 명세서에서, 용어 "프로브"란 시료 내의 검출하고자 하는 표적 물질과 특이적으로 결합할 수 있는 물질을 의미하며, 상기 결합을 통하여 특이적으로 시료 내의 표적 물질의 존재를 확인할 수 있는 물질을 의미한다. 프로브의 종류는 당업계에서 통상적으로 사용되는 물질로서 제한은 없으나, 바람직하게는 PNA(peptide nucleic acid), LNA(locked nucleic acid), 펩타이드, 폴리펩타이드, 단백질, RNA 또는 DNA 일 수 있다. 보다 구체적으로, 상기 프로브는 바이오 물질로서 생물에서 유래되거나 이와 유사한 것 또는 생체 외에서 제조된 것을 포함하는 것으로, 예를 들어, 효소, 단백질, 항체, 미생물, 동식물 세포 및 기관, 신경세포, DNA, 및 RNA일 수 있으며, DNA는 cDNA, 게놈 DNA, 올리고뉴클레오티드를 포함하며, RNA는 게놈 RNA, mRNA, 올리고뉴클레오티드를 포함하며, 단백질의 예로는 항체, 항원, 효소, 펩타이드 등을 포함할 수 있다. 본 발명의 일 구체예에 따르면, SEQ ID NOS: 63 내지 93에 기재된 프로브를 사용할 수 있다. 바람직하게는, 상기 프로브는 형광 표지된 것일 수 있다. 각 표적 유전자군 및 참고 유전자군의 프로브는 하기 표 1 및 2에 나열된다.
본 명세서에서, 용어 "안티센스"는 안티센스 올리고머가 왓슨-크릭 염기쌍 형성에 의해 RNA 내의 표적 서열과 혼성화되어, 표적서열 내에서 전형적으로 mRNA와 RNA:올리고머 헤테로이중체의 형성을 허용하는, 뉴클레오티드 염기의 서열 및 서브유닛간 백본을 갖는 올리고머를 의미한다. 올리고머는 표적 서열에 대한 정확한 서열 상보성 또는 근사 상보성을 가질 수 있다.
본 명세서에서, 용어 "예후 예측"은 특정 질병 또는 질환에 대한 대상(subject)의 감수성(susceptibility)을 판정하는 것, 특정 질병 또는 질환에 걸린 대상의 예후(prognosis; 예컨대, 전-전이성 또는 전이성 암 상태의 동정, 암의 단계 결정 또는 치료에 대한 암의 반응성 결정)를 판정하는 것, 또는 테라메트릭스(therametrics; 예컨대, 치료 효능에 대한 정보를 제공하기 위하여 객체의 상태를 모니터링하는 것)을 포함한다. 본 발명의 목적상, 수술 후 위암 환자의 예후를 전체 생존율(Overall Survival) 측면에서 예측하는 것이다.
본 발명의 일 구체예에 따르면 상기 표적 유전자는 다음과 같이 선별한다. 우선, 진행성 위암 조직을 대상으로 컨센서스 기반의 NMF를 진행하여 높은 연관성을 보이는 5개의 분자적 특징이 구분되는 아형을 결정하고, 아형 특이적인 유전자군을 선별한다.
상기 NMF(비음수행렬인수화, nonnegative matrix factorization)는 차원축소방법(Dimension Reduction)으로 발현 패턴의 유사성이 높은 샘플들을 아형으로 분류하는 방법이다.
상기 위암 분자아형을 결정하기 위해서는, 자원축소방법으로 하나의 매트릭스를 두 개의 비음수 행렬로 인수화함으로써 NMF 알고리즘을 통해서 공통된 부분을(basis)들을 분리해 내는 것이다. 실제의 정보 집단을 V, 분리하고자 하는 행렬을 W, H라고 한다. V〓WH을 만족하게 되며, W는 기저 행렬을, H는 부호화 행렬을 나타낸다. V는 W의 기저들의 합으로 구성 V는(n X m) 크기를, W는(n X r), H는(r X m)크기의 행렬이다. 고차원의 데이터 행렬을 저차원의 계수 행렬과 기저행렬로 분해하고 각 행렬들이 희소 특성을 가지고 있기 때문에 부분기반 표현이 가능하다. 이 알고리즘으로 위암은 유사성이 높은 것들끼리의 군을 형성하여 위암 아형분류에 적용할 수 있다.
[그림 1]
Figure PCTKR2018004732-appb-I000018
R 프로그램의 NMF 패키지를 이용하여, consensus map과 cophenetic 그래프를 근거로 위암 아형의 적합한 클러스터를 선정한다. 각각의 SD(Standard Deviation= 0.8, 0.9, 1.0)에서 k(클러스터의 수) 값에 컨센셔스 클러스터링(consensus clustering)이 됨을 확인하고 최종적으로 위암 아형의 개수를 선택한다(도 3 참조). 본 발명의 일 구체예에 따르면 K는 5로 정하였다.
상기 각 아형별 특징을 생물학적 유전자 세트로부터 도출하여 분자적 이형질성을 구분한 결과, 5개의 아형, 즉, Intestinal 분자아형, Inflammatory 분자아형, Mesenchymal 분자아형, Mixed-stromal 분자아형 및 Gastric 분자아형으로 구분된다.
Cox proportional hazard model을 이용하여 상기 5개의 분자아형 별 생존 분석을 수행한 결과, Inflammatory 분자아형인 경우 전체 생존율 측면에서 좋은 예후, Intestinal 분자아형 및 Gastric 분자아형인 경우 중간 예후, Mixed-stromal 분자아형 및 Mesenchymal 분자아형인 경우 나쁜 예후를 보인다.
한편, 위암의 생물학적 특성을 분석하기 위해서는 WGCNA(Weighted correlation network analysis)를 사용한다. WGCNA는 발현 양상이 유사하게 나타나는 유전자들간 연관관계를 통해 발현 연관성에 따라 유전자를 clustering 하는 분석 기법으로, WGCNA를 통해 모듈(clusters of highly interconnected genes)를 찾고, 모듈의 성격과 모듈의 연관관계에 따라 위암 특성을 반영한 시그니처를 선별한다. 본 발명의 일 구체예에 따르면, 위암에서 안정적으로 보존되어 있는 6개의 시그니처, 즉, TFF1, TFF2 및 VSIG1로 이루어진 gastric 시그니처; CNN1, NEXN, SCRG1, SORBS1 및 SPARCL1로 이루어진 mesenchymal 시그니처; AURKA, BUB1, CDC20, CEP55, PTTG1 및 UBE2C로 이루어진 proliferative 시그니처; CD8A, GBP1, GBP5, GZMB, NKG7 및 WARS로 이루어진 immune 시그니처; ANTXR1, SFRP4 및 VCAN로 이루어진 stem-like 시그니처; 및 CDH17, CDX1 및 MYO1A로 이루어진 intestinal 시그니처를 확인하였다.
이들 6개 시그니처들을 대표하는 유전자와 5개 위암 분자아형 사이를 스피어만 상관관계로 비교 분석했을 때 상호 연관성을 보였다. 이를 통해 공통적으로 보존되는 유전자를 선별한 이후에, 이들을 샘플 방법(Fresh Frozen, FFPE)에 따라 그리고 발현 측정 플랫폼(microarray, qPCR)에 따라 안정적으로 발현 결과를 보이는 26개 유전자, TFF1, TFF2, VSIG1, CNN1, NEXN, SCRG1, SORBS1, SPARCL1, AURKA, BUB1, CDC20, CEP55, PTTG1, UBE2C, CD8A, GBP1, GBP5, GZMB, NKG7, WARS, ANTXR1, SFRP4, VCAN, CDH17, CDX1 및 MYO1A를 선별하였다.
상기 선별된 26개의 유전자를 표적 유전자군으로 정하고, 각 표적 유전자의 스코어(
Figure PCTKR2018004732-appb-I000019
)를 이용하여 표적 유전자군의 각 시그니처의 발현 평균값을 계산하고, 이로부터 분류된 분자아형을 확인한다.
상기에서 위암의 분자아형이 결정되면, 각 분자아형의 생존 곡선을 통해 예후를 예측하는 것이다. 예컨대, 상기 분자아형은 전체 생존율 측면에서 좋은 예후군, 중간 예후군 및 나쁜 예후군으로 분류된다. 구체적으로, 위암 분자아형이 Inflammatory 분자아형인 경우, 전체 생존율 측면에서 좋은 예후군; Intestinal 분자아형 및 Gastric 분자아형인 경우, 중간 예후군; Mixed-stromal 분자아형 및 Mesenchymal 분자아형인 경우, 나쁜 예후군으로 예측하는 것이다.
본 발명의 위암 2기 및 3기의 예후 예측용 조성물은 약제학적으로 허용 가능한 담체를 더 포함할 수 있다.
상기 약제학적으로 허용 가능한 담체는 의약 분야에서 통상 사용되는 담체 및 비히클을 포함하며, 구체적으로 이온 교환 수지, 알루미나, 알루미늄 스테아레이트, 레시틴, 혈청 단백질(예, 사람 혈청 알부민), 완충 물질(예, 각종 인산염, 글리신, 소르브산, 칼륨 소르베이트, 포화 식물성 지방산의 부분적인 글리세라이드 혼합물), 물, 염 또는 전해질(예, 프로타민 설페이트, 인산수소이나트륨, 인산수소캄륨, 염화나트륨 및 아연 염), 교질성 실리카, 마그네슘 트리실리케이트, 폴리비닐피롤리돈, 셀룰로즈계 기질, 폴리에틸렌 글리콜, 나트륨 카르복시메틸셀룰로즈, 폴리아릴레이트, 왁스, 폴리에틸렌 글리콜 또는 양모지 등을 포함하나 이에 제한되지 않는다.
또한, 본 발명의 조성물은 상기 성분들 이외에 윤활제, 습윤제, 유화제, 현탁제, 또는 보존제 등을 추가로 포함할 수 있다.
본 발명은 또한, 위암 2기 및 3기의 예후 예측용 조성물을 포함하는 위암 2기 및 3기의 예후 예측용 키트에 관한 것이다.
바람직하게, 상기 키트는 qPCR(Quantitative real-time polymerase chain reaction) 키트 등일 수 있다.
상기 위암 2기 및 3기의 예후 예측용 키트는 분석 방법에 적합한 한 종류 또는 그 이상의 다른 구성성분 조성물, 용액 또는 장치를 더 포함할 수 있다. 바람직하게, 상기 진단용 키트는 qPCR 반응을 수행하기 위해 필요한 필수 요소를 더 포함할 수 있다. qPCR 키트는 마커 단백질을 암호화하는 유전자에 대해 특이적인 프라이머 쌍을 포함한다. 프라이머는 상기 유전자의 핵산서열에 특이적인 서열을 가지는 뉴클레오티드로서, 약 7 bp 내지 50 bp의 길이, 보다 바람직하게는 약 10 bp 내지 30 bp의 길이를 가질 수 있다. 또한 대조군 유전자의 핵산 서열에 특이적인 프라이머를 포함할 수 있다. 그 외 qPCR 키트는 테스트 튜브 또는 다른 적절한 용기, 반응 버퍼(pH 및 마그네슘 농도는 다양), 데옥시뉴클레오티드(dNTPs), Taq-폴리머라아제 및 역전사효소와 같은 효소, DNase, RNase 억제제 DEPC-수(DEPC-water), 멸균수 등을 포함할 수 있다.
또한, 본 발명의 위암 2기 및 3기의 예후 예측용 키트는 DNA 칩을 수행하기 위해 필요한 필수 요소를 포함할 수 있다. DNA 칩 키트는 유전자 또는 그의 단편에 해당하는 cDNA 또는 올리고뉴클레오티드(oligonucleotide)가 부착되어 있는 기판, 및 형광표지 프로브를 제작하기 위한 시약, 제제, 효소 등을 포함할 수 있다. 또한 기판은 대조군 유전자 또는 그의 단편에 해당하는 cDNA 또는 올리고뉴클레오티드를 포함할 수 있다.
본 발명은 또한 통계적 유의치를 나타낼 수 있는 정도의 샘플 수를 갖는 위암 2기 및 3기의 진행성 위암 환자로부터 얻은 기준 샘플과 생물학적 샘플에서,
TFF1, TFF2 및 VSIG1로 이루어진 gastric 시그니처; CNN1, NEXN, SCRG1, SORBS1 및 SPARCL1로 이루어진 mesenchymal 시그니처; AURKA, BUB1, CDC20, CEP55, PTTG1 및 UBE2C로 이루어진 proliferative 시그니처; CD8A, GBP1, GBP5, GZMB, NKG7 및 WARS로 이루어진 immune 시그니처; ANTXR1, SFRP4 및 VCAN로 이루어진 stem-like 시그니처; 및 CDH17, CDX1 및 MYO1A로 이루어진 intestinal 시그니처를 포함하는 표적 유전자군과 ACTB, ATP5E, GPX1, UBB 및 HPRT1를 포함하는 참고 유전자군의 mRNA 발현 수준을 측정하는 단계;
하기 식 1에 따라 기준 샘플과 생물학적 샘플의 표적 유전자군의 ΔCq 값을 계산하여 컴퓨터 프로그램에 입력하는 단계; 및
상기 컴퓨터 프로그램에 입력한 값들에 대해 NMF(Non-negative Matrix Factorization) 및 NMF-기반 클러스터링을 수행하여 복수 개의 클러스터로 분류하고, 각 클러스터에서 표적 유전자군의 스코어(
Figure PCTKR2018004732-appb-I000020
)를 하기 식 2에 적용하여 SV(Score Value)를 계산하고, SV에 따라 Intestinal 분자아형, Inflammatory 분자아형, Mesenchymal 분자아형, Mixed-stromal 분자아형 및 Gastric 분자아형으로 분류하며, 전체 생존율(Overall Survival) 측면에서 예후를 분석하여 생물학적 샘플이 속하는 분자아형의 예후를 예측하는 단계를 포함하고,
상기 위암의 분자아형은, gastric 시그니처의 SV가 최대값을 갖는 클러스터를 Gastric 분자아형으로 정하고; Gastric 분자아형으로 결정된 클러스터를 제외한 클러스터 중 mesenchymal 시그니처의 SV가 최대값을 갖고, proliferative 시그니처의 SV가 최소값을 갖는 클러스터를 Mesenchymal 분자아형으로 정하며; Gastric 분자아형 및 Mesenchymal 분자아형으로 결정된 클러스터를 제외한 클러스터 중 immune 시그니처의 SV가 최대값을 갖고, intestinal 시그니처의 SV가 최소값을 갖는 클러스터를 Inflammatory 분자아형으로 정하고; Gastric 분자아형, Mesenchymal 분자아형 및 Inflammatory 분자아형으로 결정된 클러스터를 제외한 클러스터 중 stem-like 시그니처의 SV가 최대값을 갖는 경우 Mixed-stromal 분자아형으로 정하고; 최종적으로 남은 클러스터를 Intestinal 분자아형으로 정하여 분류하며,
상기 위암의 분자아형이 Inflammatory 분자아형인 경우, 전체 생존율 측면에서 좋은 예후군; Intestinal 분자아형 및 Gastric 분자아형인 경우, 중간 예후군; Mixed-stromal 분자아형 및 Mesenchymal 분자아형인 경우, 나쁜 예후군으로 예측하는, 위암 2기 및 3기의 예후 예측을 위한 정보를 제공하는 방법, 또는 위암 2기 및 3기의 예후 예측 방법에 관한 것이다:
[식 1]
ΔCq = (표적 유전자의 Cq 값) - (참고 유전자군의 Cq 평균값)
여기서, 참고 유전자군의 Cq 평균값은 ACTB, ATP5E, GPX1, UBB 및 HPRT1를 포함하는 참고 유전자군의 Cq 값의 평균값을 의미한다.
[식 2]
Figure PCTKR2018004732-appb-I000021
여기서, SV는 NMF-기반 클러스터링에 얻은 클러스터에서 각 시그니처의 발현 평균값, t는 해당 시그니처에 속하는 유전자(i)의 수,
Figure PCTKR2018004732-appb-I000022
는 시그니처(θ = 6), k는 클러스터의 수로 2 내지 7의 정수이며,
Figure PCTKR2018004732-appb-I000023
는 각 유전자의 전체 평균과 각 클러스터 평균 사이의 거리를 바탕으로 하는 스코어로, 하기 식 3에 따라 구한다,
[식 3]
Figure PCTKR2018004732-appb-I000024
여기서, 임계치(Δ)는 0.1로 정하여 분자아형별 특이성이 없는 유전자들은 0으로 수렴시키고,
Figure PCTKR2018004732-appb-I000025
Figure PCTKR2018004732-appb-I000026
의 부호를 의미하며,
Figure PCTKR2018004732-appb-I000027
는 하기 식 4에 따라 구한다,
[식 4]
Figure PCTKR2018004732-appb-I000028
여기서, 각 분자아형(k) 내의 해당 유전자(i) 평균값(
Figure PCTKR2018004732-appb-I000029
), 해당 유전자(i)의 전체 평균값(
Figure PCTKR2018004732-appb-I000030
)이며,
Figure PCTKR2018004732-appb-I000031
Figure PCTKR2018004732-appb-I000032
의 표준오차를 보정하기 위한 자유도
Figure PCTKR2018004732-appb-I000033
이고,
Figure PCTKR2018004732-appb-I000034
는 유전자(i)의 전체 샘플에 대한 해당 분자아형(k) 내의 표준편차이고,
Figure PCTKR2018004732-appb-I000035
Figure PCTKR2018004732-appb-I000036
의 중앙값이다.
본 발명의 위암 2기 및 3기의 예후 예측을 위한 정보를 제공하는 방법을 단계별로 구체적으로 설명하면 다음과 같다.
제1단계로, 위암 2기 및 3기 종양에서 얻은 일정 수의 기준 샘플에서 표적 유전자군의 mRNA의 발현 수준을 측정하고, 위암 2기 및 3기 종양에서 얻은 생물학적 샘플의 표적 유전자군의 mRNA의 발현 수준을 측정하여 기준 샘플과 생물학적 샘플의 표적 유전자군의 mRNA의 발현 수준에 해당하는 값을 컴퓨터 프로그램에 입력하는 단계이다.
상기 일정 수, 즉, 통계적 유의치를 나타낼 수 있는 정도의 기준 샘플 수는 표적 유전자군의 mRNA 발현 수준에 대해 NMF(Non-negative Matrix Factorization)를 진행할 경우, 유의치인 p 값이 0.01 미만이 될 수 있는 샘플 수를 의미한다.
또한, 상기 기준 샘플 수는 NMF-기반 클러스터링에 따라 차별화된 유전자 발현 양상을 보이면서 복수 개의 클러스터로 분류될 수 있는 정도의 수여야 한다.
이러한 조건을 충족하는 기준 샘플 수는 바람직하게는, 300 내지 10,000일 수 있다.
상기 표적 유전자군의 mRNA 발현 수준은 바람직하게는 qPCR을 통해 측정할 수 있고, qPCR에 의한 mRNA 발현 수준은 ΔCq 값으로 정한다. 상기 Cq 값은 95℃에서 10분 (초기 변성); 95℃에서 10초, 40-45회 (변성), 60℃에서 5초 (어닐링) 및 72℃에서 25초 (연장)의 PCR 과정 중 증폭이 뚜렷하게 증가되기 시작한 사이클의 수치를 말한다.
표적 유전자군과 참고 유전자군의 Cq 평균값을 이용하여 하기 식 1에 따라 ΔCq 값을 계산한다.
[식 1]
ΔCq = (표적 유전자의 Cq 값) - (참고 유전자군의 Cq 평균값)
여기서, 참고 유전자군의 Cq 평균값은 ACTB, ATP5E, GPX1, UBB 및 HPRT1를 포함하는 참고 유전자군의 Cq 값의 평균값을 의미한다.
따라서, 컴퓨터 프로그램에 입력하는 표적 유전자군의 mRNA 발현 수준에 해당하는 값은 상기 ΔCq 값을 의미한다.
제2단계는, 컴퓨터 프로그램에 입력된 기준 샘플과 생물학적 샘플의 표적 유전자군의 ΔCq 값들에 대해 NMF 및 NMF-기반 클러스터링을 수행하여 복수 개의 클러스터로 분류하고, 각 클러스터에서 표적 유전자군의 스코어(
Figure PCTKR2018004732-appb-I000037
)를 하기 식 2에 적용하여 SV(Score Value)를 계산하고, SV에 따라 Intestinal 분자아형, Inflammatory 분자아형, Mesenchymal 분자아형, Mixed-stromal 분자아형 및 Gastric 분자아형으로 분류하며, 전체 생존율(Overall Survival) 측면에서 예후를 분석하여 생물학적 샘플이 속하는 분자아형의 예후를 예측하는 단계이다.
[식 2]
Figure PCTKR2018004732-appb-I000038
여기서, SV는 NMF-기반 클러스터링에 얻은 클러스터에서 각 시그니처의 발현 평균값, t는 해당 시그니처에 속하는 유전자(i)의 수,
Figure PCTKR2018004732-appb-I000039
는 시그니처(θ = 6), k는 클러스터의 수로 2 내지 7의 정수이며,
Figure PCTKR2018004732-appb-I000040
는 각 유전자의 전체 평균과 각 클러스터 평균 사이의 거리를 바탕으로 하는 스코어이다.
본 발명에 따르면, 상기 k는 바람직하게는, 5일 수 있다. 즉, NMF-기반 클러스터링을 통해 얻은 5개의 클러스터를 의미한다.
상기 스코어(
Figure PCTKR2018004732-appb-I000041
)는 각 유전자의 전체 평균과 각 클러스터 평균 사이의 거리를 바탕으로 하는 스코어, 즉, 해당 유전자(i)의 t-통계값이며, 같은 분자아형(subtype) 내의 샘플 유전자 발현량에 가중치를 주어 표준화하는 것으로 선형판별식분석(LDA; Linear Discriminant Analysis)에서 흔하게 사용되는 통계 방법으로 하기 식 3에 따라 구한다:
[식 3]
Figure PCTKR2018004732-appb-I000042
여기서, 임계치(Δ)는 0.1로 정하여 분자아형별 특이성이 없는 유전자들은 0으로 수렴시키고,
Figure PCTKR2018004732-appb-I000043
Figure PCTKR2018004732-appb-I000044
의 부호를 의미하며,
Figure PCTKR2018004732-appb-I000045
는 하기 식 4에 따라 구한다:
[식 4]
Figure PCTKR2018004732-appb-I000046
여기서, 각 분자아형(k) 내의 해당 유전자(i) 평균값(
Figure PCTKR2018004732-appb-I000047
), 해당 유전자(i)의 전체 평균값(
Figure PCTKR2018004732-appb-I000048
)이며,
Figure PCTKR2018004732-appb-I000049
Figure PCTKR2018004732-appb-I000050
의 표준오차를 보정하기 위한 자유도
Figure PCTKR2018004732-appb-I000051
이고,
Figure PCTKR2018004732-appb-I000052
는 유전자(i)의 전체 샘플에 대한 해당 분자아형(k) 내의 표준편차이고,
Figure PCTKR2018004732-appb-I000053
Figure PCTKR2018004732-appb-I000054
의 중앙값이다.
상기 스코어(
Figure PCTKR2018004732-appb-I000055
)에서 양수는 유전자의 고발현, 음수는 유전자의 저발현, 0은 유전자의 발현 변화가 없음을 의미한다. 따라서, 양수의 값이 클수록 발현이 더 높아지고, 음수의 값이 클수록 발현은 더욱 낮아진다.
상기 위암의 분자아형은, gastric 시그니처의 SV가 최대값을 갖는 클러스터를 Gastric 분자아형으로 정하고; Gastric 분자아형으로 결정된 클러스터를 제외한 클러스터 중 mesenchymal 시그니처의 SV가 최대값을 갖고, proliferative 시그니처의 SV가 최소값을 갖는 클러스터를 Mesenchymal 분자아형으로 정하며; Gastric 분자아형 및 Mesenchymal 분자아형으로 결정된 클러스터를 제외한 클러스터 중 immune 시그니처의 SV가 최대값을 갖고, intestinal 시그니처의 SV가 최소값을 갖는 클러스터를 Inflammatory 분자아형으로 정하고; Gastric 분자아형, Mesenchymal 분자아형 및 Inflammatory 분자아형으로 결정된 클러스터를 제외한 클러스터 중 stem-like 시그니처의 SV가 최대값을 갖는 경우 Mixed-stromal 분자아형으로 정하고; 최종적으로 남은 클러스터를 Intestinal 분자아형으로 정하여 분류한다.
상기에서 분류된 분자아형들에 대해 각 분자아형의 생존 곡선을 통해 전체 생존율 측면에서 예후를 예측한다.
상기 위암의 분자아형들은 생존 곡선에서 차별화된 예후 양상을 보이며, Inflammatory 분자아형인 경우, 전체 생존율 측면에서 좋은 예후군; Intestinal 분자아형 및 Gastric 분자아형인 경우, 중간 예후군; Mixed-stromal 분자아형 및 Mesenchymal 분자아형인 경우, 나쁜 예후군으로 예측할 수 있다.
따라서, 생물학적 샘플이 속하는 분자아형을 정하고, 상기 분자아형의 생존 곡선을 통해 예후를 예측할 수 있다.
상기 생물학적 샘플은 신선종양조직, 신선동결종양조직, 파라핀포매종양조직, 세침흡인액, 복수, 관 세정액 또는 흉막액 등일 수 있으며, 바람직하게는 파라핀포매종양조직일 수 있다.
또한, 상기 표적 유전자군의 mRNA의 발현 수준 측정은 qPCR에 의해 수행될 수 있다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
<실시예>
(환자 및 샘플)
2000년에서 2010년까지 연세대학교 세브란스 병원에서 1차 치료 시 위암 절제술을 받은 위암 환자의 신선-동결 종양 표본 및 임상 데이터를 확보하였다. 모든 샘플은 환자로부터 서면 동의를 얻은 후에 수집되었고, 연구는 YUSH의 기관 검토 위원회의 승인을 받았다. 샘플에 주석을 달았지만, 환자 식별이 가능한 정보로부터 그들을 분리하였다. 후향적으로 임상 데이터를 얻었다. OS(overall survival)는 수술부터 사망까지의 시간으로 정의하였고, 재발 없는 생존은 수술 후 첫 번째 재발까지의 시간으로 정의하였다. 마지막 접촉 시 재발 없이 환자가 살아있을 때 데이터가 검열되었다.
48,803개의 유전자 특징을 갖는 HumanHT-12 v3.0 Expression BeadChip array(Illumina)를 사용하여 외과적으로 제거된 동결 GC 종양 조직의 497개의 샘플로부터의 유전자 발현 프로파일을 측정하였다(GSE13861p). 간단히 말하면, RecoverAll ™ total nucleic acid isolation kit(Ambion) 또는 mirVana RNA Isolation Labeling Kit(Ambion)을 사용하여 신선-동결 조직에서 총 RNA를 추출하였다. RNA 농도와 순도는 NanoDrop 2000(Thermo Fischer Scientific)을 사용하여 260nm와 280nm(A260:A280=1.8)에서 측정하였다. RNA의 무결성(integrity)은 RNA Nano 6000 칩(Agilent)(RIN> 7)을 사용하여 평가하였다. TotalPrep ™ RNA Amplification Kit(Illumina)를 사용하여 제조업체의 프로토콜에 따라 500ng의 총 RNA를 표지한 다음 BeadChip 어레이 플랫폼을 사용하여 유전자 발현 수준을 측정하였다.
(GC 러닝을 위한 트레이닝 세트 및 테스트 세트)
GC 분자아형을 찾기 위한 트레이닝 세트 I은 GSE13861p (n=497, Illumina HumanHT-12 v3.0 Expression BeadChip 어레이)로 구성하였다. 이를 확인하기 위한 테스트 세트 I은 GSE15459 (n=200, Affymetrix Human Genome U133plus 2.0 Array), TCGA (n=262, Illumina HiSeq2000) 및 GSE62254 (n=300, Affymetrix Human Genome U133plus 2.0 Array)의 데이터 세트로 구성하였다.
최종 miniClassifier-26(26개 유전자)를 선정하기 위해 트레이닝 세트 II는 GSE13861p (n=497), GSE15459 (n=200), TCGA (n=262), GSE62254 (n=300)을 ComBat 방법으로 병합된 Merged1259 (n=1259)로 구성하였으며, qPCR 기반 측정 가능한 26개 유전자는 qPCR325 (n=325)를 테스트 세트 II로 구성하여 확인하였다. qPCR325를 얻기 위해 MasterPure ™ Complete DNA와 RNA Purification Kit(Epicenter)를 사용하여 총 RNA를 추출하였다. cDNA는 M-MLV Reverse Transcriptase(Life Technologies)를 사용하여 생성하였다. cDNA 농도는 NanoDrop 2000을 사용하여 결정하였다. SensiFAST Probe Lo-ROX 키트(Bioline), 5'FAM/3'BHQ-1 프로브(Biosearch Technologies), 유전자 특이 프라이머 및 ViiA™ 7 실시간 PCR 시스템(Applied Biosystems)를 사용하여 qPCR를 수행하고, 5ng의 총 cDNA를 사용하였다.
(데이터 가공)
데이터 전-가공: 마이크로어레이 데이터 세트는 주로 R 언어 환경에서 처리되었다. 정규화는 Illumina BeadChip 어레이 플랫폼의 데이터 세트에 대한 "마이크로어레이 데이터용 선형 모델(limma)" 패키지의 Between-Array Normalization(quantile)에 의해 수행되었다. GSE 15459 및 GSE62254는 견고한 다중 어레이 평균 정규화를 포함한 R "affy" 패키지를 사용하여 표준화되었다. qPCR 데이터 세트는 내부 표준에 의해 표준화되었다. 유전자 필터링을 위해서는 플랫폼 유래 프로브 유효성과 유전자 발현의 차이를 고려해야 한다. 트레이닝 세트의 경우, 데이터 세트를 일괄 조정한 다음 "유전자 발현 마이크로어레이 데이터(ComBat)의 배치를 결합할 때 일괄 처리 효과 방지" 방법과 결합하였다.
NMF -기반 분류: ComBat 병합 데이터는 "Nonnegative Matrix Factorization (NMF) 알고리즘 및 프레임 워크" 패키지를 사용하여 분류되었다. 클러스터 수 k는 2에서 7로 설정되었다. Brunet 방법은 반복 근사를 위한 업데이트 알고리즘으로 사용되었다. NMF 파생 클러스터를 특성화하기 전에 "Silhouette"R 패키지를 사용하여 각 클러스터에서 이상치 샘플을 제외하였다. 각각의 NMF 클러스터를 대표하는 유전자를 정의하기 위해 SAM 및 PAM은 각각 Bioconductor 패키지 "siggenes" 및 "pamr"을 사용하여 수행되었다.
WGCNA 분석: WGCNA는 R "wgcna"패키지를 사용하여 497 GC 샘플에서 수행되었다. 네트워크 구성을 위해 가중 네트워크 인접성은 6의 제곱으로 표현된 유사성에 의해 정의된다. 임의 컷오프 선택을 피하기 위해 WGCNA에서 제공한 "소프트 임계 설정 절차"를 따랐다. 모듈-탐지방법으로 R "dynamicTreeCut" 패키지의 동적 혼성화가 적용되었다. 각 모듈이 생존 및 임상 병리학적 변수와 관련이 있는지 평가하기 위해 연결성, 모듈 중요성 및 모듈 eigengene과 같은 다양한 모듈 특성이 활용되었다.
Gene set enrichment analysis( GSEA ): GSEA는 R "GSEABase" 패키지를 사용하여 수행되었다. 사전 정의된 유전자 세트는 Molecular Signatures Database(MSigDB; www.broadinstitute.org/msigdb)에서 가져왔다. 인리치먼트 분석은 Gene Ontology Consortium (http://geneontology.org)의 유전자 온톨로지를 사용하여 수행되었다.
생존 분석: 생존 분석은 R "survival" 및 "meta" 패키지에서 HR의 Cox 비례 위험 모델 및 메타 분석을 사용하여 수행되었다.
유전자 발현 프로파일의 계층적 클러스터링 및 일러스트레이션: 마이크로어레이 데이터 세트의 유전자 클러스터링은 Gene Cluster 3.0을 사용하여 수행되었다. 계층적 클러스터링 결과는 R "gplots" 패키지를 사용하여 시각적으로 시각화되었다.
(통계적 분석)
통계적 시험으로서 초기하 분포검정/Fisher's exact test, Pearson's correlation, Spearman's correlation 및 Wilcoxon rank-sum test를 사용하였다.
(프라이머리 세포-특이적 유전자 발현 프로파일링)
프라이머리 세포 배양: 일차 조직을 2% 항생제(Welgene LS203-01)를 함유한 Dulbecco's phosphate-buffered saline(Welgene LB00-02)로 헹구고 멸균 블레이드로 다듬었다. 0.2㎛ 주사기 여과 후, 다진 조직을 α-MEM(Gibco A10490) 및 150U/mL Collagenase II(Thermo Fisher Scientific)와 37℃에서 24시간 동안 5% CO2의 가습 분위기에서 배양하였다. 배양된 조직을 200×g에서 5분간 원심분리한 다음 신선한 배지로 옮겼다. 수확된 세포를 5% CO2 대기 하에서 37℃에서 2-3일 동안 배양하였다.
Illumina HiSeq 2500 시퀀싱 시스템을 이용한 총 RNA 시퀀싱: RNA 순도는 NanoDrop8000 분광 광도계에서 1㎕의 총 RNA 추출물을 분석하여 결정하였다. 총 RNA 무결성은 RNA 무결성 번호(RIN) 값과 RNA 단편> 200nt 단편 분배 값(DV200)의 백분율로 Agilent Technologies 2100 Bioanalyzer를 사용하여 확인하였다. 총 RNA 시퀀싱 라이브러리는 제조사의 지침(Illumina TruSeq RNA Access Library kit)에 따라 준비되었다. 그 후 100ng의 총 RNA를 고온에서 2가 양이온을 사용하여 작은 조각으로 분열시켰다. 제1 및 제2 가닥 합성 동안 랜덤 프라이밍을 사용하여 절단된 RNA 단편으로부터 cDNA를 생성하고, 시퀀싱 아답터를 생성된 이중가닥 cDNA 단편에 라이게이션 시켰다. 전사체의 코딩 영역은 최종 라이브러리를 생성하기 위해 서열 특이적 프로브를 사용하여 이 라이브러리로부터 캡처되었다. 증폭된 라이브러리의 품질은 모세관 전기영동(Bioanalyzer, Agilent)에 의해 확인되었다. SYBR Green PCR Master Mix(Applied Biosystems)를 사용하여 qPCR 후, 동량의 몰의 태그가 붙은 색인된 라이브러리를 풀에 결합시켰다. 클러스터 생성은 cBot 자동화 클러스터 생성 시스템(Illumina)의 플로우 셀에서 실현되었다. 이어서, 상기 플로우 셀을 HiSeq 2500 시퀀싱 시스템 (Illumina) 상에 로딩시키고 서열 분석은 2×100 bp 판독 길이를 사용하여 수행하였다.
(인 비트로 및 인 비보 실험 검증)
세포주: 인간 위암 세포주 SNU-1, SNU-5, SNU-16, SNU-216, SNU-484, SNU-520, SNU-601, SNU-620, SNU-638, SNU-668, SNU-719, MKN MKN-45, MKN-74, KATOIII, NCI-N87 및 Hs746T는 한국 세포주 은행(서울, 한국)에서 구입하였다; 그리고, YCC-1, YCC-2, YCC-3, YCC-6, YCC-7, YCC-9, YCC-10, YCC-11 및 YCC-16은 연세 암 연구소(서울, 한국)에서 구입하였다. SNU-1, SNU-5, SNU-16, SNU-216, SNU-484, SNU-520, SNU-601, SNU-620, SNU-638, SNU-668, SNU-719, MKN- 28, MKN-45, MKN-74, KATOIII 및 NCI-N87은 RPMI 1640(Welgene, 대구, 한국)에서 성장시켰다; Hs746T는 Dulbecco's modified Eagle's medium(DMEM;Welgene, 대구, 한국)에서 성장시켰다; 그리고, YCC-1, YCC-2, YCC-3, YCC-6, YCC-7, YCC-9, YCC-10, YCC-11, 및 YCC-16는 Minimum essential media Eagle(MEM;Welgene, 대구, 한국)에서 성장시켰다. 모든 세포를 37℃에서 10% FBS(Gibco)와 1% 항생제-항균 용액(10,000 단위 페니실린, 10mg 스트렙토마이신, 25㎍ 암포테리신 B/mL, Sigma-Aldrich 포함)이 보충된 완전 배지에서 5% CO2를 함유한 가습 분위기에서 배양하였다. 모든 세포는 e-Myco ™와 Mycoplasma PCR Detection Kit(iNtRON Biotechnology, 성남, 한국)에 의해 마이코플라즈마에 대해 음성인 것으로 확인되었다.
침습 분석: 분석을 위해 배양 배지(M199)에 2×104 HUVEC 세포를 피브로넥틴이 코팅된 트랜스웰에 넣고 바닥을 0.2% 젤라틴으로 코팅한 다음 단층 형성까지 48시간 동안 배양했다. 그 다음 FBS가 없는 CellTracker ™(Molecular Probes, C2925)가 포함된 1×105/50㎕의 Hs746T 및 NCI-N87 세포를 별도로 트랜스웰에 첨가하였다. 10% FBS를 함유한 배양 배지를 하부 챔버에 첨가하였다. 48시간 동안 배양한 후, 멤브레인의 상부 세포를 면봉으로 제거하였다. 하부 멤브레인의 세포를 실온에서 2-3 시간 동안 200㎕의 용해 버퍼로 용해시켰다. Ex/Em 492/517으로 형광을 측정하였다. TGF-β 억제제가 세포의 침입 능력에 미치는 영향을 알아보기 위해 LY2157299(AdooQ, 캘리포니아, 미국)를 50μM 투여하였다.
이동 분석: Hs746T 및 NCI-N87 세포를 10% FBS 및 1% 항생제가 함유된 배양 배지에서 단층으로 성장시켰다. 컨플루언시가 70%에 도달하면, 세포 단층을 100㎕의 피펫 끝으로 긁어내었다. 72시간 후에 상처 폭을 측정하고, 긁어낸 직후 측정한 상처 폭으로 표준화했다. TGF-β 억제제가 세포 이동에 미치는 영향을 평가하기 위해 LY2157299(50μM)를 투여하였다.
종양 스페로이드 형성 분석: 96-웰 플레이트에서, 10개의 세포를 bFGF, EGF, B27, 10% FBS 및 1% 항생제가 첨가된 50㎕의 DMEM/F12 (Gibco)에서 배양하였다. 배양 30일 후, 각 웰에서 종양 스페로이드를 계수하였다. 또한, LY2157299(50μM)를 투여하여 TGF-β 억제제가 종양 스페로이드 형성에 미치는 영향을 조사하였다.
동소 마우스 모델에서 인 비보 종양형성: 모든 동물 실험은 국제 실험 동물 관리 평가 인증 협회(AAALAC)의 승인을 받아 수행되었다. 동소 이식 마우스 모델을 확립하기 위해, 약 1시간 동안 대략 5mm로 상부 정중선을 따라 피부와 복막을 절개하여 BALB/c 누드 마우스(남성)의 외장형 위 벽에 1×107 GC 세포(Hs746T 및 NCI-N87)를 이식하였다. 위를 복막으로 되돌려 복벽을 한 층의 상처 봉합으로 막았다. 모델에서 종양 성장을 관찰하기 위해 Bruker 동물성 코일(RF SUC 400 1H M-BR-LIN ROAD, Bruker Medical Systems)이 장착된 9.4 T 동물 자기공명영상 (MRI) 장비를 사용하여 암의 유무 및 크기를 추적하였다 (자기공명영상 측정 조건: Echo = 1, TR = 2300 ms, TE = 22.0 ms, FA = 180 deg, TA = Oh4m54s400ms, NEX = 2, 및 FOV = 4.00 cm).
이식 마우스 모델에서 약물 반응: 이종 이식 마우스 모델을 확립하기 위해 BALB/c 누드 마우스(수컷)의 근위 대퇴 부위에 1×107 GC 세포(Hs746T 및 NCI-N87)를 이식하였다. 종양 체적이 400mm3로 증가할 때 종양 보유 쥐를 3개의 다른 치료군(PBS 대조군, Oxal+5FU/PBS 처리군 및 Oxal+5FU/LY2157299 (TBFβ 저해제) 처리군, 각 군당 n=8)으로 무작위 추출하였다. Oxalipatin(단일 용량 당 60㎍)과 Fluorourasil(단일 용량 당 1mg)을 혼합하여 마우스에게 일주일에 3 번 복강 주사했다. LY2157299(1.5mg/마우스)를 주 2 회 종양 내 주사 모델에 투여하였다. 이식된 종양의 크기는 주당 3 회 검사하였고 종양의 크기는 (4/3)×π×(단축/2)2×(장축/2)mm3으로 계산하였다.
qPCR 분석을 위한 miniClassifier -26의 이질성 검사: 공간적 이질성이 FFPE 표본에서 조직 샘플을 준비하는 본 발명의 절차에 영향을 미칠 가능성을 조사하기 위해, RNA 추출을 위해 단일 FFPE 표본에서 3 개의 조직 샘플을 얻었다. cDNA를 제조한 후, qPCR을 3번 시행하여 단일 종양 표본에서 3 개의 각 표본에 대해 평균을 구했다. 각 유전자에 대한 분산 계수를 평가하여 세 가지 표본의 이질성을 결정하였다.
(조직 마이크로어레이 구축)
각 포르말린 고정, 파라핀 내장 기본 종양에서 대표적인 3mm 직경 종양 조직 코어 2개를 조직 마이크로어레이(TMA) 블록으로 조립하였다. 각 TMA 블록은 표식 및 내부 통제로서 14 개의 종양 및 하나의 정상 위 점막 조직 코어를 함유하였다. 이어서, 면역조직화학(IHC) 분석을 위해 각 TMA 블록으로부터 4㎛ 두께의 섹션을 준비하였다.
(면역조직화학 분석)
IHC는 MutL 호몰로그 1(MLH1, 사용 준비, Roche, Basel, Switzerland), MutS 단백질 호몰로그 2(MSH2, 사용 준비, 복제 G219-1129) 용 항체가 있는 Ventana XT 시스템(Ventana Corporation), Roche), IHC는 전술한 바와 같이 수행하였다. MLH1 및 MSH2의 경우, 종양 세포에서 핵 염색이 없는 것은 발현 소실로, 정상 발현은 종양 세포에서의 핵 발현의 존재로 정의되었다. 모든 IHC 결과는 임상 병리학적 특징에 대한 지식 없이 평가되었다.
(엡스타인-바 바이러스-암호화된 RNA 인 시츄(in situ) 하이브리디제이션(EBER ISH))
EBER ISH는 Ventana Bench Mark 시스템(ISH iView 키트, Ventana Corporation, AZ, 미국)으로 수행하였다. 파라핀 포매된 조직 절편을 EZ Prep 버퍼(Ventana Corporation)으로 탈파라핀화 시키고 프로테아제 I로 4분 동안 분해시켰다. 이어서 EBER에 대한 프로브를 85℃에서 10분 동안 변성시킨 다음 37℃에서 1시간 동안 혼성화시켰다. 혼성화 후, 조직을 57℃에서 2×SSC 버퍼로 세척하였다. 이어서, 항-플루오레신 단클론 항체와의 인큐베이션을 20분 동안 수행한 다음 알칼리 블루 검출 키트(Ventana Corporation)를 제조자의 프로토콜에 따라 사용하였다. 슬라이드를 10분 동안 Nuclear Fast Red로 대조 염색하였다.
Figure PCTKR2018004732-appb-T000001
Figure PCTKR2018004732-appb-T000002
<실시예 1> 진행성 위암의 5개의 분류
본 발명의 실험 순서도는 도 1에 도시하였다. 본 발명자들은 컨센서스 기반의 NMF를 기반으로 5개의 GC 분자 아형을 확인하였다. 본 발명자들은 GC(GSE13861p 트레이닝 세트 I; HumanHT-12 v3.0 Array (Illumina)) 환자에서 위 절제술 샘플(n=497)의 유전자 발현 프로파일을 조사하였다. 5개의 분자아형에 대한 GC의 분류는 높은 일치를 보였으며, 히트맵은 독특한 유전자 발현 양상을 보였다(도 2a 및 도 3). 본 발명자들은 마이크로어레이(SAM, false discovery rate(FDR)=0)의 유의성 분석에 이어서 마이크로어레이의 예측 분석(PAM; overall error rate=0.10)를 사용하여 932개의 아형 특이 유전자를 확인하였다(Classifier-PAM932). Classifier-PAM932를 사용하여 GC 환자의 독립적인 유전자 발현 데이터 세트(Test set I)에서 분자아형화를 안정적으로 확인하였다.
<실시예 2> GC 아형을 기술하는 6개의 분자 시크니처 확인
선험적으로 정의된 유전자 세트의 표기법을 확장하기 위해 감독되지 않은 추가적인 유전자 별 클러스터링을 수행하였다. GSE13861p에서 WGCNA는 32개의 유전자 모듈(고도로 상호 연결된 유전자의 클러스터)을 검출하였다(도 4a, b). 전체적으로, (i) 몇 개의 모듈이 코호트에서 현저하게 보존되었다는 사실이 관찰되었다(초기하 분포검정; P <0.01)(도 4b), (ii) 보존된 모듈은 PAMgenes의 상위 25% PAM 분석의 상대적인 차이에 의한다(도 4c), (iii) 이러한 연관성은 GC 생물학과 유의미한 관련이 있었다(도 4d). 보존된 모듈을 기반으로 6개의 GC 시그니처는 5개의 GC 아형과 현저하게 연관되어 있다. 본 발명자들은 GC 시그니처의 유전자를 재추출하여 Spearman의 상관관계를 사용하여 GC 시그니처의 특정 조합을 5개의 NMF 파생 아형으로 변환할 수 있음을 보여 주었다(도 4e). 5개의 아형에 대한 본 발명자들의 주석은 네트워크 분석에 기초한 아형의 특성에 의해 생물학적으로 더욱 관련이 있다.
<실시예 3> 5개의 GC 아형의 임상적 특성규명
GC 아형과 임상병리학적 정보(나이, 성별, 종양 위치, AJCC stage (6th), WHO 분류, Lauren type) 간의 관계를 조사하였다. 5개 아형의 생존 분석은 아형과 전체 생존율 사이의 유의한 상관관계를 확인하였다(P=3.42e-09, 도 5). 각 아형의 5년 생존율을 결정하였다: 각 분자아형별 5년 생존율은 INF의 경우 76.1%(95% 신뢰구간 67.7-85.7), INT의 경우 65.1%(95% 신뢰구간 56.2-75.4), GST의 경우 64.6%(95% 신뢰구간 55.0-75.9), MXD의 경우 51.3%(95% 신뢰구간 42.1-62.4), MSC의 경우 46.3%(95% 신뢰구간 38.0-56.5)이다. INF 아형은 트레이닝 세트 I의 MXD 및 MSC 아형보다 유의하게 낮은 사망 위험과 관련이 있었다.
끝으로, 상기 분류의 유사점과 차이점을 아시아 암 연구 그룹(ACRG) (GSE62254), Cancer Genome Atlas(TCGA) 및 싱가포르 연구 그룹(GSE15459)에 의해 보고된 GC 아형과 비교하였다: 즉, i) 최악의 임상 결과를 보인 MSC 아형은 ACRG EMT 아형, TCGA GS 아형 및 싱가포르 연구 그룹 침윤성 아형의 4개의 분류 체계에서 공통된 아형이었으며, ii) 최상의 임상 결과를 갖는 INF 아형 대부분의 엡스타인-바 바이러스(EBV) 양성 환자 및 TCGA 및 ACRG에 의해 확인된 부분적인 초위성체의 높은 불안정성(MSI) 그룹이 포함되었다. 그렇지 않은 경우 GST 및 INT 아형은 싱가포르 연구 그룹에서 부분적으로 설명하였다. MXD 아형은 TCGA에 의한 구조적 염색체 불안정성과 연관되어있다. non- MSC 및 non-INF GC 집단에서 아형 매칭은 병리학적으로 모호한 경향이 있었는데, 아마도 TCGA와 ACRG가 체세포 카피수 및 TP53 활성의 정도를 Classifier로 사용하였기 때문인 것으로 보인다.
<실시예 4> INT 아형과 비교하여 MSC 아형의 전임상 치료 반응
모듈 기질 분석에서, 기질 특성은 Lauren 분류에서 재발뿐만 아니라 확산 타입(Diffuse type)과 유의한 관련이 있었다. 이것은 GC 세포주를 사용하여 MSC 아형의 중간엽 및 줄기세포 유사 행동을 검증하도록 자극했다. 더욱이, 최근의 증거들이 EMT와 관련된 약물 내성의 획득이 다양한 유형의 암에서 예후가 좋지 않다는 것을 보여 주므로, MSC 아형의 전임상 치료 반응을 평가하였다. GC 세포주(n=26)는 세포주의 유전자 발현 데이터를 환자 GC 종양 샘플의 데이터와 병합한 후 5 개의 아형으로 분류했다(거리 가중치 식별 방법)(도 6a). 기질 모듈 eigengene으로 순위를 매김으로써, Hs746T 및 SNU484 GC 세포주를 MSC-아형 세포주에서 모델 세포주로 선택했다. INT 아형에 할당된 NCI-N87 및 MKN-45 세포를 기질 시그니처가 없는 대조군으로 사용하였다(도 6b). 시험관 내 침윤 및 상처 치유 분석에서, Hs746T 및 SNU484 세포는 NCI-N87 및 MKN-45 세포보다 침습적인 성능 및 운동성을 나타냈다(도 7a, b). 3D 스페로이드 형성 분석 결과, Hs746T 및 SNU484 세포는 줄기세포 유사 특성을 보였다(도 7c). 생체 내 동소 종양 모델의 T2 가중 축 자기 공명 영상은 NCI-N87 및 MKN-45 세포가 제한된 종양을 형성하는 반면, Hs746T 및 SNU484 종양이 위벽 벽을 따라 확산됨을 나타내었다(도 7e, 흰색 점선). 또한, NCI-N87 세포와 비교하여 Hs746T의 기질 특성에 대한 TGF-β 억제제(LY2157299)의 영향을 관찰했다. TGF-β 억제제를 사용한 치료는 시험 관내에서 Hs746T 세포의 상처 치유, 침범 및 3D 스페로이드 형성 능력을 지연시켰다(도 7e-g). EMT 관련 약물 내성을 확인하기 위해 Hs746T 세포를 사용하여 생체 내 이종 이식 마우스 모델(군별 n=8)에 TGF-β 억제제와 항암제 조합(옥살리플라틴+5-FU)을 공동 투여하였다. 옥살리플라틴+5-FU 치료가 Hs746T 모델에서 종양 성장에 대해 단지 약간 효과적이었지만, TGF-β 억제제/옥살리플라틴+5-FU의 병용 투여는 Hs746T에서 약물 내성과 종양의 양을 유의하게 감소시켰다(도 7h). 그 대신, 항암제 조합만으로 TGF-β 억제제의 도움 없이 비 기질 성 NCI-N87 종양에서 종양 성장을 감소시켰다(도 7i).
<실시예 5> 임상 적용을 위한 qPCR 프로브 세트로서 GC miniClassifier-26
Classifier-PAM932를 qPCR 프로브 세트로 miniClassifier-26로 정제하여 안정적이고 임상적으로 활용 가능한 분류 시스템을 구축하였다(도 8)(도 9는 miniClassifier-26로 선정 및 분석하는 흐름도를 보여줌). Classifier 선별을 위해 GC 안정성의 대표성의 정도를 고려하였다. 본 발명자들은 gastric 시그니처, mesenchymal 시그니처, proliferative 시그니처, immune 시그니처 및 intestinal 시그니처의 6개의 GC 시그니처에 따라 miniClassifier 서브세트를 분류하여 아형별 및 코호트 보존형 모듈에서 후보 유전자를 선별해 나갔다. 후보자들은 i) 아형 판별 점수(PAM 분석)와 ii) 모듈내 연결성에 의해 추가적으로 필터링 되었다(WGCNA 분석). 프로브 안정성은 플랫폼(마이크로어레이 및 qPCR) 및 샘플링 방법(신선-동결 및 FFPE 표본) 독립성을 토대로 평가되었다. 마지막으로, 암 생물학의 선험적 생물학적 지식에 의해 유전자를 감소시켜 miniClassifier-26 qPCR 프로브 세트를 얻었다. 또한 선택된 miniClassifier-26 프로브 세트가 FFPE 표본의 가능한 공간 이질성(분산 계수 5%)의 영향을 받지 않음을 확인하였다.
트레이닝 세트 II(n=1259, 신선-동결 샘플에서 여러 플랫폼으로 얻은 Merged1259)를 사용하여 miniClassifier-26 프로브 세트를 만들었다(도 8). miniClassifier-26 프로브 세트로 분류된 GC 아형은 생존 분석에서 높은 예후와 관련이 있었다(LR 테스트, P=2.48e-09)(도 8d). Classifier-PAM932에 의해 분류된 아형과 유사하게, INF 아형은 가장 좋은 예후(5년 생존율 67.3%, 95% CI 61.3-73.9%), 그리고 MXD(5년 생존율 45.0%, 95% CI 36.5-55.4%)와 MSC(5년 생존율 33.0%, 95% CI 27.3-40.0%)은 최악의 예후를 나타냈다. GC 아형(도 8d)의 생존 곡선의 경향의 일관성은 qPCR325 테스트 세트에서도 확인하였다(도 8e, P=0.000534). 가장 예후가 좋은 INF 아형은 5년 생존율이 78.5%(95% CI 69.4-88.8%)이고 가장 예후가 안 좋은 MXD, MSC 아형 5년 생존율은 각각 54.6%(95% CI 41.7-71.4%), 57.5%(95% CI 48.4-68.2%)로 나타났다.
상기에서 확인된 위암의 5개의 분자아형에 대해 개인 및 공지의 데이터세트(GSE13861p, GSE15459, TCGA 및 SGE62254)에서 동정하였다.
도 8에서와 같이, Inflammatory 분자아형은 immune 시그니처와 연관되고, Intestinal 분자아형은 intestinal epithelial differentiation 유전자의 고발현과 연관되며, Gastric 분자아형은 gastric mucosa-specific 유전자의 고발현과 연관된다. Mixed-stromal 분자아형은 이질성 transit-amplifying 특징을 나타내며, Mesenchymal 분자아형은 EMT 및 중간엽 특성과 연관된다.
표 3은 도 8a의 표적 유전자 발현 패턴을 스코어(
Figure PCTKR2018004732-appb-I000056
)로 나타낸 것이다. 표 3의 스코어(
Figure PCTKR2018004732-appb-I000057
)에서 양수는 유전자의 고발현, 음수는 유전자의 저발현, 0은 유전자의 발현 변화가 없음을 의미한다. 따라서, 양수의 값이 클수록 발현이 더 높아지고, 음수의 값이 클수록 발현은 더욱 낮아진다.
Figure PCTKR2018004732-appb-T000003
상기 스코어(
Figure PCTKR2018004732-appb-I000058
)는 하기 식 2에 적용하여 SV(Score Value)를 계산하고, SV에 따라 Intestinal 분자아형, Inflammatory 분자아형, Mesenchymal 분자아형, Mixed-stromal 분자아형 및 Gastric 분자아형으로 분류할 수 있다:
[식 2]
Figure PCTKR2018004732-appb-I000059
여기서, SV는 NMF-기반 클러스터링에 얻은 클러스터에서 각 시그니처의 발현 평균값, t는 해당 시그니처에 속하는 유전자(i)의 수,
Figure PCTKR2018004732-appb-I000060
는 시그니처(θ = 6), k는 클러스터의 수로 2 내지 7의 정수이며,
Figure PCTKR2018004732-appb-I000061
는 각 유전자의 전체 평균과 각 클러스터 평균 사이의 거리를 바탕으로 하는 스코어이다.
도 10은 5개의 클러스터들을 분자아형으로 명명하는 방법을 도시한 것으로, gastric 시그니처의 SV가 최대값을 갖는 클러스터를 Gastric 분자아형으로 정하고, 나머지 4개의 클러스터 중 mesenchymal 시그니처의 SV가 최대값을 가지면서 proliferative 시그니처의 SV가 최소값을 갖는 클러스터를 Mesenchymal 분자아형으로 정하며, 나머지 3개의 클러스터 중 immune 시그니처의 SV가 최대값을 갖으면서 intestinal 시그니처의 SV가 최소값을 갖는 클러스터를 Inflammatory 분자아형으로 정하고, 나머지 2개의 클러스터 중 stem-like 시그니처의 SV가 최대값을 갖는 경우 Mixed-stromal 분자아형으로 정하고, 최종적으로 남은 클러스터를 Intestinal 분자아형으로 정하여 명명한다.
표 3의 스코어(
Figure PCTKR2018004732-appb-I000062
)는 해당 유전자별 t-통계값에서 임계치로 보정하고, 하기 식 3 및 4에 따라
Figure PCTKR2018004732-appb-I000063
값을 계산하여 분자아형 기준을 설정할 수 있다:
[식 3]
Figure PCTKR2018004732-appb-I000064
여기서, 각 분자아형(k) 내의 해당 유전자(i) 평균값(
Figure PCTKR2018004732-appb-I000065
) 대부분이 노이즈이고 해당 유전자(i)의 전체 평균값(
Figure PCTKR2018004732-appb-I000066
)에 가까울 수 있으므로, 임계치(Δ)로 보정하여
Figure PCTKR2018004732-appb-I000067
값이 0에 수렴하는 유전자들을 제외시킨다. 이로서 각 분자아형(k) 내 유전자(i)의 신뢰할 수 있는 평균값을 계산할 수 있다. 상기 식 3의
Figure PCTKR2018004732-appb-I000068
를 계산하기 위하여 하기 식 4를 따른다:
[식 4]
Figure PCTKR2018004732-appb-I000069
여기서,
Figure PCTKR2018004732-appb-I000070
는 해당 유전자(i)의 t-통계값이며, 같은 분자아형(subtype) 내의 샘플 유전자 발현량에 가중치를 주어 표준화하는 것으로 선형판별식분석(LDA; Linear Discriminant Analysis)에서 흔하게 사용되는 통계 방법이다.
Figure PCTKR2018004732-appb-I000071
는 유전자(i)의 전체 샘플에 대한 해당 분자아형(k) 내의 표준편차이다. j는 해당 분자아형(k) 내의 샘플이며,
Figure PCTKR2018004732-appb-I000072
Figure PCTKR2018004732-appb-I000073
의 표준오차를 보정하기 위한 자유도이며,
Figure PCTKR2018004732-appb-I000074
Figure PCTKR2018004732-appb-I000075
의 중앙값이다.
표 3은 분자아형 분류 기준표로, 적색은 최대값, 파란색은 최소값을 의미하며, 325개의 샘플에 대해 26개의 표적 유전자의 스코어(
Figure PCTKR2018004732-appb-I000076
)로부터 식 3 및 4에 따라 계산된
Figure PCTKR2018004732-appb-I000077
를 기반으로 작성된 분자아형 분류 기준표이다.
테스트 샘플의 분자아형을 알고자 할 때, 테스트 샘플의 표적 유전자군의 발현 값에 대해 상기 식 3과 4에서 계산된 값을 식 5에 적용하여 표 3의 스코어(
Figure PCTKR2018004732-appb-I000078
)를 분자아형 분류 기준표로 하여 테스트 샘플(
Figure PCTKR2018004732-appb-I000079
)의 분자아형(k)을 판별할 수 있다:
[식 5]
Figure PCTKR2018004732-appb-I000080
여기서, 테스트 샘플(
Figure PCTKR2018004732-appb-I000081
)은 26개 표적 유전자 Cq 값을 325개 테스트 세트 II의 26개 표적 유전자 Cq 값과 median centering한 값이며,
Figure PCTKR2018004732-appb-I000082
는 테스트 샘플(
Figure PCTKR2018004732-appb-I000083
)의 분자아형 "k"를 판별해주는 스코어로서 테스트 샘플의 판별 스코어가 가장 작은 값의 분자아형(k)을 선택하여 분류한다. 표 4는
Figure PCTKR2018004732-appb-I000084
에 따라 325개 샘플에 대한 분자아형 결정에 일치율 및 에러율이다.
Figure PCTKR2018004732-appb-T000004
본 발명은 위암 예후 예측 분야에 적용할 수 있다.

Claims (14)

  1. TFF1, TFF2, VSIG1, CNN1, NEXN, SCRG1, SORBS1, SPARCL1, AURKA, BUB1, CDC20, CEP55, PTTG1, UBE2C, CD8A, GBP1, GBP5, GZMB, NKG7, WARS, ANTXR1, SFRP4, VCAN, CDH17, CDX1 및 MYO1A를 포함하는 표적 유전자군의 mRNA의 발현 수준을 측정하는 제제; 및
    ACTB, ATP5E, GPX1, UBB 및 HPRT1를 포함하는 참고 유전자군의 mRNA의 발현 수준을 측정하는 제제를 포함하는 위암 2기 및 3기의 진행성 위암의 예후 예측용 조성물.
  2. 제1항에 있어서,
    표적 유전자군 또는 참고 유전자군의 mRNA의 발현 수준을 측정하는 제제는 상기 mRNA에 상보적인 서열을 갖는 올리고뉴클레오티드를 포함하는, 위암 2기 및 3기의 진행성 위암의 예후 예측용 조성물.
  3. 제1항에 있어서,
    표적 유전자군 또는 참고 유전자군의 mRNA의 발현 수준을 측정하는 제제는 SEQ ID NOS: 1 내지 62에 기재된 프라이머 세트; 또는 SEQ ID NOS: 63 내지 93에 기재된 프로브를 포함하는, 위암 2기 및 3기의 예후 예측용 조성물.
  4. 제1항에 있어서,
    상기 조성물은 전체 생존율 측면에서 위암 2기 및 3기의 진행성 위암의 예후를 측정하는 것인, 위암 2기 및 3기의 진행성 위암의 예후 예측용 조성물.
  5. 제1항의 위암 2기 및 3기의 진행성 위암의 예후 예측용 조성물을 포함하는 위암 2기 및 3기의 진행성 위암의 예후 예측용 키트.
  6. 제5항에 있어서,
    키트는 qPCR(Quantitative real-time polymerase chain reaction) 키트를 포함하는, 위암 2기 및 3기의 진행성 위암의 예후 예측용 키트.
  7. 통계적 유의치를 나타낼 수 있는 정도의 샘플 수를 갖는 위암 2기 및 3기의 진행성 위암 환자로부터 얻은 기준 샘플과 생물학적 샘플에서,
    TFF1, TFF2 및 VSIG1로 이루어진 gastric 시그니처; CNN1, NEXN, SCRG1, SORBS1 및 SPARCL1로 이루어진 mesenchymal 시그니처; AURKA, BUB1, CDC20, CEP55, PTTG1 및 UBE2C로 이루어진 proliferative 시그니처; CD8A, GBP1, GBP5, GZMB, NKG7 및 WARS로 이루어진 immune 시그니처; ANTXR1, SFRP4 및 VCAN로 이루어진 stem-like 시그니처; 및 CDH17, CDX1 및 MYO1A로 이루어진 intestinal 시그니처를 포함하는 표적 유전자군과 ACTB, ATP5E, GPX1, UBB 및 HPRT1를 포함하는 참고 유전자군의 mRNA 발현 수준을 측정하는 단계;
    하기 식 1에 따라 기준 샘플과 생물학적 샘플의 표적 유전자군의 ΔCq 값을 계산하여 컴퓨터 프로그램에 입력하는 단계; 및
    상기 컴퓨터 프로그램에 입력한 값들에 대해 NMF(Non-negative Matrix Factorization) 및 NMF-기반 클러스터링을 수행하여 복수 개의 클러스터로 분류하고, 각 클러스터에서 표적 유전자군의 스코어(
    Figure PCTKR2018004732-appb-I000085
    )를 하기 식 2에 적용하여 SV(Score Value)를 계산하고, SV에 따라 Intestinal 분자아형, Inflammatory 분자아형, Mesenchymal 분자아형, Mixed-stromal 분자아형 및 Gastric 분자아형으로 분류하며, 전체 생존율(Overall Survival) 측면에서 예후를 분석하여 생물학적 샘플이 속하는 분자아형의 예후를 예측하는 단계를 포함하고,
    상기 위암의 분자아형은, gastric 시그니처의 SV가 최대값을 갖는 클러스터를 Gastric 분자아형으로 정하고; Gastric 분자아형으로 결정된 클러스터를 제외한 클러스터 중 mesenchymal 시그니처의 SV가 최대값을 갖고, proliferative 시그니처의 SV가 최소값을 갖는 클러스터를 Mesenchymal 분자아형으로 정하며; Gastric 분자아형 및 Mesenchymal 분자아형으로 결정된 클러스터를 제외한 클러스터 중 immune 시그니처의 SV가 최대값을 갖고, intestinal 시그니처의 SV가 최소값을 갖는 클러스터를 Inflammatory 분자아형으로 정하고; Gastric 분자아형, Mesenchymal 분자아형 및 Inflammatory 분자아형으로 결정된 클러스터를 제외한 클러스터 중 stem-like 시그니처의 SV가 최대값을 갖는 경우 Mixed-stromal 분자아형으로 정하고; 최종적으로 남은 클러스터를 Intestinal 분자아형으로 정하여 분류하며,
    상기 위암의 분자아형이 Inflammatory 분자아형인 경우, 전체 생존율 측면에서 좋은 예후군; Intestinal 분자아형 및 Gastric 분자아형인 경우, 중간 예후군; Mixed-stromal 분자아형 및 Mesenchymal 분자아형인 경우, 나쁜 예후군으로 예측하는, 위암 2기 및 3기의 예후 예측을 위한 정보를 제공하는 방법:
    [식 1]
    ΔCq = (표적 유전자의 Cq 값) - (참고 유전자군의 Cq 평균값)
    여기서, 참고 유전자군의 Cq 평균값은 ACTB, ATP5E, GPX1, UBB 및 HPRT1를 포함하는 참고 유전자군의 Cq 값의 평균값을 의미한다.
    [식 2]
    Figure PCTKR2018004732-appb-I000086
    여기서, SV는 NMF-기반 클러스터링에 얻은 클러스터에서 각 시그니처의 발현 평균값, t는 해당 시그니처에 속하는 유전자(i)의 수,
    Figure PCTKR2018004732-appb-I000087
    는 시그니처(θ = 6), k는 클러스터의 수로 2 내지 7의 정수이며,
    Figure PCTKR2018004732-appb-I000088
    는 각 유전자의 전체 평균과 각 클러스터 평균 사이의 거리를 바탕으로 하는 스코어로, 하기 식 3에 따라 구한다,
    [식 3]
    Figure PCTKR2018004732-appb-I000089
    여기서, 임계치(Δ)는 0.1로 정하여 분자아형별 특이성이 없는 유전자들은 0으로 수렴시키고,
    Figure PCTKR2018004732-appb-I000090
    Figure PCTKR2018004732-appb-I000091
    의 부호를 의미하며,
    Figure PCTKR2018004732-appb-I000092
    는 하기 식 4에 따라 구한다,
    [식 4]
    Figure PCTKR2018004732-appb-I000093
    여기서, 각 분자아형(k) 내의 해당 유전자(i) 평균값(
    Figure PCTKR2018004732-appb-I000094
    ), 해당 유전자(i)의 전체 평균값(
    Figure PCTKR2018004732-appb-I000095
    )이며,
    Figure PCTKR2018004732-appb-I000096
    Figure PCTKR2018004732-appb-I000097
    의 표준오차를 보정하기 위한 자유도
    Figure PCTKR2018004732-appb-I000098
    이고,
    Figure PCTKR2018004732-appb-I000099
    는 유전자(i)의 전체 샘플에 대한 해당 분자아형(k) 내의 표준편차이고,
    Figure PCTKR2018004732-appb-I000100
    Figure PCTKR2018004732-appb-I000101
    의 중앙값이다.
  8. 제7항에 있어서,
    통계적 유의치를 나타낼 수 있는 정도의 샘플의 수는 300 내지 10,000인, 위암 2기 및 3기의 예후 예측을 위한 정보를 제공하는 방법.
  9. 제7항에 있어서,
    생물학적 샘플은 신선종양조직, 신선동결종양조직, 파라핀포매종양조직, 세침흡인액, 복수, 관 세정액 및 흉막액으로 구성되는 군에서 선택되는, 위암 2기 및 3기의 예후 예측을 위한 정보를 제공하는 방법.
  10. 제7항에 있어서,
    표적 유전자군 또는 참고 유전자군의 mRNA의 발현 수준 측정은 qPCR(Quantitative real-time polymerase chain reaction)에 의해 수행되는, 위암 2기 및 3기의 예후 예측을 위한 정보를 제공하는 방법.
  11. 통계적 유의치를 나타낼 수 있는 정도의 샘플 수를 갖는 위암 2기 및 3기의 진행성 위암 환자로부터 얻은 기준 샘플과 생물학적 샘플에서,
    TFF1, TFF2 및 VSIG1로 이루어진 gastric 시그니처; CNN1, NEXN, SCRG1, SORBS1 및 SPARCL1로 이루어진 mesenchymal 시그니처; AURKA, BUB1, CDC20, CEP55, PTTG1 및 UBE2C로 이루어진 proliferative 시그니처; CD8A, GBP1, GBP5, GZMB, NKG7 및 WARS로 이루어진 immune 시그니처; ANTXR1, SFRP4 및 VCAN로 이루어진 stem-like 시그니처; 및 CDH17, CDX1 및 MYO1A로 이루어진 intestinal 시그니처를 포함하는 표적 유전자군과 ACTB, ATP5E, GPX1, UBB 및 HPRT1를 포함하는 참고 유전자군의 mRNA 발현 수준을 측정하는 단계;
    하기 식 1에 따라 기준 샘플과 생물학적 샘플의 표적 유전자군의 ΔCq 값을 계산하여 컴퓨터 프로그램에 입력하는 단계; 및
    상기 컴퓨터 프로그램에 입력한 값들에 대해 NMF(Non-negative Matrix Factorization) 및 NMF-기반 클러스터링을 수행하여 복수 개의 클러스터로 분류하고, 각 클러스터에서 표적 유전자군의 스코어(
    Figure PCTKR2018004732-appb-I000102
    )를 하기 식 2에 적용하여 SV(Score Value)를 계산하고, SV에 따라 Intestinal 분자아형, Inflammatory 분자아형, Mesenchymal 분자아형, Mixed-stromal 분자아형 및 Gastric 분자아형으로 분류하며, 전체 생존율(Overall Survival) 측면에서 예후를 분석하여 생물학적 샘플이 속하는 분자아형의 예후를 예측하는 단계를 포함하고,
    상기 위암의 분자아형은, gastric 시그니처의 SV가 최대값을 갖는 클러스터를 Gastric 분자아형으로 정하고; Gastric 분자아형으로 결정된 클러스터를 제외한 클러스터 중 mesenchymal 시그니처의 SV가 최대값을 갖고, proliferative 시그니처의 SV가 최소값을 갖는 클러스터를 Mesenchymal 분자아형으로 정하며; Gastric 분자아형 및 Mesenchymal 분자아형으로 결정된 클러스터를 제외한 클러스터 중 immune 시그니처의 SV가 최대값을 갖고, intestinal 시그니처의 SV가 최소값을 갖는 클러스터를 Inflammatory 분자아형으로 정하고; Gastric 분자아형, Mesenchymal 분자아형 및 Inflammatory 분자아형으로 결정된 클러스터를 제외한 클러스터 중 stem-like 시그니처의 SV가 최대값을 갖는 경우 Mixed-stromal 분자아형으로 정하고; 최종적으로 남은 클러스터를 Intestinal 분자아형으로 정하여 분류하며,
    상기 위암의 분자아형이 Inflammatory 분자아형인 경우, 전체 생존율 측면에서 좋은 예후군; Intestinal 분자아형 및 Gastric 분자아형인 경우, 중간 예후군; Mixed-stromal 분자아형 및 Mesenchymal 분자아형인 경우, 나쁜 예후군으로 예측하는, 위암 2기 및 3기의 예후 예측 방법:
    [식 1]
    ΔCq = (표적 유전자의 Cq 값) - (참고 유전자군의 Cq 평균값)
    여기서, 참고 유전자군의 Cq 평균값은 ACTB, ATP5E, GPX1, UBB 및 HPRT1를 포함하는 참고 유전자군의 Cq 값의 평균값을 의미한다.
    [식 2]
    Figure PCTKR2018004732-appb-I000103
    여기서, SV는 NMF-기반 클러스터링에 얻은 클러스터에서 각 시그니처의 발현 평균값, t는 해당 시그니처에 속하는 유전자(i)의 수,
    Figure PCTKR2018004732-appb-I000104
    는 시그니처(θ = 6), k는 클러스터의 수로 2 내지 7의 정수이며,
    Figure PCTKR2018004732-appb-I000105
    는 각 유전자의 전체 평균과 각 클러스터 평균 사이의 거리를 바탕으로 하는 스코어로, 하기 식 3에 따라 구한다,
    [식 3]
    Figure PCTKR2018004732-appb-I000106
    여기서, 임계치(Δ)는 0.1로 정하여 분자아형별 특이성이 없는 유전자들은 0으로 수렴시키고,
    Figure PCTKR2018004732-appb-I000107
    Figure PCTKR2018004732-appb-I000108
    의 부호를 의미하며,
    Figure PCTKR2018004732-appb-I000109
    는 하기 식 4에 따라 구한다,
    [식 4]
    Figure PCTKR2018004732-appb-I000110
    여기서, 각 분자아형(k) 내의 해당 유전자(i) 평균값(
    Figure PCTKR2018004732-appb-I000111
    ), 해당 유전자(i)의 전체 평균값(
    Figure PCTKR2018004732-appb-I000112
    )이며,
    Figure PCTKR2018004732-appb-I000113
    Figure PCTKR2018004732-appb-I000114
    의 표준오차를 보정하기 위한 자유도
    Figure PCTKR2018004732-appb-I000115
    이고,
    Figure PCTKR2018004732-appb-I000116
    는 유전자(i)의 전체 샘플에 대한 해당 분자아형(k) 내의 표준편차이고,
    Figure PCTKR2018004732-appb-I000117
    Figure PCTKR2018004732-appb-I000118
    의 중앙값이다.
  12. 제11항에 있어서,
    통계적 유의치를 나타낼 수 있는 정도의 샘플의 수는 300 내지 10,000인, 위암 2기 및 3기의 예후 예측 방법.
  13. 제11항에 있어서,
    생물학적 샘플은 신선종양조직, 신선동결종양조직, 파라핀포매종양조직, 세침흡인액, 복수, 관 세정액 및 흉막액으로 구성되는 군에서 선택되는, 위암 2기 및 3기의 예후 예측 방법.
  14. 제11항에 있어서,
    표적 유전자군 또는 참고 유전자군의 mRNA의 발현 수준 측정은 qPCR(Quantitative real-time polymerase chain reaction)에 의해 수행되는, 위암 2기 및 3기의 예후 예측 방법.
PCT/KR2018/004732 2017-04-24 2018-04-24 위암의 생물학적 특성에 기반한 군 구분 및 예후 예측 시스템 WO2018199589A1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP18790388.5A EP3617329A4 (en) 2017-04-24 2018-04-24 GROUP CLASSIFICATION AND PROGNOSIS PREDICTION SYSTEM BASED ON BIOLOGICAL CHARACTERISTICS OF GASTRIC CANCER
JP2019520030A JP6755391B2 (ja) 2017-04-24 2018-04-24 胃癌の生物学的特性に基づく群区分および予後予測システム
US16/341,931 US11365450B2 (en) 2017-04-24 2018-04-24 Group classification and prognosis prediction system based on biological characteristics of gastric cancer
CN201880004336.1A CN110177886B (zh) 2017-04-24 2018-04-24 基于胃癌生物学特征的集群分类及预后预测系统

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170052365A KR101940657B1 (ko) 2017-04-24 2017-04-24 위암의 생물학적 특성에 기반한 군 구분 및 예후 예측 시스템
KR10-2017-0052365 2017-04-24

Publications (1)

Publication Number Publication Date
WO2018199589A1 true WO2018199589A1 (ko) 2018-11-01

Family

ID=63919903

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/004732 WO2018199589A1 (ko) 2017-04-24 2018-04-24 위암의 생물학적 특성에 기반한 군 구분 및 예후 예측 시스템

Country Status (6)

Country Link
US (1) US11365450B2 (ko)
EP (1) EP3617329A4 (ko)
JP (1) JP6755391B2 (ko)
KR (1) KR101940657B1 (ko)
CN (1) CN110177886B (ko)
WO (1) WO2018199589A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109872776A (zh) * 2019-02-14 2019-06-11 辽宁省肿瘤医院 一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用
JP2020178667A (ja) * 2019-04-26 2020-11-05 国立大学法人 東京大学 がん治療の効果および予後の予測方法および治療手段の選択方法

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190304578A1 (en) * 2018-03-23 2019-10-03 LunaPBC Omic data aggregation with data quality valuation
KR102659917B1 (ko) * 2019-12-03 2024-04-23 서울대학교병원 비음수행렬분해 기반의 메타유전자 생성 방법 및 이의 적용
CN110942808A (zh) * 2019-12-10 2020-03-31 山东大学 一种基于基因大数据的预后预测方法及预测系统
CN111145831B (zh) * 2019-12-31 2023-11-24 广州市妇女儿童医疗中心 构建遗传亚型预测模型的方法、装置和计算机设备
CN111899882B (zh) * 2020-08-07 2021-06-18 北京科技大学 一种预测癌症的方法及系统
CN112309571B (zh) * 2020-10-30 2022-04-15 电子科技大学 数字病理图像的预后量化特征的筛选方法
CN112941009B (zh) * 2021-02-22 2024-03-01 新格元(南京)生物科技有限公司 一种ffpe样本预处理液及从ffpe样本中分离单细胞的方法
CN113238052B (zh) * 2021-04-27 2023-07-25 中国人民解放军空军军医大学 MG7-Ag、hTERT及TFF2表达分析在肠上皮化生风险分层及胃癌预警中的应用
CN115631857B (zh) * 2022-04-01 2023-06-23 洛兮医疗科技(杭州)有限公司 甲状腺癌cd8+t细胞免疫相关基因预后预测模型
CN114752675B (zh) * 2022-05-06 2022-09-30 济南市中心医院 一种用于胃癌筛查、预后及免疫治疗评估的分子标记物及其应用
CN114720687A (zh) * 2022-06-01 2022-07-08 浙江省肿瘤医院 Sfrp4作为胃癌预后标志物的应用
CN114999569B (zh) * 2022-08-03 2022-12-20 北京汉博信息技术有限公司 一种针对病灶基质的分型方法、装置及计算机可读介质
CN115588467B (zh) * 2022-09-16 2023-05-09 皖南医学院 一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法
CN115295126B (zh) * 2022-09-29 2023-03-24 浙江省肿瘤医院 预测胃癌错配修复基因缺陷的模型
CN116798632B (zh) * 2023-07-13 2024-04-30 山东第一医科大学附属省立医院(山东省立医院) 一种基于代谢基因的胃癌分子分型及预后预测模型构建方法及应用

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110059452A1 (en) * 2009-08-18 2011-03-10 Vanderbilt University Methods of screening for gastric cancer
KR20120065959A (ko) * 2010-12-13 2012-06-21 사회복지법인 삼성생명공익재단 위암의 예후 예측용 마커 및 이를 이용하는 위암의 예후 예측 방법
KR20140121523A (ko) * 2013-04-05 2014-10-16 연세대학교 산학협력단 위암에 대한 예후 예측 시스템

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI507412B (zh) 2013-03-19 2015-11-11 Taichung Veterans General Hospital Gastric cancer biological markers and their use, as well as gastric cancer-related detection methods
KR101501826B1 (ko) * 2013-04-05 2015-03-13 연세대학교 산학협력단 위암에 대한 예후 예측 모형의 제조방법
WO2015172201A1 (en) 2014-05-16 2015-11-19 Peter Maccallum Cancer Institute Biomarker of gastric cancer

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110059452A1 (en) * 2009-08-18 2011-03-10 Vanderbilt University Methods of screening for gastric cancer
KR20120065959A (ko) * 2010-12-13 2012-06-21 사회복지법인 삼성생명공익재단 위암의 예후 예측용 마커 및 이를 이용하는 위암의 예후 예측 방법
KR20140121523A (ko) * 2013-04-05 2014-10-16 연세대학교 산학협력단 위암에 대한 예후 예측 시스템

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
See also references of EP3617329A4 *
TONG, WEIHUA ET AL.: "Serum Biomarker Panels for Diagnosis of Gastric Cancer", ONCOTARGETS AND THERAPY, vol. 9, September 2016 (2016-09-01), pages 2455 - 2463, XP055527083 *
WANG, X. ET AL.: "Identification of Specific Biomarkers for Gastric Adenocarcinoma by ITRAQ Proteomic Approach", SCIENTIFIC REPORTS, vol. 6, no. 1, December 2016 (2016-12-01), pages 1 - 15, XP055527093 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109872776A (zh) * 2019-02-14 2019-06-11 辽宁省肿瘤医院 一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用
CN109872776B (zh) * 2019-02-14 2023-06-09 辽宁省肿瘤医院 一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用
JP2020178667A (ja) * 2019-04-26 2020-11-05 国立大学法人 東京大学 がん治療の効果および予後の予測方法および治療手段の選択方法
JP7304030B2 (ja) 2019-04-26 2023-07-06 国立大学法人 東京大学 がん治療の効果および予後の予測方法および治療手段の選択方法

Also Published As

Publication number Publication date
JP2019531741A (ja) 2019-11-07
CN110177886B (zh) 2024-02-20
EP3617329A1 (en) 2020-03-04
EP3617329A4 (en) 2021-01-27
JP6755391B2 (ja) 2020-09-16
CN110177886A (zh) 2019-08-27
KR101940657B1 (ko) 2019-01-21
US11365450B2 (en) 2022-06-21
KR20180118984A (ko) 2018-11-01
US20190241972A1 (en) 2019-08-08

Similar Documents

Publication Publication Date Title
WO2018199589A1 (ko) 위암의 생물학적 특성에 기반한 군 구분 및 예후 예측 시스템
US20220106639A1 (en) Method for determining copy number variations
Schlecht et al. Expression profiling of mammalian male meiosis and gametogenesis identifies novel candidate genes for roles in the regulation of fertility
KR101974492B1 (ko) 샘플 중 상이한 이수성의 존재 또는 부재를 결정하는 방법
Borges Jr et al. miR-142-3p as a biomarker of blastocyst implantation failure-A pilot study
WO2014163444A1 (ko) 국소 진행형 위암에 대한 예후 예측 시스템
WO2018169145A1 (ko) 진행성 위암 환자의 수술 후 예후 또는 항암제 적합성 예측 시스템
US20140171337A1 (en) Methods and devices for assessing risk of female infertility
US20200239966A1 (en) Method to diagnose malignant melanoma in the domestic dog
Fang et al. MicroRNA profile comparison of testicular tissues derived from successful and unsuccessful microdissection testicular sperm extraction retrieval in non-obstructive azoospermia patients
KR20100058420A (ko) 심근염 전사체 바이오마커
Qu et al. Differential transcriptomic profiling provides new insights into oocyte development and lipid droplet formation in Japanese flounder (Paralichthys olivaceus)
CN111996250B (zh) 用于开发胃腺癌诊疗产品的分子标志物
Mandal et al. S100A7 (psoriasin) influences immune response genes in human breast cancer
CN107937524A (zh) 人类kras基因突变检测试剂盒及检测方法
Murin et al. Porcine oocytes matured in a chemically defined medium are transcriptionally active
Pasquariello et al. Profiling bovine blastocyst microRNAs using deep sequencing
Xu et al. Feasibility of Whole RNA Sequencing from Single‐Cell mRNA Amplification
WO2024085608A1 (ko) 혈액 내 rna의 엑손-접합 정보를 이용한 암 진단 방법
WO2023219447A1 (ko) 세포외 소포체 유래 mirna를 검출하는 제제를 포함하는 난소암 진단용 조성물
US20230313312A1 (en) Methods for early detection of breast cancer
AU2015204302B2 (en) Method for determining copy number variations
Xu et al. Research Article Feasibility of Whole RNA Sequencing from Single-Cell mRNA Amplification
EP2554682A1 (en) Methods for Treating Myelodysplastic Syndrome with Ezatiostat

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18790388

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019520030

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018790388

Country of ref document: EP

Effective date: 20191125