WO2024167329A1 - 대장암 진단용 바이오마커, 및 이를 이용한 진단 방법 - Google Patents

대장암 진단용 바이오마커, 및 이를 이용한 진단 방법 Download PDF

Info

Publication number
WO2024167329A1
WO2024167329A1 PCT/KR2024/001871 KR2024001871W WO2024167329A1 WO 2024167329 A1 WO2024167329 A1 WO 2024167329A1 KR 2024001871 W KR2024001871 W KR 2024001871W WO 2024167329 A1 WO2024167329 A1 WO 2024167329A1
Authority
WO
WIPO (PCT)
Prior art keywords
protein
colon cancer
cms4
matrix
expression level
Prior art date
Application number
PCT/KR2024/001871
Other languages
English (en)
French (fr)
Inventor
김필남
이현진
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Publication of WO2024167329A1 publication Critical patent/WO2024167329A1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57407Specifically defined cancers
    • G01N33/57419Specifically defined cancers of colon
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/136Screening for pharmacological compounds
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2500/00Screening for compounds of potential therapeutic value

Definitions

  • the present invention relates to a biomarker for diagnosing colon cancer and a method for diagnosing colon cancer using the same.
  • Colon cancer is a malignant tumor that occurs in the colon.
  • IARC International Agency for Research on Cancer
  • WHO World Health Organization
  • the incidence of colon cancer in Korea is 45 per 100,000 people, the highest in the world.
  • cancer registration statistics released by the Central Cancer Registry in 2014, 217,057 cases of cancer occurred in Korea, of which colon cancer accounted for 26,978 cases, or 12.4% of the total, ranking 3rd with a high incidence rate.
  • the mortality rate due to colon cancer is also high, ranking 4th among deaths by cancer type.
  • the incidence of colon cancer is accelerating due to increased life expectancy and westernized eating habits. Therefore, highly accurate technology for early detection of colon cancer is urgently needed to improve patient survival rates and quality of life.
  • cancer classification is very important not only for accurate diagnosis but also for predicting some of the biological characteristics of individual cancers.
  • colorectal cancer shows relatively uniform clinical and morphological characteristics compared to other types of cancer, its biological characteristics and progression are very diverse, so an accurate classification that can predict them is essential.
  • CMS conensus molecular subtype 4
  • CMS4 is a group that shows remarkable changes in the expression of genes related to EMT-related genes, TGF- ⁇ signaling, angiogenesis, complement-mediated inflammatory system activity, and stromal invasion, and is characterized by the most refractory nature and poor prognosis.
  • the present invention is designed to solve the above problems, and provides a biomarker for effective diagnosis of colon cancer, particularly CMS4 subtype colon cancer, and a diagnostic method using the same. Since the present invention is remarkably effective in diagnosing the most difficult to treat and poor prognosis type of colon cancer with high accuracy, it is expected to be widely used in the medical and health fields.
  • One purpose of the present invention is to provide a composition or kit for diagnosing colon cancer, particularly CMS4 subtype colon cancer.
  • Another object of the present invention is to provide information for diagnosing colon cancer, particularly CMS4 subtype colon cancer.
  • Another object of the present invention is to provide a method for screening a candidate substance for the treatment of colon cancer, particularly CMS4 subtype colon cancer.
  • cancer refers to a disease characterized by uncontrolled cell growth, in which a tumor is formed as a result of such abnormal cell growth, and infiltrates surrounding tissues and, in severe cases, metastasizes to other organs of the body. It is also academically called a neoplasm. Cancer is an incurable chronic disease that, in many cases, cannot be fundamentally cured even with surgery, radiation, and chemotherapy, causing pain to patients and ultimately leading to death. There are various causes of cancer, but they are divided into internal and external factors. The exact mechanism by which normal cells are transformed into cancer cells has not been clearly identified, but it is known that a significant number of cancers are caused by external factors such as environmental factors. Internal factors include genetic factors and immunological factors, and external factors include chemicals, radiation, and viruses. Genes involved in the development of cancer include oncogenes and tumor suppressor genes, and cancer occurs when the balance between them is disrupted by internal or external factors described above.
  • colon cancer is a comprehensive term for malignant tumors occurring in the mucosa of the colon and rectum. It may exhibit protruding, ulcerated, or invasive characteristics. Histologically, more than 90% of colon cancers are adenocarcinomas derived from colonic mucosal epithelial cells, and rarely, neuroendocrine carcinomas and squamous cell carcinomas occur. Adenocarcinomas are graded histologically according to the degree of glandular structure they form.
  • adenocarcinomas In the case of well-differentiated adenocarcinomas, more than 95% of tumors form glands, in the case of moderately differentiated tumors, 50-95% of tumors show glandular structures, and in the case of poorly differentiated tumors, less than 50% of tumors form glandular structures. It is known that most colonic adenocarcinomas are moderately differentiated, with the well-differentiated type accounting for approximately 10% and the poorly differentiated type accounting for approximately 20%. Recently, the World Health Organization (WHO) integrated existing data on the molecular classification of colorectal cancer that had been reported sporadically and classified colorectal cancer into four subtypes (consensus molecular subtype; CMS), and the specific information is shown in Table 1 below.
  • WHO World Health Organization
  • Subtype CMS1 CMS2 CMS3 CMS4 Dominant feature MSI immune Canonical Metabolic Mesenchymal Prevalence 14% 37% 13% 23% Genome instability MSI highCIMP high Hypermutation SCNA high Mixed MSI CIMP low SCNA low SCNA high Mutation BRAF KRAS Pathway and microenvironment Immune activation WNT and MYC activation Metabolic dysregulation Stromal invasionTGF- ⁇ activation angiogenesis Prognostic Worse SAR Worse RFS and OS MSI, microsatellite instable; CIMP, CpG island methylator phenotype; SAR, survival after relapse; SCNA, somatic copy number alteration; WNT, wingless-type MMTV integration site; MYC, v-myc avian myelocytomatosis viral oncogene; TGF- ⁇ , transforming growth factor ⁇ ; RFS, relapse-free survival; OS, overall survival.
  • diagnosis means confirming the presence or characteristics of a pathological condition.
  • diagnosis means confirming whether or not colon cancer, particularly CMS4 subtype colon cancer, has occurred or the possibility of occurrence thereof, thereby enabling early prediction of whether or not colon cancer, particularly CMS4 subtype colon cancer, has occurred.
  • genes described as biomarkers in this specification are genes derived from humans (Homo sapiens), and information about the genes can be easily searched in public databases that are obvious to those skilled in the art to which the present invention pertains, such as the National Center for Biotechnology Information (NCBI) in the United States.
  • NCBI National Center for Biotechnology Information
  • the present invention relates to a diagnostic biomarker for colorectal cancer, particularly CMS4 subtype colorectal cancer.
  • the biomarkers include COL14A1 (Collagen Type 4), MGP (Matrix Gla Protein), TNXB (tenascin ), HAPLN1 (Hyaluronan And Proteoglycan Link Protein 1), DCN (Decorin), ADAMDEC1 (ADAM like decysin 1), A2M (Alpha-2-Macroglobulin), CTSC (Cathepsin C), CST3 (cystatin) c), CXCL12 (C-X-C motif chemokine 12), and S100A4 (S100 Calcium Binding Protein A4); or a protein encoded by them.
  • One or more genes selected from the above; or The protein encoded by this may have a reduced expression level in colorectal cancer, especially in CMS4 subtype colorectal cancer, compared to normal controls.
  • the biomarkers include COL12A1 (Collagen type XII ⁇ 1 chain), COL11A1 (Collagen Type Acidic And Cysteine Rich), THBS2 (Thrombospondin 2), TIMP1 (TIMP Metallopeptidase Inhibitor 1), MMP14 (Matrix Metallopeptidase 14), PLOD2 (Procollagen-Lysine,2-Oxoglutarate 5-Dioxygenase 2), SERPINH1 (Serpin peptidase inhibitor clade H, member 1), LOXL2 (Lysyl Oxidase Like 2), MMP11 (Matrix Metallopeptidase 11), MMP1 (Matrix Metallopeptidase 1), One or more genes selected from the group consisting of CTSB (Cathepsin B), MMP3 (Matrix Metallopeptidase 3), LGALS1 (Galectin 1), and SFRP4 (Se
  • the diagnostic biomarkers for colon cancer, especially CMS4 subtype colon cancer, of the present invention include COL14A1 (Collagen Type Repeat Containing Protein X-Linked), MFAP4 (Microfibril Associated Protein 4), MGP (Matrix Gla Protein), TNXB (tenascin 4), SPARCL1 (SPARC Like 1), OGN (Osteoglycin), HAPLN1 (Hyaluronan And Proteoglycan Link Protein 1), DCN (Decorin), ADAMDEC1 (ADAM like decysin 1), A2M (Alpha-2-Macroglobulin), At least one protein selected from the group consisting of CTSC (Cathepsin C), CST3 (cystatin c), CXCL12 (C-X-C motif chemokine 12), and S100A4 (S100 Calcium Binding Protein A4); Or, the genes encoding it include COL12A1 (Collagen type XII ⁇ 1 chain
  • the present invention relates to a composition for diagnosing colon cancer, particularly CMS4 subtype colon cancer.
  • the diagnostic composition includes COL14A1 (Collagen Type 4), MGP (Matrix Gla Protein), TNXB (tenascin ), HAPLN1 (Hyaluronan And Proteoglycan Link Protein 1), DCN (Decorin), ADAMDEC1 (ADAM like decysin 1), A2M (Alpha-2-Macroglobulin), CTSC (Cathepsin C), CST3 (cystatin) c), CXCL12 (C-X-C motif chemokine 12), and S100A4 (S100 Calcium Binding Protein A4); or an agent capable of measuring the expression level of a gene encoding the same. there is.
  • MGP Microx Gla Protein
  • TNXB tenascin
  • HAPLN1 Hyaluronan And Proteoglycan Link Protein 1
  • DCN Decorin
  • ADAMDEC1 ADAM like decysin 1
  • A2M Alpha-2-Macroglobul
  • the diagnostic composition may include COL12A1 (Collagen type XII ⁇ 1 chain), COL11A1 (Collagen Type Acidic And Cysteine Rich), THBS2 (Thrombospondin 2), TIMP1 (TIMP Metallopeptidase Inhibitor 1), MMP14 (Matrix Metallopeptidase 14), PLOD2 (Procollagen-Lysine,2-Oxoglutarate 5-Dioxygenase 2), SERPINH1 (Serpin peptidase inhibitor clade H, member 1), LOXL2 (Lysyl Oxidase Like 2), MMP11 (Matrix Metallopeptidase 11), MMP1 (Matrix Metallopeptidase 1), One or more proteins selected from the group consisting of CTSB (Cathepsin B), MMP3 (Matrix Metallopeptidase 3), LGALS1 (Galectin 1), and SFRP4 (Se
  • the agent for measuring the expression level of the protein is not particularly limited, but may include, for example, at least one selected from the group consisting of antibodies, oligopeptides, ligands, PNA (peptide nucleic acid), and aptamers that specifically bind to the protein.
  • the "antibody” refers to a substance that specifically binds to an antigen and causes an antigen-antibody reaction.
  • the antibody means an antibody that specifically binds to the biomarker protein.
  • the antibody of the present invention includes all of polyclonal antibodies, monoclonal antibodies, and recombinant antibodies.
  • the antibody can be easily produced using techniques well known in the art.
  • a polyclonal antibody can be produced by a method well known in the art including a process of injecting an antigen of the biomarker protein into an animal and collecting blood from the animal to obtain serum containing the antibody.
  • Such a polyclonal antibody can be produced from any animal such as a goat, rabbit, sheep, monkey, horse, pig, cow, or dog.
  • a monoclonal antibody can be produced using a hybridoma method or a phage antibody library technique well known in the art.
  • the antibody produced by the method can be separated and purified using a method such as gel electrophoresis, dialysis, salt precipitation, ion exchange chromatography, or affinity chromatography.
  • the antibody of the present invention includes not only a complete form having two full-length light chains and two full-length heavy chains, but also a functional fragment of an antibody molecule.
  • a functional fragment of an antibody molecule means a fragment having at least an antigen-binding function, and includes Fab, F(ab'), F(ab')2, and Fv.
  • PNA Protein Nucleic Acid
  • DNA has a phosphate-ribose sugar backbone
  • PNA has a repeated N-(2-aminoethyl)-glycine backbone linked by peptide bonds, which greatly increases binding affinity and stability for DNA or RNA, and is thus used in molecular biology, diagnostic analysis, and antisense therapy.
  • the "aptamer” is an oligonucleotide or peptide molecule, and the aptamer can be prepared by various methods apparent to those skilled in the art in the art.
  • a preparation for measuring the expression level of a gene encoding the protein may include at least one selected from the group consisting of a primer, a probe, and an antisense nucleotide that specifically bind to the gene encoding the protein.
  • the "primer” is a fragment that recognizes a target gene sequence, and includes a pair of forward and reverse primers, but is preferably a pair of primers that provides analysis results with specificity and sensitivity.
  • the nucleic acid sequence of the primer is a sequence that does not match a non-target sequence existing in the sample, and thus a primer that amplifies only the target gene sequence containing a complementary primer binding site and does not cause non-specific amplification, high specificity can be imparted.
  • the "probe” refers to a substance that can specifically bind to a target substance to be detected in a sample, and refers to a substance that can specifically confirm the presence of the target substance in the sample through the binding.
  • the type of the probe is not limited to a substance commonly used in the art, but is preferably PNA (peptide nucleic acid), LNA (locked nucleic acid), peptide, polypeptide, protein, RNA or DNA, and most preferably PNA.
  • the probe includes a biomaterial derived from or similar to a living organism or manufactured in vitro, and may be, for example, an enzyme, a protein, an antibody, a microorganism, an animal or plant cell and organ, a nerve cell, DNA, and RNA, and DNA includes cDNA, genomic DNA, and oligonucleotides, and RNA includes genomic RNA, mRNA, and oligonucleotides, and examples of proteins may include antibodies, antigens, enzymes, peptides, etc.
  • LNA Locked nucleic acids
  • LNA nucleosides contain general nucleic acid bases of DNA and RNA, and can form base pairs according to the Watson-Crick base pairing rule.
  • LNA cannot form an ideal shape in Watson-Crick binding.
  • LNA is included in a DNA or RNA oligonucleotide, LNA can more quickly pair with a complementary nucleotide chain, thereby increasing the stability of the double helix.
  • the "antisense” in the present invention means an oligomer having a sequence of nucleotide bases and an intersubunit backbone that allows the antisense oligomer to hybridize with a target sequence in RNA by Watson-Crick base pairing, typically allowing the formation of an mRNA and RNA:oligomer heteroduplex within the target sequence.
  • the oligomer may have exact sequence complementarity or approximate sequence complementarity to the target sequence.
  • the expression level of the diagnostic protein or gene of colon cancer may be measured in decellularized tissue, and specifically, may be measured in decellularized extracellular matrix.
  • COL14A1 Collagen Type Microfibril Associated Protein 4
  • MGP Microfibril Gla Protein
  • TNXB tenascin OGN (Osteoglycin)
  • HAPLN1 Hyaluronan And Proteoglycan Link Protein 1
  • DCN Decorin
  • ADAMDEC1 ADAM like decysin 1
  • A2M Alpha-2-Macroglobulin
  • CTSC Cathepsin C
  • COL12A1 Collagen type XII ⁇ 1 chain
  • COL11A1 Collagen Type Secreted Protein Acidic And Cysteine Rich
  • THBS2 Thrombospondin 2
  • TIMP1 TIMP1 (TIMP Metallopeptidase Inhibitor 1)
  • MMP14 Matrix Metallopeptidase 14
  • PLOD2 Procollagen-Lysine,2-Oxoglutarate 5-Dioxygenase 2
  • SERPINH1 Serpin peptidase inhibitor clade
  • member 1 member 1
  • LOXL2 Lysyl Oxidase Like 2
  • MMP11 Matrix Metallopeptidase 11
  • MMP1 Matrix Metallopeptidase 1
  • the composition for diagnosing colon cancer, especially CMS4 subtype colon cancer, of the present invention includes COL14A1 (Collagen Type Containing Protein X-Linked), MFAP4 (Microfibril Associated Protein 4), MGP (Matrix Gla Protein), TNXB (tenascin ), SPARCL1 (SPARC Like 1), OGN (Osteoglycin), HAPLN1 (Hyaluronan And Proteoglycan Link Protein 1), DCN (Decorin), ADAMDEC1 (ADAM like decysin 1), A2M (Alpha-2-Macroglobulin), At least one protein selected from the group consisting of CTSC (Cathepsin C), CST3 (cystatin c), CXCL12 (C-X-C motif chemokine 12), and S100A4 (S100 Calcium Binding Protein A4); Or, in a preparation capable of measuring the expression level of the gene encoding it, COL12A1 (Collagen
  • the present invention relates to a kit for diagnosing colon cancer, comprising a composition for diagnosing colon cancer, particularly CMS4 subtype colon cancer.
  • the kit of the present invention comprises the diagnostic composition for colon cancer, particularly CMS4 subtype colon cancer, of the present invention described above, and limitations of each part constituting the diagnostic composition for colon cancer, particularly CMS4 subtype colon cancer of the present invention overlap with those described in the diagnostic composition for colon cancer, particularly CMS4 subtype colon cancer, and are thus omitted in order to avoid excessive complexity of the present specification.
  • the kit may be, but is not limited to, an RT-PCR kit, a DNA chip kit, an ELISA kit, a protein chip kit, a rapid kit, or an MRM (multiple reaction monitoring) kit.
  • the diagnostic kit of the present invention may further comprise one or more other component compositions, solutions or devices suitable for the analysis method.
  • the diagnostic kit of the present invention may further comprise essential elements necessary for performing a reverse transcription polymerase reaction.
  • the reverse transcription polymerase reaction kit comprises a primer pair specific for a gene encoding a marker protein.
  • the primers are nucleotides having a sequence specific for the nucleic acid sequence of the gene and may have a length of about 7 bp to 50 bp, more preferably about 10 bp to 30 bp.
  • it may comprise a primer specific for the nucleic acid sequence of a control gene.
  • the reverse transcription polymerase reaction kit may comprise a test tube or other appropriate container, a reaction buffer (with various pH and magnesium concentrations), deoxynucleotides (dNTPs), an enzyme such as Taq polymerase and reverse transcriptase, DNase, RNase inhibitor DEPC-water, sterile water, etc.
  • the diagnostic kit of the present invention may include essential elements necessary for performing a DNA chip.
  • the DNA chip kit may include a substrate to which cDNA or oligonucleotides corresponding to a gene or a fragment thereof are attached, and reagents, agents, enzymes, etc. for producing a fluorescent label probe.
  • the substrate may include cDNA or oligonucleotides corresponding to a control gene or a fragment thereof.
  • the diagnostic kit of the present invention may include essential elements necessary for performing an ELISA.
  • the ELISA kit includes an antibody specific for the protein.
  • the antibody is an antibody having high specificity and affinity for the marker protein and little cross-reactivity to other proteins, and is a monoclonal antibody, a polyclonal antibody, or a recombinant antibody.
  • the ELISA kit may include an antibody specific for a control protein.
  • Other ELISA kits may include reagents capable of detecting bound antibodies, such as labeled secondary antibodies, chromophores, enzymes (e.g., conjugated to the antibody) and their substrates or other substances capable of binding to the antibody.
  • the present invention relates to a method for diagnosing colorectal cancer, particularly CMS4 subtype colorectal cancer, comprising the step of measuring the expression level of one or more proteins selected from the biomarkers of the present invention described above, or a gene encoding the same, in a biological sample isolated from a target subject.
  • the “target entity” refers to an entity whose presence or absence of colorectal cancer is uncertain, or whose CMS subtype of colorectal cancer is unclear even if colorectal cancer has been diagnosed.
  • the "biological sample” means any material, biological fluid, tissue or cell obtained from or derived from an individual, and preferably colon tissue is preferable as this can increase the accuracy in diagnosing colon cancer.
  • the present invention may include a step of measuring the expression level of the biomarker protein listed above or the gene encoding it in the biological sample separated as described above.
  • the step of measuring the expression level of the selected protein or gene below, or the agent capable of measuring the expression level of the selected protein or gene overlaps with that described in the diagnostic composition for colon cancer, particularly CMS4 subtype colon cancer, and is therefore omitted to avoid excessive complexity of the present specification.
  • the present invention relates to a method for screening a candidate substance for the treatment of colon cancer, particularly CMS4 subtype colon cancer.
  • the screening method includes (c) COL12A1 (Collagen type XII ⁇ 1 chain), COL11A1 (Collagen Type Secreted Protein Acidic And Cysteine Rich), THBS2 (Thrombospondin 2), TIMP1 (TIMP Metallopeptidase Inhibitor 1), MMP14 (Matrix Metallopeptidase 14), PLOD2 (Procollagen-Lysine,2-Oxoglutarate 5-Dioxygenase 2), SERPINH1 (Serpin peptidase inhibitor clade) H, member 1), LOXL2 (Lysyl Oxidase Like 2), MMP11 (Matrix Metallopeptidase 11), MMP1 (Matrix Metallopeptidase 1), CTSB (Cathepsin B), MMP3 (Matrix Metallopeptidase 3), LGALS1 (Galectin 1), and SFRP4 (Secreted Frizzled Related
  • the description of the agent for measuring the expression level and the method for measuring the expression level are duplicated with those described in the method for diagnosis of the present invention, and thus, in order to prevent excessive complexity of the specification, the description thereof is omitted below.
  • the present invention is remarkably effective in diagnosing with high accuracy the most difficult to treat and poor prognosis type of colon cancer, it is expected to be widely utilized in the medical and health fields.
  • FIG. 1 is a schematic diagram of an overview of a characterization study of patient-derived ECM (pdECM) according to one embodiment of the present invention.
  • Patient-derived samples were decellularized to enrich the extracellular matrix (ECM), and the proteomic profile of pdECM was quantitatively analyzed by tandem mass tag (TMT) mass spectrometry.
  • TMT tandem mass tag
  • FIG. 2 illustrates clinical data including common molecular subtypes (CMS), sample type, tumor stage, and anatomical region of a bulk tissue sample according to one embodiment of the present invention.
  • CMS common molecular subtypes
  • Figure 3 shows the results of hematoxylin and eosin staining of non-decellularized or decellularized patient-derived ECM according to one embodiment of the present invention.
  • the size bar in Figure 3 is 1 cm (white) or 100 ⁇ m (black).
  • Figure 4 shows the DNA quantification results of non-decellularized or decellularized patient-derived ECM according to one embodiment of the present invention.
  • Figure 5 shows a qualitative comparison of matrisome proteins detected in a prior study and the present study according to one embodiment of the present invention.
  • Figure 6 shows the relative percentage composition (RPC) of proteins detected in a reference sample with category-specific annotations of the matrix according to one embodiment of the present invention.
  • the number of proteins in each category is indicated in parentheses.
  • Figure 7 shows the results of evaluating cellular components by analyzing the top 100 proteins with the highest intensities in category-specific RPCs using gene ontology according to one embodiment of the present invention.
  • the bar graph represents the number of proteins, and the dots represent the statistical significance of each category.
  • Figure 8 illustrates the matrix protein composition between samples displayed as a hierarchical clustering heatmap and bar graph analysis of the matrix-focused proteomic profiles of patient-derived normal and tumor ECM according to one embodiment of the present invention.
  • the hierarchical clustering shows a clear separation between normal and tumor groups and heterogeneity within the tumor group, and the RPCs of all proteins with categorical annotations between each sample and between the averages of the normal/tumor states are displayed in the bar graph.
  • Figure 9 shows a PCA plot of all samples according to one embodiment of the present invention.
  • the duplicates of tumor samples are plotted closer to the original sample and are indicated by a lighter color.
  • Figure 10 shows the protein distribution of normal and tumor groups according to one embodiment of the present invention.
  • the detected proteins were ranked by RPC, and the bar graph shows the 20 most abundant matrisome proteins in each group.
  • the RPC of each protein in each sample is indicated by a dot in the bar graph.
  • Figure 11 is a volcano plot illustrating differentially expressed proteins (DEPs) between patient-derived normal ECM and tumor ECM matrisomes according to one embodiment of the present invention.
  • the red line represents the threshold for DEPs with log2 (fold change) > 0.5 and adjusted p ⁇ 0.01, 28 tumor-enriched DEPs are shown on the right, and 110 normal-enriched DEPs are shown on the left.
  • Figure 12 illustrates a functional gene set analysis of DEPs according to one embodiment of the present invention.
  • the bar graph in Figure 12 represents the most annotated functions along with the statistical significance of normal enrichment and tumor enrichment DEPs.
  • Figure 13 illustrates a heatmap of selected DEPs included in the core matrix category according to one embodiment of the present invention. Since the tumor group has a heterogeneous matrix composition, the expression pattern of DEPs enriched in tumors shows an inconsistent profile across samples compared to DEPs enriched in normals.
  • Figure 14 illustrates the cell origin analysis of DEPs according to one embodiment of the present invention.
  • the cell origin of DEPs was determined based on the cell type-specific expression pattern and the highest average expression level among the cell types using single cell sequencing data.
  • the bar graph in Figure 14 shows the cell origin of DEPs along with the number and ratio by cell type. Most of the DEPs were derived from fibroblasts.
  • Figure 15 shows tSNE plots of single cell sequencing results for normal and tumor colorectal tissues according to one embodiment of the present invention.
  • Cells were clustered according to their transcriptomic profiles, and tumor-associated and normal-associated clusters were clustered into meta-clusters for each group.
  • Differentially expressed matrisome genes were defined as tumor-associated (TAM) and normal control-associated (NAM) marker genes.
  • FIG 16 shows protein and transcript expression of TAM and NAM according to one embodiment of the present invention.
  • TAM and NAM were defined based on proteomic and transcriptomic expression data.
  • the heatmap shows the protein profile of TAM and NAM
  • the dot plot shows the transcription profile of TAM and NAM with major expression cell types.
  • Figure 17 shows immunohistochemical images of COL12A1-, THBS2-, and HAPLN1-stained normal and tumor tissues according to one embodiment of the present invention.
  • the size bar in Figure 17 is 50 ⁇ m.
  • Figure 18 shows the normalized expression scores of TAM and NAM along with the consensus molecular subtype (CMS) for each tissue according to one embodiment of the present invention.
  • CMS consensus molecular subtype
  • Figure 19 shows a GSEA plot of 38 matrisome markers according to one embodiment of the present invention. 29 CMS4 enriched markers were identified using the enrichment scores.
  • FIG. 20 is a scatter plot showing the positive correlation between 29 CMS4-enriched marker scores and EMT scores or TGF- ⁇ response scores according to one embodiment of the present invention.
  • Figure 21 shows the expression pattern of top 10 CMS4-specific matrisome markers, CMS4 probability, and PFS from TCGA samples according to 10-marker score, according to one embodiment of the present invention.
  • Ten clinically significant markers with p-value ⁇ 0.05 between high-expression 25% group and low-expression 25% group were selected.
  • CMS4 probability and 10-marker score were calculated using CMS4 classifier R package and ssGSEA.
  • Figure 22 is a heatmap showing the positive correlation between the expression levels of the top 10 markers and the CMS4 probability of TCGA samples according to one embodiment of the present invention.
  • Figure 23 is a scatter plot showing the positive correlation between the expression levels of the top 10 markers and the CMS4 probability of TCGA samples according to one embodiment of the present invention.
  • CMS transcriptional profile-based molecular subtype classification system
  • CMS describes four colorectal cancer subtypes, among which the mesenchymal subtype, CMS4 group, is the most refractory and has a poor prognosis, as it is characterized by extensive stromal infiltration (mostly activated fibroblasts) and ECM composition.
  • a recent study showed that CAFs in colorectal cancer are composed of a distinct fibroblast population, which is significantly enriched in the CMS4 subtype compared with other subtypes. Therefore, we compared ECM features between the myofibroblast-enriched CMS4 subtype and other subtypes.
  • ssGSEA Single-sample gene set enrichment analysis was performed with The Cancer Genome Atlas (TCGA)-Colon Adenocarcinoma (COAD)/Rectal Adenocarcinoma (READ) expression data sets to calculate the expression patterns of TAM and NAM.
  • the TAM ssGSEA score was significantly higher in the stromally enriched molecular subtype (CMS4) than in other cell types.
  • CMS4 stromally enriched molecular subtype
  • the NAM score was higher in normal tissue than in tumor tissue, and the scores varied according to tumor tissue types. In particular, the level of NAM was higher in the CMS4 subtype than in other subtypes, but the transcript level of NAM was slightly lower in the CMS4 subtype than in normal tissue.
  • fibroblasts of CMS4 showed increased transcript levels of most ECM genes, which is consistent with the molecular features of ECM composition and stromal infiltration. Therefore, the 10 clinically significant CMS4-specific matrisome genes can be used to infer the fibroblast population in the TME and distinguish CMS4 from other subtypes.
  • Tissues were obtained from patients diagnosed with colorectal cancer based on colonoscopy findings. Normal tissues were obtained from some patients to match the colorectal cancer tissues. Tissues collected immediately after surgery were immediately preprocessed and then frozen. Clinical characteristics of all patients and tissues were recorded based on medical records and interviews.
  • the collected tissues were decellularized in distilled water containing 1% (v/v) Triton X-100 (T8787; Sigma-Aldrich, St. Louis, MO, USA) and 0.1% (v/v) ammonium hydroxide (221228; Sigma-Aldrich). Specifically, the tissues were cut into small sections (3 ⁇ 3 ⁇ 3 mm) and treated in the decellularization solution for more than 2 h. The solution was changed every 30 min or whenever it became opaque. When the tissues became colorless, they were washed with Dulbecco's phosphate buffered-saline (Welgene, Gyeongsan, Korea) for 2 days, changing the solution every 1 h.
  • Dulbecco's phosphate buffered-saline Welgene, Gyeongsan, Korea
  • pdECM patient-derived ECM
  • hematoxylin and eosin staining native and decellularized tissues were fixed in 4% paraformaldehyde (Biosesang, Seongnam, Korea) for 1 day, embedded in paraffin blocks using Paraplast (Leica Biosystems, Wetzlar, Germany), sectioned at 10 ⁇ m thickness, and stained with hematoxylin and eosin.
  • the DNA content of pdECM samples was quantified using a DNA extraction kit (Bioneer, Daejeon, Korea) according to the manufacturer's recommendations, and the DNA concentration was measured using a DS-11 Spectrophotometer (DeNovix, Wilmington, DE, USA).
  • Protein digestion was performed using the S-TrapTM mini (ProtiFi, Huntington, NY, USA) kit. Specifically, approximately 5 mg of decellularized colon tissue was mixed with 5% sodium dodecyl sulfate buffer, sonicated with VCX 130 (Sonics), and then centrifuged at 13,000 g for 10 min. Each supernatant was collected in a 1.5 mL tube, boiled at 95°C for 10 min with 20 mM dithiothreitol (final concentration), and the solution was cooled to room temperature and alkylated with 40 mM iodoacetamide for 30 min in the dark.
  • S-TrapTM mini ProtiFi, Huntington, NY, USA
  • 12% aqueous phosphoric acid (1:10 dilution, final calculated concentration 1.2% phosphoric acid) and 7 volumes of binding buffer (90% aqueous methanol with final concentration 100 mM triethylammonium, TEAB: pH 7.1) were added to the sodium dodecyl sulfate lysate.
  • binding buffer 90% aqueous methanol with final concentration 100 mM triethylammonium, TEAB: pH 7.1
  • TMT11-plex To compare data between samples, multiplexing was performed with four TMT11-plex sets for eight normal tissues and 16 tumor tissues. To facilitate combining data for multiple sets of TMT11-plexes, a pooled common control was constructed as a reference. Controls consisted of equal weights of total peptides as each sample used in the experiment, and each TMT11-plex was composed of three aliquots in a 0.5:1:2 ratio with eight individual samples, for a total of 100 ⁇ g of desalted peptides.
  • the desalted and dried peptides were re-dissolved in 100 mM TEAB (100 ⁇ L) using TMT 11-plex reagent, 0.8 mg of TMT reagent (41 ⁇ L) was added to each sample, and incubated at room temperature for 1 h. The reaction was then quenched with 8 ⁇ L of 5% hydroxylamine (Thermo Fisher Scientific) and incubated at room temperature for 15 min. Afterwards, the labeled samples (25-100 ⁇ g) were combined, dried, and desalted using PierceTM Peptide Desalting Spin Columns (Thermo Fisher Scientific). The eluates were then dried and stored at -80°C.
  • TMT-labeled peptides were fractionated using a Shimadzu HPLC system consisting of a binary pump, an autosampler, a degasser, a variable-wave detector, and a fraction collector.
  • High pH reversed-phase fractionation was performed using a 4.6 ⁇ 150 mm Waters XBridge® BEH C18 column (diameter, 2.5 ⁇ m).
  • Mobile phase A consisted of 5 mM ammonium formate in 100% water
  • mobile phase B consisted of 5 mM ammonium formate in 95% acetonitrile.
  • the sample separation used the following linear gradient: 5% B for 15 min, from 5% to 15% B for 5 min, from 15% to 40% B for 30 min, 40% B for 5 min, 95% B for 4 min, 95% B for 4 min, from 95% to 5% B for 1 min, and 5% B for an additional 9 min.
  • Time-dependent fractionation was collected from 21 to 61 min for a total of 40 fractions, yielding a final yield of approximately 1 mL/fraction.
  • the variable wavelength detector was monitored at 214 nm, and the collected 40 fractions were prepared into 20 fractions by mixed fractionation (e.g., 1 and 21; 2 and 22; 3 and 23). Each fraction was dissolved in 200 ⁇ L water/formic acid (99.9:0.1, v:v) for LC-MS/MS analysis.
  • a nanoflow ultra-high-performance liquid chromatography (UHPLC) system (UltiMate 3000 RSLCnano System, Thermo Fisher Scientific) coupled with an Orbitrap EclipseTM TribridTM mass spectrometer (Thermo Fisher Scientific) was used for proteome analysis.
  • Peptides fractionated with mobile phase A and mobile phase B were injected and separated on an EASY-Spray PepMapTM RSLC C18 column ES803A (2 ⁇ m, 100 A, 75 ⁇ m ⁇ 50 cm; Thermo Fisher Scientific) operated at 45 °C.
  • the electrospray ionization voltage was set at 1800–1900 V, and the ion transfer tube temperature was set at 275 °C.
  • UHPLC-MS/MS data were acquired using data-dependent top speed mode for the entire time with a 3-s cycle to maximize the number of MS2 scans.
  • the full scan (MS1) was detected using an Orbitrap analyzer at a resolution of 120 K over a mass range of 400–2000 m/z with the automatic gain control target mode set to “Standard”, maximum injection time mode set to “Auto”, charge states set to 2–6, and the dynamic exclusion window set to 30 s.
  • the second scan (MS2) was analyzed in high-energy C-trap dissociation (HCD) mode.
  • HCD spectra were detected using an Orbitrap analyzer at a resolution of 30 K with a fixed collision energy of 37% for the isobaric-labeled peptides, maximum injection time mode set to “Auto”, isolation window set to 0.7, automatic gain control target mode set to “Standard”, first mass fixed to 110, and the mode set to Turbo TMT.
  • IP2 parameters were used: precursor and fragment mass tolerance, 50 ppm; enzyme, trypsin; incorrect cleavage, ⁇ 2; static modification, 57.0215 Da added to cysteine, 229.1629 Da added to lysine and N-terminus; differential modification, 15.9949 Da added to methionine; and minimum number of peptides per protein 2. Pooled spectrum files of all 20 fractions were compared to the normal and reverse databases using the same parameters. For peptide validation, the false positive rate was 0.01 at the spectrum level.
  • TMT reporter ion analysis was performed using Census software from the CPTAC Data Portal with a mass tolerance of 20 ppm (https:/cptac-data-portal.georgetown.edu/study-summary/S037).
  • the three TMT channels were used as internal references along with a pooled common control representing equal amounts of pooled peptides in all samples. This approach allowed for the assessment of within-batch and between-batch variance while improving quantitative accuracy.
  • the pooled common control was labeled with TMT 130N, 131C and 131N reagents in a ratio of 0.5:1:2 and was used as the reference channel.
  • log2 ratios of the three reference channels were expected to match a standard Gaussian distribution using the central limit theorem with values approximately 1 (131N/131C), approximately 1 (131C/130N), and approximately 2 (131N/130N).
  • This method can be used to evaluate the variation of technical replication, and can implement filtering criteria based on the multidimensional meaning provided by Perseus.
  • the Benjamini-Hochberg false discovery rate was the criterion for setting the threshold value of 0.05.
  • the outlier spectrum was filtered with the criteria listed above to improve quantitative accuracy.
  • TMT-based proteomics data were used to perform hierarchical clustering, PCA, and DEP analysis.
  • hierarchical clustering normalized intensity values were scaled and clustered with matrisome protein data based on the Euclidean distance in Perseus software.
  • PCA normalized intensity values of matrisome proteins were used, and differentially expressed proteins (DEPs) between tumor and normal tissues were determined using Welch's t-test with Benjamini-Hochberg correction.
  • DEPs were selected if foldchange > ⁇ 2 and adjusted p ⁇ 0.01.
  • GSEA of DEPs was performed using gene sets provided by Metascape, and p-values were used to identify enriched genes.
  • the cellular origin of DEPs was determined using the average expression levels of cell types.
  • the FindAllMarkers function of the Seurat package was used to define cell-type-specific genes, and an adjusted p ⁇ 0.01 was used as a threshold to determine whether gene expression was cell-type-specific.
  • the average expression levels of cells were determined using the AverageExpression function of the Seurat package, and the cell type with the highest average expression level was considered the cellular origin of the gene.
  • tumor-associated and normal-associated marker genes between two metaclusters were defined using Seurat's FindMarkers function adjusted to p ⁇ 0.01, and tumor-associated matrisome (TAM; tumor-associated matrisome) and normal-associated matrisome (NAM; normal-associated matrisome) were defined by calculating the fold change in average protein intensity between the normal and tumor groups.
  • TAM marker genes proteins were included in TAM when their average intensity was higher in the tumor group.
  • NAM marker genes proteins were included in NAM when their average intensity was higher in the normal group.
  • RNA sequencing libraries Collected colon cancer tissues were treated with TRIzol reagent for bulk tissue RNA-Seq, and indexed cDNA sequencing libraries were prepared as RNA samples using the TruSeq Stranded mRNA LT Sample Prep Kit. Quality control analyses of RNA integrity number and rRNA ratio were performed with a 2200 TapeStation. Indexed libraries were prepared as equimolar pools and sequenced on a NovaSeq 6000 to generate at least 60 million paired-end reads per sample library. Raw Illumina sequence data were demultiplexed and converted to fastq files, and after removing adapters and low-quality sequences, mRNA sequencing reads were mapped to the Homo sapiens genome assembly GRCh37 of the Genome Reference Consortium using HISAT2 (version 2.1.0).
  • Mapped reads were quantified as read counts and sample normalization values, such as transcripts per million mapped reads (TPM) of known genes, using StringTie (version 2.1.3b).
  • TPM transcripts per million mapped reads
  • TCGA, COAD, and READ gene expression datasets and clinical datasets from TCGAbiolinks package were collected for CMS-specific gene expression pattern analysis, and after gene expression information was downloaded from Illumina platform, raw counts were converted to normalized data, and TPM values and clinical information (e.g., days_to_last_follow_up, death_days_to, and new_tumor_event parameters) were used for PFS analysis. A total of 612 tumor samples and 51 normal samples were analyzed.
  • CMS of the collected colorectal cancer tissues and TCGA samples were identified using the CMSclassifier package for CMS classification, and gene expression values were used after log2 transformation of TPM data and summed to the nearest 0.001. NearestCMS values and CMS4 probabilities were calculated using the random forest algorithm, and samples with ambiguous CMS classifications where the assigned subtypes did not constitute a single subtype were excluded from further analysis. Normalized TPM data of TCGA samples were applied to GSEA to identify matrisome genes enriched in CMS4. A total of 38 matrisome markers defined as TAM or NAM were used as a gene set, and core enriched genes were defined as CMS4-enriched TAM/NAM markers based on the enrichment scores derived from GSEA.
  • the expression patterns of specific gene sets in each TCGA sample were evaluated using ssGSEA.
  • Normalized TPM data of TCGA samples classified as CMS were preprocessed and ssGSEA scores for gene sets associated with EMT (MSigDB M5930) and TGF ⁇ response in fibroblasts (gene set in PMID: 23153532), and a custom gene set consisting of 29 CMS4-enriched TAM/NAM molecules and 10 markers from GSEA were calculated using the ssGSEAprojection package of the GenePattern web-based tool. The calculated scores were log2 transformed and normalized to determine the correlations between ssGSEA scores.
  • FFPE paraffin-embedded
  • the slides were incubated for 30 min in 5% BSA (for HAPLN1) or 10% BSA (for COL12A1, THBS2) to block potential nonspecific reactions, and incubated overnight at 4°C with primary antibodies against HAPLN1 (goat antihuman polyclonal Ab, 1:400 dilution, Biotechne, MN, USA), COL12A1 (rabbit antihuman polyclonal Ab, 1:200 dilution, Sigma-Aldrich, MA, USA), or THBS2 (mouse antihuman monoclonal Ab, 1:1000, Invitrogen, MA, USA).
  • the slides were washed with TBS, and incubated for 30 min with the appropriate secondary antibodies using the Vectastain ABC kit (Vector Laboratories, CA, USA) diluted 1:200 in TBS, and detected using DAB solution (Dako, CA, USA). Sections were counterstained with hematoxylin, dehydrated with increasing concentrations of ethanol, and mounted under coverslips with synthetic mountant (Thermo Fisher Scientific, MA, USA).
  • Fig. 1 A schematic diagram of the process of decellularizing and analyzing colorectal cancer tissues in the present invention is shown in Fig. 1. Specifically, tumor tissues and adjacent normal tissues were surgically obtained from 22 colorectal cancer patients, and the clinical data, tumor stage, location, and consensus molecular subtype (CMS) for each patient were summarized (Fig. 2). The decellularized tissues were stained with hematoxylin and eosin (H&E) (Fig. 3), and DNA quantification was performed to confirm the enrichment of ECM proteins (Fig. 4).
  • H&E hematoxylin and eosin
  • matrisome proteins (collagens [COLs], proteoglycans [PGs], and ECM glycoproteins [GPs]) and matrisome-associated proteins.
  • COLs collagens
  • PGs proteoglycans
  • GPs ECM glycoproteins
  • 145 of the 166 core matrisome proteins and 182 of the 241 matrisome-associated proteins were detected in at least all sets with tumor samples and in all sets with normal samples. Comparing with the results of previous studies (Vasaikar, S. et al. Proteogenomic analysis of human colon cancer reveals new therapeutic opportunities. Cell 177, 1035-1049. e1019 (2019), and Naba, A. et al. Extracellular matrix signatures of human primary metastatic colon cancers and their metastases to liver.
  • ECM glycoproteins including fibrillin 3 (FBN3), nidogen 2 (NID2), ABI family member 3 binding protein (ABI3BP), laminin subunit alpha 3 (LAMA3), and thrombospondin 1 (THBS1), were detected only by our TMT-based platform in this study.
  • FBN3 fibrillin 3
  • NID2 nidogen 2
  • ABI family member 3 binding protein ABI family member 3 binding protein
  • LAMA3 laminin subunit alpha 3
  • THBS1 thrombospondin 1
  • the RPC of each category of matrisome was determined by summing all RPCs of the proteins corresponding to each category of matrisome. As a result, the total RPC of matrisome proteins was substantially higher in the decellularized tissue samples than in the non-decellularized native tissue (Fig. 6).
  • the RPC of the non-matrisome proteins was consistent with the RPC (32-41%) measured in other decellularization studies.
  • GPs such as fibrinogen family members (FGA, FGB, and FGG), Fibronectin 1 (FN1), transforming growth factor-beta I (TGF ⁇ I), and Tenascin C (TNC) showed increased abundance in tumor tissues.
  • FGA, FGB, and FGG Fibronectin 1
  • TGF ⁇ I transforming growth factor-beta I
  • TMC Tenascin C
  • COL and PG were inversely correlated with the levels of the mechincin family of metalloproteinases, including two MMPs (matrix metalloproteinases; MMP9 and MMP14) and two ADAMs (A Disintegrin And Metalloprotease; ADAM9 and ADAM10).
  • MMPs matrix metalloproteinases
  • ADAM9 and ADAM10 A Disintegrin And Metalloprotease
  • the matrisomes of normal and tumor tissues were compared by differentially expressed protein (DEP) analysis.
  • the fold change between normal and tumor tissues was calculated for each protein along with the adjusted p-value according to Welch's t-test, and the matrisome DEPs were summarized in a volcano plot (Fig. 11).
  • 110 and 28 matrisome proteins were enriched in the pdECM samples of normal and tumor tissues, respectively.
  • Functional gene set analysis revealed the major biological terms associated with fibroblast activation, wound healing and ECM degradation (Fig. 12).
  • the heatmap of the selected core matrisome proteins shows the proteins that were significantly upregulated in normal and tumor tissues (Fig. 13).
  • a total of 32 core matrisome proteins were selected, including all tumor-enriched proteins, the three normal-enriched COLs with the lowest p-values, and the matrisome proteins with -log10(p-value) > 7.
  • GP group proteins showed significant differences in protein abundance among tumor-enriched DEPs.
  • SLRP small leucine repeat proteoglycans
  • LAMA3 Laminin Subunit Alpha 3
  • LAMB3 Laminin Subunit Beta 3
  • LAMC2 Laminin Subunit Gamma 2
  • SEMA3B Semaphorin 3B
  • MUC5B Mucin 5B
  • PLXNB2 Plexin B2
  • CAFs cancer-associated fibroblasts
  • TAM proteins tumor-associated matrisome proteins
  • NAM proteins normal-associated matrisome proteins
  • SAM proteins SBA-like protein-1
  • scRNA-Seq data Dot plot analysis of the scRNA-Seq data showed that most TAM and NAM proteins were associated with tumor-derived and normal-derived fibroblasts, respectively.
  • SPARCL1 showed patient-specific expression at the protein level and was enriched at the transcript level in other stromal cells, but not in normal-derived fibroblasts.
  • TAM proteins are preferentially expressed by endothelial cells in human colon cancer tissues.
  • COL12A1 Collagen Type XII Alpha 1 Chain
  • CTHRC1 Collagen Triple Helix Repeat Containing 1
  • THBS2 Thrombospondin 2
  • MMP14 Metrix metalloproteinase-14
  • PLOD2 Procollagen-Lysine,2-Oxoglutarate 5-Dioxygenase 2
  • More than 70% of tumor-derived fibroblasts showed upregulation of gene transcription compared with other stromal cells, indicating that TAM proteins in colon cancer tissues are mainly produced by CAFs.
  • TAMs and NAMs three proteins, COL12A1 (Collagen Type XII Alpha 1 Chain), THBS2 (Thrombospondin 2), and HAPLN1 (Hyaluronan And Proteoglycan Link Protein 1), were selected for tissue localization.
  • the scRNA-Seq data indicate that these proteins are predominantly expressed by fibroblasts.
  • Immunohistochemical staining results showed similar results to the proteomics analysis (Fig. 17). Normal mucosa showed weak staining for COL12A1 and THBS2, whereas tumor tissue showed strong staining for these proteins, but the staining was almost exclusively confined to stromal cells.
  • HAPLN1 staining was observed only in the stroma of normal mucosa, and most epithelial cells did not show HAPLN1 staining.
  • HAPLN1 is an ECM protein that stabilizes other ECM proteins to maintain ECM integrity.
  • CMS transcriptional profile-based molecular subtype classification system
  • CMS describes four colorectal cancer subtypes, among which the mesenchymal subtype, CMS4 group, is the most refractory and has a poor prognosis, as it is characterized by extensive stromal infiltration (mostly activated fibroblasts) and ECM composition.
  • a recent study showed that CAFs in colorectal cancer are composed of a distinct fibroblast population, which is significantly enriched in the CMS4 subtype compared with other subtypes. Therefore, we compared ECM features between the myofibroblast-enriched CMS4 subtype and other subtypes.
  • ssGSEA Single-sample gene set enrichment analysis was performed with The Cancer Genome Atlas (TCGA)-Colon Adenocarcinoma (COAD)/Rectal Adenocarcinoma (READ) expression data sets to calculate the expression patterns of TAM and NAM.
  • the TAM ssGSEA score was significantly higher in the stromally enriched molecular subtype (CMS4) than in other cell types.
  • CMS4 stromally enriched molecular subtype
  • the NAM score was higher in normal tissues than in tumor tissues, and the scores varied depending on the tumor tissue type (Fig. 18).
  • the level of NAM was higher in the CMS4 subtype than in the other subtypes, but the transcript level of NAM was slightly lower in the CMS4 subtype than in the normal tissue.
  • fibroblasts from CMS4 showed increased transcript levels of most ECM genes, which is consistent with the molecular features of ECM composition and stromal infiltration.
  • the 10 clinically important CMS4-specific matrisome genes can be used to infer the fibroblast population in the TME and distinguish CMS4 from other subtypes.
  • the results indicate that the activation pattern of the 10 ECM genes is essential for the stroma of colorectal cancer, especially in the CMS4 subtype.
  • the present invention is remarkably effective in diagnosing with high accuracy the most difficult to treat and poor prognosis type of colon cancer, it is expected to be widely utilized in the medical and health fields.

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Immunology (AREA)
  • Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Pathology (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • Biomedical Technology (AREA)
  • Urology & Nephrology (AREA)
  • Hematology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Physics & Mathematics (AREA)
  • Hospice & Palliative Care (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Oncology (AREA)
  • Microbiology (AREA)
  • Genetics & Genomics (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Cell Biology (AREA)
  • Medicinal Chemistry (AREA)
  • Food Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 대장암, 특히 CMS4 아형 대장암의 진단용 바이오마커, 및 이를 이용한 진단 방법에 관한 것이다. 대장암의 CMS(consensus molecular subtype) 아형 중에서도 CMS4 아형은 EMT 관련 유전자, TGF-β 신호 전달, 혈관 신생합성, 보체매개성 염증 시스템의 활성, 및 기질 침윤과 관련된 유전자 발현에 현저한 변화를 보이는 그룹으로 가장 난치성이며 예후가 좋지 않은 특징을 나타내다. 본 발명은 가장 치료가 어렵고 예후가 나쁜 유형의 대장암을 높은 정확도로 진단하는데 현저한 효과가 있으므로, 의료 및 보건 분야에서 크게 이용될 것으로 기대된다.

Description

대장암 진단용 바이오마커, 및 이를 이용한 진단 방법
본 발명은 대장암 진단용 바이오마커, 및 이를 이용한 대장암 진단 방법에 관한 것이다.
대장암은 대장에 생기는 악성종양으로, 세계보건기구(WHO) 산하 국제암연구소(IARC) 보고서에 따르면, 한국의 대장암 발병률은 10만 명당 45명으로 세계 1위이다. 중앙암등록본부에서 발표한 암 등록 통계를 보면 2014년에 우리나라에서는 217,057건의 암이 발생했는데, 그 중 대장암은 26,978건으로 전체의 12.4%로 3위를 차지할 정도로 발병률이 높다. 대장암으로 인한 사망률 또한 암종별 사망자수의 4위를 차지할 정도로 높다. 이러한 대장암은 기대수명 증가와 서구화된 식습관에 의해 발병률의 증가가 더욱 가속화되고 있다. 따라서 환자의 생존율 및 삶의 질 향상을 위해 대장암 발병을 조기에 발견하기 위한 정확도 높은 기술이 시급이 요구되는 실정이다.
한편, 암 분류는 정확한 진단뿐만 아니라 개개의 암에 대한 생물학적 특성을 일부 예측할 수 있다는 점에서 매우 중요하다. 대장암은 다른 종류의 암에 비해 임상적으로나 형태학적으로 비교적 균일한 특성을 보이기는 하지만 생물학적 특성과 진행 과정이 매우 다양하므로 이를 예측할 수 있는 정확한 분류가 필수적이다. 최근 세계보건기구(World Health Organization, WHO)에서는 산발적으로 보고되었던 대장암의 분자 분류에 관한 기존의 데이터를 통합하여 대장암을 4개의 아형으로 분류하였는데(consensus molecular subtype; CMS), 그 중 4형 아형(CMS4)은 EMT 관련 유전자, TGF-β 신호 전달, 혈관 신생합성, 보체매개성 염증 시스템의 활성, 및 기질 침윤과 관련된 유전자 발현에 현저한 변화를 보이는 그룹으로 가장 난치성이며 예후가 좋지 않은 특징을 나타내다.
따라서 본 발명은 상기와 같은 문제의 해결을 위하여 고안된 것으로, 대장암, 특히 CMS4 아형 대장암의 효과적 진단을 위한 바이오마커와 이를 이용한 진단 방법을 제공한다. 본 발명은 가장 치료가 어렵고 예후가 나쁜 유형의 대장암을 높은 정확도로 진단하는데 현저한 효과가 있으므로, 의료 및 보건 분야에서 크게 이용될 것으로 기대된다.
본 발명의 일 목적은 대장암, 특히 CMS4 아형 대장암의 진단용 조성물, 또는 키트를 제공하고자 한다.
본 발명의 다른 목적은 대장암, 특히 CMS4 아형 대장암을 진단하기 위한 정보를 제공하고자 한다.
본 발명의 또 다른 목적은 대장암, 특히 CMS4 아형 대장암의 치료용 후보 물질을 스크리닝하는 방법을 제공하고자 한다.
그러나 본 발명이 이루고자 하는 기술적 과제는 이상에서 언급한 과제에 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업계에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
이하, 본원에 기재된 다양한 구체예가 도면을 참조로 기재된다. 하기 설명에서, 본 발명의 완전한 이해를 위해서, 다양한 특이적 상세사항, 예컨대, 특이적 형태, 조성물 및 공정 등이 기재되어 있다. 그러나, 특정의 구체예는 이들 특이적 상세 사항 중 하나 이상 없이, 또는 다른 공지된 방법 및 형태와 함께 실행될 수 있다. 다른 예에서, 공지된 공정 및 제조 기술은 본 발명을 불필요하게 모호하게 하지 않게 하기 위해서, 특정의 상세사항으로 기재되지 않는다. "한 가지 구체예" 또는 "구체예"에 대한 본 명세서 전체를 통한 참조는 구체예와 결부되어 기재된 특별한 특징, 형태, 조성 또는 특성이 본 발명의 하나 이상의 구체예에 포함됨을 의미한다. 따라서, 본 명세서 전체에 걸친 다양한 위치에서 표현된 "한 가지 구체예에서" 또는 "구체예"의 상황은 반드시 본 발명의 동일한 구체예를 나타내지는 않는다. 추가로, 특별한 특징, 형태, 조성, 또는 특성은 하나 이상의 구체예에서 어떠한 적합한 방법으로 조합될 수 있다.
명세서에서 특별한 정의가 없으면 본 명세서에 사용된 모든 과학적 및 기술적인 용어는 본 발명이 속하는 기술분야에서 당업자에 의하여 통상적으로 이해되는 것과 동일한 의미를 가진다.
본 명세서에서 이하 “암”이란, 제어되지 않은 세포성장으로 특징지어지며, 이러한 비정상적인 세포성장에 의해 종양이라고 불리는 세포 덩어리가 형성되어 주위의 조직으로 침투하고 심한 경우에는 신체의 다른 기관으로 전이되기도 하는 것을 말한다. 학문적으로는 신생물이라고 명명되기도 한다. 암은 수술, 방사선 및 화학요법으로 치료를 하더라도 많은 경우에 근본적인 치유가 되지 못하고 환자에게 고통을 주며 궁극적으로는 죽음에 이르게 하는 난치성 만성질환으로, 암의 발생요인으로는 여러 가지가 있으나, 내적 요인과 외적 요인으로 구분한다. 정상세포가 어떠한 기전을 거처 암세포로 형질전환이 되는지에 대해서는 정확하게 규명되지 않았으나, 상당수의 암이 환경요인 등 외적인자에 의해 영향을 받아 발생하는 것으로 알려져 있다. 내적 요인으로는 유전 인자, 면역학적 요인 등이 있으며, 외적 요인으로는 화학물질, 방사선, 바이러스 등이 있다. 암의 발생에 관련되는 유전자에는 종양형성유전자 (oncogenes)와 종양억제유전자 (tumor suppressor genes)가 있는데, 이들 사이의 균형이 위에서 설명한 내적 혹은 외적 용인들에 의해 무너질 때 암이 발생하게 된다.
본 명세서에서 이하 “대장암”은 대장과 직장의 점막에서 발생하는 악성 종양을 포괄하는 의미이다. 돌출형, 궤양형, 또는 침윤형의 특징을 보일 수 있다. 조직학적으로는 대장암의 90% 이상이 대장 점막 상피세포 기원의 선암종이며, 드물게 신경 내분비 암종, 편평 세포 암종 등이 발생한다. 선암종은 선 구조를 형성하는 정도에 따라 조직학적인 종양의 등급이 결정되는데 고분화형 선암종의 경우 95% 이상의 종양이 선을 형성하고, 중분화형 종양의 경우 50-95%가 선 구조를 보이며, 저분화형 종양의 경우 50% 이하의 종양이 선 구조를 형성하는 것으로 구분하고 있다. 대부분의 대장 선암종이 중분화형을 보이며, 고분화형이 약 10%, 저분화형이 약 20% 정도를 차지하는 것으로 알려져 있다. 최근 세계보건기구(World Health Organization, WHO)에서는 산발적으로 보고되었던 대장암의 분자 분류에 관한 기존의 데이터를 통합하여 대장암을 4개의 아형으로 분류하였는데(consensus molecular subtype; CMS), 그 구체적인 정보를 하기 표 1에 나타내었다.
Subtype CMS1 CMS2 CMS3 CMS4
Dominant feature MSI immune Canonical Metabolic Mesenchymal
Prevalence 14% 37% 13% 23%
Genome instability MSI highCIMP high
Hypermutation
SCNA high Mixed MSI
CIMP low
SCNA low
SCNA high
Mutation BRAF KRAS
Pathway and microenvironment Immune activation WNT and MYC activation Metabolic dysregulation Stromal invasionTGF-β activation
angiogenesis
Prognostic Worse SAR Worse RFS and OS
MSI, microsatellite instable;
CIMP, CpG island methylator phenotype;
SAR, survival after relapse;
SCNA, somatic copy number alteration;
WNT, wingless-type MMTV integration site;
MYC, v-myc avian myelocytomatosis viral oncogene;
TGF-β, transforming growth factor β;
RFS, relapse-free survival;
OS, overall survival.
본 명세서에서 이하 "진단"은 병리 상태의 존재 또는 특징을 확인하는 것을 의미한다. 본 발명의 목적상, 상기 진단은 대장암, 특히 CMS4 아형 대장암의 발병 여부 혹은 그 발병 가능성을 확인하는 것으로서, 이를 통해 대장암, 특히 CMS4 아형 대장암의 발병 여부를 조기에 예측할 수 있다.
본 명세서에서 이하 바이오마커로 기재된 유전자는 인간(Homo sapiens) 유래 유전자로서, 유전자에 관한 정보는 미국 국립생물공학정보센터(National Center for Biotechnology Information, NCBI) 등 본 발명이 속하는 분야의 통상의 기술자에게 자명한 공공의 데이터베이스에서 용이하게 검색할 수 있다.
본 발명의 일 구현예에 따르면, 본 발명은 대장암, 특히 CMS4 아형 대장암의 진단용 바이오마커에 관한 것이다.
상기 바이오마커는 COL14A1(Collagen Type XIV Alpha 1 Chain), DPT(Dermatopontin), MFAP5(Microfibril Associated Protein 5), MATN2(Matrilin-2), SRPX(Sushi Repeat Containing Protein X-Linked), MFAP4(Microfibril Associated Protein 4), MGP(Matrix Gla Protein), TNXB(tenascin XB protein), EDIL3(EGF Like Repeats And Discoidin Domains 3), LTBP4(latent transforming growth factor beta binding protein 4), SPARCL1(SPARC Like 1), OGN(Osteoglycin), HAPLN1(Hyaluronan And Proteoglycan Link Protein 1), DCN(Decorin), ADAMDEC1(ADAM like decysin 1), A2M(Alpha-2-Macroglobulin), CTSC(Cathepsin C), CST3(cystatin c), CXCL12(C-X-C motif chemokine 12), 및 S100A4(S100 Calcium Binding Protein A4)로 구성된 그룹으로부터 선택되는 1종 이상의 유전자; 또는 이에 의해 코딩되는 단백질일 수 있다. 상기에서 선택된 1종 이상의 유전자; 또는 이에 의해 코딩되는 단백질은 대장암, 특히 CMS4 아형 대장암에서 정상 대조군 대비 그 발현 수준이 감소된 것일 수 있다.
또는 상기 바이오마커는 COL12A1(Collagen type XII α1 chain), COL11A1(Collagen Type XI Alpha 1 Chain), CTHRC1(Collagen Triple Helix Repeat Containing 1), FN1(Fibronectin 1), TNC(Tenascin C), SPARC(Secreted Protein Acidic And Cysteine Rich), THBS2(Thrombospondin 2), TIMP1(TIMP Metallopeptidase Inhibitor 1), MMP14(Matrix Metallopeptidase 14), PLOD2(Procollagen-Lysine,2-Oxoglutarate 5-Dioxygenase 2), SERPINH1(Serpin peptidase inhibitor clade H, member 1), LOXL2(Lysyl Oxidase Like 2), MMP11(Matrix Metallopeptidase 11), MMP1(Matrix Metallopeptidase 1), CTSB(Cathepsin B), MMP3(Matrix Metallopeptidase 3), LGALS1(Galectin 1), 및 SFRP4(Secreted Frizzled Related Protein 4)로 구성된 그룹으로부터 선택되는 1종 이상의 유전자; 또는 이에 의해 코딩되는 단백질일 수 있다. 상기에서 선택된 1종 이상의 유전자; 또는 이에 의해 코딩되는 단백질은 대장암, 특히 CMS4 아형 대장암에서 정상 대조군 대비 그 발현 수준이 증가된 것일 수 있다.
상기 본 발명의 대장암, 특히 CMS4 아형 대장암의 진단용 바이오마커는 COL14A1(Collagen Type XIV Alpha 1 Chain), DPT(Dermatopontin), MFAP5(Microfibril Associated Protein 5), MATN2(Matrilin-2), SRPX(Sushi Repeat Containing Protein X-Linked), MFAP4(Microfibril Associated Protein 4), MGP(Matrix Gla Protein), TNXB(tenascin XB protein), EDIL3(EGF Like Repeats And Discoidin Domains 3), LTBP4(latent transforming growth factor beta binding protein 4), SPARCL1(SPARC Like 1), OGN(Osteoglycin), HAPLN1(Hyaluronan And Proteoglycan Link Protein 1), DCN(Decorin), ADAMDEC1(ADAM like decysin 1), A2M(Alpha-2-Macroglobulin), CTSC(Cathepsin C), CST3(cystatin c), CXCL12(C-X-C motif chemokine 12), 및 S100A4(S100 Calcium Binding Protein A4)로 구성된 그룹으로부터 선택되는 1종 이상의 단백질; 또는 이를 코딩하는 유전자에 COL12A1(Collagen type XII α1 chain), COL11A1(Collagen Type XI Alpha 1 Chain), CTHRC1(Collagen Triple Helix Repeat Containing 1), FN1(Fibronectin 1), TNC(Tenascin C), SPARC(Secreted Protein Acidic And Cysteine Rich), THBS2(Thrombospondin 2), TIMP1(TIMP Metallopeptidase Inhibitor 1), MMP14(Matrix Metallopeptidase 14), PLOD2(Procollagen-Lysine,2-Oxoglutarate 5-Dioxygenase 2), SERPINH1(Serpin peptidase inhibitor clade H, member 1), LOXL2(Lysyl Oxidase Like 2), MMP11(Matrix Metallopeptidase 11), MMP1(Matrix Metallopeptidase 1), CTSB(Cathepsin B), MMP3(Matrix Metallopeptidase 3), LGALS1(Galectin 1), 및 SFRP4(Secreted Frizzled Related Protein 4)로 구성된 그룹으로부터 선택되는 1종 이상의 단백질; 또는 이를 코딩하는 유전자를 추가로 포함하는 것일 수 있다. 이러한 경우, 대장암, 특히 CMS4 아형 대장암의 진단 정확도가 향상될 수 있다.
본 발명의 다른 구현예에 따르면, 본 발명은 대장암, 특히 CMS4 아형 대장암의 진단용 조성물에 관한 것이다.
상기 진단용 조성물은 COL14A1(Collagen Type XIV Alpha 1 Chain), DPT(Dermatopontin), MFAP5(Microfibril Associated Protein 5), MATN2(Matrilin-2), SRPX(Sushi Repeat Containing Protein X-Linked), MFAP4(Microfibril Associated Protein 4), MGP(Matrix Gla Protein), TNXB(tenascin XB protein), EDIL3(EGF Like Repeats And Discoidin Domains 3), LTBP4(latent transforming growth factor beta binding protein 4), SPARCL1(SPARC Like 1), OGN(Osteoglycin), HAPLN1(Hyaluronan And Proteoglycan Link Protein 1), DCN(Decorin), ADAMDEC1(ADAM like decysin 1), A2M(Alpha-2-Macroglobulin), CTSC(Cathepsin C), CST3(cystatin c), CXCL12(C-X-C motif chemokine 12), 및 S100A4(S100 Calcium Binding Protein A4)로 구성된 그룹으로부터 선택되는 1종 이상의 단백질; 또는 이를 코딩하는 유전자의 발현 수준을 측정할 수 있는 제제를 포함하는 것일 수 있다.
또는 상기 진단용 조성물은 COL12A1(Collagen type XII α1 chain), COL11A1(Collagen Type XI Alpha 1 Chain), CTHRC1(Collagen Triple Helix Repeat Containing 1), FN1(Fibronectin 1), TNC(Tenascin C), SPARC(Secreted Protein Acidic And Cysteine Rich), THBS2(Thrombospondin 2), TIMP1(TIMP Metallopeptidase Inhibitor 1), MMP14(Matrix Metallopeptidase 14), PLOD2(Procollagen-Lysine,2-Oxoglutarate 5-Dioxygenase 2), SERPINH1(Serpin peptidase inhibitor clade H, member 1), LOXL2(Lysyl Oxidase Like 2), MMP11(Matrix Metallopeptidase 11), MMP1(Matrix Metallopeptidase 1), CTSB(Cathepsin B), MMP3(Matrix Metallopeptidase 3), LGALS1(Galectin 1), 및 SFRP4(Secreted Frizzled Related Protein 4)로 구성된 그룹으로부터 선택되는 1종 이상의 단백질; 또는 이를 코딩하는 유전자의 발현 수준을 측정할 수 있는 제제를 포함하는 것일 수 있다.
본 발명에서 상기 단백질의 발현 수준을 측정하는 제제는 특별히 제한하지는 않으나, 예를 들면 상기 단백질에 특이적으로 결합하는 항체, 올리고펩타이드, 리간드, PNA(peptide nucleic acid) 및 앱타머(aptamer)로 이루어진 군에서 선택된 1종 이상을 포함할 수 있다.
본 발명에 상기 "항체"는 항원과 특이적으로 결합하여 항원-항체 반응을 일으키는 물질을 가리킨다. 본 발명의 목적상, 항체는 상기 바이오마커 단백질에 대해 특이적으로 결합하는 항체를 의미한다. 본 발명의 항체는 다클론 항체, 단클론 항체 및 재조합 항체를 모두 포함한다. 상기 항체는 당업계에 널리 공지된 기술을 이용하여 용이하게 제조될 수 있다. 예를 들어, 다클론 항체는 상기 바이오마커 단백질의 항원을 동물에 주사하고 동물로부터 채혈하여 항체를 포함하는 혈청을 수득하는 과정을 포함하는 당업계에 널리 공지된 방법에 의해 생산될 수 있다. 이러한 다클론 항체는 염소, 토끼, 양, 원숭이, 말, 돼지, 소, 개 등의 임의의 동물로부터 제조될 수 있다. 또한, 단클론 항체는 당업계에 널리 공지된 하이브리도마 방법, 또는 파지 항체 라이브러리 기술을 이용하여 제조될 수 있다. 상기 방법으로 제조된 항체는 겔 전기영동, 투석, 염 침전, 이온교환 크로마토그래피, 친화성 크로마토그래피 등의 방법을 이용하여 분리, 정제될 수 있다. 또한, 본 발명의 항체는 2개의 전장의 경쇄 및 2개의 전장의 중쇄를 갖는 완전한 형태뿐만 아니라, 항체 분자의 기능적인 단편을 포함한다. 항체 분자의 기능적인 단편이란, 적어도 항원 결합 기능을 보유하고 있는 단편을 의미하며, Fab, F(ab'), F(ab')2 및 Fv 등이 있다.
본 발명에 상기 "PNA(Peptide Nucleic Acid)"는 인공적으로 합성된, DNA 또는 RNA와 비슷한 중합체를 포괄한다. DNA는 인산-리보스당 골격을 갖는데 반해, PNA는 펩타이드 결합에 의해 연결된 반복된 N-(2-아미노에틸)-글리신 골격을 가지며, 이로 인해 DNA 또는 RNA에 대한 결합력과 안정성이 크게 증가되어 분자 생물학, 진단 분석 및 안티센스 치료법에 사용되고 있다.
본 발명에서 상기 "앱타머"는 올리고핵산 또는 펩타이드 분자이며, 앱타머은 본 발명의 속하는 분야에서 통상의 기술자들에게 자명한 다양한 방법으로 제조될 수 있다.
본 발명에서 상기 단백질을 코딩하는 유전자의 발현 수준을 측정하는 제제는 상기 단백질을 코딩하는 유전자에 특이적으로 결합하는 프라이머, 프로브 및 안티센스 뉴클레오티드로 이루어진 군에서 선택된 1종 이상을 포함할 수 있다.
본 발명에서 상기 "프라이머"는 표적 유전자 서열을 인지하는 단편으로서, 정방향 및 역방향의 프라이머 쌍을 포함하나, 바람직하게는, 특이성 및 민감성을 가지는 분석 결과를 제공하는 프라이머 쌍이다. 프라이머의 핵산 서열이 시료 내 존재하는 비-표적 서열과 불일치하는 서열이어서, 상보적인 프라이머 결합 부위를 함유하는 표적 유전자 서열만 증폭하고 비특이적 증폭을 유발하지 않는 프라이머일 때, 높은 특이성이 부여될 수 있다.
본 발명에서 상기 "프로브"란 시료 내의 검출하고자 하는 표적 물질과 특이적으로 결합할 수 있는 물질을 의미하며, 상기 결합을 통하여 특이적으로 시료 내의 표적 물질의 존재를 확인할 수 있는 물질을 의미한다. 프로브의 종류는 당업계에서 통상적으로 사용되는 물질로서 제한은 없으나, 바람직하게는 PNA(peptide nucleic acid), LNA(locked nucleic acid), 펩타이드, 폴리펩타이드, 단백질, RNA 또는 DNA일 수 있으며, 가장 바람직하게는 PNA이다. 보다 구체적으로, 상기 프로브는 바이오 물질로서 생물에서 유래되거나 이와 유사한 것 또는 생체 외에서 제조된 것을 포함하는 것으로, 예를 들어, 효소, 단백질, 항체, 미생물, 동식물 세포 및 기관, 신경세포, DNA, 및 RNA일 수 있으며, DNA는 cDNA, 게놈 DNA, 올리고뉴클레오타이드를 포함하며, RNA는 게놈 RNA, mRNA, 올리고뉴클레오타이드를 포함하며, 단백질의 예로는 항체, 항원, 효소, 펩타이드 등을 포함할 수 있다.
본 발명에서 상기 "LNA(Locked nucleic acids)"란, 2'-O, 4'-C 메틸렌 브릿지를 포함하는 핵산 아날로그를 의미한다. LNA 뉴클레오사이드는 DNA와 RNA의 일반적 핵산 염기를 포함하며, Watson-Crick 염기 쌍 규칙에 따라 염기 쌍을 형성할 수 있다. 하지만, 메틸렌 브릿지로 인한 분자의 'locking'으로 인해, LNA는 Watson-Crick 결합에서 이상적 형상을 형성하지 못하게 된다. LNA가 DNA 또는 RNA 올리고뉴클레오티드에 포함되면, LNA는 보다 빠르게 상보적 뉴클레오티드 사슬과 쌍을 이루어 이중 나선의 안정성을 높일 수 있다.
본 발명에서 상기 "안티센스"는 안티센스 올리고머가 왓슨-크릭 염기쌍 형성에 의해 RNA 내의 표적 서열과 혼성화되어, 표적서열 내에서 전형적으로 mRNA와 RNA:올리고머 헤테로이중체의 형성을 허용하는, 뉴클레오티드 염기의 서열 및 서브유닛간 백본을 갖는 올리고머를 의미한다. 올리고머는 표적 서열에 대한 정확한 서열 상보성 또는 근사 상보성을 가질 수 있다.
본 발명에 따른 바이오마커 단백질이나, 이를 코딩하는 유전자의 정보는 알려져 있으므로, 당업자라면 이를 바탕으로 상기 단백질을 암호화하는 유전자에 특이적으로 결합하는 프라이머, 프로브 또는 안티센스 뉴클레오티드를 용이하게 디자인할 수 있을 것이다.
본 발명의 진단용 조성물에서 상기 대장암, 특히 CMS4 아형 대장암의 진단용 단백질 또는 유전자의 발현 수준은 탈세포된 조직에서 측정되는 것일 수 있고, 구체적으로는 탈세포된 세포외기질(extracellular matrix)에서 측정되는 것일 수 있다.
본 발명의 진단용 조성물에서 상기 COL14A1(Collagen Type XIV Alpha 1 Chain), DPT(Dermatopontin), MFAP5(Microfibril Associated Protein 5), MATN2(Matrilin-2), SRPX(Sushi Repeat Containing Protein X-Linked), MFAP4(Microfibril Associated Protein 4), MGP(Matrix Gla Protein), TNXB(tenascin XB protein), EDIL3(EGF Like Repeats And Discoidin Domains 3), LTBP4(latent transforming growth factor beta binding protein 4), SPARCL1(SPARC Like 1), OGN(Osteoglycin), HAPLN1(Hyaluronan And Proteoglycan Link Protein 1), DCN(Decorin), ADAMDEC1(ADAM like decysin 1), A2M(Alpha-2-Macroglobulin), CTSC(Cathepsin C), CST3(cystatin c), CXCL12(C-X-C motif chemokine 12), 및 S100A4(S100 Calcium Binding Protein A4)로 구성된 그룹으로부터 선택되는 1종 이상의 단백질; 또는 이를 코딩하는 유전자의 발현 수준이 정상 대조군 대비 감소한 경우, 대장암, 특히 CMS4 아형 대장암 발병 가능성이 높은 것으로 진단할 수 있다.
본 발명의 진단용 조성물에서 상기 COL12A1(Collagen type XII α1 chain), COL11A1(Collagen Type XI Alpha 1 Chain), CTHRC1(Collagen Triple Helix Repeat Containing 1), FN1(Fibronectin 1), TNC(Tenascin C), SPARC(Secreted Protein Acidic And Cysteine Rich), THBS2(Thrombospondin 2), TIMP1(TIMP Metallopeptidase Inhibitor 1), MMP14(Matrix Metallopeptidase 14), PLOD2(Procollagen-Lysine,2-Oxoglutarate 5-Dioxygenase 2), SERPINH1(Serpin peptidase inhibitor clade H, member 1), LOXL2(Lysyl Oxidase Like 2), MMP11(Matrix Metallopeptidase 11), MMP1(Matrix Metallopeptidase 1), CTSB(Cathepsin B), MMP3(Matrix Metallopeptidase 3), LGALS1(Galectin 1), 및 SFRP4(Secreted Frizzled Related Protein 4)로 구성된 그룹으로부터 선택되는 1종 이상의 단백질; 또는 이를 코딩하는 유전자의 발현 수준이 정상 대조군 대비 증가한 경우, 대장암, 특히 CMS4 아형 대장암 발병 가능성이 높은 것으로 진단할 수 있다.
상기 본 발명의 대장암, 특히 CMS4 아형 대장암의 진단용 조성물은 COL14A1(Collagen Type XIV Alpha 1 Chain), DPT(Dermatopontin), MFAP5(Microfibril Associated Protein 5), MATN2(Matrilin-2), SRPX(Sushi Repeat Containing Protein X-Linked), MFAP4(Microfibril Associated Protein 4), MGP(Matrix Gla Protein), TNXB(tenascin XB protein), EDIL3(EGF Like Repeats And Discoidin Domains 3), LTBP4(latent transforming growth factor beta binding protein 4), SPARCL1(SPARC Like 1), OGN(Osteoglycin), HAPLN1(Hyaluronan And Proteoglycan Link Protein 1), DCN(Decorin), ADAMDEC1(ADAM like decysin 1), A2M(Alpha-2-Macroglobulin), CTSC(Cathepsin C), CST3(cystatin c), CXCL12(C-X-C motif chemokine 12), 및 S100A4(S100 Calcium Binding Protein A4)로 구성된 그룹으로부터 선택되는 1종 이상의 단백질; 또는 이를 코딩하는 유전자의 발현 수준을 측정할 수 있는 제제에 COL12A1(Collagen type XII α1 chain), COL11A1(Collagen Type XI Alpha 1 Chain), CTHRC1(Collagen Triple Helix Repeat Containing 1), FN1(Fibronectin 1), TNC(Tenascin C), SPARC(Secreted Protein Acidic And Cysteine Rich), THBS2(Thrombospondin 2), TIMP1(TIMP Metallopeptidase Inhibitor 1), MMP14(Matrix Metallopeptidase 14), PLOD2(Procollagen-Lysine,2-Oxoglutarate 5-Dioxygenase 2), SERPINH1(Serpin peptidase inhibitor clade H, member 1), LOXL2(Lysyl Oxidase Like 2), MMP11(Matrix Metallopeptidase 11), MMP1(Matrix Metallopeptidase 1), CTSB(Cathepsin B), MMP3(Matrix Metallopeptidase 3), LGALS1(Galectin 1), 및 SFRP4(Secreted Frizzled Related Protein 4)로 구성된 그룹으로부터 선택되는 1종 이상의 단백질; 또는 이를 코딩하는 유전자의 발현 수준을 측정할 수 있는 제제를 추가로 포함하는 것일 수 있다. 이러한 경우, 대장암, 특히 CMS4 아형 대장암의 진단 정확도가 향상될 수 있다.
본 발명의 또 다른 구현예에 따르면, 본 발명은 대장암, 특히 CMS4 아형 대장암의 진단용 조성물을 포함하는 대장암 진단용 키트에 관한 것이다.
상기 본 발명의 키트는 상기 기술한 본 발명의 대장암, 특히 CMS4 아형 대장암의 진단용 조성물을 포함하며, 본 발명의 대장암, 특히 CMS4 아형 대장암의 진단용 조성물을 구성하는 각 부분의 제한사항은 상기 대장암, 특히 CMS4 아형 대장암의 진단용 조성물에서 기재한 바와 중복되어, 이하 본 명세서의 과도한 복잡성을 피하기 위하여 생략한다.
본 발명에서 상기 키트는 RT-PCR 키트, DNA 칩 키트, ELISA 키트, 단백질 칩 키트, 래피드(rapid) 키트 또는 MRM(Multiple reaction monitoring) 키트일 수 있으나, 이에 제한되는 것은 아니다.
상기 본 발명의 진단용 키트는 분석 방법에 적합한 한 종류 또는 그 이상의 다른 구성 성분 조성물, 용액 또는 장치를 더 포함할 수 있다. 예를 들면, 본 발명의 진단용 키트는 역전사 중합효소반응을 수행하기 위해 필요한 필수 요소를 더 포함할 수 있다. 역전사 중합효소반응 키트는 마커 단백질을 코딩하는 유전자에 대해 특이적인 프라이머 쌍을 포함한다. 프라이머는 상기 유전자의 핵산서열에 특이적인 서열을 가지는 뉴클레오티드로서, 약 7 bp 내지 50 bp의 길이, 보다 바람직하게는 약 10 bp 내지 30 bp의 길이를 가질 수 있다. 또한 대조군 유전자의 핵산 서열에 특이적인 프라이머를 포함할 수 있다. 그 외 역전사 중합효소반응 키트는 테스트 튜브 또는 다른 적절한 용기, 반응 완충액(pH 및 마그네슘 농도는 다양), 데옥시뉴클레오타이드(dNTPs), Taq-폴리머라아제 및 역전사효소와 같은 효소, DNase, RNase 억제제 DEPC-수(DEPC-water), 멸균수 등을 포함할 수 있다. 또한, 본 발명의 진단용 키트는 DNA 칩을 수행하기 위해 필요한 필수 요소를 포함할 수 있다. DNA 칩 키트는 유전자 또는 그의 단편에 해당하는 cDNA 또는 올리고뉴클레오티드(oligonucleotide)가 부착되어 있는 기판, 및 형광표지 프로브를 제작하기 위한 시약, 제제, 효소 등을 포함할 수 있다. 또한 기판은 대조군 유전자 또는 그의 단편에 해당하는 cDNA 또는 올리고뉴클레오티드를 포함할 수 있다. 또한, 본 발명의 진단용 키트는 ELISA를 수행하기 위해 필요한 필수 요소를 포함할 수 있다. ELISA 키트는 상기 단백질에 대해 특이적인 항체를 포함한다. 항체는 마커 단백질에 대한 특이성 및 친화성이 높고 다른 단백질에 대한 교차 반응성이 거의 없는 항체로, 단클론 항체, 다클론 항체 또는 재조합 항체이다. 또한 ELISA 키트는 대조군 단백질에 특이적인 항체를 포함할 수 있다. 그 외 ELISA 키트는 결합된 항체를 검출할 수 있는 시약, 예를 들면, 표지된 2차 항체, 발색단(chromophores), 효소(예: 항체와 컨주게이트됨) 및 그의 기질 또는 항체와 결합할 수 있는 다른 물질 등을 포함할 수 있다.
본 발명의 또 다른 구현예에 따르면, 본 발명은 목적하는 개체로부터 분리된 생물학적 시료에서 상기 기재된 본 발명의 바이오마커로부터 선택된 1종 이상의 단백질; 또는 이를 코딩하는 유전자의 발현 수준을 측정하는 단계를 포함하는 대장암, 특히 CMS4 아형 대장암을 진단하기 위한 방법에 관한 것이다.
본 발명에서 상기 "목적하는 개체"란 대장암의 발명 여부가 불확실하거나, 또는 대장암 발명이 진단되었을지라도 대장암의 CMS 아형이 불분명한 개체를 의미한다.
본 발명에서 상기 "생물학적 시료"는 개체로부터 얻어지거나 개체로부터 유래된 임의의 물질, 생물학적 체액, 조직 또는 세포를 의미하는 것으로, 바람직하게는 대장 조직인 것이 대장암을 진단하는데 정확도를 높일 수 있어 바람직하다.
본 발명에서는 상기와 같이 분리된 생물학적 시료에서 상기 열거된 바이오마커 단백질 또는 이를 코딩하는 유전자의 발현 수준을 측정하는 단계를 포함할 수 있다. 이하 선택된 단백질 또는 유전자의 발현 수준을 측정하는 단계, 또는 선택된 단백질 또는 유전자의 발현 수준을 측정할 수 있는 제제는 상기 대장암, 특히 CMS4 아형 대장암의 진단용 조성물에서 기재한 바와 중복되어, 이하 본 명세서의 과도한 복잡성을 피하기 위하여 생략한다.
본 발명의 또 다른 구현예에 따르면, 본 발명은 대장암, 특히 CMS4 아형 대장암의 치료용 후보물질을 스크리닝하는 방법에 관한 것이다.
이는 구체적으로 (a) 목적하는 개체로부터 분리된 생물학적 시료에 대장암 치료용 후보물질을 처리하는 단계; 및 (b) 상기 후보 물질이 처리된 생물학적 시료에서 COL14A1(Collagen Type XIV Alpha 1 Chain), DPT(Dermatopontin), MFAP5(Microfibril Associated Protein 5), MATN2(Matrilin-2), SRPX(Sushi Repeat Containing Protein X-Linked), MFAP4(Microfibril Associated Protein 4), MGP(Matrix Gla Protein), TNXB(tenascin XB protein), EDIL3(EGF Like Repeats And Discoidin Domains 3), LTBP4(latent transforming growth factor beta binding protein 4), SPARCL1(SPARC Like 1), OGN(Osteoglycin), HAPLN1(Hyaluronan And Proteoglycan Link Protein 1), DCN(Decorin), ADAMDEC1(ADAM like decysin 1), A2M(Alpha-2-Macroglobulin), CTSC(Cathepsin C), CST3(cystatin c), CXCL12(C-X-C motif chemokine 12), 및 S100A4(S100 Calcium Binding Protein A4)로 구성된 그룹으로부터 선택되는 1종 이상의 단백질; 또는 이를 코딩하는 유전자의 발현 수준을 측정하는 단계를 포함할 수 있고, 상기 (b) 단계에서 선택되어 측정된 단백질 또는 유전자의 발현 수준이 상기 후보물질의 처리 전에 비하여 증가된 경우 상기 후보물질을 대장암 치료제로 판별하는 것일 수 있다.
상기 스크리닝 방법은 (c) COL12A1(Collagen type XII α1 chain), COL11A1(Collagen Type XI Alpha 1 Chain), CTHRC1(Collagen Triple Helix Repeat Containing 1), FN1(Fibronectin 1), TNC(Tenascin C), SPARC(Secreted Protein Acidic And Cysteine Rich), THBS2(Thrombospondin 2), TIMP1(TIMP Metallopeptidase Inhibitor 1), MMP14(Matrix Metallopeptidase 14), PLOD2(Procollagen-Lysine,2-Oxoglutarate 5-Dioxygenase 2), SERPINH1(Serpin peptidase inhibitor clade H, member 1), LOXL2(Lysyl Oxidase Like 2), MMP11(Matrix Metallopeptidase 11), MMP1(Matrix Metallopeptidase 1), CTSB(Cathepsin B), MMP3(Matrix Metallopeptidase 3), LGALS1(Galectin 1), 및 SFRP4(Secreted Frizzled Related Protein 4)로 구성된 그룹으로부터 선택되는 1종 이상의 단백질; 또는 이를 코딩하는 유전자의 발현 수준을 측정하는 단계를 추가로 포함하는 것일 수 있고, 상기 (c) 단계에서 선택되어 측정된 단백질 또는 유전자의 발현 수준이 상기 후보물질의 처리 전에 비하여 감소된 경우 상기 후보물질을 대장암 치료제로 판별하는 것일 수 있다.
본 발명의 스크리닝 방법에서 발현 수준을 측정하는 제제 및 발현 수준의 측정 방법에 관한 기재는 본 발명의 진단을 위한 방법에 기재된 바와 중복되어 명세서의 과도한 복잡을 방지하기 위해 이하 그 기재를 생략한다.
이하, 본 발명을 실시예에 입각하여 구체적으로 설명한다.
본 발명은 가장 치료가 어렵고 예후가 나쁜 유형의 대장암을 높은 정확도로 진단하는데 현저한 효과가 있으므로, 의료 및 보건 분야에서 크게 이용될 것으로 기대된다.
도 1은 본 발명의 일 실시예에 따른, 환자 유래 ECM(pdECM)의 특성화 연구 개요의 모식도이다. 환자 유래 시료는 세포외 기질(ECM) 농축을 위해 탈세포되었고, pdECM의 프로테오믹 프로파일은 TMT(tandem mass tag) 질량 분광법으로 정량적으로 분석되었다. 단일 세포 및 벌크 RNA 시퀀싱 데이터를 통합하여 조직 유래 섬유아세포의 매트리솜과 이질성을 분석하였다.
도 2는 본 발명의 일 실시예에 따른, 벌크 조직 시료의 공통 분자 아형(CMS), 시료 유형, 종양 단계 및 해부학적 영역을 포함한 임상 데이터를 나타낸다.
도 3은 본 발명의 일 실시예에 따른, 비탈세포, 또는 탈세포된 환자 유래 ECM의 헤마톡실린 및 에오신 염색 결과를 나타낸다. 도 3에서 사이즈바는 1cm(흰색) 또는 100μm(검은색)이다.
도 4는 본 발명의 일 실시예에 따른, 비탈세포, 또는 탈세포된 환자 유래 ECM의 DNA 정량화 결과를 나타낸다. 도 4에서 ***: p < 0.001 이다.
도 5는 본 발명의 일 실시예에 따른, 종래 연구와 본 연구에서 검출된 매트리솜 단백질의 정성적 비교를 나타낸다.
도 6은 본 발명의 일 실시예에 따른, 매트리솜의 범주별 주석이 있는 참조 샘플에서 검출된 단백질의 상대적 백분율 조성(RPC)을 나타낸다. 각 범주의 단백질 수는 괄호 안에 표시되었다.
도 7은 본 발명의 일 실시예에 따른, 범주별 RPC에서 강도가 가장 높은 상위 단백질 100개를 유전자 온톨로지 분석하여 세포 성분을 평가한 결과를 나타낸다. 도 7에서 막대 그래프는 단백질의 수를 나타내고, 점은 각 범주의 통계적 유의성이다.
도 8은 본 발명의 일 실시예에 따른, 환자 유래 정상 및 종양 ECM의 매트리솜 집중된 프로테오믹 프로파일의 계층적 클러스터링 히트맵 및 막대 그래프 분석으로 표시되는 샘플 간의 모체 단백질 구성을 나타낸다. 계층적 클러스터링은 정상 그룹과 종양 그룹 사이의 명확한 구분과 종양 그룹 내 이질성을 보여주고, 각 시료 사이 및 정상/종양 상태의 평균 사이에 범주별 주석이 있는 모든 단백질의 RPC가 막대 그래프에 표시된다.
도 9는 본 발명의 일 실시예에 따른, 모든 시료의 PCA 플롯을 나타낸다. 종양 샘플의 복제본은 오리지날 샘플에 가깝게 플로팅되고, 더 밝은 색상으로 표시된다.
도 10은 본 발명의 일 실시예에 따른, 정상 및 종양 그룹의 단백질 분포를 나타낸다. 검출된 단백질은 RPC에 따라 순위가 매겨졌고, 막대 그래프는 각 그룹에서 가장 풍부한 20개의 매트리솜 단백질을 나타낸다. 각 샘플의 각 단백질의 RPC는 막대 그래프에서 점으로 표시되었다.
도 11은 본 발명의 일 실시예에 따른, 환자 유래 정상 ECM과 종양 ECM 매트리솜 간에 차별적으로 발현된 단백질(DEP)을 화산 플롯으로 나타낸 것이다. 도 11에서 붉은색 선은 log2(폴드 변경) > 0.5이고 조정된 p < 0.01인 DEP의 임계값을 나타내고, 28개의 종양 농축 DEP가 우측에 표시되며 110개의 정상 농축 DEP가 좌측에 표시된다.
도 12는 본 발명의 일 실시예에 따른, DEP의 기능적 유전자 집합 분석을 나타낸다. 도 12에서 막대 그래프는 정상 강화 및 종양 강화 DEP의 통계적 유의성과 함께 가장 주석이 달린 함수를 나타낸다.
도 13은 본 발명의 일 실시예에 따른, 핵심 매트릭스 범주에 포함된 선택된 DEP의 히트맵을 나타낸다. 종양 그룹이 이질적인 매트리솜 구성을 가지고 있기 때문에, 종양에서 풍부한 DEP의 발현 패턴은 정상에서 풍부한 DEP와 비교하여 시료 간에 일관되지 않은 프로필을 나타낸다.
도 14는 본 발명의 일 실시예에 따른, DEP의 세포 기원 분석을 나타낸다. 단일 세포 시퀀싱 데이터를 사용하여 세포 유형별 발현 패턴과 세포 유형 중 가장 높은 평균 발현 수준을 기반으로 DEP의 세포 기원을 결정하였다. 도 14에서 막대 그래프는 세포 유형별 숫자 및 비율과 함께 DEP의 세포 기원을 보여준다. 대부분의 DEP는 섬유아세포에서 유래하였다.
도 15는 본 발명의 일 실시예에 따른, 정상 및 종양 결장직장 조직에 대한 단일 세포 시퀀싱 결과의 tSNE 플롯을 나타낸다. 세포는 전사적(transcriptomic) 프로파일에 따라 클러스터링 되었고, 종양 관련 및 정상 관련 클러스터는 각 그룹의 메타 클러스터로 클러스터링 되었다. 차등적으로 발현된 매트리솜 유전자는 종양관련(TAM) 및 정상 대조군 관련 (NAM) 마커 유전자로 정의되었다.
도 16은 본 발명의 일 실시예에 따른, TAM 및 NAM의 단백질 및 전사체 발현을 나타낸다. TAM과 NAM은 프로테오믹(proteomic) 및 전사적(transcriptomic) 발현 데이터에 따라 정의되었다. 도 16에서 히트맵은 TAM과 NAM의 단백질 프로파일을 나타내고, 도트 플롯은 주요 발현 세포 유형을 가진 TAM 및 NAM의 전사 프로파일을 나타낸다.
도 17은 본 발명의 일 실시예에 따른, COL12A1-, THBS2- 및 HAPLN1-염색된 정상 및 종양 조직의 면역조직화학적 이미지를 나타낸다. 도 17에서 사이즈바는 50μm이다.
도 18은 본 발명의 일 실시예에 따른, 각 조직에 대한 컨센서스 분자 아형(CMS)과 함께 TAM 및 NAM의 정규화된 발현 점수를 나타낸다. 도 18에서 좌측은 TAM 점수, 우측은 NAM 점수이고, 각 상자 내부의 검은 선은 각 그룹의 중간 점수이다. 통계적으로 유의미한 차이는 소문자로 표시하였다.
도 19는 본 발명의 일 실시예에 따른, 38개의 매트리솜 마커의 GSEA 플롯을 나타낸다. 농축 점수를 사용하여 29개의 CMS4 농축 마커를 식별하였다.
도 20은 본 발명의 일 실시예에 따른, 29개의 CMS4-풍부 마커 점수와 EMT 점수 또는 TGF-β 반응 점수 사이의 양의 상관관계를 산점도로 나타낸 것이다.
도 21은 본 발명의 일 실시예에 따른, 상위 선택된 10개 CMS4-특이적 매트리솜 마커의 발현 패턴, CMS4 확률, 및 10-마커 점수에 따라 TCGA 샘플로부터의 PFS를 나타낸다. 고발현 25% 그룹과 저발현 25% 그룹 사이의 p-값이 < 0.05인 10개의 임상적으로 유의한 마커가 선택되었다. CMS4 확률 및 10-마커 점수는 CMS4 분류자 R 패키지 및 ssGSEA를 사용하여 계산되었다.
도 22는 본 발명의 일 실시예에 따른, 상위 10개 마커의 발현 수준과 TCGA 샘플의 CMS4 확률 사이에 양의 상관관계를 히트맵으로 나타낸 것이다.
도 23은 본 발명의 일 실시예에 따른, 상위 10개 마커의 발현 수준과 TCGA 샘플의 CMS4 확률 사이에 양의 상관관계를 산점도로 나타낸 것이다.
최근 대장암에서 ECM 미세 환경의 중요성을 강조하기 위한 전사 프로파일 기반 분자 아형(CMS) 분류법이 개발되었다. CMS는 4개의 대장암 하위 유형을 설명하며, 그 중 중간엽 하위 유형인 CMS4 그룹은 광범위한 간질 침윤(대부분 활성화된 섬유아세포) 및 ECM 구성을 특징으로 하므로, CMS 분류 중 가장 난치성이고 예후가 나쁘다. 최근 연구에 따르면 대장암의 CAF는 뚜렷한 섬유아세포 집단으로 구성되어 있으며, 다른 하위 유형과 비교하여 CMS4 하위 유형이 상당히 풍부하다. 따라서 근섬유아세포가 풍부한 CMS4 하위 유형과 다른 하위 유형 간의 ECM 기능을 비교하였다. The Cancer Genome Atlas (TCGA)-Colon Adenocarcinoma (COAD)/Rectal Adenocarcinoma (READ) 발현 데이터 세트로 단일 시료 유전자 집합 농축 분석(ssGSEA)을 수행하여 TAM 및 NAM의 발현 패턴을 계산한 결과, TAM ssGSEA 점수는 기질이 풍부한 분자 하위 유형(CMS4)에서 다른 세포 유형보다 유의하게 더 높았다. NAM 점수는 종양 조직보다 정상 조직에서 더 높았으며 점수는 종양 조직 유형에 따라 다양하게 나타났다. 특히, NAM의 수준은 다른 하위 유형보다 CMS4 하위 유형에서 더 높았지만 NAM의 전사 수준은 정상 조직보다 CMS4 하위 유형에서 약간 낮았다. 전반적으로, CMS4의 섬유아세포는 대부분의 ECM 유전자의 증가된 전사 수준을 나타내었으며, 이는 ECM 구성 및 간질 침윤의 분자적 특징과 일치한다. 따라서, 10개의 임상적으로 중요한 CMS4-특이적 매트리솜 유전자는 TME에서 섬유모세포 집단을 추론하고 CMS4와 다른 아형을 구별하기 위해 사용될 수 있다.
이하, 본 발명을 하기의 실시예에 의해 상세히 설명한다. 단, 하기 실시예는 본 발명을 예시하는 것일 뿐, 본 발명의 내용이 하기 실시예에 의해 한정되는 것은 아니다.
실시예
[실험방법]
환자 및 조직 시료 수집
대장내시경 소견에 근거하여 대장암을 진단받은 환자로부터 조직을 수득하였다. 일부의 환자로부터는 대장암 조직과 매칭하여 정상 조직을 함께 수득하였다. 수술 직후 채취한 조직들은 즉시 전처리 후 냉동 보관되었다. 모든 환자 및 조직의 임상적 특성은 의료 기록과 인터뷰를 기반으로 기록되었다.
조직 탈세포화 과정
수집된 조직들은 1% (v/v) Triton X-100 (T8787; Sigma-Aldrich, St. Louis, MO, USA) 및 0.1% (v/v) ammonium hydroxide (221228; Sigma-Aldrich)가 포함된 증류수에서 탈세포화되었다. 구체적으로, 조직들은 작은 절편(3 x 3 x 3mm)으로 컷팅되었고, 탈세포와 용액에서 2시간 이상 처리되었다. 용액은 30분 간격으로 또는 불투명해질 때마다 교체하였다. 조직이 무색이 되면 Dulbecco's phosphate buffered-saline(Welgene, Gyeongsan, Korea)으로 2일 동안 세척하되, 용액을 1시간 간격으로 교체하였다. 그 후 조직을 증류수로 10분씩 4회 세척하여 잔류 용액을 제거하였다. 탈세포화는 70rpm 속도의 오비탈 쉐이커를 사용하여 실온에서 수행하였고, 탈세포화가 완료된 조직을 1일 동안 동결건조 후, -20°C에서 보관하였다. 이하, 탈세포화된 환자 유래의 조직을 pdECM(patient-derived ECM)으로 명명한다.
탈세포화 조직의 특성 확인
헤마톡실린 및 에오신 염색을 위해 천연 조직 및 탈세포화된 조직을 4% paraformaldehyde (Biosesang, 성남, 한국)에서 1일 동안 고정하고, Paraplast(Leica Biosystems, Wetzlar, Germany)를 통해 파라핀 블록을 만든 후, 10μm 두께로 섹션하여 헤마톡실린 및 에오신으로 염색하였다. pdECM 시료의 DNA 함량은 DNA 추출 키트(Bioneer, Daejeon, Korea)를 사용하여 제조업체의 권장 사항에 따라 정량하였고, DNA 농도는 DS-11 Spectrophotometer(DeNovix, Wilmington, DE, USA)를 사용하여 측정하였다.
S-Trap 단백질 분해
S-Trap™ mini(ProtiFi, Huntington, NY, USA) 키트를 사용하여 단백질 분해를 수행하였다. 구체적으로, 약 5mg의 탈세포화된 결장 조직을 5% sodium dodecyl sulfate 완충액과 혼합한 후 VCX 130(Sonics)으로 초음파 처리하였고, 이후 13,000g에서 10분 동안 원심분리하였다. 각 상층액을 1.5mL 튜브에 수집하여 20 mM dithiothreitol(최종 농도)과 함께 95°C에서 10분 동안 끓이고, 용액을 실온으로 냉각시킨 후 암실에서 30분 동안 40 mM iodoacetamide로 알킬화시켰다. 이어서, sodium dodecyl sulfate 용해물에 12% aqueous phosphoric acid (1:10 희석, 최종 산출 농도 1.2% 인산) 및 7배 부피의 결합 완충액(최종 농도 100mM 트리에틸암모늄을 갖는 90% 수성 메탄올, TEAB: pH 7.1)을 첨가하였다. 이를 부드럽게 혼합한 후, 단백질 용액을 S-Trap 필터에 넣고 3,000g에서 1분 동안 회전시킨 다음 통과액을 재필터하였다. 이 과정을 2회 반복하고 필터를 결합 완충액 400μL로 3회 세척한 후, 10μg의 trypsin(Promega) 및 125μL의 digestion buffer(50mM TEAB)를 필터에 1:25 w/w로 첨가하여 37°C에서 16시간 동안 분해하였다. 분해된 펩타이드를 용출하기 위해 각 펩타이드에 80μL의 완충액을 적용하였다. 이들 완충액은 50mM TEAB, 증류수에 용해된 0.2% formic acid, 및 증류수에 용해된 50% acetonitrile/0.2% formic acid를 포함한다. 마지막으로, Pierce™ Peptide Desalting Spin Column(Thermo Fisher Scientific, Waltham, MA, USA)의 프로토콜에 따라 펩타이드 용액을 풀링, 동결건조 및 탈염하였다.
TMT 11플렉스 라벨링
시료 간의 데이터를 비교하기 위해 8개의 정상 조직과 16개의 종양 조직에 대해 4개의 TMT11-플렉스 세트와 함께 다중화하였다. 여러 세트의 TMT11-플렉스에 대한 데이터 조합을 용이하게 하기 위해 풀링된 공통 컨트롤을 참조로 구성하였다. 대조군은 실험에 사용된 각 시료와 동일한 중량의 총 펩타이드로 구성하였고, 각 TMT11-plex는 8개의 각 개별 시료와 함께 0.5:1:2의 비율의 3개 분취량으로 구성하여, 제조업체의 지침(Thermo Fisher Scientific)에 따라 Pierce™ Quantitative Fluorometric Peptide Assay 키트를 사용하여 총 100μg의 탈염 펩타이드를 측정하였다. 구체적으로, 탈염 및 건조된 펩타이드를 TMT 11-plex 시약을 사용하여 100mM TEAB(100μL)로 재용해하고, 0.8 mg의 TMT reagent(41 μL)를 각 시료에 첨가한 후 실온에서 1시간 동안 인큐베이션하였다. 이후 8 μL의 5% hydroxylamine(Thermo Fisher Scientific)을 사용하여 반응을 켄칭하고 실온에서 15분 동안 인큐베이션한 후, 라벨링된 시료(25-100μg)을 결합하고 건조하여 Pierce™ Peptide Desalting Spin Columns(Thermo Fisher Scientific)를 사용하여 탈염하였다. 이후 용출액을 건조하고 -80°C에서 보관하였다.
High pH 역상 분획
TMT-표지된 펩타이드는 바이너리 펌프, 오토샘플러, 탈기 장치, 가변파 검출기 및 분획 수집기로 구성된 Shimadzu HPLC 시스템을 사용하여 분획화하였다. High pH 역상 분획은 4.6 × 150mm Waters XBridge® BEH C18 컬럼(직경, 2.5μm)을 사용하여 수행하였다. 이동상 A는 100% 물에 5mM ammonium formate로 구성하였고, 이동상 B는 95% acetonitrile에 5mM ammonium formate로 구성하였다. 시료 분리는 하기의 선형 구배를 사용하였다: 15분 동안 5% B, 5분 동안 5%에서 15% B, 30분 동안 15%에서 40% B, 5분 동안 40% B, 4분 동안 95% B, 4분 동안 95% B, 1분 동안 95%에서 5% B, 추가 9분 동안 5% B. 시간 의존적 분획은 총 40개의 분획에 대해 21분에서 61분까지 수집하여, 최종 수율 약 1mL/분획을 산출하였다. 가변 파장 검출기는 214 nm에서 모니터링하였고, 수집된 40개의 분획을 혼합 분획법(예: 1과 21; 2와 22; 3과 23)으로 20개의 분획으로 제조하였다. 각 분획은 LC-MS/MS 분석을 위해 200 μL water/formic acid (99.9:0.1, v:v)로 용해하였다.
나노 LC-전기분무 이온화-MS/MS 분석
Orbitrap Eclipse™ Tribrid™ 질량 분석기(Thermo Fisher Scientific)와 결합된 나노 흐름 초고성능 액체 크로마토그래피(UHPLC) 시스템(UltiMate 3000 RSLCnano System, Thermo Fisher Scientific)을 프로테옴 분석에 사용하였다. 45°C에서 작동되는 EASY-Spray PepMap™ RSLC C18 컬럼 ES803A(2μm, 100A, 75μm × 50cm; Thermo Fisher Scientific)에서 이동상 A 및 이동상 B로 분획화된 펩타이드를 주입하고 분리하였다. 전기 분무 이온화 전압은 1800-1900V, 이온 전달 튜브 온도는 275°C로 설정하였다.
UHPLC-MS/MS 데이터는 MS2 스캔 수를 최대화하기 위해 3초의 주기로 전체 시간 동안 데이터 종속 최고 속도 모드를 사용하여 수집하였다. 전체 스캔(MS1)은 400-2000m/z의 질량 범위에서 120K의 해상도로 Orbitrap 분석기를 사용하여 감지하였고, 자동 이득 제어 대상 모드는 "표준", 최대 주입 시간 모드는 "자동", 충전 상태는 2-6으로 설정하였으며, 동적 제외 창은 30초로 설정하였다. 두 번째 스캔(MS2)은 고에너지 C-트랩 해리(HCD) 모드로 분석하였다. HCD 스펙트럼은 등압 표지된 펩타이드에 대해 37% 고정 충돌 에너지로 30K의 분해능에서 Orbitrap 분석기를 사용하여 검출하였고, 최대 사출 시간 모드는 "자동", 격리 창은 0.7, 자동 이득 제어 대상 모드는 "표준", 첫 번째 질량은 110으로 고정, 모드는 Turbo TMT로 설정하였다.
데이터 처리
프로테오믹스 분석을 위해 raw 파일은 RawConverter(The Scripps Research Institute, La Jolla, CA, USA)를 사용하여 MS(.ms1) 및 MS2(.ms2) 파일로 변환하였고, 프로테옴 검색 및 데이터베이스 생성은 IP2(질량 분석 데이터 분석을 위한 통합 플랫폼, Bruker)를 사용하였다. 프로테옴 결과는 ProLuCID, DTASelect2 및 Census를 사용하여 분석하되, 분석을 위한 데이터베이스는 UniProt 인간 프로테옴 데이터베이스(20,645개 항목, 2020년 1월 1일 업데이트됨)를 사용하였다. 여기에는 하기의 IP2 매개변수를 사용하였다: 전구체 및 조각 질량 허용 오차, 50ppm; 효소, 트립신; 잘못된 분열, ≤ 2; 정적 변형, 시스테인에 추가된 57.0215 Da, 라이신 및 N-말단에 추가된 229.1629 Da; 차등 변형, 메티오닌에 15.9949 Da 첨가; 및 단백질당 최소 펩타이드 수 2. 20개 분획 모두의 풀링된 스펙트럼 파일을 동일한 매개변수를 사용하여 정상 데이터베이스와 역 데이터베이스로 비교하였다. 펩타이드 검증의 경우 위양성률은 스펙트럼 수준의 0.01이었다. TMT 리포터 이온 분석은 질량 허용 오차가 20ppm인 CPTAC 데이터 포털의 Census 소프트웨어를 사용하였다(https:/cptac-data-portal.georgetown.edu/study-summary/S037).
풀링된 내부 표준을 사용하여 스펙트럼 정량 정확도 향상
3개의 TMT 채널을 모든 시료에서 동일한 양의 풀링된 펩타이드를 나타내는 풀링된 공통 컨트롤과 함께 내부 참조로 사용하였다. 이러한 방법을 통해 정량적 정확도를 향상시키면서 배치 내 및 배치 간 분산을 평가할 수 있었다. 풀링된 일반 대조군은 0.5:1:2의 비율로 TMT 130N, 131C 및 131N 시약으로 표지하였고, 참조 채널로 사용하였다. 프로테오믹 분석에서 측정된 모든 펩타이드에 대한 3개의 참조 채널(log2 TMT 채널 131N/131C, 131C/130N 및 131N/130N)의 log2 비율은 중심 극한 정리를 사용하여 약 1의 값(131N/131C), 약 1의 값(131C/130N), 및 약 2의 값(131N/130N)을 갖는 표준 가우시안(standard Gaussian) 분포에 매칭될 것으로 예상되었다. 이 방법은 기술 복제의 변형을 평가하는 데 사용될 수 있고, Perseus가 제공하는 다차원적 의미를 기반으로 필터링 기준을 구현할 수 있다. 벤자민-호흐버그(Benjamini-Hochberg) 거짓 발견율은 임계값 0.05 설정의 기준이 되었다. 상기 열거한 기준으로 이상값 스펙트럼을 필터링하여 정량적 정확도를 향상시켰다.
단백질 풍부도의 정상화
시료 처리 및 실험실 환경의 차이로 인해 단백질 풍부도의 정량화에 시료별 편향이 있을 수있으므로, 이러한 위험을 제거하기 위해 log2-변환된 펩타이드 풍부도의 중앙값을 계산하고, 중앙값에서 열 값을 빼 공통 중앙값을 0으로 설정하였다. 이후 중앙값의 평균을 계산하여 0 중심 열에 다시 추가하고, y = 2 ^ (x)를 사용하여 다시 중심 값을 변환시켰다. 또한 시료 간 강도 정규화를 위해, 각 시료에 포함된 단백질의 강도 값을 R2 컬럼의 원래 강도 값으로 나누어 각 단백질의 상대적 강도 값을 계산하였고, 이를 다른 시료의 기준으로 사용하였다. 이후 R2 컬럼의 평균 정규화 강도 값에 각 단백질의 상대 강도 값을 곱하여 최종 정규화 강도 값을 계산하였다. 정규화된 값은 y = 2 ^ (x) 함수를 사용하여 변환하였고, 변환된 풍부화 값을 추가 프로테옴 분석에 사용하였다.
TMT 프로테오믹스에 대한 통계 분석
TMT 기반 프로테오믹스 데이터는 계층적 클러스터링, PCA 및 DEP 분석을 수행하는 데 사용되었다. 계층적 클러스터링을 위해 정규화된 강도 값을 Perseus 소프트웨어의 유클리드 거리를 기반으로 매트리솜 단백질 데이터로 스케일링, 및 클러스터링하였다. PCA의 경우에는 매트리솜 단백질의 정규화된 강도 값만 사용하였고, 종양과 정상 조직 사이의 차별적으로 발현된 단백질(DEP; differentially expressed protein)은 Benjamini-Hochberg 보정과 함께 Welch의 t-테스트를 사용하여 결정하였다. 궁극적으로 DEP는 foldchange > √2 및 조정된 p < 0.01가 선택되었다. DEP의 GSEA는 Metascape에서 제공한 유전자 세트를 사용하여 수행하였고, p-값은 풍부한 유전자를 식별하는 데 사용하였다.
scRNA-Seq 및 데이터 분석
대장암 조직의 scRNA-Seq 분석을 위해, 삼성 메디컬 센터 코호트의 단세포 대장암 분리물을 수집하고 제조업체의 지침에 따라 바코드 시퀀싱 라이브러리를 생성하였다. 6개의 전체 세포 유형(상피, 간질, B, T, 골수 및 비만)과 25개의 세부 유형을 추가 분석에 사용하였고, 정상 섬유아세포와 종양 섬유아세포는 분석된 단일 세포에 대한 조직 공급원을 기반으로 정의하였다.
DEP의 세포 기원은 세포 유형의 평균 발현 수준을 사용하여 확인하였다. Seurat 패키지의 FindAllMarkers 기능을 사용하여 세포 유형별 유전자를 정의하고, 조정된 p < 0.01을 임계값으로 사용하여 유전자 발현이 세포 유형별인지 여부를 결정하였다. 세포 유형별 평균 발현 수준은 Seurat 패키지의 AverageExpression 기능을 사용하여 결정하되, 평균 발현 수준이 가장 높은 세포 유형을 유전자의 세포 기원으로 간주하였다.
TAM 및 NAM의 정의를 위해서는 이전에 섬유아세포 세포 유형으로 주석이 달린 섬유아세포만 사용하되, 유전자 발현 패턴을 하기 방법으로 클러스터링하였다. ① 모든 매트리솜 유전자를 특징으로 하는 Seurat 패키지의 RunPCA 기능을 사용하여 선형 차원 축소를 수행 ② 매개변수 dims = 1:20과 함께 Seurat 패키지의 FindNeighbors 기능을 사용하여 정규화 및 클러스터링 ③ Seurat 패키지의 FindClusters 함수를 매개변수 resolution = 0.5로 사용 ④ Seurat 패키지의 RunTSNE 함수를 사용하여 dims = 1:20 매개변수를 사용하여 차원 공간에서 섬유아세포를 플로팅. 이후, 특정 조건이 우세한 클러스터(즉, 정상 대 종양)(클러스터 내 세포 90% 이상이 동일한 조건을 가짐)와 2명 이상의 환자로부터 수득된 세포로 구성된 클러스터를 메타클러스터로 다시 클러스터링하였다(도 15; 클러스터 0, 3, 7: 종양섬유아세포 메타클러스터, 클러스터 1, 2, 4, 5, 6: 정상-섬유아세포 메타클러스터). 두 메타클러스터 사이의 종양 관련 및 정상 관련 마커 유전자는 p < 0.01로 조정된 Seurat의 FindMarkers 기능을 사용하여 정의하였고, 종양 관련 매트리솜(TAM; tumor-associated 매트리솜) 및 정상 관련 매트리솜(NAM; normal-associated 매트리솜)는 정상 그룹과 종양 그룹 사이의 평균 단백질 강도의 배수 변화를 계산하여 정의하였다. TAM 마커 유전자 중 종양군에서 단백질의 평균 강도가 높을수록 해당 단백질을 TAM에 포함시켰다. 유사하게, NAM 마커 유전자 중 단백질의 평균 강도가 정상 그룹에서 더 높을 때 단백질이 NAM에 포함되었다.
벌크 조직 RNA-Seq 및 생물정보학 분석
수집된 대장암 조직은 벌크 조직 RNA-Seq를 위해 TRIzol 시약 처리하였고, 인덱싱된 cDNA 시퀀싱 라이브러리는 TruSeq Stranded mRNA LT 시료 준비 키트를 사용하여 RNA 시료로 준비하였다. RNA 무결성 수 및 rRNA 비율의 품질 관리 분석은 2200 TapeStation으로 수행하였다. 인덱싱된 라이브러리는 등몰(equimolar)의 풀로 준비하였으며, NovaSeq 6000에서 시퀀싱하여 시료 라이브러리당 최소 6천만 쌍의 읽기를 생성하였다. 원시 Illumina 시퀀스 데이터는 역다중화하여 fastq 파일로 변환하였고, 어댑터와 저품질 시퀀스를 제거한 후, mRNA 시퀀싱 리드를 HISAT2(버전 2.1.0)로 Genome Reference Consortium의 Homo sapiens 게놈 어셈블리 GRCh37에 매핑하였다. 매핑된 리드는 StringTie(버전 2.1.3b)를 사용하여 알려진 유전자의 백만 개의 매핑된 리드(TPM; transcripts per million mapped reads)당 전사물과 같은 리드 수 및 시료 정규화 값으로 정량화하였다. TCGA, COAD 및 READ 유전자 발현 데이터 세트와 TCGAbiolinks 패키지의 임상 데이터 세트는 CMS 특정 유전자 발현 패턴 분석을 위해 수집하였고, 유전자 발현 정보가 Illumina 플랫폼에서 다운로드된 후 원시 카운트가 정규화된 데이터로 변환하여, TPM 값 및 임상 정보(예: days_to_last_follow_up, death_days_to 및 new_tumor_event 매개변수)를 PFS 분석에 사용하였다. 총 612개의 종양 시료와 51개의 정상 시료를 분석하였다. CMS 분류를 위해 CMSclassifier 패키지를 사용하여 수집된 대장암 조직 및 TCGA 시료의 CMS를 식별하였고, 유전자 발현 값은 TPM 데이터의 log2 변환 후 사용하였으며, 가장 가까운 0.001로 합산하였다. NearestCMS 값과 CMS4 확률은 랜덤 포레스트 알고리즘을 사용하여 계산하였고, 할당된 하위 유형이 단일 하위 유형을 구성하지 않는 모호한 CMS 분류가 있는 시료는 추가 분석에서 제외하였다. CMS4에 풍부한 매트리솜 유전자를 확인하기 위해 TCGA 시료의 정규화된 TPM 데이터를 GSEA에 적용하였다. TAM 또는 NAM으로 정의된 총 38개의 매트리솜 마커를 유전자 세트로 사용하였고, GSEA에서 파생된 농축 점수를 기반으로 핵심 농축 유전자는 CMS4 농축 TAM/NAM 마커로 정의하였다. 각 TCGA 시료에서 특정 유전자 세트의 발현 패턴은 ssGSEA를 사용하여 평가하였다. CMS로 분류된 TCGA 시료의 정규화된 TPM 데이터를 전처리하고, EMT와 관련된 유전자 세트(MSigDB M5930)와 섬유아세포의 TGFβ 반응(PMID의 유전자 세트: 23153532)에 대한 ssGSEA 점수, 및 GSEA의 29개 CMS4 강화 TAM/NAM 분자와 10개 마커로 구성된 맞춤형 유전자 세트 GenePattern 웹 기반 도구의 ssGSEAprojection 패키지를 사용하여 임상적으로 유의한 값을 계산하였다. 계산된 점수는 ssGSEA 점수 사이의 상관 관계를 결정하기 위해 log2 변환 및 정규화하였다.
조직 면역조직화학(IHC)
조직 면역조직화학 연구는 4-nm 포르말린-고정 파라핀 임베디드(FFPE) 종양 조직 슬라이드 섹션에서 수행되었다. 슬라이드는 자일렌 기판과 순수 알코올에서 탈파라핀화된 후, 물로 끝나는 감소하는 알코올 구배에서 다시 수화되었다. 10mM sodium citrate buffer(pH 6.0)에 담긴 슬라이드를 마이크로파 오븐 안에서 10분간 가열한 후 내인성 과산화효소 활성을 30분간 차단하여 메탄올에 녹은 3% 과산화수소를 이용해 항원 회수를 수행하였다. TBS에서 헹군 후, 5% BSA(HAPLN1의 경우) 또는 10% BSA(COL12A1, THBS2의 경우)에서 30분간 배양하여 잠재적인 비특이성 반응을 차단하였고, HAPLN1(goat antihuman polyclonal Ab, 1:400 희석, Biotechne, MN, USA), COL12A1(rabbit antihuman polyclonal Ab, 1:200 희석, Sigma-Aldrich, MA, USA) 또는 THBS2(mouse antihuman monoclonal Ab, 1: 1000, Invitrogen, MA, USA)에 대한 1차 항체를 4℃에서 하룻밤 동안 인큐베이션한다. 슬라이드를 TBS로 세척한 후, TBS에 1:200을 희석한 Vectastain ABC kit(Vector Laboratories, CA, USA)를 사용하여 적절한 2차 항체로 30분간 배양하고 DAB 용액(Dako, CA, USA)을 사용하여 검출하였다. 단면은 헤마톡실린으로 역염색하고, 농도가 증가하는 에탄올로 탈수하고, 커버슬립 아래 synthetic mountant(Thermo Fisher Scientific, MA, USA)로 마운트했다.
[실험결과]
환자 유래 탈세포화 조직의 정량적 단백질체 분석
대장암(CRC; Colorectal cancer)에서 ECM 단백질의 구성을 조사하기 위해, 인간 종양 조직을 탈세포하여 ECM 단백질을 풍부하게 하였다. 본 발명에서 대장암 조직을 탈세포하고 분석하는 일련의 과정을 모식도로 나타내었다(도 1). 구체적으로, 22명의 대장암 환자로부터 외과적으로 종양 조직, 및 인접된 정상 조직을 수득하였고, 각 환자에 대한 임상 데이터, 종양 단계, 위치 및 컨센서스 분자 아형(CMS)을 요약하였다(도 2). 탈세포된 조직을 헤마톡실린 및 에오신(H&E) 염색하였고(도 3), DNA 정량화하여 ECM 단백질의 농축을 확인하였다(도 4). 상기 결과로부터 탈세포화가 핵의 상당한 손실, 및 게놈 DNA의 감소를 유발하나, ECM 구조를 보존한다는 것을 확인하였다. 정상 및 종양 조직 ECM 시료의 프로테오믹스 비교를 위해 동중 탠덤 질량 태그(TMT)에 대한 액체 크로마토그래피-질량 분석법(LC-MS)/MS 분석을 수행하였다. 총 24개의 건조 질량을 일치시킨 환자 유래 ECM(pdECM) 시료를 정상 및 종양 조직으로 구분하여 TMT-11plex 분석으로 단백질의 배수 변화를 계산한 결과, 전체적으로 한 세트의 모든 시료에서 "NA" 값이 없는 6,323개의 단백질이 확인되었다. 인간 매트리솜 데이터베이스(Human matrisome Database)에 따르면, 이들 단백질 중 407개는 매트리솜 단백질(콜라겐[COLs], 프로테오글리칸[PGs] 및 ECM 당단백질[GPs]) 및 매트리솜 관련 단백질이었다. 또한, 166개의 핵심 매트리솜 단백질 중 145개와 241개의 매트리솜 관련 단백질 중 182개가 종양 시료가 있는 적어도 모든 세트와 정상 시료가 있는 모든 세트에서 검출되었다. 이를 종래 연구 결과(Vasaikar, S. et al. Proteogenomic analysis of human colon cancer reveals new therapeutic opportunities. Cell 177, 1035-1049. e1019 (2019), 및 Naba, A. et al. Extracellular matrix signatures of human primary metastatic colon cancers and their metastases to liver. BMC cancer 14, 1-12 (2014))와 비교하면, 두 종래 연구에서는 98개의 핵심 매트리솜 단백질과 79개의 매트리솜 관련 단백질이 검출된 반면, 본 연구에서는 47개의 핵심 매트리솜 단백질과 103개의 매트리솜 관련 단백질만이 검출되었다(도 5). 주목할 것은 FBN3(fibrillin 3), NID2(nidogen 2), ABI3BP(ABI family member 3 binding protein), LAMA3(laminin subunit alpha 3) 및 THBS1(thrombospondin 1)을 포함한 기타 ECM 당단백질이 본 연구인 TMT 기반 플랫폼에서만 검출되었다는 것이다. 이러한 당단백질은 정상 결장 및 종양 시료의 ECM에 보편적으로 존재하는 것이므로, 상기 결과는 ECM이 풍부한 대장암 조직의 TMT 기반 정량적 프로테오믹스 분석이 인간 결장 매트리솜의 가장 큰 데이터 세트를 제공할 수 있음을 시사한다. 또한 기본 조직 프로테오믹스 데이터와 비교하여 핵심 및 관련 매트리솜 구성 요소는 농축의 이점이 있다. 특히, 주로 불용성이고 가교결합된 14개의 핵심 매트리솜 단백질은 본 연구의 플랫폼에서만 검출되었다. pdECM 시료에서 검출된 매트리솜 단백질의 네이티브 조직에 대한 상대적 백분율 조성(RPC)을 조사하기 위해 각 단백질 강도를 모든 단백질 강도의 총합으로 나누어 각 단백질의 RPC를 계산하고 백분율로 표시하였다. 매트리솜 각 범주의 RPC는 각 범주의 매트리솜에 해당하는 단백질의 모든 RPC를 합산하여 결정하였다. 그 결과, 매트리솜 단백질의 총 RPC는 탈세포되지 않은 기본 조직보다 탈세포된 조직 시료에서 실질적으로 더 높게 나타났다(도 6). COL, GP 및 PG를 포함하는 코어 매트리솜의 RPC는 58.67%에 해당하였으며, 이는 천연 조직의 RPC(8.92%)보다 거의 7배 더 높은 것이었다. 또한, 비매트리솜 단백질의 RPC는 다른 탈세포화 연구에서 측정된 RPC(32-41%)와 일치하였다. 연결된 세포 구성 요소를 식별하기 위해 강도가 가장 높은 상위 100개 단백질에 대한 Gene Ontology(GO) 분석을 수행한 결과, ECM 관련 단백질은 pdECM이 풍부한 것으로 나타났지만 핵 및 세포내 단백질은 그렇지 않았다. 대조적으로, 세포질 및 핵 단백질은 탈세포되지 않은 조직에서 더 풍부한 것으로 나타났다(도 7). 이러한 결과는 본 연구의 ECM-단백질 강화 접근법이 LC-MS/MS에 의한 매트리솜 구성 요소의 상세한 식별을 가능하게 함을 시사한다.
정상 및 종양 조직의 pdECM 시료에 대한 정량적 ECM 프로테오믹스 분석
정상 및 종양 조직의 pdECM 시료에서 매트리솜 구성 요소를 조사하기 위해 정량적 프로테옴 프로파일을 비교한 결과, 정상 조직과 종양 조직 모두에서 255개의 매트리솜 단백질 중 123개가 코어 매트리솜 단백질로 확인되었다. 매트리솜 프로필을 사용한 계층적 클러스터링은 여러 환자에 걸쳐 모든 정상 시료와 함께 클러스터링되었고, 유사한 프로테오믹 발현 패턴을 나타내었다. 그러나 종양 시료의 매트리솜은 매우 이질적이었고 정상 시료와 크게 달랐다. GP의 RPC는 종양 조직에서 크게 증가하였고, 또한 종양 조직에서 매트리솜 관련 단백질 및 분비 인자의 RPC가 증가하였다. 반대로 COL의 RPC는 27.8%로 크게 감소하였다. 콜라겐의 전반적인 변화와 일치하여 PG의 RPC는 12.3%에서 3.5%로 감소하였지만, 일부 단백질은 정상 시료보다 종양 시료에서 더 높은 수준을 보였다(도 8). 주성분 분석(PCA)에서는 정상군과 종양군 사이에 차이가 있었지만 정상 시료 간에는 차이가 없었다. 대조적으로, PCA는 종양 시료 사이에서 더 큰 거리를 보였다. 복제 시료는 PCA 플롯에서 서로 가까이 위치하여 프로테오믹스 분석의 재현성을 확인해 주었다. 정상 시료와 종양 시료 사이의 계산된 거리 계수는 정상 조직이 일반적으로 유사하고, 종양 조직이 일반적으로 이질적임을 나타낸다(도 9). 일부 시료는 화학 요법, 천공 또는 스텐트 삽입(SEV01T: 천공; SEV04T: 화학 요법; SEV09N: 스텐트 삽입)과 같은 ECM 구성에 영향을 줄 수 있는 요인으로 인해 분석에서 제외하였다. 제외된 시료는 다른 시료와 구별되는 단백질 발현 패턴을 나타냈으므로, 계층적 클러스터링과 PCA로 분석하였다. 상기 결과는 ECM 구성이 각 임상 시료의 병리학적 및 조직학적 특징과 연관되어 있음을 나타낸다. 다음으로 정상 조직과 종양 조직의 pdECM 시료에서 풍부한 단백질을 비교하였다. 각 조건(정상/종양)의 각 단백질의 RPC에 따라 검출된 단백질의 순위를 매기고 비교한 결과는 855 중 81개의 단백질 구성 요소가 각각 정상 및 종양 조직의 pdECM 시료에서 RPC의 90%를 커버한다는 것을 보여준다(도 10). 이 결과는 정상 조직의 단백질 성분이 종양 조직의 단백질 성분에 비해 시료 간에 더 균일하게 분포되어 있음을 나타낸다. 두 그룹의 각 매트릭스에서 가장 풍부한 상위 6개 단백질은 비슷한 구성과 풍부함을 나타내었다. 그러나 가장 높은 강도를 가진 상위 20개의 매트리솜 단백질은 정상 조직과 종양 조직 간에 차이가 있었으며, 이는 대장암 조직의 매트리솜에 대한 이전 연구와 일치한다. 20개의 단백질 중 13개는 정상 조직과 종양 조직 모두에서 높게 발현되었고, 가장 상위에 랭크된 6개의 단백질은 정상 조직과 종양 조직 모두에서 COL6A1/2/3, COL1A1/2 및 FBN1에 의해 암호화된 단백질이었다. 또한 3개의 VI형 COL(COL6A1, COL6A2 및 COL6A3에 의해 암호화됨) 및 2개의 I형 COL(COL1A1 및 COL1A2에 의해 암호화됨)이 정상(55.6%) 및 종양(31.8%) 조직에서 인간 결장 ECM의 상당 부분을 구성하는 것으로 나타났다. 콜라겐 섬유 조립 및 안정성의 조절에 관여하는 DCN(Decorin) 및 LUM(Lumican)도 정상 조직과 종양 조직 모두에서 풍부한 것으로 나타났으나, 그들의 수준은 종양 조직보다 정상 조직에서 훨씬 더 높았다. 피브리노겐 계열(FGA, FGB 및 FGG), FN1(Fibronectin 1), 변형 성장 인자 베타 유도 단백질TGFβI(transforming growth factor-beta I) 및 TNC(Tenascin C)와 같은 GP는 종양 조직에서 증가된 존재를 보였다. 특히, COL 및 PG의 발현 프로파일은 2개의 MMPs(matrix metalloproteinase; MMP9 및 MMP14) 및 2개의 ADAMs(A Disintegrin And Metalloprotease; ADAM9 및 ADAM10)를 포함하는 금속단백분해효소의 메친신 계열의 수준과 반비례 관계가 있었다. 이러한 금속단백분해효소는 ECM 성분의 단백질 분해를 포함하는 ECM 리모델링에서 중요한 역할을 한다. 따라서 본 연구는 ECM의 주요 성분을 확인하고 대장암 조직에서 ECM의 풍부함과 구성에 상당한 변화를 추적하는데 의의가 있다.
정상 및 종양 조직의 pdECM 시료에서 차별적으로 발현된 매트리솜 단백질
ECM 미세 환경의 조성 변화를 확인하기 위해 정상 조직과 종양 조직의 매트리솜을 차별적으로 발현된 단백질(DEP) 분석으로 비교하였다. 각 단백질에 대해 Welch의 t-테스트에 따라 조정된 p-값과 함께 정상 조직과 종양 조직 간의 배수 변화를 계산하여, 매트리솜 DEP를 화산 플롯으로 요약하였다(도 11). 그 결과, 110개 및 28개의 매트리솜 단백질이 각각 정상 및 종양 조직의 pdECM 시료에서 농축되었다. 기능적 유전자 집합 분석은 섬유아세포 활성화와 관련된 주요 생물학적 용어인 상처 치유 및 ECM 분해를 나타내었다(도 12). 선택된 핵심 매트리솜 단백질의 히트맵은 정상 및 종양 조직에서 상당히 상향 조절된 단백질을 나타낸다(도 13). 총 32개의 코어 매트리솜 단백질이 선택되었는데, 여기에는 모든 종양 농축 단백질, p-값이 가장 낮은 정상 농축 COL 3개, -log10(p-값) > 7인 매트리솜 단백질이 포함된다. 그러나 종양에 풍부한 DEP 중에서 COL12A1(Collagen Type XII Alpha 1 Chain)을 제외하고 GP 그룹 단백질은 단백질 풍부도의 상당한 차이가 있었다. 본 연구의 프로테오믹스 데이터와 일치하여 COL12A1은 대장암을 포함한 다양한 암에서 상향조절 되었고, 종양에 풍부한 GP 중에서 MXRA5(matrix-remodeling associated protein 5)가 가장 큰 통계적 유의성을 나타냈다(p = 7.13 × 10-6). 상기 결과는 MXRA5가 대장암 조직에서 비정상적으로 발현된 이전 연구의 결과와 일치한다. 또한 여러 COL, GP 및 PG가 정상 조직에 풍부하게 존재하였다. 특히, SLRP(small leucine repeat proteoglycans) 계열(예: DCN, LUM, ASPN 및 OGN)의 PG는 정상 ECM에서 가장 크게 농축되었다. 종양 조직에서 단백질분해효소(즉, MMP 및 ADAMTS)의 상향 조절은 프로테아제 소화가 병태생리학적 조건에서 세포외 SLRP의 고갈을 유도할 수 있음을 뒷받침한다. 또한 SLRP(small leucine rich repeat proteins)는 피브릴 조직 및 안정성을 조절하기 때문에, SLRP 고갈은 COL 네트워크 안정성을 방해하고 대장암에서 COL 저하를 가속화하여 ECM 기능 장애를 유발한다. 다음으로 대장암 미세 환경에서 간질 중심 리모델링을 확인하기 위해 매트리솜 단백질의 세포 기원을 평가하였다. 이를 위해 대장암 조직의 공개 단일 세포 RNA 시퀀싱(scRNA-Seq) 데이터를 재분석하여 매트리솜 단백질의 세포 기원을 조사하였다. 개별 DEP는 DEP를 암호화하는 유전자가 특정 세포 하위 유형에서 유의미하게 차별적으로 발현될 때 "특정 세포 유래"로 간주되었다(p < 0.01로 조정됨). 정상 유래 섬유아세포, 종양 유래 섬유아세포, 기타 간질 세포, 상피 세포, 골수 세포, 비만 세포, 및 T 세포를 포함한 7가지 세포 아형 내에서 가장 현저하게 발현된 아형을 기반으로 138개의 DEP의 세포 기원을 지정하여 분석한 결과, 138개의 DEP 중 99개의 매트리솜 단백질이 특정 세포 유래 단백질로 간주되었다(도 14). 정상 강화 및 종양 강화 DEP 중에서 각각 47개 및 19개의 매트리솜 단백질이 섬유아세포 유래였고, 이에 비해 LAMA3(Laminin Subunit Alpha 3), LAMB3(Laminin Subunit Beta 3), LAMC2(Laminin Subunit Gamma 2), SLPI(Secretory Leukocyte Peptidase Inhibitor), SEMA3B(Semaphorin 3B), MUC5B(Mucin 5B), 및 PLXNB2(Plexin B2)의 7개의 단백질만이 상피 세포에서 파생되었다. 단백질 수준이 유전자 전사 수준과 일관되게 상관되지는 않았지만, 대부분의 종양 농축 DEP는 종양 조직 유래 섬유아세포에 해당하여 암 관련 섬유아세포(CAF)가 TME에서 ECM 리모델링의 주요 결정 요인이라는 개념을 뒷받침하였다. 따라서 이후에는 대장암에서 ECM 중심 미세 환경 리모델링에 대한 포괄적인 이해를 달성하기 위해 종양 ECM과 관련된 섬유아세포의 분자적 특징을 더 연구하였다.
정상 관련 및 종양 관련 매트리솜 단백질 식별을 위한 통합 오믹스 분석
대장암에서 ECM 리모델링에 대한 섬유아세포의 기능적 기여도를 탐색하기 위해 공개된 scRNA-Seq 데이터 세트를 기반으로 3,462개의 섬유아세포를 재분석하였다. 정상 및 종양 메타 클러스터를 각각 정상 유래 및 종양 조직 유래 섬유 아세포로 정의하였고, 각 메타 클러스터에서 차별적으로 발현되는 유전자(정상 조직의 45 개 유전자 및 종양 조직의 33 개 유전자)를 확인하고, 프로테오믹스 데이터 세트를 사용하여 단백질 수준에서 이러한 분자를 분석하였다(도 15). 그 결과, 종양에서 상향 조절된 45개의 매트리솜 유전자에 의해 암호화된 단백질 중에서 18개는 종양 조직 유래 매트리솜 마커가 풍부하였고, 정상 조직에서 상향 조절된 33개의 매트리솜 유전자에 의해 암호화된 단백질 중 20개는 정상 조직 유래 매트리솜 마커가 풍부하였다. 이는 18개의 종양 관련 매트리솜(TAM) 단백질과 20개의 정상 관련 매트리솜(NAM) 단백질을 대장암의 ECM 마커로 정의할 수 있음을 나타낸다(도 16). 프로테오믹스 데이터에서 정량화할 수 있는 38개의 매트리솜 단백질 중 SPARCL1(SPARC-like protein-1)을 제외한 대부분의 NAM은 정상 조직에서 상향 조절되었다. 대조적으로, TAM 단백질은 종양 시료에서 불균일한 상향조절된 발현을 나타내었다. scRNA-Seq 데이터의 도트 플롯 분석은 대부분의 TAM 및 NAM 단백질이 각각 종양 유래 및 정상 유래 섬유아세포와 연관되어 있음을 보여주었다. 특히, SPARCL1은 단백질 수준에서 환자 특이적 발현을 나타내었고, 다른 간질 세포에서는 전사 수준에서 풍부한 발현을 나타내었지만, 정상 유래 섬유아세포에서는 그렇지 않았다. 이 결과는 SPARCL1이 인간 대장암 조직의 내피 세포에 의해 우선적으로 발현된다는 이전 연구 결과와 일치한다. TAM 단백질 중 COL12A1(Collagen Type XII Alpha 1 Chain), CTHRC1(Collagen Triple Helix Repeat Containing 1), THBS2(Thrombospondin 2), MMP14(Matrix metalloproteinase-14) 및 PLOD2(Procollagen-Lysine,2-Oxoglutarate 5-Dioxygenase 2)는 종양 유래 섬유아세포 특이 단백질이었다. 종양 유래 섬유아세포의 70% 이상이 다른 간질 세포와 비교하여 유전자 전사의 상향 조절을 나타냈으며, 이는 대장암 조직의 TAM 단백질이 주로 CAF에 의해 생성됨을 나타낸다. TAM과 NAM 중에서 조직 위치 확인을 위해 COL12A1(Collagen Type XII Alpha 1 Chain), THBS2(Thrombospondin 2), HAPLN1(Hyaluronan And Proteoglycan Link Protein 1)의 세 가지 단백질을 선택하였다. scRNA-Seq 데이터는 이러한 단백질이 주로 섬유아세포에 의해 발현됨을 나타낸다. 면역조직화학 염색 결과는 프로테오믹스 분석과 유사한 결과를 보여주었다(도 17). 정상 점막은 COL12A1 및 THBS2의 약한 염색을 나타내었고, 반대로 종양 조직은 이들 단백질의 강한 염색을 나타내었으나, 염색은 거의 독점적으로 간질 세포에 국한되었다. 또한 HAPLN1 염색은 정상점막의 기질에서만 관찰되었으며, 대부분의 상피세포에서는 HAPLN1 염색이 나타나지 않았다. HAPLN1은 다른 ECM 단백질을 안정화하여 ECM 무결성을 유지하는 ECM 단백질이다. 사이 결과는 HAPLN1이 대장암에서 감소된 단백질 발현을 보인다는 이전 보고서와 일치하는데, 이는 아마도 대장암에서 HAPLN1의 손실이 섬유아세포 개조(예: HAPLN1 발현 정상 섬유아세포의 손실)로 인한 결과이기 때문일 것으로 보인다. 따라서 본 연구는 섬유아세포의 전사체적(transcriptomic) 특징이 종양성 ECM 미세 환경의 구성 리모델링을 반영한다는 것을 시사한다.
CMS4-특이적 정상/종양 관련 매트리솜 마커 및 임상적 관련성
최근 대장암에서 ECM 미세 환경의 중요성을 강조하기 위한 전사 프로파일 기반 분자 아형(CMS) 분류법이 개발되었다. CMS는 4개의 대장암 하위 유형을 설명하며, 그 중 중간엽 하위 유형인 CMS4 그룹은 광범위한 간질 침윤(대부분 활성화된 섬유아세포) 및 ECM 구성을 특징으로 하므로, CMS 분류 중 가장 난치성이고 예후가 나쁘다. 최근 연구에 따르면 대장암의 CAF는 뚜렷한 섬유아세포 집단으로 구성되어 있으며, 다른 하위 유형과 비교하여 CMS4 하위 유형이 상당히 풍부하다. 따라서 근섬유아세포가 풍부한 CMS4 하위 유형과 다른 하위 유형 간의 ECM 기능을 비교하였다. The Cancer Genome Atlas (TCGA)-Colon Adenocarcinoma (COAD)/Rectal Adenocarcinoma (READ) 발현 데이터 세트로 단일 시료 유전자 집합 농축 분석(ssGSEA)을 수행하여 TAM 및 NAM의 발현 패턴을 계산한 결과, TAM ssGSEA 점수는 기질이 풍부한 분자 하위 유형(CMS4)에서 다른 세포 유형보다 유의하게 더 높았다. NAM 점수는 종양 조직보다 정상 조직에서 더 높았으며 점수는 종양 조직 유형에 따라 다양하게 나타났다(도 18). 특히, NAM의 수준은 다른 하위 유형보다 CMS4 하위 유형에서 더 높았지만 NAM의 전사 수준은 정상 조직보다 CMS4 하위 유형에서 약간 낮았다. 전반적으로, CMS4의 섬유아세포는 대부분의 ECM 유전자의 증가된 전사 수준을 나타내었으며, 이는 ECM 구성 및 간질 침윤의 분자적 특징과 일치한다.
CMS4 관련 매트리솜 기능을 추가로 특성화하기 위해 ssGSEA에 사용되는 TCGA 데이터 세트로 GSEA를 수행한 결과, 38개의 매트리솜 마커의 유전자 세트를 기반으로 한 GSEA는 다른 하위 유형과 비교하여 CMS4 시료에서 유전자의 상당한 농축을 보여주었다(도 19). 38개의 매트리솜 유전자 중 29개가 CMS4에서 상당히 상향조절 되었으며, 이는 16개의 TAM과 13개의 NAM을 포함한다. 이는 CMS4 진단을 위하여 종양에서 상향 조절되는 유전자뿐 아니라 정상에서 상향 조절되는 유전자를 함께 확인해야 함을 의미한다. 또한 이러한 마커가 상피 중간엽 전이(EMT) 또는 섬유모세포의 TGFβ 반응(즉, CMS4의 주요 특성)과 상관관계가 있는지 확인하기 위해 EMT(MSigDB Hallmark M5930) 및 TGFβ와 관련된 마커 및 유전자 세트를 사용하여 ssGSEA를 수행하였다. 그 결과, 29개의 CMS4가 풍부한 마커의 ssGSEA 점수, EMT 점수 및 TGFβ 반응 점수의 산포도는 다른 하위 유형과 비교하여 마커와 EMT 또는 CMS4의 TGFβ 반응 사이에 더 강한 상관 관계를 보여주었다(도 20). 섬유모세포의 EMT 및 TGFβ 반응은 치사율과 연관되기 때문에 CMS4에서 풍부한 마커는 임상적으로 관련이 있을 수 있다. 임상적 의미에 따라 분자 마커를 정제하기 위해 각 마커에 대한 생존 분석을 수행한 결과, 29 개의 CMS4 특이적 매트리솜 유전자 중 10 개가 무진행생존율(PFS)과 관련이 있는 것으로 나타났다(도 21). 10개 유전자 시그니처는 또한 전체 생존 및 PFS 감소와 함께 불량한 예후를 예측하였다. 마찬가지로 CMS 분류기를 사용하여 CMS4 확률을 계산하면 전체 생존율과 PFS가 감소하여 예후가 좋지 않을 것으로 예측된다. 또한, 10개 유전자의 발현 수준과 CMS4 확률 사이에는 유의한 상관관계가 있는 것으로 나타났다(도 22). 10개 유전자의 정규화된 발현 점수가 0.7 미만인 경우 시료를 CMS4 하위 유형으로 간주하면, 10개의 유전자 중 SPARCL1과 TIMP1을 제외한 8개는 섬유아세포에서 우세한 발현을 보였고 CMS4에서는 고도로 농축되었다(도 23). 따라서, 10개의 임상적으로 중요한 CMS4-특이적 매트리솜 유전자는 TME에서 섬유모세포 집단을 추론하고 CMS4와 다른 아형을 구별하기 위해 사용될 수 있다. 상기 결과는 10개의 ECM 유전자의 활성화 패턴이 특히 CMS4 아형에서 대장암의 간질에 필수적이라는 것을 나타낸다. 이러한 유전자는 불량한 예후와 강하게 연관된 CMS4-특이적 ECM 구성 요소를 식별하는 데 사용될 수 있다.
이상으로 본 발명의 특정한 부분을 상세히 기술하였는 바, 당업계의 통상의 지식을 가진 자에게 있어서 이러한 구체적인 기술은 단지 바람직한 구현예일 뿐이며, 이에 본 발명의 범위가 제한되는 것이 아닌 점은 명백하다. 따라서, 본 발명의 실질적인 범위는 첨부된 청구항과 그의 등가물에 의하여 정의된다고 할 것이다.
본 발명은 가장 치료가 어렵고 예후가 나쁜 유형의 대장암을 높은 정확도로 진단하는데 현저한 효과가 있으므로, 의료 및 보건 분야에서 크게 이용될 것으로 기대된다.

Claims (19)

  1. COL14A1(Collagen Type XIV Alpha 1 Chain), DPT(Dermatopontin), MFAP5(Microfibril Associated Protein 5), MATN2(Matrilin-2), SRPX(Sushi Repeat Containing Protein X-Linked), MFAP4(Microfibril Associated Protein 4), MGP(Matrix Gla Protein), TNXB(tenascin XB protein), EDIL3(EGF Like Repeats And Discoidin Domains 3), LTBP4(latent transforming growth factor beta binding protein 4), SPARCL1(SPARC Like 1), OGN(Osteoglycin), HAPLN1(Hyaluronan And Proteoglycan Link Protein 1), DCN(Decorin), ADAMDEC1(ADAM like decysin 1), A2M(Alpha-2-Macroglobulin), CTSC(Cathepsin C), CST3(cystatin c), CXCL12(C-X-C motif chemokine 12), 및 S100A4(S100 Calcium Binding Protein A4)로 구성된 그룹으로부터 선택되는 1종 이상의 단백질; 또는 이를 코딩하는 유전자의 발현 수준을 측정할 수 있는 제제를 포함하는 대장암의 진단용 조성물.
  2. 제 1항에 있어서,
    상기 조성물은 COL12A1(Collagen type XII α1 chain), COL11A1(Collagen Type XI Alpha 1 Chain), CTHRC1(Collagen Triple Helix Repeat Containing 1), FN1(Fibronectin 1), TNC(Tenascin C), SPARC(Secreted Protein Acidic And Cysteine Rich), THBS2(Thrombospondin 2), TIMP1(TIMP Metallopeptidase Inhibitor 1), MMP14(Matrix Metallopeptidase 14), PLOD2(Procollagen-Lysine,2-Oxoglutarate 5-Dioxygenase 2), SERPINH1(Serpin peptidase inhibitor clade H, member 1), LOXL2(Lysyl Oxidase Like 2), MMP11(Matrix Metallopeptidase 11), MMP1(Matrix Metallopeptidase 1), CTSB(Cathepsin B), MMP3(Matrix Metallopeptidase 3), LGALS1(Galectin 1), 및 SFRP4(Secreted Frizzled Related Protein 4)로 구성된 그룹으로부터 선택되는 1종 이상의 단백질; 또는 이를 코딩하는 유전자의 발현 수준을 측정할 수 있는 제제를 추가로 포함하는 것인, 조성물.
  3. 제 1항에 있어서,
    상기 대장암은 CMS4(consensus molecular subtype 4) 유형의 대장암인 것인, 조성물.
  4. 제 1항에 있어서,
    상기 단백질 또는 유전자의 발현 수준은 탈세포된 조직에서 측정되는 것인, 조성물.
  5. 제 4항에 있어서,
    상기 단백질 또는 유전자의 발현 수준은 탈세포된 세포외기질(extracellular matrix)에서 측정되는 것인, 조성물.
  6. 제 1항 내지 제 5항 중 어느 한 항의 진단용 조성물을 포함하는 대장암 진단용 키트.
  7. 제 6항에 있어서,
    상기 대장암은 CMS4(consensus molecular subtype 4) 유형의 대장암인 것인, 키트.
  8. 목적하는 개체로부터 분리된 생물학적 시료에서 COL14A1(Collagen Type XIV Alpha 1 Chain), DPT(Dermatopontin), MFAP5(Microfibril Associated Protein 5), MATN2(Matrilin-2), SRPX(Sushi Repeat Containing Protein X-Linked), MFAP4(Microfibril Associated Protein 4), MGP(Matrix Gla Protein), TNXB(tenascin XB protein), EDIL3(EGF Like Repeats And Discoidin Domains 3), LTBP4(latent transforming growth factor beta binding protein 4), SPARCL1(SPARC Like 1), OGN(Osteoglycin), HAPLN1(Hyaluronan And Proteoglycan Link Protein 1), DCN(Decorin), ADAMDEC1(ADAM like decysin 1), A2M(Alpha-2-Macroglobulin), CTSC(Cathepsin C), CST3(cystatin c), CXCL12(C-X-C motif chemokine 12), 및 S100A4(S100 Calcium Binding Protein A4)로 구성된 그룹으로부터 선택되는 1종 이상의 단백질; 또는 이를 코딩하는 유전자의 발현 수준을 측정하는 단계를 포함하는 대장암의 진단 방법.
  9. 제 8항에 있어서,
    상기 방법은 COL12A1(Collagen type XII α1 chain), COL11A1(Collagen Type XI Alpha 1 Chain), CTHRC1(Collagen Triple Helix Repeat Containing 1), FN1(Fibronectin 1), TNC(Tenascin C), SPARC(Secreted Protein Acidic And Cysteine Rich), THBS2(Thrombospondin 2), TIMP1(TIMP Metallopeptidase Inhibitor 1), MMP14(Matrix Metallopeptidase 14), PLOD2(Procollagen-Lysine,2-Oxoglutarate 5-Dioxygenase 2), SERPINH1(Serpin peptidase inhibitor clade H, member 1), LOXL2(Lysyl Oxidase Like 2), MMP11(Matrix Metallopeptidase 11), MMP1(Matrix Metallopeptidase 1), CTSB(Cathepsin B), MMP3(Matrix Metallopeptidase 3), LGALS1(Galectin 1), 및 SFRP4(Secreted Frizzled Related Protein 4)로 구성된 그룹으로부터 선택되는 1종 이상의 단백질; 또는 이를 코딩하는 유전자의 발현 수준을 측정하는 단계를 추가로 포함하는 것인, 방법.
  10. 제 8항에 있어서,
    상기 대장암은 CMS4(consensus molecular subtype 4) 유형의 대장암인 것인, 방법.
  11. 제 8항에 있어서,
    상기 단백질 또는 유전자의 발현 수준은 탈세포된 조직에서 측정하는 것인, 방법.
  12. 제 11항에 있어서,
    상기 단백질 또는 유전자의 발현 수준은 탈세포된 세포외기질(extracellular matrix)에서 측정하는 것인, 방법.
  13. (a) 목적하는 개체로부터 분리된 생물학적 시료에 대장암 치료용 후보물질을 처리하는 단계; 및
    (b) 상기 후보 물질이 처리된 생물학적 시료에서 COL14A1(Collagen Type XIV Alpha 1 Chain), DPT(Dermatopontin), MFAP5(Microfibril Associated Protein 5), MATN2(Matrilin-2), SRPX(Sushi Repeat Containing Protein X-Linked), MFAP4(Microfibril Associated Protein 4), MGP(Matrix Gla Protein), TNXB(tenascin XB protein), EDIL3(EGF Like Repeats And Discoidin Domains 3), LTBP4(latent transforming growth factor beta binding protein 4), SPARCL1(SPARC Like 1), OGN(Osteoglycin), HAPLN1(Hyaluronan And Proteoglycan Link Protein 1), DCN(Decorin), ADAMDEC1(ADAM like decysin 1), A2M(Alpha-2-Macroglobulin), CTSC(Cathepsin C), CST3(cystatin c), CXCL12(C-X-C motif chemokine 12), 및 S100A4(S100 Calcium Binding Protein A4)로 구성된 그룹으로부터 선택되는 1종 이상의 단백질; 또는 이를 코딩하는 유전자의 발현 수준을 측정하는 단계를 포함하는, 대장암 치료용 약물의 스크리닝 방법.
  14. 제 13항에 있어서,
    상기 스크리닝 방법은,
    측정된 단백질 또는 유전자의 발현 수준이 상기 후보물질의 처리 전에 비하여 증가된 경우, 상기 후보물질을 대장암 치료제로 판별하는 것인, 방법.
  15. 제 13항에 있어서,
    상기 방법은,
    (c) COL12A1(Collagen type XII α1 chain), COL11A1(Collagen Type XI Alpha 1 Chain), CTHRC1(Collagen Triple Helix Repeat Containing 1), FN1(Fibronectin 1), TNC(Tenascin C), SPARC(Secreted Protein Acidic And Cysteine Rich), THBS2(Thrombospondin 2), TIMP1(TIMP Metallopeptidase Inhibitor 1), MMP14(Matrix Metallopeptidase 14), PLOD2(Procollagen-Lysine,2-Oxoglutarate 5-Dioxygenase 2), SERPINH1(Serpin peptidase inhibitor clade H, member 1), LOXL2(Lysyl Oxidase Like 2), MMP11(Matrix Metallopeptidase 11), MMP1(Matrix Metallopeptidase 1), CTSB(Cathepsin B), MMP3(Matrix Metallopeptidase 3), LGALS1(Galectin 1), 및 SFRP4(Secreted Frizzled Related Protein 4)로 구성된 그룹으로부터 선택되는 1종 이상의 단백질; 또는 이를 코딩하는 유전자의 발현 수준을 측정하는 단계를 추가로 포함하는 것인, 방법.
  16. 제 15항에 있어서,
    상기 스크리닝 방법은,
    측정된 단백질 또는 유전자의 발현 수준이 상기 후보물질의 처리 전에 비하여 감소된 경우, 상기 후보물질을 대장암 치료제로 판별하는 것인, 방법.
  17. 제 13항에 있어서,
    상기 대장암은 CMS4(consensus molecular subtype 4) 유형의 대장암인 것인, 방법.
  18. 제 13항에 있어서,
    상기 생물학적 시료는 탈세포된 조직인 것인, 방법.
  19. 제 18항에 있어서,
    상기 생물학적 시료는 탈세포된 세포외기질(extracellular matrix)인 것인, 방법.
PCT/KR2024/001871 2023-02-10 2024-02-08 대장암 진단용 바이오마커, 및 이를 이용한 진단 방법 WO2024167329A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2023-0017914 2023-02-10
KR1020230017914A KR20240125190A (ko) 2023-02-10 2023-02-10 대장암 진단용 바이오마커, 및 이를 이용한 진단 방법

Publications (1)

Publication Number Publication Date
WO2024167329A1 true WO2024167329A1 (ko) 2024-08-15

Family

ID=92262987

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2024/001871 WO2024167329A1 (ko) 2023-02-10 2024-02-08 대장암 진단용 바이오마커, 및 이를 이용한 진단 방법

Country Status (2)

Country Link
KR (1) KR20240125190A (ko)
WO (1) WO2024167329A1 (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200075860A (ko) * 2017-11-06 2020-06-26 제넨테크, 인크. 암의 진단 및 치료 방법
KR20200080309A (ko) * 2017-11-09 2020-07-06 고쿠리츠 다이가쿠호우징 도쿄이카시카다이가쿠 암 촉진 인자 발현 억제제, 그 유효 성분의 스크리닝 방법, 그 방법에 유용한 발현 카세트, 진단약, 및 진단 방법
WO2021046466A1 (en) * 2019-09-05 2021-03-11 Avail Bio, Inc. Methods, compositions, and systems for profiling or predicting an immune response
KR20210107492A (ko) * 2020-02-24 2021-09-01 (재)록원바이오융합연구재단 복제수 변이 검출용 표준화 유전자의 선별 방법 및 상기 방법에 의해서 선별된 c-Met 복제수 변이 검출용 조성물
US11198911B2 (en) * 2018-03-08 2021-12-14 University Of Notre Dame Du Lac Systems and methods for assessing colorectal cancer molecular subtype and risk of recurrence and for determining and administering treatment protocols based thereon
WO2022204438A1 (en) * 2021-03-25 2022-09-29 Oncxerna Therapeutics, Inc. Targeted therapies in cancer

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200075860A (ko) * 2017-11-06 2020-06-26 제넨테크, 인크. 암의 진단 및 치료 방법
KR20200080309A (ko) * 2017-11-09 2020-07-06 고쿠리츠 다이가쿠호우징 도쿄이카시카다이가쿠 암 촉진 인자 발현 억제제, 그 유효 성분의 스크리닝 방법, 그 방법에 유용한 발현 카세트, 진단약, 및 진단 방법
US11198911B2 (en) * 2018-03-08 2021-12-14 University Of Notre Dame Du Lac Systems and methods for assessing colorectal cancer molecular subtype and risk of recurrence and for determining and administering treatment protocols based thereon
WO2021046466A1 (en) * 2019-09-05 2021-03-11 Avail Bio, Inc. Methods, compositions, and systems for profiling or predicting an immune response
KR20210107492A (ko) * 2020-02-24 2021-09-01 (재)록원바이오융합연구재단 복제수 변이 검출용 표준화 유전자의 선별 방법 및 상기 방법에 의해서 선별된 c-Met 복제수 변이 검출용 조성물
WO2022204438A1 (en) * 2021-03-25 2022-09-29 Oncxerna Therapeutics, Inc. Targeted therapies in cancer

Also Published As

Publication number Publication date
KR20240125190A (ko) 2024-08-19

Similar Documents

Publication Publication Date Title
Hsia et al. Myofibroblasts are distinguished from activated skin fibroblasts by the expression of AOC3 and other associated markers
US20090258848A1 (en) Biomarkers for inflammatory bowel disease
Linton et al. Acquisition of biologically relevant gene expression data by Affymetrix microarray analysis of archival formalin-fixed paraffin-embedded tumours
JP2011526693A (ja) 転移に関連する徴候および決定因子、ならびにそれらの使用方法
US20220325359A1 (en) Non-coding rna for detection of cancer
US20140121127A1 (en) Methods and Compositions for Diagnosis of Ovarian Cancer
US11041212B2 (en) ABCA1 downregulation in prostate cancer
Grau et al. A quantitative proteomic analysis uncovers the relevance of CUL3 in bladder cancer aggressiveness
Ang et al. The discovery and validation of colorectal cancer biomarkers
WO2021086014A1 (ko) 폐암 환자의 면역치료 반응성 예측용 cxcl13 마커 및 이의 용도
Sanchez-Carbayo Recent advances in bladder cancer diagnostics
US20110009284A1 (en) Gene relating to estimation of postoperative prognosis for breast cancer
Westbury et al. Genome‐wide transcriptomic profiling of microdissected human breast tissue reveals differential expression of KIT (c‐Kit, CD117) and oestrogen receptor‐α (ERα) in response to therapeutic radiation
Safaei et al. Breast cancer biomarker discovery: Proteomics and genomics approaches
AU2019276749A1 (en) L1TD1 as predictive biomarker of colon cancer
US20220326241A1 (en) Proteogenomic methods for diagnosing cancer
WO2024167329A1 (ko) 대장암 진단용 바이오마커, 및 이를 이용한 진단 방법
Kibar et al. Prognostic value of cytology, nuclear matrix protein 22 (NMP22) test, and urinary bladder cancer II (UBC II) test in early recurrent transitional cell carcinoma of the bladder
KR101995189B1 (ko) 비침습적 체외진단을 위한 간암 진단용 바이오마커 조성물 및 이를 포함하는 키트
WO2016178236A1 (en) Methods and kits for breast cancer prognosis
WO2010085124A2 (ko) 간암진단과 재발 및 생존 예측용 마커, 이를 포함한 키트 및 상기 마커를 이용한 간암환자 예후 예측
KR20240126130A (ko) 대장암 예후 예측용 바이오마커, 및 이를 이용한 예후 예측 방법
KR20210144365A (ko) 대장암 환자의 연령 특이적 바이오마커 및 이의 용도
US20230288424A1 (en) Biomarkers for identifying mpmri visable tumours and assessing tumour aggressiveness of prostate cancer
US20240344133A1 (en) A method of predicting risk of an aggressive or recurrent cancer

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 24753650

Country of ref document: EP

Kind code of ref document: A1