WO2023008673A1 - 머신러닝 기반 비알코올성 지방간염 판별용 복합 마커 및 이의 용도 - Google Patents

머신러닝 기반 비알코올성 지방간염 판별용 복합 마커 및 이의 용도 Download PDF

Info

Publication number
WO2023008673A1
WO2023008673A1 PCT/KR2022/002773 KR2022002773W WO2023008673A1 WO 2023008673 A1 WO2023008673 A1 WO 2023008673A1 KR 2022002773 W KR2022002773 W KR 2022002773W WO 2023008673 A1 WO2023008673 A1 WO 2023008673A1
Authority
WO
WIPO (PCT)
Prior art keywords
capg
liver disease
expression level
genes
chronic liver
Prior art date
Application number
PCT/KR2022/002773
Other languages
English (en)
French (fr)
Inventor
유경현
박종훈
오수민
성노현
이연수
이용선
한상영
백양현
Original Assignee
숙명여자대학교산학협력단
서울대학교 산학협력단
국립암센터
의료법인 온그룹의료재단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 숙명여자대학교산학협력단, 서울대학교 산학협력단, 국립암센터, 의료법인 온그룹의료재단 filed Critical 숙명여자대학교산학협력단
Publication of WO2023008673A1 publication Critical patent/WO2023008673A1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6893Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids related to diseases not provided for elsewhere
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/08Hepato-biliairy disorders other than hepatitis
    • G01N2800/085Liver diseases, e.g. portal hypertension, fibrosis, cirrhosis, bilirubin

Definitions

  • the present invention relates to a biomarker composition for diagnosing chronic liver disease.
  • Fatty liver or steatosis refers to a state in which fat is accumulated in liver cells, and a normal liver accounts for about 5% of fat, and a state in which more fat is accumulated is called fatty liver.
  • fatty liver gets worse and fat lumps in liver cells grow, important components of cells, including the nucleus, are pushed to one side and the function of liver cells deteriorates. This causes disturbances in blood and lymphatic circulation in the liver. In this case, liver cells cannot receive oxygen and nutrients properly, and liver function deteriorates.
  • Non-alcoholic fatty liver disease is the most common chronic liver disease and refers to a condition in which fat accumulates in hepatocytes without excessive alcohol consumption.
  • Non-alcoholic fatty liver disease is rapidly increasing in prevalence not only in the West but also in Korea with the increase in the prevalence of obesity, and is closely related to type 2 diabetes, obesity, and metabolic syndrome.
  • nonalcoholic steatohepatitis NASH
  • end-stage liver disease such as cirrhosis or liver cancer
  • interest in a technique for predicting the prognosis from fatty liver disease to non-alcoholic steatohepatitis is very high.
  • pathogenesis of non-alcoholic steatohepatitis has not yet been fully identified, it has recently been reported that various factors such as fat deposition, inflammatory response, and genetic factors are related to each other.
  • Nonalcoholic fatty liver disease includes diet therapy and exercise therapy, and drug therapy includes vitamin E, insulin sensitizer, ursodeoxycholic acid (UCDA), and statins. It is becoming. However, the effect of the drug has not been medically proven, and there is no approved drug for non-alcoholic fatty liver disease to date. In addition, although symptoms should be improved through diet and exercise therapy, there are many cases in which patients fail to practice them. Therefore, there is a need for research on the development of biomarkers that can accurately diagnose non-alcoholic steatohepatitis in fatty liver disease.
  • UCDA ursodeoxycholic acid
  • An object of the present invention is to provide a biomarker composition for diagnosing chronic liver disease.
  • Another object of the present invention is to provide a composition for diagnosing chronic liver disease.
  • Another object of the present invention is to provide a kit for diagnosing chronic liver disease.
  • Another object of the present invention is to provide an information providing method for diagnosing chronic liver disease.
  • the present invention provides a biomarker composition for diagnosing chronic liver disease comprising at least one protein selected from the group consisting of CAPG, HYAL3, WIPI1, TREM2, SPP1, and RNASE6 or a gene encoding the same as an active ingredient.
  • the present invention is for diagnosing chronic liver disease comprising, as an active ingredient, an agent capable of measuring the expression level of any one or more proteins selected from the group consisting of CAPG, HYAL3, WIPI1, TREM2, SPP1, and RNASE6 or genes encoding them. composition is provided.
  • the present invention provides a kit for diagnosing chronic liver disease comprising the biomarker composition.
  • the present invention (a) the expression level of any one or more proteins selected from the group consisting of CAPG, HYAL3, WIPI1, TREM2, SPP1, and RNASE6 from samples isolated from patients with chronic liver disease or mRNA expression levels of genes encoding them measuring; (b) comparing the expression level of the protein or the mRNA expression level of the gene encoding the same with a control sample; and (c) if the expression level of the protein or the mRNA expression level of the gene encoding the same is higher than that of the control sample, determining that the possibility of being diagnosed with chronic liver disease is high.
  • genes selected through a DEG (differentially expressed gene) technique and feature set ), CAPG, HYAL3, WIPI1, TREM2, SPP1, and RNASE6 gene sets with high accuracy were selected, and fatty liver and non-alcoholic fat were selected from the patient group-based data clinical model.
  • the gene set consisting of CAPG, HYAL3, WIPI1, TREM2, SPP1, and RNASE6 can be provided as a biomarker for the diagnosis of chronic liver disease and non-alcoholic steatohepatitis.
  • 1 is a result of selecting a gene showing a difference in expression in steatosis and non-alcoholic steatohepatitis (NASH) as a differentially expressed gene (DEG).
  • NASH non-alcoholic steatohepatitis
  • Figure 2 shows the results of selecting genes showing differences in expression in steatosis and non-alcoholic steatohepatitis (NASH) by feature elimination, which is a machine learning technique.
  • NASH non-alcoholic steatohepatitis
  • Figure 3 is a DEG (differentially expressed gene) representing the difference in expression in fatty liver (steatosis) and non-alcoholic steatohepatitis (non-alcoholic steatohepatitis (NASH)) and 64 feature genes crossed by feature sets (feature set) genes) is the result of selection.
  • DEG differentially expressed gene
  • 5 is a result of selecting a gene set having a high accuracy value among the selected 64 feature genes.
  • the present invention provides a biomarker composition for diagnosing chronic liver disease comprising at least one protein selected from the group consisting of CAPG, HYAL3, WIPI1, TREM2, SPP1, and RNASE6 or a gene encoding the same as an active ingredient.
  • the present invention is for diagnosing chronic liver disease comprising, as an active ingredient, an agent capable of measuring the expression level of any one or more proteins selected from the group consisting of CAPG, HYAL3, WIPI1, TREM2, SPP1, and RNASE6 or genes encoding them. composition is provided.
  • the agent capable of measuring the expression level of the protein is an antibody, peptide, aptamer or compound that specifically binds to the protein, and the agent capable of measuring the expression level of the gene is a primer or probe that specifically binds to the gene. It may be, but is not limited thereto.
  • the chronic liver disease may be fatty liver or non-alcoholic steatohepatitis, but is not limited thereto.
  • the non-alcoholic steatohepatitis may be F3 and F4 stages.
  • primer is a nucleic acid sequence having a short free 3'-hydroxyl group, capable of forming base pairs with a complementary template, and serving as a starting point for template strand copying.
  • a short sequence of nucleic acids that acts The primer can initiate DNA synthesis in the presence of a reagent for polymerization (ie, DNA polymerase or reverse transcriptase) and four different nucleoside triphosphates in an appropriate buffer and temperature.
  • a reagent for polymerization ie, DNA polymerase or reverse transcriptase
  • PCR conditions and lengths of sense and antisense primers can be appropriately selected according to techniques known in the art.
  • the term "probe” refers to a nucleic acid fragment such as RNA or DNA corresponding to a few bases to several hundred bases in length that can specifically bind to mRNA, and is labeled to determine the presence or absence of a specific mRNA , the expression level can be confirmed.
  • the probe may be manufactured in the form of an oligonucleotide probe, a single strand DNA probe, a double strand DNA probe, an RNA probe, or the like. Selection of an appropriate probe and hybridization conditions can be appropriately selected according to techniques known in the art.
  • the term "antibody” is a term known in the art and refers to a specific immunoglobulin directed against an antigenic site.
  • the antibody in the present invention refers to an antibody that specifically binds to Gnpat of the present invention, and can be prepared according to a conventional method in the art.
  • the type of antibody includes polyclonal antibodies or monoclonal antibodies, and all immunoglobulin antibodies are included.
  • the antibody is meant in its complete form with two full-length light chains and two full-length heavy chains.
  • the antibody also includes special antibodies such as humanized antibodies.
  • peptide used in the present invention has the advantage of high binding force to a target substance, and does not undergo denaturation even during heat/chemical treatment.
  • peptide because of its small molecular size, it can be attached to other proteins and used as a fusion protein. Specifically, since it can be used by attaching it to a polymer protein chain, it can be used as a diagnostic kit and a drug delivery material.
  • aptamer is a special kind of single-stranded nucleic acid (DNA, RNA or modified nucleic acid) that has a stable tertiary structure and can bind to a target molecule with high affinity and specificity. It means a kind of composed polynucleotide. As described above, aptamers can specifically bind to antigenic substances in the same way as antibodies, but are more stable than proteins, have a simple structure, and are composed of polynucleotides that are easy to synthesize, so they can be used instead of antibodies. can
  • the present invention provides a kit for diagnosing chronic liver disease comprising the biomarker composition.
  • the kit of the present invention comprises an antibody that specifically binds to a biomarker component, a secondary antibody conjugate conjugated with a label that develops color by reaction with a substrate, a solution of a color-developing substrate to react with the label, a washing solution, and an enzyme. It may include a reaction stop solution and the like, and may be manufactured in a number of separate packaging or compartments containing reagent components to be used.
  • the present invention (a) the expression level of any one or more proteins selected from the group consisting of CAPG, HYAL3, WIPI1, TREM2, SPP1, and RNASE6 from samples isolated from patients with chronic liver disease or mRNA expression levels of genes encoding them measuring; (b) comparing the expression level of the protein or the mRNA expression level of the gene encoding the same with a control sample; and (c) if the expression level of the protein or the mRNA expression level of the gene encoding the same is higher than that of the control sample, determining that the diagnosis of chronic liver disease is high.
  • sample isolated from a patient refers to a sample such as tissue, cell, whole blood, serum, plasma, saliva, sputum, cerebrospinal fluid, or urine that is different from the control group in the expression level of the protein or gene. It may include, and more specifically, liver tissue or hepatocytes, but is not limited thereto.
  • the method of measuring the mRNA expression level is RT-PCR, competitive RT-PCR (Competitive RT-PCR), real-time RT-PCR (Real-time RT-PCR), RNase protection assay (RPA; RNase protection assay ), Northern blotting, and DNA chips, but are not limited thereto.
  • methods for measuring the protein expression level include Western blot, radioimmunoassay (RIA), radioimmunodiffusion, Ouchterlony immunodiffusion method, and rocket ) immunoelectrophoresis, tissue immunostaining, immunoprecipitation assay, complement fixation assay, FACS, protein chip, and ELISA assays, but are not limited thereto.
  • liver tissues were collected from 60 patients with steatosis and 73 patients with non-alcoholic steatohepatitis (NASH) through histological examination.
  • Total RNA was isolated using Trizol.
  • a sequencing library was constructed using Illumina's Truseq Stranded Total RNA LT Sample Prep Kit, and sequencing was performed using Novaseq 6000.
  • FASTQ files were obtained, quality of sequencing data was checked through Trim Galore, low-quality reads and adapter sequences were removed, and mapping to the human genome was performed using the STAR alignmnet tool.
  • the bam file with duplication removed was obtained using the Picard mark duplication tool, and the read count mapped to the transcript was extracted from this file.
  • the gene expression levels in fatty liver patients and non-alcoholic steatohepatitis patients were quantified through DESeq2, and genes with different expression levels were selected by comparing the differences.
  • a classification model was established using feature elimination among machine learning techniques, and a set of genes specific to NAFLD among the genes selected in Example 1 using quantified expression values of transcripts was selected.
  • a set of genes specific to NAFLD among the genes selected in Example 1 using quantified expression values of transcripts was selected.
  • genes less than 1 were removed in both the fatty liver patient group and the non-alcoholic steatohepatitis patient group.
  • features suitable for the classification model were selected through the process of repeatedly removing features that were not used in classification model learning.
  • the classification model was learned using the SVM model, and features with low correlation with the built model were removed.
  • a classification model was designed by repeating the above process until less than 1,500 features remained, and feature sets were selected. As a result, we set up one classification model and a set consisting of less than 1,500 features.
  • 20 classification models having different feature sets were constructed by repeating steps 1 to 4 above.
  • 16 models with an accuracy of 0.8 or more were selected through verification, and 203 feature genes commonly included in all 16 models were selected.
  • Example 3 Screening of biomarkers for diagnosis of non-alcoholic steatohepatitis
  • the 1,393 genes specifically selected in Example 1 and the 203 genes selected through the feature selection process in Example 2 were compared in the fatty liver patient group and the non-alcoholic steatohepatitis patient group.
  • 64 feature genes capable of distinguishing groups were selected (FIG. 3).
  • a linear regression model a statistical-based classification model, is used to select the most suitable gene set. selected.
  • the gene with the highest accuracy is selected, and the gene and the rest of the genes are matched one by one to combine the two genes into one.
  • the gene set was selected by applying it as a set to calculate accuracy, and selecting a set with the highest accuracy among them.
  • genes that were not repeatedly selected by the above method were added to the selected gene set to select genes most suitable for adding a characteristic gene set.
  • CAPG showed the highest accuracy value, followed by MCM6, AJUBA, and CLDN7.
  • gene sets with the highest precision were selected as shown in Table 2 below.
  • the CAPG, HYAL3, WIPI1, TREM2, SPP1, and RNASE6 gene sets were repeatedly selected as the highest gene sets as shown in Table 3 below, and it was confirmed that the highest accuracy value was 0.955.
  • the optimal gene set was selected as shown in Table 4 below, and it was confirmed that the accuracy value did not change.
  • the results show that the six gene sets of CAPG, HYAL3, WIPI1, TREM2, SPP1, and RNASE6 classify the non-alcoholic steatohepatitis patient group with the maximum efficiency with the minimum number of genes.
  • HYAL3, WIPI1, TREM2, SPP1, and RNASE6 are biomarkers suitable for classifying alcoholic steatohepatitis patient groups. sampling data and other patient groups were also confirmed to be effective. .
  • CAPG HYAL3 WIPI1 TREM2 SPP1 RNASE6 p-value (Steatosis vs NASH) 0.00146 0.000077 0.06500 0.00086 0.00096 0.05868

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physics & Mathematics (AREA)
  • Organic Chemistry (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • Wood Science & Technology (AREA)
  • Medical Informatics (AREA)
  • Urology & Nephrology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Hematology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Zoology (AREA)
  • Genetics & Genomics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • General Physics & Mathematics (AREA)
  • Food Science & Technology (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Cell Biology (AREA)
  • Evolutionary Computation (AREA)
  • Medicinal Chemistry (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)

Abstract

본 발명은 만성간질환 진단용 바이오마커 조성물에 관한 것으로, 지방간 환자와 비알콜성지방간염 환자 사이에서 발현의 차이를 나타내는 유전자들을 바이오마커로 선별하기 위해, DEG(differentially expressed gene) 기법을 통해 선별된 유전자들과 특징부 세트(feature set)로 선별된 유전자들을 추합하여 정밀도(accuracy)가 높은 CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6 유전자 세트를 선별하고, 환자군 기반의 데이터 임상모델에서 선별된 유전자 세트로 지방간 및 비알콜성지방간염을 높은 정확도로 구분할 수 있음을 확인함으로써, CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6으로 구성된 유전자 세트를 만성간질환 및 비알콜성지방간염의 진단을 위한 바이오마커로 제공된다.

Description

머신러닝 기반 비알코올성 지방간염 판별용 복합 마커 및 이의 용도
본 발명은 만성간질환 진단용 바이오마커 조성물에 관한 것이다.
지방간 또는 지방간증(steatosis)은 간세포 속에 지방이 축적된 상태를 말하며, 정상 간은 지방이 차지하는 비율이 5% 정도인데, 이보다 많은 지방이 축적된 상태를 지방간이라고 한다. 지방간이 악화되어 간세포 속의 지방 덩어리가 커지면 핵을 포함한 세포의 중요한 구성성분이 한 쪽으로 밀려나 간세포의 기능이 저하되고, 세포 내에 축적된 지방으로 인하여 팽창된 간세포들이 간세포 사이에 있는 미세혈관과 임파선을 압박하여 간 내의 혈액과 임파액 순환에 장애를 일으킨다. 이렇게 되면 간세포는 산소와 영양공급을 적절히 제공받을 수 없어 간기능이 저하된다.
비알코올성 지방간 질환(non-alcoholic fatty liver disease; NAFLD)은 만성 간질환 중에서 가장 흔한 질환으로 과도한 알코올 섭취 없이 간세포 내에 지방이 축적되는 상태를 의미한다. 비알코올성 지방간 질환은 비만 유병률의 증가와 더불어 서구뿐만 아니라 국내에서도 유병률이 급격하게 증가하고 있으며, 제2형 당뇨병, 비만 및 대사증후군과 밀접하게 연관되어 있다. 지역마다 다소 빈도의 차이는 있으나, 전 세계적으로 적게는 6.3%, 많게는 33%, 평균 약 20%의 환자가 발병된 것으로 보고되어져 있으며, 이중 일부 환자에서는 비알코올성 지방간염(nonalcoholic steatohepatitis; NASH)의 단계를 거쳐 간경변 또는 간암과 같은 말기 간질환으로 진행되는 것으로 밝혀져 지방간증에서 비알코올성 지방간염으로의 예후를 예측하는 기술에 대한 관심이 매우 높은 실정이다. 비알코올성 지방간염으로의 발병 기전은 아직까지 완전히 규명되지 않았지만, 최근 지방 침착, 염증 반응, 유전적 요인 등 다양한 요인들이 서로 연관되어 있는 것으로 보고되고 있다.
비알코올성 지방간 질환의 치료로는 식이요법 및 운동요법 등이 있으며, 약물 치료로는 비타민 E, 인슐린 감각제(insulin sensitizer), 우르소데옥시콜산(ursodeoxycholic acid; UCDA), 스타틴(statin) 등이 시도되고 있다. 그러나, 상기 약물의 효과는 의학적으로 확실히 증명된 것은 아니며, 현재까지 비알코올성 지방간 질환에 대한 공인된 약제는 없는 실정이다. 더불어, 식이요법 및 운동요법 등을 통하여 증상을 개선해야 하지만 환자가 이를 실천하지 못하는 경우가 많다. 따라서 지방간증에서 비알코올성 지방간염으로 정확히 진단할 수 있는 바이오마커의 개발에 대한 연구가 필요한 실정이다.
본 발명의 목적은 만성간질환 진단용 바이오마커 조성물을 제공하는 데에 있다.
본 발명의 다른 목적은 만성간질환 진단용 조성물을 제공하는 데에 있다.
본 발명의 또 다른 목적은 만성간질환 진단용 키트를 제공하는 데에 있다.
본 발명의 또 다른 목적은 만성간질환 진단을 위한 정보 제공 방법을 제공하는 것이다.
본 발명은 CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6으로 이루어진 군에서 선택된 어느 하나 이상의 단백질 또는 이를 코딩하는 유전자를 유효성분으로 포함하는 만성간질환 진단용 바이오마커 조성물을 제공한다.
또한, 본 발명은 CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6으로 이루어진 군에서 선택된 어느 하나 이상의 단백질 또는 이를 코딩하는 유전자의 발현 수준을 측정할 수 있는 제제를 유효성분으로 포함하는 만성간질환 진단용 조성물을 제공한다.
또한, 본 발명은 상기 바이오마커 조성물을 포함하는 만성간질환 진단용 키트를 제공한다.
또한, 본 발명은 (a) 만성간질환 환자에서 분리된 시료로부터 CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6으로 이루어진 군에서 선택된 어느 하나 이상의 단백질의 발현 수준 또는 이를 코딩하는 유전자의 mRNA 발현 수준을 측정하는 단계; (b) 상기 단백질의 발현 수준 또는 이를 코딩하는 유전자의 mRNA 발현 수준을 대조군 시료와 비교하는 단계; 및 (c) 상기 단백질의 발현 수준 또는 이를 코딩하는 유전자의 mRNA 발현 수준이 대조군 시료보다 높은 경우, 만성간질환으로 진단될 가능성이 높은 것으로 판단하는 단계를 포함하는 만성간질환 진단을 위한 정보 제공 방법을 제공한다.
본 발명에 따르면, 지방간 환자와 비알콜성지방간염 환자 사이에서 발현의 차이를 나타내는 유전자들을 바이오마커로 선별하기 위해, DEG(differentially expressed gene) 기법을 통해 선별된 유전자들과 특징부 세트(feature set)로 선별된 유전자들을 추합하여 정밀도(accuracy)가 높은 CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6 유전자 세트를 선별하고, 환자군 기반의 데이터 임상모델에서 선별된 유전자 세트로 지방간 및 비알콜성지방간염을 높은 정확도로 구분할 수 있음을 확인함으로써, CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6으로 구성된 유전자 세트를 만성간질환 및 비알콜성지방간염의 진단을 위한 바이오마커로 제공될 수 있다.
도 1은 지방간(steatosis) 및 비알콜성지방간염(non-alcoholic steatohepatitis, NASH)에서 발현의 차이를 나타내는 유전자를 DEG(differentially expressed gene)로 선별한 결과이다.
도 2는 지방간(steatosis) 및 비알콜성지방간염(non-alcoholic steatohepatitis, NASH)에서 발현의 차이를 나타내는 유전자를 머신러닝 기법인 특징제거(feature elimination) 기법으로 선별한 결과이다.
도 3은 지방간(steatosis) 및 비알콜성지방간염(non-alcoholic steatohepatitis, NASH)에서 발현의 차이를 나타내는 DEG(differentially expressed gene)와 특징부 세트(feature set)에 교차되는 64개의 특징유전자(feature genes)를 선별한 결과이다.
도 4는 상기 선별된 64개의 특징유전자(feature genes)들 중에서 정밀도(accuracy) 값이 높은 유전자들을 선별한 결과이다.
도 5는 상기 선별된 64개의 특징유전자(feature genes)들 중에서 정밀도(accuracy) 값이 높은 유전자 세트를 선별한 결과이다.
본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
수치 범위는 상기 범위에 정의된 수치를 포함한다. 본 명세서에 걸쳐 주어진 모든 최대의 수치 제한은 낮은 수치 제한이 명확히 쓰여 있는 것처럼 모든 더 낮은 수치 제한을 포함한다. 본 명세서에 걸쳐 주어진 모든 최소의 수치 제한은 더 높은 수치 제한이 명확히 쓰여 있는 것처럼 모든 더 높은 수치 제한을 포함한다. 본 명세서에 걸쳐 주어진 모든 수치 제한은 더 좁은 수치 제한이 명확히 쓰여 있는 것처럼, 더 넓은 수치 범위 내의 더 좋은 모든 수치 범위를 포함할 것이다.
이하, 본 발명을 보다 상세하게 설명한다.
본 발명은 CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6으로 이루어진 군에서 선택된 어느 하나 이상의 단백질 또는 이를 코딩하는 유전자를 유효성분으로 포함하는 만성간질환 진단용 바이오마커 조성물을 제공한다.
또한, 본 발명은 CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6으로 이루어진 군에서 선택된 어느 하나 이상의 단백질 또는 이를 코딩하는 유전자의 발현 수준을 측정할 수 있는 제제를 유효성분으로 포함하는 만성간질환 진단용 조성물을 제공한다.
상기 단백질의 발현 수준을 측정할 수 있는 제제는 단백질에 특이적으로 결합하는 항체, 펩타이드, 앱타머 또는 화합물, 상기 유전자의 발현 수준을 측정할 수 있는 제제는 유전자에 특이적으로 결합하는 프라이머 또는 프로브일 수 있으나, 이에 제한되는 것은 아니다.
상기 만성간질환은 지방간 또는 비알코올성지방간염일 수 있으나, 이에 제한되는 것은 아니다. 상기 비알코올성 지방간염은 F3 및 F4 단계일 수 있다.
본 발명에서 사용된 용어 "프라이머"는 짧은 자유 3-말단 수산화기(free 3'-hydroxyl group)를 가지는 핵산 서열로 상보적인 템플레이트(template)와 염기쌍을 형성할 수 있고 템플레이트 가닥 복사를 위한 시작 지점으로서 작용하는 짧은 핵산 서열을 말한다. 프라이머는 적절한 완충용액 및 온도에서 중합반응을 위한 시약(즉, DNA 폴리머라제 또는 역전사효소) 및 상이한 4가지의 뉴클레오사이드 트리포스페이트의 존재 하에서 DNA 합성을 개시할 수 있다. PCR 조건, 센스 및 안티센스 프라이머의 길이는 당업계에 공지된 기술에 따라 적절히 선택될 수 있다.
본 발명에서 사용된 용어 "프로브"는 mRNA 외 특이적으로 결합을 이룰 수 있는 짧게는 수 염기 내지 길게는 수백 염기에 해당하는 RNA 또는 DNA 등의 핵산 단편을 의미하며 라벨링되어 있어서 특정 mRNA의 존재 유무, 발현량을 확인할 수 있다. 프로브는 올리고뉴클레오타이드(oligonucleotide) 프로브, 단쇄 DNA(single strand DNA) 프로브, 이중쇄 DNA(double strand DNA) 프로브, RNA 프로브 등의 형태로 제작될 수 있다. 적절한 프로브의 선택 및 혼성화 조건은 당해 기술 분야에 공지된 기술에 따라 적절히 선택할 수 있다.
본 발명에서 사용된 용어 "항체"는 당해 기술분야에 공지된 용어로서 항원성 부위에 대하여 지시되는 특이적인 면역 글로불린을 의미한다. 본 발명에서의 항체는 본 발명의 Gnpat에 대해 특이적으로 결합하는 항체를 의미하며, 당해 기술분야의 통상적인 방법에 따라 항체를 제조할 수 있다. 상기 항체의 형태는 폴리클로날 항체 또는 모노클로날 항체를 포함하며, 모든 면역글로불린 항체가 포함된다. 상기 항체는 2개의 전체 길이의 경쇄 및 2개의 전체 길이의 중쇄를 갖는 완전한 형태를 의미한다. 또한, 상기 항체는 인간화 항체 등의 특수 항체도 포함된다.
본 발명에서 사용된 용어 "펩타이드"는 표적 물질에 대한 결합력 높은 장점이 있으며, 열/화학 처리시에도 변성이 일어나지 않는다. 또한, 분자 크기가 작기 때문에 다른 단백질에 붙여서 융합 단백질로의 이용이 가능하다. 구체적으로 고분자 단백질 체인에 붙여서 이용이 가능하므로 진단 키트 및 약물전달 물질로 이용될 수 있다.
본 발명에서 사용된 용어 "앱타머"는 그 자체로 안정된 삼차 구조를 가지면서 표적 분자에 높은 친화성과 특이성으로 결합할 수 있는 특징을 가진 특별한종류의 단일 가닥 핵산(DNA, RNA 또는 변형핵산)으로 구성된 폴리뉴클레오티드의 일종을 의미한다. 상술한 바와 같이, 앱타머는 항체와 동일하게 항원성 물질에 특이적으로 결합할 수 있으면서도, 단백질보다 안정성이 높고, 구조가 간단하며, 합성이 용이한 폴리뉴클레오티드로 구성되어 있으므로, 항체를 대체하여 사용될 수 있다.
또한, 본 발명은 상기 바이오마커 조성물을 포함하는 만성간질환 진단용 키트를 제공한다.
본 발명의 키트는 바이오마커 성분에 특이적으로 결합하는 항체, 기질과의 반응에 의해서 발색하는 표지체가 접합된 2차 항체 접합체(conjugate), 상기 표지체와 발색 반응할 발색 기질 용액, 세척액 및 효소 반응 정지액 등을 포함할 수 있으며, 사용되는 시약 성분을 포함하는 다수의 별도 패키징 또는 컴파트먼트로 제작될 수 있다.
또한, 본 발명은 (a) 만성간질환 환자에서 분리된 시료로부터 CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6으로 이루어진 군에서 선택된 어느 하나 이상의 단백질의 발현 수준 또는 이를 코딩하는 유전자의 mRNA 발현 수준을 측정하는 단계; (b) 상기 단백질의 발현 수준 또는 이를 코딩하는 유전자의 mRNA 발현 수준을 대조군 시료와 비교하는 단계; 및 (c) 상기 단백질의 발현 수준 또는 이를 코딩하는 유전자의 mRNA 발현 수준이 대조군 시료보다 높은 경우, 만성간질환으로 진단될 가능성이 높은 것으로 판단하는 단계를 포함하는 만성간질환 진단을 위한 정보 제공 방법을 제공한다.
본 발명에서 사용된 용어 "환자에서 분리된 시료"는 상기 단백질 또는 유전자의 발현 수준에 있어서 대조군과 차이가 나는 조직, 세포, 전혈, 혈청, 혈장, 타액, 객담, 뇌척수액, 또는 뇨와 같은 시료를 포함할 수 있고, 보다 상세하게는 간 조직, 간세포일 수 있지만, 이에 한정되는 것은 아니다.
상세하게는, 상기 mRNA 발현 수준을 측정하는 방법은 RT-PCR, 경쟁적 RT-PCR(Competitive RT-PCR), 실시간 RT-PCR(Real-time RT-PCR), RNase 보호 분석법(RPA; RNase protection assay), 노던 블롯팅(Northern blotting) 및 DNA 칩을 이용하지만, 이에 한정되는 것은 아니다.
보다 구체적으로, 상기 단백질 발현 수준을 측정하는 방법은 웨스턴 블롯(Wetsern blot), 방사성면역분석(Radioimmunoassay; RIA), 방사면역확산법(radioimmunodiffusion), 오우크테로니(Ouchterlony) 면역 확산법, 로케이트(rocket) 면역전기영동, 조직면역염색, 면역침전 분석법(Immunoprecipitation assay), 보체고정분석법(Complement Fixation Assay), FACS, 단백질 칩 및 ELISA 분석을 이용하지만, 이에 한정되는 것은 아니다.
이하, 본 발명의 이해를 돕기 위하여 실시예를 들어 상세하게 설명하기로 한다. 다만 하기의 실시예는 본 발명의 내용을 예시하는 것일 뿐 본 발명의 범위가 하기 실시예에 한정되는 것은 아니다. 본 발명의 실시예는 당업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해 제공되는 것이다.
실시예 1: DEG(differentially expressed gene)로 바이오마커 선별
비알콜성지방간염 진단을 위한 바이오마커를 발굴하기 위해, 지방간(steatosis) 환자 60명 및 비알콜성지방간염(non-alcoholic steatohepatitis, NASH) 환자 73명으로부터 조직검사를 통해 간 조직을 채취하였다. Trizol을 이용하여 total RNA를 분리하였다. 그 후, Illumina의 Truseq Stranded Total RNA LT Sample Prep Kit를 사용하여 시퀀싱 library를 구축하고, Novaseq 6000을 사용하여 시퀀싱을 진행하였다. RNA-seq의 raw data로는 FASTQ 파일을 확보하여 Trim Galore를 통한 시퀀싱 데이터의 품질 확인 및 낮은 품질의 read와 adapter sequence를 제거하였으며, STAR alignmnet tool을 이용하여 인간지놈 (human genome)에 mapping하였다. 이 후에 Picard mark duplication tool을 이용하여 duplication이 제거된 bam 파일을 확보하였으며 이 파일로부터 전사체에 매핑된 read count를 추출하였다. 이후 DESeq2를 통하여 지방간 환자와 비알콜성지방간염 환자에서의 유전자 발현량을 정량화하고 차이를 비교하여 발현량이 달라지는 유전자를 선별하였다. 발현이 변화하는 유전자를 정의하기 위하여 먼저 각 그룹에서 평균 정량화된 발현량이 1이상(normalized read counts >=1)인 유전자, 두 그룹 간 차이가 p-value 0.05 이하인 경우를 유의미한 것으로 설정하였다. 도 1에 나타난 바와 같이, 두 그룹의 발현량의 차이가 1.3배(fold change >= |1.3|) 이상 존재하고 평균 값은 표준편차 이상(average >= standard deviation)으로 샘플 간의 차이가 적은 유전자를 differential expressed genes (DEGs)로 선별한 결과, 총 1393개의 유전자, 질병의 진행에 따라 비알콜성지방간염에서 증가하는 748개와 감소하는 유전자 645개를 발굴하였다.
실시예 2: 특징부 세트(feature set)로 바이오마커 선별
머신러닝 기법 중에서 특징제거(feature elimination) 기법을 이용하여 분류 모델을 설립하고, 전사체의 정량화된 발현값을 이용하여 상기 실시예 1에서 선별된 유전자들 중에서 비알콜성지방간염에 특이적인 유전자 세트를 선정하였다. 먼저 26,000 여개의 공지된 mRNA를 대상으로 발현량의 평균을 입력하여 지방간 환자 그룹과 비알콜성지방간염 환자 그룹에서 모두 1 미만인 유전자들을 제거하엿다. 13,000여개의 유전자를 이용하여 분류 모델 학습에 중요하게 사용되지 않은 특징부(feature)를 반복적으로 제거하는 과정을 통해 분류 모델에 적합한 특징을 선별하였다.
1. 해당 과정에서 특징부(feature)가 분류 모델에 얼마나 중요한지를 판단하기 위하여 SVM 모델을 이용하여 분류 모델을 학습하고 구축된 모델과의 연관성이 낮은 특징부(feature)를 제거하였다.
2. 검증(validation) 과정을 수행하였다.
3. 1,500개 미만의 특징부(feature)가 남을 때까지 위 과정을 반복하여 분류 모델을 디자인하고, 특징부 세트(feature set)를 선별하였다. 그 결과 하나의 분류 모델과 1,500개 미만의 특징부(features)로 구성된 세트를 설정하였다.
4. 이렇게 얻은 1,500여개의 특징부(features)를 대상으로 SVM의 parameter 옵션 값을 조정하여 좀 더 정확도가 높은 모델로 튜닝 과정을 거쳐 하나의 분류 모델기를 완성하였다.
도 2에 나타난 바와 같이, 앞의 1~4 과정을 반복하여 서로 다른 특징부 세트(feature set)을 갖는 20개의 분류 모델을 구축하였다. 구축한 20개의 모델 중 검증을 통하여 정밀도(accuracy)가 0.8이상인 16개 모델을 선별하였으며, 16개 모델 모두에서 공통적으로 포함되어 있는 203개의 특징유전자(feature genes)를 선별하였다.
실시예 3: 비알콜성지방간염 진단용 바이오마커 선별
지방간 환자 그룹과 비알콜성지방간염 환자 그룹에서 상기 실시예 1에서 특이적으로 선별된 1,393개의 유전자와 상기 실시예 2에서 특징 선별(feature selection) 과정을 통해 선별된 203개의 유전자를 비교하여 상기 두 그룹을 구분할 수 있는 64개의 특징유전자(feature genes)를 선벌하였다(도 3). 선별된 64개의 특징유전자들 중에서 최소한의 유전자로 두 그룹을 구분할 수 있는 가장 효율전인 유전자 세트를 선별하기 위해, 통계 기반의 분류 모델인 선형 회귀 모델(linear regression model)을 이용하여 가장 적합한 유전자 세트를 선별하였다. 먼저 각각의 유전자를 하나의 선형 회귀 모델에 적용하여 정밀도(accuracy)를 산출하였을 때, 가장 정밀도(accuracy)가 높은 유전자를 선별하고, 해당 유전자와 나머지 유전자들을 하나하나 매칭시켜 2개의 유전자를 하나의 세트로 적용하여 정밀도(accuracy)를 산출하고, 그 중 가장 높은 정밀도(accuracy)를 갖는 세트를 선별하는 방식으로 유전자 세트를 선별하였다. 또한 상기의 방법으로 반복적으로 선별되지 않은 유전자를 선별된 유전자 세트에 추가하여 특징 유전자 세트를 추가하기에 가장 적합한 유전자를 선별하는 과정을 수행하였다.
NO. 유전자명 정밀도 NO. 유전자명 정밀도 NO. 유전자명 정밀도
1 CAPG 0.82 23 BCAT1 0.714 45 RGS2 0.639
2 MCM6 0.812 24 CCND1 0.714 46 RGS5 0.639
3 AJUBA 0.797 25 CEBPD 0.714 47 SERPINA3 0.639
4 CLDN7 0.797 26 JUNB 0.714 48 CLDN4 0.632
5 HS3ST2 0.797 27 WIPI1 0.714 49 LINC00939 0.632
6 NALCN 0.789 28 LHFPL2 0.699 50 LOC730101 0.632
7 ABCC4 0.774 29 CEBPB 0.692 51 ZBTB16 0.632
8 MCM2 0.774 30 CILP 0.692 52 ANKRD36BP2 0.624
9 GPNMB 0.767 31 NR0B2 0.684 53 KCNK5 0.624
10 TM4SF19 0.767 32 RORAAS1 0.684 54 PPP1R1A 0.624
11 LOC101928304 0.759 33 DNAJC12 0.677 55 MAGOH2P 0.617
12 PLA2G7 0.759 34 MEOX2 0.677 56 TIMD4 0.617
13 TREM2 0.759 35 RNASE6 0.669 57 USP43 0.617
14 DHRS9 0.752 36 GUCA2B 0.662 58 FCGR2C 0.609
15 FABP5 0.752 37 HIST1H4L 0.662 59 GNAO1 0.594
16 HYAL3 0.752 38 ERRFI1 0.654 60 HSPA7 0.594
17 SPP1 0.752 39 GPC4 0.654 61 POU6F2 0.594
18 LPL 0.744 40 HNRNPA1P33 0.654 62 TSC22D3 0.594
19 ANXA2 0.737 41 JUN 0.654 63 C1QC 0.549
20 FABP4 0.729 42 LOC727896 0.654 64 KLHL41 0.549
21 LGALS3 0.729 43 SFRP5 0.654
22 FXYD2 0.722 44 ZFP36 0.654
상기 표 1 및 도 4에 나타난 바와 같이, CAPG가 가장 높은 정밀도(accuracy) 값을 나타냈으며, 그 다음으로는 MCM6, AJUBA, CLDN7등으로 확인되었다. CAPG와 함께 선형 회귀 모델에서 특징부로 사용되었을 때, 정밀도가 가장 높은 유전자 세트를 하기 표 2와 같이 선별하였다. 이후 다른 유전자를 추가하여 반복적으로 가장 높은 유전자 세트를 하기 표 3과 같이 CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6 유전자 세트를 선별하고, 정밀도(accuracy) 값이 0.955로 가장 높게 나타나는 것을 확인하였다. 이후 8개의 유전자까지 특징부를 늘려 최적의 유전자 세트를 하기 표 4와 같이 선별하여 정밀도(accuracy) 값이 변화하지 않는 것을 확인하였다.
NO. 유전자 세트 정밀도 NO. 유전자 세트 정밀도
1 CAPG+HYAL3 0.887 33 CAPG+SFRP5 0.82
2 CAPG+AJUBA 0.872 34 CAPG+SPP1 0.82
3 CAPG+JUN 0.865 35 CAPG+TIMD4 0.82
4 CAPG+MCM6 0.865 36 CAPG+ABCC4 0.812
5 CAPG+RGS2 0.865 37 CAPG+CLDN4 0.812
6 CAPG+JUNB 0.857 38 CAPG+CLDN7 0.812
7 CAPG+CEBPD 0.85 39 CAPG+GPNMB 0.812
8 CAPG+CCND1 0.842 40 CAPG+KCNK5 0.812
9 CAPG+LOC727896 0.842 41 CAPG+LHFPL2 0.812
10 CAPG+MCM2 0.842 42 CAPG+LINC00939 0.812
11 CAPG+RORAAS1 0.842 43 CAPG+LOC730101 0.812
12 CAPG+HS3ST2 0.835 44 CAPG+NALCN 0.812
13 CAPG+SERPINA3 0.835 45 CAPG+PLA2G7 0.812
14 CAPG+ZFP36 0.835 46 CAPG+TREM2 0.812
15 CAPG+CILP 0.827 47 CAPG+USP43 0.812
16 CAPG+ERRFI1 0.827 48 CAPG+ANKRD36BP2 0.805
17 CAPG+FABP5 0.827 49 CAPG+BCAT1 0.805
18 CAPG+GUCA2B 0.827 50 CAPG+DNAJC12 0.805
19 CAPG+LGALS3 0.827 51 CAPG+FCGR2C 0.805
20 CAPG+POU6F2 0.827 52 CAPG+GNAO1 0.805
21 CAPG+PPP1R1A 0.827 53 CAPG+GPC4 0.805
22 CAPG+WIPI1 0.827 54 CAPG+HIST1H4L 0.805
23 CAPG+ZBTB16 0.827 55 CAPG+LOC101928304 0.805
24 CAPG+ANXA2 0.82 56 CAPG+NR0B2 0.805
25 CAPG+C1QC 0.82 57 CAPG+RGS5 0.805
26 CAPG+DHRS9 0.82 58 CAPG+RNASE6 0.805
27 CAPG+FABP4 0.82 59 CAPG+TM4SF19 0.797
28 CAPG+HSPA7 0.82 60 CAPG+FXYD2 0.789
29 CAPG+KLHL41 0.82 61 CAPG+HNRNPA1P33 0.789
30 CAPG+LPL 0.82 62 CAPG+TSC22D3 0.789
31 CAPG+MAGOH2P 0.82 63 CAPG+CEBPB 0.782
32 CAPG+MEOX2 0.82
유전자 수 유전자 세트 정밀도
1 CAPG 0.820
2 CAPG+HYAL3 0.887
3 CAPG+HYAL3+WIPI1 0.902
4 CAPG+HYAL3+WIPI1+TREM2 0.932
5 CAPG+HYAL3+WIPI1+TREM2+SPP1 0.940
6 CAPG+HYAL3+WIPI1+TREM2+SPP1+RNASE6 0.955
유전자 수 유전자 세트 정밀도
6 CAPG+HYAL3+WIPI1+TREM2+SPP1+RNASE6 0.9549
7 CAPG+HYAL3+WIPI1+TREM2+SPP1+RNASE6+BCAT1 0.9549
7 CAPG+HYAL3+WIPI1+TREM2+SPP1+RNASE6+FABP5 0.9549
7 CAPG+HYAL3+WIPI1+TREM2+SPP1+RNASE6+HIST1H4L 0.9549
7 CAPG+HYAL3+WIPI1+TREM2+SPP1+RNASE6+HSPA7 0.9549
7 CAPG+HYAL3+WIPI1+TREM2+SPP1+RNASE6+LOC730101 0.9549
7 CAPG+HYAL3+WIPI1+TREM2+SPP1+RNASE6+MCM2 0.9549
7 CAPG+HYAL3+WIPI1+TREM2+SPP1+RNASE6+MEOX2 0.9549
7 CAPG+HYAL3+WIPI1+TREM2+SPP1+RNASE6+RGS5 0.9549
7 CAPG+HYAL3+WIPI1+TREM2+SPP1+RNASE6+SFRP5 0.9549
8 CAPG+HYAL3+WIPI1+TREM2+SPP1+RNASE6+SFRP5+BCAT1 0.9549
8 CAPG+HYAL3+WIPI1+TREM2+SPP1+RNASE6+SFRP5+FABP5 0.9549
8 CAPG+HYAL3+WIPI1+TREM2+SPP1+RNASE6+SFRP5+HIST1H4L 0.9549
상기 결과는 도 5에 나타난 바와 같이, CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6의 6개의 유전자 세트가 가장 최소의 유전자수로 가장 최대의 효율로 비알콜성지방간염 환자 그룹을 분류하는 것을 입증한다.
실시예 4: 임상 모델에 적용
상기 선별된 CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6의 6개의 유전자 세트가 알콜성지방간염 환자 그룹을 분류하기 적합한 바이오마커임을 확인하기 위해, 샘플링 데이터 및 다른 환자군 데이터 세트에서도 효율적인지 확인하였다. 미국립보건원 내의 데이터 센터(GEO; https://www.ncbi.nlm.nih.gov/geo/)를 통하여 공개된 데이터 중, 지방간과 비알코올성지방간염 데이터가 구분된 세트 GSE135251 (GEO data link; https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE135251; pubmed paper link; https://pubmed.ncbi.nlm.nih.gov/33762733/)을 활용하으며, GSE135251의 샘플의 세부 단계 정보는 하기 표 5와 같다.
분류군 단계 샘플수
정상(control) 10
지방간(NAFL) 51
비알코올성지방간염(NASH) F0-F1 34
F2 53
F3 54
F4 14
전체 216
선별된 CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6의 6개의 유전자 세트를 이용하여 선형 회귀 모델을 구형하였을 때에, 하기 표 6와 같이 각 질환이 분류되는 것을 확인하였다. 지방간과 비알코올성지방간염의 단계를 구분하는 정확도는 0.77로 나타났으며, 정상 대비 지방간, 비알코올성지방간염을 모두 포함한 간질환 환자를 구분하였을 때의 정확도는 0.954로 상당히 높은 수준으로 나타났다. 특히, 정상과 비알코올성지방간염을 구분하는 데에 있어서는 정확도가 0.967로 높은 정확도를 나타냈다.
ACC
지방간 vs 지방간염 0.772
정상 vs 간질환 0.954
정상 vs 지방간 0.869
정상 vs 지방간염 0.967
실시예 5: 임상 환자에 적용
상기 선별된 CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6의 6개의 유전자들이 실제 임상환자에게서 발현이 유의미하게 차이가 나는 지 검증하기 위해, 환자군의 시료로 qPCR을 수행하고 그 결과를 통계적으로 검증했다. Steatosis 환자 43명과 NASH 환자 57명의 실험 결과로 t-test를 수행하였을 때, 하기 표 7과 같은 결과가 도출되어 대부분의 유전자들이 통계적으로 유의하게 두 환자군에서 발현 차이가 나는 것을 검증했다. (WIPI1과 RNASE6의 경우에는 p-value가 0.05보다 약간 높으나 이는 검증 환자군 수가 상대적으로 적은 것에 기인하여, 검증대상을 늘릴 경우 통계적으로 유의하게 될 것으로 보인다)
CAPG HYAL3 WIPI1 TREM2 SPP1 RNASE6
p-value (Steatosis vs NASH) 0.00146 0.000077 0.06500 0.00086 0.00096 0.05868
이상으로 본 발명 내용의 특정한 부분을 상세히 기술하였는 바, 당업계의 통상의 지식을 가진 자에게 있어서, 이러한 구체적 기술은 단지 바람직한 실시양태일 뿐이며, 이에 의해 본 발명의 범위가 제한되는 것이 아닌 점은 명백하다. 즉, 본 발명의 실질적인 범위는 첨부된 청구항들과 그것들의 등가물에 의하여 정의된다.

Claims (7)

  1. CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6으로 이루어진 군에서 선택된 어느 하나 이상의 단백질 또는 이를 코딩하는 유전자를 유효성분으로 포함하는 만성간질환 진단용 바이오마커 조성물.
  2. CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6으로 이루어진 군에서 선택된 어느 하나 이상의 단백질 또는 이를 코딩하는 유전자의 발현 수준을 측정할 수 있는 제제를 유효성분으로 포함하는 만성간질환 진단용 조성물.
  3. 제2항에 있어서, 상기 단백질의 발현 수준을 측정할 수 있는 제제는 단백질에 특이적으로 결합하는 항체, 펩타이드, 앱타머 또는 화합물, 상기 유전자의 발현 수준을 측정할 수 있는 제제는 유전자에 특이적으로 결합하는 프라이머 또는 프로브인 것을 특징으로 하는 만성간질환 진단용 조성물.
  4. 제2항에 있어서, 상기 만성간질환은 지방간 또는 비알코올성지방간염인 것을 특징으로 하는 만성간질환 진단용 조성물.
  5. 제4항에 있어서, 상기 비알코올성 지방간염은 F3 및 F4 단계인 것을 특징으로 하는 만성간질환 진단용 조성물.
  6. 제1항의 조성물을 포함하는 만성간질환 진단용 키트.
  7. (a) 만성간질환 환자에서 분리된 시료로부터 CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6으로 이루어진 군에서 선택된 어느 하나 이상의 단백질의 발현 수준 또는 이를 코딩하는 유전자의 mRNA 발현 수준을 측정하는 단계;
    (b) 상기 단백질의 발현 수준 또는 이를 코딩하는 유전자의 mRNA 발현 수준을 대조군 시료와 비교하는 단계; 및
    (c) 상기 단백질의 발현 수준 또는 이를 코딩하는 유전자의 mRNA 발현 수준이 대조군 시료보다 높은 경우, 만성간질환으로 진단될 가능성이 높은 것으로 판단하는 단계를 포함하는 만성간질환 진단을 위한 정보 제공 방법.
PCT/KR2022/002773 2021-07-30 2022-02-25 머신러닝 기반 비알코올성 지방간염 판별용 복합 마커 및 이의 용도 WO2023008673A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2021-0100668 2021-07-30
KR20210100668 2021-07-30

Publications (1)

Publication Number Publication Date
WO2023008673A1 true WO2023008673A1 (ko) 2023-02-02

Family

ID=85087728

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/002773 WO2023008673A1 (ko) 2021-07-30 2022-02-25 머신러닝 기반 비알코올성 지방간염 판별용 복합 마커 및 이의 용도

Country Status (2)

Country Link
KR (1) KR20230019038A (ko)
WO (1) WO2023008673A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107630084A (zh) * 2016-07-18 2018-01-26 昆山德诺瑞尔生物科技有限公司 非酒精性脂肪性肝炎的多基因组合检测试剂盒
KR20180105156A (ko) * 2016-02-08 2018-09-27 소마로직, 인크. 비알코올성 지방간 질환 (nafld)과 비알코올성 지방간염 (nash) 생물마커 및 이들의 용도
KR102010652B1 (ko) * 2017-08-21 2019-08-13 서울대학교병원 간질환 예측 또는 진단용 조성물 및 이를 이용한 간질환 예측 또는 진단 방법
WO2020055954A2 (en) * 2018-09-11 2020-03-19 The General Hospital Corporation Methods for detecting liver diseases
KR20210061743A (ko) * 2019-11-20 2021-05-28 숙명여자대학교산학협력단 만성간질환의 진행 단계 판별용 바이오마커 조성물

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102020031B1 (ko) 2019-03-15 2019-09-09 한국생명공학연구원 Tcf7l2를 유효성분으로 함유하는 비알코올성 지방간의 예방 또는 치료용 약학 조성물

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180105156A (ko) * 2016-02-08 2018-09-27 소마로직, 인크. 비알코올성 지방간 질환 (nafld)과 비알코올성 지방간염 (nash) 생물마커 및 이들의 용도
CN107630084A (zh) * 2016-07-18 2018-01-26 昆山德诺瑞尔生物科技有限公司 非酒精性脂肪性肝炎的多基因组合检测试剂盒
KR102010652B1 (ko) * 2017-08-21 2019-08-13 서울대학교병원 간질환 예측 또는 진단용 조성물 및 이를 이용한 간질환 예측 또는 진단 방법
WO2020055954A2 (en) * 2018-09-11 2020-03-19 The General Hospital Corporation Methods for detecting liver diseases
KR20210061743A (ko) * 2019-11-20 2021-05-28 숙명여자대학교산학협력단 만성간질환의 진행 단계 판별용 바이오마커 조성물

Also Published As

Publication number Publication date
KR20230019038A (ko) 2023-02-07

Similar Documents

Publication Publication Date Title
US11591655B2 (en) Diagnostic transcriptomic biomarkers in inflammatory cardiomyopathies
WO2017217807A2 (ko) Nckap1을 유효성분으로 포함하는 대장암 진단 또는 대장암 전이 예후 예측용 바이오마커 조성물
KR20200002241A (ko) 비만 진단을 위한 마이크로RNA-26b 또는 마이크로RNA-4449 바이오마커 및 이의 용도
CN114717305A (zh) Nr1d1、junb、rorc作为药物性-急性肾损伤的诊断标记应用
CN113846164A (zh) 用于预测患者对术前放化疗联合全直肠系膜切除术敏感性的标志分子及其衍生产品
WO2021101146A1 (ko) 만성간질환의 예후 예측 또는 진행 단계 판별용 바이오마커 조성물
KR101847815B1 (ko) 삼중음성유방암의 아형 분류 방법
WO2023008673A1 (ko) 머신러닝 기반 비알코올성 지방간염 판별용 복합 마커 및 이의 용도
WO2017026691A1 (ko) 비만의 진단용 조성물 및 이의 용도
KR101995189B1 (ko) 비침습적 체외진단을 위한 간암 진단용 바이오마커 조성물 및 이를 포함하는 키트
WO2010085124A2 (ko) 간암진단과 재발 및 생존 예측용 마커, 이를 포함한 키트 및 상기 마커를 이용한 간암환자 예후 예측
CN116808063A (zh) 糖尿病的标志物及其应用
KR102288299B1 (ko) 만성간질환의 진행 단계 판별용 바이오마커 조성물
WO2018143574A1 (ko) 비만 진단용 조성물 및 이의 용도
WO2013054984A1 (en) Composition for diagnosis of lung cancer and diagnosis kit of lung cancer
WO2021100891A1 (ko) 구강암 예후 진단용 조성물 및 키트
WO2020071784A1 (ko) 대식세포 특이적 바이오마커 패널 및 이의 용도
KR20220039065A (ko) 대장암에 대한 항암제 감수성 예측을 위한 신규 바이오마커
KR102341336B1 (ko) 만성간질환의 예후 예측용 바이오마커 조성물
WO2024054087A1 (ko) 고령 여성의 난임 진단을 위한 바이오마커 및 이의 용도
KR102259695B1 (ko) 대장암에 대한 항암제 감수성 예측을 위한 신규 바이오마커
CN113373229B (zh) 胃癌相关生物标志物及其应用
WO2014182072A1 (ko) 아포지단백질 m을 포함하는 알츠하이머 질환 진단용 마커 조성물
KR102259708B1 (ko) 대장암에 대한 항암제 감수성 예측을 위한 신규 바이오마커
WO2022114887A1 (ko) 통합전사체분석 기반 만성 간질환 진단용 복합마커 및 이의 용도

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22849653

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE