KR102602100B1 - Method for discovering disease biomarker through comparison of disease and normal tissue specific epigenome with normal body fluid epigenome - Google Patents

Method for discovering disease biomarker through comparison of disease and normal tissue specific epigenome with normal body fluid epigenome Download PDF

Info

Publication number
KR102602100B1
KR102602100B1 KR1020230038401A KR20230038401A KR102602100B1 KR 102602100 B1 KR102602100 B1 KR 102602100B1 KR 1020230038401 A KR1020230038401 A KR 1020230038401A KR 20230038401 A KR20230038401 A KR 20230038401A KR 102602100 B1 KR102602100 B1 KR 102602100B1
Authority
KR
South Korea
Prior art keywords
cancer
disease
methylation
value
biomarker
Prior art date
Application number
KR1020230038401A
Other languages
Korean (ko)
Inventor
김병철
김여진
전성원
전하현
엄효진
박종화
Original Assignee
주식회사 클리노믹스
울산과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 클리노믹스, 울산과학기술원 filed Critical 주식회사 클리노믹스
Priority to PCT/KR2023/016823 priority Critical patent/WO2024091052A1/en
Application granted granted Critical
Publication of KR102602100B1 publication Critical patent/KR102602100B1/en

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2545/00Reactions characterised by their quantitative nature
    • C12Q2545/10Reactions characterised by their quantitative nature the purpose being quantitative analysis
    • C12Q2545/114Reactions characterised by their quantitative nature the purpose being quantitative analysis involving a quantitation step
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Genetics & Genomics (AREA)
  • Wood Science & Technology (AREA)
  • Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Hospice & Palliative Care (AREA)
  • Biophysics (AREA)
  • Oncology (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

본 발명은 질병 및 정상 조직 특이적 후성유전체와 정상 체액의 후성유전체의 비교를 통한 질병 바이오마커의 발굴 방법 등에 관한 것이다. 본 발명은 체액으로부터 질병 및 건강상태의 예측 및 진단용 바이오마커를 선정하는 방법에 관한 것으로서, 구체적으로는 체액 내의 유전정보를 포함하고 있는 생체분자(cfDNA 단편, CTC, 엑소좀 등)의 후성유전체 정보와 조직의 후성유전체 정보를 이용한 바이오마커 선정 방법을 제공한다. 이를 통해 질병을 조기에 예측, 진단할 수 있으며, 질병의 재발 여부를 체액만으로 모니터링할 수 있다. 또한, 질병에 걸리지 않더라도 몸 안의 각종 장기 별 건강상태를 확인할 수 있다.The present invention relates to a method for discovering disease biomarkers through comparison of disease- and normal tissue-specific epigenomes and the epigenome of normal body fluids. The present invention relates to a method of selecting biomarkers for prediction and diagnosis of diseases and health conditions from body fluids. Specifically, the epigenome information of biomolecules (cfDNA fragments, CTCs, exosomes, etc.) containing genetic information in body fluids. Provides a method for selecting biomarkers using epigenome information of tissues. Through this, diseases can be predicted and diagnosed early, and recurrence of the disease can be monitored using only body fluids. Additionally, even if you do not have a disease, you can check the health status of each organ in your body.

Description

질병 및 정상 조직 특이적 후성유전체와 정상 체액의 후성유전체의 비교를 통한 질병 바이오마커의 발굴 방법{Method for discovering disease biomarker through comparison of disease and normal tissue specific epigenome with normal body fluid epigenome}Method for discovering disease biomarker through comparison of disease and normal tissue specific epigenome with normal body fluid epigenome}

본 발명은 질병 및 정상 조직 특이적 후성유전체와 정상 체액의 후성유전체의 비교를 통한 질병 바이오마커의 발굴 방법 등에 관한 것이다.The present invention relates to a method for discovering disease biomarkers through comparison of disease- and normal tissue-specific epigenomes and the epigenome of normal body fluids.

후성유전학적 변화는 여러가지 세포의 발달과 분화 과정에 매우 중요한 역할을 한다고 여겨지고 있으며, 암 질환을 비롯하여 대부분의 질병 발생에 주요한 원인을 제공한다. 그 대표적인 예로, CpG 아일랜드(island) 과메틸화로 대변되는 후성유전적 변화는 거의 모든 종류의 암에서 발견되는 발암 및 암 발생 기전 마커이다. 인간 유전자의 60-70%가량이 프로모터(promoter)지역에 CpG 아일랜드를 가지고 있다. 기작의 한 예로, 이 중 일부가 과메틸화 됨으로써 해당 유전자의 발현이 차단되고, 종양억제 기능이 소실되어 종양세포의 성장을 촉진할 수 있다. 프로모터 CpG 아일랜드 과메틸화는 유전자 발현억제 기전으로서의 중요성뿐만 아니라 종양 표지자로서의 중요성도 부각되고 있다. 즉, 정상세포에서는 관찰되지 않으면서 암세포에서만 관찰되는 CpG 아일랜드 과메틸화는 암세포의 바이오마커로서의 가치가 있으며, 이를 이용하여 체액에서 유래된 샘플에서 질병을 진단 및 모니터링하려는 시도들이 이루어지고 있다.Epigenetic changes are believed to play a very important role in the development and differentiation of various cells, and are a major cause of most diseases, including cancer. As a representative example, epigenetic changes represented by CpG island hypermethylation are markers of carcinogenesis and cancer development mechanisms found in almost all types of cancer. Approximately 60-70% of human genes have a CpG island in the promoter region. As an example of the mechanism, when some of these genes become hypermethylated, the expression of the corresponding gene is blocked and the tumor suppressor function is lost, which can promote the growth of tumor cells. Promoter CpG island hypermethylation is gaining importance not only as a mechanism for suppressing gene expression, but also as a tumor marker. In other words, CpG island hypermethylation, which is observed only in cancer cells but not in normal cells, is valuable as a biomarker for cancer cells, and attempts are being made to use this to diagnose and monitor diseases in samples derived from body fluids.

체액내에 다양한 생체분자들(cfDNA, CTC, 엑소좀 등)이 떠돌아다니는데, 그 중에서 대표적인 예는 세포유리 DNA이다. 세포유리 DNA(cell-free DNA, cfDNA)란, 세포 안에서만 존재하지 않고, 세포사멸 등의 이유로 세포밖으로 나와서, 몸속의 체액속에 떠돌아다니는 DNA 조각을 의미한다. 이의 평균 염기서열 길이는 대략 167bp(basepair)이다. cfDNA는 우리 몸 전체의 상태를 반영하여 각종 질병을 진단하고, 예후 추정 및 모니터링을 하는 대리 표지자로서 역할을 할 수 있다. 특히, 암 환자의 체액에는 cfDNA(cell-free DNA)가 증가됨이 보고된 바 있다. 암세포에서 배출된 cfDNA는 각별히 순환종양 DNA(circulating tumor, ctDNA)라고 명명한다. ctDNA는 암세포가 파열되어 사멸하는 경우 그 찌꺼기가 혈류 속으로 방출되는데, 그 속에 종양의 DNA가 포함되는 것을 말한다. 혈액 속에 cfDNA형태로 떠돌아다니는 ctDNA의 암 관련 유전적 변화의 패턴을 프로파일링 하면 암을 조기 발견할 수 있으므로, 건강하거나 질병 위험에 처한 사람을 대상으로 한 대규모 스크리닝에 이용될 수 있다.Various biomolecules (cfDNA, CTC, exosomes, etc.) float around in body fluids, the representative example of which is cell-free DNA. Cell-free DNA (cfDNA) refers to a piece of DNA that does not exist only within the cell, but comes out of the cell due to apoptosis or other reasons and floats around in body fluids. Its average base sequence length is approximately 167bp (basepair). cfDNA can reflect the condition of our entire body and serve as a surrogate marker to diagnose various diseases and estimate and monitor prognosis. In particular, it has been reported that cfDNA (cell-free DNA) increases in the body fluids of cancer patients. cfDNA released from cancer cells is specifically called circulating tumor DNA (ctDNA). ctDNA refers to the fact that when cancer cells rupture and die, their residues are released into the bloodstream and contain tumor DNA. Profiling the pattern of cancer-related genetic changes in ctDNA floating around in the blood in the form of cfDNA can lead to early detection of cancer and can be used for large-scale screening of healthy or at-risk people.

우리 몸 전체에서 일어나는 정상적인 세포 사멸을 대변하는 cfDNA 중 특히 암 환자의 암 세포가 사멸하면서 나온 ctDNA에서 암 세포 게놈 전반에 일어나는 대표적인 후성적인 변화의 유형을 나타내는 암 세포 특이적 메틸화 지역을 마커로 선별하고, 이를 암의 조기 예측, 조기 진단, 예후, 약물 반응성 예측, 암 전이 및 재발을 알기 위한 새로운 표지자로서, 기존의 암 검사를 보완하는 도구로 사용할 수 있다.Among cfDNA, which represents normal cell death that occurs throughout our body, in particular, ctDNA produced when cancer cells of cancer patients die, cancer cell-specific methylation regions that represent representative types of epigenetic changes that occur throughout the cancer cell genome are selected as markers. , it can be used as a new marker for early prediction of cancer, early diagnosis, prognosis, prediction of drug responsiveness, cancer metastasis and recurrence, and as a tool to complement existing cancer tests.

이에, 본 발명자들은 사람의 체액에 존재하는 다양한 세포 및 생체 분자들로부터 질병 또는 암을 조기에 예측 혹은 진단하기 위하여, 체액에 미세하게 존재하는 생체분자 신호의 진단 정확도를 올리기 위한 방법을 고안하였다. 구체적으로, 체액이 가지고 있는 노이즈 시그널을 제거하고, 정상 조직세포의 후성유전체 정량값과 비교해서 질병 또는 암 조직 특이적 후성유전체 영역을 선정하고, 상기 영역에서 정상인 체액의 후성유전체 정량값이 차이나는 영역만을 선정해서 원발 질환 및 암 조직 특이적 후성유전체 체액 마커로 정의하였다.Accordingly, the present inventors have designed a method to increase the diagnostic accuracy of biomolecular signals minutely present in body fluids in order to predict or diagnose diseases or cancer at an early stage from various cells and biomolecules present in human body fluids. Specifically, noise signals in body fluids are removed, disease- or cancer tissue-specific epigenome regions are selected by comparing them with the epigenome quantification values of normal tissue cells, and the epigenome quantification values of normal body fluids in these regions are different. Only regions were selected and defined as primary disease and cancer tissue-specific epigenome fluid markers.

국내 공개특허 제10-2022-0074201호Domestic Public Patent No. 10-2022-0074201

본 발명자들은 체액 내의 다양한 유전정보를 포함하고 있는 생체분자에 적용할 수 있는 질병 또는 정상 조직 특이적 후성유전체 바이오마커 발굴 방법을 제공함으로써, 이전보다 효과적인 질병의 조기 예측 및 진단, 모니터링, 일반적인 건강관리 등에 활용하고자 한다.The present inventors provide a method for discovering disease- or normal tissue-specific epigenomic biomarkers that can be applied to biomolecules containing various genetic information in body fluids, enabling early prediction and diagnosis of diseases, monitoring, and general health management more effectively than before. I want to use it for things like that.

이에, 본 발명의 목적은 (a) 활용 가능한 유전체 메틸화 정보를 이용하여 질병 조직의 후성 유전체 영역의 메틸화 정량값을 도출하는 단계; Accordingly, the purpose of the present invention is to (a) derive a quantitative methylation value of the epigenome region of the diseased tissue using available genome methylation information;

(b) 활용 가능한 유전체 메틸화 정보를 이용하여 정상 조직의 후성 유전체 영역의 메틸화 정량값을 도출하는 단계; (b) deriving quantitative methylation values of the epigenome region of normal tissue using available genomic methylation information;

(c) 상기 (a) 및 (b) 단계에서 도출된 질병 조직 및 정상 조직의 메틸화 정량값의 차이를 도출하는 단계; (c) deriving the difference between the quantitative methylation values of the diseased tissue and the normal tissue derived in steps (a) and (b);

(d) 활용 가능한 유전체 메틸화 정보를 이용하여 정상 체액 특이적 후성 유전체 영역의 메틸화 정량값을 도출하는 단계; (d) deriving quantitative methylation values of normal body fluid-specific epigenome regions using available genome methylation information;

(e) 체액의 노이즈 시그널을 제거하는 단계; 및 (e) removing noise signals from body fluids; and

(f) 상기 (c) 단계에서 도출된 메틸화 정량값의 차이; 및 (d) 단계에서 도출된 메틸화 정량값;이 미리 설정된 각각의 임계값을 초과하는 후성 유전체 영역을 질병 조직 특이적 과메틸화 또는 저메틸화 바이오 마커로 선택하는 단계; 를 포함하는, 질병 조직 특이적 메틸화 바이오마커 발굴 방법을 제공하는 것이다.(f) difference in the quantitative methylation values derived in step (c) above; And (d) the quantitative methylation value derived in step; selecting the epigenome region exceeding each preset threshold as a disease tissue-specific hypermethylation or hypomethylation biomarker; To provide a method for discovering disease tissue-specific methylation biomarkers, including.

또한, 본 발명의 다른 목적은 (a) 활용 가능한 유전체 메틸화 정보를 이용하여 질병 조직의 후성 유전체 영역의 메틸화 정량값을 도출하는 단계; In addition, another object of the present invention is (a) deriving a quantitative methylation value of the epigenome region of a diseased tissue using available genome methylation information;

(b) 활용 가능한 유전체 메틸화 정보를 이용하여 정상 조직의 후성 유전체 영역의 메틸화 정량값을 도출하는 단계; (b) deriving quantitative methylation values of the epigenome region of normal tissue using available genomic methylation information;

(c) 상기 (a) 및 (b) 단계에서 도출된 질병 조직 및 정상 조직의 메틸화 정량값의 차이를 제1 데이터 셋(set)으로 저장하는 단계; (c) storing the difference between the quantitative methylation values of the diseased tissue and the normal tissue derived in steps (a) and (b) as a first data set;

(d) 활용 가능한 유전체 메틸화 정보를 이용하여 정상 체액 특이적 후성 유전체 영역의 메틸화 정량값을 도출하여 제2 데이터 셋으로 저장하는 단계; (d) deriving quantitative methylation values of normal body fluid-specific epigenome regions using available genome methylation information and storing them as a second data set;

(e) 제1 데이터 셋과 제2 데이터 셋을 2차원 행렬 데이터로 가공하는 단계; 및(e) processing the first data set and the second data set into two-dimensional matrix data; and

(f) 상기 (c) 단계에서 도출된 메틸화 정량값의 차이; 및 (d) 단계에서 도출된 메틸화 정량값;이 미리 설정된 각각의 임계값을 초과하는 후성 유전체 영역을 상기 2차원 행렬 데이터에서 질병 조직 특이적 과메틸화 또는 저메틸화 바이오 마커로 선택하는 단계; 를 포함하는, 질병 조직 특이적 과메틸화 또는 저메틸화 바이오마커 발굴 방법을 제공하는 것이다.(f) difference in the quantitative methylation values derived in step (c) above; and the methylation quantification value derived in step (d); selecting an epigenomic region exceeding each preset threshold as a disease tissue-specific hypermethylation or hypomethylation biomarker from the two-dimensional matrix data; To provide a method for discovering disease tissue-specific hypermethylated or hypomethylated biomarkers, including.

그러나 본 발명이 이루고자 하는 기술적 과제는 이상에서 언급한 과제에 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당해 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.However, the technical problem to be achieved by the present invention is not limited to the problems mentioned above, and other problems not mentioned can be clearly understood by those skilled in the art from the description below.

본 발명의 핵심은 질병 또는 정상 조직 특이적 후성유전체 영역 및 체액에서 나타나는 후성유전체 영역을 정량적으로 비교 분석하고, 체액의 노이즈 시그널을 정확하고 정밀하게 제거하여, 질병의 최적의 마커를 선정하는 것이다.The core of the present invention is to quantitatively compare and analyze disease- or normal tissue-specific epigenome regions and epigenome regions appearing in body fluids, accurately and precisely remove noise signals in body fluids, and select the optimal marker for the disease.

(1) 질병 및 정상 조직 특이적 후성유전체 영역 도출: 질병 조직의 메틸화 정량값과 정상 조직의 메틸화 정량값의 차이를 수치화하여, 질병 조직과 정상 조직의 차이값을 정량화한다. (2) 체액 노이즈 시그널 제거: (1)을 정상 체액의 메틸화 정량값과 비교하여 질병 특이적인 메틸화 영역을 도출한다. (3) 최적의 바이오마커 선정: 통계분석을 통해 질병-정상 차이값 및 정상 체액 정량값의 기준(threshold)을 설정하여, 기준에 만족하는 최적의 바이오마커들을 선정한다. 해당 바이오마커들은 체액의 노이즈를 최소화한 최적의 바이오마커로 정의할 수 있다. 본 발명은 체액 내의 다양한 유전정보를 포함하고 있는 생체분자에 적용할 수 있는 최적의 질병 및 정상 조직 특이적 바이오마커를 발굴하는 방법이다.(1) Derivation of disease- and normal tissue-specific epigenome regions: By quantifying the difference between the quantitative methylation value of diseased tissue and normal tissue, the difference between diseased tissue and normal tissue is quantified. (2) Removal of body fluid noise signal: Compare (1) with the quantitative methylation value of normal body fluids to derive disease-specific methylation regions. (3) Selection of optimal biomarkers: Set thresholds for disease-normal difference values and normal body fluid quantitative values through statistical analysis, and select optimal biomarkers that satisfy the standards. These biomarkers can be defined as optimal biomarkers that minimize noise in body fluids. The present invention is a method for discovering optimal disease- and normal tissue-specific biomarkers that can be applied to biomolecules containing various genetic information in body fluids.

이하, 본 발명을 상세히 설명한다.Hereinafter, the present invention will be described in detail.

본 발명은 (a) 활용 가능한 유전체 메틸화 정보를 이용하여 질병 조직의 후성 유전체 영역의 메틸화 정량값을 도출하는 단계; The present invention includes the steps of (a) deriving a quantitative methylation value of the epigenome region of a diseased tissue using available genomic methylation information;

(b) 활용 가능한 유전체 메틸화 정보를 이용하여 정상 조직의 후성 유전체 영역의 메틸화 정량값을 도출하는 단계; (b) deriving quantitative methylation values of the epigenome region of normal tissue using available genomic methylation information;

(c) 상기 (a) 및 (b) 단계에서 도출된 질병 조직 및 정상 조직의 메틸화 정량값의 차이를 도출하는 단계; (c) deriving the difference between the quantitative methylation values of the diseased tissue and the normal tissue derived in steps (a) and (b);

(d) 활용 가능한 유전체 메틸화 정보를 이용하여 정상 체액 특이적 후성 유전체 영역의 메틸화 정량값을 도출하는 단계; (d) deriving quantitative methylation values of normal body fluid-specific epigenome regions using available genome methylation information;

(e) 체액의 노이즈 시그널을 제거하는 단계; 및 (e) removing noise signals from body fluids; and

(f) 상기 (c) 단계에서 도출된 메틸화 정량값의 차이; 및 (d) 단계에서 도출된 메틸화 정량값;이 미리 설정된 각각의 임계값을 초과하는 후성 유전체 영역을 질병 조직 특이적 과메틸화 또는 저메틸화 바이오 마커로 선택하는 단계; 를 포함하는, 질병 조직 특이적 메틸화 바이오마커 발굴 방법을 제공한다.(f) difference in the quantitative methylation values derived in step (c) above; And (d) the quantitative methylation value derived in step; selecting the epigenome region exceeding each preset threshold as a disease tissue-specific hypermethylation or hypomethylation biomarker; Provides a method for discovering disease tissue-specific methylation biomarkers, including.

본 발명의 일 실시예에서는 과메틸화 바이오마커 발굴 방법을 사용하였다.In one embodiment of the present invention, a hypermethylation biomarker discovery method was used.

본 발명에서, 활용 가능한 유전체 메틸화 정보는 공용 데이터베이스(DB) 또는 연구결과를 바탕으로 얻어지는 메틸화(methylation) 정보일 수 있으나, 특정 메틸화 정보에 국한되지 않고, 후성 유전체 영역의 메틸화 정보를 담고 있는 한, 유전체 메틸화 정보를 제한없이 사용 가능하다. 본 발명의 일 실시예에서 활용가능한 유전체 메틸화 정보로 공용 데이터베이스(DB)인 TCGA(The Cancer Genome Atlas) 데이터베이스, 또는 GEO(Gene Expression Omnibus) 데이터베이스, CFEA, Finale DB, NucPosDB, EGA, EBI Expression Atlas, EBI Single Cell Expression Atlas, ArrayExpress, GDC Data Portal, The Human DNA Methylation atlas, MethHC, GTEx Portal, TissueAtlas2, The Human Protein Atlas, ImmuCellDB, Rfam, RNAcentral, lncRNApedia, NONCODE, miRBase, Roadmap Epigenomics Project(NIH Roadmap Epigenomics Project), Blueprint, MethBank, DiseaseMeth 3.0, MetabolomeXchange, Human Metabolome 데이터베이스, OncoDB, The Human Cell Atlas, FANTOM6, ATACdb, 또는 EWAS datahub 등의 데이터베이스를 사용하였으나, 이에 제한되지 않는다.In the present invention, the usable genome methylation information may be methylation information obtained based on a public database (DB) or research results, but is not limited to specific methylation information, as long as it contains methylation information of the epigenome region. Genomic methylation information can be used without restrictions. Genome methylation information that can be used in one embodiment of the present invention includes the TCGA (The Cancer Genome Atlas) database, which is a public database (DB), or the GEO (Gene Expression Omnibus) database, CFEA, Finale DB, NucPosDB, EGA, EBI Expression Atlas, EBI Single Cell Expression Atlas, ArrayExpress, GDC Data Portal, The Human DNA Methylation atlas, MethHC, GTEx Portal, TissueAtlas2, The Human Protein Atlas, ImmuCellDB, Rfam, RNAcentral, lncRNApedia, NONCODE, miRBase, Roadmap Epigenomics Project (NIH Roadmap Epigenomics Project ), Blueprint, MethBank, DiseaseMeth 3.0, MetabolomeXchange, Human Metabolome database, OncoDB, The Human Cell Atlas, FANTOM6, ATACdb, or EWAS datahub, but are not limited to these databases.

또한, 상기 (a) 및 (b) 단계에서 사용하는 유전체 메틸화 정보와 상기 (d) 단계에서 사용하는 유전체 메틸화 정보가 상이할 수 있으나, 동일한 유전체 메틸화 정보를 사용할 수도 있다. 본 발명의 일 실시예에서는 상기 (a) 및 (b) 단계에서는 TCGA 데이터베이스를 사용하였고, 상기 (d) 단계에서는 GEO 데이터베이스를 사용하였으나, 이에 제한되지 않는다.Additionally, the genome methylation information used in steps (a) and (b) may be different from the genome methylation information used in step (d), but the same genome methylation information may be used. In one embodiment of the present invention, the TCGA database was used in steps (a) and (b), and the GEO database was used in step (d), but the present invention is not limited thereto.

유전체 영역의 메틸화를 분석할 수 있는 다양한 기술이 당 분야에 공지되어 있다. 본 발명의 일 실시예에서는 Infinium MethylationEPIC 어레이 데이터, 및 Infinium Methylation 450K 어레이 데이터를 사용하였으나, 본 발명에서 사용하고자 하는 유전체 영역의 메틸화 부위 비교 및 정렬화를 달성할 수 있는 기술이라면 공지된 메틸화 분석 기술을 제한없이 이용할 수 있다.Various techniques for analyzing methylation of genomic regions are known in the art. In one embodiment of the present invention, Infinium MethylationEPIC array data and Infinium Methylation 450K array data were used, but any known methylation analysis technology can be used as long as it can achieve comparison and alignment of methylation sites in the genomic region to be used in the present invention. It can be used without restrictions.

본 발명에서, 상기 후성 유전체 영역은 CpG 영역일 수 있으나, 이에 제한되지 않는다. 상기 유전체 메틸화 정보는 체액, 조직(tissue), cfDNA(cell-free DNA), ctDNA(circulating tumor DNA), CTC(Circulating Tumor Cell), 혈액 단핵 세포, 및 엑소좀으로 이루어지는 군으로부터 선택되는 생체분자의 메틸화 정보일 수 있으며, 상기 체액은 혈액, 타액, 눈물, 소변, 대변, 질액, 소화액, 뇌척수액, 콧물일 수 있으며, 신체에서 유래 되는 모든 액체화될 수 있는 물질일 수 있으나, 이에 제한되지 않는다.In the present invention, the epigenome region may be a CpG region, but is not limited thereto. The genomic methylation information is of biomolecules selected from the group consisting of body fluids, tissues, cfDNA (cell-free DNA), ctDNA (circulating tumor DNA), CTC (Circulating Tumor Cell), blood mononuclear cells, and exosomes. It may be methylation information, and the body fluid may be blood, saliva, tears, urine, feces, vaginal fluid, digestive juice, cerebrospinal fluid, nasal discharge, or any liquefied substance derived from the body, but is not limited thereto.

본 발명에서, "미리 설정된 임계값"은 통계적인 방법으로 질병을 진단하는데 유의한 것으로 설정된 값을 의미한다.In the present invention, “preset threshold” means a value set as significant for diagnosing a disease using a statistical method.

본 발명에서, 상기 (c) 단계의 메틸화 정량값 차이의 절대값이 클수록 질병 특이적인 것으로, 질병을 구분하는 능력이 큰 것을 의미할 수 있으나, 이에 제한되지 않는다. 본 발명에서, 과메틸화 바이오마커를 발굴하는 경우, (c) 단계의 메틸화 정량값의 차이는 (질병 조직의 후성 유전체 영역의 메틸화 정량값 - 정상 조직의 후성 유전체 영역의 메틸화 정량값)을 사용하였으나, 이에 제한되지 않는다. 또한, 저메틸화 바이오마커를 발굴하는 경우, (c) 단계의 메틸화 정량값의 차이는 (정상 조직의 후성 유전체 영역의 메틸화 정량값 - 질병 조직의 후성 유전체 영역의 메틸화 정량값)을 사용할 수 있다.In the present invention, the greater the absolute value of the difference in the methylation quantification value in step (c), the more disease-specific it is, which may mean that the ability to distinguish diseases is greater, but is not limited thereto. In the present invention, when discovering a hypermethylation biomarker, the difference in the methylation quantitative value in step (c) was used (quantitative methylation value of the epigenome region of the diseased tissue - quantitative methylation value of the epigenome region of the normal tissue). , but is not limited to this. In addition, when discovering a hypomethylation biomarker, the difference in the methylation quantitative value in step (c) can be used (quantitative methylation value of the epigenome region of normal tissue - methylation quantitative value of the epigenome region of diseased tissue).

본 발명은 노이즈 시그널을 제외하여 민감도 및 특이도가 높은 바이오 마커를 발굴할 수 있다. 본 발명에 있어서 상기 노이즈 시그널은 바이오마커의 유효성을 높이기 위해서 제거해야 하는 것으로, 상기 (a) 단계의 질병 조직의 후성 유전체 영역의 메틸화 정량값과 상기 (d) 단계의 정상 체액의 메틸화 정량값의 차이가 클수록 체액의 노이즈 시그널이 제거되는 것이다.The present invention can discover biomarkers with high sensitivity and specificity by excluding noise signals. In the present invention, the noise signal must be removed to increase the effectiveness of the biomarker, and the quantitative methylation value of the epigenome region of the diseased tissue in step (a) and the quantitative methylation value of normal body fluid in step (d) The larger the difference, the more noise signals from bodily fluids are removed.

구체적으로 과메틸화 마커의 경우, 상기 (d) 단계에서 정상 체액의 메틸화 정량값이 작을수록 노이즈 시그널이 적은 것이다. 또한, 상기 정상 체액의 메틸화 정량값이 0에 가까울수록, 상기 (a) 및 (d) 단계의 정량값의 차이가 커져 노이즈 시그널이 적어지는 것을 의미한다.Specifically, in the case of hypermethylation markers, the smaller the quantitative methylation value of normal body fluid in step (d), the smaller the noise signal. In addition, the closer the quantitative methylation value of the normal body fluid is to 0, the greater the difference between the quantitative values in steps (a) and (d), which means that the noise signal decreases.

저메틸화 마커의 경우, 상기 (d) 단계에서 정상 체액의 메틸화 정량값이 클수록 노이즈 시그널이 적은 것이다. 또한, 상기 정상 체액의 메틸화 정량값이 1에 가까울수록, 상기 (a) 및 (d) 단계의 정량값의 차이가 커져 노이즈 시그널이 적어지는 것을 의미한다.In the case of hypomethylated markers, the greater the quantitative methylation value of normal body fluid in step (d), the smaller the noise signal. In addition, the closer the methylation quantitative value of the normal body fluid is to 1, the greater the difference between the quantitative values in steps (a) and (d), which means that the noise signal is reduced.

본 발명에서, 상기 유효성이란 바이오마커의 질병 진단 민감도와 특이도를 의미하는 것으로, 유효성이 높은 경우 질병 구분능이 높은 것이다.In the present invention, the effectiveness refers to the disease diagnosis sensitivity and specificity of the biomarker, and when the effectiveness is high, the disease discrimination ability is high.

본 발명에서, “진단”은 특정 질병 또는 질환에 대한 한 객체의 민감성(susceptibility)을 판정하는 것, 한 객체가 특정 질병 또는 질환을 현재 가지고 있는지 여부를 판정하는 것, 특정 질병 또는 질환에 걸린 한 객체의 예후(prognosis)를 판정하는 것, 또는 테라메트릭스(therametrics)(예컨대, 치료 효능에 대한 정보를 제공하기 위하여 객체의 상태를 모니터링 하는 것)를 모두 포함하는 개념이다. 본 발명에 있어서, 상기 진단은 조기 진단 또는 발병 예측을 의미할 수 있으나, 이에 제한되지 않는다.In the present invention, “diagnosis” refers to determining the susceptibility of an object to a specific disease or disorder, determining whether an object currently has a specific disease or condition, and determining whether an object currently has a specific disease or condition. It is a concept that includes both determining the prognosis of an object or therametrics (e.g., monitoring the condition of an object to provide information on treatment efficacy). In the present invention, the diagnosis may mean early diagnosis or prediction of onset, but is not limited thereto.

본 발명에서, 상기 바이오마커 발굴방법으로 발굴된 바이오마커 후보군 중에서 최적화 과정을 거쳐 최종적으로 질병 특이적인 바이오마커를 선정할 수 있다. 구체적으로, 인 실리코 검사(in silico test) 결과를 이용한 상관계수 분석값 및 임상 데이터의 유의성 분석 결과를 이용하여 최적화 과정을 거칠 수 있다.In the present invention, a disease-specific biomarker can be finally selected through an optimization process among the biomarker candidates discovered through the biomarker discovery method. Specifically, an optimization process can be performed using correlation coefficient analysis values using in silico test results and significance analysis results of clinical data.

본 발명에서, "최적화(Optimization)"는 본 발명의 발굴된 바이오마커 후보군 중에서 질병 구분능, 질병 진단 민감도, 특이성 등의 유효성이 높은 바이오마커를 선정하는 과정을 의미하는 것이다. 본 발명의 일 실시예에서는 과메틸화 바이오마커의 최적화 과정을 거쳐 [질환 조직의 메틸화 평균 정량값 - 정상 조직의 메틸화 평균 정량값≥0.15; 및 정상체액 메틸화 평균 정량값≤0.2]인 기준을 최적화 기준으로 선정하고, 이에 해당하는 마커를 최종 바이오마커로 선별하였다.In the present invention, “Optimization” refers to the process of selecting a biomarker with high effectiveness in disease classification ability, disease diagnosis sensitivity, specificity, etc. from among the discovered biomarker candidates of the present invention. In one embodiment of the present invention, through an optimization process of hypermethylation biomarkers [average quantitative methylation value of diseased tissue - average quantitative methylation value of normal tissue ≥ 0.15; and normal body fluid methylation average quantitative value ≤ 0.2] was selected as the optimization standard, and the corresponding marker was selected as the final biomarker.

또한, 본 발명에서, 저메틸화 바이오마커 발굴 방법은 과메틸화 바이오마커 발굴 방법과 동일한 최적화 과정을 거칠 수 있으나, 최적의 마커를 판단하는 기준이 상이할 수 있다. 구체적으로, [정상 조직의 메틸화 평균 정량값 - 질환 조직의 메틸화 평균 정량값≥0.15; 및 정상체액 메틸화 평균 정량값≥0.8]인 기준을 최적화 기준으로 선정하고, 이에 해당하는 저메틸화 마커를 최종 바이오마커로 선별할 수 있으나, 이에 제한되지 않는다.Additionally, in the present invention, the method for discovering hypomethylated biomarkers may undergo the same optimization process as the method for discovering hypermethylated biomarkers, but the criteria for determining the optimal marker may be different. Specifically, [average quantitative methylation value of normal tissue - average quantitative methylation value of diseased tissue≥0.15; and normal body fluid methylation average quantitative value ≥ 0.8] is selected as the optimization standard, and the corresponding hypomethylation marker can be selected as the final biomarker, but is not limited to this.

본 발명에서, 상기 메틸화 정량값은 베타값으로 계산하였고, 상기 베타값은 메틸화된 신호 강도와 메틸화되지 않은 신호 강도의 합에 대한 메틸화된 신호 강도의 비율을 취하여 계산할 수 있으나, 이에 제한되지 않는다.In the present invention, the methylation quantitative value is calculated as a beta value, and the beta value can be calculated by taking the ratio of the methylated signal intensity to the sum of the methylated signal intensity and the unmethylated signal intensity, but is not limited thereto.

본 발명에서, 상기 바이오마커 발굴 방법은 본 발명의 방법으로 발굴된 바이오마커, 및 인 실리코 검사(in silico test) 결과의 상관계수 분석값이 0.5 이상인 마커를 선정하는 단계;를 추가로 더 포함할 수 있다.In the present invention, the biomarker discovery method may further include the step of selecting a biomarker discovered by the method of the present invention and a marker whose correlation coefficient analysis value of the in silico test result is 0.5 or more. You can.

또한, 상기 바이오마커 발굴 방법은 본 발명의 방법으로 발굴된 바이오마커 중에서 정상-질병 임상 데이터의 유의성 분석 결과 p값이 0.05 미만인 마커를 선정하는 단계;를 추가로 더 포함할 수 있다.In addition, the biomarker discovery method may further include selecting a marker whose p value is less than 0.05 as a result of significance analysis of normal-disease clinical data among the biomarkers discovered by the method of the present invention.

본 발명에서, 상기 바이오마커 발굴 방법은 본 발명의 방법으로 발굴된 바이오마커, 및 인 실리코 검사 결과의 상관계수 분석값이 0.5 이상이고,In the present invention, the biomarker discovery method has a correlation coefficient analysis value of 0.5 or more between the biomarkers discovered by the method of the present invention and the in silico test results,

본 발명의 방법으로 발굴된 바이오마커 중에서 정상-질병 임상 데이터의 유의성 분석 결과 p값이 0.05 미만인 마커를 선정하는 단계;를 추가로 더 포함할 수 있으나, 이에 제한되지 않는다.A step of selecting a marker with a p value of less than 0.05 as a result of significance analysis of normal-disease clinical data among the biomarkers discovered by the method of the present invention may be further included, but is not limited thereto.

구체적으로, 이에 더하여, 본 발명의 방법으로 발굴된 바이오마커, 및 인 실리코 검사 결과의 상관계수 분석값이 가장 높은 지점의 마커를 선정하는 단계를 추가로 더 포함하여, 임상 데이터의 유의성 분석 결과보다 상관계수 분석값에 비중을 더 두어 마커를 선정할 수 있다.Specifically, in addition to this, a step of selecting the biomarker discovered by the method of the present invention and the marker at the point where the correlation coefficient analysis value of the in silico test result is the highest is further included, compared to the significance analysis result of the clinical data. Markers can be selected by giving more weight to the correlation coefficient analysis value.

또는, 본 발명의 방법으로 발굴된 바이오마커 중에서 정상-질병 임상 데이터의 유의성 분석 결과 p값이 가장 낮은 지점의 마커를 선정하는 단계;를 추가로 더 포함하여, 상관계수 분석값보다 임상 데이터의 유의성 분석 결과에 비중을 더 두어 마커를 선정할 수 있다.Alternatively, among the biomarkers discovered by the method of the present invention, the marker at the point with the lowest p value as a result of the significance analysis of normal-disease clinical data is selected, further comprising the step of selecting the marker at which the significance of the clinical data is higher than the correlation coefficient analysis value. Markers can be selected by giving more weight to the analysis results.

본 발명에서, 상기 바이오마커 발굴 방법은 후성유전체 메틸화를 이용하여 진단, 검출, 분석할 수 있는 다양한 질병에 사용될 수 있다. 예컨대 후성유전적 변화와 관련이 있는 것으로 보고된 암, 세포변성 질환, 염증성질환, 선천적 유전성 질환, 자가면역질환, 심혈관계질환, 정신질환, 소화기질환, 호흡기질환, 내분비질환, 만성질환, 신경퇴행성 질환, 알츠하이머, 또는 치매 등에 사용될 수 있다. In the present invention, the biomarker discovery method can be used for various diseases that can be diagnosed, detected, and analyzed using epigenome methylation. For example, cancer, cytodegenerative disease, inflammatory disease, congenital genetic disease, autoimmune disease, cardiovascular disease, mental disease, digestive disease, respiratory disease, endocrine disease, chronic disease, and neurodegeneration that have been reported to be related to epigenetic changes. It can be used for disease, Alzheimer's disease, or dementia.

대상 질병이 암인 경우, 갑상선암, 부갑상선암, 자궁경부암, 뇌암, 폐암, 난소암, 방광암, 신장암, 간암, 췌장암, 전립선암, 고환암, 피부암, 설암, 유방암, 자궁암, 위암, 직장암, 대장암, 소장암, 혈액암, 골암, 구강암, 인두암, 후두암, 결장암, 담낭암, 담도암, 복막암, 부신암, 식도암, 신우암, 심장암, 요도암, 및 요관암으로 이루어지는 군으로부터 선택되는 질병에 특이적으로 사용할 수 있다. 또한, 상기 폐암은 소세포성 폐암 또는 비소세포성 폐암일 수 있으며, 상기 비소세포성 폐암은 폐의 선암, 편평상피세포암, 또는 대세포암일 수 있으나, 이에 제한되지 않는다. 한편, 본 발명의 일 실시예는 질환 조직의 메틸화 평균 정량값 - 정상 조직의 메틸화 평균 정량값≥0.15; 및 정상체액 메틸화 평균 정량값≤0.2에 해당하는 마커를 본 발명의 발굴 방법으로 선정하여 체액으로부터 폐암을 특이적으로 구분 및 진단할 수 있음을 확인하였다.If the target disease is cancer, thyroid cancer, parathyroid cancer, cervical cancer, brain cancer, lung cancer, ovarian cancer, bladder cancer, kidney cancer, liver cancer, pancreatic cancer, prostate cancer, testicular cancer, skin cancer, tongue cancer, breast cancer, uterine cancer, stomach cancer, rectal cancer, colon cancer, Specific for diseases selected from the group consisting of small intestine cancer, blood cancer, bone cancer, oral cancer, pharynx cancer, larynx cancer, colon cancer, gallbladder cancer, biliary tract cancer, peritoneal cancer, adrenal cancer, esophagus cancer, renal pelvis cancer, heart cancer, urethra cancer, and ureter cancer. It can be used adversarially. Additionally, the lung cancer may be small cell lung cancer or non-small cell lung cancer, and the non-small cell lung cancer may be lung adenocarcinoma, squamous cell cancer, or large cell cancer, but is not limited thereto. Meanwhile, in one embodiment of the present invention, the average quantitative methylation value of diseased tissue - the average quantitative methylation value of normal tissue ≥ 0.15; And markers corresponding to the average quantitative methylation value of normal body fluids ≤ 0.2 were selected using the discovery method of the present invention, and it was confirmed that lung cancer can be specifically distinguished and diagnosed from body fluids.

또한, 대상 질병은 암과 함께 대표적인 후성유전학적 질병으로 알려진 자가면역질환일 수 있으며, 예컨대 전신홍반성낭창 또는 류마티스 관절염일 수 있다. Additionally, the target disease may be an autoimmune disease known as a representative epigenetic disease along with cancer, for example, systemic lupus erythematosus or rheumatoid arthritis.

또한, 본 발명은 (a) 활용 가능한 유전체 메틸화 정보를 이용하여 질병 조직의 후성 유전체 영역의 메틸화 정량값을 도출하는 단계; In addition, the present invention includes the steps of (a) deriving a quantitative methylation value of the epigenome region of a diseased tissue using available genome methylation information;

(b) 활용 가능한 유전체 메틸화 정보를 이용하여 정상 조직의 후성 유전체 영역의 메틸화 정량값을 도출하는 단계; (b) deriving quantitative methylation values of the epigenome region of normal tissue using available genomic methylation information;

(c) 상기 (a) 및 (b) 단계에서 도출된 질병 조직 및 정상 조직의 메틸화 정량값의 차이를 제1 데이터 셋(set)으로 저장하는 단계; (c) storing the difference between the quantitative methylation values of the diseased tissue and the normal tissue derived in steps (a) and (b) as a first data set;

(d) 활용 가능한 유전체 메틸화 정보를 이용하여 정상 체액 특이적 후성 유전체 영역의 메틸화 정량값을 도출하여 제2 데이터 셋으로 저장하는 단계; (d) deriving quantitative methylation values of normal body fluid-specific epigenome regions using available genome methylation information and storing them as a second data set;

(e) 제1 데이터 셋과 제2 데이터 셋을 2차원 행렬 데이터로 가공하는 단계; 및(e) processing the first data set and the second data set into two-dimensional matrix data; and

(f) 상기 (c) 단계에서 도출된 메틸화 정량값의 차이; 및 (d) 단계에서 도출된 메틸화 정량값;이 미리 설정된 각각의 임계값을 초과하는 후성 유전체 영역을 상기 2차원 행렬 데이터에서 질병 조직 특이적 과메틸화 또는 저메틸화 바이오 마커로 선택하는 단계; 를 포함하는, 질병 조직 특이적 과메틸화 또는 저메틸화 바이오마커 발굴 방법을 제공한다.(f) difference in the quantitative methylation values derived in step (c) above; and the methylation quantification value derived in step (d); selecting an epigenomic region exceeding each preset threshold as a disease tissue-specific hypermethylation or hypomethylation biomarker from the two-dimensional matrix data; Provides a method for discovering disease tissue-specific hypermethylated or hypomethylated biomarkers, including.

본 발명에서, 상기 2차원 행렬 데이터에서 상기 제1 데이터 셋은 행(row)이 되고, 상기 제2 데이터 셋은 열(column)이 될 수 있으나, 이에 제한되지 않는다.In the present invention, in the two-dimensional matrix data, the first data set may be a row and the second data set may be a column, but are not limited thereto.

본 발명에서, 상기 데이터 셋은 자료 집합 또는 데이터 세트(set)를 의미하는 것이다. 상기 데이터셋은 행과 열로 구성된 2차원 형태의 정보로 가공될 수 있으나, 이에 제한되지 않는다.In the present invention, the data set refers to a data set or data set. The data set may be processed into two-dimensional information consisting of rows and columns, but is not limited to this.

상기 질병 조직 특이적 과메틸화 또는 저메틸화 바이오마커 발굴 방법은The method for discovering disease tissue-specific hypermethylated or hypomethylated biomarkers is

(g-1) 선택된 과메틸화 또는 저메틸화 바이오 마커 중, 과메틸화 또는 저메틸화 바이오 마커 및 실리코 검사(in silico test) 결과의 상관계수 분석값이 0.5 이상인 마커를 선정하는 단계; 또는(g-1) Among the selected hypermethylated or hypomethylated biomarkers, selecting hypermethylated or hypomethylated biomarkers and markers for which the correlation coefficient analysis value of the in silico test results is 0.5 or more; or

(g-2) 선택된 과메틸화 또는 저메틸화 바이오 마커 중, 정상-질병 임상 데이터의 유의성 분석 결과 p값이 0.05 미만인 마커를 선정하는 단계; 를 추가로 더 포함할 수 있으나, 이에 제한되지 않는다.(g-2) among the selected hypermethylated or hypomethylated biomarkers, selecting a marker whose p value is less than 0.05 as a result of significance analysis of normal-disease clinical data; It may further include, but is not limited to this.

또한, 본 발명은 상기 (g-2) 및 (g-2) 단계를 모두 포함하고, In addition, the present invention includes both steps (g-2) and (g-2),

(h) 상기 (g-1) 에서 선정된 마커를 상관관계가 높은 순으로 우선순위를 부여하여 제3 데이터 셋을 생성하고, (h) Generate a third data set by prioritizing the markers selected in (g-1) above in order of high correlation,

상기 (g-2) 에서 선정된 마커를 p값이 낮은 순으로 우선순위를 부여하여 제4 데이터 셋을 생성하는 단계; 및Generating a fourth data set by prioritizing the markers selected in (g-2) in descending order of p value; and

(i) 상기 (h) 단계의 제3 데이터 셋 및 제4 데이터 셋을 비교하여 미리 설정된 순위 이상에 공통으로 존재하는 교집합을 선정하는 단계; 를 더 포함하는 질병 조직 특이적 과메틸화 또는 저메틸화 바이오마커 발굴 방법을 제공할 수 있다.(i) comparing the third and fourth data sets of step (h) and selecting an intersection that exists in common above a preset rank; It is possible to provide a method for discovering disease tissue-specific hypermethylated or hypomethylated biomarkers further comprising:

본 발명의 바이오마커 발굴 방법의 각 단계 및 결과 값은 데이터를 시각화 할 수 있는 당 분야의 공지된 방법에 의하여 제한없이 표현될 수 있다. 바람직하게는 시각화를 위해 2차원 행렬 데이터를 이용하는 플롯인 매트릭스 플롯을 이용할 수 있으며, 나아가 히트맵, 클러스터 맵을 활용할 수 있다. 본 발명의 일 실시예에서는 조직과 체액으로부터 질병 특이적 시그널 구분에 대한 내용을 설명하기 위한 그림자료로 매트릭스를 이용하였으나, 이에 제한되지 않는다.Each step and result value of the biomarker discovery method of the present invention can be expressed without limitation by methods known in the art for visualizing data. Preferably, a matrix plot, which is a plot that uses two-dimensional matrix data, can be used for visualization, and heat maps and cluster maps can also be used. In one embodiment of the present invention, a matrix is used as graphic material to explain the contents of distinguishing disease-specific signals from tissues and body fluids, but the present invention is not limited thereto.

따라서, 본 발명의 바이오마커 발굴 방법으로 생체분자로부터 체액의 노이즈를 최소화한 질병 특이적인 최적의 바이오마커를 선정할 수 있으며, 이를 인 실리코 검사(in silico test) 결과를 이용한 상관계수 분석값 및 임상 데이터의 유의성 분석 결과를 통해서 검증하였다. 이에, 본 발명의 방법을 이용하여 생체분자로부터 간편하게 질병을 조기 예측, 진단, 모니터링할 수 있을 것이다.Therefore, with the biomarker discovery method of the present invention, it is possible to select an optimal disease-specific biomarker that minimizes noise in body fluids from biomolecules, and this can be analyzed using correlation coefficient analysis values and clinical results using in silico test results. It was verified through the results of data significance analysis. Accordingly, using the method of the present invention, it will be possible to easily predict, diagnose, and monitor diseases early from biomolecules.

본 발명은 체액으로부터 질병 및 건강상태의 예측 및 진단용 바이오마커를 선정하는 방법에 관한 것으로서, 구체적으로는 체액 내의 유전정보를 포함하고 있는 생체분자(cfDNA 단편, CTC, 엑소좀 등)의 후성유전체 정보와 조직의 후성유전체 정보를 이용한 바이오마커 선정 방법을 제공한다. 이를 통해 질병을 조기에 예측, 진단할 수 있으며, 질병의 재발 여부를 체액만으로 모니터링할 수 있다. 또한 질병에 걸리지 않더라도 몸 안의 각종 장기 별 건강상태를 확인할 수 있다.The present invention relates to a method of selecting biomarkers for prediction and diagnosis of diseases and health conditions from body fluids. Specifically, the epigenome information of biomolecules (cfDNA fragments, CTCs, exosomes, etc.) containing genetic information in body fluids. Provides a method for selecting biomarkers using epigenome information of tissues. Through this, diseases can be predicted and diagnosed early, and recurrence of the disease can be monitored using only body fluids. Additionally, even if you do not have a disease, you can check the health status of each organ in your body.

도 1은 질병 및 정상 조직 특이적 후성유전체와 정상 체액의 후성유전체의 비교를 통한 질병 특이적 바이오마커의 발굴 방법을 도식화한 것이다(막힌 원: 메틸화 된 CpGs, 뚫린 원: 메틸화 되지 않은 CpGs).
도 2는 공용 DB인 TCGA(The Cancer Genome Atlas) 및 GEO(Gene Expression Omnibus)를 이용하여, 폐암 특이적인 과메틸화 마커 후보군을 매트릭스를 통해 나타낸 도식도이다.
도 3은 본 발명의 바이오마커 발굴 방법으로 선정된 마커들을 인 실리코 검사(in silico test) 결과를 통해 검증한 결과를 나타낸 것이다.
도 4는 본 발명의 바이오마커 발굴 방법으로 선정된 마커들을 실제 임상의 정상 그룹과 폐암 환자 그룹 간의 결과를 통해 검증한 결과를 나타낸 것이다.
Figure 1 schematically illustrates a method for discovering disease-specific biomarkers through comparison of disease- and normal tissue-specific epigenomes and epigenomes of normal body fluids (closed circles: methylated CpGs, open circles: unmethylated CpGs).
Figure 2 is a schematic diagram showing lung cancer-specific hypermethylation marker candidates through a matrix using public databases TCGA (The Cancer Genome Atlas) and GEO (Gene Expression Omnibus).
Figure 3 shows the results of verification of markers selected by the biomarker discovery method of the present invention through in silico test results.
Figure 4 shows the results of verification of the markers selected by the biomarker discovery method of the present invention through the results between the normal group and the lung cancer patient group in actual clinical trials.

이하, 본 발명의 이해를 돕기 위하여 하기 실시예를 제시한다. 그러나 하기의 실시예는 본 발명을 보다 쉽게 이해하기 위하여 제공되는 것일 뿐, 하기 실시예에 의해 본 발명의 내용이 한정되는 것은 아니다.Hereinafter, the following examples are presented to aid understanding of the present invention. However, the following examples are provided only to make the present invention easier to understand, and the content of the present invention is not limited by the following examples.

[실험방법][Experimental method]

1. 메틸화 정량1. Methylation Quantification

본 실시예에서 마커셋 도출에 사용된 메틸화 정량 실험법은 공용 DB인 TCGA 및 GEO에서 illumina Infinium MethylationEPIC chip 또는 Infinium HumanMethylation450 BeadChip을 사용하여 도출된 값을 사용하였다.In this example, the methylation quantitative experiment method used to derive the marker set used values derived from public databases TCGA and GEO using the illumina Infinium MethylationEPIC chip or Infinium HumanMethylation450 BeadChip.

구체적으로, TCGA(The Cancer Genome Atlas) 데이터베이스의 Infinium MethylationEPIC 어레이 데이터와 GEO(Gene Expression Omnibus)의 Infinium Methylation 450K 어레이 데이터를 사용하여 종양 특이적 메틸화 마커를 선별하였다. 또한, TCGA에서 219개의 종양 조직 샘플과 190개의 정상 조직 샘플을 분석하여 종양 특이적 마커를 확인하였다. 종양 조직 샘플과 정상 조직 샘플 사이의 평균 베타 값의 차이가 0.15보다 높은 CpG 부위를 초기에 선택하였다. 다음으로 GSE40279의 건강한 혈액 샘플 656개를 분석하여 건강한 혈액 샘플에서 평균 베타 값이 0.2보다 높은 CpG 부위는 선택된 마커에서 제외하였다. 위의 과정에서 각 그룹의 샘플 중 절반에서 베타 값을 사용할 수 없는 CpG 사이트(결측치가 샘플의 50%이상인 CpG 부위)가 분석에서 제외되었다. 상기와 같은 과정을 거쳐 최종적으로 6243개의 CpG 부위를 종양 특이 마커로 선택하였다.Specifically, tumor-specific methylation markers were selected using Infinium MethylationEPIC array data from The Cancer Genome Atlas (TCGA) database and Infinium Methylation 450K array data from Gene Expression Omnibus (GEO). Additionally, 219 tumor tissue samples and 190 normal tissue samples were analyzed in TCGA to identify tumor-specific markers. CpG sites whose average beta value difference between tumor tissue samples and normal tissue samples was higher than 0.15 were initially selected. Next, 656 healthy blood samples of GSE40279 were analyzed, and CpG regions with an average beta value higher than 0.2 in the healthy blood samples were excluded from the selected markers. In the above process, CpG sites for which beta values were not available in half of the samples in each group (CpG sites with missing values in more than 50% of the samples) were excluded from the analysis. After going through the above process, 6243 CpG sites were finally selected as tumor-specific markers.

베타 값은 메틸화된 신호 강도와 메틸화되지 않은 신호 강도의 합에 대한 메틸화된 신호 강도의 비율을 취하여 계산하였다. 0-1.0의 베타 값은 각 CpG 부위에 대해, 각각 0%에서 100%까지 유의한 메틸화 백분율로 확인되었다.The beta value was calculated by taking the ratio of the methylated signal intensity to the sum of the methylated and unmethylated signal intensities. Beta values of 0-1.0 were identified as significant methylation percentages from 0% to 100% for each CpG site, respectively.

[[ 실시예Example ]]

실시예Example 1. One. TCGATCGA and GEOGEO 데이터베이스를 활용한 질병 특이적인 Disease-specific information using database 과메틸화hypermethylation 마커marker 후보군 도출방법 Candidate derivation method

하기 (1) 내지 (8) 단계를 포함하여, 질병 특이적인 과메틸화 마커 후보군을 도출하였다.A candidate group of disease-specific hypermethylation markers was derived, including steps (1) to (8) below.

(1) TCGA 데이터베이스의 219개의 종양 조직 샘플에서 질병 조직의 후성유전체 영역을 도출하여 메틸화 정량값을 정밀히 측정한다.(1) The epigenome region of the diseased tissue is derived from 219 tumor tissue samples in the TCGA database and the quantitative methylation value is precisely measured.

(2) TCGA 데이터베이스의 109개의 정상 조직 샘플에서 정상 조직의 후성유전체 영역을 도출하여 메틸화 정량값을 정밀히 측정한다.(2) The epigenome region of normal tissue is derived from 109 normal tissue samples in the TCGA database and the quantitative methylation value is precisely measured.

(3) GEO 데이터베이스 중 GSE40279의 656개의 혈액 샘플에서 정상 체액의 후성유전체 영역을 도출하여 메틸화 정량값을 정밀히 측정한다.(3) Epigenome regions of normal body fluids are derived from 656 blood samples of GSE40279 in the GEO database, and methylation quantitative values are precisely measured.

(4) (1)의 질병 조직의 메틸화 정량값과 (2)의 정상 조직의 메틸화 정량값의 차이를 수치화하여, 질병 조직과 정상 조직의 차이값을 정량화한다.(4) The difference between the quantitative methylation value of the diseased tissue in (1) and the quantitative methylation value of the normal tissue in (2) is quantified to quantify the difference between the diseased tissue and the normal tissue.

(5) (4)의 질병 조직과 정상 조직의 메틸화 차이값과 (3)의 정상 체액의 메틸화 정량값과 비교하여 질병 조직의 특이적인 과메틸화 마커 후보군을 도출한다.(5) By comparing the methylation difference value between diseased tissue and normal tissue in (4) and the methylation quantitative value of normal body fluid in (3), a candidate group of specific hypermethylation markers for diseased tissue is derived.

(6) (4)에서 정량값의 차이가 많이 날수록 질병 특이적인 성능을 가지는 마커이다.(6) In (4), the greater the difference in quantitative values, the more disease-specific the marker is.

(7) (5)의 체액의 노이즈 시그널을 제거하는 과정에서 (3)의 정량값이 낮을수록 노이즈 시그널이 적은 마커이다.(7) In the process of removing the noise signal of the body fluid in (5), the lower the quantitative value of (3), the lower the noise signal is.

(8) 통계분석을 통하여 질병-정상 차이값 및 정상 체액 정량값의 기준(threshold)을 설정하여, 설정한 통계 기준에 만족하는 최적의 바이오마커들을 선정한다.(8) Through statistical analysis, thresholds for disease-normal difference values and normal body fluid quantitative values are set, and optimal biomarkers that satisfy the set statistical standards are selected.

(1)~(4) 과정에 따라 아래 도 2와 같은 매트릭스(예시)를 활용하여 계산하는 방법론을 이용할 수 있으나, 그 표현법이 매트릭스로 한정되지 않는다.Depending on the processes (1) to (4), a calculation methodology using a matrix (example) as shown in Figure 2 below can be used, but the expression method is not limited to a matrix.

도 2의 y 및 x 축을 설명하면 다음과 같다.The y and x axes of Figure 2 are explained as follows.

1) y 축: 질병 조직의 메틸화 평균 정량값과 정상 조직의 메틸화 평균 정량값의 차이값으로, 차이가 많이 날수록 (1.0에 가까워질수록) 질병 특이적인 마커이다.1) y-axis: This is the difference between the average quantitative methylation value of diseased tissue and the average quantitative methylation value of normal tissue. The greater the difference (closer to 1.0), the more disease-specific the marker is.

① 질병 조직 특이적 과메틸화 마커를 선택할 경우: 질병 조직의 메틸화 정량값-정상 조직의 메틸화 정량값의 차이① When selecting a diseased tissue-specific hypermethylation marker: Difference between the quantitative methylation value of the diseased tissue and the quantitative methylation value of the normal tissue.

② 질병 조직 특이적 저메틸화 마커를 선택할 경우: 정상 조직의 메틸화 정량값-질병 조직의 메틸화 정량값의 차이② When selecting a disease tissue-specific hypomethylation marker: Difference between the quantitative methylation value of normal tissue and the quantitative methylation value of diseased tissue.

2) x 축: 정상 체액의 메틸화 정량값2) x-axis: methylation quantitative value of normal body fluid

① 질병 조직 특이적 과메틸화 마커를 선택할 경우: 체액의 메틸화 정량값이 낮을수록 (0에 가까워질수록) 체액의 노이즈 시그널이 적은 마커이다.① When selecting a disease tissue-specific hypermethylation marker: The lower the quantitative methylation value of the body fluid (closer to 0), the marker has less noise signal in the body fluid.

② 질병 조직 특이적 저메틸화 마커를 선택할 경우: 체액의 메틸화 정량값이 높을수록 (1에 가까워질수록) 체액의 노이즈 시그널이 적은 마커이다.② When selecting a disease tissue-specific hypomethylation marker: The higher the quantitative methylation value of the body fluid (closer to 1), the marker has less noise signal in the body fluid.

실시예Example 2. 2. 마커marker 선택을 위한 기준(threshold) 최적화 Optimizing the threshold for selection

실시예 1에서 공용 DB를 이용하여 각 기준에 따른 마커 수가 나오지만, 중요한 것은 실제로 정상(normal) 그룹과 환자 그룹의 차이가 확실한 의미 있는 마커를 선정하는 것이므로, 각 기준(threshold)별 마커들을 인 실리코 검사(in silico test) 및 임상샘플을 이용하여 정상 그룹과 환자 그룹 간의 차이, 즉 임상적 의미를 나타낼 수 있는 p값에 따른 최적 기준(optimal threshold)을 선정하였다. 구체적으로, 정상 조직과 종양조직 사이의 베타값 사이의 기준(threshold)를 인 실리코 검사(in silico test)에 활용하였고, 혈액의 베타값의 기준을 최적화하였다. 기준(threshold)을 각각 0.1 내지 0.95 로 0.05 간격으로 설정하였다. 폐 종양 리드와 추정 폐암 메틸화 마커 후보군 수를 인 실리코 검사를 통해 피어슨 상관계수를 계산하였다. 인 실리코 데이터는 정상 혈장 데이터와 폐 종양 조직 데이터를 이용하여 인공적으로 생성한 데이터이다. 또한 Wilcoxon rank sum test를 통해 건강한 대조군과 NSCLC 그룹 간의 추정 폐암 메틸화 마커 후보 수의 유의성을 확인하였다. In Example 1, the number of markers according to each criterion is calculated using a public DB, but the important thing is to select meaningful markers that actually show a clear difference between the normal group and the patient group, so the markers for each criterion (threshold) are analyzed in silico. Using in silico tests and clinical samples, an optimal threshold was selected according to the p value that can indicate the difference between the normal group and the patient group, that is, clinical significance. Specifically, the threshold between the beta values between normal and tumor tissues was used in an in silico test , and the standard for the beta value of blood was optimized. The thresholds were set at 0.05 intervals from 0.1 to 0.95, respectively. The Pearson correlation coefficient was calculated for the number of lung tumor leads and putative lung cancer methylation marker candidates through in silico testing. In silico data is artificially generated data using normal plasma data and lung tumor tissue data. Additionally, the significance of the number of putative lung cancer methylation marker candidates between the healthy control group and the NSCLC group was confirmed using the Wilcoxon rank sum test.

하기 실시예 3 및 4에서는 본 발명의 마커 발굴 방법을 이용하여 뽑은 마커의 질병 구분 성능을 증명하였다.In Examples 3 and 4 below, the disease classification performance of markers selected using the marker discovery method of the present invention was demonstrated.

실시예Example 3. 인 3. Phosphorus 실리코In silico 검사( test( in in silicosilico test test ) 결과를 통한 최적의 ) Optimal results through 마커marker 검증 verification

실시예 1 및 도 2에서 도출된 마커의 질병 진단 성능을 in silico 시뮬레이션 데이터를 통하여 증명하였으며, 그 결과를 도 3에 나타내었다. 상관계수 분석은 피어슨 상관계수 분석을 이용하였다.The disease diagnosis performance of the markers derived in Example 1 and FIG. 2 was demonstrated through in silico simulation data, and the results are shown in FIG. 3. The correlation coefficient analysis used Pearson correlation coefficient analysis.

도 3에 나타낸 바와 같이, 도 3의 y축은 질병 조직의 메틸화 평균 정량값과 정상 조직의 메틸화 평균 정량값의 차이값으로, 차이가 많이 날수록 (1.0에 가까워질수록) p값이 낮은 마커들이다. 또한, 도 3의 우측의 색 띠는 상관계수 분석 값으로 색이 진할수록 상관계수 분석값이 높은 것으로, 질병 구분 성능이 좋은 것이다. 본 발명에서는 상관계수 분석값이 0.5 이상인 마커셋(marker-set)을 바람직한 후보군으로 판단하였다.As shown in Figure 3, the y-axis of Figure 3 is the difference between the average quantitative methylation value of diseased tissue and the average quantitative methylation value of normal tissue, and the greater the difference (closer to 1.0), the lower the p value. In addition, the color band on the right side of Figure 3 is the correlation coefficient analysis value. The darker the color, the higher the correlation coefficient analysis value, which indicates better disease classification performance. In the present invention, a marker set with a correlation coefficient analysis value of 0.5 or more was determined to be a desirable candidate.

상기의 기준에 따라 최적화(Optimization)한 결과, y 축의 질병 조직의 메틸화 평균 정량값 - 정상 조직의 메틸화 평균 정량값≥0.15; 및 x 축의 정상체액 메틸화 평균 정량값≤0.2;가 가장 좋은 조건으로 확인되었고, 해당 조건에서의 CpG 마커를 최적의 마커로 선택할 수 있음을 확인하였다.As a result of optimization according to the above criteria, the average quantitative methylation value of diseased tissue on the y-axis - the average quantitative methylation value of normal tissue ≥ 0.15; And the average quantitative value of normal body fluid methylation on the x-axis ≤ 0.2 was confirmed as the best condition, and it was confirmed that the CpG marker under that condition could be selected as the optimal marker.

따라서, 본 발명의 마커 발굴 방법을 이용하면 최적의 마커를 구분할 수 있음을 확인하였다.Therefore, it was confirmed that the optimal marker can be identified using the marker discovery method of the present invention.

실시예Example 4. 임상 그룹에서의 최적의 4. Optimal in clinical groups 마커marker 검증 verification

본 발명의 마커 발굴 방법을 이용하여 뽑은 마커의 질병 구분 성능을 실제 임상데이터를 통하여 증명하였다. 구체적으로, 한국 화순전남대학교병원(CNUHH)의 연구윤리심의위원회(Institutional Review Board, IRB)의 승인을 얻은 후, CNUHH에서 NSCLC 환자로부터 139개의 혈장 샘플과 SCLC 환자로부터 62개의 혈장 샘플을 수집하였다(표 1). 대상자 선정 기준은 다음과 같다: 1) 18세 이상의 남녀, 2) CNUHH의 바이오뱅크에 기증 동의서 서명, 3) 폐암 진단 목적으로 2019년 8월부터 2021년 5월까지 CNUHH 방문, 및 4) 조직학적 또는 세포학적으로 NSCLC 또는 SCLC로 진단. 피험자 제외 기준은 다음과 같다: 1) 의료 기록에 접근할 수 없음, 2) 임신 또는 수유 중인 여성, 및 3) 폐 병변이 조직학적 또는 세포학적으로 악성으로 확인되지 않음. 모든 증례 샘플은 조직병리학적 검사를 받았고 다른 병기에 따라 분류하였다. NSCLC 샘플은 비슷한 비율로 선암종과 편평 세포 암종의 하위 유형 모두에 속하였다. NSCLC 샘플 중 76개는 선암종, 63개는 편평 세포 암종 샘플이었으며, 201개의 암 샘플 중 62건의 NSCLC 샘플과 36건의 SCLC 샘플은 각각 IV기와 ED로 분류된 전이 환자였다.The disease classification performance of the marker selected using the marker discovery method of the present invention was proven through actual clinical data. Specifically, after obtaining approval from the Institutional Review Board (IRB) of Chonnam National University Hospital (CNUHH), Hwasun, Korea, 139 plasma samples from NSCLC patients and 62 plasma samples from SCLC patients were collected at CNUHH ( Table 1). The criteria for selecting subjects were as follows: 1) men and women aged 18 years or older, 2) signed consent form for donation to CNUHH's biobank, 3) visited CNUHH between August 2019 and May 2021 for the purpose of lung cancer diagnosis, and 4) histological evaluation. or cytologically diagnosed as NSCLC or SCLC. Subject exclusion criteria were as follows: 1) no access to medical records, 2) pregnant or lactating women, and 3) lung lesions not histologically or cytologically confirmed as malignant. All case samples underwent histopathological examination and were classified according to different stages. NSCLC samples belonged to both adenocarcinoma and squamous cell carcinoma subtypes in similar proportions. Among the NSCLC samples, 76 were adenocarcinoma and 63 were squamous cell carcinoma samples, and among the 201 cancer samples, 62 NSCLC samples and 36 SCLC samples were patients with metastases classified as stage IV and ED, respectively.

상기 임상 샘플의 혈장(plasma) cfDNA를 활용하여, 정상 그룹과 폐암 환자 그룹의 ctDNA 후보군(candidate)의 차이를 비교하였다. 실시예 1 및 도 2에서 도출된 마커과 임상 샘플에서 확인된 ctDNA 후보군 마커를 이용하여 Wilcoxon 순위-합 검정(Wilcoxon rank-sum test)을 수행하였으며, 유의성 분석 결과 p값을 확인하고 그 결과를 도 4에 나타내었다. P값은 도 4의 우측 색 띠로 표시하였다. 색이 진할 수록, 낮은 p값을 의미하며 해당 위치의 마커가 질병 구분 성능이 좋음을 의미한다. 본 발명에서는 P값이 0.05 미만인 마커셋을 바람직한 후보군으로 판단하였다.Using the plasma cfDNA of the clinical sample, the differences between ctDNA candidates between the normal group and the lung cancer patient group were compared. A Wilcoxon rank-sum test was performed using the markers derived in Example 1 and FIG. 2 and the ctDNA candidate markers identified in clinical samples. The p value was confirmed as a result of the significance analysis, and the results are shown in FIG. 4 shown in The P value is indicated by the colored band on the right side of Figure 4. The darker the color, the lower the p value, meaning that the marker at that location has better disease classification performance. In the present invention, marker sets with a P value of less than 0.05 were judged to be desirable candidates.

도 4에 나타낸 바와 같이, 최적화(Optimization)한 결과, y 축의 질병 조직의 메틸화 평균 정량값 - 정상 조직의 메틸화 평균 정량값≥0.15; 및 x 축의 정상체액 메틸화 평균 정량값≤0.2;가 가장 좋은 조건으로 확인되었으며, 해당 조건에서의 CpG 마커를 최적의 마커로 선택할 수 있음을 확인하였다. As shown in Figure 4, as a result of optimization, the average quantitative methylation value of diseased tissue on the y-axis - the average quantitative methylation value of normal tissue ≥ 0.15; and the average quantification value of normal body fluid methylation on the

즉, 본 발명의 마커 발굴 방법을 이용하여 최적의 마커를 구분할 수 있는 능력이 있음을 확인한 것을 의미한다.In other words, it means that it was confirmed that the marker discovery method of the present invention has the ability to distinguish optimal markers.

실시예Example 5. 최종 5. Final 마커marker 선정 기준 Selection criteria

실시예 1를 통해 선별된 마커에 대하여, 인 실리코 검사(in silico test) 결과값과 실제 임상 데이터에서 각각의 마커셋을 이용하여, 질병 구분 성능을 확인하였고, 상관계수 분석값이 높고/높거나 유의성 분석값이 낮은 마커셋을 질병 진단의 마커로 선정하였다. 구체적으로, 하기 기준 중 하나를 선택하여 최종 마커를 선정하였다.For the markers selected through Example 1, disease classification performance was confirmed using each marker set in in silico test results and actual clinical data, and the correlation coefficient analysis value was high and/or high. A marker set with a low significance analysis value was selected as a marker for disease diagnosis. Specifically, the final marker was selected by selecting one of the following criteria.

기준 1. 피어슨 상관계수 분석값 (pearson correlation coefficient, PCC) 이 0.5 이상인 마커셋을 질병 진단의 마커로 선정하였다.Criteria 1. A marker set with a Pearson correlation coefficient (PCC) of 0.5 or higher was selected as a marker for disease diagnosis.

기준 2. 순위-합 검정 (rank-sum test) 유의성 분석결과 p값이 0.05 미만인 마커셋을 질병 진단의 마커로 선정하였다.Standard 2. As a result of the rank-sum test significance analysis, the marker set with a p value of less than 0.05 was selected as a marker for disease diagnosis.

기준 3. 피어슨 상관계수 분석값 (pearson correlation coefficient, PCC) 이 0.5 이상이고, 순위-합 검정 (rank-sum test) 유의성 분석결과 p값이 0.05 미만인 마커셋을 질병 진단의 마커로 선정하였다.Criteria 3. A marker set with a Pearson correlation coefficient (PCC) of more than 0.5 and a p value of less than 0.05 as a result of a rank-sum test significance analysis was selected as a marker for disease diagnosis.

3-1. 상기 3의 기준에서 선정된 마커 중 상관계수 분석값이 가장 높은 지점의 마커셋을 질병 진단의 마커로 선정하였다.3-1. Among the markers selected in the above 3 criteria, the marker set with the highest correlation coefficient analysis value was selected as the marker for disease diagnosis.

3-2. 상기 3의 기준에서 선정된 마커 중 유의성 분석 결과 p값이 가장 낮은 지점의 마커셋을 질병 진단의 마커로 선정하였다.3-2. Among the markers selected according to the above 3 criteria, the marker set with the lowest p value as a result of significance analysis was selected as the marker for disease diagnosis.

상기 진술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.The description of the present invention stated above is for illustrative purposes, and a person skilled in the art to which the present invention pertains can understand that it can be easily modified into other specific forms without changing the technical idea or essential features of the present invention. There will be. Therefore, the embodiments described above should be understood in all respects as illustrative and not restrictive.

Claims (15)

(a) 활용 가능한 유전체 메틸화 정보를 이용하여 질병 조직의 후성 유전체 영역의 메틸화 정량값을 도출하는 단계;
(b) 활용 가능한 유전체 메틸화 정보를 이용하여 정상 조직의 후성 유전체 영역의 메틸화 정량값을 도출하는 단계;
(c) 상기 (a) 및 (b) 단계에서 도출된 질병 조직 및 정상 조직의 메틸화 정량값의 차이를 도출하는 단계;
(d) 활용 가능한 유전체 메틸화 정보를 이용하여 정상 체액의 후성 유전체 영역의 메틸화 정량값을 도출하는 단계;
(e) (ⅰ) 질병 조직 특이적 과메틸화 바이오마커는 상기 (d) 단계의 메틸화 정량값이 미리 설정된 임계값보다 높은 경우에, (ⅱ) 질병 조직 특이적 저메틸화 바이오마커는 상기 (d) 단계의 메틸화 정량값이 미리 설정된 임계값보다 낮은 경우에 체액의 노이즈 시그널로 판단하여 바이오마커 후보군에서 제거하는 단계; 및
(f) 상기 (e) 단계에서 체액의 노이즈 시그널이 제거된 바이오마커 후보군에서 상기 (c) 단계에서 도출된 메틸화 정량값의 차이값이 미리 설정된 임계값을 초과하는 후성 유전체 영역을 질병 조직 특이적 과메틸화 또는 저메틸화 바이오 마커로 선택하는 단계; 를 포함하는, 질병 조직 특이적 메틸화 바이오마커 발굴 방법.
(a) deriving a quantitative methylation value of the epigenome region of the diseased tissue using available genome methylation information;
(b) deriving quantitative methylation values of the epigenome region of normal tissue using available genomic methylation information;
(c) deriving the difference between the quantitative methylation values of the diseased tissue and the normal tissue derived in steps (a) and (b);
(d) deriving quantitative methylation values of the epigenome region of normal body fluids using available genome methylation information;
(e) (i) The disease tissue-specific hypermethylation biomarker is when the methylation quantitative value in step (d) is higher than the preset threshold, and (ii) the disease tissue-specific hypomethylation biomarker is the disease tissue-specific hypomethylation biomarker in step (d). If the quantitative methylation value of the step is lower than a preset threshold, determining it to be a noise signal of body fluid and removing it from the biomarker candidate group; and
(f) In the biomarker candidate group from which the noise signal of body fluids has been removed in step (e), the epigenome region in which the difference value of the methylation quantification value derived in step (c) exceeds a preset threshold is identified as a disease tissue-specific Selecting as a hypermethylation or hypomethylation biomarker; Method for discovering disease tissue-specific methylation biomarkers, including.
제1항에 있어서,
상기 후성 유전체 영역은 CpG 영역인, 바이오마커 발굴 방법.
According to paragraph 1,
A biomarker discovery method wherein the epigenome region is a CpG region.
제1항에 있어서,
상기 (c) 단계의 메틸화 정량값 차이의 절대값이 클수록 질병 특이적인 것인, 바이오마커 발굴 방법.
According to paragraph 1,
The biomarker discovery method is such that the larger the absolute value of the difference in methylation quantitative values in step (c), the more disease-specific it is.
제1항에 있어서,
과메틸화 마커의 경우 상기 (d) 단계에서 정상 체액의 메틸화 정량값이 작을수록 노이즈 시그널이 적은 것이며,
저메틸화 마커의 경우 상기 (d) 단계에서 정상 체액의 메틸화 정량값이 클수록 노이즈 시그널이 적은 것인, 바이오마커 발굴 방법.
According to paragraph 1,
In the case of hypermethylation markers, the smaller the quantitative methylation value of normal body fluid in step (d), the smaller the noise signal,
In the case of hypomethylated markers, the larger the quantitative methylation value of normal body fluid in step (d), the smaller the noise signal.
제1항에 있어서,
상기 바이오마커 발굴 방법은 제1항의 방법으로 발굴된 바이오마커, 및 인 실리코 검사(in silico test) 결과의 상관계수 분석값이 0.5 이상인 마커를 선정하는 단계;를 추가로 더 포함하는, 바이오마커 발굴 방법.
According to paragraph 1,
The biomarker discovery method further includes the step of selecting the biomarker discovered by the method of paragraph 1 and a marker whose correlation coefficient analysis value of the in silico test result is 0.5 or more. method.
제1항에 있어서,
상기 바이오마커 발굴 방법은 제1항의 방법으로 발굴된 바이오마커 중에서 정상-질병 임상 데이터의 유의성 분석 결과 p값이 0.05 미만인 마커를 선정하는 단계;를 추가로 더 포함하는, 바이오마커 발굴 방법.
According to paragraph 1,
The biomarker discovery method further includes selecting a marker whose p value is less than 0.05 as a result of significance analysis of normal-disease clinical data from among the biomarkers discovered by the method of claim 1.
제1항에 있어서,
상기 바이오마커 발굴 방법은 제1항의 방법으로 발굴된 바이오마커, 및 인 실리코 검사 결과의 상관계수 분석값이 0.5 이상이고,
제1항의 방법으로 발굴된 바이오마커 중에서 정상-질병 임상 데이터의 유의성 분석 결과 p값이 0.05 미만인 마커를 선정하는 단계;를 추가로 더 포함하는, 바이오마커 발굴 방법.
According to paragraph 1,
In the biomarker discovery method, the correlation coefficient analysis value between the biomarker discovered by the method of paragraph 1 and the in silico test result is 0.5 or more,
A biomarker discovery method further comprising: selecting a marker whose p value is less than 0.05 as a result of significance analysis of normal-disease clinical data among the biomarkers discovered by the method of claim 1.
제7항에 있어서,
상기 바이오마커 발굴 방법은 제1항의 방법으로 발굴된 바이오마커, 및 인 실리코 검사 결과의 상관계수 분석값이 가장 높은 지점의 마커를 선정하는 단계를 추가로 더 포함하는, 바이오마커 발굴 방법.
In clause 7,
The biomarker discovery method further includes the step of selecting the biomarker discovered by the method of claim 1 and the marker at the point with the highest correlation coefficient analysis value of the in silico test results.
제7항에 있어서,
상기 바이오마커 발굴 방법은 제1항의 방법으로 발굴된 바이오마커 중에서 정상-질병 임상 데이터의 유의성 분석 결과 p값이 가장 낮은 지점의 마커를 선정하는 단계를 추가로 더 포함하는, 바이오마커 발굴 방법.
In clause 7,
The biomarker discovery method further includes the step of selecting a marker at the point with the lowest p value as a result of significance analysis of normal-disease clinical data among the biomarkers discovered by the method of claim 1.
제1항에 있어서,
상기 유전체 메틸화 정보는 체액, 조직(tissue), cfDNA(cell-free DNA), ctDNA(circulating tumor DNA), CTC(Circulating Tumor Cell), 혈액 단핵 세포, 및 엑소좀으로 이루어지는 군으로부터 선택되는 생체분자의 메틸화 정보인, 바이오마커 발굴 방법.
According to paragraph 1,
The genomic methylation information is of biomolecules selected from the group consisting of body fluids, tissues, cfDNA (cell-free DNA), ctDNA (circulating tumor DNA), CTC (Circulating Tumor Cell), blood mononuclear cells, and exosomes. Methylation information, biomarker discovery method.
제1항에 있어서,
상기 질병은 암, 세포 변성 질환, 염증성질환, 선천적 유전성 질환, 자가면역질환, 심혈관계질환, 정신질환, 소화기질환, 호흡기질환, 내분비질환, 만성질환, 신경퇴행성 질환, 알츠하이머, 및 치매로 이루어진 군에서 선택되는, 바이오 마커 발굴 방법.
According to paragraph 1,
The diseases include cancer, cell degenerative disease, inflammatory disease, congenital genetic disease, autoimmune disease, cardiovascular disease, mental disease, digestive disease, respiratory disease, endocrine disease, chronic disease, neurodegenerative disease, Alzheimer's, and dementia. Selected from the biomarker discovery method.
제11항에 있어서,
상기 암은 갑상선암, 부갑상선암, 자궁경부암, 뇌암, 폐암, 난소암, 방광암, 신장암, 간암, 췌장암, 전립선암, 고환암, 피부암, 설암, 유방암, 자궁암, 위암, 직장암, 대장암, 소장암, 혈액암, 골암, 구강암, 인두암, 후두암, 결장암, 담낭암, 담도암, 복막암, 부신암, 식도암, 신우암, 심장암, 요도암 및 요관암으로 이루어지는 군으로부터 선택되는, 바이오마커 발굴 방법.
According to clause 11,
The above cancers include thyroid cancer, parathyroid cancer, cervical cancer, brain cancer, lung cancer, ovarian cancer, bladder cancer, kidney cancer, liver cancer, pancreatic cancer, prostate cancer, testicular cancer, skin cancer, tongue cancer, breast cancer, uterine cancer, stomach cancer, rectal cancer, colon cancer, small intestine cancer, A biomarker discovery method selected from the group consisting of blood cancer, bone cancer, oral cancer, pharynx cancer, laryngeal cancer, colon cancer, gallbladder cancer, biliary tract cancer, peritoneal cancer, adrenal cancer, esophagus cancer, renal pelvis cancer, heart cancer, urethra cancer, and ureteral cancer.
(a) 활용 가능한 유전체 메틸화 정보를 이용하여 질병 조직의 후성 유전체 영역의 메틸화 정량값을 도출하는 단계;
(b) 활용 가능한 유전체 메틸화 정보를 이용하여 정상 조직의 후성 유전체 영역의 메틸화 정량값을 도출하는 단계;
(c) 상기 (a) 및 (b) 단계에서 도출된 질병 조직 및 정상 조직의 메틸화 정량값의 차이를 제1 데이터 셋(set)으로 저장하는 단계;
(d) 활용 가능한 유전체 메틸화 정보를 이용하여 정상 체액의 후성 유전체 영역의 메틸화 정량값을 도출하여 제2 데이터 셋으로 저장하는 단계;
(e) 제1 데이터 셋과 제2 데이터 셋을 2차원 행렬 데이터로 가공하는 단계; 및
(f) 상기 (c) 단계에서 도출된 메틸화 정량값의 차이; 및 (d) 단계에서 도출된 메틸화 정량값;이 미리 설정된 각각의 임계값을 초과하는 후성 유전체 영역을 상기 2차원 행렬 데이터에서 질병 조직 특이적 과메틸화 또는 저메틸화 바이오 마커로 선택하는 단계; 를 포함하는, 질병 조직 특이적 과메틸화 또는 저메틸화 바이오마커 발굴 방법.
(a) deriving a quantitative methylation value of the epigenome region of the diseased tissue using available genome methylation information;
(b) deriving quantitative methylation values of the epigenome region of normal tissue using available genomic methylation information;
(c) storing the difference between the quantitative methylation values of the diseased tissue and the normal tissue derived in steps (a) and (b) as a first data set;
(d) deriving quantitative methylation values of the epigenome region of normal body fluids using available genome methylation information and storing them as a second data set;
(e) processing the first data set and the second data set into two-dimensional matrix data; and
(f) difference in the quantitative methylation values derived in step (c) above; and the methylation quantification value derived in step (d); selecting an epigenomic region exceeding each preset threshold as a disease tissue-specific hypermethylation or hypomethylation biomarker from the two-dimensional matrix data; A method for discovering disease tissue-specific hypermethylated or hypomethylated biomarkers, including a method.
제13항에 있어서,
(g-1) 선택된 과메틸화 또는 저메틸화 바이오 마커 중, 과메틸화 또는 저메틸화 바이오 마커 및 실리코 검사(in silico test) 결과의 상관계수 분석값이 0.5 이상인 마커를 선정하는 단계; 또는
(g-2) 선택된 과메틸화 또는 저메틸화 바이오 마커 중, 정상-질병 임상 데이터의 유의성 분석 결과 p값이 0.05 미만인 마커를 선정하는 단계; 를 추가로 더 포함하는, 질병 조직 특이적 과메틸화 또는 저메틸화 바이오마커 발굴 방법.
According to clause 13,
(g-1) Among the selected hypermethylated or hypomethylated biomarkers, selecting hypermethylated or hypomethylated biomarkers and markers for which the correlation coefficient analysis value of the in silico test results is 0.5 or more; or
(g-2) among the selected hypermethylated or hypomethylated biomarkers, selecting a marker whose p value is less than 0.05 as a result of significance analysis of normal-disease clinical data; A method for discovering disease tissue-specific hypermethylated or hypomethylated biomarkers, further comprising:
제14항에 있어서,
상기 (g-2) 및 (g-2) 단계를 모두 포함하고,
(h) 상기 (g-1) 에서 선정된 마커를 상관관계가 높은 순으로 우선순위를 부여하여 제3 데이터 셋을 생성하고,
상기 (g-2) 에서 선정된 마커를 p값이 낮은 순으로 우선순위를 부여하여 제4 데이터 셋을 생성하는 단계; 및
(i) 상기 (h) 단계의 제3 데이터 셋 및 제4 데이터 셋을 비교하여 미리 설정된 순위 이상에 공통으로 존재하는 교집합을 선정하는 단계; 를 더 포함하는 질병 조직 특이적 과메틸화 또는 저메틸화 바이오마커 발굴 방법.
According to clause 14,
Including both steps (g-2) and (g-2) above,
(h) Generate a third data set by prioritizing the markers selected in (g-1) above in order of high correlation,
Generating a fourth data set by prioritizing the markers selected in (g-2) in descending order of p value; and
(i) comparing the third and fourth data sets of step (h) and selecting an intersection that exists in common above a preset rank; A method for discovering disease tissue-specific hypermethylated or hypomethylated biomarkers further comprising:
KR1020230038401A 2022-10-28 2023-03-24 Method for discovering disease biomarker through comparison of disease and normal tissue specific epigenome with normal body fluid epigenome KR102602100B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2023/016823 WO2024091052A1 (en) 2022-10-28 2023-10-27 Method for discovering disease biomarkers through comparison of diseased- and normal-tissue-specific epigenomes and normal body fluid epigenome

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020220141323 2022-10-28
KR20220141323 2022-10-28

Publications (1)

Publication Number Publication Date
KR102602100B1 true KR102602100B1 (en) 2023-11-14

Family

ID=88744912

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230038401A KR102602100B1 (en) 2022-10-28 2023-03-24 Method for discovering disease biomarker through comparison of disease and normal tissue specific epigenome with normal body fluid epigenome

Country Status (2)

Country Link
KR (1) KR102602100B1 (en)
WO (1) WO2024091052A1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220074201A (en) 2020-11-27 2022-06-03 부산대학교 산학협력단 Machine Learning System based on Convolutional Neural Network that Mimic Human Visual Inspection for Analysis of Epigenetic Data and its Operation Method

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100024492A (en) * 2005-03-18 2010-03-05 (주)지노믹트리 System for biomarker screening
EP3063689A4 (en) * 2013-10-29 2017-08-30 Genomic Health, Inc. Methods of incorporation of transcript chromosomal locus information for identification of biomarkers of disease recurrence risk
KR101542529B1 (en) * 2014-02-21 2015-08-06 (주)신테카바이오 Examination methods of the bio-marker of allele

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220074201A (en) 2020-11-27 2022-06-03 부산대학교 산학협력단 Machine Learning System based on Convolutional Neural Network that Mimic Human Visual Inspection for Analysis of Epigenetic Data and its Operation Method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Bonekey Rep, 5: 797 (2016.05.04.) *
Front Psychol, 11: 1767 (2020.08.11) *

Also Published As

Publication number Publication date
WO2024091052A1 (en) 2024-05-02

Similar Documents

Publication Publication Date Title
JP6480591B2 (en) Use of size and number abnormalities in plasma DNA for cancer detection
Carlsson et al. Circulating tumor microemboli diagnostics for patients with non–small-cell lung cancer
Liang et al. Accurate diagnosis of pulmonary nodules using a noninvasive DNA methylation test
CN111910004B (en) Application of cfDNA in noninvasive diagnosis of early breast cancer
CN111863250B (en) Combined diagnosis model and system for early breast cancer
CN115287348A (en) Methylation Pattern analysis of haplotypes of tissues in DNA mixtures
JP2024001068A (en) Dna methylation markers for noninvasive detection of cancer and uses thereof
CN107326065A (en) A kind of screening technique of genetic marker thing and its application
CN109830264A (en) The method that tumor patient is classified based on methylation sites
CN109616198A (en) It is only used for the choosing method of the special DNA methylation assay Sites Combination of the single cancer kind screening of liver cancer
CN112899359A (en) Methylation marker for detecting benign and malignant lung nodules or combination and application thereof
TWI408235B (en) Gene marker and method for detection of oral cancer
CN115851951A (en) Construction of early liver cancer detection model containing multiple groups of chemical marker compositions and kit
CN111833963A (en) cfDNA classification method, device and application
CN113604571A (en) Gene combination for human tumor classification and application thereof
CN116083588B (en) DNA methylation site combination as prostate cancer marker and application thereof
KR102602100B1 (en) Method for discovering disease biomarker through comparison of disease and normal tissue specific epigenome with normal body fluid epigenome
EP3726221B1 (en) Hierarchical model for detecting benign and malignant degrees of colorectal tumors and application thereof
Zhang et al. A novel approach for the non-invasive diagnosis of pulmonary nodules using low-depth whole-genome sequencing of cell-free DNA
CN107604061B (en) Screening method and application of mitochondria-nucleus DNA methylation combined site
US20210404016A1 (en) Classification of subtypes of kidney tumors using dna methylation
CN117316278A (en) Cancer noninvasive early screening method and system based on cfDNA fragment length distribution characteristics
CN113136428B (en) Application of methylation marker in auxiliary diagnosis of cancer
CN114107502A (en) Upper urinary tract epithelial cancer diagnosis marker and application thereof
Meyer et al. Detailed DNA methylation characterisation of phyllodes tumours identifies a signature of malignancy and distinguishes phyllodes from metaplastic breast carcinoma

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant