KR20240063034A - 간암 진단용 dna 메틸화 마커 및 이의 용도 - Google Patents

간암 진단용 dna 메틸화 마커 및 이의 용도 Download PDF

Info

Publication number
KR20240063034A
KR20240063034A KR1020230148519A KR20230148519A KR20240063034A KR 20240063034 A KR20240063034 A KR 20240063034A KR 1020230148519 A KR1020230148519 A KR 1020230148519A KR 20230148519 A KR20230148519 A KR 20230148519A KR 20240063034 A KR20240063034 A KR 20240063034A
Authority
KR
South Korea
Prior art keywords
liver cancer
chr1
dna
methylation
dna methylation
Prior art date
Application number
KR1020230148519A
Other languages
English (en)
Other versions
KR102701682B1 (ko
Inventor
조은해
김민정
김완
Original Assignee
주식회사 지씨지놈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 지씨지놈 filed Critical 주식회사 지씨지놈
Publication of KR20240063034A publication Critical patent/KR20240063034A/ko
Application granted granted Critical
Publication of KR102701682B1 publication Critical patent/KR102701682B1/ko

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • Pathology (AREA)
  • Genetics & Genomics (AREA)
  • Immunology (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Hospice & Palliative Care (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Oncology (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 간암 진단용 DNA 메틸화 마커 및 이의 용도에 관한 것으로, 보다 구체적으로는 간암 여부를 결정할 수 있는 DNA 메틸화 마커 조합 및 이의 용도에 관한 것이다. 본 발명에 따른 간암 진단용 DNA 메틸화 마커는 간암 조직 샘플을 사용하지 않고, 혈액 샘플의 DNA 메틸화 정보만을 이용하여 높은 정확도로 간암을 진단할 수 있어, 간암의 조기 진단에 유용하게 활용할 수 있다.

Description

간암 진단용 DNA 메틸화 마커 및 이의 용도 {DNA Methylation marker for Diagnosing Liver cancer and Uses thereof}
본 발명은 간암 진단용 DNA 메틸화 마커 및 이의 용도에 관한 것으로, 보다 구체적으로는 간암 여부를 결정할 수 있는 DNA 메틸화 마커 조합 및 이의 용도에 관한 것이다.
간암은 세계적으로 발병률이 높은 암 가운데 하나이다. 한국에서 간암 사망률은 인구 10만 명당 23명으로 매우 높은 편이며, 한국인의 총 사망률의 약 10%는 간염, 간경화 및 간암과 관계되어 있다. 간암은 발생 초기 자각증상이 없어 조기 진단이 어렵다. 보통 간암은 대부분 이미 적절한 치료를 할 수 없는 진행성 암종으로 진행된 상태에서 발견되기 때문에 치료가 매우 제한적이며 예후 또한 극히 나쁘다. 간암은 진단 당시의 암의 진행상태에 따라 예후가 크게 달라지기에 간암 환자의 조기 발견은 간암 환자의 생존율을 높이는데 매우 중요하다.
암을 정확히 진단하려면 변이유전자를 파악하는 것뿐만 아니라, 그 유전자의 변이가 나타나는 기전을 파악하는 것이 중요하다. 이전에는 유전자의 코딩서열의 돌연변이, 즉 점 돌연변이나 결실, 삽입 등의 미세변화나 거시적인 염색체 이상에 초점을 맞추어 연구해 왔다. 그러나 최근에는 이들만큼 유전자외 변화가 중요한 것으로 보고되고 있고, 대표적인 것이 프로모터 CpG 섬의 메틸화이다.
포유류 세포의 게놈 DNA에는 A, C, G, T 외에 5번째 염기가 존재하며, 이는 시토신 환의 5번째 탄소에 메틸기가 붙은 5-메틸시토신(5-mC)이다. 5-mC는 항상 CG 다이뉴클레오타이드의 C에만 오며(5'-mCG-3'), 이러한 CG를 흔히 CpG라고 표시한다. CpG의 C는 대부분이 메틸기가 붙어서 메틸화되어 있다. 이러한 CpG의 메틸화는 알루(alu)나 전이인자(transposon)와 같이 게놈 내에 반복되는 염기서열(repetitive sequence)이 발현되지 못하도록 억제하며, 포유류 세포에서 유전자외 변화가 가장 흔히 나타나는 부위이다. 이러한 CpG의 5-mC는 자연히 탈아미노화(deamination)되어 T로 바뀌며, 이에 따라 포유류 게놈 내 CpG는 정상적으로 나타나야 할 빈도(1/4 x 1/4=6.25%)보다 훨씬 낮은 1%의 빈도만을 나타낸다.
CpG 중에 예외적으로 밀집되어 나타나는 것들이 있으며, 이를 CpG 섬이라고 한다. CpG 섬은 길이가 0.2~3kb이고, C 및 G염기의 분포백분율이 50%를 넘으며, CpG의 분포백분율이 3.75%이상으로 높게 집중되어 나타나는 부위를 가리킨다. CpG 섬은 전체 인체 유전체에 약 45,000개가 나타나며, 특히 유전자의 발현을 조절하는 프로모터 부위에 집중되어 나타난다. 실제로 인체 유전자중 약 절반을 차지하는 중요 유전자(housekeeping genes)의 프로모터에는 CpG 섬이 나타난다 (Cross, S. et al., Curr. Opin. Gene Develop., 5:309, 1995). 이에 실제 혈액이나 객담, 침, 대변, 소변 등에서 종양관련 유전자의 프로모터 메틸화를 조사하여 각종 암 진료에 사용하려는 시도가 최근 활발하게 이루어지고 있다.
현재 임상에서 암의 진단은 문진(history taking)과 신체검사, 임상병리검사를 거쳐 일단 의심이 되면 방사선 검사 및 내시경 검사로 진행되며, 최종적으로는 조직 검사로 확인된다. 그러나 현존 임상 검사법으로는 암의 세포수가 10억 개, 암의 직경이 1 cm 이상이 되어야 진단이 가능하다. 이런 경우 이미 암세포는 전이 능력을 갖고 있으며, 실제 절반이상에서 암이 이미 전이되어 있다. 한편, 암이 직간접으로 생산하는 물질을 혈액 내에서 찾는 종양마커(tumor markers)가 암 선별검사(cancer screening)에 이용되는데, 이는 정확도에 한계가 있어서 암이 있을 때도 약 절반까지 정상으로 나타나며, 암이 없을 때도 종종 양성으로 나타나서 혼란을 야기한다. 또한, 암의 치료에 주로 사용되는 항암제의 경우, 암의 용적이 적은 경우에만 그 효과를 나타내는 문제점이 있다.
이에, 최근에는 DNA 메틸화 측정을 통하여 암을 진단하는 방법들이 제시되고 있다. DNA 메틸화는 주로 특정 유전자의 프로모터 부위의 CpG 섬(CpG island)의 사이토신(cytosine)에서 일어나고, 그로 인하여 전사인자의 결합이 방해를 받게 되어 특정 유전자의 발현이 차단(gene silencing)되는 것으로, 이는 생체 내에서 유전자의 단백질 지정 코딩서열(coding sequence)에 돌연변이(mutation)가 없이도 그 유전자의 기능이 소실되는 주요 기전이며, 인체 암에서 다수의 종양 억제 유전자(tumor suppressor genes)의 기능이 소실되는 원인으로 해석되고 있다. 프로모터 CpG 섬의 메틸화가 발암을 직접 유발하는지, 또는 발암에 2차적인 변화인지에 대한 논란이 있으나, 전립선암, 결장암, 자궁암, 유방암 등 다양한 암 세포에서 CpG 섬에서의 이러한 비정상적인 메틸화/탈메틸화가 보고되었다. 따라서, 이는 암의 조기진단, 발암 위험의 예측, 암의 예후 예측, 치료 후 추적 조사, 항암요법에 대한 반응 예측 등 다방면으로 이용될 수 있다. 이를 메틸화 특이 PCR(이하 MSP라고 함), 자동염기분석 또는 bisulfite pyrosequencing 등의 방법으로 검사하여 암의 진단과 스크리닝 등에 이용하려는 시도가 최근 활발하게 이루어지고 있으나, 다수는 소수의 특정 유전자 또는 프로모터 부위의 메틸화를 검출하여 이를 분석하는 방법에 그치고 있으며 (예를 들어, 대한민국 특허 제1557183호, 대한민국 특허 제1191947호). 진단의 효율 및 정확도에는 한계가 있다.
이에, 본 발명자들은 상기 문제점들을 해결하고, 높은 민감도와 정확도의 간암 진단용 DNA 메틸화 마커를 개발하기 위해 예의 노력한 결과, 간암 조직 샘플의 TCGA 메틸화 데이터와 간암 환자의 cfDNA 메틸화 DNA 메틸화에서 동시에 특징을 추출하고 이를 학습한 기계학습 모델을 이용하여 간암 특이적 DNA 메틸화 마커를 선별하여, 상기 DNA 메틸화 마커를 분석할 경우, 높은 정확도로 간암 여부를 조기에 진단할 수 있다는 것을 확인하고, 본 발명을 완성하였다.
본 발명의 목적은 간암 진단용 DNA 메틸화 마커 조합을 제공하는 것이다.
본 발명의 다른 목적은 상기 DNA 메틸화 마커 조합을 이용한 간암 진단을 위한 정보의 제공방법을 제공하는 것이다.
본 발명의 또 다른 목적은 상기 DNA 메틸화 마커 조합을 검출할 수 있는 프로브 조성물, 프라미어 조성물 및 상기 조성물을 포함하는 간암 진단용 키트를 제공하는 것이다.
상기 목적을 달성하기 위하여, 본 발명은 표 1로 표시되는 DNA 메틸화 마커를 포함하는 간암 진단용 DNA 메틸화 마커 조합을 제공한다.
본 발명은 또한, (a) 생체 시료에서 DNA를 분리하는 단계; (b) 상기 DNA 메틸화 마커 조합의 메틸화 수준을 검출하는 단계; 및 (c) 상기 검출된 DNA 메틸화 마커 수준이 기준값(cut-off value)을 초과할 경우, 간암으로 판정하는 단계; 를 포함하는 간암 진단을 위한 정보의 제공방법을 제공한다.
본 발명은 또한, 상기 DNA 메틸화 마커 조합의 DNA 메틸화 마커를 각각 증폭할 수 있는 프라이머 조합을 포함하는 간암 진단용 조성물을 제공한다.
본 발명은 또한, 상기 DNA 메틸화 마커 조합의 DNA 메티로하 마커의 메틸화된 염기를 함유하는 10개 이상의 연속 염기를 포함하는 폴리뉴클레오타이드 또는 그의 상보적인 폴리뉴클레오타이드와 특이적으로 각각 혼성화할 수 있는 프로브 조합을 포함하는 간암 진단용 조성물을 제공한다.
본 발명은 또한, 상기 조성물을 포함하는 간암 진단용 키트를 제공한다.
본 발명에 따른 간암 진단용 DNA 메틸화 마커는 간암 조직 샘플을 사용하지 않고, 혈액 샘플의 DNA 메틸화 정보만을 이용하여 높은 정확도로 간암을 진단할 수 있어, 간암의 조기 진단에 유용하게 활용할 수 있다.
도 1은 본 발명의 간암 진단용 DNA 메틸화 마커를 선별하는 과정을 나타낸 흐름도이다.
도 2는 본 발명의 일 실시예에 따라 선별한 354개의 간암 특이적 DNA 메틸화 마커를 이용하여 학습한 기계학습 모델의 성능을 확인한 ROC 곡선 결과이다.
도 3은 본 발명의 일 실시예에 따라 선별한 354개의 간암 특이적 DNA 메틸화 마커를 이용하여 학습한 기계학습 모델의 성능을 확인한 train, valid 및 test 그룹에서 계산한 확률값의 분포를 나타낸 그래프이다.
도 4는 본 발명의 간암 진단용 DNA 메틸화 마커 최소 조합을 선별하는 과정을 나타낸 흐름도이다.
도 5는 본 발명의 일 실시예에 따라 선별한 20개의 간암 특이적 DNA 메틸화 마커와 다른 마커 세트 후보군의 AUC 값 차이를 나타내는 그래프이다.
도 6은 본 발명의 일 실시예에 따라 선별한 20개의 간암 특이적 DNA 메틸화 마커를 이용하여 간암 여부를 판단한 결과를 나타내는 ROC_AUC 그래프이다.
도 7은 본 발명의 일 실시예에 따라 선별한 20개의 간암 특이적 DNA 메틸화 마커 각각의 간암과 정상 조직간 메틸화 수준 차이를 측정한 결과이다.
도 8은 본 발명의 일 실시예에 따라 선별한 354개의 간암 특이적 DNA 메틸화 마커를 이용하여 임상샘플에서 구축한 기계학습 모델의 성능을 확인한 ROC 곡선 결과이다.
도 9는 본 발명의 일 실시예에 따라 선별한 354개의 간암 특이적 DNA 메틸화 마커를 이용하여 임상샘플에서 구축한 기계학습 모델의 성능을 확인한 train, valid 및 test 그룹에서 계산한 확률값의 분포를 나타낸 그래프이다.
도 10은 본 발명의 일 실시예에 따라 선별한 14개의 간암 특이적 DNA 메틸화 마커를 이용하여 임상샘플에서 구축한 기계학습 모델의 성능을 확인한 ROC 곡선 결과이다.
도 11은 본 발명의 일 실시예에 따라 선별한 14개의 간암 특이적 DNA 메틸화 마커를 이용하여 임상샘플에서 구축한 기계학습 모델의 성능을 확인한 train, valid 및 test 그룹에서 계산한 확률값의 분포를 나타낸 그래프이다.
다른 식으로 정의되지 않는 한, 본 명세서에서 사용된 모든 기술적 및 과학적 용어들은 본 발명이 속하는 기술 분야에서 숙련된 전문가에 의해서 통상적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 본 명세서에서 사용된 명명법 및 이하에 기술하는 실험 방법은 본 기술 분야에서 잘 알려져 있고 통상적으로 사용되는 것이다.
본 발명에서는, 혈중 무세포 핵산의 메틸화 정보를 이용하여 간암 여부를 진단할 수 있는 모델을 개발하고 그 정확도를 확인하고자 하였다.
본 발명에서는 TCGA 데이터베이스에 기재된 간암 조직 샘플의 메틸화 데이터와 간암 환자의 혈액 샘플에서 추출한 무세포 핵산의 메틸화 데이터를 조합하여 기계학습 모델을 구축하고, 간암 여부를 판별할 수 있는 DNA 메틸화 마커를 선별하였다.
즉, 본 발명의 일 실시예에서는, TCGA 데이터베이스에 기재된 간암 조직 샘플과 정상 샘플의 메틸화 데이터를 기반으로 간암 특이적 메틸화 영역을 선별하고, 간암 환자와 정상인의 혈액에서 추출한 메틸화된 DNA를 시퀀싱 한 뒤, 이를 비교하여 간암 특이적 메틸화 영역을 선별한 다음, 선별된 두 영역에서 겹치는 영역을 최종 입력 데이터로 선정하여 이를 기계학습 모델로 학습하여, 간암 여부를 판단할 경우, 높은 정확도로 간암 여부를 결정할 수 있다는 것을 확인하였다(도 2).
따라서, 본 발명은 일관점에서,
하기 표 1로 DNA 메틸화 마커를 포함하는 간암 진단용 DNA 메틸화 마커 조합에 관한 것이다.
염색체 시작위치 종료위치
chr1 119532189 119532190
chr1 119532195 119532196
chr1 146551744 146551745
chr2 45160445 45160446
chr4 41882163 41882164
chr6 1624978 1624979
chr6 26240579 26240580
chr6 26252265 26252266
chr7 27252541 27252542
chr8 11540407 11540408
chr14 54423433 54423434
chr14 100632950 100632951
chr17 80291775 80291776
chr19 41317067 41317068
본 발명에 있어서, 상기 간암 진단용 DNA 메틸화 마커 조합은 하기 표 2로 표시되는 DNA 마커를 추가로 포함하는 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
염색체 시작위치 종료위치
chr1 59042275 59042276
chr2 208989248 208989249
chr7 27225523 27225524
chr10 77168431 77168432
chr15 58357204 58357205
chr18 32847566 32847567
본 발명에 있어서, 상기 간암 진단용 DNA 메틸화 마커 조합은 하기 표 3으로 표시되는 DNA 마커로 구성된 군에서 선택되는 2 이상의 DNA 메틸화 마커를 추가로 포함하는 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
염색체 시작위치 종료위치 염색체 시작위치 종료위치
chr1 46632446 46632945 chr2 119067503 119068002
chr1 46632621 46633120 chr2 157177686 157178185
chr1 47697715 47698214 chr2 157178481 157178980
chr1 47908984 47909483 chr2 157178639 157179138
chr1 47909931 47910430 chr2 160761163 160761662
chr1 47910206 47910705 chr2 176987215 176987714
chr1 47910593 47911092 chr2 177003485 177003984
chr1 48058627 48059126 chr2 177003497 177003996
chr1 48058711 48059210 chr2 200331667 200332166
chr1 67772878 67773377 chr2 200331727 200332226
chr1 87617460 87617959 chr2 200331775 200332274
chr1 91192216 91192715 chr2 200333751 200334250
chr1 110610649 110611148 chr2 200334851 200335350
chr1 119522605 119523104 chr2 238583254 238583753
chr1 119526861 119527360 chr20 1784026 1784525
chr1 119526906 119527405 chr20 30778049 30778548
chr1 119527634 119528133 chr20 37433979 37434478
chr1 119529680 119530179 chr20 50720658 50721157
chr1 119532523 119533022 chr20 50721063 50721562
chr1 119532675 119533174 chr3 38080675 38081174
chr1 119542807 119543306 chr3 101497626 101498125
chr1 119542966 119543465 chr3 101497730 101498229
chr1 119543086 119543585 chr3 101497732 101498231
chr1 119548277 119548776 chr3 138658771 138659270
chr1 119548575 119549074 chr3 138662065 138662564
chr1 119548602 119549101 chr3 138662980 138663479
chr1 119548895 119549394 chr3 142837745 142838244
chr1 119549013 119549512 chr3 147098318 147098817
chr1 151812171 151812670 chr3 147098335 147098834
chr1 151812185 151812684 chr3 147105760 147106259
chr1 151812274 151812773 chr3 147136654 147137153
chr1 151812460 151812959 chr3 169529777 169530276
chr1 154474923 154475422 chr3 169529787 169530286
chr1 156130576 156131075 chr3 179168510 179169009
chr1 156389874 156390373 chr3 179168548 179169047
chr1 160951657 160952156 chr3 183145282 183145781
chr1 161275311 161275810 chr3 186490406 186490905
chr1 169396462 169396961 chr4 785994 786493
chr1 170629820 170630319 chr4 41868836 41869335
chr1 170630308 170630807 chr4 41880497 41880996
chr1 171810218 171810717 chr4 41882330 41882829
chr1 171810722 171811221 chr4 76555297 76555796
chr1 171811049 171811548 chr4 76555384 76555883
chr1 197882219 197882718 chr4 76555522 76556021
chr1 203598323 203598822 chr4 76555527 76556026
chr1 213123425 213123924 chr4 76555532 76556031
chr1 213123636 213124135 chr5 7849953 7850452
chr1 213123715 213124214 chr5 7850188 7850687
chr1 221064450 221064949 chr5 32713473 32713972
chr1 228645797 228646296 chr5 40680887 40681386
chr1 247171153 247171652 chr5 40681643 40682142
chr10 8094284 8094783 chr5 42950942 42951441
chr10 16562220 16562719 chr5 42951863 42952362
chr10 17271679 17272178 chr5 42992524 42993023
chr10 17271694 17272193 chr5 43017435 43017934
chr10 17271744 17272243 chr5 43018193 43018692
chr10 17271867 17272366 chr5 54516555 54517054
chr10 22541774 22542273 chr5 94955506 94956005
chr10 22625215 22625714 chr5 112073100 112073599
chr10 22765590 22766089 chr5 112073123 112073622
chr10 43697758 43698257 chr5 112073148 112073647
chr10 93647050 93647549 chr5 112073156 112073655
chr10 94834332 94834831 chr5 112073176 112073675
chr10 94834513 94835012 chr5 112073188 112073687
chr10 102894793 102895292 chr5 139047755 139048254
chr10 104000581 104001080 chr5 139047856 139048355
chr11 13689872 13690371 chr5 169064201 169064700
chr11 13689910 13690409 chr5 170736027 170736526
chr11 13690452 13690951 chr6 3228983 3229482
chr11 31826324 31826823 chr6 5026074 5026573
chr11 69517049 69517548 chr6 5026185 5026684
chr11 69517221 69517720 chr6 10425398 10425897
chr11 69517591 69518090 chr6 10425849 10426348
chr11 69517753 69518252 chr6 26235004 26235503
chr11 69517947 69518446 chr6 26240670 26241169
chr12 21810029 21810528 chr6 26250494 26250993
chr12 21810380 21810879 chr6 26250669 26251168
chr12 21810558 21811057 chr6 26250686 26251185
chr12 48206598 48207097 chr6 26251649 26252148
chr12 58021319 58021818 chr6 26271466 26271965
chr12 58021463 58021962 chr6 26271468 26271967
chr12 81102236 81102735 chr6 26271566 26272065
chr12 95941619 95942118 chr6 26271577 26272076
chr12 95941738 95942237 chr6 26550760 26551259
chr12 95942511 95943010 chr6 26614399 26614898
chr12 95942657 95943156 chr6 27462967 27463466
chr12 95942714 95943213 chr6 27858387 27858886
chr12 115102476 115102975 chr6 28411037 28411536
chr13 45149778 45150277 chr6 42738717 42739216
chr13 45150012 45150511 chr6 42738799 42739298
chr13 100627091 100627590 chr6 100911437 100911936
chr13 100641159 100641658 chr6 100912656 100913155
chr13 100641396 100641895 chr6 100912690 100913189
chr13 107186620 107187119 chr6 100912696 100913195
chr13 107186927 107187426 chr6 100915517 100916016
chr14 51027611 51028110 chr6 108488085 108488584
chr14 54422525 54423024 chr6 108490645 108491144
chr14 61108957 61109456 chr6 108495615 108496114
chr15 33009281 33009780 chr6 108495735 108496234
chr15 41805280 41805779 chr6 133561851 133562350
chr15 55880644 55881143 chr6 133562216 133562715
chr15 65186056 65186555 chr6 133562220 133562719
chr15 68260324 68260823 chr6 133562225 133562724
chr15 69087559 69088058 chr6 133562229 133562728
chr15 99193679 99194178 chr6 133562235 133562734
chr15 99193743 99194242 chr6 133562242 133562741
chr15 101459033 101459532 chr6 133562244 133562743
chr16 21170817 21171316 chr7 27204478 27204977
chr17 4981360 4981859 chr7 27204731 27205230
chr17 4981573 4982072 chr7 27204967 27205466
chr17 29297898 29298397 chr7 27213734 27214233
chr17 29297934 29298433 chr7 27213793 27214292
chr17 29298102 29298601 chr7 27213806 27214305
chr17 42030229 42030728 chr7 27232587 27233086
chr17 43338973 43339472 chr7 27232823 27233322
chr17 43339078 43339577 chr7 27232891 27233390
chr17 43339247 43339746 chr7 27245292 27245791
chr17 43339262 43339761 chr7 27284539 27285038
chr17 46655579 46656078 chr7 27291096 27291595
chr17 48636396 48636895 chr7 28996389 28996888
chr17 59529066 59529565 chr7 28996652 28997151
chr17 59529236 59529735 chr7 28996923 28997422
chr17 59534597 59535096 chr7 28997235 28997734
chr17 59534748 59535247 chr7 28997616 28998115
chr17 62777398 62777897 chr7 28997828 28998327
chr17 79480858 79481357 chr7 76828635 76829134
chr18 32847001 32847500 chr7 96636366 96636865
chr18 55019849 55020348 chr7 96636496 96636995
chr19 12305604 12306103 chr7 96651031 96651530
chr19 12305619 12306118 chr7 96651865 96652364
chr19 12305886 12306385 chr7 96651873 96652372
chr19 12305948 12306447 chr7 117119174 117119673
chr19 13209731 13210230 chr7 117119351 117119850
chr19 36736022 36736521 chr7 117119361 117119860
chr19 38182805 38183304 chr7 117119387 117119886
chr19 38754889 38755388 chr7 117119688 117120187
chr19 42901057 42901556 chr7 134143656 134144155
chr19 50553817 50554316 chr7 134143669 134144168
chr19 50554030 50554529 chr7 134143786 134144285
chr19 50554201 50554700 chr7 143042491 143042990
chr19 52207103 52207602 chr7 143042548 143043047
chr19 57018819 57019318 chr7 151329758 151330257
chr19 58220045 58220544 chr8 41424092 41424591
chr19 58220120 58220619 chr8 49292435 49292934
chr2 20068452 20068951 chr8 53851934 53852433
chr2 25438860 25439359 chr8 57069657 57070156
chr2 45159843 45160342 chr8 59058004 59058503
chr2 45170072 45170571 chr8 67873093 67873592
chr2 45231217 45231716 chr8 67873226 67873725
chr2 45231532 45232031 chr8 67873549 67874048
chr2 45231641 45232140 chr8 67873928 67874427
chr2 45232167 45232666 chr8 67874116 67874615
chr2 63280819 63281318 chr8 67874783 67875282
chr2 63280889 63281388 chr8 70981789 70982288
chr2 63281067 63281566 chr8 86350318 86350817
chr2 63281133 63281632 chr8 86350331 86350830
chr2 63281594 63282093 chr8 98289898 98290397
chr2 63282452 63282951 chr8 99951797 99952296
chr2 63282763 63283262 chr8 99959473 99959972
chr2 63283717 63284216 chr8 99959898 99960397
chr2 63283816 63284315 chr8 99961295 99961794
chr2 63284518 63285017 chr8 99961624 99962123
chr2 63285799 63286298 chr8 102504197 102504696
chr2 74425262 74425761 chr8 102504251 102504750
chr2 74425330 74425829 chr8 102504314 102504813
chr2 74781846 74782345 chr8 102505306 102505805
chr2 105470311 105470810 chr8 104512833 104513332
chr2 119067387 119067886 chr9 110228019 110228518
본 발명에 용어, "DNA 메틸화(DNA methylation)"는 게놈 DNA에서 시토신 염기의 C5-위치에 메틸기가 공유결합한 것을 의미한다. 메틸화 수준은 예를 들면 모든 게놈 영역 및 일부 비-게놈 영역 내의 DNA 염기서열에 존재하는 메틸화의 양을 의미하며, 본 발명에서는 상기 DNA 메틸화 마커의 메틸화 정도를 의미한다. 상기 DNA 메틸화 마커에서 메틸화는 서열 전체 또는 일부에 걸쳐 일어날 수 있다.
본 발명에서, 상기 간암은 간세포 자체로부터 발생한 간세포암 또는 다른 조직의 암이 간으로 전이되어 온 전이성 간암일 수 있으나, 바람직하게는 간세포암일 수 있다. 간세포암(hepatocellular carcinoma)은 간에서 발생하는 악성 종양의 약 90%를 차지하며, 우리나라와 일본, 동남아시아, 중국 등지에서 많이 발생한다. 대부분 간경변증이 있는 상태에서 발생하나, 일부는 만성 B형 또는 C형 간염으로 인해 발생하기도 한다.
본 발명은 다른 관점에서,
(a) 생체 시료에서 DNA를 분리하는 단계;
(b) 상기 DNA 메틸화 마커 조합의 메틸화 수준을 검출하는 단계; 및
(c) 상기 검출된 DNA 메틸화 마커 수준이 기준값(cut-off value)을 초과할 경우, 간암으로 판정하는 단계;
를 포함하는 간암 진단을 위한 정보의 제공방법에 관한 것이다.
본 발명에서, 상기 DNA는 생체시료에서 추출한 DNA이면 제한없이 이용할 수 있으나, 바람직하게는 세포 유리 핵산 또는 세포 내 핵산의 조각일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서, 상기 생체시료는 개체로부터 얻어지거나 개체로부터 유래된 임의의 물질, 생물학적 체액, 조직 또는 세포를 의미하는 것으로, 예를 들면, 전혈(whole blood), 백혈구(leukocytes), 말초혈액 단핵 세포(peripheral blood mononuclear cells), 백혈구 연층(buffy coat), (혈장(plasma) 및 혈청(serum)을 포함하는) 혈액, 객담(sputum), 눈물(tears), 점액(mucus), 세비액(nasal washes), 비강 흡인물(nasal aspirate), 호흡(breath), 소변(urine), 정액(semen), 침(saliva), 복강 세척액(peritoneal washings), 골반 내 유체액(pelvic fluids), 낭종액(cystic fluid), 뇌척수막 액(meningeal fluid), 양수(amniotic fluid), 선액(glandular fluid), 췌장액(pancreatic fluid), 림프액(lymph fluid), 흉수(pleural fluid), 유두 흡인물(nipple aspirate), 기관지 흡인물(bronchial aspirate), 활액(synovial fluid), 관절 흡인물(joint aspirate), 기관 분비물(organ secretions), 세포(cell), 세포 추출물(cell extract), 정액, 모발, 타액, 소변, 구강세포, 태반세포, 뇌척수액(cerebrospinal fluid) 및 이의 혼합물을 포함할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서, 상기 (b) 단계의 메틸화 수준의 검출은 공지의 다양한 방법으로 검출할 수 있으며, 바람직하게는 바이설파이트 전환법(bisulfite conversion) 또는 메틸화 DNA 면역침강법(Methylated DNA Immunoprecipitation, MeDIP)으로 수득한 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다
본 발명에서, DNA 메틸화를 검출할 수 있는 방법은 제한효소 기반 검출 방법이 추가로 있는데, 이는 methylation restriction enzyme(MRE)를 이용하여 메틸화 되지 않은 핵산을 절단하거나, 메틸화 여부에 상관없이 특정 서열(recognition site)를 절단하여 hybridization 방법 또는 PCR과 결합해 분석하는 방법이다.
본 발명에서 바이설파이트 치환에 기반한 방법은 Whole-Genome Bisulfite Sequencing(WGBS), Reduced-Representation Bisulfite Sequencing (RRBS), Methylated CpG Tandems Amplification and Sequencing (MCTA-seq), Targeted Bisulfite Sequencing, Methylation Array 및 Methylation-specific PCR (MSP) 등이 있다.
본 발명에서, 메틸화 DNA를 풍부화(enrichment)하여 분석하는 방법은 Methylated DNA Immunoprecipitation Sequencing (MeDIP-seq), Methyl-CpG Binding Domain Protein Capture Sequencing (MBD-seq) 등이 있다.
본 발명에서 메틸화 DNA를 분석할 수 있는 또 다른 방법은 5-hydroxymethylation profiling이 있으며, 그 예시로는 5hmC-Seal (hMe-Seal), hmC-CATCH, Hydroxymethylated DNA Immunoprecipitation Sequencing (hMeDIP-seq), Oxidative Bisulfite Conversion 등이 있다.
본 발명에 있어서, 상기 (b) 단계의 메틸화 수준의 검출은, PCR, 메틸화 특이 PCR(methylation specific PCR), 실시간 메틸화 특이 PCR(real time methylation specific PCR), 메틸화 DNA 특이적 결합 단백질을 이용한 PCR, 정량 PCR, 메틸화 특이적인 PNA를 이용하는 PCR, melting curve analysis, DNA 칩, 파이로시퀀싱, 바이설파이트 시퀀싱 및 메틸화 차세대 염기서열 시퀀싱으로 구성된 군으로부터 선택된 어느 하나의 방법을 이용하는 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서, 차세대 유전자서열검사기(next-generation sequencer)는 당업계에 공지된 임의의 시퀀싱 방법으로 사용될 수 있다. 선택 방법에 의해 분리된 핵산의 시퀀싱은 전형적으로는 차세대 시퀀싱(NGS)을 사용하여 수행된다. 차세대 시퀀싱은 개개의 핵산 분자 또는 고도로 유사한 방식으로 개개의 핵산 분자에 대해 클론으로 확장된 프록시 중 하나의 뉴클레오타이드 서열을 결정하는 임의의 시퀀싱 방법을 포함한다(예를 들어, 105개 이상의 분자가 동시에 시퀀싱된다). 일 실시형태에서, 라이브러리 내 핵산 종의 상대적 존재비는 시퀀싱 실험에 의해 만들어진 데이터에서 그것의 동족 서열의 상대적 발생 수를 계측함으로써 추정될 수 있다. 차세대 시퀀싱 방법은 당업계에 공지되어 있고, 예를 들어 본 명세서에 참조로서 포함된 문헌(Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46)에 기재된다.
일 실시형태에서, 차세대 시퀀싱은 개개의 핵산 분자의 뉴클레오타이드 서열을 결정하기 위해 한다(예를 들어, 헬리코스 바이오사이언스(Helicos BioSciences)의 헬리스코프 유전자 시퀀싱 시스템(HeliScope Gene Sequencing system) 및 퍼시픽바이오사이언스의 팩바이오 알에스 시스템(PacBio RS system)). 다른 실시형태에서, 시퀀싱, 예를 들어, 더 적지만 더 긴 리드를 만들어내는 다른 시퀀싱 방법보다 시퀀싱 단위 당 서열의 더 많은 염기를 만들어내는 대량병렬의 짧은-리드 시퀀싱(예를 들어, 캘리포니아주 샌디에고에 소재한 일루미나 인코포레이티드(Illumina Inc.) 솔렉사 시퀀서(Solexa sequencer)) 방법은 개개의 핵산 분자에 대해 클론으로 확장된 프록시의 뉴클레오타이드 서열을 결정한다(예를 들어, 캘리포니아주 샌디에고에 소재한 일루미나 인코포레이티드(Illumina Inc.) 솔렉사 시퀀서(Solexa sequencer); 454 라이프 사이언스(Life Sciences)(코네티컷주 브랜포드에 소재) 및 아이온 토렌트(Ion Torrent)). 차세대 시퀀싱을 위한 다른 방법 또는 기계는, 이하에 제한되는 것은 아니지만, 454 라이프 사이언스(Life Sciences)(코네티컷주 브랜포드에 소재), 어플라이드 바이오시스템스(캘리포니아주 포스터 시티에 소재; SOLiD 시퀀서), 헬리코스 바이오사이언스 코포레이션(매사추세츠주 캠브릿지에 소재) 및 에멀젼 및 마이크로 유동 시퀀싱 기법 나노 점적(예를 들어, 지누바이오(GnuBio) 점적)에 의해 제공된다.
차세대 시퀀싱을 위한 플랫폼은, 이하에 제한되는 것은 아니지만, 로슈(Roche)/454의 게놈 시퀀서(Genome Sequencer: GS) FLX 시스템, 일루미나(Illumina)/솔렉사(Solexa) 게놈 분석기(Genome Analyzer: GA), 라이프(Life)/APG의 서포트 올리고(Support Oligonucleotide Ligation Detection: SOLiD) 시스템, 폴로네이터(Polonator)의 G.007 시스템, 헬리코스 바이오사이언스의 헬리스코프 유전자 시퀀싱 시스템(Helicos BioSciences' HeliScope Gene Sequencing system), 옥스포드 나노포어 테크놀로지스(Oxford Nanopore Technologies)의 PromethION, GriION, MinION 시스템 및 퍼시픽 바이오사이언스(Pacific Biosciences)의 팩바이오알에스(PacBio RS) 시스템을 포함한다.
본 발명에 있어서, 상기 (c) 단계는 검출된 DNA 메틸화 마커 조합의 메틸화 수준의 정보를 간암을 진단하도록 학습된 인공지능 모델에 입력하여 분석한 출력 결과값과 기준값(cut-off value)을 비교하여 간암 유무를 판정하는 단계로 수행되는 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서, 상기 (c) 단계의 기준값은 간암 여부를 판정할 수 있는 값이면 제한없이 사용할 수 있으며, 바람직하게는 0.5 내지 1 더욱 바람직하게는 0.5 내지 0.8, 가장 바람직하게는 0.5 일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서, 상기 (c) 단계에서 인공지능 모델을 사용할 경우, 인공지능 모델은 간암 여부를 판정할 수 있는 인공지능 모델이면 제한없이 이용가능하며, 바람직하게는 기계학습 모델일 수 있고, 더욱 바람직하게는 K-최근접 이웃(k-Nearest Neighbors), 선형 회귀(Linear Regression), 로지스틱 회귀(Logistic Regression), 서포트 벡터 머신(SVM, Support Vector Machine), 의사결정나무(Decision Tree), 랜덤 포레스트(Random Forest), 및 인공 신경망(Aritificial Neural Network)으로 구성된 군에서 선택되는 어느 하나 이상의 기계학습 모델일 수 있으며, 바람직하게는 인공 신경망 모델일 수 있으나, 이에 한정되는 것은 아니다.
본 발며엥 있어서, 사익 인공 신경망 모델은 합성곱 신경망(convolutional neural network, CNN), 심층 신경망(Deep Neural Network, DNN), 순환 신경망(Recurrent Neural Network, RNN) 및 오토 인코더(autoencoder)로 구성된 군에서 선택되는 것을 특징으로 할 수 있으며, 가장 바람직하게는 합성곱 신경망 모델일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 인공지능 모델이 CNN일 경우, binary classification을 수행하는 손실함수는 하기 수식 1로 표시되는 것을 특징으로 할 수 있다.
수식 1: Binary classification
본 발명에서, 상기 binary classification은 인공지능 모델이 암 유무를 판별하도록 학습하는 것을 의미한다.
본 발명에서, 상기 인공지능 모델이 CNN일 경우, 학습은 하기 단계를 포함하여 수행되는 것을 특징으로 할 수 있다:
i) 생산된 메틸화 수준의 정보를 training(학습), validation(검증), test(성능평가) 데이터로 분류하는 단계;
이 때, Training 데이터는 CNN 모델을 학습할 때 사용되고, Validation 데이터는 hyper-parameter tuning 검증에 사용되며, Test 데이터는 최적의 모델 생산 후, 성능 평가로 사용되는 것을 특징으로 함.
ii) Hyper-parameter tuning 및 학습 과정을 통해서 최적의 CNN 모델을 구축하는 단계; 및
iii) Hyper-parameter tuning을 통해서 얻어진 여러 모델의 성능을 validation data를 이용하여 비교하여, validation data 성능이 가장 좋은 모델을 최적의 모델로 결정하는 단계;
본 발명에서, 상기 Hyper-parameter tuning 과정은 CNN 모델을 이루는 여러 parameter(convolution layer 수, dense layer 수, convolution filter 수 등) 값을 최적화하는 과정으로 Hyper-parameter tuning 과정으로는 Bayesian optimization 및 grid search 기법을 사용하는 것을 특징으로 할 수 있다.
본 발명에서, 상기 학습 과정은 정해진 hyper-parameter들을 이용하여 CNN 모델의 내부 parameter(weights)들을 최적화시켜, Training loss 대비 validation loss가 증가하기 시작하면 모델이 과적합(Overfitting) 되었다 판단하고, 그전에 model 학습을 중단하는 것을 특징으로 할 수 있다.
본 발명에서, 상기 인공지능 모델은 학습할 때, 암이 있으면 output 결과가 1에 가깝게 학습하고, 암이 없으면 output 결과가 0에 가깝게 학습을 시켜서, 0.5를 기준으로 0.5 이상이면 암이 있다고 판단하고, 0.5 이하이면 암이 없다고 판단하여 performance 측정을 수행하였다(Training, validation, test accuracy).
여기서, 0.5의 기준값은 언제든지 바뀔 수 있는 값이라는 것은 통상의 기술자에게 자명한 것이다. 예를 들어서 False positive(위양성)를 줄이고자 하면, 0.5보다 높은 기준값을 설정하여 암이 있다고 판단되는 기준을 엄격하게 가져 갈 수 있고, False Negative(위음성)를 줄이고자 하면 기준값을 더 낮게 측정하여 암이 있다고 판단되는 기준을 조금 더 약하게 가져 갈 수 있다.
가장 바람직하게는 학습된 인공지능 모델을 이용하여 unseen data(학습에 training하지 않은 답을 알고 있는 data)를 적용시켜서, DPI값의 probability를 확인하여 기준값을 정할 수 있다.
본 발명에 있어서, 상기 (c) 단계에서 인공지능 모델이 입력된 데이터로부터 분석한 결과값은 특정 score 또는 실수이면 제한없이 이용가능하며, 바람직하게는 DPI(Deep Probability Index) 값인 것을 특징으로 할 수 있으나 이에 한정되는 것은 아니다.
본 발명에서, Deep probability Index는 인공지능 model의 마지막 layer에 binary classification일 경우 sigmoid function을 사용하여 하기 수식 2로부터 인공지능의 output을 0 ~ 1 scale로 조정하여 확률값으로 표현한 값을 의미한다.
수식 2: Sigmoid function
Binary classification일 경우에는 sigmoid function을 이용하여 암 일 경우 DPI 값이 1이 되게끔 학습을 하게 된다. 예를 들어, 간암 샘플과 정상 샘플이 입력되면, 간암 샘플의 DPI 값이 1에 가깝도록 학습하는 것이다.
본 발명에 있어서, 상기 (c) 단계는 검출된 DNA 메틸화 마커 조합의 메틸화 수준의 정보를 정상 샘플의 값과 비교하여 기준값 이상 차이가 날 경우, 간암 유무를 판정하는 단계로 수행되는 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서, 상기 (c) 단계의 기준값은 간암 여부를 판정할 수 있는 값이면 제한없이 사용할 수 있으며, 바람직하게는 정상 샘플의 메틸화 수준의 99% 내지 75% 일 수 있고, 더욱 바람직하게는 97% 내지 80%일 수 있으며, 가장 바람직하게는 95%일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 (c) 단계는 검출된 DNA 메틸화 마커 조합의 메틸화 수준의 정보는 각 마커의 베타 값의 합, 차, 곱, 평균, 곱의 로그, 합의 로그, 중앙값, 분위수, 최소값, 최대값, 분산, 표준편차, 절대 편차, 변동 계수, 이들의 역수값 및 조합으로 구성된 군에서 선택되는 하나 이상의 값일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서, 상기 메틸화 수준의 정보를 베타값으로 계산할 때, 과메틸화된 메틸화 마커의 베타값은 그대로 사용하고, 저메틸화된 메틸화 마커의 베타값은 100 또는 1 등의 일정 기준값에서 차감하는 방법으로 계산하거나, -1을 곱하여 계산하는 것은 통상의 기술자에게 잘 알려져 있다.
본 발명은 또 다른 관점에서,
상기 DNA 메틸화 마커 조합의 DNA 메틸화 마커를 각각 증폭할 수 있는 프라이머 조합을 포함하는 간암 진단용 조성물에 관한 것이다.
본 발명에서, 상기 프라이머의 적절한 길이는 사용 목적에 따라 달라질 수 있으나, 일반적으로 15 내지 30개의 염기로 구성될 수 있다. 프라이머 서열은 주형과 완전하게 상보적일 필요는 없으나, 주형과 혼성화할 정도로 충분히 상보적이어야 한다. 상기 프라이머는 메틸화 마커를 포함하는 DNA 서열에 혼성화하여 메틸화 마커를 포함하는 DNA 단편을 증폭시킬 수 있다. 본 발명의 프라이머는 DNA 메틸화 수준을 검출하여 간암 여부를 확인하기 위한 진단 키트나 예측 방법 등에 사용될 수 있다.
본 발명에서, 상기 DNA 메틸화 마커를 증폭할 수 있는 프라이머는 상기 마커 영역을 직접적으로 포함하지 않는 동일한 염색체의 염기서열이면 제한없이 이용가능하나, 구체적으로는 마커 영역의 5' 업스트림으로 1 내지 1000bp, 3' 다운스트림으로 1 내지 1000bp 일 수 있고, 보다 구체적으로는 마커 영역의 5' 업스트림으로 1 내지 200bp, 3' 다운스트림으로 1 내지 200bp 일 수 있으나 이에 한정되는 것은 아니다.
본 발명은 또 다른 관점에서,
상기 DNA 메틸화 마커 조합의 DNA 메티로하 마커의 메틸화된 염기를 함유하는 10개 이상의 연속 염기를 포함하는 폴리뉴클레오타이드 또는 그의 상보적인 폴리뉴클레오타이드와 특이적으로 각각 혼성화할 수 있는 프로브 조합을 포함하는 간암 진단용 조성물에 관한 것이다.
본 발명에서, 상기 프로브는 메틸화 특이적일 수 있으며, 이는 메틸화 마커 영역의 메틸화된 핵산에만 특이적으로 혼성화하는 것을 의미한다. 여기에서, 혼성화란 보통 엄격한 조건, 예를 들어 1M 이하의 염 농도 및 25℃이상의 온도 하에서 보통 수행된다. 예를 들어, 5XSSPE (750mM NaCl, 50mM Na Phosphate, 5mM EDTA, pH 7.4) 및 25 ~ 30℃의 조건이 메틸화 특이적 프로브 혼성화에 적합할 수 있다.
본 발명에 있어서, 상기 프로브는 혼성화 프로브를 의미하는 것으로, 핵산의 상보성 가닥에 서열 특이적으로 결합할 수 있는 올리고뉴클레오티드를 의미한다. 본 발명의 메틸화 특이적 프로브는 같은 종의 두 개체로부터 유래한 핵산 단편 중에서 메틸화가 존재하여, 한 개체로부터 유래한 DNA 단편에는 혼성화 하나, 다른 개체로부터 유래한 단편에는 혼성화하지 않을 수 있다. 이 경우 혼성화 조건은 혼성화 강도에 있어서 유의한 차이를 보여 메틸화 여부에 따라 혼성화되도록 충분히 엄격해야 한다. 이러한 본 발명의 프로브는 중앙 부위가 메틸화 마커의 영역에 정렬하는 것이 바람직하다. 본 발명의 프로브는 DNA 메틸화 수준을 검출하여 간암 여부를 확인하기 위한 진단 키트나 예측 방법 등에 사용될 수 있다.
본 발명은 또 다른 관점에서,
상기 조성물 중 어느 하나를 포함하는 조성물을 간암 진단용 키트에 관한 것이다.
본 발명에서 상기 키트는 본 발명의 폴리뉴클레오티드 뿐만 아니라 분석 방법에 적합한 한 종류 또는 그 이상의 다른 구성 성분 조성물, 용액 또는 장치가 포함될 수 있다. 일 양태로서, 본 발명의 키트는 PCR을 수행하기 위해 필요한 필수 요소를 포함하는 키트일 수 있으며, 테스트 튜브 또는 다른 적절한 컨테이너, 반응 완충액 (pH 및 마그네슘 농도는 다양), 데옥시뉴클레오타이드 (dNTPs), Taq-폴리머라아제 및 역전사 효소와 같은 효소, DNase, RNAse 억제제, DEPC-수 (DEPC-water) 및 멸균수 등을 추가로 포함할 수 있다. 다른 일 양태로서, 본 발명의 키트는 DNA 칩을 수행하기 위해 필요한 필수 요소를 포함하는 혈중 스타틴 농도 예측용 키트일 수 있으며, DNA 칩 키트는 상기 메틸화에 대한 특이적인 폴리뉴클레오티드, 프라이머 또는 프로브가 부착되어 있는 기판을 포함하고 기판은 정량 대조구 유전자 또는 그의 단편에 해당하는 핵산을 포함할 수 있다.
실시예
이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다. 이들 실시예는 오로지 본 발명을 예시하기 위한 것으로서, 본 발명의 범위가 이들 실시예에 의해 제한되는 것으로 해석되지는 않는 것은 당업계에서 통상의 지식을 가진 자에게 있어서 자명할 것이다.
실시예 1. TCGA methylation 450K array 데이터에서 간암 특이적 메틸화 영역 선별
The Cancer Genome Atlas (TCGA)에서 Infinium Human Methylation 450K BeadChip array 데이터(UCSC Xena, http://xena.ucsc.edu)를 사용하여 메틸화 정도를 확인하였다. 조직으로부터 추출된 DNA는 바이설파이트 처리를 통해 변환되며, DNA 메틸화 여부는 사이토신 염기의 변형을 통해 확인할 수 있다. 각 영역마다 메틸화 정도를 확인할 수 있으며, 메틸화 정도를 나타내는 값인 베타 값(beta value)을 사용하여 간암 조직과 주변 정상 조직간의 차별적으로 메틸화 된 영역을 선별하였다.
TCGA methylation 450k array 데이터를 표 4와 같이 Train, Test 그룹으로 나누어 진행하였고, Train 그룹을 이용하여 마커 선정을 수행하였다.
Solid Tissue Normal Primary Solid Tumor Total
Train 35 263 298
Test 15 114 129
Total 50 377 427
먼저, 약 48만개(480K)의 영역에서 결측값(missing value)을 제외한 다음, Limma(Linear Models for Microarray Data) software를 사용하여 FDR값이 0.01미만이면서 absolute delta beta가 0.25 초과인 영역을 선별한 후, 성염색체를 제외하고, 간암 특이적인 21,920개의 저메틸화 부위와 2,277개의 과메틸화 부위를 선별하였다.
실시예 2. 혈액에서 메틸화된 cfDNA를 추출하여, 차세대 염기서열 분석 수행(cfMeDIP-Seq)
간 견변증 환자 68 명과 간암 환자 283명의 혈액을 채취 후 3000 rpm, 25℃10분의 조건으로 혈장 부분만 1차 원심 분리한 다음, 1차 원심 분리된 혈장을 16000g, 25℃10분의 조건으로 2차 원심분리하여 침전물을 제외한 혈장 상층액을 분리하였다. 분리된 혈장에 대해 chemagen DNA kit 사용하여 cell-free DNA를 추출하고, Truseq Nano DNA HT library prep kit (Illumina)를 사용해 adaptor ligation 과정까지 수행한 다음, cfMeDIP kit (diagnode)의 antibody를 이용해 10 rpm, 4℃17시간 반응하여 5mC immunoprecipitation을 진행하였다. 이 후 purification을 진행하고, 다시 Truseq Nano DNA HT library prep kit (Illumina)를 사용해 PCR enrichment를 진행하여, 최종적인 library를 제작하였다. 제작한 library는 Novaseq 6000 (Illumina) 를 150 paired-end 모드로 sequencing을 진행하였고 샘플 당 약 107 million 개의 reads를 생산하였다.
실시예 3. cfMeDIP-Seq 데이터 분석을 통한 간암 특이적 메틸화 영역 선별
실시예 2에서 메틸화 된 세포 유리 핵산을 sequencing하였기 때문에, 확보되는 핵산 단편 데이터는 메틸화가 되어있고, 이를 휴먼 참조 유전체에 정렬을 하여 전체 휴먼 유전체 영역에서 메틸화가 된 영역들을 확인할 수 있다. MeDIP-Seq 데이터는 메틸화된 영역을 나타내며, 300bp bin당 정규화된 값(normalized value)을 사용하여 간암 그룹과 간경변증 그룹간의 차별적으로 메틸화 된 영역을 선별하였다.
cfMeDIP-Seq 데이터는 하기 표 5와 같이 Train, Validation, Test 그룹으로 나누어 진행하였고, Train 그룹을 이용하여 마커 선별 및 model 학습, Validation 그룹을 이용하여 hyper-parameter tuning, Test 그룹을 이용하여 만든 모델의 성능을 확인하였다.
Liver cirrhosis Liver cancer Total
Train 40 163 203
Validation 14 55 69
Test 14 65 79
Total 68 283 351
먼저, Trim Galore(version 0.6.6)를 이용하여 fastq 파일에서 adapter trimming과 quality trimming을 수행한 다음, bwa(version 0.7.17-r1188) alignment tool을 이용하여 핵산 단편 데이터를 참조 유전체(hg19)에 정렬하고, samtools rmdup (version 1.11) tool을 이용하여 PCR duplicate 핵산 단편을 제거한 후, samtools view (version 1.11) tool을 이용하여 mapping quality가 10미만인 핵산 단편을 제거한 뒤, chr1~22, X, Y만을 남기고 제거하고, 성염색체를 제외하고 겹치지 않게 300bp bin으로 binning한 후, 300bp bin당 read count 값을 생성하였다.
Blacklist region(Low_mappability_island, centromeric_repeat …과 bin당 전체 샘플에서 read count 총합이 10이하인 bin을 제외하였다.
edgeR(Empirical Analysis of Digital Gene Expression Data in R) software를 사용하여 300bp bin당 정규화된 값을(TMM normalized value) 생성하였다.
마지막으로, edgeR software를 사용하여 FDR값이 0.05미만이고 log2 fold change의 절대값이 2초과인 간암 특이적인 2개의 저메틸화 영역과 2,202개의 과메틸화 영역을 선별하였다.
실시예 4. CpG를 중심으로 한 주요 메틸화 영역 선별
4-1. TCGA 선별 마커의 cfMeDIP-Seq 데이터 적용
실시예 1에서 선별한 영역의 CpG site를 중심으로 실시예 2에서 수득한 cfMeDIP-Seq으로 생성한 데이터에서 input을 생성하였다. 보다 구체적으로는, CpG site를 중심으로 ±250bp bin의 정규화된 값을(CPM normalized value) 사용하였다. Wilcoxon rank sum test를 통해 FDR값이 0.05미만이고 log2 fold change의 절대값이 1초과인 영역만 선별하였다.
그 결과, TCGA 데이터에서 과메틸화이면서, cfMeDIP-seq에서도 과메틸화를 보인 1,184개의 부위를 선별하였다.
4-2. cfMeDIP-Seq 데이터의 CpG site 중심 선별
실시예 3에서 선별한 bin에 포함되어 있는 CpG를 추출하여, CpG를 중심으로 ±250bp bin의 정규화된 값을(CPM normalized value) 사용하였다. Wilcoxon rank sum test를 통해 FDR값이 0.05미만이고 log2 fold change의 절대값이 1초과인 영역만 선별하였다.
그 결과, 간암 특이적인 19개의 저메틸화 부위와 35,400개의 과메틸화 부위를 선별하였다.
실시예 5. 간암 진단을 위한 기계학습 모델 구축 및 성능 확인
5-1. 최종 마커 선별
실시예 4-1과 4-2에서 동시에 선별되는 354개의 과메틸화 부위를 feature로 선별하였으며 구체적인 리스트는 하기 표 6과 같다.
chr start end gene
chr1 46632446 46632945 PIK3R3
chr1 46632621 46633120 PIK3R3
chr1 47697715 47698214 STIL, TAL1
chr1 47908984 47909483 -
chr1 47909931 47910430 -
chr1 47910206 47910705 -
chr1 47910593 47911092 -
chr1 48058627 48059126 -
chr1 48058711 48059210 -
chr1 67772878 67773377 IL12RB2
chr1 87617460 87617959 LINC01140
chr1 91192216 91192715 -
chr1 110610649 110611148 ALX3
chr1 119522605 119523104 TBX15
chr1 119526861 119527360 TBX15
chr1 119526906 119527405 TBX15
chr1 119527634 119528133 TBX15
chr1 119529680 119530179 TBX15
chr1 119531794 119532293 TBX15
chr1 119531806 119532305 TBX15
chr1 119531866 119532365 TBX15
chr1 119531939 119532438 TBX15
chr1 119531945 119532444 TBX15
chr1 119532523 119533022 TBX15
chr1 119532675 119533174 TBX15
chr1 119542807 119543306 -
chr1 119542966 119543465 -
chr1 119543086 119543585 -
chr1 119548277 119548776 -
chr1 119548575 119549074 -
chr1 119548602 119549101 -
chr1 119548895 119549394 -
chr1 119549013 119549512 -
chr1 146551494 146551993 -
chr1 151812171 151812670 C2CD4D, C2CD4D-AS1
chr1 151812185 151812684 C2CD4D, C2CD4D-AS1
chr1 151812274 151812773 C2CD4D, C2CD4D-AS1
chr1 151812460 151812959 C2CD4D, C2CD4D-AS1
chr1 154474923 154475422 SHE, TDRD10
chr1 156130576 156131075 SEMA4A
chr1 156389874 156390373 MIR9-1, MIR9-1HG
chr1 160951657 160952156 -
chr1 161275311 161275810 MPZ
chr1 169396462 169396961 CCDC181
chr1 170629820 170630319 PRRX1
chr1 170630308 170630807 PRRX1
chr1 171810218 171810717 DNM3
chr1 171810722 171811221 DNM3
chr1 171811049 171811548 DNM3
chr1 197882219 197882718 LHX9
chr1 203598323 203598822 ATP2B4
chr1 213123425 213123924 VASH2
chr1 213123636 213124135 VASH2
chr1 213123715 213124214 VASH2
chr1 221064450 221064949 -
chr1 228645797 228646296 H2AW, H2BU1, MIR4666A
chr1 247171153 247171652 ZNF670-ZNF695, ZNF695
chr2 20068452 20068951 LINC00954
chr2 25438860 25439359 -
chr2 45159843 45160342 -
chr2 45160195 45160694 -
chr2 45160240 45160739 -
chr2 45170072 45170571 SIX3
chr2 45231217 45231716 -
chr2 45231532 45232031 -
chr2 45231641 45232140 -
chr2 45232167 45232666 SIX2
chr2 63280819 63281318 OTX1
chr2 63280889 63281388 OTX1
chr2 63281067 63281566 OTX1
chr2 63281133 63281632 OTX1
chr2 63281594 63282093 OTX1
chr2 63282452 63282951 OTX1
chr2 63282763 63283262 OTX1
chr2 63283717 63284216 OTX1
chr2 63283816 63284315 OTX1
chr2 63284518 63285017 OTX1
chr2 63285799 63286298 -
chr2 74425262 74425761 MTHFD2
chr2 74425330 74425829 MTHFD2
chr2 74781846 74782345 DOK1, LOXL3
chr2 105470311 105470810 PANTR1, POU3F3
chr2 119067387 119067886 -
chr2 119067503 119068002 -
chr2 157177686 157178185 -
chr2 157178481 157178980 -
chr2 157178639 157179138 -
chr2 160761163 160761662 LY75, LY75-CD302
chr2 176987215 176987714 HOXD9
chr2 177003485 177003984 HOXD-AS2
chr2 177003497 177003996 HOXD-AS2
chr2 200331667 200332166 SATB2, SATB2-AS1
chr2 200331727 200332226 SATB2, SATB2-AS1
chr2 200331775 200332274 SATB2, SATB2-AS1
chr2 200333751 200334250 SATB2, SATB2-AS1
chr2 200334851 200335350 SATB2, SATB2-AS1
chr2 238583254 238583753 LRRFIP1
chr3 38080675 38081174 DLEC1
chr3 101497626 101498125 NXPE3
chr3 101497730 101498229 NXPE3
chr3 101497732 101498231 NXPE3
chr3 138658771 138659270 -
chr3 138662065 138662564 FOXL2NB
chr3 138662980 138663479 FOXL2, FOXL2NB
chr3 142837745 142838244 CHST2
chr3 147098318 147098817 -
chr3 147098335 147098834 -
chr3 147105760 147106259 ZIC4
chr3 147136654 147137153 -
chr3 169529777 169530276 LRRC34
chr3 169529787 169530286 LRRC34
chr3 179168510 179169009 GNB4
chr3 179168548 179169047 GNB4
chr3 183145282 183145781 MCF2L2
chr3 186490406 186490905 -
chr4 785994 786493 CPLX1
chr4 41868836 41869335 -
chr4 41880497 41880996 -
chr4 41881913 41882412 -
chr4 41882330 41882829 -
chr4 76555297 76555796 CDKL2
chr4 76555384 76555883 CDKL2
chr4 76555522 76556021 CDKL2
chr4 76555527 76556026 CDKL2
chr4 76555532 76556031 CDKL2
chr5 7849953 7850452 C5orf49
chr5 7850188 7850687 C5orf49
chr5 32713473 32713972 NPR3
chr5 40680887 40681386 PTGER4
chr5 40681643 40682142 PTGER4
chr5 42950942 42951441 -
chr5 42951863 42952362 -
chr5 42992524 42993023 -
chr5 43017435 43017934 LOC648987
chr5 43018193 43018692 LOC648987
chr5 54516555 54517054 MCIDAS
chr5 94955506 94956005 GPR150
chr5 112073100 112073599 APC
chr5 112073123 112073622 APC
chr5 112073148 112073647 APC
chr5 112073156 112073655 APC
chr5 112073176 112073675 APC
chr5 112073188 112073687 APC
chr5 139047755 139048254 CXXC5
chr5 139047856 139048355 CXXC5
chr5 169064201 169064700 DOCK2
chr5 170736027 170736526 TLX3
chr6 1624861 1625360 GMDS
chr6 3228983 3229482 TUBB2B
chr6 5026074 5026573 -
chr6 5026185 5026684 -
chr6 10425398 10425897 -
chr6 10425849 10426348 -
chr6 26235004 26235503 H1-3
chr6 26240532 26241031 H4C6
chr6 26240670 26241169 H4C6
chr6 26250494 26250993 H2BC9, H3C7, H4C7
chr6 26250669 26251168 H2BC9, H3C7, H4C7
chr6 26250686 26251185 H2BC9, H3C7, H4C7
chr6 26251649 26252148 H2BC9, H3C7, H4C7
chr6 26252015 26252514 H2BC9, H3C7, H4C7
chr6 26271466 26271965 H2BC10, H3C8
chr6 26271468 26271967 H2BC10, H3C8
chr6 26271566 26272065 H2BC10, H3C8
chr6 26271577 26272076 H2BC10, H3C8
chr6 26550760 26551259 -
chr6 26614399 26614898 -
chr6 27462967 27463466 -
chr6 27858387 27858886 H2BC17, H3C12
chr6 28411037 28411536 ZSCAN23
chr6 42738717 42739216 -
chr6 42738799 42739298 -
chr6 100911437 100911936 SIM1
chr6 100912656 100913155 SIM1
chr6 100912690 100913189 SIM1
chr6 100912696 100913195 SIM1
chr6 100915517 100916016 SIM1
chr6 108488085 108488584 NR2E1
chr6 108490645 108491144 NR2E1
chr6 108495615 108496114 NR2E1
chr6 108495735 108496234 NR2E1
chr6 133561851 133562350 EYA4
chr6 133562216 133562715 EYA4
chr6 133562220 133562719 EYA4
chr6 133562225 133562724 EYA4
chr6 133562229 133562728 EYA4
chr6 133562235 133562734 EYA4
chr6 133562242 133562741 EYA4
chr6 133562244 133562743 EYA4
chr7 27204478 27204977 HOXA10-AS, HOXA10-HOXA9, HOXA9
chr7 27204731 27205230 HOXA10-AS, HOXA10-HOXA9, HOXA9
chr7 27204967 27205466 HOXA10-AS, HOXA10-HOXA9, HOXA9
chr7 27213734 27214233 HOXA10, HOXA10-HOXA9, MIR196B
chr7 27213793 27214292 HOXA10, HOXA10-HOXA9, MIR196B
chr7 27213806 27214305 HOXA10, HOXA10-HOXA9, MIR196B
chr7 27232587 27233086 -
chr7 27232823 27233322 -
chr7 27232891 27233390 -
chr7 27245292 27245791 HOTTIP
chr7 27252291 27252790 -
chr7 27284539 27285038 EVX1
chr7 27291096 27291595 -
chr7 28996389 28996888 TRIL
chr7 28996652 28997151 TRIL
chr7 28996923 28997422 TRIL
chr7 28997235 28997734 TRIL
chr7 28997616 28998115 TRIL
chr7 28997828 28998327 TRIL
chr7 76828635 76829134 CCDC146, FGL2
chr7 96636366 96636865 DLX6, DLX6-AS1
chr7 96636496 96636995 DLX6, DLX6-AS1
chr7 96651031 96651530 DLX5
chr7 96651865 96652364 DLX5
chr7 96651873 96652372 DLX5
chr7 117119174 117119673 CFTR
chr7 117119351 117119850 CFTR
chr7 117119361 117119860 CFTR
chr7 117119387 117119886 CFTR
chr7 117119688 117120187 CFTR
chr7 134143656 134144155 AKR1B1
chr7 134143669 134144168 AKR1B1
chr7 134143786 134144285 AKR1B1
chr7 143042491 143042990 CLCN1
chr7 143042548 143043047 CLCN1
chr7 151329758 151330257 PRKAG2
chr8 11540157 11540656 GATA4
chr8 41424092 41424591 -
chr8 49292435 49292934 -
chr8 53851934 53852433 NPBWR1
chr8 57069657 57070156 -
chr8 59058004 59058503 FAM110B
chr8 67873093 67873592 TCF24
chr8 67873226 67873725 TCF24
chr8 67873549 67874048 TCF24
chr8 67873928 67874427 TCF24
chr8 67874116 67874615 TCF24
chr8 67874783 67875282 TCF24
chr8 70981789 70982288 PRDM14
chr8 86350318 86350817 CA13, CA3
chr8 86350331 86350830 CA13, CA3
chr8 98289898 98290397 TSPYL5
chr8 99951797 99952296 OSR2, STK3
chr8 99959473 99959972 OSR2, STK3
chr8 99959898 99960397 OSR2
chr8 99961295 99961794 OSR2
chr8 99961624 99962123 OSR2
chr8 102504197 102504696 GRHL2
chr8 102504251 102504750 GRHL2
chr8 102504314 102504813 GRHL2
chr8 102505306 102505805 GRHL2
chr8 104512833 104513332 RIMS2
chr9 110228019 110228518 -
chr10 8094284 8094783 GATA3, GATA3-AS1
chr10 16562220 16562719 C1QL3
chr10 17271679 17272178 VIM
chr10 17271694 17272193 VIM
chr10 17271744 17272243 VIM
chr10 17271867 17272366 VIM
chr10 22541774 22542273 LOC100130992
chr10 22625215 22625714 -
chr10 22765590 22766089 -
chr10 43697758 43698257 RASGEF1A
chr10 93647050 93647549 -
chr10 94834332 94834831 CYP26A1
chr10 94834513 94835012 CYP26A1
chr10 102894793 102895292 TLX1, TLX1NB
chr10 104000581 104001080 GBF1, PITX3
chr11 13689872 13690371 FAR1
chr11 13689910 13690409 FAR1
chr11 13690452 13690951 FAR1
chr11 31826324 31826823 PAX6
chr11 69517049 69517548 FGF19
chr11 69517221 69517720 FGF19
chr11 69517591 69518090 FGF19
chr11 69517753 69518252 FGF19
chr11 69517947 69518446 FGF19
chr12 21810029 21810528 LDHB
chr12 21810380 21810879 LDHB
chr12 21810558 21811057 LDHB
chr12 48206598 48207097 HDAC7
chr12 58021319 58021818 B4GALNT1
chr12 58021463 58021962 B4GALNT1
chr12 81102236 81102735 MYF6
chr12 95941619 95942118 USP44
chr12 95941738 95942237 USP44
chr12 95942511 95943010 USP44
chr12 95942657 95943156 USP44
chr12 95942714 95943213 USP44
chr12 115102476 115102975 -
chr13 45149778 45150277 TSC22D1, TSC22D1-AS1
chr13 45150012 45150511 TSC22D1, TSC22D1-AS1
chr13 100627091 100627590 ZIC5
chr13 100641159 100641658 -
chr13 100641396 100641895 -
chr13 107186620 107187119 EFNB2
chr13 107186927 107187426 EFNB2
chr14 51027611 51028110 ATL1
chr14 54422525 54423024 BMP4
chr14 54423183 54423682 BMP4
chr14 61108957 61109456 -
chr14 100632700 100633199 -
chr15 33009281 33009780 GREM1
chr15 41805280 41805779 LTK
chr15 55880644 55881143 PYGO1
chr15 65186056 65186555 -
chr15 68260324 68260823 -
chr15 69087559 69088058 ANP32A
chr15 99193679 99194178 IGF1R
chr15 99193743 99194242 IGF1R
chr15 101459033 101459532 LRRK1
chr16 21170817 21171316 DNAH3, TMEM159
chr17 4981360 4981859 ZFP3
chr17 4981573 4982072 ZFP3
chr17 29297898 29298397 DPRXP4, RNF135
chr17 29297934 29298433 DPRXP4, RNF135
chr17 29298102 29298601 DPRXP4, RNF135
chr17 42030229 42030728 PYY
chr17 43338973 43339472 MAP3K14-AS1, SPATA32
chr17 43339078 43339577 MAP3K14-AS1, SPATA32
chr17 43339247 43339746 MAP3K14-AS1, SPATA32
chr17 43339262 43339761 MAP3K14-AS1, SPATA32
chr17 46655579 46656078 HOXB3, HOXB4
chr17 48636396 48636895 CACNA1G, CACNA1G-AS1
chr17 59529066 59529565 TBX4
chr17 59529236 59529735 TBX4
chr17 59534597 59535096 TBX4
chr17 59534748 59535247 TBX4
chr17 62777398 62777897 ARHGAP27P1, PLEKHM1P1
chr17 79480858 79481357 ACTG1
chr17 80291438 80291937 SECTM1
chr18 32847001 32847500 ZNF397, ZSCAN30
chr18 55019849 55020348 ST8SIA3
chr19 12305604 12306103 -
chr19 12305619 12306118 -
chr19 12305886 12306385 -
chr19 12305948 12306447 -
chr19 13209731 13210230 LYL1
chr19 36736022 36736521 -
chr19 38182805 38183304 ZNF781
chr19 38754889 38755388 SPINT2
chr19 41316817 41317316 -
chr19 42901057 42901556 LIPE-AS1
chr19 50553817 50554316 LOC400710
chr19 50554030 50554529 LOC400710
chr19 50554201 50554700 LOC400710
chr19 52207103 52207602 SPACA6
chr19 57018819 57019318 ZNF471
chr19 58220045 58220544 ZNF154, ZNF776
chr19 58220120 58220619 ZNF154, ZNF776
chr20 1784026 1784525 -
chr20 30778049 30778548 TSPY26P
chr20 37433979 37434478 PPP1R16B
chr20 50720658 50721157 ZFP64
chr20 50721063 50721562 ZFP64
5-2. 기계학습 모델 구축
선별된 354개의 CpG를 중심으로 ±250bp bin의 normalized value(CPM normalized value)를 인풋으로 사용하였다. 인풋 feature를 사용하여 간경변증과 간암 환자를 구분하는 인공신경망 모델을 구축하였다. 학습에 사용한 인공신경망 알고리즘은 CNN 모델이다.
실시예 3의 표 5와 같이 전체 샘플을 Training, Validation, Test 데이터 세트로 나누어 Training 데이터 세트는 모델 학습, Validation 데이터 세트는 hyper-parameter tuning, Test 데이터 세트는 최종 모델 성능 평가에 사용하였다.
CNN 모델에 구조는 convolution layer -> pooling layer -> fully connected layer 순으로 이루어져 있고, convolution layer 다음에는 항상 pooling layer가 삽입되어 있어, Convolution layer 개수 및 fully connected layer에 개수는 hyper-parameter tuning 과정을 통해서 결정하였으며, 모델을 학습할 때, 수식 1의 손실함수(loss function)를 최소화하는 방향으로 학습을 진행하였다.
Hyper-parameter tuning 과정은 RandomForest 모델을 이루는 여러 parameter(n_estimators, criterion, max_features, max_depth, min_samples_leaf) 값을 최적화하는 과정으로, Hyper-parameter tuning 과정에는 Bayesian optimization 기법이 사용되고, Training loss 대비 validation loss가 증가하기 시작하면 모델이 과적합(Overfitting) 되었다 판단되어 모델 학습을 중단하였다.
Hyper-parameter tuning을 통해서 얻어진 여러 모델의 성능을 Validation 데이터 세트를 이용하여 비교하여, 그 중 Validation 데이터 세트 성능이 가장 좋은 모델을 최적의 모델이라 판단하였고, 선별한 모델에 데이터를 입력하고, output layter에 수식 2의 sigmoid function을 사용하여 DPI 값을 수득하였다. Test 데이터 세트로 최종 성능 평가를 수행하였으며, 계산된 predicted probability(DPI value)를 이용하여 cancer 여부를 예측하였으며, 계산된 확률값이 0.5 초과일 경우에는 간암인 것으로 판정하였다.
5-3. 기계학습 모델 성능 확인
실시예 5-2에서 구축한 모델을 사용하였을 때, 표 7 및 도 2에 기재된 바와 같이, Accuracy는 Train, Validation, Test 그룹에서 각각 0.93, 0.93, 0.84로 확인되었고, ROC 분석 결과인 AUC 값은 Train, Validation, Test 그룹에서 각각 0.96, 0.97, 0.90인 것을 확인하였다.
Accuracy AUC
Train 0.93 0.96
Validation 0.93 0.97
Test 0.84 0.90
실시예 6. TCGA methylation 450K array 데이터에서 간암 특이적 메틸화 영역 선별
아울러, 간암 특이적 메틸화 영역의 최소 조합을 찾기 위하여 The Cancer Genome Atlas (TCGA)에서 Infinium Human Methylation 450K BeadChip array 데이터(UCSC Xena, http://xena.ucsc.edu)를 사용하여 메틸화 정도를 확인하였다. 조직으로부터 추출된 DNA는 바이설파이트 처리를 통해 변환되며, DNA 메틸화 여부는 사이토신 염기의 변형을 통해 확인할 수 있다. 각 영역마다 메틸화 정도를 확인할 수 있으며, 메틸화 정도를 나타내는 값인 베타 값(beta value)을 사용하여 간암 조직과 주변 정상 조직간의 차별적으로 메틸화된 영역을 선별하였다.
TCGA methylation 450k array 데이터는 표 8과 같다.
Primary Solid Tumor Solid Tissue Normal Total
LIHC 377 50 427
먼저, 약 48만개(480K)의 영역에서 결측값(missing value)을 제외한 다음, 유의미한 과메틸화 영역를 선별하기 위해 메틸화 점수를 사용계산하였다. 메틸화 점수는 각 샘플 마다 선별된 CpG의 베타 값을 전부 합한 값이다.
무작위로 20개의 CpG 영역을 1000번 복원 추출하여 CpG 영역 세트를 구성한 다음, 각각의 CpG 영역 세트를 활용하여 427개의 간암 조직과 주변 정상 조직의 메틸화 점수를 계산하였다(도 5).
메틸화 점수를 활용하여 간암 조직과 주변 정상 조직을 분류하는 AUC를 계산하고 가장 높은 AUC의 CpG 영역 세트를 선별한 결과, 표 9와 같은 AUC가 0.975인 20개의 과메틸화 영역을 선별하였다(도 6 내지 도 7).
chromosome start end gene illumina ProbID 추가된 marker
chr1 59042275 59042276 TACSTD2 cg24851854 O
chr1 119532189 119532190 TBX15 cg05940231 X
chr1 119532195 119532196 TBX15 cg25340966 X
chr1 146551744 146551745 - cg21908235 X
chr2 45160445 45160446 - cg03714619 X
chr2 208989248 208989249 CRYGD / LOC100507443 cg22399133 O
chr4 41882163 41882164 LINC00682 cg24722073 X
chr6 1624978 1624979 GMDS cg21347053 X
chr6 26240579 26240580 H4C6 cg05159188 X
chr6 26252265 26252266 H2BC9 cg15080119 X
chr7 27225523 27225524 HOXA11 / HOXA11-AS cg05311410 O
chr7 27252541 27252542 - cg05379541 X
chr8 11540407 11540408 GATA4 cg06991484 X
chr10 77168431 77168432 ZNF503-AS2 cg00773413 O
chr14 54423433 54423434 BMP4 cg14310034 X
chr14 100632950 100632951 - cg10118513 X
chr15 58357204 58357205 ALDH1A2 cg12382153 O
chr17 80291775 80291776 SECTM1 cg02553663 X
chr18 32847566 32847567 ZSCAN30 cg16657538 O
chr19 41317067 41317068 - cg06611810 X
두 마커를 모두 조합한 360개의 메틸화 마커 조합은 하기 표 10과 같다.
chr start end gene
chr1 46632446 46632945 PIK3R3
chr1 46632621 46633120 PIK3R3
chr1 47697715 47698214 STIL, TAL1
chr1 47908984 47909483 -
chr1 47909931 47910430 -
chr1 47910206 47910705 -
chr1 47910593 47911092 -
chr1 48058627 48059126 -
chr1 48058711 48059210 -
chr1 67772878 67773377 IL12RB2
chr1 87617460 87617959 LINC01140
chr1 91192216 91192715 -
chr1 110610649 110611148 ALX3
chr1 119522605 119523104 TBX15
chr1 119526861 119527360 TBX15
chr1 119526906 119527405 TBX15
chr1 119527634 119528133 TBX15
chr1 119529680 119530179 TBX15
chr1 119531806 119532305 TBX15
chr1 119531866 119532365 TBX15
chr1 119531939 119532438 TBX15
chr1 119531945 119532444 TBX15
chr1 119532523 119533022 TBX15
chr1 119532675 119533174 TBX15
chr1 119542807 119543306 -
chr1 119542966 119543465 -
chr1 119543086 119543585 -
chr1 119548277 119548776 -
chr1 119548575 119549074 -
chr1 119548602 119549101 -
chr1 119548895 119549394 -
chr1 119549013 119549512 -
chr1 151812171 151812670 C2CD4D, C2CD4D-AS1
chr1 151812185 151812684 C2CD4D, C2CD4D-AS1
chr1 151812274 151812773 C2CD4D, C2CD4D-AS1
chr1 151812460 151812959 C2CD4D, C2CD4D-AS1
chr1 154474923 154475422 SHE, TDRD10
chr1 156130576 156131075 SEMA4A
chr1 156389874 156390373 MIR9-1, MIR9-1HG
chr1 160951657 160952156 -
chr1 161275311 161275810 MPZ
chr1 169396462 169396961 CCDC181
chr1 170629820 170630319 PRRX1
chr1 170630308 170630807 PRRX1
chr1 171810218 171810717 DNM3
chr1 171810722 171811221 DNM3
chr1 171811049 171811548 DNM3
chr1 197882219 197882718 LHX9
chr1 203598323 203598822 ATP2B4
chr1 213123425 213123924 VASH2
chr1 213123636 213124135 VASH2
chr1 213123715 213124214 VASH2
chr1 221064450 221064949 -
chr1 228645797 228646296 H2AW, H2BU1, MIR4666A
chr1 247171153 247171652 ZNF670-ZNF695, ZNF695
chr1 119531794 119532293 TBX15
chr1 146551494 146551993 -
chr1 59042275 59042276 TACSTD2
chr10 8094284 8094783 GATA3, GATA3-AS1
chr10 16562220 16562719 C1QL3
chr10 17271679 17272178 VIM
chr10 17271694 17272193 VIM
chr10 17271744 17272243 VIM
chr10 17271867 17272366 VIM
chr10 22541774 22542273 LOC100130992
chr10 22625215 22625714 -
chr10 22765590 22766089 -
chr10 43697758 43698257 RASGEF1A
chr10 93647050 93647549 -
chr10 94834332 94834831 CYP26A1
chr10 94834513 94835012 CYP26A1
chr10 102894793 102895292 TLX1, TLX1NB
chr10 104000581 104001080 GBF1, PITX3
chr10 77168431 77168432 ZNF503-AS2
chr11 13689872 13690371 FAR1
chr11 13689910 13690409 FAR1
chr11 13690452 13690951 FAR1
chr11 31826324 31826823 PAX6
chr11 69517049 69517548 FGF19
chr11 69517221 69517720 FGF19
chr11 69517591 69518090 FGF19
chr11 69517753 69518252 FGF19
chr11 69517947 69518446 FGF19
chr12 21810029 21810528 LDHB
chr12 21810380 21810879 LDHB
chr12 21810558 21811057 LDHB
chr12 48206598 48207097 HDAC7
chr12 58021319 58021818 B4GALNT1
chr12 58021463 58021962 B4GALNT1
chr12 81102236 81102735 MYF6
chr12 95941619 95942118 USP44
chr12 95941738 95942237 USP44
chr12 95942511 95943010 USP44
chr12 95942657 95943156 USP44
chr12 95942714 95943213 USP44
chr12 115102476 115102975 -
chr13 45149778 45150277 TSC22D1, TSC22D1-AS1
chr13 45150012 45150511 TSC22D1, TSC22D1-AS1
chr13 100627091 100627590 ZIC5
chr13 100641159 100641658 -
chr13 100641396 100641895 -
chr13 107186620 107187119 EFNB2
chr13 107186927 107187426 EFNB2
chr14 51027611 51028110 ATL1
chr14 54422525 54423024 BMP4
chr14 61108957 61109456 -
chr14 54423183 54423682 BMP4
chr14 100632700 100633199 -
chr15 33009281 33009780 GREM1
chr15 41805280 41805779 LTK
chr15 55880644 55881143 PYGO1
chr15 65186056 65186555 -
chr15 68260324 68260823 -
chr15 69087559 69088058 ANP32A
chr15 99193679 99194178 IGF1R
chr15 99193743 99194242 IGF1R
chr15 101459033 101459532 LRRK1
chr15 58357204 58357205 ALDH1A2
chr16 21170817 21171316 DNAH3, TMEM159
chr17 4981360 4981859 ZFP3
chr17 4981573 4982072 ZFP3
chr17 29297898 29298397 DPRXP4, RNF135
chr17 29297934 29298433 DPRXP4, RNF135
chr17 29298102 29298601 DPRXP4, RNF135
chr17 42030229 42030728 PYY
chr17 43338973 43339472 MAP3K14-AS1, SPATA32
chr17 43339078 43339577 MAP3K14-AS1, SPATA32
chr17 43339247 43339746 MAP3K14-AS1, SPATA32
chr17 43339262 43339761 MAP3K14-AS1, SPATA32
chr17 46655579 46656078 HOXB3, HOXB4
chr17 48636396 48636895 CACNA1G, CACNA1G-AS1
chr17 59529066 59529565 TBX4
chr17 59529236 59529735 TBX4
chr17 59534597 59535096 TBX4
chr17 59534748 59535247 TBX4
chr17 62777398 62777897 ARHGAP27P1, PLEKHM1P1
chr17 79480858 79481357 ACTG1
chr17 80291438 80291937 SECTM1
chr18 32847001 32847500 ZNF397, ZSCAN30
chr18 55019849 55020348 ST8SIA3
chr18 32847566 32847567 ZSCAN30
chr19 12305604 12306103 -
chr19 12305619 12306118 -
chr19 12305886 12306385 -
chr19 12305948 12306447 -
chr19 13209731 13210230 LYL1
chr19 36736022 36736521 -
chr19 38182805 38183304 ZNF781
chr19 38754889 38755388 SPINT2
chr19 42901057 42901556 LIPE-AS1
chr19 50553817 50554316 LOC400710
chr19 50554030 50554529 LOC400710
chr19 50554201 50554700 LOC400710
chr19 52207103 52207602 SPACA6
chr19 57018819 57019318 ZNF471
chr19 58220045 58220544 ZNF154, ZNF776
chr19 58220120 58220619 ZNF154, ZNF776
chr19 41316817 41317316 -
chr2 20068452 20068951 LINC00954
chr2 25438860 25439359 -
chr2 45159843 45160342 -
chr2 45160195 45160694 -
chr2 45170072 45170571 SIX3
chr2 45231217 45231716 -
chr2 45231532 45232031 -
chr2 45231641 45232140 -
chr2 45232167 45232666 SIX2
chr2 63280819 63281318 OTX1
chr2 63280889 63281388 OTX1
chr2 63281067 63281566 OTX1
chr2 63281133 63281632 OTX1
chr2 63281594 63282093 OTX1
chr2 63282452 63282951 OTX1
chr2 63282763 63283262 OTX1
chr2 63283717 63284216 OTX1
chr2 63283816 63284315 OTX1
chr2 63284518 63285017 OTX1
chr2 63285799 63286298 -
chr2 74425262 74425761 MTHFD2
chr2 74425330 74425829 MTHFD2
chr2 74781846 74782345 DOK1, LOXL3
chr2 105470311 105470810 PANTR1, POU3F3
chr2 119067387 119067886 -
chr2 119067503 119068002 -
chr2 157177686 157178185 -
chr2 157178481 157178980 -
chr2 157178639 157179138 -
chr2 160761163 160761662 LY75, LY75-CD302
chr2 176987215 176987714 HOXD9
chr2 177003485 177003984 HOXD-AS2
chr2 177003497 177003996 HOXD-AS2
chr2 200331667 200332166 SATB2, SATB2-AS1
chr2 200331727 200332226 SATB2, SATB2-AS1
chr2 200331775 200332274 SATB2, SATB2-AS1
chr2 200333751 200334250 SATB2, SATB2-AS1
chr2 200334851 200335350 SATB2, SATB2-AS1
chr2 238583254 238583753 LRRFIP1
chr2 45160240 45160739 -
chr2 208989248 208989249 CRYGD / LOC100507443
chr20 1784026 1784525 -
chr20 30778049 30778548 TSPY26P
chr20 37433979 37434478 PPP1R16B
chr20 50720658 50721157 ZFP64
chr20 50721063 50721562 ZFP64
chr3 38080675 38081174 DLEC1
chr3 101497626 101498125 NXPE3
chr3 101497730 101498229 NXPE3
chr3 101497732 101498231 NXPE3
chr3 138658771 138659270 -
chr3 138662065 138662564 FOXL2NB
chr3 138662980 138663479 FOXL2, FOXL2NB
chr3 142837745 142838244 CHST2
chr3 147098318 147098817 -
chr3 147098335 147098834 -
chr3 147105760 147106259 ZIC4
chr3 147136654 147137153 -
chr3 169529777 169530276 LRRC34
chr3 169529787 169530286 LRRC34
chr3 179168510 179169009 GNB4
chr3 179168548 179169047 GNB4
chr3 183145282 183145781 MCF2L2
chr3 186490406 186490905 -
chr4 785994 786493 CPLX1
chr4 41868836 41869335 -
chr4 41880497 41880996 -
chr4 41882330 41882829 -
chr4 76555297 76555796 CDKL2
chr4 76555384 76555883 CDKL2
chr4 76555522 76556021 CDKL2
chr4 76555527 76556026 CDKL2
chr4 76555532 76556031 CDKL2
chr4 41881913 41882412 -
chr5 7849953 7850452 C5orf49
chr5 7850188 7850687 C5orf49
chr5 32713473 32713972 NPR3
chr5 40680887 40681386 PTGER4
chr5 40681643 40682142 PTGER4
chr5 42950942 42951441 -
chr5 42951863 42952362 -
chr5 42992524 42993023 -
chr5 43017435 43017934 LOC648987
chr5 43018193 43018692 LOC648987
chr5 54516555 54517054 MCIDAS
chr5 94955506 94956005 GPR150
chr5 112073100 112073599 APC
chr5 112073123 112073622 APC
chr5 112073148 112073647 APC
chr5 112073156 112073655 APC
chr5 112073176 112073675 APC
chr5 112073188 112073687 APC
chr5 139047755 139048254 CXXC5
chr5 139047856 139048355 CXXC5
chr5 169064201 169064700 DOCK2
chr5 170736027 170736526 TLX3
chr6 3228983 3229482 TUBB2B
chr6 5026074 5026573 -
chr6 5026185 5026684 -
chr6 10425398 10425897 -
chr6 10425849 10426348 -
chr6 26235004 26235503 H1-3
chr6 26240670 26241169 H4C6
chr6 26250494 26250993 H2BC9, H3C7, H4C7
chr6 26250669 26251168 H2BC9, H3C7, H4C7
chr6 26250686 26251185 H2BC9, H3C7, H4C7
chr6 26251649 26252148 H2BC9, H3C7, H4C7
chr6 26271466 26271965 H2BC10, H3C8
chr6 26271468 26271967 H2BC10, H3C8
chr6 26271566 26272065 H2BC10, H3C8
chr6 26271577 26272076 H2BC10, H3C8
chr6 26550760 26551259 -
chr6 26614399 26614898 -
chr6 27462967 27463466 -
chr6 27858387 27858886 H2BC17, H3C12
chr6 28411037 28411536 ZSCAN23
chr6 42738717 42739216 -
chr6 42738799 42739298 -
chr6 100911437 100911936 SIM1
chr6 100912656 100913155 SIM1
chr6 100912690 100913189 SIM1
chr6 100912696 100913195 SIM1
chr6 100915517 100916016 SIM1
chr6 108488085 108488584 NR2E1
chr6 108490645 108491144 NR2E1
chr6 108495615 108496114 NR2E1
chr6 108495735 108496234 NR2E1
chr6 133561851 133562350 EYA4
chr6 133562216 133562715 EYA4
chr6 133562220 133562719 EYA4
chr6 133562225 133562724 EYA4
chr6 133562229 133562728 EYA4
chr6 133562235 133562734 EYA4
chr6 133562242 133562741 EYA4
chr6 133562244 133562743 EYA4
chr6 1624861 1625360 GMDS
chr6 26240532 26241031 H4C6
chr6 26252015 26252514 H2BC9, H3C7, H4C7
chr7 27204478 27204977 HOXA10-AS, HOXA10-HOXA9, HOXA9
chr7 27204731 27205230 HOXA10-AS, HOXA10-HOXA9, HOXA9
chr7 27204967 27205466 HOXA10-AS, HOXA10-HOXA9, HOXA9
chr7 27213734 27214233 HOXA10, HOXA10-HOXA9, MIR196B
chr7 27213793 27214292 HOXA10, HOXA10-HOXA9, MIR196B
chr7 27213806 27214305 HOXA10, HOXA10-HOXA9, MIR196B
chr7 27232587 27233086 -
chr7 27232823 27233322 -
chr7 27232891 27233390 -
chr7 27245292 27245791 HOTTIP
chr7 27284539 27285038 EVX1
chr7 27291096 27291595 -
chr7 28996389 28996888 TRIL
chr7 28996652 28997151 TRIL
chr7 28996923 28997422 TRIL
chr7 28997235 28997734 TRIL
chr7 28997616 28998115 TRIL
chr7 28997828 28998327 TRIL
chr7 76828635 76829134 CCDC146, FGL2
chr7 96636366 96636865 DLX6, DLX6-AS1
chr7 96636496 96636995 DLX6, DLX6-AS1
chr7 96651031 96651530 DLX5
chr7 96651865 96652364 DLX5
chr7 96651873 96652372 DLX5
chr7 117119174 117119673 CFTR
chr7 117119351 117119850 CFTR
chr7 117119361 117119860 CFTR
chr7 117119387 117119886 CFTR
chr7 117119688 117120187 CFTR
chr7 134143656 134144155 AKR1B1
chr7 134143669 134144168 AKR1B1
chr7 134143786 134144285 AKR1B1
chr7 143042491 143042990 CLCN1
chr7 143042548 143043047 CLCN1
chr7 151329758 151330257 PRKAG2
chr7 27252291 27252790 -
chr7 27225523 27225524 HOXA11 / HOXA11-AS
chr8 41424092 41424591 -
chr8 49292435 49292934 -
chr8 53851934 53852433 NPBWR1
chr8 57069657 57070156 -
chr8 59058004 59058503 FAM110B
chr8 67873093 67873592 TCF24
chr8 67873226 67873725 TCF24
chr8 67873549 67874048 TCF24
chr8 67873928 67874427 TCF24
chr8 67874116 67874615 TCF24
chr8 67874783 67875282 TCF24
chr8 70981789 70982288 PRDM14
chr8 86350318 86350817 CA13, CA3
chr8 86350331 86350830 CA13, CA3
chr8 98289898 98290397 TSPYL5
chr8 99951797 99952296 OSR2, STK3
chr8 99959473 99959972 OSR2, STK3
chr8 99959898 99960397 OSR2
chr8 99961295 99961794 OSR2
chr8 99961624 99962123 OSR2
chr8 102504197 102504696 GRHL2
chr8 102504251 102504750 GRHL2
chr8 102504314 102504813 GRHL2
chr8 102505306 102505805 GRHL2
chr8 104512833 104513332 RIMS2
chr8 11540157 11540656 GATA4
chr9 110228019 110228518 -
실시예 7. 임상 샘플에서의 마커 패널 성능 확인
표 11의 간 견변증 환자 2명, 간암 환자 40명 및 정상인 40명의 샘플에서 Targeted EM-Seq을 수행하여 상기 마커 세트(표 6 및 표 9)의 성능을 각각 확인하였다.
Normal Liver cirrhosis Liver cancer Total
Train 23 - 23 46
Validation 9 - 8 17
Test 8 2 9 19
Total 40 2 40 82
7-1. Targeted EM-Seq 수행
상기 환자들의 혈액을 채취한 다음, 3000 rpm, 25℃10분의 조건으로 혈장 부분만 1차 원심분리한 다음, 1차 원심 분리된 혈장을 16000g, 25℃10분의 조건으로 2차 원심분리하여 침전물을 제외한 혈장 상층액을 분리하고, 분리한 혈장에 대해 Mag-bind cfDNA kit 사용하여 cell-free DNA를 추출하고 농도는 Qubit DS DNA HS assay Kit(Thermo Fisher Scientific, USA)를 사용하여 측정하였다. 추출한 cfDNA의 최대량을 사용하여 ten-eleven translocation dioxygenase 2(TET2)와 APOBEC을 사용해 un-methylated cytosine을 Uracil로 치환하는 과정을 거쳐 methylation conversion을 한 뒤 enzymatic methyl-seq (NEB Kit)를 사용하여 library 제작하였다.
제작한 DNA library의 농도와 size를 각각 Qubit DS DNA HS assay Kit(Thermo Fisher Scientific, USA)과 Tapestation 4200(Agilent, USA)을 사용해 측정하였다. 200ng의 Library를 8검체씩 pooling하여, Hybridization 진행한 다음, capture된 샘플을 Tapestation 4200(Agilent, USA)으로 High sensitivity D1000 screen tape & Reagent(Agilent, USA)를 사용하여 농도를 측정하였다. Miseq Dx (Illumina)장비를 사용하여 150 paired-end 모드로 Final 농도를 10pM에 맞추어 sequencing을 진행하여, 샘플 당 650X depth를 생산하였다.
7-2. 성능 확인
메틸화된 세포 유리 핵산을 sequencing하였기 때문에, 확보되는 핵산 단편 데이터는 메틸화가 되어있고, 이를 휴먼 참조 유전체에 정렬을 하여 전체 휴먼 유전체 영역에서 메틸화가 된 영역들을 확인할 수 있다. EM-Seq 데이터는 메틸화된 Cytosine영역은 그대로 Cytosine으로 남아있고, 메틸화되지 않은 Cytosine들은 Thymine으로 변환되어 메틸화된 영역과 메틸화된 정도를 확인할 수 있다.
먼저, Trim Galore(version 0.6.6)를 이용하여 fastq 파일에서 adapter trimming과 quality trimming을 수행한 다음, Bismark(version 0.23.0) alignment tool을 이용하여 핵산 단편 데이터를 참조 유전체(hg19)에 정렬하고, Samtools view (version 1.11) tool을 이용하여 mapping quality가 10이상이고 chr1~22,X,Y의 핵산 단편만 선별한 뒤, Bismark(version 0.23.0)의 bismark_methylation_extractor를 활용하여 methylation calling을 진행하였다.
methylKit (version 1.12.0) R package를 이용하여 Tumor, Normal sample들의 beta value(methylation percentage)값을 하나의 파일로 merge하였다.
이를 바탕으로 실시예 5-2와 동일한 방법으로 354개 마커 기반의 간암 진단을 위한 CNN 모델을 구축한 다음, DPI 값을 이용하여 암 진단 성능을 확인하였다.
그 결과, 표 12, 도 8 및 9에 기재된 바와 같이,Accuracy는 Train, Validation, Test 그룹에서 각각 1.00, 1.00, 0.95로 확인하였고, ROC 분석 결과인 AUC 값은 Train, Validation, Test 그룹에서 각각 1.00, 1.00, 0.94인 것을 확인하였고,
Accuracy AUC
Train 1.00 1.00
Validation 1.00 1.00
Test 0.95 0.94
동일한 방법으로 14개 마커를 사용하여 수득한 EM-Seq 결과를 기반으로 구축한 CNN 모델에서 DPI 값을 이용하여 암 진단 성능을 확인한 결과, 표 13, 도 10 및 11에 기재된 바와 같이, Accuracy는 Train, Validation, Test 그룹에서 각각 0.87, 1.00, 0.84로 확인하였고, ROC 분석 결과인 AUC 값은 Train, Validation, Test 그룹에서 각각 0.98, 1.00, 0.83인 것을 확인하였으며,
Accuracy AUC
Train 0.87 0.98
Validation 1.00 1.00
Test 0.84 0.83
이상으로 본 발명 내용의 특정한 부분을 상세히 기술하였는 바, 당업계의 통상의 지식을 가진 자에게 있어서 이러한 구체적 기술은 단지 바람직한 실시 양태일 뿐이며, 이에 의해 본 발명의 범위가 제한되는 것이 아닌 점은 명백할 것이다. 따라서, 본 발명의 실질적인 범위는 첨부된 청구항들과 그것들의 등가물에 의하여 정의된다고 할 것이다.

Claims (9)

  1. 하기 표 1로 표시되는 DNA 메틸화 마커를 포함하는 간암 진단용 DNA 메틸화 마커 조합.

  2. 제1항에 있어서, 상기 간암 진단용 DNA 메틸화 마커 조합은 하기 표 2로 표시되는 DNA 마커를 추가로 포함하는 것을 특징으로 하는 간암 진단용 DNA 메틸화 마커 조합.

  3. 제1항에 있어서, 상기 간암 진단용 DNA 메틸화 마커 조합은 하기 표 3으로 표시되는 DNA 마커로 구성된 군에서 선택되는 2 이상의 DNA 메틸화 마커를 추가로 포함하는 것을 특징으로 하는 간암 진단용 DNA 메틸화 마커 조합.






  4. (a) 생체 시료에서 DNA를 분리하는 단계;
    (b) 제1항의 DNA 메틸화 마커 조합의 메틸화 수준을 검출하는 단계; 및
    (c) 상기 검출된 DNA 메틸화 마커 수준이 기준값(cut-off value)을 초과할 경우, 간암으로 판정하는 단계;
    를 포함하는 간암 진단을 위한 정보의 제공방법.
  5. 제4항에 있어서, 상기 (c) 단계는 검출된 DNA 메틸화 마커 조합의 메틸화 수준의 정보를 간암을 진단하도록 학습된 인공지능 모델에 입력하여 분석한 출력 결과값과 기준값(cut-off value)을 비교하여 간암 유무를 판정하는 단계로 수행되는 것을 특징으로 간암 진단을 위한 정보의 제공방법.
  6. 제4항에 있어서, 상기 (b) 단계의 메틸화 수준의 검출은, PCR, 메틸화 특이 PCR(methylation specific PCR), 실시간 메틸화 특이 PCR(real time methylation specific PCR), 메틸화 DNA 특이적 결합 단백질을 이용한 PCR, 정량 PCR, 메틸화 특이적인 PNA를 이용하는 PCR, melting curve analysis, DNA 칩, 파이로시퀀싱, 바이설파이트 시퀀싱 및 메틸화 차세대 염기서열 시퀀싱으로 구성된 군으로부터 선택된 어느 하나의 방법을 이용하는 것을 특징으로 하는 간암 진단을 위한 정보의 제공방법.
  7. 제1항 내지 제3항 중 어느 한 항의 DNA 메틸화 마커 조합의 DNA 메틸화 마커를 각각 증폭할 수 있는 프라이머 조합을 포함하는 간암 진단용 조성물.
  8. 제1항 내지 제3항 중 어느 한 항의 DNA 메틸화 마커 조합의 DNA 메티로하 마커의 메틸화된 염기를 함유하는 10개 이상의 연속 염기를 포함하는 폴리뉴클레오타이드 또는 그의 상보적인 폴리뉴클레오타이드와 특이적으로 각각 혼성화할 수 있는 프로브 조합을 포함하는 간암 진단용 조성물.
  9. 제7항 또는 제8항의 조성물을 포함하는 간암 진단용 키트.
KR1020230148519A 2022-10-31 2023-10-31 간암 진단용 dna 메틸화 마커 및 이의 용도 KR102701682B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020220142050 2022-10-31
KR20220142050 2022-10-31

Publications (2)

Publication Number Publication Date
KR20240063034A true KR20240063034A (ko) 2024-05-09
KR102701682B1 KR102701682B1 (ko) 2024-09-02

Family

ID=90931051

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230148519A KR102701682B1 (ko) 2022-10-31 2023-10-31 간암 진단용 dna 메틸화 마커 및 이의 용도

Country Status (2)

Country Link
KR (1) KR102701682B1 (ko)
WO (1) WO2024096538A1 (ko)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2021003164A (es) * 2018-09-19 2021-06-23 Bluestar Genomics Inc Perfiles de hidroximetilación de adn circulante en la evaluación de lesiones pancreáticas.
KR102068310B1 (ko) * 2019-02-28 2020-01-20 주식회사 레피다인 간암 재발 예측용 dna 메틸화 마커 및 이의 용도
KR20210044441A (ko) * 2019-10-15 2021-04-23 주식회사 젠큐릭스 특정 유전자의 CpG 메틸화 변화를 이용한 대장암, 직장암 또는 대장 선종 진단용 조성물 및 이의 용도
KR20220069869A (ko) * 2020-11-20 2022-05-27 연세대학교 산학협력단 간암의 예후 예측을 위한 정보 제공 방법
AU2022245306A1 (en) * 2021-03-26 2023-10-12 Freenome Holdings, Inc. Methods and systems for detecting cancer via nucleic acid methylation analysis

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Aging (Albany NY), 13(13): 17592-17606 (2021.07.08.) *
BMC Med Genomics, 14(1): 163 (2021.06.19.) *

Also Published As

Publication number Publication date
KR102701682B1 (ko) 2024-09-02
WO2024096538A1 (ko) 2024-05-10

Similar Documents

Publication Publication Date Title
JP6161607B2 (ja) サンプルにおける異なる異数性の有無を決定する方法
AU2017316709B2 (en) Methods of identifying microsatellite instability
US11814687B2 (en) Methods for characterizing bladder cancer
EP4127231A1 (en) Cancer classification with genomic region modeling
CN111424091B (zh) 一组鉴别诊断甲状腺滤泡性肿瘤良恶性的标志物及其应用
EP3149209B1 (en) Methods for typing of lung cancer
US20220098677A1 (en) Method for determining rcc subtypes
EP2657348B1 (en) Diagnostic miRNA profiles in multiple sclerosis
EP3464640A1 (en) Methods of mast cell tumor prognosis and uses thereof
WO2022262831A1 (zh) 用于评估肿瘤的物质及其方法
KR102701682B1 (ko) 간암 진단용 dna 메틸화 마커 및 이의 용도
WO2015127103A1 (en) Methods for treating hepatocellular carcinoma
KR102701683B1 (ko) 폐암 진단용 dna 메틸화 마커 및 이의 용도
EP3409788B1 (en) Method and system for nucleic acid sequencing
US20240055073A1 (en) Sample contamination detection of contaminated fragments with cpg-snp contamination markers
EP4234720A1 (en) Epigenetic biomarkers for the diagnosis of thyroid cancer
US20240309461A1 (en) Sample barcode in multiplex sample sequencing
TW202330938A (zh) 用於評估腫瘤的物質及其方法
US20220170110A1 (en) Cancer diagnostic marker using transposase-accessible chromatin sequencing information about individual, and use thereof
CN117649874A (zh) 基于肠道微生物组成的前列腺癌分子分型体系的建立方法
KR20240059529A (ko) 폐암 진단용 메틸화 마커 및 이의 조합
WO2024155909A1 (en) Methods for identifying ovarian cancer in a subject
WO2022226229A9 (en) Cellular heterogeneity–adjusted clonal methylation (chalm): a methylation quantification method
Cho Sparsity and scarcity: Multiomic studies in a low resource setting (A study in archival FFPE cancer tissue)

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant